Análisis_de_regresión__2018_-_EDA

•
SIN SIGLA

Sebastian Sanchez Guerrero
25/5/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística Aplicada

24.204 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
ANÁLISIS DE 
REGRESIÓN
EDA
2018
Prof. Valeria Quevedo
Contenido
• Introducción
• Regresión lineal simple
• Regresión múltiple
• Análisis de residuos
• Regresión logística
De datos a información
1211109876
8
7
6
5
4
3
2
1
Log de Income per capita 2017
Ch
ild
re
n 
pe
r w
om
an
 2
01
7
INTRODUCCIÓN
Introducción
• Un análisis de regresión estudia la relación que existe entre variables. 
• Estas relaciones pueden ser expresadas a través de ecuaciones que describen la 
relación estadística entre la variable de respuesta y una o más variables predictoras. 
• Ejemplos:
• Qué tanto los años de experiencia, de educación y el género influyen en el sueldo de 
una empresa.
• Cómo el consumo de energía anual en una empresa, depende del cambio climático, 
área construida y/o máquinas instaladas.
• El impacto de la temperatura en la presión del vapor de un líquido.
• ¿El gasto en marketing puede ayudarnos a predecir las ventas de una empresa?
• ¿El tiempo de permanencia de un paciente en un hospital puede ser estimado en 
base a su relación con la severidad de la operación?
• …
Relaciones entre variables
• Nos interesa ver si dos o más variables están relacionadas. Si lo 
están, podremos plantear un modelo (una relación funcional) que 
describa dicha relación.
• Lo primero que debemos distinguir es la diferencia entre relación 
funcional y relación estadística entre dos variables. 
Relaciones entre variables
Relación funcional: Y=f(X)
oY es la variable dependiente
o X es la variable independiente.
Relaciones entre variables
Relación estadística: Y=f(X) + e
oNo es una relación perfecta.
oY es la variable de respuesta y 
X la variable predictora o 
explicativa.
Correlación y causalidad
Correlación no implica 
causalidad, es decir, no 
implica una relación 
causa-efecto.
Recolección de datos
• Tipos de recolección de datos:
• Data histórica. 
• Data Observacional. Por ejemplo, a través de encuestas. El investigador
observa y puede decidir qué variables recolectar pero no tiene control 
sobre ellas.
• Diseño de experimentos. Se tiene control sobre las variables que 
intervienen en el proceso. 
Data de tipo corte transversal
Temperatura Concentración 
Porcentaje de 
impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9
Data de tipo corte transversal
Series de tiempo
Mes Temperatura
Libras de vapor 
de aire/1000 pie 
cúbico
Ene 21 185.79
Feb 24 214.47
Mar 32 288.03
Abr 47 424.84
May 50 454.58
Jun 59 539.03
Jul 68 621.55
Ago 74 675.06
Set 62 562.03
Oct 50 452.93
Nov 41 369.95
Dic 30 273.98
Tres herramientas
• Hay tres herramientas que podemos usar para describir y 
cuantificar la relación entre dos variables cuantitativas:
1. Gráfico de dispersión.
2. Correlación: medida estática que mide la fuerza y dirección de la 
relación lineal entre dos variables cuantitativas.
3. Regresión lineal: Ecuación que describe la relación promedio 
entre una variable respuesta (y) y las explicativas o predictoras
(x’s)
Gráfico de dispersión
Con la gráfica de 
dispersión podremos 
observar la relación entre 
dos variables.
4.54.03.53.02.52.01.5
4.5
4.0
3.5
3.0
2.5
2.0
1.5
lnLab
ln
Fi
el
d
Scatterplot of lnField vs lnLab
1211109876
8
7
6
5
4
3
2
1
Log de Income per capita 2017
Ch
ild
re
n 
pe
r w
om
a n
 2
0 1
7
Gráfico de dispersión
Estadística Aplicada
Facultad de Ingeniería
2017-I
Universidad de Piura
Gráfico de dispersión
¿Hay alguna relación?
Gráfico de dispersión
Medidas de asociación
Medidas de relaciones lineales entre dos variables:
1. Covarianza
• Mide la fuerza de la relación entre dos variables.
• Puede ser positiva o negativa.
• Si no hay relación entre las variables, la covarianza será cercana a cero.
• No se puede sin embargo interpretar la magnitud de la covarianza.
Medidas de asociación
2. Correlación (r)
• Medida numérica que mide la fuerza de la relación lineal entre dos variables.
• El numerador indica la asociación entre dos variables X y Y (Covarianza).
• Dependiendo del signo, positivo o negativo, se puede ver si están relacionados 
positiva o negativamente.
• Sólo toma valores de entre -1 y 1. (-1 ≤ r ≤ 1)
• Si el valor se acerca a 1 o -1, significa que la relación entre estas dos variables es fuerte. 
• Si se acerca a 0, la relación entre estas dos variables es débil.
Correlación
Limitación:
 La correlación puede sólo medir la fuerza de una relación LINEAL 
entre dos variables.
 Si son relaciones no lineales, ese valor de correlación puede ser 
erróneo.
Correlación
Correlación
Correlación
Matriz de correlación
Temperatura
Concentraci
ón 
Porcentaje de 
impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9
14.5
15
15.5
16
16.5
17
17.5
18
83 83.5 84 84.5 85 85.5 86 86.5
Po
rc
en
ta
je
 d
e 
im
pu
re
za
s
Temperatura (F)
14.5
15
15.5
16
16.5
17
17.5
18
42 42.5 43 43.5 44 44.5
Po
rc
en
ta
je
 d
e 
im
pu
re
za
s
Concentración
42.2
42.4
42.6
42.8
43
43.2
43.4
43.6
43.8
44
44.2
83 83.5 84 84.5 85 85.5 86 86.5
C
on
ce
nt
ra
ci
ón
Temperatura
Matriz de correlación
Temperatura
Concentraci
ón 
Porcentaje de 
impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9Matriz de Correlación
Temperatura Concentración 
Porcentaje de 
impurezas
Temperatura 1
Concentración -0.4987 (0.069) 1
Porcentaje de 
impurezas -0.0296 (0.920) 0.3091 (0.282) 1
Matriz de correlación
Temperatura
Concentraci
ón 
Porcentaje de 
impurezas
85.8 42.3 14.9
83.8 43.4 16.9
84.5 42.7 17.4
86.3 43.6 16.9
85.2 43.2 16.9
83.8 43.7 16.7
86.1 43.3 17.1
85.9 43.4 16.9
85.7 43.3 16.7
86.3 42.6 16.9
83.5 44 16.7
85.8 42.8 17.1
85.9 43.1 17.6
84.2 43.5 16.9
86
85
84
171615
44.043.242.4
44.0
43.2
42.4
868584
17
16
15
Temperatura
Concentración
Porcentaje de impurezas
Matrix Plot of Temperatura, Concentración, Porcentaje de impurezas
Correlación - ejemplo
Mini-caso de estudio
 Pregunta de estudio: 
Evaluar el impacto que tiene la religión sobre el número de bebés 
nacidos por mujer en el mundo vs. Ingreso per-cápita promedio en cada 
país. 
 Usaremos el Gapminder (herramienta gratuita)
https://www.gapminder.org/
Mini-caso de estudio
El gráfico muestra el crecimiento la 
población en el tiempo.
¿Qué tiene que ver la religión en esta 
tendencia?
2016198019441908187218361800
8000
7000
6000
5000
4000
3000
2000
1000
0
Year
To
ta
l P
op
ul
at
io
n 
in
 m
ill
io
ns
Time Series Plot of Total Population
Mini-caso de estudio
 Evaluemos primero el 
mundo por religión
Mini-caso de estudio
 Evaluemos ahora el número de 
bebés nacidos por mujer vs. ingreso 
per cápita, y cómo ha evolucionado 
esta relación en el tiempo.
Mini-caso de estudio
 Ahora, analicemos esa relación 
(#de bebés nacidos por mujer vs. 
ingresos en el tiempo) para cada 
tipo de religión en el 2018.
 ¿Qué observamos? ¿La religión 
actualmente impacta el número de 
bebes nacidos/mujer?
 El análisis visual ayuda y puede 
responder preguntas importantes 
pero falta un análisis objetivo.
REGRESIÓN LINEAL SIMPLE
Regresión lineal simple
• Se trata de plantear un modelo matemático que mida la relación entre dos variables: 
“x” y “y”.
• A la variable “x” se le llama variable explicativa o predictora. A la variable “y” se 
le llama variable de respuesta.
• El modelo de regresión lineal simple es:
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
Siendo:
 yi el valor i-ésimo observado de y. 
 xi el valor i-ésimo observado de x.
 β0 es el interceptoy β1 es la pendiente.
 𝜖𝜖 i el error aleatorio. 
Regresión lineal simple
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
𝛽𝛽0 y 𝛽𝛽1 se desconocen. Se pueden estimar usando el método de mínimos 
cuadrados para el cual se necesita que se cumplan los siguientes supuestos: 
Linealidad
Los errores se distribuyen normalmente, con media igual a 0 y varianza 
σ2: 𝜖𝜖𝑖𝑖 ~ N(0, σ2)
Tienen varianza (σ2) constante.
𝜖𝜖𝑖𝑖 son independientes entre sí.
Regresión lineal simple
Regresión lineal
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑙𝑙𝑙𝑙(𝑥𝑥𝑖𝑖) + 𝜖𝜖𝑖𝑖
𝑙𝑙𝑙𝑙(𝑦𝑦𝑖𝑖) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1
1
𝑥𝑥𝑖𝑖
+ 𝜖𝜖𝑖𝑖
Regresión no lineal
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝑒𝑒𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
Regresión lineal simple
¿Qué representa β0 ? ¿y β1? 
¿Qué significa si β1 =0? 
¿y si β1 <0 o β1>0?
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
Modelo de regresión simple – ejemplo 1
Establezcamos el supuesto de que la producción de soja está determinada por el 
modelo:
𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑙𝑙 𝑝𝑝𝑒𝑒 𝑠𝑠𝑝𝑝𝑠𝑠𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑓𝑓𝑒𝑒𝑝𝑝𝑓𝑓𝑝𝑝𝑙𝑙𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙𝑓𝑓𝑒𝑒 + 𝜖𝜖
¿Qué le interesará saber al agrónomo? 
- El efecto de los fertilizantes sobre la producción de soja.
- Este efecto nos lo da 𝛽𝛽1.
- El término 𝜖𝜖 contiene factores como la calidad de la tierra, la lluvia, etc. 
Modelo de regresión simple – ejemplo 2
El siguiente modelo relaciona el salario de una persona con la educación observada:
𝑠𝑠𝑠𝑠𝑙𝑙𝑠𝑠𝑝𝑝𝑝𝑝𝑝𝑝 𝑝𝑝𝑝𝑝𝑝𝑝 ℎ𝑝𝑝𝑝𝑝𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑒𝑒𝑝𝑝𝑝𝑝𝑝𝑝𝑠𝑠𝑝𝑝𝑝𝑝𝑝𝑙𝑙 + 𝜖𝜖
¿Qué interesa saber? 
- Si educación corresponde al número de años de formación, 𝛽𝛽1 mide el cambio en 
el salario por hora cuando se introduce un año de formación adicional 
manteniendo todos los demás factores fijos. 
- Entre los demás factores (𝜖𝜖) se incluyen la experiencia en el trabajo, la habilidad 
innata, la antigüedad en el empleo actual y otros.
Modelo de regresión simple – ejemplo 3
El siguiente modelo relaciona el porcentaje de austenita en diversos aceros con la 
cantidad de níquel:
𝑃𝑃𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑙𝑙𝑓𝑓𝑠𝑠𝑠𝑠𝑒𝑒 𝑝𝑝𝑒𝑒 𝑠𝑠𝑝𝑝𝑠𝑠𝑓𝑓𝑒𝑒𝑙𝑙𝑝𝑝𝑓𝑓𝑠𝑠 = 𝛽𝛽0 + 𝛽𝛽1 ∗ 𝑝𝑝𝑠𝑠𝑙𝑙𝑓𝑓.𝑝𝑝𝑒𝑒 𝑙𝑙𝑛𝑛𝑛𝑝𝑝𝑒𝑒𝑙𝑙 + 𝜖𝜖
¿Qué interesa saber? 
- 𝛽𝛽1 mide el efecto en el porcentaje de austenita cuando hay una unidad más de 
níquel en la pieza de fierro.
Ajuste lineal
• El �𝑦𝑦𝑖𝑖 (“y” sombrero) es un estimado del “y” real. 
• La diferencia entre valor observado o real (𝑦𝑦𝑖𝑖) y el valor estimado 
(�𝑦𝑦𝑖𝑖) se le llama residuo:
𝑒𝑒𝑖𝑖 = �𝑦𝑦𝑖𝑖 − 𝑦𝑦𝑖𝑖
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
�𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖
Ajuste lineal
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
𝐸𝐸 𝑦𝑦𝑖𝑖 𝑥𝑥𝑖𝑖 = �𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖
Residuo:𝑒𝑒𝑖𝑖 = �𝑦𝑦𝑖𝑖 − 𝑦𝑦𝑖𝑖
Valor observado (real): yi
Valor ajustado o de 
predicción: �𝑦𝑦𝑖𝑖
Residuo: 𝑒𝑒𝑛𝑛 = �𝑦𝑦𝑛𝑛 − 𝑦𝑦𝑛𝑛
𝑒𝑒1 = �𝑦𝑦1 − 𝑦𝑦1
Ajuste lineal
�𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖
Ajuste lineal
• El objetivo es estimar los coeficientes.
• Una de las técnicas para ello es el método de los mínimos cuadrados.
• La idea es que estos residuos (𝑒𝑒𝑖𝑖) sean los más pequeños posibles.
Objetivo: minimizar la suma de los residuos cuadrados (SSRes por sus 
siglas en inglés)
Minimizar 𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = ∑𝑖𝑖=1𝑛𝑛 𝑒𝑒𝑖𝑖2
𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = �
𝑖𝑖=1
𝑛𝑛
{𝑦𝑦𝑖𝑖 − 𝛽𝛽0 − 𝛽𝛽1𝑥𝑥𝑖𝑖 }2
Ajuste lineal
 Resolviendo, se obtiene:
 Esto no es necesario hacerlo pues cualquier software nos hallará 
dichas estimaciones.
𝑏𝑏0 = �𝑦𝑦 − 𝑏𝑏1�̅�𝑥𝑏𝑏1 =
∑(𝑦𝑦𝑖𝑖−�𝑦𝑦)(𝑥𝑥𝑖𝑖−�̅�𝑥)
∑ 𝑥𝑥𝑖𝑖 − �̅�𝑥 2
�𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖
Estimación de σ2
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
Donde los errores son independientes entre sí y 𝜖𝜖𝑖𝑖 ~ N(0, σ2)
Podemos hallar el SSRes (o SSE): suma de los errores cuadrados:
𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠 = �
𝑖𝑖=1
𝑛𝑛
𝑒𝑒𝑖𝑖2
Resulta que: �𝝈𝝈𝟐𝟐 = 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺
𝒏𝒏−𝟐𝟐
¿Por qué los grados de libertad es n-2?
�𝑦𝑦𝑖𝑖 = 𝑏𝑏0 + 𝑏𝑏1𝑥𝑥𝑖𝑖
Análisis del modelo
 ¿Hay relación entre la variable de respuesta y la predictora?
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
Si 𝛽𝛽1 = 0, entonces podemos decir que 𝑦𝑦 no depende de 𝑥𝑥.
Si 𝛽𝛽1 > 0, entonces ambas tienen una relación positiva.
Si 𝛽𝛽1 < 0, entonces ambas tienen una relación negativa.
Prueba de hipótesis de la pendiente
¿Es 𝛽𝛽1=0?
𝐻𝐻0: 𝛽𝛽1 = 0
𝐻𝐻𝑎𝑎: 𝛽𝛽1 ≠ 0
Rechazamos la hipótesis nula si el 𝑓𝑓 > 𝑓𝑓𝑛𝑛−2,∝/2… o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 𝛼𝛼
Al rechazar 𝐻𝐻0, podemos concluir que sí existe relación entre la “x” y la “y”.
Ejemplo
Ejemplo: Se analiza la relación entre la cantidad de níquel (x) y el 
porcentaje de austenita (y) en diversos aceros.
Cantidad de 
Níquel
Porcentaje de 
Austenita
0.608 2.11
0.634 1.95
0.651 2.27
0.658 1.95
0.675 2.05
0.677 2.09
0.702 2.54
0.71 2.51
0.73 2.33
0.75 2.26
0.772 2.47
0.802 2.8
0.819 2.95
Ejemplo
Primer paso: generar un gráfico de dispersión.
En Minitab: Gráficos > Gráfico de dispersión
0.850.800.750.700.650.60
3.0
2.8
2.6
2.4
2.2
2.0
Cantidad de Níquel
Po
rc
en
ta
je
 d
e 
Au
st
en
ita
Scatterplot of Porcentaje de Austenita vs Cantidad de Níquel
Estadísticas > Regresión > Regresión > Ajustar modelo de regresión
Ejemplo: ¿Es 𝛽𝛽1=0?
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total 12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
𝐻𝐻0: 𝛽𝛽1 = 0
𝐻𝐻𝑎𝑎: 𝛽𝛽1 ≠ 0
Si el p-valor <0.05
Rechazamos la 𝐻𝐻0
Estadísticas > Regresión > Regresión > Ajustar modelo de regresión
Ejemplo: modelo matemático
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total 12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
�𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐𝟎𝟎
 Se estima un 2.383 % de austenita en promedio.
Ejemplo en clase: modelo matemático
E(y|x) = �𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐𝟎𝟎
E(y|x) = �𝒚𝒚 = − 𝟎𝟎.𝟓𝟓𝟓𝟓𝟓𝟓 + 𝟒𝟒.𝟎𝟎𝟎𝟎𝟐𝟐 ∗ 𝟎𝟎.𝟕𝟕𝟐𝟐
E(y|x) = �𝒚𝒚 = 𝟐𝟐.𝟑𝟑𝟎𝟎𝟑𝟑
• Para este ejemplo, usando el modelo lineal simple, ¿cuál es el 
estimado promedio de porcentaje de austenita para una cantidad 
níquel de 0.72?
Estimación de la varianza
 Recordemos que 𝜖𝜖i ~ N(0, σ2)
La varianza de los errores 𝜎𝜎2 es desconocida pero podemos estimarla también a 
través de:
�𝜎𝜎2 =
𝑆𝑆𝑆𝑆𝑆𝑆𝑒𝑒𝑠𝑠
𝑙𝑙 − 𝑝𝑝
En donde,
 𝑙𝑙 es el número total de observaciones
 𝑝𝑝 es el número de coeficientes a estimar. 
En este caso solo son dos: 𝛽𝛽0 y 𝛽𝛽1 → p = 2
NOTA: Var(y|x)=𝝈𝝈𝟐𝟐.
Ejemplo: varianza estimada: �𝜎𝜎2
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
�𝜎𝜎2 = 𝟎𝟎.𝟎𝟎𝟑𝟑𝟎𝟎𝟎𝟎𝟐𝟐
 Se estima un 2.383 % de austenita en promedio, con una desviación 
estándar de 𝟎𝟎.𝟎𝟎𝟑𝟑𝟎𝟎𝟎𝟎𝟐𝟐 = 𝟎𝟎.𝟏𝟏𝟕𝟕𝟓𝟓.
 Se puede formar intervalos de confianza usando la �𝜎𝜎
Ejemplo en clase: modelo matemático
E(y|x) = �𝒚𝒚 = 𝟐𝟐.𝟑𝟑𝟎𝟎𝟑𝟑
• ¿Cuál es la desviación estándar del estimado del % de austenita
hallado para una cantidad de 0.72 de níquel?
ANOVA
Tabla ANOVA en Regresión lineal simple:
Medidas de variabilidad
𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠
Ejemplo: ANOVA
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total 12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠
1.1831 = 0.8462 + 0.3369
Prueba de hipótesis para la adecuación 
del modelo lineal general
𝐻𝐻0: 𝛽𝛽1 = 𝛽𝛽2 = ⋯𝛽𝛽𝑝𝑝 = 0
𝐻𝐻𝑎𝑎: 𝑠𝑠𝑙𝑙 𝑚𝑚𝑒𝑒𝑙𝑙𝑝𝑝𝑠𝑠 𝑝𝑝𝑙𝑙𝑠𝑠 𝛽𝛽𝑖𝑖 ≠ 0
Se calcula 𝐹𝐹 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
, el que se obtiene de la tabla ANOVA.
Rechazamos 𝐻𝐻0 si el 𝐹𝐹 > 𝐹𝐹𝑝𝑝−1,𝑛𝑛−𝑝𝑝,∝/2∗ … o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 0.05.
Es decir, sí existe relación lineal.
H0: No existe alguna relación entre 
la variable de respuesta y las 
variables regresoras.
Ha: Sí existe relación lineal
Ejemplo: Modelo general
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total 12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
El p-valor=0.000 < 0.05.
Por lo que se puede afirmar 
que sí existe relación lineal 
entre “y” y las variables “x”.
Coeficiente de determinación (𝑆𝑆2)
Recordar:
Coeficiente de Regresión: 𝑆𝑆2 = 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇
• 0 < 𝑆𝑆2 < 1
• Mide qué tanto el modelo explica la variabilidad en y.
• No mide qué tan adecuado es el modelo.
𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝑓𝑓𝑠𝑠𝑙𝑙 = 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑝𝑝𝑒𝑒𝑠𝑠
Ejemplo: R2
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 1 0.8462 0.84622 27.63 0.000
Cantidad de Níquel 1 0.8462 0.84622 27.63 0.000
Error 11 0.3369 0.03062
Total 12 1.1831
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.175000 71.53% 68.94% 59.98%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant -0.555 0.551 -1.01 0.335
Cantidad de Níquel 4.082 0.776 5.26 0.000 1.00
Regression Equation
Porcentaje de Austenita = -0.555 + 4.082 Cantidad de Níquel
El 71.53% de la 
variabilidad de “y” se 
puede explicar por el 
modelo planteado.
ANÁLISIS DE RESIDUOS
Análisis de residuos
• Recordemos el modelo de regresión:
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + 𝜖𝜖𝑖𝑖
En donde Ɛi ~ N(0, σ2 )
Cuatro supuestos se deben verificar:
• La data debe seguir una tendencia lineal.
• Residuos se distribuyan normalmente con media igual a 0.
• Varianza constante.
• Independencia de los residuos.
Esto se puede verificar gráficamente.
Análisis de residuos: ¿qué observamos?
Y vs. X
Residuos vs. X
Análisis de residuos
• Patrón de residuos ideal:
• Residuos alrededor de 0. 
• No se encuentra ningún patrón.
• La variabilidad de los residuos es constante.
Análisis de residuos
• Patrón de residuos con curvatura:
• Este gráfico nos indica que el modelo lineal no es adecuado. Quizá se 
necesita ajustar un modelo no-lineal, o se necesite transformar las 
variables.
Análisis de residuos
• Patrón de residuos “embudo”:
• Este gráfico muestra que la varianza de los residuos no es constante.
Laboratorio
Se analizarán ejemplos en laboratorio usando Minitab.
¿Qué hacer si no se cumplen los 
supuestos?
 Se usan transformaciones.
 Usualmente transformamos a la variable de respuesta o las predictoras
cuando encontramos problemas con la linealidad.
 Cuando encontramos problemas con la varianza constante, o cuando los 
residuos no siguen distribución normal, transformamos a la variable de 
respuesta.
 Las más comunes son: 
 La transformación logarítmica.
 Transformación raíz cuadrada.
 Transformación Box-Cox de tipo yc, para c<1.
 Estas transformaciones ayudan a hacer la varianza de los residuos más 
consistentes y los hacen más “normales”.
¿Qué hacer si no se cumple la varianza 
constante o normalidad en la varianza?
Problema Transformación sugerida
Si la varianza crece con respecto a y. 𝑦𝑦
𝑦𝑦𝑐𝑐, cuando c<1
Si la varianza crece a un ritmo mayor, con 
respecto a y.
𝑙𝑙𝑙𝑙(𝑦𝑦)
¿Qué hacer si no se cumple la varianza 
constante o normalidad en la varianza?
 Observamos que la varianza se estabiliza.
121086420
2
1
0
-1
-2
-3
Fitted Value
D
el
et
ed
 R
es
id
ua
l
Versus Fits
(response is y (kW))
2.22.01.81.61.41.21.0
2
1
0
-1
-2
-3
-4
Fitted Value
D
el
et
ed
 R
es
id
ua
l
Versus Fits
(response is raizY)
𝑦𝑦∗ = 𝑦𝑦
¿Qué hacer si no se cumple la varianza 
constante o normalidad en la varianza?
 Observamos que la varianza se estabiliza.
706050403020100
4
3
2
1
0
-1
-2
-3
Fitted Value
St
an
da
rd
iz
ed
 R
es
id
ua
l
Versus Fits
(response is Field)
4.54.03.53.02.52.01.5
2
1
0
-1
-2
Fitted Value
St
an
da
rd
iz
ed
 R
es
id
ua
l
Versus Fits
(response is lnField)
𝑦𝑦∗ = ln 𝑦𝑦
𝑥𝑥∗ = ln(𝑥𝑥)
Usar el set de datos DEMANDA_ENERGIA. 
Usar transformaciones en y y/o x para estabilizar la varianza.
 ¿Ahora podemos decir que los supuestos del modelo lineal 
se cumplen? Es decir, ¿es adecuado el modelo lineal 
planteado? ¿Cuál sería el modelo final?
¿Qué hacer si no se cumple la varianza 
constante o normalidad en la varianza?
¿Qué hacer si no se cumple la 
linealidad?
Problema Transformación sugerida
Si la relación de x y y presenta curvatura. 𝑙𝑙𝑙𝑙(𝑦𝑦), y/o 𝑙𝑙𝑙𝑙(𝑥𝑥)
𝑦𝑦∗ =
1
𝑦𝑦
; 𝑥𝑥∗ =
1
𝑥𝑥
Si la relación de x y y presenta relación 
exponencial.
𝑙𝑙𝑙𝑙(𝑦𝑦)
111098765432
2.5
2.0
1.5
1.0
0.5
0.0
VelViento (x)
Co
rr
ie
nt
eC
on
tin
ua
 (y
)
Scatterplot of CorrienteContinua (y) vs VelViento (x)
¿Qué hacer si no se cumple la 
linealidad?
2.52.01.51.00.5
2
1
0
-1
-2
-3
Fitted Value
D
el
et
ed
 R
es
id
ua
l
Versus Fits
(response is CorrienteContinua (y))
¿Qué hacer si no se cumple la 
linealidad?
𝑦𝑦∗ = 𝑦𝑦2
111098765432
2.5
2.0
1.5
1.0
0.5
0.0
VelViento (x)
Co
rr
ie
nt
eC
on
tin
ua
 (y
)
Scatterplot of CorrienteContinua (y) vs VelViento (x)
2.52.01.51.00.5
2
1
0
-1
-2
-3
Fitted Value
De
le
te
d 
Re
sid
ua
l
Versus Fits
(response is CorrienteContinua (y))
111098765432
6
5
4
3
2
1
0
VelViento(x)
y2
Scatterplot of y2 vs VelViento (x)
6543210
2
1
0
-1
-2
Fitted Value
De
le
te
d 
Re
sid
ua
l
Versus Fits
(response is y2)
 Observamos que la linealidad 
se corrige pero la varianza aún 
presenta curvatura.
¿Qué hacer si no se cumple la 
linealidad?
𝑥𝑥∗ =
1
x
111098765432
2.5
2.0
1.5
1.0
0.5
0.0
VelViento (x)
Co
rr
ie
nt
eC
on
tin
ua
 (y
)
Scatterplot of CorrienteContinua (y) vs VelViento (x)
2.52.01.51.00.5
2
1
0
-1
-2
-3
Fitted Value
De
le
te
d 
Re
sid
ua
l
Versus Fits
(response is CorrienteContinua (y))
2.52.01.51.00.50.0
1
0
-1
-2
-3
Fitted Value
D
el
et
ed
 R
es
id
ua
l
Versus Fits
(response is CorrienteContinua (y))
 Observamos que la linealidad 
se satisface, así como también 
la varianza constante.
0.450.400.350.300.250.200.150.10
2.5
2.0
1.5
1.0
0.5
0.0
1/x
Co
rr
ie
nt
eC
on
tin
ua
 (y
)
Scatterplot of CorrienteContinua (y) vs 1/x
Usar el set de datos MOLINOS_VIENTO y NIST. 
Usar transformaciones en y y/o x para que se cumpla la 
linealidad.
 ¿Ahora podemos decir que los supuestos del modelo lineal 
se cumplen? Es decir, ¿es adecuado el modelo lineal 
planteado? ¿Cuál sería el modelo final?
¿Qué hacer si no se cumple la 
linealidad?
REGRESIÓN LINEAL MÚLTIPLE
Regresión lineal múltiple
• Es es una extensión de la regresión lineal simple. 
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖1 + 𝛽𝛽2𝑥𝑥𝑖𝑖2 … + 𝛽𝛽𝑘𝑘𝑥𝑥𝑖𝑖𝑘𝑘 + 𝜖𝜖𝑖𝑖
Se asume que los errores siguen una distribución normal 
con media igual a 0 y varianza igual a σ2 y son 
independientes:
𝜖𝜖𝑖𝑖~𝑁𝑁(0,𝜎𝜎2)
Regresión lineal múltiple
• Regresión lineal múltiple significa que el modelo es lineal con 
respecto a sus coeficientes. 
• Por ejemplo:
Regresión lineal múltiple
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖1 + 𝛽𝛽2𝑥𝑥𝑖𝑖2 … + 𝛽𝛽𝑘𝑘𝑥𝑥𝑖𝑖𝑘𝑘 + 𝜖𝜖𝑖𝑖
¿Qué representan los coeficientes?
• Cambio esperado en la variable de respuesta por una 
unidad de cambio en xi, manteniendo las otras variables 
regresoras constantes.
Ejemplo
Un distribuidor de bebidas, desea analizar el servicio del llenado de las máquinas 
dispensadoras en uno de los supermercado más grandes. Está interesado en 
predecir el tiempo requerido por el encargado de este servicio en base a dos 
variables: número de bebidas a llenar y tiempo que debe recorrer para llegar a cada 
máquina dispensadora. 
Observación
Tiempo de delivery
(min) Número de casos Distancia (pie)
1 16.68 7 560
2 11.5 3 220
3 12.03 3 340
4 14.88 4 80
5 13.75 6 150
6 18.11 7 330
7 8 2 110
8 17.83 7 210
9 79.24 30 1460
10 21.5 5 605
11 40.33 16 688
12 21 10 215
13 13.5 4 255
14 19.75 6 462
15 24 9 448
16 29 10 776
17 15.35 6 200
18 19 7 132
19 9.5 3 36
20 35.1 17 770
21 17.9 10 140
22 52.32 26 810
23 18.75 9 450
Ejemplo. Resultados en Minitab
80
40
0
16008000
302010
30
20
10
80400
1600
800
0
Tiempo de delivery (min)
Número de casos
Distancia (pie)
Matrix Plot of Tiempo de delive, Número de casos, Distancia (pie)
Tiempo de delive Número de casos
Número de casos 0.965
0.000
Distancia (pie) 0.892 0.824
0.000 0.000
Cell Contents: Pearson correlation
P-Value
Prueba de hipótesis para la adecuación 
del modelo lineal general
Hacemos la prueba de hipótesis para ver si hay o no relación entre X e Y:
𝐻𝐻0: 𝛽𝛽1 = 𝛽𝛽2 = ⋯𝛽𝛽𝑘𝑘 = 0
𝐻𝐻1:𝑠𝑠𝑙𝑙 𝑚𝑚𝑒𝑒𝑙𝑙𝑝𝑝𝑠𝑠 𝑝𝑝𝑙𝑙 𝑝𝑝𝑝𝑝𝑒𝑒𝑓𝑓𝑝𝑝𝑝𝑝𝑝𝑝𝑒𝑒𝑙𝑙𝑓𝑓𝑒𝑒 𝑙𝑙𝑝𝑝 𝑒𝑒𝑠𝑠 𝑝𝑝𝑆𝑆𝑝𝑝𝑠𝑠𝑙𝑙 𝑠𝑠 0.
Se calcula 𝐹𝐹 = 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
, el que se obtiene de la tabla ANOVA.
Rechazamos la hipótesis nula si el 𝐹𝐹 > 𝐹𝐹𝑝𝑝−1,𝑛𝑛−𝑝𝑝,∝/2∗ … o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 0.05
Es decir, concluimos que sí existe relación lineal.
*Siendo p el número de parámetros.
Prueba de hipótesis para la adecuación 
del modelo lineal general
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 2 5550.8 2775.41 261.24 0.000
Número de casos 1 951.7 951.66 89.58 0.000
Distancia (pie) 1 168.4 168.40 15.85 0.001
Error 22 233.7 10.62
Total 24 5784.5
Model Summary
S R-sq R-sq(adj) R-sq(pred)
3.25947 95.96% 95.59% 92.06%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 2.34 1.10 2.13 0.044
Número de casos 1.616 0.171 9.46 0.000 3.12
Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12
Regression Equation
Tiempo de delivery (min) = 2.34 + 1.616 Número de casos
+ 0.01438 Distancia (pie)
Concluimos que sí existe 
relación lineal.
R2 ajustado o corregido
Recordemos que 𝑆𝑆2 = 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇
= 1 − 𝑀𝑀𝑀𝑀𝑆𝑆𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑇𝑇𝑇𝑇𝑇𝑇𝑎𝑎𝑇𝑇
El 𝑆𝑆2 se incrementa si incrementamos 𝑝𝑝 (variables predictoras o 𝑥𝑥’s), a pesar de que 
algunas de esas variables no sean significativas. 
Esto no quiere decir necesariamente que a mayor 𝑝𝑝 sea un mejor modelo, pues puede 
que también el �𝜎𝜎2aumente.
Por ello, para corregir este problema, en regresión múltiple se usa el 𝑆𝑆2 ajustado o 
corregido:
𝑺𝑺𝟐𝟐 ajustado = 1 −
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺/(𝒏𝒏 − (𝒑𝒑 + 𝟏𝟏))
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺/(𝒏𝒏 − 𝟏𝟏)
R2 ajustado
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 2 5550.8 2775.41 261.24 0.000
Número de casos 1 951.7 951.66 89.58 0.000
Distancia (pie) 1 168.4 168.40 15.85 0.001
Error 22 233.7 10.62
Total 24 5784.5
Model Summary
S R-sq R-sq(adj) R-sq(pred)
3.25947 95.96% 95.59% 92.06%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 2.34 1.10 2.13 0.044
Número de casos 1.616 0.171 9.46 0.000 3.12
Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12
Regression Equation
Tiempo de delivery (min) = 2.34 + 1.616 Número de casos
+ 0.01438 Distancia (pie)
El modelo explica casi el 
96% de la variabilidad de 
y.
Prueba de hipótesis de los coeficientes
𝐻𝐻0: 𝛽𝛽𝑖𝑖 = 0
𝐻𝐻𝑎𝑎: 𝛽𝛽𝑖𝑖 ≠ 0
Rechazamos la hipótesis nula si el 𝑓𝑓 > 𝑓𝑓𝑛𝑛−𝑝𝑝,∝/2… o si el 𝑝𝑝 − 𝑣𝑣𝑠𝑠𝑙𝑙𝑝𝑝𝑝𝑝 < 𝛼𝛼
Al rechazar 𝐻𝐻0, podemos concluir que sí existe relación entre la “x” y la “y”.
Prueba de hipótesis de los coeficientes
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 2 5550.8 2775.41 261.24 0.000
Número de casos 1 951.7 951.66 89.58 0.000
Distancia (pie) 1 168.4 168.40 15.85 0.001
Error 22 233.7 10.62
Total 24 5784.5
Model Summary
S R-sq R-sq(adj) R-sq(pred)
3.25947 95.96% 95.59% 92.06%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 2.34 1.10 2.13 0.044
Número de casos 1.616 0.171 9.46 0.000 3.12
Distancia (pie) 0.01438 0.00361 3.98 0.001 3.12
Regression Equation
Tiempo de delivery (min) = 2.34 + 1.616 Número de casos
+ 0.01438 Distancia (pie)
Tanto el número de 
casos como la distancia 
recorrida contribuyen 
significativamente al 
modelo.
Análisis de residuos
 ¿Es adecuado el modelo?
420-2
99
90
50
10
1
Standardized Residual
Pe
rc
en
t
806040200
2
0
-2
Fitted Value
St
an
da
rd
iz
ed
 R
es
id
ua
l
3210-1-2
8
6
4
2
0
Standardized Residual
Fr
eq
ue
nc
y
24222018161412108642
2
0
-2
Observation Order
St
an
da
rd
iz
ed
 R
es
id
ua
l
Normal Probability Plot Versus Fits
Histogram Versus Order
Residual Plots for Tiempo de delivery (min)
Análisis de residuos
210-1-2
99
90
50
10
1
Standardized Residual
Pe
rc
en
t
9.07.56.04.53.0
2
1
0
-1
-2
Fitted Value
St
an
da
rd
iz
ed
 R
es
id
ua
l
1.51.00.50.0-0.5-1.0-1.5
4.8
3.6
2.4
1.2
0.0
Standardized Residual
Fr
eq
ue
nc
y
24222018161412108642
2
1
0
-1
-2
Observation Order
St
an
da
rd
ized
 R
es
id
ua
l
Normal Probability Plot Versus Fits
Histogram Versus Order
Residual Plots for Tiempo de delivery (min)
Selección de variables
 El “Mallow Cp” (Cp de Mallows) compara la precisión y el sesgo del modelo completo 
con las otras opciones.
 Se debe buscar modelos donde el valor del Cp de Mallows sea pequeño y esté cercano 
al número de predictores del modelo más la constante (p). 
Response is Tiempo de delivery (min)
C 
a D
s i
R-Sq R-Sq Mallows o s
Vars R-Sq (adj) (pred) Cp S s t
1 93.0 92.7 87.3 16.9 4.1814 X
1 79.5 78.6 70.1 90.6 7.1791 X
2 96.0 95.6 92.1 3.0 3.2595 X X
MINITAB: Estadísticas > Regresión > Regresión > Mejores subconjuntos.
Laboratorio
 Se trabajará con algunos set de datos para reforzar el tema.
REGRESIÓN LOGÍSTICA
Regresión logística
 Considere la situación en donde la variable de respuesta 𝑦𝑦 solo puede tomar valores 
de 0 y 1. Es decir,𝑦𝑦 es una variable binaria. Es una situación muy común, por 
ejemplo, cuando se analiza si los alumnos aprobaron un curso o no, si los pacientes 
se curaron o no, si el equipo falló o no, si los clientes compraron el nuevo producto o 
no, etc.
 Dado que 𝑦𝑦 puede tomar 0 o 1, se puede asumir que sigue una distribución de 
Bernulli (𝑦𝑦~𝐵𝐵𝑒𝑒𝑝𝑝𝑙𝑙𝑝𝑝𝑙𝑙𝑙𝑙𝑝𝑝(𝑝𝑝)):
 Entonces, el promedio o 𝐸𝐸 𝑦𝑦 = 1 ∗ 𝑝𝑝 + 0 ∗ 1 − 𝑝𝑝 = 𝑝𝑝
𝑦𝑦 Probabildad
1 𝑃𝑃(𝑦𝑦 = 1) = 𝑝𝑝
0 𝑃𝑃(𝑦𝑦 = 1) = 1 − 𝑝𝑝
Regresión logística
 Considere el siguiente modelo:
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 + ϵ𝑖𝑖
 Pero al ser 𝑦𝑦𝑖𝑖~𝐵𝐵𝑒𝑒𝑝𝑝𝑙𝑙𝑝𝑝𝑙𝑙𝑙𝑙𝑝𝑝(𝑝𝑝𝑖𝑖), sabemos que 𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖
¿Cómo interpretamos esto?
La predicción �𝑦𝑦𝑖𝑖 estima la probabilidad de que un individuo con características definidas 
por 𝑥𝑥 = 𝑥𝑥𝑖𝑖, tenga 𝑦𝑦𝑖𝑖 = 1 (compre el producto, falle el equipo, éxito en la operación, etc.).
Regresión logística
 Entonces:
𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑝𝑝𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖
El problema es que 𝑝𝑝𝑖𝑖 debe ser entre 0 y 1, entonces debe haber una función que 
transforme el valor 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 a un valor entre 0 y 1.
 Podemos entonces escribir esa relación en forma general:
𝐸𝐸 𝑦𝑦𝑖𝑖 = 𝑆𝑆 𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖
 La función 𝑆𝑆 es llamada la función logit que conecta 𝐸𝐸 𝑦𝑦 y la variable predictora 𝑥𝑥.
ln( 𝑝𝑝𝑖𝑖
1−𝑝𝑝𝑖𝑖
) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖
Regresión logística
Ejemplo
Analizaremos un set de datos que contiene los resultados de 25 pruebas de disparos a 
objetivos con diferentes velocidades. Los resultados fueron: dar al blanco (y=1), o fallar 
(y=0).
500450400350300250200
1.0
0.8
0.6
0.4
0.2
0.0
TargetSpeed
y
Scatterplot of y vs TargetSpeed
Ejemplo
En Minitab ir a: Estadísticas > Regresión > Regresión logística binaria > Ajustar modelo 
logístico binario.
Ejemplo – resultados del Minitab
Method
Link function Logit
Rows used 25
Response Information
Variable Value Count
y 1 13 (Event)
0 12
Total 25
Deviance Table
Source DF Adj Dev Adj Mean Chi-Square P-Value
Regression 1 14.25 14.2537 14.25 0.000
TargetSpeed 1 14.25 14.2537 14.25 0.000
Error 23 20.36 0.8854
Total 24 34.62
Model Summary
Deviance Deviance
R-Sq R-Sq(adj) AIC
41.17% 38.29% 24.36
Si p-valor< 0.05, entonces 
decimos que hay una 
asociación significativa 
entre y y x.
Mientras más alta sea la 
desviación R2, mejor se ajustará 
el modelo a los datos.
En este ejm., el modelo explica 
41.17% de la desviación en la 
variable de respuesta
Ejemplo – resultados del Minitab
Coefficients
Term Coef SE Coef VIF
Constant 6.07 2.11
TargetSpeed -0.01770 0.00608 1.00
Odds Ratios for Continuous Predictors
Odds Ratio 95% CI
TargetSpeed 0.9825 (0.9708, 0.9942)
Regression Equation
P(1) = exp(Y')/(1 + exp(Y'))
Y' = 6.07 - 0.01770 TargetSpeed
Los coeficientes positivos indican que el evento 
se vuelve más probable a medida que aumenta 
el predictor. 
Los coeficientes negativos indican que el evento 
se vuelve menos probable a medida que 
aumenta el predictor. 
*Odds Ratios = Relaciones de probabilidad
Ejemplo - predicción
Regression Equation
P(1) = exp(Y')/(1 + exp(Y'))
Y' = 6.07 - 0.01770 TargetSpeed
Use el modelo para predecir si es que el misil le dará al blanco si es que el objetivo viaja a 
400 km/h.
ln(
𝑝𝑝𝑖𝑖
1 − 𝑝𝑝𝑖𝑖
) = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥𝑖𝑖 = 6.07 - 0.01770*400=-1.01
ln
𝑝𝑝𝑖𝑖
1 − 𝑝𝑝𝑖𝑖
= −1.01
𝑝𝑝𝑖𝑖
1 − 𝑝𝑝𝑖𝑖
= 𝑒𝑒
−
1.01 = 0.36421
𝑝𝑝𝑖𝑖=0.2668
La probabilidad de darle al blanco a un objeto que viaja a 400 km/h es de 26.69%
Ejemplo - predicción
La manera más rápida en Minitab de precedir es ir a 
Stadísticas > Regresión > Regresión logística > Predecir
Regression Equation
P(1) = exp(Y')/(1 + exp(Y'))
Y' = 6.07 - 0.01770 TargetSpeed
Variable Setting
TargetSpeed 400
Fitted
Probability SE Fit 95% CI
0.266785 0.135248 (0.0857913, 0.585198)
Bibliografía
 Statistical Methods for Engineers (Autores: Vining & Kowalski)
 Applied Linear Regression Models (Autores: Kutner, Nachtsheim, Neter). 4ta edición.
 https://www.gapminder.org/
 www.minitab.com
https://www.gapminder.org/
	Análisis de regresión
	Contenido
	De datos a información
	Introducción
	Introducción
	Relaciones entre variables
	Relaciones entre variables
	Relaciones entre variables
	Correlación y causalidad
	Recolección de datos
	Data de tipo corte transversal
	Data de tipo corte transversal
	Número de diapositiva 13
	Tres herramientas
	Gráfico de dispersión
	Gráfico de dispersión
	Gráfico de dispersión
	Gráfico de dispersión
	Medidas de asociación
	Medidas de asociación
	Correlación
	Correlación
	Correlación
	Correlación
	Número de diapositiva 25
	Número de diapositiva 26
	Número de diapositiva 27
	Número de diapositiva 28
	Mini-caso de estudio
	Mini-caso de estudio
	Mini-caso de estudio
	Mini-caso de estudio
	Mini-caso de estudio
	regresión lineal simple
	Regresión lineal simple
	Regresión lineal simple
	Regresión lineal simple
	Regresión lineal simple
	Modelo de regresión simple – ejemplo 1
	Modelo de regresión simple – ejemplo 2
	Modelo de regresión simple – ejemplo 3
	Ajuste lineal
	Ajuste lineal
	Número de diapositiva 44
	Ajuste lineal
	Ajuste lineal
	Estimación de σ2
	Análisis del modelo
	Prueba de hipótesis de la pendiente
	Ejemplo
	Ejemplo
	Número de diapositiva 52
	Número de diapositiva 53
	Número de diapositiva 54
	Estimación de la varianza
	Número de diapositiva 56
	Número de diapositiva 57
	ANOVA
	Medidas de variabilidad
	Número de diapositiva 60
	Prueba de hipótesis para la adecuación del modelo lineal general
	Número de diapositiva 62
	Coeficiente de determinación ( 𝑅 2 )
	Número de diapositiva 64
	Análisis de residuos
	Análisis de residuos
	Análisis de residuos: ¿qué observamos?
	Análisis de residuos
	Análisis de residuos
	Análisis de residuos
	Laboratorio	
	¿Qué hacer si no se cumplen los supuestos?
	¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza?
	¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza?
	¿Qué hacer si no se cumple la varianza constante o normalidad en la varianza?
	Número de diapositiva 76
	¿Qué hacer si no se cumple la linealidad?
	¿Qué hacer si no se cumple la linealidad?
	¿Qué hacer si no se cumple la linealidad?
	¿Qué hacer si no se cumple la linealidad?
	Número de diapositiva 81
	Regresión lineal múltiple
	Regresión lineal múltiple
	Regresión lineal múltiple
	Regresión lineal múltiple
	Ejemplo
	Número de diapositiva 87
	Prueba de hipótesis para la adecuación del modelo lineal general
	Número de diapositiva 89
	R2 ajustado o corregido
	R2 ajustado
	Prueba de hipótesis de los coeficientes
	Prueba de hipótesis de los coeficientes
	Análisis de residuos
	Análisis de residuos
	Selección de variables
	Laboratorio
	Regresión logística
	Regresión logística
	Regresión logísticaRegresión logística
	Regresión logística
	Ejemplo
	Ejemplo
	Ejemplo – resultados del Minitab
	Ejemplo – resultados del Minitab
	Ejemplo - predicción
	Ejemplo - predicción
	Bibliografía