Inferências na Regressão Linear

•
Osasco Ii Etec

Pedro Goya
15/11/2021
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Matemáticas

635.662 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
1. Inferencias en la Regresión 
de análisis
Inferencias en la Regresión de análisis
Asumimos el modelo de regresión lineal con errores normales:
𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖
donde 𝛽0 y 𝛽1 son parámetros desconocidos
𝑥𝑖 son constantes conocidas, 𝜀𝑖 son independientes N(0,σ
2)
Inferencias referentes a β1
¿Cuántos dólares adicionales de ventas se esperan por cada dólar gastado en
publicidad?
¿Cuál es el monto de salario adicional que se espera por cada año adicional de
educación?
…
Por ejemplo, podemos probar:
H0 : 𝛽1 = 0
vs.
Ha : 𝛽1 ≠ 0
 Cuando 𝛽1 = 0, x no afecta el valor esperado de Y.
 Una respuesta depende de la distribución muestral de B1, el estimador para 𝛽1 .
Inferencias en la Regresión de análisis
Inferencias en la Regresión de análisis
Para el modelo de regresión con errores normales:
Derivamos esta propiedad a continuación:
Inferencias en la Regresión de análisis
Los ‘pesos’ ki siguen las siguientes propiedades:
Como resultado:
Inferencias en la Regresión de análisis
El estimador de la varianza a continuación:
es un estimador insesgado y consistente para Var(B1).
Nota: un estimador B es consistente cuando la probabilidad de que se mantenga a
una distancia positiva Є del verdadero 𝛽 tiende a cero a medida que el tamaño de la
muestra tiende al infinito.
MSE
Un estimador consistente para σ2 (la varianza de las respuestas individuales 
alrededor de la recta poblacional) es:
con
Dividimos para n-2 debido a los dos parámetros estimados a partir de los datos
cuando se determina la recta de regresión.
Inferencias en la Regresión de análisis
Inferencias en la Regresión de análisis
 es un estimador insesgado y consistente.
 es un estimador de punto para σ(B1), el cual es consistente, aunque
no es insesgado.
 B1 posee varianza mínima en la familia de estimadores lineales insesgados para
𝛽1
¿Cómo tiende a cambiar Var(B1) con respecto a n?
Distribución muestral de 
𝐵1−𝛽1
𝑆(𝐵1)
Debido a que:
el estadístico estandarizado cumple con:
Cuando el denominador es una desviación estándar estimada, se habla del 
estadístico “estudentadizado”: 
Inferencias en la Regresión de análisis
Nota técnica sobre la distribución t
La distribución t es:
 unimodal y
 simétrica alrededor de cero (al igual que la distribución normal),
 sin embargo, tiene colas mas pesadas (valores más extremos) y por lo tanto 
mayor varianza.
Inferencias en la Regresión de análisis
Notación 
t(𝛼/2; n-2)
es el cuantil 𝛼/2 de la distribución t con (n-2) grados de libertad.
Debido a la simetría: t(𝛼/2; n-2) = - t(1-𝛼/2; n-2)
Entonces t(0.025; 23) = −2.069
Inferencias en la Regresión de análisis
Inferencias en la Regresión de análisis
 La suma de los cuadrados de n variables aleatorias normales estándar
independientes, σ𝑖=1
𝑛 𝑍𝑖
2, es una variable aleatoria Chi cuadrado con n grados de
libertad (g.l.).
 El cociente entre
 una variable aleatoria normal estándar y
 la raíz cuadrada de una variable aleatoria independiente Chi cuadrado con n g.l.,
dividido para n
es una variable aleatoria t con n g.l.
Para cualquier variable aleatoria y
Inferencias en la Regresión de análisis
se obtiene de lo siguiente:
 y

por tanto
Construcción de un intervalo de confianza 
con probabilidad (1-𝛼)100% para 𝛽1
Reordenando las desigualdades anteriores, se obtiene:
Esto se cumple para todos los valores posibles de 𝛽1, por lo que el intervalo 
aleatorio 
tiene probabilidad (1 − 𝛼) de ‘cubrir’ el verdadero valor de 𝛽1.
Inferencias en la Regresión de análisis
Inferencias en la Regresión de análisis
tiene probabilidad (1 − 𝛼) de ‘cubrir’ el verdadero valor de 𝛽1.
En el ejemplo Toluca, el tamaño de los lotes y las horas de trabajo:
Tal que el intervalo de confianza estimado del 95%, es igual a:
[3.5702 − 2.069(.347) , 3.5702 + 2.069(.347)] ó [2.85 , 4.29]
 Hay que tener mucho cuidado al interpretar el intervalo calculado, ya que este es uno de los infinitos
posibles intervalos de confianza del 95% que se pueden calcular bajo el modelo de regresión lineal
postulado.
 Para el intervalo calculado, es incorrecto realizar interpretaciones probabilísticas.
 Sin embargo, el intervalo calculado nos da una muy buena idea sobre cuál podría ser el verdadero valor
del parámetro
En nuestro ejemplo:
 Con el intervalo calculado, podemos tener la idea de que el número esperado de horas de trabajo
aumenta en un valor entre 2.85 y 4.29 horas, cuando el tamaño del lote aumenta en 1 unidad o
 entre 28.5 y 42.9 cuando el tamaño del lote aumenta en 10 unidades.
2. Pruebas relativas a 𝛽1
Pruebas relativas a 𝜷𝟏
Ya que
una prueba de dos colas de
H0: 𝛽1 = 𝛽10
versus
Ha: 𝛽1 ≠ 𝛽10
se lleva a cabo a un nivel de significancia 𝛼, siguiendo la regla de decisión:
 Si , no rechazamos H0 (con confianza de 1 − 𝛼)
 Si , se concluye Ha (con confianza de 1 − 𝛼)
Por ejemplo
Prueba para hallar el valor de 𝛽10 = 0 a un nivel de significancia del 𝛼 = 0.05, 
basado en los datos del ejemplo Toluca (n=25):
 Si no rechazamos H0
 Si concluimos Ha
Ya que: 
Resulta que: 
Por lo que concluimos Ha :
Existe una asociación significativa (positiva) entre el tamaño del lote y las horas 
de trabajo necesarias. 
Pruebas relativas a 𝜷𝟏
La prueba de una cola
De
H0: 𝛽1 = 𝛽10
versus
Ha: 𝛽1 > 𝛽10
se lleva a cabo a un nivel de significancia 𝛼, cuando se sigue la regla de decisión:
 Si no rechazamos H0
 Si se concluye Ha
Pruebas relativas a 𝜷𝟏
La prueba de una cola
Para 𝛼 = 0.05, calculamos qt(df = 23, 0.95) [1]1.713872
por lo tanto, rechazamos H0 y concluimos Ha
El valor p unilateral es encontrado en R como
> 1 - pt(df = 23, 10.29)= 2.222735e - 010
y es mucho más pequeño que 0.05
P: Entonces, ¿qué es el valor p unilateral en este caso?
P: ¿Y si estuviéramos probando Ha: 𝛽1 < 0 ? 
Pruebas relativas a 𝜷𝟏
La potencia de la prueba de dos colas al nivel 𝛼
Para detectar una verdadera alternativa 𝛽1, con 
Pruebas relativas a 𝜷𝟏
con
Pruebas relativas a 𝜷𝟏
3. Inferencia relativa a 𝜷𝟎
Alcance del modelo
Tenga cuidado: se obtiene inferencias sobre 𝛽0 cuando éste es un parámetro
relevante; es decir, refleja la media del resultado para un valor x dado que
pertenece al alcance del modelo.
Debido a que
es una combinación lineal de los valores Yi, el estimador B0 se distribuye
normalmente también.
Podemos verificar que tiene:
y
Inferencia relativa a 𝜷𝟎
Con
Un estimador insesgado de la varianza es:
donde la raíz cuadrada, S(B0), es ‘un’ estimador para 𝜎(𝐵0)
Inferencia relativa a 𝜷𝟎
𝐵0 − 𝛽0
𝑆(𝐵0)
≝ 𝑡(𝑛 − 2)
Conduce al intervalo de confianza (1 − 𝛼) para 𝛽0 :
 Como se ha indicado anteriormente x = 0 se encuentra fuera del alcance del
modelo en el ejemplo de Toluca, por lo que no tiene sentido construir un
intervalo de confianza (IC) para 𝛽0 en ese caso.
 La prueba sigue un enfoque similar a la que revisamos para el parámetro 𝛽1.
Ahora usamos la distribución apropiada de B0 (y sus parámetros estimados).
Inferencia relativa a 𝜷𝟎
Comentarios acerca de las inferencias respecto a 𝛽0 y 𝛽1
 La normalidad de B0 y B1 se deriva del supuesto de los errores normales del
modelo.
 Sin embargo, son asintóticamente normales bajo condiciones muy generales a
medida que aumenta el tamaño de la muestra (teorema del límite central).
 Aplicando este teorema, los IC y las pruebas darán resultados aproximadamente
correctos, incluso si los errores no siguen una distribución normal.
 Se puede obtener resultados razonables incluso con muestras pequeñas y
desviaciones de la normalidad no tan severas.
 La interpretación de los IC y las pruebas, etc. dado los valores x fijos:
El coeficiente de confianza (95%) considera la probabilidad media de ‘cubrir’
el parámetro verdadero en intervalos construidos sobre muchasmuestras
independientes, manteniendo la distribución de x fija.
 Cuanto mayor sea la varianza de x, más precisos serán sus estimadores (más
angostos serán los intervalos de confianza).
Inferencia relativa a 𝜷𝟎
4. INTERVALOS DE ESTIMACIÓN E(yh ; xh)
Deseamos predecir:
 El número esperado (promedio) de horas de trabajo para un lote dado de
tamaño xh
 Nuestra nota final basado en nuestras notas actuales en proyectos, etc.
El estimador de punto es:
ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ
ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ
Ya que
es una combinación lineal de las respuestas Y originales, bajo el modelo de
regresión normal, ෠𝑌ℎ sigue una distribución normal con media:
y
Esto se estima cambiando 𝜎2 por MSE.
ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ
Por lo tanto, un intervalo de confianza de 1 − 𝛼 para la media del resultado a un
nivel 𝑥ℎ es
Aplicación: podemos decidir el precio para un tamaño de lote basado en las horas
de trabajo promedio, ya que acumularemos costos para muchos lotes con un
tamaño dado
ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ
ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ
5. Predicción de una nueva 
observación yh (new)
Una nueva observación individual
Varía (normalmente) alrededor de su media verdadera con varianza 𝜎2.
Se puede demostrar que:
y por lo tanto:
es un intervalo de predicción 1 − 𝛼 para Yh (new) , esto es:
con probabilidad 1 − 𝛼 contendrá la nueva observación para un xh dado.
Predicción de una nueva observación yh (new)
Inferencia relativa a 𝜷𝟎
Inferencia relativa a 𝜷𝟎
Inferencia relativa a 𝜷𝟎
6. Banda de confianza para 
una línea de regresión
Para obtener una banda de confianza para toda una línea de regresión
𝐸 𝑌 = 𝛽0 + 𝛽1𝑥
necesitaremos una banda que sea más ancha que los intervalos de confianza para
la media puntual condicional (especifica para un x). Formalmente esto se obtiene
mediante
donde
Bajo el modelo, existe una probabilidad de 1 - 𝛼 que la línea de regresión
verdadera por entero se encuentre dentro de las bandas.
¡La banda es más ancha!
Banda de confianza para una línea de regresión
Inferencia relativa a 𝜷𝟎
Recuerde el ejemplo de Toluca (n=25)
Nota técnica sobre la distribución F
La distribución F con m y n grados de libertad
esta basada en dos distribuciones independientes
Banda de confianza para una línea de regresión
Inferencia relativa a 𝜷𝟎
7. perspectiva del Análisis de la 
Varianza en la regresión lineal
Grado de asociación lineal: R2
 Desviación estándar (SD) de horas de trabajo: 113.14
 SD residual de horas de trabajo: 48.82
¿Qué esta sucediendo?
perspectiva del Análisis de la Varianza en la regresión lineal
 Desviación estándar (SD) de horas de trabajo: 113.14
 SD residual de horas de trabajo: 48.82
¿Qué esta sucediendo?
 El modelo de regresión explica como parte de la varianza entre diferentes 
valores de Y se debe a la varianza entre sus valores x fijos.
 La línea de regresión explica solo una parte de la varianza, ya que aún queda
varianza residual (adicional) de los valores Y alrededor de la recta de
regresión estimada.
 Cuando 𝛽1 = 0 , la recta estimada tiende a explicar una cantidad no
significativa de la variación de Y.
Análisis de la varianza: partición de la varianza total de Y en varianza dentro y
alrededor de la recta de regresión.
perspectiva del Análisis de la Varianza en la regresión lineal
perspectiva del Análisis de la Varianza en la regresión lineal
perspectiva del Análisis de la Varianza en la regresión lineal
Desarrollo formal: Partición de la distancia 𝑌𝑖 − ത𝑌
 La desviación total 𝑌𝑖 − ത𝑌 puede ser descompuesta en dos partes:
I = Desviación del valor de regresión ajustado alrededor de la media
II = Desviación del valor observado alrededor de la recta de regresión ajustada
 Sorprendentemente, la suma de los cuadrados sigue el mismo patrón.
donde llamamos
la suma de cuadrados totales 
la suma de cuadrados de los errores o suma 
cuadrática de los errores
la suma de cuadrados de regresión o suma cuadrática 
de regresión
perspectiva del Análisis de la Varianza en la regresión lineal
Ejemplo de la compañía Toluca
perspectiva del Análisis de la Varianza en la regresión lineal
Demostración
perspectiva del Análisis de la Varianza en la regresión lineal
Donde el último termino es igual a cero, ya que:
Desglose de los grados de libertad
perspectiva del Análisis de la Varianza en la regresión lineal
 d grados de libertad se pierden cuando una desviación es medida alrededor de 
una media, que tiene d parámetros desconocidos que fueron estimados a 
partir de los datos.
 Por lo tanto, para el modelo de regresión lineal simple:
Cuadrados medios 
perspectiva del Análisis de la Varianza en la regresión lineal
 La media cuadrática se define como la suma de cuadrados dividida para sus 
grados de libertad asociados, por lo tanto
SSTO/(n-1) Media cuadrática total
MSE SSE/(n-2) Error cuadrático medio o media cuadrática de los 
errores
MSR SSR Media cuadrática de regresión
Cuadrados medios esperados 
perspectiva del Análisis de la Varianza en la regresión lineal
 Inferencias basadas en el enfoque del análisis de varianza requiere
conocimiento sobre la distribución de las medias cuadráticas:
 Sabemos que
E(MSE) = 𝜎2
 ¿Y E(MSR)?
Donde
Cuadrados medios esperados 
perspectiva del Análisis de la Varianza en la regresión lineal
 Entonces, sabemos que:
Cuadrados medios esperados 
perspectiva del Análisis de la Varianza en la regresión lineal
 Entonces, sabemos que:
Por lo tanto
donde
 Ya sabemos que 
Implicaciones
perspectiva del Análisis de la Varianza en la regresión lineal
Por lo tanto
 Una comparación de MSR y MSE es útil para probar si 𝛽1 = 0
¿Cómo procedería, usted?
F de prueba de 𝛽1 = 0 versus 𝛽1 ≠ 0
perspectiva del Análisis de la Varianza en la regresión lineal
 Estadístico de prueba:
𝐹∗ =
𝑀𝑆𝑅
𝑀𝑆𝐸
grandes valores soportan a Ha: 𝛽1≠ 0, valores cercanos a 1 soportan a H0: 𝛽1= 0
 Distribución de muestral bajo H0: F* tiene una distribución muestral conocida 
bajo el modelo lineal con errores normales cuando 𝛽1 = 0 :
 Distribución muestral bajo Ha: Bajo Ha se tiene una compleja ‘distribución F 
no central’ 
 ¿Cómo probamos y calculamos los valores p y potencia de la prueba?
perspectiva del Análisis de la Varianza en la regresión lineal
 Si no se rechaza H0
 Si concluir Ha
 Valor p: probabilidad de que una variable aleatoria F con grados de libertad
(1, n-2) exceda al valor observado para F*
 Tenga en cuenta que:
Método general de prueba lineal
perspectiva del Análisis de la Varianza en la regresión lineal
 La prueba de análisis de varianza se extiende para modelos lineales de
complejidad casi arbitraria.
 Modelo completo F ajustado
con error medio cero 𝜖𝑖 independiente de xi
encontrar SSE(F) = SSE con dfF grados de libertad
 Modelo reducido R ajustado
con error medio cero 𝜖𝑖
∗
encontrar SSE(R)=SSTO con dfR grados de libertad
Método general de prueba lineal
perspectiva del Análisis de la Varianza en la regresión lineal
 Hipótesis nula: 𝛽1 = 0
 Principio de la prueba lineal general: una pequeña diferencia entre SSE(F) y
SSE(R) indica que los parámetros añadidos en el modelo completo no ayudan a
reducir la varianza del resultado.
perspectiva del Análisis de la Varianza en la regresión lineal
 Estadístico de prueba:
𝐹∗ =
𝑆𝑆𝐸 𝑅 − 𝑆𝑆𝐸(𝐹)
𝑑𝑓𝑅 − 𝑑𝑓𝐹
÷
𝑆𝑆𝐸(𝐹)
𝑑𝑓𝐹
grandes valores soportan a Ha: 𝛽1≠ 0, valores pequeños soportan a H0: 𝛽1= 0
 Distribución muestral bajo H0: F* sigue la distribución F con dfR − dfF y dfF
grados de libertad bajo la hipótesis nula
 Para probar si 𝛽1 = 0 :
Método general de prueba lineal
8. Grado de asociación lineal: R2
 Coeficiente de determinación
Expresa el efecto de x en la reducción de lavariación de Y o la reducción
proporcional de la varianza de Y cuando x es considerado
 0 ≤ 𝑅2 ≤ 1
 Coeficiente de correlación (sólo si x y Y son variables aleatorias)
 Coeficiente de determinación ajustado
Ajusta para p, el número de parámetros en el modelo.
Grado de asociación lineal: R2
Grado de asociación lineal: R2
Grado de asociación lineal: R2
Limitaciones
 R2 es tomada como una medida para el valor predictivo de la variable
explicativa; sin embargo, existen varios malentendidos.
 Un R2 alto no indica necesariamente, que pueda hacerse predicciones útiles.
¿Cuál sería un buen criterio para ello?
 R2 tampoco indica que la línea estimada de regresión es un buen ajuste.
 Un R2 bajo no indica necesariamente que x y Y no están asociadas, podría
ocurrir simplemente que el modelo es malo.
Grado de asociación lineal: R2
Grado de asociación lineal: R2