Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1. Inferencias en la Regresión de análisis Inferencias en la Regresión de análisis Asumimos el modelo de regresión lineal con errores normales: 𝑌𝑖 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 donde 𝛽0 y 𝛽1 son parámetros desconocidos 𝑥𝑖 son constantes conocidas, 𝜀𝑖 son independientes N(0,σ 2) Inferencias referentes a β1 ¿Cuántos dólares adicionales de ventas se esperan por cada dólar gastado en publicidad? ¿Cuál es el monto de salario adicional que se espera por cada año adicional de educación? … Por ejemplo, podemos probar: H0 : 𝛽1 = 0 vs. Ha : 𝛽1 ≠ 0 Cuando 𝛽1 = 0, x no afecta el valor esperado de Y. Una respuesta depende de la distribución muestral de B1, el estimador para 𝛽1 . Inferencias en la Regresión de análisis Inferencias en la Regresión de análisis Para el modelo de regresión con errores normales: Derivamos esta propiedad a continuación: Inferencias en la Regresión de análisis Los ‘pesos’ ki siguen las siguientes propiedades: Como resultado: Inferencias en la Regresión de análisis El estimador de la varianza a continuación: es un estimador insesgado y consistente para Var(B1). Nota: un estimador B es consistente cuando la probabilidad de que se mantenga a una distancia positiva Є del verdadero 𝛽 tiende a cero a medida que el tamaño de la muestra tiende al infinito. MSE Un estimador consistente para σ2 (la varianza de las respuestas individuales alrededor de la recta poblacional) es: con Dividimos para n-2 debido a los dos parámetros estimados a partir de los datos cuando se determina la recta de regresión. Inferencias en la Regresión de análisis Inferencias en la Regresión de análisis es un estimador insesgado y consistente. es un estimador de punto para σ(B1), el cual es consistente, aunque no es insesgado. B1 posee varianza mínima en la familia de estimadores lineales insesgados para 𝛽1 ¿Cómo tiende a cambiar Var(B1) con respecto a n? Distribución muestral de 𝐵1−𝛽1 𝑆(𝐵1) Debido a que: el estadístico estandarizado cumple con: Cuando el denominador es una desviación estándar estimada, se habla del estadístico “estudentadizado”: Inferencias en la Regresión de análisis Nota técnica sobre la distribución t La distribución t es: unimodal y simétrica alrededor de cero (al igual que la distribución normal), sin embargo, tiene colas mas pesadas (valores más extremos) y por lo tanto mayor varianza. Inferencias en la Regresión de análisis Notación t(𝛼/2; n-2) es el cuantil 𝛼/2 de la distribución t con (n-2) grados de libertad. Debido a la simetría: t(𝛼/2; n-2) = - t(1-𝛼/2; n-2) Entonces t(0.025; 23) = −2.069 Inferencias en la Regresión de análisis Inferencias en la Regresión de análisis La suma de los cuadrados de n variables aleatorias normales estándar independientes, σ𝑖=1 𝑛 𝑍𝑖 2, es una variable aleatoria Chi cuadrado con n grados de libertad (g.l.). El cociente entre una variable aleatoria normal estándar y la raíz cuadrada de una variable aleatoria independiente Chi cuadrado con n g.l., dividido para n es una variable aleatoria t con n g.l. Para cualquier variable aleatoria y Inferencias en la Regresión de análisis se obtiene de lo siguiente: y por tanto Construcción de un intervalo de confianza con probabilidad (1-𝛼)100% para 𝛽1 Reordenando las desigualdades anteriores, se obtiene: Esto se cumple para todos los valores posibles de 𝛽1, por lo que el intervalo aleatorio tiene probabilidad (1 − 𝛼) de ‘cubrir’ el verdadero valor de 𝛽1. Inferencias en la Regresión de análisis Inferencias en la Regresión de análisis tiene probabilidad (1 − 𝛼) de ‘cubrir’ el verdadero valor de 𝛽1. En el ejemplo Toluca, el tamaño de los lotes y las horas de trabajo: Tal que el intervalo de confianza estimado del 95%, es igual a: [3.5702 − 2.069(.347) , 3.5702 + 2.069(.347)] ó [2.85 , 4.29] Hay que tener mucho cuidado al interpretar el intervalo calculado, ya que este es uno de los infinitos posibles intervalos de confianza del 95% que se pueden calcular bajo el modelo de regresión lineal postulado. Para el intervalo calculado, es incorrecto realizar interpretaciones probabilísticas. Sin embargo, el intervalo calculado nos da una muy buena idea sobre cuál podría ser el verdadero valor del parámetro En nuestro ejemplo: Con el intervalo calculado, podemos tener la idea de que el número esperado de horas de trabajo aumenta en un valor entre 2.85 y 4.29 horas, cuando el tamaño del lote aumenta en 1 unidad o entre 28.5 y 42.9 cuando el tamaño del lote aumenta en 10 unidades. 2. Pruebas relativas a 𝛽1 Pruebas relativas a 𝜷𝟏 Ya que una prueba de dos colas de H0: 𝛽1 = 𝛽10 versus Ha: 𝛽1 ≠ 𝛽10 se lleva a cabo a un nivel de significancia 𝛼, siguiendo la regla de decisión: Si , no rechazamos H0 (con confianza de 1 − 𝛼) Si , se concluye Ha (con confianza de 1 − 𝛼) Por ejemplo Prueba para hallar el valor de 𝛽10 = 0 a un nivel de significancia del 𝛼 = 0.05, basado en los datos del ejemplo Toluca (n=25): Si no rechazamos H0 Si concluimos Ha Ya que: Resulta que: Por lo que concluimos Ha : Existe una asociación significativa (positiva) entre el tamaño del lote y las horas de trabajo necesarias. Pruebas relativas a 𝜷𝟏 La prueba de una cola De H0: 𝛽1 = 𝛽10 versus Ha: 𝛽1 > 𝛽10 se lleva a cabo a un nivel de significancia 𝛼, cuando se sigue la regla de decisión: Si no rechazamos H0 Si se concluye Ha Pruebas relativas a 𝜷𝟏 La prueba de una cola Para 𝛼 = 0.05, calculamos qt(df = 23, 0.95) [1]1.713872 por lo tanto, rechazamos H0 y concluimos Ha El valor p unilateral es encontrado en R como > 1 - pt(df = 23, 10.29)= 2.222735e - 010 y es mucho más pequeño que 0.05 P: Entonces, ¿qué es el valor p unilateral en este caso? P: ¿Y si estuviéramos probando Ha: 𝛽1 < 0 ? Pruebas relativas a 𝜷𝟏 La potencia de la prueba de dos colas al nivel 𝛼 Para detectar una verdadera alternativa 𝛽1, con Pruebas relativas a 𝜷𝟏 con Pruebas relativas a 𝜷𝟏 3. Inferencia relativa a 𝜷𝟎 Alcance del modelo Tenga cuidado: se obtiene inferencias sobre 𝛽0 cuando éste es un parámetro relevante; es decir, refleja la media del resultado para un valor x dado que pertenece al alcance del modelo. Debido a que es una combinación lineal de los valores Yi, el estimador B0 se distribuye normalmente también. Podemos verificar que tiene: y Inferencia relativa a 𝜷𝟎 Con Un estimador insesgado de la varianza es: donde la raíz cuadrada, S(B0), es ‘un’ estimador para 𝜎(𝐵0) Inferencia relativa a 𝜷𝟎 𝐵0 − 𝛽0 𝑆(𝐵0) ≝ 𝑡(𝑛 − 2) Conduce al intervalo de confianza (1 − 𝛼) para 𝛽0 : Como se ha indicado anteriormente x = 0 se encuentra fuera del alcance del modelo en el ejemplo de Toluca, por lo que no tiene sentido construir un intervalo de confianza (IC) para 𝛽0 en ese caso. La prueba sigue un enfoque similar a la que revisamos para el parámetro 𝛽1. Ahora usamos la distribución apropiada de B0 (y sus parámetros estimados). Inferencia relativa a 𝜷𝟎 Comentarios acerca de las inferencias respecto a 𝛽0 y 𝛽1 La normalidad de B0 y B1 se deriva del supuesto de los errores normales del modelo. Sin embargo, son asintóticamente normales bajo condiciones muy generales a medida que aumenta el tamaño de la muestra (teorema del límite central). Aplicando este teorema, los IC y las pruebas darán resultados aproximadamente correctos, incluso si los errores no siguen una distribución normal. Se puede obtener resultados razonables incluso con muestras pequeñas y desviaciones de la normalidad no tan severas. La interpretación de los IC y las pruebas, etc. dado los valores x fijos: El coeficiente de confianza (95%) considera la probabilidad media de ‘cubrir’ el parámetro verdadero en intervalos construidos sobre muchasmuestras independientes, manteniendo la distribución de x fija. Cuanto mayor sea la varianza de x, más precisos serán sus estimadores (más angostos serán los intervalos de confianza). Inferencia relativa a 𝜷𝟎 4. INTERVALOS DE ESTIMACIÓN E(yh ; xh) Deseamos predecir: El número esperado (promedio) de horas de trabajo para un lote dado de tamaño xh Nuestra nota final basado en nuestras notas actuales en proyectos, etc. El estimador de punto es: ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ Ya que es una combinación lineal de las respuestas Y originales, bajo el modelo de regresión normal, 𝑌ℎ sigue una distribución normal con media: y Esto se estima cambiando 𝜎2 por MSE. ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ Por lo tanto, un intervalo de confianza de 1 − 𝛼 para la media del resultado a un nivel 𝑥ℎ es Aplicación: podemos decidir el precio para un tamaño de lote basado en las horas de trabajo promedio, ya que acumularemos costos para muchos lotes con un tamaño dado ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ ESTIMACIÓN POR INTERVALO PARA 𝐸 𝑌ℎ; 𝑥ℎ 5. Predicción de una nueva observación yh (new) Una nueva observación individual Varía (normalmente) alrededor de su media verdadera con varianza 𝜎2. Se puede demostrar que: y por lo tanto: es un intervalo de predicción 1 − 𝛼 para Yh (new) , esto es: con probabilidad 1 − 𝛼 contendrá la nueva observación para un xh dado. Predicción de una nueva observación yh (new) Inferencia relativa a 𝜷𝟎 Inferencia relativa a 𝜷𝟎 Inferencia relativa a 𝜷𝟎 6. Banda de confianza para una línea de regresión Para obtener una banda de confianza para toda una línea de regresión 𝐸 𝑌 = 𝛽0 + 𝛽1𝑥 necesitaremos una banda que sea más ancha que los intervalos de confianza para la media puntual condicional (especifica para un x). Formalmente esto se obtiene mediante donde Bajo el modelo, existe una probabilidad de 1 - 𝛼 que la línea de regresión verdadera por entero se encuentre dentro de las bandas. ¡La banda es más ancha! Banda de confianza para una línea de regresión Inferencia relativa a 𝜷𝟎 Recuerde el ejemplo de Toluca (n=25) Nota técnica sobre la distribución F La distribución F con m y n grados de libertad esta basada en dos distribuciones independientes Banda de confianza para una línea de regresión Inferencia relativa a 𝜷𝟎 7. perspectiva del Análisis de la Varianza en la regresión lineal Grado de asociación lineal: R2 Desviación estándar (SD) de horas de trabajo: 113.14 SD residual de horas de trabajo: 48.82 ¿Qué esta sucediendo? perspectiva del Análisis de la Varianza en la regresión lineal Desviación estándar (SD) de horas de trabajo: 113.14 SD residual de horas de trabajo: 48.82 ¿Qué esta sucediendo? El modelo de regresión explica como parte de la varianza entre diferentes valores de Y se debe a la varianza entre sus valores x fijos. La línea de regresión explica solo una parte de la varianza, ya que aún queda varianza residual (adicional) de los valores Y alrededor de la recta de regresión estimada. Cuando 𝛽1 = 0 , la recta estimada tiende a explicar una cantidad no significativa de la variación de Y. Análisis de la varianza: partición de la varianza total de Y en varianza dentro y alrededor de la recta de regresión. perspectiva del Análisis de la Varianza en la regresión lineal perspectiva del Análisis de la Varianza en la regresión lineal perspectiva del Análisis de la Varianza en la regresión lineal Desarrollo formal: Partición de la distancia 𝑌𝑖 − ത𝑌 La desviación total 𝑌𝑖 − ത𝑌 puede ser descompuesta en dos partes: I = Desviación del valor de regresión ajustado alrededor de la media II = Desviación del valor observado alrededor de la recta de regresión ajustada Sorprendentemente, la suma de los cuadrados sigue el mismo patrón. donde llamamos la suma de cuadrados totales la suma de cuadrados de los errores o suma cuadrática de los errores la suma de cuadrados de regresión o suma cuadrática de regresión perspectiva del Análisis de la Varianza en la regresión lineal Ejemplo de la compañía Toluca perspectiva del Análisis de la Varianza en la regresión lineal Demostración perspectiva del Análisis de la Varianza en la regresión lineal Donde el último termino es igual a cero, ya que: Desglose de los grados de libertad perspectiva del Análisis de la Varianza en la regresión lineal d grados de libertad se pierden cuando una desviación es medida alrededor de una media, que tiene d parámetros desconocidos que fueron estimados a partir de los datos. Por lo tanto, para el modelo de regresión lineal simple: Cuadrados medios perspectiva del Análisis de la Varianza en la regresión lineal La media cuadrática se define como la suma de cuadrados dividida para sus grados de libertad asociados, por lo tanto SSTO/(n-1) Media cuadrática total MSE SSE/(n-2) Error cuadrático medio o media cuadrática de los errores MSR SSR Media cuadrática de regresión Cuadrados medios esperados perspectiva del Análisis de la Varianza en la regresión lineal Inferencias basadas en el enfoque del análisis de varianza requiere conocimiento sobre la distribución de las medias cuadráticas: Sabemos que E(MSE) = 𝜎2 ¿Y E(MSR)? Donde Cuadrados medios esperados perspectiva del Análisis de la Varianza en la regresión lineal Entonces, sabemos que: Cuadrados medios esperados perspectiva del Análisis de la Varianza en la regresión lineal Entonces, sabemos que: Por lo tanto donde Ya sabemos que Implicaciones perspectiva del Análisis de la Varianza en la regresión lineal Por lo tanto Una comparación de MSR y MSE es útil para probar si 𝛽1 = 0 ¿Cómo procedería, usted? F de prueba de 𝛽1 = 0 versus 𝛽1 ≠ 0 perspectiva del Análisis de la Varianza en la regresión lineal Estadístico de prueba: 𝐹∗ = 𝑀𝑆𝑅 𝑀𝑆𝐸 grandes valores soportan a Ha: 𝛽1≠ 0, valores cercanos a 1 soportan a H0: 𝛽1= 0 Distribución de muestral bajo H0: F* tiene una distribución muestral conocida bajo el modelo lineal con errores normales cuando 𝛽1 = 0 : Distribución muestral bajo Ha: Bajo Ha se tiene una compleja ‘distribución F no central’ ¿Cómo probamos y calculamos los valores p y potencia de la prueba? perspectiva del Análisis de la Varianza en la regresión lineal Si no se rechaza H0 Si concluir Ha Valor p: probabilidad de que una variable aleatoria F con grados de libertad (1, n-2) exceda al valor observado para F* Tenga en cuenta que: Método general de prueba lineal perspectiva del Análisis de la Varianza en la regresión lineal La prueba de análisis de varianza se extiende para modelos lineales de complejidad casi arbitraria. Modelo completo F ajustado con error medio cero 𝜖𝑖 independiente de xi encontrar SSE(F) = SSE con dfF grados de libertad Modelo reducido R ajustado con error medio cero 𝜖𝑖 ∗ encontrar SSE(R)=SSTO con dfR grados de libertad Método general de prueba lineal perspectiva del Análisis de la Varianza en la regresión lineal Hipótesis nula: 𝛽1 = 0 Principio de la prueba lineal general: una pequeña diferencia entre SSE(F) y SSE(R) indica que los parámetros añadidos en el modelo completo no ayudan a reducir la varianza del resultado. perspectiva del Análisis de la Varianza en la regresión lineal Estadístico de prueba: 𝐹∗ = 𝑆𝑆𝐸 𝑅 − 𝑆𝑆𝐸(𝐹) 𝑑𝑓𝑅 − 𝑑𝑓𝐹 ÷ 𝑆𝑆𝐸(𝐹) 𝑑𝑓𝐹 grandes valores soportan a Ha: 𝛽1≠ 0, valores pequeños soportan a H0: 𝛽1= 0 Distribución muestral bajo H0: F* sigue la distribución F con dfR − dfF y dfF grados de libertad bajo la hipótesis nula Para probar si 𝛽1 = 0 : Método general de prueba lineal 8. Grado de asociación lineal: R2 Coeficiente de determinación Expresa el efecto de x en la reducción de lavariación de Y o la reducción proporcional de la varianza de Y cuando x es considerado 0 ≤ 𝑅2 ≤ 1 Coeficiente de correlación (sólo si x y Y son variables aleatorias) Coeficiente de determinación ajustado Ajusta para p, el número de parámetros en el modelo. Grado de asociación lineal: R2 Grado de asociación lineal: R2 Grado de asociación lineal: R2 Limitaciones R2 es tomada como una medida para el valor predictivo de la variable explicativa; sin embargo, existen varios malentendidos. Un R2 alto no indica necesariamente, que pueda hacerse predicciones útiles. ¿Cuál sería un buen criterio para ello? R2 tampoco indica que la línea estimada de regresión es un buen ajuste. Un R2 bajo no indica necesariamente que x y Y no están asociadas, podría ocurrir simplemente que el modelo es malo. Grado de asociación lineal: R2 Grado de asociación lineal: R2
Compartir