Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Parte 2 – Estadística Prof. María B. Pintarelli 209 10 – REGRESIÓN LINEAL SIMPLE 10.1 – Introducción En muchos problemas existe una relación entre dos o más variables, y resulta de interés estudiar la naturaleza de esa relación. El análisis de regresión es la técnica estadística para el modelado y la investigación de la relación entre dos o más variables. Veamos un ejemplo. Los resortes se usan en aplicaciones por su capacidad para alargarse (contraerse) bajo carga. La rigidez de un resorte se mide con la constante del resorte, que es la longitud del resorte que se alargará por unidad de la fuerza o de la carga. Para asegurarse de que un resorte dado funciona adecuadamente es necesario calcular la constante de resorte con exactitud y precisión. En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo, y los pesos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la longitud del resorte. Sean nxxx ,...,, 21 los pesos, y sea il la longitud del resorte bajo la carga ix . La ley de Hooke establece que ii xl 10 ββ += donde 0β representa la longitud del resorte cuando no tiene carga y 1β es la constante del resorte. Sea iy la longitud medida del resorte bajo la carga ix . Debido al error de medición iy será diferente de la longitud verdadera il . Se escribe como iii ly ε+= donde iε es el error en la i-ésima medición. Al combinar ambas ecuaciones se obtiene iii xy εββ ++= 10 (10.1) En la ecuación (10.1), iy es la variable dependiente, ix es la variable independiente, 0β y 1β son los coeficientes de regresión, y iε se denomina error. A la ecuación (10.1) se la llama modelo de regresión lineal simple. La tabla siguiente presenta los resultados del experimento y la figura el diagrama de dispersión de y contra x. Peso (lb) Longitud medida (pulg) Peso (lb) Longitud medida (pulg) x y x y 0,0 5,06 2,0 5,40 0,2 5,01 2,2 5,57 0,4 5,12 2,4 5,47 0,6 5,13 2,6 5,53 0,8 5,14 2,8 5,61 1,0 5,16 3,0 5,59 1,2 5,25 3,2 5,61 1,4 5,19 3,4 5,75 1,6 5,24 3,6 5,68 1,8 5,46 3,8 5,80 Parte 2 – Estadística Prof. María B. Pintarelli 210 La idea es utilizar estos datos para estimar los coeficientes de regresión. Si no hubiese error en la medición, los puntos se encontrarían en una línea recta con pendiente 1β y ordenada al origen 0β , y estas cantidades serían fáciles de determinar. La idea es entonces que los puntos están dispersos de manera aleatoria alrededor de una recta que es la recta de regresión lineal xl 10 ββ += . En general podemos decir que al fijar el valor de x observamos el valor de la variable Y. Si bien x es fijo, el valor de Y está afectado por el error aleatorio ε . Por lo tanto ε determina las propiedades de Y. Escribimos en general εββ ++= xY 10 donde x es, por ahora, una variable no aleatoria, ε es la v.a. del error y asumimos que 0)( =εE y 2)( σε =V Entonces Y es una variable aleatoria tal que ( ) ( ) ( ) xExxExYE 101010 ββεββεββ +=++=++= ( ) ( ) ( ) 210 σεεββ ==++= VxVxYV En consecuencia, el modelo de regresión verdadero ( ) xxYE 10 ββ += es una recta de valores promedio. Notar que lo anterior implica que existe una distribución de valores de Y para cada x, y que la varianza de esta distribución es la misma para cada x. La siguiente figura ilustra esta situación Notar que se utilizó una distribución normal para describir la variación aleatoria en ε . Por lo tanto la distribución de Y también será normal. La varianza 2σ determina la variabilidad en las observaciones Y. por lo tanto, cuando 2σ es pequeño, los valores observados de Y caen cerca de la línea, y cuando 2σ es grande, los valores observados de Y pueden desviarse considerablemente de la línea. Dado que 2σ es constante, la variabilidad en Y para cualquier valor de x es la misma. Peso(lb) L o n g it u d (p u lg ) 0 1 2 3 4 5 5,2 5,4 5,6 5,8 Parte 2 – Estadística Prof. María B. Pintarelli 211 10.2 – Regresión lineal simple- Estimación de parámetros Para estimar los coeficientes de regresión se utiliza el método de mínimos cuadrados. Supongamos que se tienen n pares de observaciones ),();....;,();,( 2211 nn yxyxyx . Realizamos una gráfica representativa de los datos y una recta como posible recta de regresión Anotamos a la recta de regresión estimada con xy 10 ˆˆˆ ββ += x y 110 xββ + 210 xββ + 1x 2x ( ) xxYE 10 ββ += iy iŷ ix Recta de regresión estimada Parte 2 – Estadística Prof. María B. Pintarelli 212 Las estimaciones de 0β y 1β deben dar como resultado una línea que en algún sentido se “ajuste mejor” a los datos. El método de mínimos cuadrados consiste en estimar 0β y 1β de manera tal que se minimice la suma de los cuadrados de las desviaciones verticales mostradas en la figura anterior. La suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de regresión es ( )∑ = −−= n i ii xyL 1 2 10 ˆˆ ββ Los estimadores de mínimos cuadrados de 0β y 1β , que anotamos 0β̂ y 1β̂ , deben satisfacer las siguientes ecuaciones ( ) ( ) =−−−= ∂ ∂ =−−−= ∂ ∂ ∑ ∑ = = n i iii n i ii xxy L xy L 1 10 1 1 10 0 0ˆˆ2 0ˆˆ2 ββ β ββ β (10.2) Después de simplificar las expresiones anteriores, se llega a =+ =+ ∑ ∑ ∑ ∑ ∑ = = = = = n i n i n i iiii n i n i ii yxxx yxn 1 1 1 2 10 1 1 10 ˆˆ ˆˆ ββ ββ (10.3) Las ecuaciones (10.3) reciben el nombre de ecuaciones normales de mínimos cuadrados. La solución de estas ecuaciones dan como resultado las estimaciones de mínimos cuadrados 0β̂ y 1β̂ xy 10 ˆˆ ββ −= (10.4) ∑ ∑ ∑ ∑∑ = = = == − − = n i n i i i n i n i i n i i ii n x x n yx xy 1 2 12 1 11 1β̂ (10.5) donde n y y n i i∑ == 1 y n x x n i i∑ == 1 Parte 2 – Estadística Prof. María B. Pintarelli 213 Las diferencias iii yye ˆ−= con ni ,...,1= se llaman residuos. El residuo ie describe el error en el ajuste del modelo en la i-ésima observación iy . Para agilizar la notación son útiles los siguientes símbolos ( ) n x xxxS n i in i n i iixx 2 1 1 1 22 −=−= ∑ ∑ ∑ = = = (10.6) ( ) n yx yxxxyS n i i n i in i n i iiiixy −=−= ∑∑ ∑ ∑ == = = 11 1 1 (10.7) Entonces conesta notación podemos escribir xx xy S S =1β̂ Ejemplo: Ajustamos un modelo de regresión lineal a los datos del ejemplo anterior. La estimación de la constante del resorte es 1β̂ y 0β̂ la estimación de la longitud sin carga. De la tabla obtenemos 9.1=x 3885.5=y 6.26=xxS 4430.5=xyS Entonces 2046.0 6.26 4430.5ˆ 1 === xx xy S S β y 9997.49.12046.03885.5ˆˆ 10 =×−=−= xy ββ La ecuación de la recta estimada es xyxy 2046.09997.4ˆˆˆˆ 10 −=⇒+= ββ La figura siguiente muestra el gráfico de dispersión con la recta de regresión estimada X Y 0 1 2 3 4 5 5,2 5,4 5,6 5,8 Parte 2 – Estadística Prof. María B. Pintarelli 214 Podemos utilizar la recta de regresión estimada para predecir la longitud del resorte bajo una carga determinada, por ejemplo con una carga de 1.3 lb: pulg.27.5)3.1(2046.09997.4ˆ =−=y Podemos también estimar la longitud del resorte bajo una carga de 1.4 lb: pulg.29.5)4.1(2046.09997.4ˆ =−=y Notar que la longitud medida para una carga de 1.4 lb es 5.19 pulg., pero la estimación de mínimos cuadrados de 5.29 pulg. Está basada en todos los datos y es más precisa (tiene menor incertidumbre). Mas adelante calcularemos la varianza de estos estimadores. Observaciones: 1- Las estimaciones de mínimos cuadrados 1β̂ y 0β̂ son valores de variables aleatorias y dicho valor varía con las muestras. Los coeficientes de regresión 0β y 1β son constantes desconocidas que estimamos con 1β̂ y 0β̂ . 2- Los residuos ie no son lo mismo que los errores iε . Cada residuo es la diferencia iii yye ˆ−= entre el valor observado y el valor ajustado, y se pueden calcular a partir de los datos. Los errores iε representan la diferencia entre los valores medidos iy y los valores ix10 ββ + . Como los valores verdaderos de 0β y 1β no se conocen entonces, los errores no se pueden calcular. 3- ¿Qué sucede si se quisiera estimar la longitud del resorte bajo una carga de 100 lb? La estimación de mínimos cuadrados es pulg.46.25)100(2046.09997.4ˆ =−=y pero esta estimación no es confiable, pues ninguno de los pesos en el conjunto de datos es tan grande. Es probable que el resorte se deformara, por lo que la ley de Hooke no valdría. Para muchas variables las relaciones lineales valen dentro de cierto rango, pero no fuera de él. Si se quiere saber cómo respondería el resorte a una carga de 100 lb se deben incluir pesos de 100 lb o mayores en el conjunto de datos. Por lo tanto no hay que extrapolar una recta ajustada fuera del rango de los datos. La relación lineal puede no ser válida ahí. 10.3 – Propiedades de los estimadores de mínimos cuadrados y estimación de 2σ Los estimadores de 1β y 0β los anotamos xY 10 ˆˆ ββ −= ( ) xx n i ii xx xY S xxY S S ∑ = − == 11β̂ (10.8) Como 1β̂ y 0β̂ son estimadores de 1β y 0β respectivamente, son variables aleatorias, por lo tanto podemos calcular su esperanza y varianza. Como estamos asumiendo que x no es v.a. entonces 1β̂ y 0β̂ son funciones de la v.a. Y. Recordemos que el modelo es εββ ++= xY 10 , si medimos n veces la variable Y tenemos iii xY εββ ++= 10 Parte 2 – Estadística Prof. María B. Pintarelli 215 donde asumimos ( ) 0=iE ε ; ( ) 2σε =iV ni ,...,2,1= y nεεε ,...,, 21 independientes Por lo tanto ( ) ( ) ( ) iiii xExxExYE 101010 ββεββεββ +=++=++= ( ) ( ) ( ) 210 σεεββ ==++= iiii VxVxYV Consideramos ( ) xx n i ii xx xY S xxY S S ∑ = − == 11β̂ . Podemos ver a 1β̂ como una combinación lineal de las variables iY , entonces ( ) ( ) ( ) ( )( ) =−= −= − = = ∑∑ ∑ == = n i ii xx n i ii xxxx n i ii xx xy xxYE S xxYE SS xxY E S S EE 11 1 1 11 β̂ ( )( ) ( ) ( ) 11 1 1 10 1 10 111 ββββββ == −+−=−+= ∑ ∑∑ = == xx xx n i n i iii xx n i ii xx S S xxxxx S xxx S Notar que ( ) 01 111 = −=−=− ∑ ∑∑∑ = === n x nxxnxxx n i in i i n i i n i i y ( ) ( )( ) xx n i ii n i ii Sxxxxxxx =−−=− ∑∑ == 11 Por lo tanto ( ) xx n i ii xx xy S xxY S S ∑ = − == 11β̂ es un estimador insesgados de 1β Veamos ahora la varianza de 1β̂ ( ) ( ) ( ) ( )( ) =−= −= − = = ∑∑ ∑ == = n i ii xx n i ii xxxx n i ii xx xy xxYV S xxYV SS xxY V S S VV 1 2 2 1 2 1 1 11 β̂ ( ) xx xx xx n i i xx S S S xx S 2 2 2 1 22 2 11 σ σσ ==−= ∑ = Por lo tanto (10.9) ( ) 11ˆ ββ =E y ( ) xxS V 2 1 ˆ σβ = Parte 2 – Estadística Prof. María B. Pintarelli 216 Con un enfoque similar calculamos la esperanza y la varianza de 0β̂ ( ) ( ) ( ) ( ) ( ) =−=− =−=−= ∑ ∑ = = xYE n x n Y ExEyExYEE n i i n i i 1 1 1 1 110 1ˆˆˆ βββββ ( ) 0110110 1 βββββββ =−+=−+= ∑ = xxxx n n i i Calculamos la varianza de 0β̂ , para esto planteamos: ( ) ( ) ( ) ( )( ) ( )xYCovxVYVxYVV 1110 ˆ,2ˆˆˆ ββββ −+=−= Tenemos que ( ) ( ) nn YV n Y n VYV n i n i i n i i 2 1 2 2 1 2 1 111 σ σ === = ∑∑∑ === r Y ( ) 0, =ji YYCov por indep. ( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) 01,1 , 1 , 1ˆ,ˆ, 1 2 1 2 1 11 1 11 =−=−=−= =−= − == ∑∑∑ ∑∑ ∑ === == = n i i xx n i i xx n i iii xx n i iii xx n i n i xx i ii xx nS xxx nS xYYCovxx nS x xxYYCov nS x S xx YY n CovxYCovxxYCov σ σ ββ Por lo tanto ( ) ( ) ( ) ( )( ) ( ) +=−+=−+=−= xxxx S x nS x n xYCovxVYVxYVV 2 2 2 2 2 1 2 110 1 0ˆ,2ˆˆˆ σ σσ ββββ Entonces ( 10.10) Necesitamos estimar la varianza desconocida 2σ que aparece en las expresiones de ( )0β̂V y ( )1β̂V . Los residuos iii yye ˆ−= se emplean para estimar 2σ . La suma de los cuadrados de los residuos es ( )∑ = −= n i iiR yySS 1 2 ˆ (10.11) ( ) 00ˆ ββ =E y ( ) += xxS x n V 2 2 0 1ˆ σβ Parte 2 – Estadística Prof. María B. Pintarelli 217 Puede demostrarse que 2 2 −= n SS E R σ , en consecuencia 2 2 σ= −n SS E R . Entonces se toma como estimador de 2σ a 2 ˆ 2 − = n SSRσ (10.12) Puede obtenerse una fórmula más conveniente para el cálculo de RSS , para esto primero notar que las ecuaciones normales (10.2) se pueden escribir como ( ) ( ) =−− =−− ∑ ∑ = = n i iii n i ii xxy xy 1 10 1 10 0ˆˆ 0ˆˆ ββ ββ ⇒ = = ∑ ∑ = = n i ii n i i xe e 1 1 0 0 Entonces ( ) ( )( ) ( ) ( ) ( ) ( )( ) ( )yyexyyeyexeye xyeyyeyyyyyySS i n i ii n i ii n i iiii n i i ii n i iii n i i n i iiii n i iiR −=−−=−=−−= =−−=−=−−=−= ∑∑∑∑∑ ∑∑∑∑ ==== ==== 1 1 1 0 1 10 1 10 1111 2 ˆˆˆˆ ˆˆˆˆˆˆ ββββ ββ Por lo tanto ( ) ( )( ) ( )( ) ( )( ) ( )( ) xyyyi n i ii n i i i n i iii n i iii n i iR SSyyxxyyyy yyxxyyyyxyyyeSS 1 1 1 1 1 11 1 10 1 ˆˆ ˆˆˆˆ ββ ββββ −=−−−−−= =−−+−=−−−=−= ∑∑ ∑∑∑ == === También se puede escribir xx xy yyxy xx xy yyxyyyR S S SS S S SSSSS 2 1 ˆ −=−=−= β En resumen xx xy yyRxyyyR S S SSSSSSS 2 1 ó ˆ −=−= β (10.13) Por lo tanto 2 ˆ 2 2 − − = n S S S xx xy yy σ Y si anotamos a la desviación estándar estimada de 0β̂ y 1β̂ con 0β̂ s y 0β̂ s respectivamente entonces Parte 2 – Estadística Prof. María B. Pintarelli 218 xxS s 2 ˆ ˆ 1 σ β = y += xxS x n s 2 2 ˆ 1 ˆ 0 σβ (10.14) Ejemplo: En el ejemplo anterior se calculó, 9.1=x , 3885.5=y , 6.26=xxS , 4430.5=xyS . Calculamos ahora ( ) 1733.1 20 1 2 =−=∑ =i iyy yyS y entonces 003307.0 18 6.26 4430.5 1733.1 2 ˆ 2 2 2 = − = − − = n S S S xx xy yy σ 0111.0000124.0 6.26 003307.0ˆ 2 ˆ 1 ==== xxS s σ β 02478219.0 6.26 9.1 20 1 003307.0 1 ˆ 22 2 ˆ 0 = += += xxS x n s σ β Observación: La varianza de 0β̂ y 1β̂ se puede disminuir tomando valores ix muy dispersos con respecto a x pues de esta forma aumenta xxS Para construir intervalos de confianza para los coeficientes de regresión o para construir pruebas de hipótesis con respecto a 0β o 1β necesitamos asumir que los errores iε tienen distribución normal. Entonces ),0(~ 2σε Ni Observación: Si ),0(~ 2σε Ni entonces, como iii xY εββ ++= 10 , resulta que ),(~ 2 10 σββ ii xNY + . Se pueden calcular entonces los EMV de los parámetros y llegaríamos a que son los mismos que los encontrados usando mínimos cuadrados. De modo que la función que cumple la suposición de normalidad de los iε no es otra que la de justificar el uso del método de mínimos cuadrados, que es el mas sencillo de calcular. Ya vimos que 0β̂ y 1β̂ pueden considerarse combinaciones lineales de las iY , por lo tanto 0β̂ y 1β̂ son combinación lineal de variables aleatorias independientes con distribución normal y eso implica que + xxS x n N 2 2 00 1 ,~ˆ σββ y xxS N 2 11 ,~ ˆ σββ (10.15) Parte 2 – Estadística Prof. María B. Pintarelli 219 Y entonces ( )1,0~ 1 -ˆ 2 2 00 N S x n xx +σ ββ y ( )1,0~ ˆ 2 11 N S xx σ ββ − (10.16) Bajo la suposición que los errores tienen distribución normal, se puede probar que 2 2-n2 ~ χ σ RSS (10.17) Y también se puede probar que 2-n 2 2 00 ~ 1 ˆ -ˆ t S x n xx +σ ββ y 2-n 2 11 ~ ˆ ˆ t S xx σ ββ − (10.18) 10.4 – Inferencias estadísticas sobre los parámetros de regresión Suponemos que los errores tiene distribución normal, con media cero, varianza 2σ y son independientes. Inferencias sobre 1β Tests de hipótesis sobre 1β Se desea probar la hipótesis de que la pendiente 1β es igual a una constante, por ejemplo 10β . Supongamos las hipótesis 1010 : ββ =H contra 1010 : ββ ≠H El estadístico de prueba es xxS T 2 101 ˆ ˆ σ ββ − = que bajo 0H tiene distribución Student con n-2 grados de libertad. Por lo tanto la regla de decisión es ≤ > − − 2, 2 0 2,´ 2 0 n n tTsiHaceptar tTsiHrechazar α α Si 1011 : ββ >H se rechaza 1010 : ββ =H si 2, −> ntT α Si 1011 : ββ <H se rechaza 1010 : ββ =H si 2, −−< ntT α Parte 2 – Estadística Prof. María B. Pintarelli 220 Un caso especial importante es cuando 0: 10 =βH contra 0: 10 ≠βH Estas hipótesis están relacionadas con la significancia de la regresión. Aceptar 0: 10 =βH es equivalente a concluir que no hay ninguna relación lineal entre x e Y. Si 0: 10 =βH se rechaza implica que x tiene importancia al explicar la variabilidad en Y. También puede significar que el modelo lineal es adecuado, o que aunque existe efecto lineal pueden obtenerse mejores resultados agregando términos polinomiales de mayor grado en x. Ejemplos: 1- El fabricante del resorte de los datos de la ley de Hooke afirma que la constante del resorte 1β es al menos 0.23 pulg/lb. Se ha calculado que la constante del resorte es 2046.0ˆ1 =β pulg/lb. ¿Se puede concluir que la afirmación del fabricante es falsa? Solución: Se requiere una prueba de hipótesis para contestar la pregunta. Las hipótesis serían 23.0: 10 =βH contra 23.0: 10 <βH El estadístico de prueba es xxxx SS T 2 1 2 101 ˆ 23.0ˆ ˆ ˆ σ β σ ββ − = − = Se calculó anteriormente 0111.0 ˆ 2 = xxS σ , entonces el valor 0t que toma el estadístico es 28.2 0111.0 23.02046.0 0 −= − =t Calculamos el p-valor recordando que bajo 23.0: 10 =βH , 2-n~ tT : ( )28.2−<=− TPvalorp Vemos en la tabla de la distribución Student que en la fila 18=ν grados de libertad ( ) ( ) => => 01.0552.2 025.0101.2 TP TP ⇒ 025.001.0 <−< valorp Por lo tanto se rechaza 23.0: 10 =βH 2- La capacidad de una unión soldada de alongarse bajo tensión está afectada por el compuesto químico del metal de soldadura. En un experimento para determinar el efecto del contenido de carbono (x) sobre la elongación (y) se alongaron 39 soldaduras hasta la fractura, y se midió tanto el contenido de carbono (en partes por mil) como la elongación (en %). Se calcularon los siguientes resúmenes estadísticos: 6561.0=xxS ; 9097.3−=xyS ; 3319.4ˆ =σ Parte 2 – Estadística Prof. María B. Pintarelli 221 Suponiendo que x e y siguen un modelo lineal, calcular el cambio estimado en la elongación debido a un aumento de una parte por mil en el contenido de carbono. ¿Se debe utilizar el modelo lineal para pronosticar la elongación del contenido de carbono? Solución: El modelo lineal es εββ ++= xy 10 , y el cambio de elongación debido a un aumento de una parte por mil en el contenido de carbono es 1β . Las hipótesis serían 0: 10 =βH contra 0: 10 ≠βH La hipótesi nula establece que incrementar el contenido de carbono no afecta la elongación, mientras que la hipótesis alternativa establece que sí afecta la elongación. El estadístico de prueba xxxx SS T 2 1 2 101 ˆ ˆ ˆ ˆ σ β σ ββ = − = si 0: 10 =βH es verdadera tiene distribución Student con 2−n gados de libertad. Calculamos ( ) 959.5 6561.0 9097.3ˆ 1 1 −= − = − == ∑ = xx n i ii xx xy S xxy S S β 348.5 6561.0 3319.4ˆˆ 2 === xxxx SS σσ El valor que toma el estadístico de prueba es 114.1 348.5 959.5 0 = − =t Y ( ) 20.010.02114.1 =×>>=− TPvalorp Por lo tanto no hay evidencia en contra de la hipótesis nula. No se puede concluirque el modelo lineal sea útil para pronosticar la elongación a partir del contenido de carbono. Intervalos de confianza para 1β Podemos construir intervalos de confianza para 1β de nivel α−1 utilizando el hecho que el estadístico 2-n 2 11 ~ ˆ ˆ t S xx σ ββ − . El intervalo sería +− −− xx n xx n S t S t 2 2, 2 1 2 2, 2 1 ˆˆ ; ˆˆ σβ σ β αα (10.19) Parte 2 – Estadística Prof. María B. Pintarelli 222 Ejemplo: Determinar un intervalo de confianza de nivel 0.95 para la constante del resorte de los datos de la ley de Hooke. Solución: Se calculó antes 2046.0ˆ1 =β y 0111.0 ˆ 2 = xxS σ El número de grados de libertad es 18220 =− , y 05.0=α por lo tanto 101.218,025.0 2, 2 == − tt n α Por lo tanto el intervalo es ( ) ( )[ ] [ ]228.0 ;181.00111.0101.22046.0 ;0111.0101.22046.0 =−− Inferencias sobre 0β De manera similar a lo visto sobre 1β , se pueden deducir intervalos de confianza y tests de hipótesis para 0β Específicamente, si tenemos las hipótesis 0000 : ββ =H contra 0000 : ββ ≠H El estadístico de prueba es + xxS x n T 2 2 000 1 ˆ -ˆ σ ββ y bajo 0000 : ββ =H tenemos que 2-n~ tT Por lo tanto la regla de decisión es ≤ > − − 2, 2 0 2,´ 2 0 n n tTsiHaceptar tTsiHrechazar α α Si 0001 : ββ >H se rechaza 0000 : ββ =H si 2, −> ntT α Si 0001 : ββ <H se rechaza 0000 : ββ =H si 2, −−< ntT α Intervalos de confianza de nivel α−1 se deducen de manera análoga a lo visto anteriormente, donde usamos el hecho que el estadístico 2-n 2 2 00 ~ 1 ˆ -ˆ t S x n T xx +σ ββ El intervalo es ++ +− −− 1 ˆˆ ; 1 ˆˆ 2 2 2, 2 0 2 2 2, 2 0 xx n xx n S x n t S x n t σβσβ αα (10.20) Parte 2 – Estadística Prof. María B. Pintarelli 223 Ejemplo: En los datos de la ley de Hooke determine un intervalo de confianza de nivel 0.99 para la longitud del resorte no cargado. Solución: La longitud del resorte no cargado es 0β . Se ha calculado anteriormente 9997.4ˆ0 =β y 02478219.0 1 ˆ 2 2 ˆ 0 = += xxS x n s σβ El número de gados de libertad es 18220 =− y como 01.0=α entonces 878.218,005.0 2, 2 == − tt n α Por lo tanto el intervalo es ( ) ( )[ ] [ ]071023.5 ;9283.4 02478219.0878.29997.4 ;024782193.0878.29997.4 =−− 10.5 – Intervalo de confianza para la respuesta media A menudo es de interés estimar mediante un intervalo de confianza 010 xββ + , es decir estimar la media ( )0xYE para un valor específico 0x . Un estimador puntual razonable para 010 xββ + es 010 ˆˆ xββ + . Sabemos que ( ) 010010 ˆˆ xxE ββββ +=+ . Como de costumbre necesitamos construir un estadístico a partir de 010 ˆˆ xββ + que contenga al parámetro de interés, (en este caso 010 xββ + ) y del cual conozcamos la distribución de probabilidad. Pensamos en el estadístico ( ) ( )010 010010 ˆˆ ˆˆˆˆ xV xEx ββ ββββ + +−+ Nos falta calcular ( )010 ˆˆ xV ββ + . Para esto nuevamente observamos que 010 ˆˆ xββ + es una combinación lineal de las variables iY ( ) ( ) =−+=−+=+−=+ ∑∑ == xx S S Y n xxY n xxYx xx xY n i i n i i 0 1 01 1 011010 1ˆ1ˆˆˆˆ βββββ ( ) ( ) ( ) ( ) − − +=− − += ∑ ∑ ∑ = = = xx S xx n Yxx S xxY Y n xx i n i i xx n i iin i i 0 1 0 1 1 11 Por lo tanto: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) = − − +− − += − − += = − − += − − +=+ ∑∑ ∑∑ == == xx nS xx xx S xx n xx S xx n xx S xx n YVxx S xx n YVxV xx i xx i n ixx i n i xx i n i i xx i n i i 0 2 02 2 2 1 2 2 0 1 2 2 0 1 0 1 010 2 11 11ˆˆ σσ ββ Parte 2 – Estadística Prof. María B. Pintarelli 224 ( ) ( ) ( ) ( ) = − − +− − += ∑ ∑ = = n i n i i xx i xx xx nS xx xx S xx n 1 1 02 2 2 02 21σ Notar que ( ) 0 1 =−∑ = n i i xx y ( ) xx n i i Sxx =−∑ =1 2 entonces ( ) − += xxS xx n 2 02 1σ Por lo tanto ( ) − +++ xxS xx n xNx 2 02 010010 1 ;~ˆˆ σββββ (10.21) Como 2σ es desconocido lo reemplazamos por 2 ˆ 2 − = n SSRσ , y puede probarse que ( ) ( ) − + +−+ xxS xx n xx 2 02 010010 1 ˆ ˆˆ σ ββββ tiene distribución Student con 2−n grados de libertad Razonando como en casos anteriores, el intervalo de confianza para 010 xββ + de nivel α−1 es ( ) ( ) − +++ − +−+ −− 1 ˆˆˆ ; 1 ˆˆˆ 2 02 2, 2 010 2 02 2, 2 010 xx n xx n S xx n tx S xx n tx σββσββ αα (10.22) Ejemplo: Mediante los datos de la ley de Hooke calcular un intervalo de confianza de nivel 0.95 para la longitud media de un resorte bajo una carga de 1.4 lb Solución: Para aplicar (10.22) necesitamos calcular 010 ˆˆ xββ + ; 2σ̂ ; x ; xxS . En este caso 4.10 =x y 05.0=α , por lo tanto 101.218,025.0 2, 2 == − tt n α Ya tenemos calculado de ejemplos anteriores: 0575.0ˆ =σ 9.1=x 6.26=xxS 9997.4ˆ0 =β y 2046.0ˆ1 =β De aquí ya calculamos 286.54.12046.09997.4ˆˆ 010 =×+=+ xββ Parte 2 – Estadística Prof. María B. Pintarelli 225 Entonces el intervalo es: ( ) ( ) [ ]32.5 ;26.5 6.26 9.14.1 20 1 0575.0101.2286.5 ; 6.26 9.14.1 20 1 0575.0101.2286.5 2 2 2 2 = = − ++ − +− Observaciones: 1- Notar que el ancho del intervalo de confianza para ( )0xYE depende del valor de 0x . El ancho del intervalo es mínimo cuando xx =0 y crece a medida que xx −0 aumenta. 2- Al repetir los cálculos anteriores para varios valores diferentes de 0x pueden obtenerse intervalos de confianza para cada valor correspondiente de ( )0xYE . En la figura siguiente se presenta el diagrama de dispersión con la recta estimada y los correspondientes intervalos de confianza de nivel 0.95 graficados con las líneas inferior y superior referidos al ejemplo anterior. Se origina entonces una banda de confianza que envuelve a la recta estimada. 10.6 – Intervalos de predicción para futuras observaciones Una aplicación importante de un modelo de regresión es la predicción de observaciones nuevas o futuras de Y, correspondientes a un nivel especificado de la variable x. Si 0x es el valor de x de interés, entonces una estimación puntual de la observación 00100 εββ ++= xY es 0100 ˆˆˆ xY ββ += . Para hallar un intervalo de predicción para 0100 xY ββ += de nivel α−1 debemos construir un estadístico a partir de 0100 ˆˆˆ xY ββ += . Primero notamos que si 0Y es una nueva observación, entonces 0Y es independiente de las observaciones utilizadas para desarrollar el modelo de regresión. Consideramos 00 ŶY − . Calculamos su esperanza y varianza: X Y 0 1 2 3 4 5 5,2 5,4 5,6 5,8 Parte 2 – Estadística Prof. María B. Pintarelli 226 ( ) ( )( ) ( ) ( ) 0ˆˆˆ 0100010010001000 =+−++=+−++=− xExxxEYYEββεββββεββ ( ) ( ) ( ) ( ) ( ) ( ) ( ) − ++= = − ++=++++=+=− xx xx S xx n S xx n xVxVYVYVYYV 2 02 2 022 01000100000 1 1 1ˆˆˆˆ σ σσββεββ Por lo tanto ( ) − ++− xxS xx n NYY 2 02 00 1 1 ;0~ˆ σ (10.23) En consecuencia ( ) ( )1 ;0~ 1 1 ˆ 2 02 00 N S xx n YY xx − ++ − σ (10.24) Si reemplazamos 2σ por su estimación 2σ̂ se puede probar que ( ) 2-n202 00 ~ 1 1ˆ ˆ t S xx n YY xx − ++ − σ (10.25) Por el argumento usual llegamos al siguiente intervalo de predicción de nivel α−1 para 0Y : ( ) ( ) − +++ − ++ xxxx S xx n tY S xx n tY 2 02 2-n, 2 0 2 02 2-n, 2 0 1 1ˆˆ ; 1 1ˆ-ˆ σσ αα (10.26) Ejemplo: Calcular el intervalo de predicción con nivel 0.95 para la elongación de un resorte bajo una carga de 1.4 lb. Solución: El intervalo es ( ) ( ) [ ]5.41034 ;16165.5 6.26 9.14.1 20 1 10575.0101.2286.5 ; 6.26 9.14.1 20 1 10575.0101.2286.5 2 2 2 2 = = − +++ − ++− Parte 2 – Estadística Prof. María B. Pintarelli 227 Observaciones: 1- Un intervalo de confianza es un intervalo que contiene, con un nivel de confianza fijado, un parámetro determinado de interés. Un intervalo de predicción es un intervalo que contiene, con un nivel de confianza fijado, una variable aleatoria de interés. 2- El ancho del intervalo de predicción es mínimo cuando xx =0 y crece a medida que xx −0 aumenta. Al comparar (10.25) con (10.21) se observa que el intervalo de predicción en el punto 0x siempre es más grande que el intervalo de confianza en 0x . Esto se debe a que el intervalo de predicción depende tanto del error del modelo ajustado como del error asociado con las observaciones futuras. 3- Al repetir los cálculos anteriores para varios valores diferentes de 0x pueden obtenerse los intervalos de predicción. En la figura siguiente se presenta el diagrama de dispersión con la recta estimada y los correspondientes intervalos de confianza y de predicción de nivel 0.95 graficados con las líneas inferior y superior referidos al ejemplo anterior. Se originan entonces una banda de confianza (línea continua) y otra banda de predicción (línea entrecortada) que envuelven a la recta estimada. Esto ilustra que los intervalos de confianza son menos amplios que los intervalos de predicción. 10.7 – Índice de ajuste Si consideramos el ajuste por mínimos cuadrados de los pares de datos ( )ii Yx , al modelo εβ += 0Y Entonces es fácil verificar que el estimador de mínimos cuadrados de 0β es Y , y la suma de residuos al cuadrado es ( )∑ = −= n i iYY YYS 1 2 . Por otro lado si consideramos el modelo lineal εββ ++= xY 10 Entonces tenemos un valor de ( )∑ = −= n i iiR yySS 1 2 ˆ que será menor o igual a ( )∑ = −= n i iYY YYS 1 2 . X Y 0 1 2 3 4 5 5,2 5,4 5,6 5,8 Parte 2 – Estadística Prof. María B. Pintarelli 228 La cantidad 2R se define como YY R S SS R −= 12 (10.27) y es llamado coeficiente de determinación. Vemos que 2R será cero si 01 =β y será uno si ( )∑ = =−= n i iiR yySS 1 2 0ˆ , lo que significa ajuste lineal perfecto. En general 10 2 ≤≤ R . El valor de 2R se interpreta como la proporción de variación de la respuesta Y que es explicada por el modelo. La cantidad 2R es llamada índice de ajuste, y es a menudo usada como un indicador de qué tan bien el modelo de regresión ajusta los datos. Pero un valor alto de R no significa necesariamente que el modelo de regresión sea correcto. Ejemplo: En el ejemplo de la ley de Hooke, tenemos ( ) 1733.1 20 1 2 =−=∑ =i iyy yyS , y 059526.0 6.26 4430.5 1733.1 2 =−=RSS Por lo tanto 949266.0 1733.1 059526.0 112 =−=−= YY R S SS R El índice de ajuste R es a menudo llamado coeficiente de correlación muestral. Si la variable fijada x es una variable aleatoria, entonces tendríamos una v.a. bidimensional ( )YX , con una distribución de probabilidad conjunta, y tenemos una muestra de pares ( )ii YX , ni ,...,1= . Supongamos que estamos interesados en estimar ρ el coeficiente de correlación entre X e Y. Es decir ( )( ) ( )( )[ ] ( ) ( )YVXV YEYXEXE −− =ρ Es razonable estimar ( )( ) ( )( )[ ]YEYXEXE −− con ( )( )∑ = −− n i ii YYXX n 1 1 ( )XV con ( )∑ = − n i i XX n 1 21 y ( )YV con ( )∑ = − n i i YY n 1 1 Por lo tanto un estimador natural de ρ es ( )( ) ( ) ( ) R SS S YYXX YYXX YYXX XY n i i n i i n i ii == −− −− = ∑∑ ∑ == = 1 2 1 2 1ρ̂ (10.28) Parte 2 – Estadística Prof. María B. Pintarelli 229 Es decir el índice de ajuste estima la correlación entre X e Y Si X es una variable aleatoria, entonces se observan pares independientes ( )ii YX , con ni ,...,1= que cumplen el modelo iii XY εββ ++= 10 Si asumimos que iX y iε son independientes y que las iε tienen todas la misma distribución con ( ) 0=iE ε , entonces ( ) iii XXYE 10 ββ += Si además suponemos que ( )2,0~ σε Ni entonces se puede probar que los estimadores de máxima verosimilitud para los parámetros 0β y 1β son XY 10 ˆˆ ββ −= y ( ) ( ) XX XY n i i n i ii S S XX XXY = − − = ∑ ∑ = = 1 2 1 1β̂ Es decir son los mismos estimadores a los dados por el método de mínimos cuadrados en el caso de suponer que X es una variable matemática. También se puede probar que bajo las suposiciones hechas (10.17) y (10.18) siguen siendo válidas. Las distribuciones de los estimadores dependen ahora de las distribuciones de las iX . Puede probarse que siguen siendo insesgados, y que su distribución condicional en las iX es normal, pero en general su distribución no será normal. 10.8 – Análisis de residuos El ajuste de un modelo de regresión requiere varias suposiciones. La estimación de los parámetros del modelo requiere la suposición de que los errores son variables aleatorias independientes con media cero y varianza constante. Las pruebas de hipótesis y la estimación de intervalos requieren que los errores estén distribuidos de manera normal. Además se supone que el grado del modelo es correcto, es decir, si se ajusta un modelo de regresión lineal simple, entonces se supone que el fenómeno en realidad se comporta de una manera lineal. Se debe considerar la validez de estas suposiciones como dudosas y examinar cuán adecuado es el modelo que se propone. A continuación se estudian métodos que son útiles para este propósito. Los residuos de un modelo de regresión son iii yye ˆ−= ni ,...,2,1= . A menudo el análisis de los residuos es útil para verificar la hipótesis de que los errores tienen una distribución que es Parte2 – Estadística Prof. María B. Pintarelli 230 aproximadamente normal con varianza constante, y también para determinar la utilidad que tiene la adición de más términos al modelo. Es posible estandarizar los residuos mediante el cálculo de 2σ̂ ie ni ,...,2,1= . También se puede probar que la varianza del i-ésimo residuo ie es igual a ( ) ( ) − +−= xx i i S xx n eV 2 2 11σ Y entonces podemos considerar al i-ésimo residuo estudentizado que se define como ( ) − +− = xx i i i S xx n e r 2 2 11σ̂ y tiene desviación estándar unitaria. Si los errores tienen una distribución normal, entonces aproximadamente el 95% de los residuos estandarizados deben caer en el intervalo )2 ;2(− . Los residuos que se alejan mucho de este intervalo pueden indicar la presencia de un valor atípico, es decir, una observación que no es común con respecto a los demás datos. A menudo es útil hacer una gráfica de residuos contra la variable independiente x. En este caso la gráfica tendría que ser una nube de puntos sin ningún patrón en el intervalo )2 ;2(− ; pues iii yye ˆ−= sería lo que queda de iy al quitarle la influencia de ix . Si en la gráfica aparece algún patrón quiere decir que no estamos quitando de las y toda la influencia de las x. Patrones usuales para las gráficas de residuos suelen ser los de las siguientes figuras: en la figura a) se representa la situación ideal, una nube de puntos sin ningún patrón en el intervalo )2 ;2(− . Las figuras b) , c) y d) representan anomalías. Si los residuos aparecen como en b) o c) indican que el modelo es inadecuado. La figura d) muestra residuos que indican que la varianza de las observaciones varía con la magnitud de x. Comúnmente se utiliza una transformación de datos sobre la respuesta y para eliminar este problema. Las transformaciones más utilizadas para estabilizar la varianza son y , ( )yln o y 1 . En la figura d) la varianza de las observaciones disminuye con el aumento de x a) x re si d u o s 0 0,4 0,8 1,2 1,6 2 -1,7 -0,7 0,3 1,3 2,3 Parte 2 – Estadística Prof. María B. Pintarelli 231 Ejemplo: Para los datos sobre la ley de Hooke la gráfica de residuos es b) x re si d u o s 0 0,4 0,8 1,2 1,6 2 -3,3 -1,3 0,7 2,7 4,7 c) x re si d u o s 0 0,4 0,8 1,2 1,6 2 -3,3 -1,3 0,7 2,7 4,7 d) x re si d u o s 0 0,4 0,8 1,2 1,6 2 -3,3 -1,3 0,7 2,7 4,7 Parte 2 – Estadística Prof. María B. Pintarelli 232 Para el caso en que ( )YX , es una v.a. bidimensional, no siempre se está interesado en la relación lineal que defina ( )XYE / . Si no, únicamente saber si X e Y son variables aleatorias independientes. Si asumimos que la distribución conjunta de ( )YX , es una distribución llamada normal bivariada, entonces probar que 0=ρ es equivalente a probar que X e Y son independientes. Se puede probar que si la distribución conjunta de ( )YX , es normal bivariada, entonces R es el estimador de máxima verosimilitud de ρ . Pero es difícil obtener la distribución de probabilidad para R. Se puede superar esta dificultad en muestras bastante grandes al utilizar el hecho que el estadístico ( ) − + R R 1 1 ln 2 1 tiene aproximadamente una distribución normal con media ( ) − + = ρ ρ µ 1 1 ln 2 1 y varianza 3 12 − = n σ . Por lo tanto para probar la hipótesis 00 : ρρ =H podemos utilizar el estadístico de prueba ( ) ( ) 3 1 1 1 ln 2 1 1 1 ln 2 1 0 0 − − + − − + = n R R Z ρ ρ (10.29) Para construir intervalos de confianza de nivel α−1 para ρ , se despeja en ( ) − + = ρ ρ µ 1 1 ln 2 1 el coeficiente ρ y se llega a 1 1 2 2 + − = µ µ ρ e e (10.30) Ejemplo: X re si d u o s 0 1 2 3 4 -2,5 -1,5 -0,5 0,5 1,5 2,5 Parte 2 – Estadística Prof. María B. Pintarelli 233 En un estudio de los tiempos de reacción, el tiempo de respuesta a un estímulo visual (x) y el tiempo de respuesta a un estímulo auditivo (y) se registraron para cada una de 10 personas. Los tiempos se midieron en minutos. Se presentan en la siguiente tabla. x 161 203 235 176 201 188 228 211 191 178 y 159 206 241 163 197 193 209 189 169 201 a) Determinar un intervalo de confianza de nivel 0.95 para la correlación entre los tiempos de reacción. b) Determinar el p-valor para 3.0:0 =ρH contra 3.0:1 >ρH Solución: a) Se calcula ( )( ) ( ) ( ) 8159.0 1 2 1 2 1 == −− −− = ∑∑ ∑ == = YYXX XY n i i n i i n i ii SS S YYXX YYXX R Luego calcula ( ) ( ) 1444.1 8159.01 8159.01 ln 2 1 1 1 ln 2 1 = − + = − + R R Como ( ) − + R R 1 1 ln 2 1 está distribuido normalmente con varianza 3 12 − = n σ , el intervalo para ( ) − + = ρ ρ µ 1 1 ln 2 1 es [ ]8852.1 ;4036.0 310 1 96.11444.1 ; 310 1 96.11444.1 = − + − − Para hallar el intervalo para ρ aplicamos la transformación (10.30) y se obtiene ( ) ( ) ( ) ( ) 1 1 1 1 8852.12 8852.12 4036.02 4036.02 + − << + − e e e e ρ ⇒ 955.0383.0 << ρ b) Si 3.0:0 =ρH es verdadera entonces el estadístico ( ) ( ) 310 1 3.01 3.01 ln 2 1 1 1 ln 2 1 − − + − − + = R R Z tiene aproximadamente distribución )1,0(N El valor observado de ( ) − + R R 1 1 ln 2 1 es 1.1444, por lo tanto el estadístico toma el valor Parte 2 – Estadística Prof. María B. Pintarelli 234 2088.20 =z Entonces ( ) 0136.02088.2 =>=− ZPvalorp . Entonces se rechaza 3.0:0 =ρH y se con- cluye que 3.0>ρ
Compartir