Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 517 UN INTERVALO DE CONFIANZA (1 � a)100% PARA b b � ta/2(SE) donde ta/2 está basada en (n � 2) grados de libertad y SE � � ___ s 2 ___ Sxx � � _____ MSE _____ Sxx Encuentre una estimación de intervalo de confi anza de 95% de la pendiente b para los datos de las califi caciones en cálculo de la tabla 12.1. Solución Sustituyendo valores previamente calculados en b � t.025 � _____ MSE _____ Sxx tendremos .766 � 2.306 � _______ 75.7532 _______ 2474 .766 � .404 El intervalo de confi anza de 95% resultante es .362 a 1.170. Como el intervalo no con- tiene 0, se puede concluir que el verdadero valor de b no es 0 y se puede rechazar la hipótesis nula H0 : b � 0 a favor de Ha : b � 0, conclusión que está de acuerdo con los hallazgos del ejemplo 12.2. Además, la estimación del intervalo de confi anza indica que hay un aumento desde sólo .4 hasta 1.2 puntos en una puntuación de examen de cálculo por cada aumento de 1 punto en la puntuación del examen de aprovechamiento. Si usted utiliza un programa de cómputo para hacer un análisis de regresión, encon- trará la estadística t y su valor p en la salida impresa. Observe la salida impresa MINITAB del análisis de regresión que se reproduce en la fi gura 12.8. En la segunda parte de la salida impresa, encontrará las estimaciones de mínimos cuadrados a (“Constante”) y b (“x”) en la columna marcada “Coef”, sus errores estándar (“SE Coef”), el valor calcu- lado de la estadística t (“T”) empleada para probar la hipótesis de que el parámetro es igual a 0 y su valor p (“P”). La prueba t para regresión signifi cativa, H0 : b � 0, tiene un valor p de P � .002 y la hipótesis nula es rechazada, como en el ejemplo 12.2. ¿Esto concuerda con el valor p hallado usando el applet t-Test for Slope de la fi gura 12.7? En cualquier caso, hay una relación lineal signifi cativa entre x y y. E J E M P L O 12.3 Análisis de regresión: y versus x The regression equation is y = 40.8 + 0.766 x Predictor Coef SE Coef T P Constant 40.784 8.507 4.79 0.001 x 0.7656 0.1750 4.38 0.002 S = 8.70363 R-Sq = 70.5% R-Sq(adj) = 66.8% Analysis of Variance Source DF SS MS F P Regression 1 1450.0 1450.0 19.14 0.002 Residual Error 8 606.0 75.8 Total 9 2056.0 FIGURA 12.8 Salida impresa MINITAB para los datos de califi caciones en cálculo ● Busque el error estándar de b en la columna marcada “SE Coef”. CONSEJOMIMI Probabilidad_Mendenhall_12.indd 517Probabilidad_Mendenhall_12.indd 517 5/14/10 8:37:39 AM5/14/10 8:37:39 AM www.FreeLibros.me 518 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN El análisis de varianza de la prueba F La parte del análisis de varianza de la salida impresa de la fi gura 12.8 muestra una esta- dística F dada por F � MSR _____ MSE � 19.14 con grado de libertad 1 en el numerador y (n � 2) � 8 grados de libertad en el deno- minador. Esto es una estadística equivalente de prueba que también se puede usar para probar la hipótesis H0 : b � 0. Observe que, dentro del error de redondeo, el valor de F es igual a t2 con valor p idéntico. En este caso, si se usa una precisión de cinco lugares decimales antes de redondeo, se encuentra que t 2 � (.76556/.17498)2 � (4.37513)2 � 19.14175 � 19.14 � F como se da en la salida impresa. Esto no es por casualidad y re- sulta del hecho de que el cuadrado de una estadística t con df grados de libertad tiene la misma distribución que una estadística F con grados de libertad 1 en el numerador y df en el denominador. La prueba F es una prueba más general de la utilidad del modelo y se puede usar cuando el modelo tenga más de una variable independiente. Medir la fuerza de la relación: el coefi ciente de determinación ¿Qué tan bien se ajusta el modelo de regresión? Para contestar esta pregunta, se puede usar una medida relacionada con el coefi ciente de correlación r, introducido en el capí- tulo 3. Recuerde que r � sxy ___ sxsy � sxy _______ � ____ sxxsyy para �1 r 1 donde sxy, sx y sy se defi nieron en el capítulo 3 y las diversas sumas de cuadrados se defi - nieron en la sección 12.4. La suma de cuadrados para regresión, SSR, en el análisis de varianza, mide la parte de la variación total SS Total � Syy, que puede ser explicada por la regresión de y en x. La parte restante, SSE, es la variación “no explicada” atribuida al error aleatorio. Una forma de medir la fuerza de la relación entre la variable de respuesta y y la variable de predicción x es calcular el coefi ciente de determinación, la proporción de la varia- ción total que es explicada por la regresión de y en x. Para los datos de califi caciones en cálculo, esta proporción es igual a SSR _______ SS Total � 1450 _____ 2056 � .705 o 70.5% Puesto que SS � Syy y SSR � (Sxy) 2 _____ Sxx , se puede escribir SSR _______ SS Total � (Sxy) 2 _____ SxxSyy � � Sxy _______ � _____ SxxSyy � 2 � r 2 Por tanto, el coefi ciente de determinación, que fue calculado como SSR/SS Total, es simplemente el cuadrado del coefi ciente de correlación r. Es la entrada marcada “R-Sq” en la fi gura 12.8. Recuerde que la tabla del análisis de varianza aísla la variación debida a regresión (SSR) de la variación total del experimento. Al hacer esto se reduce la cantidad de varia- ción aleatoria del experimento, ahora medida por SSE en lugar de SS Total. En este contexto, el coefi ciente de determinación, r2, se puede defi nir como sigue: Las pruebas F de ANOVA siempre son de una cola (cola superior). CONSEJOMIMI En las salidas impresas de computadora, r2 a menudo es dado como un porcentaje más que como una proporción. CONSEJOMIMI Probabilidad_Mendenhall_12.indd 518Probabilidad_Mendenhall_12.indd 518 5/14/10 8:37:39 AM5/14/10 8:37:39 AM www.FreeLibros.me 12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 519 Defi nición El coefi ciente de determinación r2 se puede interpretar como el por- centaje de reducción en la variación total en el experimento obtenido al usar la recta de regresión ŷ � a � bx, en lugar de ignorar x y usar la media muestral y� para predecir la variable de respuesta y. Para los datos de califi caciones en cálculo, una reducción de r2 � .705 o sea 70.5% es sustancial. El modelo de regresión está funcionando muy bien. Interpretación de los resultados de una regresión signifi cativa Una vez que usted haya efectuado la prueba t o la prueba F para determinar la signifi can- cia de la regresión lineal, con todo cuidado debe interpretar sus resultados. La pendiente b de la recta de medias se estima con base en datos de sólo una región de observación en particular. Incluso si no rechaza la hipótesis nula de que la pendiente de la recta es igual a 0, no necesariamente signifi ca que y y x no estén relacionadas. Puede ser que haya cometido un error tipo II, declarando falsamente que la pendiente es 0 y que x y y no están relacionadas. Ajuste del modelo erróneo Puede ocurrir que y y x estén perfectamente relacionadas en una forma no lineal, como se ve en la fi gura 12.9. A continuación veamos tres posibilidades: r2 se denomina “R-Sq” en la salida impresa MINITAB. CONSEJOMIMI x y fdcba Lín ea 1 Línea 2 FIGURA 12.9 Relación curvilínea ● • Si se tomaron observaciones sólo dentro del intervalo b � x � c, la relación apa- recería lineal con pendiente positiva. • Si se tomaron observaciones sólo dentro del intervalo d � x � f, la relación apa- recería lineal con pendiente negativa. • Si se tomaron observaciones sobre el intervalo c � x � d, la recta estaría ajus- tada con una pendiente cercana a 0, lo cual indica que no hay relación lineal entre y y x. Para el ejemplo que se ilustra en la fi gura12.9, ninguna recta describe con precisión la verdadera relación entre x y y, que es en realidad una relación no curvilínea. En este caso, hemos escogido un modelo erróneo para describir la relación. A veces este tipo de error se puede detectar usando gráfi cas residuales, que es el tema de la sección 12.7. Extrapolación Un problema serio es aplicar los resultados de un análisis de regresión lineal a valores de x que no estén incluidos dentro del rango de los datos ajustados. Esto se llama extra- polación y puede llevar a errores graves en la predicción, como se ve para la línea 1 de la fi gura 12.9. Es peligroso tratar de predecir valores de y fuera del rango de los datos ajustados. CONSEJOMIMI Probabilidad_Mendenhall_12.indd 519Probabilidad_Mendenhall_12.indd 519 5/14/10 8:37:39 AM5/14/10 8:37:39 AM www.FreeLibros.me 12 REGRESIÓN LINEAL Y CORRELACIÓN 12.5 Prueba de la utilidad del modelo de regresión lineal El análisis de varianza de la prueba F Medir la fuerza de la relación: el coeficiente de determinación Interpretación de los resultados de una regresión significativa
Compartir