Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
556 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE de la tabla ANOVA. El primer renglón de la figura 13.3 también muestra s � � __ s2 � 6.84930 usando precisión de computadora. La computadora usa estos valores inter- namente para producir estadísticas de prueba, intervalos de confianza e intervalos de predicción, que estudiaremos en secciones subsiguientes. La última sección de la figura 13.3 muestra una descomposición de SSR � 15 913.0 en que la contribución condicional de cada variable de predicción dadas las variables ya introducidas en el modelo se muestra para el orden de entrada que se especifique en el programa de regresión. Para el ejemplo de bienes raíces, el programa MINITAB introdujo las variables en este orden: pies cuadrados, seguido de números de pisos, recámaras y baños. Estas sumas de cuadrados secuenciales o condicionales constituyen uno de los k � 4 grados de libertad de regresión. Es interesante observar que la variable de predic- ción x1 por sí sola es 14 829.3/15 913.0 � .932 o 93.2% de la variación total explicada por el modelo de regresión, pero, si cambia el orden de entrada, otra variable puede ser la parte principal de la suma de cuadrados de regresión. Prueba de la utilidad del modelo de regresión Recuerde que en el capítulo 12 probó ver si y y x estaban linealmente relacionadas al probar H0 : b � 0 con una prueba t o una prueba F equivalente. En regresión múltiple, hay más de una pendiente parcial, que son los coeficientes de regresión parcial. Las pruebas t y F ya no son equivalentes. El análisis de varianza de la prueba F La ecuación de regresión que usa información dada por las variables predictoras x1, x2, …, xk ¿es sustancialmente mejor que la predictora simple _ y que no se apoya en nin- guno de los valores de x? Esta pregunta se contesta usando una prueba F general con las hipótesis: H0 : b1 � b2 � � � � � bk � 0 contra Ha : Al menos una de b1, b2, …, bk no es 0 La estadística de prueba se encuentra en la tabla ANOVA (figura 13.3) como F � M M S S R E � 39 4 7 6 8 .9 .3 � 84.80 que tiene una distribución F con df1 � k � 4 y df2 � (n � k � 1) � 10. Como el valor p, P � .000, está dado en la salida impresa, se puede declarar que la regresión es altamente significativa. Esto es, al menos una de las variables predictoras está aportando informa- ción significativa para la predicción de la variable de respuesta y. El coeficiente de determinación, R 2 ¿Qué tan bien se ajusta el modelo de regresión? La salida impresa da una medida esta- dística de la fuerza del modelo en el coeficiente de determinación, R2; es decir, la proporción de la variación total que es explicada por la regresión de y en x1, x2, …, xk, definida como R2 � To S ta S l R SS � 1 1 5 6 9 3 1 8 3 2 . . 0 2 � .971 o 97.1% La prueba F general (para la signifi cancia del modelo) en regresión múltiple es de una cola. Las salidas impresas MINITAB informan de R 2 como un porcentaje más que una proporción. CONSEJOMIMI CONSEJOMIMI SS Total Probabilidad_Mendenhall_13.indd 556Probabilidad_Mendenhall_13.indd 556 5/14/10 8:20:36 AM5/14/10 8:20:36 AM www.FreeLibros.me El coeficiente de determinación se denomina a veces múltiplo R2 y se encuentra en el primer renglón de la figura 13.3, marcado “R-Sq”. En consecuencia, para el ejemplo de bienes raíces, 97.1% de la variación total ha sido explicado por el modelo de regresión. El modelo se ajusta muy bien. Puede ser útil saber que el valor del estadístico F está relacionado con R2 por la fór- mula F � R2/k ��� (1 � R2)/(n � k � 1) de manera que R2 es grande, F es grande y viceversa. Interpretación de los resultados de una regresión signifi cativa Prueba de la significancia de los coeficientes de regresión parcial Una vez que hayamos determinado que el modelo es útil para predecir y, debemos explo- rar la naturaleza de la “utilidad” en más detalle. ¿Todas las variables predictoras agregan información importante para la predicción en presencia de otras variables predictoras que ya están en el modelo? Las pruebas t individuales de la primera sección de la salida impresa de regresión están diseñadas para probar las hipótesis H0 : bi � 0 contra Ha : bi � 0 para cada uno de los coeficientes de regresión, dado que las otras variables predictoras ya están en el modelo. Estas pruebas están basadas en la estadística t de Student dada por t � b S i E � (b b i) i que tiene df � (n � k � 1) grados de libertad. El procedimiento es idéntico al emplea- do para probar una hipótesis acerca de la pendiente b del modelo de regresión lineal simple.† La figura 13.4 muestra las pruebas t y los valores p de la parte superior de la salida impresa MINITAB. Al examinar los valores p de la última columna, se puede ver que todas las variables excepto x3, el número de recámaras, agregan suficiente información para predecir y, aún con todas las otras variables independientes del modelo. ¿Podría ser mejor el modelo? Pudiera ser que x3 sea una variable de predicción innecesaria. Una opción es eliminar esta variable y reajustar el modelo con un nuevo conjunto de datos. R 2 es la multivariada equivalente de r 2, empleada en regresión lineal. Se puede demostrar que F � � M M S S R E � � R 2/k ��� (1 � R 2)/(n � k � 1) Pruebe la signifi cancia del coefi ciente individual bi, usando pruebas t. CONSEJOMIMI CONSEJOMIMI CONSEJOMIMI † Algunos paquetes usan el estadístico t que acabamos de describir, mientras que otros usan el estadístico F equi- valente (F � t2), puesto que el cuadrado de un estadístico t con v grados de libertad es igual a un estadístico F con 1 df en el numerador y v grados de libertad en el denominador. Predictor Coef SE Coef T P Constant 118.763 9.207 12.90 0.000 Square Feet 6.2698 0.7252 8.65 0.000 Number of Floors -16.203 6.212 -2.61 0.026 Bedrooms -2.673 4.494 -0.59 0.565 Baths 30.271 6.849 4.42 0.001 El valor de R 2 ajustado Observe de la definición de R2 � SSR/SS Total que su valor nunca puede disminuir con la adición de más variables en el modelo de regresión. En consecuencia, R2 puede estar artificialmente inflada por la inclusión de más y más variables predictoras. FIGURA 13.4 Parte de la salida impresa MINITAB para el ejemplo 13.2 ● 13.3 UN ANÁLISIS DE REGRESIÓN MÚLTIPLE ❍ 557 Probabilidad_Mendenhall_13.indd 557Probabilidad_Mendenhall_13.indd 557 5/14/10 8:20:36 AM5/14/10 8:20:36 AM www.FreeLibros.me 558 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE Una medida alternativa de la fuerza del modelo de regresión se ajusta para grados de libertad con el uso de cuadráticas medias en lugar de sumas de cuadrados: R2(adj) � �1 � Total M SS S /( E n � 1) �100% Para los datos de bienes raíces de la figura 13.3, R2(adj) � �1 � 16 3 4 8 6 2 . . 9 2/14 �100% � 96.0% se encuentra en el primer renglón de la salida impresa. El valor “R-Sq(adj) � 96.0%” representa el porcentaje de variación en la respuesta y explicada por las variables inde- pendientes, corregida para grados de libertad. El valor ajustado de R2 se usa principal- mente para comparar dos o más modelos de regresión que usan números diferentes de variables predictoras independientes. Comprobación de suposiciones de regresión Antes de usar el modelo de regresión para su propósito principal, que es estimar y prede- cir y, deben verse gráficas residuales generadas por computadora para asegurarse que sean válidas todas las suposiciones de regresión. La gráfica de normal de probabilidad y la gráfica de residuales contra ajuste se presentan en la figura 13.5 para los datos de bienes raíces. Parece haber tres observaciones que no se ajustan al patrón general. Se pueden ver como resultados atípicos en ambas gráficas. Es probable que estas tres observaciones deban investigarse,pero no dan fuerte evidencia de que las suposiciones se han violado. 10 5 0 �5 �10 �15 150 Valor ajustado Residuales contra los valores ajustados (la respuesta es el precio de lista) R es id ua l 175 200 225 250 275 300 99 95 Residual P or ce nt ua l �15 �10 �5 0 5 10 15 90 80 70 60 50 40 30 20 10 5 1 Use R 2(adj) para comparar uno o más modelos posibles. CONSEJOMIMI FIGURA 13.5 Gráfi cas de diagnóstico MINITAB ● SS Total Probabilidad_Mendenhall_13.indd 558Probabilidad_Mendenhall_13.indd 558 5/14/10 8:20:36 AM5/14/10 8:20:36 AM www.FreeLibros.me 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE 13.3 Un análisis de regresión múltiple Prueba de la utilidad del modelo de regresión Interpretación de los resultados de una regresión significativa Comprobación de suposiciones de regresión
Compartir