Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Consulte los datos de bienes raíces del ejemplo 13.2 que relacionan el precio de venta de lista y con la superficie en pies cuadrados del área de vivienda x1, el número de pisos x2, el número de recámaras x3 y el número de baños, x4. El agente de bienes raíces sos- pecha que la superficie en pies cuadrados del área de vivienda es la variable predictora más importante, y que las otras variables podrían ser eliminadas del modelo sin perder mucha información de predicción. Pruebe esta afirmación con a � .05. Solución La hipótesis a probar es H0 : b2 � b3 � b4 � 0 contra la hipótesis alternativa que al menos una de b2, b3 o b4 es diferente de 0. El modelo completo 2, dado como y � b0 � b1x1 � b2x2 � b3x3 � b4x4 � e fue ajustado en el ejemplo 13.2. Una parte de la salida impresa MINITAB de la figura 13.3 se reproduce en la figura 13.15 junto con una parte de la salida impresa MINITAB para el análisis de regresión lineal simple del modelo reducido 1, dado como y � b0 � b1x1 � e E J E M P L O 13.8 Análisis de regresión: a) precio de lista contra pies cuadrados, número de pisos, recámaras y baños S = 6.84930 R-Sq = 97.1% R-Sq(adj) = 96.0% Analysis of Variance Source DF SS MS F P Regression 4 15913.0 3978.3 84.80 0.000 Residual Error 10 469.1 46.9 Total 14 16382.2 Análisis de regresión: b) precio de lista contra pies cuadrados S = 10.9294 R-Sq = 90.5% R-Sq(adj) = 89.8% Analysis of Variance Source DF SS MS F P Regression 1 14829 14829 124.14 0.000 Residual Error 13 1553 119 Total 14 16382 Entonces SSE1 � 1553 de la figura 13.15b) y SSE2 � 469.1 y MSE2 � 46.9 de la figura 13.15a). El estadístico de prueba es F � (SSE1 � SSE2)/(k � r) ��� MSE2 � (1553 � 469.1)/(4 � 1) ��� 46.9 � 7.70 El valor crítico de F con a � .05, df1 � 3 y df2 � n � (k � 1) � 15 � (4 � 1) � 10 es F.05 � 3.71. Por tanto, H0 es rechazada. Hay evidencia para indicar que al menos una de las tres variables que son número de pisos, recámaras o baños, está contribuyendo con información significativa para predecir el precio de venta de lista. FIGURA 13.15 Partes de las salidas impresas de regresión MINITAB para modelos a) completo y b) reducido para el ejemplo 13.8 ● 13.6 PRUEBA DE CONJUNTOS DE COEFICIENTES DE REGRESIÓN ❍ 577 Probabilidad_Mendenhall_13.indd 577Probabilidad_Mendenhall_13.indd 577 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me 578 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE INTERPRETACIÓN DE GRÁFICAS RESIDUALES Una vez más, se pueden usar gráficas residuales para descubrir posibles violaciones en las suposiciones requeridas para un análisis de regresión. Hay varios patrones comunes que se deben reconocer porque se presentan con frecuencia en aplicaciones prácticas. • Los datos de Poisson exhiben variación que aumenta con la media. • Los datos binomiales exhiben variación que aumenta para valores de p de .0 a .5 y luego disminuye para valores de p de .5 a 1.0. Las gráficas residuales para estos tipos de datos tienen un patrón semejante al que se ve en la figura 13.16. 13.7 y1 0 2 3 4 –2 –1 1 2 y0 50 100 R es id ua l e R es id ua l e a) Datos de Poisson b) Porcentajes binomiales x 0 R es id ua l e Si el rango de los residuales aumenta cuando ŷ aumenta y se sabe que los datos son mediciones sobre variables de Poisson, se puede estabilizar la varianza de la respuesta al correr el análisis de regresión en y* � � __ y . O bien, si los porcentajes se calculan a partir de datos binomiales, se puede usar la transformación arcsen, y* � sen�1 � __ y .† Incluso si no se está seguro de por qué el rango de los residuales aumenta cuando ŷ aumenta, todavía se puede usar una transformación de y que afecta valores más grandes de y más que valores pequeños, por ejemplo y* � � __ y o y* � ln y. Estas transformaciones tienen una tendencia para estabilizar la varianza de y* y para hacer que la distribución de y* sea más casi normal cuando la distribución de y sea altamente sesgada. Es frecuente que las gráficas de los residuales contra los ajustes ŷ o contra las variables predictoras individuales muestren un patrón que indica que se ha escogido un modelo incorrecto. Por ejemplo, si E(y) y una sola variable independiente x están linealmente relacionadas, es decir, E(y)� b0 � b1x y se ajusta una recta a los datos, entonces los valores y observados deben variar en una forma aleatoria alrededor de ŷ, y una gráfica de los residuales contra x aparecerá como se ve en la figura 13.17. † En el capítulo 11 y anteriores, representamos la respuesta variable con el símbolo x. En los capítulos sobre análisis de regresión, capítulos 12 y 13, la variable de respuesta está representada por el símbolo y. FIGURA 13.16 Gráfi cas de residuales contra ŷ ● FIGURA 13.17 Gráfi ca residual cuando el modelo da una buena aproximación a la realidad ● Probabilidad_Mendenhall_13.indd 578Probabilidad_Mendenhall_13.indd 578 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me En el ejemplo 13.3, se ajustó un modelo cuadrático que relacionaba la productividad y con el tamaño de tienda x. Si incorrectamente se hubiera usado un modelo lineal para ajustar estos datos, la gráfica residual de la figura 13.18 mostraría que la variación no explicada exhibe un patrón curvado, que sugiere que hay un efecto cuadrático que no se ha incluido en el modelo. 0.5 0.0 �0.5 �1.0 3.0 3.2 3.4 3.6 3.8 Valor ajustado Residuales contra los valores ajustados (la respuesta es y) R es id ua l 1000 500 0 �500 �1000 �1500 60 000 61 000 62 000 63 000 64 000 65 000 Valor ajustado Residuales contra los valores ajustados (la respuesta es y) R es id ua l Para los datos del ejemplo 13.6, los residuales de una regresión lineal de salario con años de experiencia x1 sin incluir género, x2, mostraría un conjunto distinto de residua- les positivos correspondientes a los caballeros y un conjunto de residuales negativos correspondientes a las mujeres (véase la figura 13.19). Este patrón señala que la variable “género” no estaba incluida en el modelo. Desafortunadamente, no todas las gráficas residuales dan una indicación tan clara del problema. Con todo cuidado deben examinarse las gráficas residuales, buscando que no haya aleatoriedad en el modelo de residuales. Si se puede hallar una explicación para el comportamiento de los residuales, se puede modificar el modelo para eliminar el problema. ANÁLISIS DE REGRESIÓN POR PASOS A veces hay un gran número de variables predictoras independientes que podrían tener un efecto en la variable de respuesta y. Por ejemplo, trate de hacer una lista de todas las variables que podrían afectar el promedio de calificaciones (GPA) de un estudiante de primer año de universidad: • Califi caciones en cursos de preparatoria, promedio de califi caciones de prepa- ratoria, califi cación de examen de aptitud escolar, califi cación de examen en universidades 13.8 FIGURA 13.18 Gráfi ca residual para ajuste lineal de tamaño de tienda y datos de productividad en el ejemplo 13.3 ● FIGURA 13.19 Gráfi ca residual para ajuste lineal de datos de salario en el ejemplo 13.6 ● 13.8 ANÁLISIS DE REGRESIÓN POR PASOS ❍ 579 Probabilidad_Mendenhall_13.indd 579Probabilidad_Mendenhall_13.indd 579 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE 13.7 Interpretación de gráficas residuales 13.8 Análisis de regresión por pasos
Compartir