Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
574 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE Escuela % ELL x3 % de emergencia x4 API del año previo x5 1 34 16 533 2 22 5 655 3 14 19 695 4 30 14 680 5 11 13 670 6 26 2 636 7 39 14 532 8 6 4 705 Las variables están defi nidas como x1 � 1 si la escuela recibió un premio financiero por cumplir objetivos de crecimiento, 0 si no lo recibió x2 � % de estudiantes que calificaron para comidas gratis o a precios bajos x3 � % de estudiantes que estudian inglés x4 � % de profesores con credenciales de emergencia x5 � Calificación API en 2000 La salida impresa MINITAB para un modelo de regresión de primer orden se da a continuación. 13.23 tabla de partículas Un ingeniero de control de calidad está interesado en predecir la resistencia de una tabla de partículas y, como función del tamaño de las partículas x1 y dos tipos de compuestos aglutinantes. Si se espera que la respuesta básica sea una función cuadrática del tamaño de una partícula, escriba un modelo lineal que incorpore la variable cualitativa “compuesto aglutinante” en la ecuación de predicción. 13.24 Proyectos de construcción En un estudio para examinar la relación entre el tiempo requerido para completar un proyecto de construcción y varias variables independientes pertinentes, un analista compiló una lista de cuatro variables que podrían ser útiles para predecir el tiempo de terminación. Estas cuatro variables eran el tamaño del contrato, x1 (en unidades de $1000), el número de días de trabajo adversamente afectados por el clima x2, el número de subcontratistas involucrados en el proyecto x4 y una variable x3 que midió la presencia (x3 � 1) o ausencia (x3 � 0) de una huelga de trabajadores durante la construcción. Se escogieron al azar 15 proyectos de construcción y se midieron cada una de las cuatro variables, así como el tiempo para terminar el proyecto. y x1 x2 x3 x4 29 60 7 0 7 15 80 10 0 8 60 100 8 1 10 10 50 14 0 5 70 200 12 1 11 15 50 4 0 3 75 500 15 1 12 30 75 5 0 6 45 750 10 0 10 90 1200 20 1 12 7 70 5 0 3 21 80 3 0 6 28 300 8 0 8 50 2600 14 1 13 30 110 7 0 4 Un análisis de estos datos usando un modelo de primer orden en x1, x2, x3 y x4 produjo la siguiente salida impresa. Dé un análisis completo de la salida impresa e interprete sus resultados. ¿Qué se puede decir acerca de la aparente contribución de x1 y x2 en la predicción de y? Análisis de regresión: y contra x1, x2, x3, x4, x5 The regression equation is y = 269 + 33.2 x1 - 0.003 x2 - 1.02 x3 - 1.00 x4 + 0.636 x5 Predictor Coef STDev T P Constant 269.03 41.55 6.48 0.023 x1 33.227 4.373 7.60 0.017 x2 -0.0027 0.1396 -0.02 0.987 x3 -1.0159 0.3237 -3.14 0.088 x4 -1.0032 0.3391 -2.96 0.098 x5 0.63560 0.05209 12.20 0.007 S = 4.73394 R-Sq = 99.8% R-Sq(adj) = 99.4% Analysis of Variance Source DF SS MS F P Regression 5 25197.2 5039.4 224.87 0.004 Residual Error 2 44.8 22.4 Total 7 25242.0 a. ¿Cuál es el modelo que se ha ajustado a estos datos? b. ¿Qué tan bien se ajusta el modelo? Use cualesquier estadístico relevante de la salida impresa para contestar esta pregunta. c. ¿Cuáles de las variables independientes, si las hay, son útiles para predecir el API, dadas las otras variables independientes ya en el modelo? Explique. d. Use los valores de R2 y R2(adj) de la siguiente salida impresa para escoger el mejor modelo para predicción. ¿Confiaría usted en usar el modelo escogido, para predecir la calificación API para el siguiente año, con base en un modelo que contenga variables similares? Explique. Regresión de mejores subconjuntos: y contra x1, x2, x3, x4, x5 Response is y R-Sq Mallows x x x x x Vars R-Sq (adj) C-p S 1 2 3 4 5 1 87.9 85.8 132.7 22.596 X 1 84.5 81.9 170.7 25.544 X 2 97.4 96.4 27.1 11.423 X X 2 94.6 92.4 58.8 16.512 X X 3 99.0 98.2 11.8 8.1361 X X X 3 98.9 98.2 11.9 8.1654 X X X 4 99.8 99.6 4.0 3.8656 X X X X 4 99.0 97.8 12.8 8.9626 X X X X 5 99.8 99.4 6.0 4.7339 X X X X X DATOSMISMIS EX1324 Probabilidad_Mendenhall_13.indd 574Probabilidad_Mendenhall_13.indd 574 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me PRUEBA DE CONJUNTOS DE COEFICIENTES DE REGRESIÓN En las secciones precedentes, hemos probado el conjunto completo de coeficientes de regresión parcial usando la prueba F para el ajuste general del modelo y hemos probado los coeficientes de regresión parcial individualmente usando la prueba t de Student. Además de estas dos importantes pruebas, se pueden probar hipótesis acerca de algunos subconjuntos de estos coeficientes de regresión. Por ejemplo, suponga que una compañía sospecha que la demanda y de algún pro- ducto podría estar relacionada con hasta cinco variables independientes: x1, x2, x3, x4 y x5. El costo de obtener mediciones de las variables x3, x4 y x5 es muy alto. Si, en un pequeño estudio piloto, la compañía pudiera demostrar que estas tres variables contribuyen con poca o ninguna información para la predicción de y, pueden ser eliminadas del estudio con grandes ahorros para la compañía. Si las cinco variables, x1, x2, x3, x4 y x5, se usan para predecir y, el modelo de regresión se escribiría como y � b0 � b1x1 � b2x2 � b3x3 � b4x4 � b5x5 � e Análisis de regresión: y contra x1, x2, x3, x4 The regression equation is y = -1.6 - 0.00784 x1 + 0.68 x2 + 28.0 x3 + 3.49 x4 Predictor Coef SE Coef T P Constant -1.59 11.66 -0.14 0.894 x1 -0.007843 0.006230 -1.26 0.237 x2 -0.6753 0.9998 0.68 0.515 x3 28.01 11.37 2.46 0.033 x4 3.489 1.935 1.80 0.102 S = 11.8450 R-Sq = 84.7% R-Sq(adj) = 78.6% Analysis of Variance Source DF SS MS F P Regression 4 7770.3 1942.6 13.85 0.000 Residual Error 10 1403.0 140.3 Total 14 9173.3 99 95 90 80 70 60 50 40 30 20 10 5 1 �30 �20 �10 0 10 20 30 Residual Gráfica normal de probabilidad de los residuales (la respuesta es y) P or ce nt aj e 20 10 0 �10 �20 10 20 30 40 50 60 70 80 Valores ajustados Residuales contra valores ajustados (la respuesta es y) R es id ua l Source DF Seq SS X1 1 1860.9 x2 1 2615.3 x3 1 2838.0 x4 1 456.0 13.6 13.6 PRUEBA DE CONJUNTOS DE COEFICIENTES DE REGRESIÓN ❍ 575 Probabilidad_Mendenhall_13.indd 575Probabilidad_Mendenhall_13.indd 575 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me 576 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE No obstante, si x3, x4 y x5 no aportan información para la predicción de y, entonces no aparecerían en el modelo, es decir, b3 � b4 � b5 � 0 y el modelo reducido sería y � b0 � b1x1 � b2x2 � e En consecuencia, se desea probar la hipótesis nula H0 : b3 � b4 � b5 � 0 esto es, las variables independientes x3, x4 y x5 no aportan información para la predicción de y, contra la hipótesis alternativa Ha : Al menos uno de los parámetros b3, b4 o b5 es diferente de 0 es decir, al menos una de las variables x3, x4 y x5 aporta información para la predic- ción de y. Entonces, para decidir si el modelo completo es preferible al modelo reduci- do para predecir demanda, vamos a una prueba de hipótesis acerca de un conjunto de tres parámetros, b3, b4 y b5. Una prueba de hipótesis respecto a un conjunto de parámetros de modelo involucra dos modelos: Modelo 1 (modelo reducido) E(y) � b0 � b1x1 � b2x2 � � � � � brxr Modelo 2 (modelo completo) E(y) � b0 � b1x1 � b2x2 � � � � � brxr � br�1xr�1 � br�2xr�2 � � � � bkxk 1444442444443 14444424444443términos en modelo 1 términos adicionales en modelo 2 Suponga que se ajustaron ambos modelos al conjunto de datos y se calculó la suma de cuadrados para el error de los dos análisis de regresión. Si el modelo 2 aporta más infor- mación para la predicción de y que el modelo 1, entonces los errores de predicción para el modelo 2 deben ser más pequeños que los correspondientes errores para el modelo 1, y la SSE2 debe ser menor que la SSE1. De hecho, cuanto mayor sea la diferencia entre SSE1 y SSE2, mayor es la evidencia para indicar que el modelo 2 aporta más información para la predicción de y que el modelo 1. La prueba de la hipótesis nula H0 : br�1 � br�2 � � � � � bk � 0 contra la hipótesis alternativa Ha : Al menos uno de los parámetros br�1, br�2, …, bk difiere de 0 utiliza el estadístico de prueba F � (SSE1 � SSE2)/(k � r) ��� MSE2 donde F está basada en df1 � (k � r) y df2 � n � (k � 1). Observe que los parámetros (k � r) contenidos en H0 son los sumados al modelo 1 para obtener el modelo 2. Los grados de libertad df1 del numerador siempre son iguales a (k � r), que es el número de pará- metros contenidos en H0. Los grados de libertad df2 del denominador es el número de grados de libertad asociado con la suma de cuadrados para error, SSE2, para el modelo completo. La región de rechazo para la prueba es idéntica a la región de rechazo para todos los análisis de pruebas F de varianza, es decir, F � Fa Probabilidad_Mendenhall_13.indd 576Probabilidad_Mendenhall_13.indd 576 5/14/10 8:20:38 AM5/14/10 8:20:38 AM www.FreeLibros.me 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE 13.6 Prueba de conjuntos de coeficientes de regresión
Compartir