Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
580 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE • Especialidad, número de unidades llevadas, número de cursos tomados • Programa de trabajo, estado civil, viaja o vive en el plantel ¿Cuál de este gran número de variables independientes deben incluirse en el modelo? Como el número de términos podría rápidamente hacerse muy difícil de manejar, podría escogerse usar un procedimiento llamado análisis de regresión por pasos, que se pone en práctica por computadora y lo hay en casi todos los paquetes de estadística. Suponga que tenemos datos acerca de y y un buen número de posibles variables independientes, x1, x2, …, xk. Un análisis de regresión por pasos ajusta una variedad de modelos a los datos, agregando y eliminando variables cuando la significancia de ellas en presencia de las otras variables es significativa o no significativa, respectivamente. Una vez que el programa haya hecho un número suficiente de iteraciones y no hay más variables significativas cuando se suman al modelo y ninguna de las variables del modelo son no significativas cuando son eliminadas, el procedimiento se detiene. Un análisis de regresión por pasos es un modo fácil de localizar algunas variables que aportan información para predecir y, pero no es a prueba de errores. Como estos progra- mas siempre ajustan modelos de primer orden de la forma E(y) � b0 � b1x1 � b2x2 � � � � � bkxk no son útiles para detectar curvatura o interacción en los datos. El análisis de regresión por pasos se usa mejor como herramienta preliminar para identificar cuál, de un gran número de variables, debe ser considerada en su modelo. Entonces es necesario decidir cómo introducir estas variables en el modelo real que usará para predicción. INTERPRETACIÓN ERRÓNEA DE UN ANÁLISIS DE REGRESIÓN Son comunes varias interpretaciones erróneas en la salida impresa de un análisis de regresión. Ya hemos mencionado la importancia de la selección de un modelo. Si un modelo no se ajusta a un conjunto de datos, no quiere decir que las variables incluidas en el modelo aporten poca o ninguna información para la predicción de y. Las variables pueden ser importantes contribuyentes de información, pero pueden haberse introducido las variables en el modelo en una forma equivocada. Por ejemplo, un modelo de segun- do orden en las variables podría dar un muy buen ajuste a los datos cuando un modelo de primer orden parece ser por completo inútil para describir la variable de respuesta y. Causalidad Es necesario tener cuidado de no concluir que cambios en x causan cambios en y. Este tipo de relación causal puede ser detectada sólo con un experimento cuidadosamente diseñado. Por ejemplo, si al azar se asignan unidades experimentales a cada uno de dos niveles de una variable x, por ejemplo x � 5 y x � 10 y los datos muestran que el valor medio de y es mayor cuando x � 10, entonces se puede decir que el cambio en el nivel de x causó un cambio en el valor medio de y. Pero en casi todos los análisis de regresión, en los que los experimentos no están diseñados, no hay garantía de que una variable predictora importante, por ejemplo x1, cause un cambio en y. Es muy posible que alguna variable que ni siquiera esté en el modelo cause que tanto y como x1 cambien. Multicolinealidad Ni el tamaño de un coeficiente de regresión ni su valor t indican la importancia de la variable como contribuyente de información. Por ejemplo, supongamos que se desea pre- decir y, la calificación de cálculo de un estudiante universitario, con base en x1 � prome- dio de calificaciones de preparatoria y x2 � calificación en el examen de aptitud en 13.9 Probabilidad_Mendenhall_13.indd 580Probabilidad_Mendenhall_13.indd 580 5/14/10 8:20:39 AM5/14/10 8:20:39 AM www.FreeLibros.me matemáticas. Como estas dos variables contienen mucho de lo mismo o información compartida, no es de sorprender que una vez que una de las variables se introduzca en el modelo, la otra aporta muy poca información adicional. El valor t individual es pequeño, pero, si las variables se introdujeron en el orden inverso, se vería invertido el tamaño de los valores t. La situación descrita líneas antes se denomina multicolinealidad y se presenta cuando dos o más de las variables predictoras están altamente correlacionadas entre sí. Cuando la multicolinealidad está presente en un problema de regresión, puede tener estos efectos en el análisis: • Los coefi cientes de regresión estimados tendrán errores estándar grandes, causan- do imprecisión en intervalos de confi anza y predicción. • Agregar o eliminar una variable de predicción puede causar cambios signifi cati- vos en los valores de los otros coefi cientes de regresión. ¿Cómo saber si un análisis de regresión exhibe multicolinealidad? Busque estos indicios: • El valor de R2 es grande, lo cual indica un buen ajuste, pero las pruebas t indivi- duales no son signifi cativas. • Los signos de los coeficientes de regresión son contrarios a lo que intuitivamente se esperaría fueran las contribuciones de esas variables. • Una matriz de correlaciones, generada por computadora, muestra cuáles variables predictoras están altamente correlacionadas entre sí y con la respuesta y. La figura 13.20 muestra la matriz de correlaciones generada para los datos de bienes raíces del ejemplo 13.2. La primera columna de la matriz muestra las correlaciones de cada variable de predicción con la variable de respuesta y. Todas son significativamen- te diferentes de cero, pero la primera variable, x1 � área de vivienda, es la más altamente correlacionada. Las últimas tres columnas de la matriz muestran correlaciones significa- tivas entre todas las variables predictoras, excepto un par. Ésta es una fuerte indicación de multicolinealidad. Si se trata de eliminar una de las variables del modelo, pueden cam- biar en forma drástica los efectos de las otras tres. Otro indicio puede hallarse al exami- nar los coeficientes de la recta de predicción, ListPrice � 119 � 6.27 Square Feet � 16.2 Number of Floors - 2.67 Bedrooms � 30.3 Baths Correlaciones: Precio de lista, pies cuadrados, número de pisos, recámaras, baños ListPrice SqFeet Numflrs Bdrms Square Feet 0.951 0.000 Number of Fl 0.605 0.630 0.017 0.012 Bedrooms 0.746 0.711 0.375 0.001 0.003 0.168 Baths 0.834 0.720 0.760 0.675 0.000 0.002 0.001 0.006 Cell Contents: Pearson Correlation P-Value Se podría esperar que más pisos y recámaras aumentaran el precio de lista, pero sus coeficientes son negativos. Como existe multicolinealidad en alguna medida en todos los problemas de regresión, debemos considerar los términos individuales como aportadores de información, en lugar de tratar de medir la importancia práctica de cada término. La decisión primaria a tomarse es si un término aporta suficiente información para justificar su inclusión en el modelo. FIGURA 13.20 Matriz de correlación para los datos de bienes raíces del ejemplo 13.2 ● 13.9 INTERPRETACIÓN ERRÓNEA DE UN ANÁLISIS DE REGRESIÓN ❍ 581 Probabilidad_Mendenhall_13.indd 581Probabilidad_Mendenhall_13.indd 581 5/14/10 8:20:39 AM5/14/10 8:20:39 AM www.FreeLibros.me 582 ❍ CAPÍTULO 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE PASOS A SEGUIR AL CONSTRUIR UN MODELO DE REGRESIÓN MÚLTIPLE El objetivo final de un análisis de regresión múltiple es desarrollar un modelo que en forma precisa prediga y como función de un conjunto de variables predictoras x1, x2, …, xk. El procedimiento paso a paso para desarrollar este modelo se presentó en la sección 13.4 y volvemos a expresarlo a continuación con algún detalle adicional. Si se usa este método, lo que puede parecer un problema complicado se puede hacer más sencillo. Al igual que en cualquier procedimiento estadístico, la confianza crecerá a medida que ganemos experiencia con el análisis de regresiónmúltiple en varias situa- ciones prácticas. 1. Seleccione las variables predictoras a ser incluidas en el modelo. Como algunas de estas variables pueden contener información compartida, se puede reducir la lista al correr un análisis de regresión por pasos (véase la sección 13.8). Mantenga el número de variables predictoras lo sufi cientemente pequeño para que sea efectivo pero manejable. Es necesario estar conscientes que el número de observaciones del conjunto de datos debe exceder el número de términos del modelo; cuanto mayor el exceso, mejor. 2. Escriba un modelo usando las variables predictoras seleccionadas. Si las varia- bles son cualitativas, es mejor empezar incluyendo términos de interacción; si las variables son cuantitativas, es mejor empezar con un modelo de segundo orden. Los términos no necesarios pueden eliminarse después. Obtenga el modelo de predicción ajustado. 3. Use el análisis de varianza de la prueba F y R2 para determinar qué tan bien ajusta el modelo a los datos. 4. Verifi que las pruebas t para los coefi cientes de regresión parcial para ver cuáles están aportando información signifi cativa en presencia de los otros. Si algunos términos parecen ser no signifi cativos, considere eliminarlos. Si escoge comparar varios modelos diferentes, use R2(adj) para comparar su efectividad. 5. Use gráfi cas residuales generadas por computadora para ver si hay violación de las suposiciones de regresión. 13.10 Conceptos y fórmulas clave I. El modelo lineal general 1. y � b0 � b1x1 � b2x2 � � � � � bkxk � e 2. El error aleatorio e tiene una distribución normal con media 0 y varianza s 2. II. Método de mínimos cuadrados 1. Las estimaciones b0, b1, …, bk, para b0, b1, …, bk, se escogen para minimizar SSE, la suma del cuadrado de desviaciones alrededor de la recta de regresión, ŷ � b0 � b1x1 � b2x2 � � � � � bkxk. 2. Las estimaciones de mínimos cuadrados son producidas por computadora. III. Análisis de varianza 1. SS Total � SSR � SSE, donde SS Total � Syy. La tabla ANOVA es producida por computadora. 2. La mejor estimación de s 2 es MSE � n � S S k E � 1 IV. Prueba, estimación y predicción 1. Una prueba de la signifi cancia de la regresión, H0 : b1 � b2 � � � � � bk � 0, se puede implemen- tar usando el análisis de prueba F de varianza: F � M M S S R E REPASO DEL CAPÍTULO Probabilidad_Mendenhall_13.indd 582Probabilidad_Mendenhall_13.indd 582 5/14/10 8:20:39 AM5/14/10 8:20:39 AM www.FreeLibros.me 13 ANÁLISIS DE REGRESIÓN MÚLTIPLE 13.9 Interpretación errónea de un análisis de regresión Causalidad Multicolinealidad 13.10 Pasos a seguir al construir un modelo de regresión múltiple Repaso del capítulo
Compartir