Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Multicolinealidad En un sentido estricto, multicolinealidad perfecta es la violación de uno de los supuestos del modelo lineal clásico, el cual establece que en un modelo de regresión no pueden haber relaciones lineales perfectas entre las variables independientes. Mientras que multicolinealidad imperfecta indica que dos o más variables independientes están altamente correlacionadas en una muestra en particular. Aunque multicolinealidad imperfecta no viola el supuesto anteriormente mencionado, sí podría causar efectos indeseados en un modelo de regresión lineal, como se verá más adelante. I. Multicolinealidad perfecta versus multicolinealidad imperfecta. El adjetivo “perfecta” implica que una variación en una variable independiente puede ser completamente explicada por cambios en otra(s) variable(s) independiente(s) del modelo en curso. Por ejemplo, en el modelo: Si ambas variables independientes tienen colinealidad perfecta, entonces en cualquier muestra que se use para estimar este modelo las variables y formaran una línea perfecta al graficarlas en un diagrama de dispersión. ¿Qué sucede con la estimación de un modelo de regresión lineal cuando las variables independientes tienen multicolinealidad perfecta? La técnica de mínimos cuadrados ordinarios no puede generar estimadores de los parámetros para ese modelo y muchos softwares econométricos reportarán esta anomalía (Stata suele eliminar una de las variables independientes que es colinealmente perfecta con las otras variables independientes del modelo en curso). Por otro lado, multicolinealidad imperfecta1 es una fuerte relación lineal entre las variables independientes de un modelo de regresión lineal. Si las variables independientes de un modelo son multicolineales o no, depende de la relación teórica entre esas variables independientes y también depende de la muestra elegida para estimar el modelo. Esto es, dos variables independientes pueden presentar una relación lineal muy débil en una muestra, pero en otra muestra pueden estar altamente correlacionadas. Por tanto, multicolinealidad es un fenómeno tanto teórico como muestral. II. Posibles fuentes de la multicolinealidad Gujarati y Porter (2009) señalan que Montgomery y Peck (1982) han mencionado las siguientes como posibles fuentes de la multicolinealidad: Método de recolección de la información. Obtención de muestras en un rango muy limitado de posibles valores de las variables independientes en la población. Restricciones en el modelo o en la población. Por ejemplo, cuando se postula un modelo de regresión lineal cuya variable dependiente es el consumo familiar de electricidad y las variables independientes son el ingreso familiar y el tamaño de la vivienda, surge una 1 En adelante, se usará el término multicolinealidad para indicar multicolinealidad imperfecta. 2 restricción física en la población: suele ocurrir que familias con mayores ingresos tienen viviendas de mayor tamaño. Especificación del modelo. Incorporación de efectos polinomiales (cuadráticos, cúbicos) y/o interacciones en el modelo en curso. Modelo sobre-especificado. Cuando el número de variables independientes es mayor que el número de observaciones. III. Consecuencias de la multicolinealidad. Considere el siguiente modelo de regresión lineal: Suponga que las variables independientes de este modelo presentan multicolinealidad para una muestra de tamaño . Esto es, las variables independientes presentan fuertes relaciones lineales entre sí, dada la muestra. Las mayores consecuencias de este fenómeno son: Estimadores MCO de , , …, seguirán siendo insesgados. Como multicolinealidad (imperfecta) no vulnera ningún supuesto del modelo lineal clásico, los estimadores MCO de las pendientes y del intercepto permanecerán insesgados (siempre y cuando los restantes supuestos de insesgadez se sigan cumpliendo). Las varianzas y los errores estándar de , , …, aumentarán. Ésta es la principal consecuencia de la multicolinealidad. Como dos o más variables tienen alta relación lineal, es difícil identificar efectos parciales de cada variable independiente sobre la variable dependiente . Por ejemplo, considere el siguiente modelo de regresión: Usted tiene una muestra aleatoria simple de tamaño para estimar este modelo. Si en esa muestra, ambas variables independientes tienen una correlación muy alta, será muy difícil distinguir efectos parciales de cada variable independiente sobre la variable dependiente. El parámetro indica cuánto cambia el valor esperado de ante un aumento de una unidad en , manteniendo constante . Pero, si cambia, lo más probable es que también lo haga . En tal caso, es muy probable que los errores estándar de los estimadores MCO de , , …, sean muy altos. Por tanto, las estimaciones MCO de estos parámetros serán menos precisas. Ahora, si usted considera la estimación de la varianza de : 3 esta última expresión indica que una multicolinealidad fuerte (un valor grande de ) puede ser compensado con una baja varianza en ( ), por una alta varianza de ( ) o por un gran tamaño de muestra. Una muy baja produce el mismo daño que una multicolinealidad muy fuerte. Desde una perspectiva matricial, considere la versión matricial del modelo de regresión: Como usted recordará, el estimador MCO de es . Ante el cumplimiento de los demás supuestos de insesgadez, se tiene que Si las variables independientes de este modelo sufren de multicolinealidad (imperfecta), entonces el determinante de será cada vez más pequeño, a medida que la multicolinealidad sea cada vez más fuerte. En el caso límite, cuando la multicolinealidad es perfecta, el determinante de es exactamente igual a cero, lo que indica (teóricamente) una varianza infinita. Los estadísticos t de los test de hipótesis individuales para , , …, disminuirán (en valor absoluto). Esta consecuencia se debe a la formulación del estadístico de prueba para cada test individual. En concreto, si usted desea testear: versus donde es un valor hipotético para , el estadístico de prueba es: Por tanto, como multicolinealidad incrementa la varianza de , entonces el denominador de esta fracción aumentará. Luego, el estadístico de prueba anterior disminuirá (en valor absoluto). Estimadores MCO de las pendientes y el intercepto serán más sensibles ante cambios en la especificación del modelo. La incorporación u omisión de una variable independiente del modelo en curso, a menudo provocará grandes cambios en las estimaciones MCO del intercepto y de las pendientes asociadas a las variables independientes que sufren de multicolinealidad fuerte. Si usted elimina una variable independiente del modelo en curso, aún cuando ésta sea estadísticamente no significativa, los coeficientes estimados de las restantes variables independientes que son multicolineales en ocasiones podrían drásticamente. Estimadores MCO de las pendientes y el intercepto serán más sensibles ante cambios en la especificación de la muestra. En presencia de multicolinealidad, ante la incorporación u 4 omisión de unas pocas observaciones en la muestra, a menudo provocará grandes cambios en las estimaciones MCO del intercepto y de las pendientes. El ajuste global del modelo a los datos y la estimación de coeficientes de variables independientes que no son multicolineales no se verá severamente afectado. Aun cuando disminuyan (en valor absoluto) los estadísticos de tests individuales de los coeficientes del modelo, el ajuste global del modelo (medido por el , el -ajustado y el estadístico de significancia global) no caerá demasiado ante multicolinealidad. Por tanto, una primera señal de multicolinealidad entre las variables independientes de un modelo de regresión es que su ajusteprovea un alto -ajustado y muy bajos estadísticos de significancia individual de las variables independientes (bajos en valor absoluto). IV. Detección de la multicolinealidad. Como la multicolinealidad (imperfecta) es un fenómeno muestral, muchos de los métodos usados para detectarla son tests informales sin valores críticos ni niveles de significancia. Estos métodos se basan en un examen de las características de la ecuación estimada y de los datos que originaron dicha estimación. Altos coeficientes de correlación lineal entre las variables independientes del modelo. Si dos variables independientes de un modelo de regresión tienen un alto coeficiente de correlación lineal (en valor absoluto), entonces la multicolinealidad es un problema potencial. Pero, ¿qué tan alta debe ser esa correlación lineal? La respuesta a esta pregunta depende (entre otros aspectos) de la naturaleza de las variables y del tamaño de la muestra. A modo de ejemplo: Un coeficiente de correlación lineal de 0,4 entre el peso de un individuo y su coeficiente intelectual podría considerarse “insospechado y altísimo”, mientras que este mismo valor obtenido entre dos tests que miden memoria en individuos, sería “despreciable” (Salvador, 2009). Al usar un tamaño de muestra pequeño, una correlación muestral alta entre dos variables puede indicar que esta relación encontrada fue producto del azar. Por ello, es conveniente realizar un test de hipótesis sobre la significancia estadística de la correlación para descartar esto. Studenmund (2001) provee una forma de saber si una correlación es estadísticamente significativa: Considere el modelo de regresión: . Usted desea testear si la correlación entre estas variables a nivel poblacional es cero (hipótesis nula) o si es distinta de cero (hipótesis alternativa). Sea la matriz de correlaciones lineales (a nivel muestral) entre todos los pares posibles de variables independientes del modelo. Como usted sabe, los elementos de la diagonal principal de son 1’s. Sea la correlación lineal entre las variables independientes y (el elemento de la fila y la columna de la matriz ). El estadístico de prueba del test para la correlación poblacional entre y es: 5 Bajo la hipótesis nula, este estadístico tiene distribución -Student con grados de libertad. Si es mayor que el respectivo valor de tabla, se concluye que la correlación es estadísticamente distinta de cero. También se puede examinar el valor- que softwares como Stata proveen y así tomar una decisión con un nivel de significancia fijado. Studenmund (2001) menciona que algunos investigadores sugieren que se use un 1% de significancia en la decisión. Bisquerra (1987) provee una interpretación meramente orientativa para evaluar la significancia estadística de una correlación lineal. Sea el coeficiente de correlación lineal entre dos variables. Luego, según Bisquerra: 0,8 Correlación “muy alta” 0,6 0,8 Correlación “alta” 0,4 0,6 Correlación “moderada” 0,2 0,4 Correlación “baja” 0,2 Correlación “muy baja” No obstante, sin importar qué método se use para establecer la significancia de una correlación, debe tenerse cuidado con el uso de este criterio para detectar multicolinealidad, pues se basa en sólo pares de variables independientes cuando la multicolinealidad podría estar presente en más de dos variables independientes. Altos factores de inflación de la varianza. El factor de inflación de la varianza (VIF) es un método para detectar la severidad de la multicolinealidad cuantificando la variabilidad total de una variable independiente que es explicada por el resto de las variables independientes del modelo. Hay un VIF para cada variable independiente del modelo y estima cuánto ha aumentado la varianza de la estimación de su coeficiente ante multicolinealidad. Para ver esto, considere que al estimar por MCO el modelo el estimador MCO de la pendiente asociada a la -ésima variable independiente es: Mientras más alto sea el VIF de una variable independiente mayor será la fuerza de la relación lineal de esa variable con el resto de las variables independientes. Pero, ¿qué tan alto debe ser este VIF? En el caso extremo, si el VIF de una variable es infinito (por ende, la respectiva varianza también), entonces esa variable independiente queda completamente explicado por el resto de las variables independientes del modelo en curso. Para los restantes casos, diversos autores proveen diversos criterios. Wooldridge (2010) señala que hay un problemas de multicolinealidad cuando VIF supera 10. V. Soluciones para la multicolinealidad. ¿Qué se puede hacer para minimizar las consecuencias de la multicolinealidad? La respuesta a esta pregunta no es sencilla, pues la multicolinealidad es un fenómeno que podría cambiar de 6 muestra en muestra, incluso para la misma especificación del modelo en curso. No obstante, a continuación se proveen algunas alternativas: No hacer nada. De acuerdo con Studenmund (2001), una razón para no hacer nada es que la presencia de multicolinealidad no siempre reducirá tanto los estadísticos de significancia individual de modo que las variables independientes involucradas sean no significativas. Del mismo modo, multicolinealidad no siempre cambiará tanto los parámetros estimados de modo que difieran de nuestras expectativas. Por tanto, una solución para reducir efectos de la multicolinealidad sólo debe considerarse si su presencia provoca estadísticos muy pequeños (en valor absoluto) o estimaciones de parámetros que discrepan de nuestras creencias a priori. Ejecutar acciones para reducir efectos de la multicolinealidad cuando no es necesario, puede provocar otros efectos indeseables en un modelo de regresión. Por ejemplo, considere el siguiente modelo de regresión: Suponga que este modelo satisface todos los supuestos de insesgadez de los estimadores MCO , y . Usted tiene una muestra aleatoria simple de tamaño para estimar este modelo. Suponga que en esa muestra, ambas variables independientes tienen una correlación muy alta. Si usted opta por eliminar , entonces usted especifica el modelo: donde . Como y tenían alta correlación, entonces en este nuevo modelo, estará muy correlacionado con el error , lo que provoca que el estimador MCO de será sesgado, y también la varianza de los errores podría sobre estimarse. Eliminar una variable redundante del modelo. En ocasiones, eliminar una variable redundante del modelo puede ser una buena solución. Por ejemplo, incorporar demasiadas variables independientes en un modelo de regresión para evitar violar supuestos de insesgadez podría provocar que dos o más variables independientes del modelo midan lo mismo, lo que indica la presencia de variables redundantes. Por tanto, hay que evaluar la posibilidad de eliminar al menos una de estas variables. Ahora, asumiendo que hay que eliminar una variable redundante, ¿cómo podemos decidir cuál eliminar? En casos de multicolinealidad severa, en términos de características estadísticas del modelo que resulte, no importa cuál de las variables redundantes se elimine. En tal caso, es más útil recurrir a la teoría detrás del modelo y usar esa teoría para decidir cuál de las variables redundantes debe eliminarse. Transformar las variables redundantes. En ocasiones, las consecuencias de la multicolinealidad son muy serias y, por razones teóricas, la eliminación de variables no es factible. En tales casos, usted podría considerar realizar transformaciones a las variables independientes del modelo. Una posible transformación consiste en formar combinaciones lineales de las variables independientes de modo que estas nuevas variables no estén correlacionadas entre sí, pero que estas variables en conjunto conserven la mayor proporción de información que ofrecen las variables independientes originales. Este propósito se lograusando la técnica de análisis multivariado llamada análisis de componentes principales (ver apéndice para más detalles). Aumentar el tamaño de la muestra. La idea detrás de incrementar el tamaño de la muestra es que un tamaño de muestra mayor (siempre y cuando ésta sea obtenida bajo muestreo 7 aleatorio simple) permite que estimadores MCO los coeficientes del modelo sean más precisos, con esto se aminora el impacto de la multicolinealidad en el modelo. Sin embargo, esta solución tiene algunas limitantes: Los nuevos datos deben ser obtenidos del mismo modo que los datos anteriores. Por tanto, la primera preocupación consta de evaluar la replicabilidad del método de obtención de datos (por ejemplo, si los nuevos datos pertenecen al instante definido por el corte transversal). En ocasiones, restricciones presupuestarias impiden la factibilidad de este solución. A menudo, obtener nuevos datos es costoso, no sólo en términos financieros, sino que también podría tomar más tiempo obtener datos adicionales cuando en realidad la urgencia por obtener resultados cuestiona la factibilidad de dicha labor. 8 Apéndice: Análisis de componentes principales Considere el modelo de regresión2: Suponga que hay multicolinealidad (imperfecta) entre las variables independientes del modelo ( , , …, ). La idea detrás del método de componentes principales es encontrar un conjunto de variables independientes , …, de modo que: i) estas nuevas variables sean combinaciones lineales de las variables , , …, ; ii) las variables , …, no estén correlacionadas entre sí; iii) las primeras variables , …, ( ) preserven “la mayor información posible” proveniente de las variables originales , , …, . Preservar la “mayor información” posible, implica que las nuevas variables capturan la mayor variabilidad posible proveniente de las variables originales. En otras palabras, si es la matriz de las variables originales, donde tiene filas y columnas, y si es la matriz de variables nuevas (con de ), entonces se busca una matriz de , tal que: ; o sea, se satisface condición i). Los elementos fuera de la diagonal de son iguales a cero; o sea, se satisface condición ii). Con las primeras columnas de (con ) se capture la mayor variabilidad proveniente de las columnas de ; o sea, se satisface la condición iii). Proceso de búsqueda de (se omiten algunos detalles técnicos): 1. Sea la primera combinación lineal entre las columnas de . Luego, debe ser tal que se maximize sujeto a: . El resultado de este proceso de optimización es que satisface: Así, se dice que es el 1er vector propio de y que es el 1er valor propio de . Además, es el 1er componente principal. 2. Sea la segunda combinación lineal entre las columnas de . Luego, debe ser tal que se maximize sujeto a: y . El resultado de este proceso de optimización es que satisface: Así, se dice que es el 2do vector propio de y que es el 2do valor propio de . Además, es el 2do componente principal. 3. Sea la tercera combinación lineal entre las columnas de . Luego, debe ser tal que se maximize sujeto a: y . El resultado de este proceso de optimización es que satisface: 2 En este apéndice, se prescindirá del subíndice al enunciar variables, a menos que sea muy necesario. 9 Así, se dice que es el 3er vector propio de y que es el 3er valor propio de . Además, es el 3er componente principal. Etc…etc… Así, al realizar este proceso para las restantes combinaciones lineales , …, se obtiene una representación exactamente equivalente a la matriz . Así, se juntan los resultados en la matriz que describe los ponderadores de los componentes principales de , de modo que es la matriz de los componentes principales. Notar que: Además, Por tanto, se cumplen las condiciones i) y ii). Si consideramos los componentes principales recién obtenidos para explicar a , entonces el proceso no valió la pena (es exactamente lo mismo que considerar las variables originales). Por tanto, la idea es considerar los primeros componentes principales , …, , de modo que la suma de los respectivos valores propios recojan la mayor parte de la variabilidad total (condición iii)), donde esta variabilidad total es la suma de los valores propios ( ). ¿Cuántos componentes principales deben considerarse? Un criterio que usan por defecto algunos softwares es obtener el menor valor de a partir del cual la suma de los valores propios supera al promedio de los valores propios. Referencias Salvador, L. 2009. Apuntes curso Métodos en Psicología. http://personales.unican.es/salvadol/APUNTES2b.pdf Soto, R. 2010. “Notas de Clases. Teoría Econométrica.” Trabajo Docente No. 78. Pontificia Universidad Católica de Chile. Instituto de Economía. Studenmund, A. H. 2001. “Using Econometrics. A Practical Guide”. 4th edition. Adison Wesley Longman. Uriel, E. & Aldás, J. 2005. “Análisis Multivariante Aplicado”. Editorial Thomson.
Compartir