Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 Varianzas no Constantes: Heterocedasticidad y Autocorrelación Pilar Alcalde 1. Definición El supuesto de homocedasticidad corresponde al supuesto de que la varianza del error de la regresión no varía con las variables independientes del modelo; en otras palabras, que los factores no observados del modelo tienen una variabilidad que no depende del nivel o valor de los factores que sí están incluidos en el modelo. En términos matemáticos, esto se expresa como ( | ) = , donde es un término constante y positivo. Junto con el supuesto de linealidad, esto implica que la varianza condicional de la variable dependiente también es constante y no varía con las variables independientes del modelo; en términos matemáticos ( | ) = . Este supuesto de homocedasticidad puede no cumplirse por dos motivos, entre otros. Primero, cuando para cada observación i la varianza del error depende de una o más variables independientes, lo que se conoce como heterocedasticidad. Este fenómeno es frecuente en datos de corte transversal. Por ejemplo, si analizamos cómo varía el costo de producción dependiendo del volumen de producción para distintas empresas: = + + es razonable esperar que aquellas empresas con mayor volumen tengan un menor costo de producción por mayor eficiencia o economías de escala ( < 0), pero también que cometan menos errores mientras producen porque tienen mayor experiencia. Esta menor cantidad de errores se traduce en mayor precisión, y una menor varianza en el costo de producción. Entonces, tanto la media del costo de producción ( | ) como su varianza ( | ) podrían caer a medida que aumenta el volumen de producción. 2 Segundo, el supuesto de homocedasticidad falla si el error de una observación i depende del valor que tome el error de otras observaciones, lo que se conoce como autocorrelación. Este fenómeno es frecuente en los datos de serie de tiempo (o panel), y en los datos agrupados. En el primer caso, si seguimos una misma unidad a través del tiempo es razonable esperar que los factores no observados estén relacionados entre sí. En el mismo ejemplo anterior, si una empresa i tiene una ventaja competitiva que disminuye su costo para cualquier volumen de producción, entonces su error será negativo al compararla con otras empresas. Normalmente esta ventaja se mantendrá por varios años y por tanto el error tenderá a ser negativo durante varios períodos, lo que hace que el error de un año esté correlacionado con el error del año siguiente. En el segundo caso, hay veces que los datos están agrupados por alguna característica común que los hace también estar sujetos a factores no observados que son comunes al grupo; entonces el factor no observado de un miembro del grupo estará relacionado al factor no observado de los otros miembros. En el ejemplo anterior, las empresas que pertenecen a una misma industria probablemente tendrán procesos de producción similares; una mejora tecnológica que disminuya el costo de producción para una empresa en una industria probablemente disminuirá también los costos para otras empresas en la misma industria, generando autocorrelación. La heterocedasticidad y la autocorrelación tienen efectos similares en la estimación, y también se corrigen de forma similar. Como este curso está enfocado a datos de corte transversal, analizaremos más en detalle el problema de heterocedasticidad – varianzas variables – pero siempre teniendo en cuenta que el análisis y solución es similar para la autocorrelación – errores relacionados entre observaciones. 0 5 10 15 20 25 30 0 2 4 6 8 Co st o de P ro du cc ió n C Volumen de Producción V Costo de Producción 3 2. Causas de la heterocedasticidad Como puede intuirse de la discusión anterior, existen muchas causas que pueden provocar heterocedasticidad, entre ellas: Los errores pueden crecer o disminuir con el valor de una de las variables independientes. Si se omite una variable relevante en el modelo que esté correlacionada positivamente con las demás variables incluidas, aparecerá como que el modelo tiene heterocedasticidad aunque el poblacional tenga varianza constante. Puede generarse heterocedasticidad si en una muestra existen distintos subgrupos con funciones de regresión poblacional distintas; por ejemplo, en la figura a continuación, para valores pequeños de X los tres subgrupos son similares pero para valores grandes de X son diferentes. Si los subgrupos se estiman juntos, esto aparecerá como heterocedasticidad. Si una variable está medida con error, puede generarse heterocedasticidad si una categoría o tipo de personas entrega respuestas más precisas que otras. Otros problemas de especificación, como incluir en niveles una variable que debe ir en logaritmos, u omitir interacciones o efectos cuadráticos, también pueden generar heterocedasticidad en el modelo. 3. Consecuencias de la heterocedasticidad para MCO Considerando las distintas causas que pueden generar heterocedasticidad, vemos que muchas veces es un sub-producto de violar otros supuestos, especialmente el supuesto de media condicional nula. Violar estos supuestos tiene consecuencias propias que veremos más adelante en el curso; en adelante, asumiremos que se cumplen todos los supuestos excepto el de homocedasticidad. Cuando se cumplen los supuestos de Gauss-Markov, o del modelo lineal clásico MLC, el estimador de MCO es insesgado y de mínima varianza entre todos los estimadores insesgados. El supuesto de homocedasticidad no es necesario para mostrar la insesgadez del estimador, pero sí es necesario para mostrar que tiene mínima varianza entre los estimadores lineales e insesgados. 4 Por lo tanto, bajo heterocedasticidad el estimador de MCO sigue siendo insesgado, es decir, no se genera sesgo en la estimación de los parámetros: | = . El estimador de MCO de la varianza del error = − − 1 también sigue siendo insesgado porque es un estimador de la varianza incondicional del error - es la varianza condicional la que ahora depende de las variables independientes. Por el mismo motivo, la bondad de ajuste de la regresión tampoco presenta problemas. El depende de la SCR y de la SCT, los cuales son estimadores de la varianza incondicional del error y de la variable dependiente, respectivamente. Sin embargo, el estimador ya no es el de mínima varianza entre los estimadores insesgados. La varianza estimada de los parámetros = (1− ) está sesgada. A su vez, esto produce sesgo en los estadísticos t y en los intervalos de confianza, los que ya no son válidos. Los estadísticos de prueba de hipótesis ya no siguen una distribución t ni F (respectivamente) por lo que también se invalidan, y el problema no se soluciona usando muestras grandes. Es necesario notar que la heterocedasticidad puede ser un problema mucho más grave en otros métodos distintos que Mínimos Cuadrados Ordinarios. Por ejemplo, cuando veamos modelos de elección binaria, la heterocedasticidad sí puede generar sesgo en los parámetros estimados. 4. Pruebas para la heterocedasticidad Después de un examen visual de los residuos, existen numerosos test de hipótesis para determinar si se cumple el supuesto de homocedasticidad o no. Algunos – más antiguos – detectan heterocedasticidad pero sin probar directamente si la varianza del error depende o no de las variables independientes. Los test más modernos detectan cuál es el tipo de heterocedasticidad presente en el modelo. Es necesario notar que estos tests detectan heterocedasticidad sólo si el modelo está bien especificado y se cumplen los demás supuestos. Por lo tanto, es necesario comenzar el análisis comprobando el cumplimiento de los otros supuestos, de lo contrario podría aparecer como heterocedasticidad algún problema de especificación, como los que vimos anteriormente. Si ( | ) = 0, entonces ( | ) = ( | ). Bajo homocedasticidad, el valor esperado de es una constante.Bajo heterocedasticidad, será una función de . Los test modernos 5 simplemente asumen distintas formas para esta función. Entonces, las hipótesis nula y alternativa corresponden a: : ( | ) = : ( | ) = ( ) a. Test de Breusch-Pagan Este test asume que es una función lineal de : = + + + ⋯+ + Y por lo tanto, la hipótesis nula corresponde a : = ⋯ = = 0. Para realizar este test hay que obtener los residuos de la regresión, , obtener su cuadrado, estimar la regresión auxiliar – que aparece arriba - y hacer un test de significancia global sobre esta segunda regresión. La regla de rechazo es como siempre. Por la forma que asume para la relación entre y , este test sólo detecta formas lineales de heterocedasticidad, es decir, que la varianza del error siempre crece o siempre decrece con el valor de la variable independiente. El test también asume que los residuos distribuyen normal, y por lo tanto presenta problemas cuando este supuesto no se cumple. b. Test de White Este test asume que es una función cuadrática de , es decir, depende también de los cuadrados y productos cruzados de todas las variables independientes. Con k=3, la función corresponde a: = + + + + + + + + + + Nuevamente, la hipótesis nula corresponde a : = ⋯ = = 0. Para realizar este test hay que obtener los residuos de la regresión, , obtener su cuadrado, estimar la regresión auxiliar – que aparece arriba - y hacer un test de significancia global sobre esta segunda regresión. La regla de rechazo varía ligeramente: el test no asume que los errores son normales, y por lo tanto se usa la distribución Chi-cuadrado en vez de la F de Fischer, pero la lógica es la misma (se rechaza la hipótesis nula cuando el valor p es bajo). El problema del test de White es la abundancia de regresores en la regresión auxiliar, al incluir todos los cuadrados e interacciones. Esto hace al test más complicado, y también menos poderoso – por el aumento de variables en la regresión auxiliar, puede ser menos probable que diga que alguna es significativa al compararlo con un test menos general. Una versión alternativa y que preserva el espíritu del test es usar los valores predichos de la variable dependiente en la regresión auxiliar, esto es: 6 = + + + Esta versión es más sencilla, y la hipótesis nula corresponde a : = = 0. Se usan los valores predichos porque éstos son funciones de las variables independientes – pero también de los parámetros estimados, y por lo tanto las dos versiones son similares pero no iguales. 5. Corrección: cuando la heterocedasticidad es de forma desconocida Como se ha señalado anteriormente, algunas veces la heterocedasticidad puede provenir de un problema de especificación. Puede haber diferencias entre subgrupos, o el efecto de una variable puede ser no lineal, o hay alguna variable relevante omitida. Si ese es el caso, es necesario corregir estos problemas primero – las correcciones para heterocedasticidad no corregirán el problema de fondo. Recordemos que bajo heterocedasticidad, la estimación de MCO sigue siendo insesgada pero la inferencia usual es incorrecta. Cuando no se conoce la forma de la heterocedasticidad, es posible ajustar los errores estándar y los estadísticos de prueba para que sean válidos. Estos métodos funcionan bien sólo cuando la muestra es grande. a. Estimación robusta a la heterocedasticidad Esta estimación es una manera de corregir los errores estándar, y se conoce como estimación robusta porque, si la muestra es grande, los nuevos errores estándar son válidos ya sea que los errores tengan o no varianza constante, sin necesidad de saber cuál es el caso. A modo de ejemplo, cuando la varianza del error depende de los valores que tome una única variable X, | = , entonces la fórmula para la varianza robusta está dada por = ∑ ( − ) Si los errores son homocedásticos, = y esta fórmula simplifica a = ∑ ( − ) = = que es la fórmula para la varianza de los parámetros cuando el error es homocedástico. Dado que los errores estándar usando esta fórmula son válidos en ambos casos, es que se conoce como errores robustos. La fórmula general cuando la varianza del error depende de varias variables puede encontrarse en Wooldridge (2010), capítulo 8. La estimación robusta no cambia los parámetros estimados, sólo se corrige su desviación estándar, y su uso es bastante sencillo. En Stata, basta con agregar la opción robust ó vce(robust) a la estimación – esta opción relaja el supuesto de que los errores se distribuyen de manera igual para todas las observaciones. Los nuevos errores estándares pueden ser más pequeños o más grandes 7 dependiendo de la forma de la heterocedasticidad. En general los test de significancia individual no se ven afectados sustancialmente, pero podrían afectarse si la heterocedasticidad es demasiado fuerte. La estimación robusta puede ser muy práctica porque para usarla no es necesario saber si existe homocedasticidad o no, y por lo tanto es muy popular. Sin embargo, encontrar las causas de heterocedasticidad puede ser útil porque puede indicar problemas más graves de especificación. Adicionalmente, el uso de la estimación robusta sólo se justifica en muestra grande. Si es que hay homocedasticidad, los estadísticos t comunes siguen exactamente una distribución t; en cambio los estadísticos t robustos se acercan a una distribución t a medida que el tamaño de muestra crece suficientemente, pero podrían estar muy alejados de la distribución t si la muestra es pequeña. Adicionalmente, como se comentó anteriormente, bajo heterocedasticidad es posible encontrar un estimador más eficiente que MCO. b. Estimación usando errores agrupados Como señalamos anteriormente, en algunos casos las distintas observaciones pertenecen a diferentes categorías o grupos y es posible pensar que hay factores no observados que son comunes para cada grupo. Por ejemplo, distintas empresas pueden pertenecer a industrias que tengan shocks no observados que son comunes a una misma industria. De la misma forma, supongamos que un grupo de clientes responden durante varios meses una encuesta de satisfacción; las distintas observaciones tienen naturalmente un factor no observado en común: la persona que respondió. En este caso, existe un método similar a los errores robustos pero que en vez de relajar el supuesto de que los errores se distribuyen de manera igual para las distintas observaciones, relaja el supuesto de que los errores son independientes, es decir, permite correlación entre los distintos errores. El estimador de errores agrupados asume que los errores son independientes entre grupos, pero permite que la correlación – y la varianza – sea libre dentro del grupo. Nuevamente, este método no cambia los parámetros estimados sino que sólo corrige las desviaciones estándar, y sólo es adecuado en muestra grande. En este caso, como la unidad de medida son los grupos y no las observaciones, es necesario que la muestra tenga muchos grupos – al menos 50 si tienen tamaños similares (si ningún grupo es mayor al 5% del tamaño de muestra total). Al igual que en el caso de los errores robustos, si no hay suficientes grupos entonces la inferencia puede empeorar en vez de mejorar al usar este método – los errores estándares calculados serán artificialmente pequeños. En Stata, basta con agregar la opción vce(cluster group_id) a la estimación, donde group_id es el nombre de la variable que señala qué observaciones pertenecen al mismo grupo. Los nuevos errores estándares pueden variar bastante, especialmente si los grupos son relevantes y hay claros factores no observados entre las observaciones de un mismo grupo. Esto puede llevar a conclusiones diferentes respecto a la significancia individual de los parámetros. 8 Puede que en una muestra haya varias variables que definan el grupo. En el ejemplo de la encuesta de satisfacción a distintos clientes a través del tiempo, el grupopodría estar definido por la persona que respondió y el local específico del cual es cliente, o por la persona que respondió y el año en el cual se hicieron las encuestas. La opción de Stata permite incluir varias variables para definir al grupo de interés. Cuando estas categorías tienen una jerarquía – por ejemplo, cada cliente pertenece a un solo local – entonces se recomienda definir el grupo al nivel más general posible para el cual se cree que haya factores no observados comunes al grupo. Pero hay que tener cuidado: a un nivel más general el número de grupos es menor y esto puede causar problemas. 6. Corrección: cuando la heterocedasticidad es de forma conocida Bajo heterocedasticidad, el estimador de MCO ya no tiene varianza mínima. Esto significa que es posible encontrar un estimador insesgado con una varianza menor. A continuación se explica cuál es este nuevo estimador eficiente. El problema es que este estimador requiere más supuestos y es más difícil de implementar, por lo que es menos popular que los dos métodos anteriores y está quedando un poco atrás. Adicionalmente existen métodos más modernos para buscar la forma de la heterocedasticidad y corregirla, pero que superan la dificultad de este curso, principalmente porque requieren el uso de simulaciones, como bootstrap o métodos de coeficientes aleatorios. a. Mínimos Cuadrados Ponderados El principal supuesto de este estimador es que la heterocedasticidad tiene una forma conocida, y que además se conoce hasta una constante, es decir: = + + ( | ) = ℎ( ) donde ℎ( ) es una función conocida. Entonces es posible transformar la regresión original de la siguiente forma: ℎ( ) = 1 ℎ( ) + ℎ( ) + ℎ( ) = + + | = ( | ) ℎ( ) = Como el nuevo error de la regresión transformada es homocedástico, esta regresión transformada cumple con todos los supuestos de Gauss-Markov, y por lo tanto el estimador MCO de la regresión transformada es el estimador eficiente – sobre él puede realizarse inferencia, test 9 de hipótesis, etc. Es necesario señalar que la transformación se hace sólo para corregir la heterocedasticidad, y por lo tanto la interpretación de los parámetros se hace siempre en base a la regresión original. Este método se conoce como Mínimos Cuadrados Ponderados (MCP). El estimador de MCO es el que minimiza la suma de residuos al cuadrado: ( − − ) El estimador MCO de la regresión transformada equivale a minimizar − − = ( − − ) ℎ( ) y por lo tanto equivale a ponderar cada uno de los cuadrados de residuos por el inverso de la varianza del error. La razón por la cual MCP es el estimador eficiente, es que bajo heterocedasticidad, MCO no es óptimo porque da un peso igual a todas las observaciones, a pesar de que observaciones cuyo error tiene mayor varianza contienen menos información que observaciones cuyo error tiene menor varianza. MCP hace precisamente esto: da un peso mayor en la estimación a aquellas observaciones que son más precisas. El problema del estimador de MCP es que asume que la forma de las varianzas es conocida, por ejemplo, ( | ) = . Esto puede ser algo arbitrario, pero hay un caso en que los ponderadores de MCP surgen de manera natural del modelo y son muy útiles. Esto sucede cuando el modelo poblacional es a nivel de individuo, pero sólo se tienen datos promedio de un grupo o región geográfica. Si en el modelo con datos individuales ( ) = , entonces en el modelo con datos grupales = , donde es el tamaño del grupo. En este caso, los ponderadores serán iguales al tamaño del grupo: 1 ℎ( ) = . b. Mínimos Cuadrados Ponderados Factibles Normalmente son pocos los casos en los cuales se conoce la varianza del error. Pero en estos casos, se puede asumir una forma funcional para la varianza condicional que se puede estimar usando la muestra. Usando la estimación ℎ( ) en vez de ℎ( ) en el procedimiento anterior, se obtiene el estimador de MCP Factibles (MCF). Existen muchas maneras de modelar ℎ. Una manera en particular, bastante flexible, es suponer ( | ) = exp( + + + ⋯+ + ) 10 La función exponencial se agrega para asegurar que las varianzas siempre sean positivas, para cualquier valor de los parámetros y de las variables independientes. Ojo que esta forma no se recomienda para testear la presencia de heterocedasticidad (prueba de Park) sino sólo para corregirla – ver detalle en Wooldridge (2010), capítulo 8. Por lo tanto, para obtener el estimador de MCF, primero es necesario estimar el modelo original usando MCO, obtener los residuos , luego obtener el logaritmo del cuadrado de los residuos log = y usarlos como variable dependiente en la regresión auxiliar. Luego, obtener la predicción y calcular los ponderadores ℎ( ) = exp ( ). Con estos ponderadores, se puede utilizar el método de MCP. El estimador de MCF no es insesgado, pero en muestra grande es consistente (es decir, se asemeja al parámetro poblacional a medida que la muestra crece) y también más eficiente que MCO. Como puede esperarse, tanto para el estimador de MCP y como de MCF, el supuesto sobre la forma funcional del error es clave para la eficiencia del estimador. También es clave que se cumplan los demás supuestos de Gauss-Markov, en particular el de media condicional nula. Si es que MCO y MCF dan resultados demasiado distintos, como cambios de signos en los parámetros, entonces hay que desconfiar. Es posible comparar ambas estimaciones usando un test de Hausman. Este test sirve para comparar dos estimadores bajo una hipótesis nula determinada, en este caso que la varianza del error está bien especificada. Uno de los estimadores es insesgado no importa si se cumple o no , en este caso MCO. El otro estimador es más eficiente si se cumple , pero es equivocado si no se cumple ; en este caso MCF. Finalmente, para hacer predicciones con un modelo corregido es necesario ajustar solamente los intervalos de confianza – ver detalle en Wooldridge (2010), capítulo 8. Referencias Nichols, A. y M. Schaffer, 2007, “Clustered Errors in Stata”. Richards, W, “Heteroscedasticity”, Notre Dame University. Wooldridge, J. 2010. “Introducción a la Econometría, un Enfoque Moderno”, 4ta edición, Cengage Learning Editores.
Compartir