Logo Studenta

apunte_varianzas - Gustavo Perales Vivar

Vista previa del material en texto

1 
 
Varianzas no Constantes: 
Heterocedasticidad y Autocorrelación 
Pilar Alcalde 
 
1. Definición 
El supuesto de homocedasticidad corresponde al supuesto de que la varianza del error de la 
regresión no varía con las variables independientes del modelo; en otras palabras, que los factores 
no observados del modelo tienen una variabilidad que no depende del nivel o valor de los factores 
que sí están incluidos en el modelo. 
En términos matemáticos, esto se expresa como ( | ) = , donde es un término constante 
y positivo. Junto con el supuesto de linealidad, esto implica que la varianza condicional de la 
variable dependiente también es constante y no varía con las variables independientes del 
modelo; en términos matemáticos ( | ) = . 
Este supuesto de homocedasticidad puede no cumplirse por dos motivos, entre otros. Primero, 
cuando para cada observación i la varianza del error depende de una o más variables 
independientes, lo que se conoce como heterocedasticidad. Este fenómeno es frecuente en datos 
de corte transversal. Por ejemplo, si analizamos cómo varía el costo de producción dependiendo 
del volumen de producción para distintas empresas: 
= + + 
es razonable esperar que aquellas empresas con mayor volumen tengan un menor costo de 
producción por mayor eficiencia o economías de escala ( < 0), pero también que cometan 
menos errores 	mientras producen porque tienen mayor experiencia. Esta menor cantidad de 
errores se traduce en mayor precisión, y una menor varianza en el costo de producción. Entonces, 
tanto la media del costo de producción ( | )	como su varianza ( | )	podrían caer a medida 
que aumenta el volumen de producción. 
2 
 
 
Segundo, el supuesto de homocedasticidad falla si el error de una observación i depende del valor 
que tome el error de otras observaciones, lo que se conoce como autocorrelación. Este fenómeno 
es frecuente en los datos de serie de tiempo (o panel), y en los datos agrupados. En el primer caso, 
si seguimos una misma unidad a través del tiempo es razonable esperar que los factores no 
observados estén relacionados entre sí. En el mismo ejemplo anterior, si una empresa i tiene una 
ventaja competitiva que disminuye su costo para cualquier volumen de producción, entonces su 
error será negativo al compararla con otras empresas. Normalmente esta ventaja se mantendrá 
por varios años y por tanto el error tenderá a ser negativo durante varios períodos, lo que hace 
que el error de un año esté correlacionado con el error del año siguiente. 
En el segundo caso, hay veces que los datos están agrupados por alguna característica común que 
los hace también estar sujetos a factores no observados que son comunes al grupo; entonces el 
factor no observado de un miembro del grupo estará relacionado al factor no observado de los 
otros miembros. En el ejemplo anterior, las empresas que pertenecen a una misma industria 
probablemente tendrán procesos de producción similares; una mejora tecnológica que disminuya 
el costo de producción para una empresa en una industria probablemente disminuirá también los 
costos para otras empresas en la misma industria, generando autocorrelación. 
La heterocedasticidad y la autocorrelación tienen efectos similares en la estimación, y también se 
corrigen de forma similar. Como este curso está enfocado a datos de corte transversal, 
analizaremos más en detalle el problema de heterocedasticidad – varianzas variables – pero 
siempre teniendo en cuenta que el análisis y solución es similar para la autocorrelación – errores 
relacionados entre observaciones. 
 
 
 
0
5
10
15
20
25
30
0 2 4 6 8
Co
st
o 
de
 P
ro
du
cc
ió
n 
C
Volumen de Producción V
Costo de Producción
3 
 
2. Causas de la heterocedasticidad 
Como puede intuirse de la discusión anterior, existen muchas causas que pueden provocar 
heterocedasticidad, entre ellas: 
 Los errores pueden crecer o disminuir con el valor de una de las variables independientes. 
 Si se omite una variable relevante en el modelo que esté correlacionada positivamente 
con las demás variables incluidas, aparecerá como que el modelo tiene heterocedasticidad 
aunque el poblacional tenga varianza constante. 
 Puede generarse heterocedasticidad si en una muestra existen distintos subgrupos con 
funciones de regresión poblacional distintas; por ejemplo, en la figura a continuación, para 
valores pequeños de X los tres subgrupos son similares pero para valores grandes de X son 
diferentes. Si los subgrupos se estiman juntos, esto aparecerá como heterocedasticidad. 
 
 Si una variable está medida con error, puede generarse heterocedasticidad si una 
categoría o tipo de personas entrega respuestas más precisas que otras. 
 Otros problemas de especificación, como incluir en niveles una variable que debe ir en 
logaritmos, u omitir interacciones o efectos cuadráticos, también pueden generar 
heterocedasticidad en el modelo. 
 
3. Consecuencias de la heterocedasticidad para MCO 
Considerando las distintas causas que pueden generar heterocedasticidad, vemos que muchas 
veces es un sub-producto de violar otros supuestos, especialmente el supuesto de media 
condicional nula. Violar estos supuestos tiene consecuencias propias que veremos más adelante 
en el curso; en adelante, asumiremos que se cumplen todos los supuestos excepto el de 
homocedasticidad. 
Cuando se cumplen los supuestos de Gauss-Markov, o del modelo lineal clásico MLC, el estimador 
de MCO es insesgado y de mínima varianza entre todos los estimadores insesgados. El supuesto de 
homocedasticidad no es necesario para mostrar la insesgadez del estimador, pero sí es necesario 
para mostrar que tiene mínima varianza entre los estimadores lineales e insesgados. 
4 
 
Por lo tanto, bajo heterocedasticidad el estimador de MCO sigue siendo insesgado, es decir, no se 
genera sesgo en la estimación de los parámetros: | = . 
El estimador de MCO de la varianza del error 
=
− − 1
 
también sigue siendo insesgado porque es un estimador de la varianza incondicional del error - es 
la varianza condicional la que ahora depende de las variables independientes. Por el mismo 
motivo, la bondad de ajuste de la regresión tampoco presenta problemas. El depende de la SCR 
y de la SCT, los cuales son estimadores de la varianza incondicional del error y de la variable 
dependiente, respectivamente. 
Sin embargo, el estimador ya no es el de mínima varianza entre los estimadores insesgados. La 
varianza estimada de los parámetros 
=
(1− )
 
está sesgada. A su vez, esto produce sesgo en los estadísticos t y en los intervalos de confianza, los 
que ya no son válidos. Los estadísticos de prueba de hipótesis ya no siguen una distribución t ni F 
(respectivamente) por lo que también se invalidan, y el problema no se soluciona usando muestras 
grandes. 
Es necesario notar que la heterocedasticidad puede ser un problema mucho más grave en otros 
métodos distintos que Mínimos Cuadrados Ordinarios. Por ejemplo, cuando veamos modelos de 
elección binaria, la heterocedasticidad sí puede generar sesgo en los parámetros estimados. 
4. Pruebas para la heterocedasticidad 
Después de un examen visual de los residuos, existen numerosos test de hipótesis para determinar 
si se cumple el supuesto de homocedasticidad o no. Algunos – más antiguos – detectan 
heterocedasticidad pero sin probar directamente si la varianza del error depende o no de las 
variables independientes. Los test más modernos detectan cuál es el tipo de heterocedasticidad 
presente en el modelo. 
Es necesario notar que estos tests detectan heterocedasticidad sólo si el modelo está bien 
especificado y se cumplen los demás supuestos. Por lo tanto, es necesario comenzar el análisis 
comprobando el cumplimiento de los otros supuestos, de lo contrario podría aparecer como 
heterocedasticidad algún problema de especificación, como los que vimos anteriormente. 
Si ( | ) = 0, entonces ( | ) = ( | ). Bajo homocedasticidad, el valor esperado de es 
una constante.Bajo heterocedasticidad, será una función de . Los test modernos 
5 
 
simplemente asumen distintas formas para esta función. Entonces, las hipótesis nula y alternativa 
corresponden a: 
: ( | ) =
: ( | ) = ( )
 
a. Test de Breusch-Pagan 
Este test asume que es una función lineal de : 
= + + + ⋯+ + 
Y por lo tanto, la hipótesis nula corresponde a : = ⋯ = = 0. Para realizar este test hay 
que obtener los residuos de la regresión, , obtener su cuadrado, estimar la regresión auxiliar – 
que aparece arriba - y hacer un test de significancia global sobre esta segunda regresión. La regla 
de rechazo es como siempre. 
Por la forma que asume para la relación entre y , este test sólo detecta formas lineales de 
heterocedasticidad, es decir, que la varianza del error siempre crece o siempre decrece con el 
valor de la variable independiente. El test también asume que los residuos distribuyen normal, y 
por lo tanto presenta problemas cuando este supuesto no se cumple. 
b. Test de White 
Este test asume que es una función cuadrática de , es decir, depende también de los 
cuadrados y productos cruzados de todas las variables independientes. Con k=3, la función 
corresponde a: 
= + + + + + + +
+ + + 
Nuevamente, la hipótesis nula corresponde a : = ⋯ = = 0. Para realizar este test hay 
que obtener los residuos de la regresión, , obtener su cuadrado, estimar la regresión auxiliar – 
que aparece arriba - y hacer un test de significancia global sobre esta segunda regresión. La regla 
de rechazo varía ligeramente: el test no asume que los errores son normales, y por lo tanto se usa 
la distribución Chi-cuadrado en vez de la F de Fischer, pero la lógica es la misma (se rechaza la 
hipótesis nula cuando el valor p es bajo). 
El problema del test de White es la abundancia de regresores en la regresión auxiliar, al incluir 
todos los cuadrados e interacciones. Esto hace al test más complicado, y también menos poderoso 
– por el aumento de variables en la regresión auxiliar, puede ser menos probable que diga que 
alguna es significativa al compararlo con un test menos general. 
Una versión alternativa y que preserva el espíritu del test es usar los valores predichos de la 
variable dependiente en la regresión auxiliar, esto es: 
6 
 
= + + + 
Esta versión es más sencilla, y la hipótesis nula corresponde a : = = 0. Se usan los valores 
predichos porque éstos son funciones de las variables independientes – pero también de los 
parámetros estimados, y por lo tanto las dos versiones son similares pero no iguales. 
5. Corrección: cuando la heterocedasticidad es de forma desconocida 
Como se ha señalado anteriormente, algunas veces la heterocedasticidad puede provenir de un 
problema de especificación. Puede haber diferencias entre subgrupos, o el efecto de una variable 
puede ser no lineal, o hay alguna variable relevante omitida. Si ese es el caso, es necesario corregir 
estos problemas primero – las correcciones para heterocedasticidad no corregirán el problema de 
fondo. 
Recordemos que bajo heterocedasticidad, la estimación de MCO sigue siendo insesgada pero la 
inferencia usual es incorrecta. Cuando no se conoce la forma de la heterocedasticidad, es posible 
ajustar los errores estándar y los estadísticos de prueba para que sean válidos. Estos métodos 
funcionan bien sólo cuando la muestra es grande. 
a. Estimación robusta a la heterocedasticidad 
Esta estimación es una manera de corregir los errores estándar, y se conoce como estimación 
robusta porque, si la muestra es grande, los nuevos errores estándar son válidos ya sea que los 
errores tengan o no varianza constante, sin necesidad de saber cuál es el caso. A modo de 
ejemplo, cuando la varianza del error depende de los valores que tome una única variable X, 
| = , entonces la fórmula para la varianza robusta está dada por 
=
∑ ( − )
 
Si los errores son homocedásticos, = y esta fórmula simplifica a 
=
∑ ( − )
= = 
que es la fórmula para la varianza de los parámetros cuando el error es homocedástico. Dado que 
los errores estándar usando esta fórmula son válidos en ambos casos, es que se conoce como 
errores robustos. La fórmula general cuando la varianza del error depende de varias variables 
puede encontrarse en Wooldridge (2010), capítulo 8. 
La estimación robusta no cambia los parámetros estimados, sólo se corrige su desviación estándar, 
y su uso es bastante sencillo. En Stata, basta con agregar la opción robust ó vce(robust) a la 
estimación – esta opción relaja el supuesto de que los errores se distribuyen de manera igual para 
todas las observaciones. Los nuevos errores estándares pueden ser más pequeños o más grandes 
7 
 
dependiendo de la forma de la heterocedasticidad. En general los test de significancia individual 
no se ven afectados sustancialmente, pero podrían afectarse si la heterocedasticidad es 
demasiado fuerte. 
La estimación robusta puede ser muy práctica porque para usarla no es necesario saber si existe 
homocedasticidad o no, y por lo tanto es muy popular. Sin embargo, encontrar las causas de 
heterocedasticidad puede ser útil porque puede indicar problemas más graves de especificación. 
Adicionalmente, el uso de la estimación robusta sólo se justifica en muestra grande. Si es que hay 
homocedasticidad, los estadísticos t comunes siguen exactamente una distribución t; en cambio 
los estadísticos t robustos se acercan a una distribución t a medida que el tamaño de muestra 
crece suficientemente, pero podrían estar muy alejados de la distribución t si la muestra es 
pequeña. Adicionalmente, como se comentó anteriormente, bajo heterocedasticidad es posible 
encontrar un estimador más eficiente que MCO. 
b. Estimación usando errores agrupados 
Como señalamos anteriormente, en algunos casos las distintas observaciones pertenecen a 
diferentes categorías o grupos y es posible pensar que hay factores no observados que son 
comunes para cada grupo. Por ejemplo, distintas empresas pueden pertenecer a industrias que 
tengan shocks no observados que son comunes a una misma industria. De la misma forma, 
supongamos que un grupo de clientes responden durante varios meses una encuesta de 
satisfacción; las distintas observaciones tienen naturalmente un factor no observado en común: la 
persona que respondió. 
En este caso, existe un método similar a los errores robustos pero que en vez de relajar el 
supuesto de que los errores se distribuyen de manera igual para las distintas observaciones, relaja 
el supuesto de que los errores son independientes, es decir, permite correlación entre los distintos 
errores. El estimador de errores agrupados asume que los errores son independientes entre 
grupos, pero permite que la correlación – y la varianza – sea libre dentro del grupo. 
Nuevamente, este método no cambia los parámetros estimados sino que sólo corrige las 
desviaciones estándar, y sólo es adecuado en muestra grande. En este caso, como la unidad de 
medida son los grupos y no las observaciones, es necesario que la muestra tenga muchos grupos – 
al menos 50 si tienen tamaños similares (si ningún grupo es mayor al 5% del tamaño de muestra 
total). Al igual que en el caso de los errores robustos, si no hay suficientes grupos entonces la 
inferencia puede empeorar en vez de mejorar al usar este método – los errores estándares 
calculados serán artificialmente pequeños. 
En Stata, basta con agregar la opción vce(cluster group_id) a la estimación, donde group_id es el 
nombre de la variable que señala qué observaciones pertenecen al mismo grupo. Los nuevos 
errores estándares pueden variar bastante, especialmente si los grupos son relevantes y hay claros 
factores no observados entre las observaciones de un mismo grupo. Esto puede llevar a 
conclusiones diferentes respecto a la significancia individual de los parámetros. 
8 
 
Puede que en una muestra haya varias variables que definan el grupo. En el ejemplo de la 
encuesta de satisfacción a distintos clientes a través del tiempo, el grupopodría estar definido por 
la persona que respondió y el local específico del cual es cliente, o por la persona que respondió y 
el año en el cual se hicieron las encuestas. La opción de Stata permite incluir varias variables para 
definir al grupo de interés. Cuando estas categorías tienen una jerarquía – por ejemplo, cada 
cliente pertenece a un solo local – entonces se recomienda definir el grupo al nivel más general 
posible para el cual se cree que haya factores no observados comunes al grupo. Pero hay que 
tener cuidado: a un nivel más general el número de grupos es menor y esto puede causar 
problemas. 
6. Corrección: cuando la heterocedasticidad es de forma conocida 
Bajo heterocedasticidad, el estimador de MCO ya no tiene varianza mínima. Esto significa que es 
posible encontrar un estimador insesgado con una varianza menor. A continuación se explica cuál 
es este nuevo estimador eficiente. El problema es que este estimador requiere más supuestos y es 
más difícil de implementar, por lo que es menos popular que los dos métodos anteriores y está 
quedando un poco atrás. 
Adicionalmente existen métodos más modernos para buscar la forma de la heterocedasticidad y 
corregirla, pero que superan la dificultad de este curso, principalmente porque requieren el uso de 
simulaciones, como bootstrap o métodos de coeficientes aleatorios. 
a. Mínimos Cuadrados Ponderados 
El principal supuesto de este estimador es que la heterocedasticidad tiene una forma conocida, y 
que además se conoce hasta una constante, es decir: 
= + + 
( | ) = ℎ( ) 
donde ℎ( ) es una función conocida. Entonces es posible transformar la regresión original de la 
siguiente forma: 
ℎ( )
=
1
ℎ( )
+
ℎ( )
+
ℎ( )
 
= + + 
| =
( | )
ℎ( )
= 
Como el nuevo error de la regresión transformada es homocedástico, esta regresión 
transformada cumple con todos los supuestos de Gauss-Markov, y por lo tanto el estimador MCO 
de la regresión transformada es el estimador eficiente – sobre él puede realizarse inferencia, test 
9 
 
de hipótesis, etc. Es necesario señalar que la transformación se hace sólo para corregir la 
heterocedasticidad, y por lo tanto la interpretación de los parámetros se hace siempre en base a la 
regresión original. 
Este método se conoce como Mínimos Cuadrados Ponderados (MCP). El estimador de MCO es el 
que minimiza la suma de residuos al cuadrado: 
( − − ) 
El estimador MCO de la regresión transformada equivale a minimizar 
− − =
( − − )
ℎ( )
 
y por lo tanto equivale a ponderar cada uno de los cuadrados de residuos por el inverso de la 
varianza del error. 
La razón por la cual MCP es el estimador eficiente, es que bajo heterocedasticidad, MCO no es 
óptimo porque da un peso igual a todas las observaciones, a pesar de que observaciones cuyo 
error tiene mayor varianza contienen menos información que observaciones cuyo error tiene 
menor varianza. MCP hace precisamente esto: da un peso mayor en la estimación a aquellas 
observaciones que son más precisas. 
El problema del estimador de MCP es que asume que la forma de las varianzas es conocida, por 
ejemplo, ( | ) = . Esto puede ser algo arbitrario, pero hay un caso en que los 
ponderadores de MCP surgen de manera natural del modelo y son muy útiles. Esto sucede cuando 
el modelo poblacional es a nivel de individuo, pero sólo se tienen datos promedio de un grupo o 
región geográfica. Si en el modelo con datos individuales ( ) = , entonces en el modelo con 
datos grupales = , donde es el tamaño del grupo. En este caso, los ponderadores 
serán iguales al tamaño del grupo: 1 ℎ( ) = . 
b. Mínimos Cuadrados Ponderados Factibles 
Normalmente son pocos los casos en los cuales se conoce la varianza del error. Pero en estos 
casos, se puede asumir una forma funcional para la varianza condicional que se puede estimar 
usando la muestra. Usando la estimación ℎ( ) en vez de ℎ( ) en el procedimiento anterior, se 
obtiene el estimador de MCP Factibles (MCF). 
Existen muchas maneras de modelar ℎ. Una manera en particular, bastante flexible, es suponer 
( | ) = exp( + + + ⋯+ + ) 
10 
 
La función exponencial se agrega para asegurar que las varianzas siempre sean positivas, para 
cualquier valor de los parámetros y de las variables independientes. Ojo que esta forma no se 
recomienda para testear la presencia de heterocedasticidad (prueba de Park) sino sólo para 
corregirla – ver detalle en Wooldridge (2010), capítulo 8. 
Por lo tanto, para obtener el estimador de MCF, primero es necesario estimar el modelo original 
usando MCO, obtener los residuos , luego obtener el logaritmo del cuadrado de los residuos 
log = y usarlos como variable dependiente en la regresión auxiliar. Luego, obtener la 
predicción y calcular los ponderadores ℎ( ) = exp	( ). Con estos ponderadores, se puede 
utilizar el método de MCP. 
El estimador de MCF no es insesgado, pero en muestra grande es consistente (es decir, se asemeja 
al parámetro poblacional a medida que la muestra crece) y también más eficiente que MCO. 
Como puede esperarse, tanto para el estimador de MCP y como de MCF, el supuesto sobre la 
forma funcional del error es clave para la eficiencia del estimador. También es clave que se 
cumplan los demás supuestos de Gauss-Markov, en particular el de media condicional nula. Si es 
que MCO y MCF dan resultados demasiado distintos, como cambios de signos en los parámetros, 
entonces hay que desconfiar. Es posible comparar ambas estimaciones usando un test de 
Hausman. Este test sirve para comparar dos estimadores bajo una hipótesis nula determinada, en 
este caso que la varianza del error está bien especificada. Uno de los estimadores es insesgado no 
importa si se cumple o no , en este caso MCO. El otro estimador es más eficiente si se cumple 
, pero es equivocado si no se cumple ; en este caso MCF. 
Finalmente, para hacer predicciones con un modelo corregido es necesario ajustar solamente los 
intervalos de confianza – ver detalle en Wooldridge (2010), capítulo 8. 
 
Referencias 
 Nichols, A. y M. Schaffer, 2007, “Clustered Errors in Stata”. 
 Richards, W, “Heteroscedasticity”, Notre Dame University. 
 Wooldridge, J. 2010. “Introducción a la Econometría, un Enfoque Moderno”, 4ta edición, 
Cengage Learning Editores.

Otros materiales