Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal En esta sección estudiamos problemas derivados de la violación de los seis supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo anterior. La lógica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la violación sobre los estimadores mínimos cuadrados y los diferentes tipos de tests. En segundo lugar, propondremos, si es posible, alguna una solución, examinando el contexto en el que dicha solución es válida. La pregunta más natural que aparece es ¿cómo sabemos que se ha violado un supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un supuesto y, además, porque muchas veces se pueden violar varios supuestos simultáneamente. Aunque no hay reglas al respecto, algunos fenómenos que delatan la violación de algún supuesto son: • Los errores que no tienen la característica de ser ruido blanco que se les exige para representar la parte asistemática del fenómeno en cuestión. Este es el indicador más importante de la violación de algún supuesto aunque, debe reconocerse, es difícil de evaluar aún con los mejores tests estadísticos.2 • Los parámetros estimados tienen características que no son congruentes con los pre/juicios que se tenían antes de hacer el experimento, en términos que presentan signos opuestos a los esperados, baja significancia estadística, o son poco robustos ante pequeños cambios en las condiciones de estimación. • Existen problemas con los estadísticos asociados a la regresión, como son R², tests de correlación residual, o la comparación entre el error estándar de la variable de interés – y – el de la regresión, y . • Baja capacidad predictiva del modelo estimado o sesgo sistemático en la predicción. 1 “Lógica es el arte de pensar y razonar en estricta concordancia con las limitaciones e incapacidades de la incomprensión humana” Ambrose Bierce, Diccionario del Diablo. 2 Usualmente en estadística es más fácil demostrar que algo no es lo que se suponía que afirmar que sí lo es. 5.2 5.01 Problemas de Especificación I: Regresores Inadecuados Es frecuente que al modelar el econometrista tenga varias alternativas de variables que puede incluir o excluir del modelo. En principio, la teoría debiera sugerir una especificación completa y las hipótesis que se va a estudiar. Pero a veces las teorías no son muy “finas” y hay espacio para probar distintas especificaciones. En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos situaciones (incluidas y excluidas). Dos combinaciones son obvias;3 pertinente incluida e irrelevante excluida. Las otras dos son más interesantes de estudiar. Omisión de variable pertinente Un problema econométrico común en los modelos económicos es la omisión de variables que pueden ser potencialmente importantes (típicamente por mala especificación analítica o por limitaciones de los datos). Supongamos que el modelo y=x es particionado en dos grupos de variables: y=x 11x 22 (5.1) Supongamos ahora que la estimación excluye x 2 . Entonces: 1=x 1 ' x 1 −1x 1 ' y =x1 ' x1 −1 x 1 ' [x 11x 22] =1x1 ' x1 −1 x 1 ' x 22x 1 ' x 1 −1x 1 ' (5.2) esta expresión ya la hemos visto con anterioridad, de donde derivamos este importante resultado: E[ 1 ]=E [1x 1 ' x 1 −1 x 1 ' x 22x 1 ' x 1 −1x 1 ' ] =1E[ x 1 ' x 1 −1 x1 ' x22 ] (5.3) Entonces, 3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles Squared, Boston, 1972). 5.3 E[ 1 ]=1 si x 1 ' x 2=0 ≠1 si x 1 ' x 2≠ 0 (5.4) Por lo tanto, la omisión de variables pertinentes no correlacionadas con aquellas que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisión de variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los estimadores. El sesgo es de dirección y tamaño desconocidos, porque no conocemos 2 . Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la inversa de matrices particionadas. La varianza del verdadero estimador, es decir incluyendo x 2 , es V [ 1 ]= 2 [x 1 ' x1 −x 1 ' x 2 x 2 ' x 2 −1 x 2 ' x 1] −1 (5.5) en tanto que la varianza del estimador en el modelo que excluye x 2 es V [ 1 ]= 2 x 1 ' x 1 −1 (5.6) Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor varianza. Sin embargo, consideremos el caso más común en el que resulta necesario usar el estimador de 2 , 2= ' /n−k1 , donde son los residuos del modelo estimado excluyendo x 2 (no los del modelo completo, ). Pero podemos expresar en función de usando la matriz M 1 : =M 1 y =M 1 x 11x 22 =M 1 x 22M1 (5.7) donde nuevamente M 1=I−x 1 ʹ x1 −1 x 1 ʹ , es decir, produce “los residuos de una regresión de lo-que-haya-a-la derecha de x 1 ”. Por lo tanto, en los residuos muestrales están los verdaderos residuos más el efecto de la correlación de x 1 y x 2 ponderado por 2 . ¿Cómo afecta esto al estimador de la varianza de los residuos? Tomando la ecuación (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene la siguiente expresión: E[ ' ]=2 ' x 2 ' M 1 x 22E [ ' M1] (5.8) 5.4 Entonces, E[ ' ]=2 ' x 2 ' M 1 x 22 2 tr M 1 =2 ' x 2 ' M 1x 22 2 n−k1 (5.9) El primer término del lado derecho de (5.9) es no-negativo, ya que es una forma cuadrática. El segundo es el estimador de la varianza de los residuos para el modelo que excluye x 2 . Por ello, la varianza estimada de los residuos –obtenida como la suma de los residuos al cuadrado ajustada por grados de libertad– estará sesgada. Es interesante notar que aún si x 1 ʹ x 2=0 y los estimadores de los parámetros no están sesgados, el estimador de la varianza de los residuos –y por consiguiente los tests t– si lo está. Adición de variable irrelevante Nuevamente, debemos contestar las clásicas preguntas: ¿Es el estimador de insesgado? ¿Se ha afectado la varianza del estimador de ? ¿Se ha afectado 2 ? ¿Cuál es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante obvias. Una conclusión errónea, popular y peligrosa Como hemos visto, en términos de la calidad de los estimadores resulta preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugeriría que la mejor estrategia de modelación econométrica es poner “de todo” al lado derecho de la regresión, mientras alcancen los grados de libertad. Así, si bien los estimadores tendrían problemas de eficiencia, no habría problemas de sesgo. Estos últimos son, naturalmente, más graves. Existen problemas graves con esta estrategia. El modelo de regresión ha sido derivado bajo la premisa que éste describe un experimento aleatorio en un espacio de probabilidad asociado a un conjunto de posibles eventos de interés. En tal caso, el diseño del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hipótesis que se desea estudiar como la especificación funcional particular que se debe usar. Cuando se incluyen variables aleatorias con el fin de maximizar algún criterio (usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no puede compararse el parámetro de interés entre modelos. Considere los dos modelos planteados en la ecuación (5.10): 5.5 a y i=01 x i b y i=01 x i2w i (5.10) evidentemente, el parámetro 1 de la ecuación (a) se refiere a un experimento cuyo espacio de eventos es distinto del que se considera implícitamente en la ecuación (b), lo que impide la comparación entre modelos. Otra manera de ver este mismo problema es considerar que la modelación econométrica equivale a estudiar la distribucióncondicional F y |x , la que puede ser muy distinta de F y |x ,w . En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir una especificación no puede usarse esa misma muestra para (in)validar dicha especificación.4 En el primer caso, se está usando la información para descubrir regularidades de interés (usualmente mal llamadas, hechos estilizados) y motivar la modelación y el análisis económico de algún fenómeno. En el segundo caso, se está usando un conjunto de variables aleatorias para discutir la validez de una proposición económica hecha con independencia de la realización (muestra) de dichas variables aleatorias. Si bien ambos casos son válidos por separado, en conjunto ellos no constituyen una base adecuada de modelación econométrica. Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en una verdadera carrera de caballos con distintos modelos econométricos, ponderando sus virtudes y defectos por medio de una batería de tests. ¿Cómo sabemos, entonces, si un modelo está bien especificado? Sólo la teoría económica nos puede sugerir una especificación. Una vez obtenida una muestra acorde al testeo que se desea hacer, hay dos alternativas: si la teoría es congruente con los datos, nos quedamos con ésta como una representación adecuada de datos caracterizados por algunas regularidades empíricas. Si la teoría no es congruente con los datos, cambie de teoría. Existe la tentación a poner cosas del lado derecho, sólo para encontrarse después que no hay como justificar en serio la inclusión de dichas variables. Hay, sin embargo, dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que le impone su teoría económica: 1. Si el test t de estas variables adicionales es mayor que 2 ¿por qué no incluirlas? El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un punto de vista estadístico para describir la media condicional de y, pero no tenemos idea por qué o qué papel desempeñan desde el punto de vista analítico. Lo mismo se aplica a justificar por bondad de ajuste: no olvide que el R² es una función del test t. Si se añade una variable cuyo test t es mayor que 2, el R² de la regresión sube. 4 Esta es una discusión bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996. 5.6 2. ¿Por qué no usar las k variables disponibles y hacemos una competencia “todos-contra- todos” seleccionando aquellas que maximizan R² con tests t significativos al, digamos, 95%? Esta técnica, llamada stepwise regression, busca aquella combinación lineal de los componentes de x que maximiza la bondad de ajuste, R². Esto tiene bastantes problemas. En primer lugar, la selección es mecánica con independencia de las restricciones que impone la teoría. En segundo lugar, es difícil comparar entre modelos (¿cómo se distribuye el test de distancia entre dos o más R²?). En tercer lugar, esto es data mining. El problema de data mining5, en realidad, excede el de la búsqueda interesada de las variables que se debe incluir en el modelo. También debe incluirse la reespecificación de los modelos (porque también equivale a cambiar los supuestos sobre los cuales se derivó el modelo originalmente), la búsqueda de muestras convenientes (por ejemplo, el periodo de tiempo “preciso”) e, incluso, el uso de tests estadísticos favorables (que usualmente son aquellos que no tienen poder para probar la hipótesis nula de interés).6 Recientemente el tema de data mining ha recibido un soporte analítico más sólido y su uso se ha popularizado en áreas distintas a la economía donde el interés por relacionar evidencia empírica con modelos de comportamiento no es importante. Por ejemplo, en el uso de datos gráficos para el reconocimiento de patrones sistemáticos (caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafíos en este tipo de modelación.7 5.02 Problemas de Especificación II: Cambio de Régimen Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en el que hay cambio de régimen (un caso frecuente en series de tiempo).8 Cambio de régimen es una expresión un tanto vaga que se utiliza para denotar que el fenómeno de interés tiene un comportamiento característicamente diferente en diversos periodos de tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir de manera apreciable. 5 “The art of fishing over alternative models has been partially automated with stepwise regression programs. While such advances have made it easier to find high R²s and “significant” t coefficients, it is by no means obvious that reductions in the costs of data mining have been matched by a proportional increase in our knowledge of how the economy actually works.” Lovell, M. C. (1983), “Data Mining,” The Review of Economics and Statistics, 65, 1-12. 6 Ver A. Spanos (1999) “Revisiting data mining: ‘hunting’ with or without a license”, mimeo, Department of Economics, Virginia Polytechnic Institute and State University. 7 H. Hirsh “Data mining research: current status and future opportunities”, Statistical Analysis and Data Mining, 1:104-108. 8 A este tipo de modelo se le denomina incorrectamente “cambio estructural”. El nombre más adecuado es cambio de régimen, por cuanto nada garantiza que sea produzca un cambio en el mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su naturaleza dual. 5.7 Un ejemplo común queda descrito en la siguiente figura. En una serie que crece con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y cuarto cuartos de los datos. El quiebre es de tamaño 40% del nivel. En el panel C se presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos. En tanto que en el panel D se presenta la serie sujeta a ambos quiebres. Figura 5.1 Cambio de régimen Método de Chow En el caso de cambio de régimen, un modelo del tipo y=x es inadecuado. Supongamos que el cambio de régimen sólo afecta el intercepto de la regresión, Chow9 sugiere usar es una especificación del tipo: y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ] y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ] (5.11) 9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions". Econometrica 28(3):591–605. 5.8 Sin embargo, es preferible anidar ambos modelos en una sola especificación usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del régimen. El modelo anidado es: y i=x i D ii (5.12) donde D i=1 ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ] D i=0 en el resto . Así, cuando la variable muda D es 1, el intercepto es = , en tanto que si es 0 éste es .11 Es decir, interpretamos como la diferencia de interceptos. Supongamos ahora que el cambio de régimen es tanto en el intercepto como en los otros coeficientes de la regresión. Se debería usar es una especificación del tipo: y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ] y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ] (5.13) Conviene, nuevamente, anidar ambos modelos en una sola especificación usando variables ficticias. El modelo anidado es: y i=x i [D i ]D ii (5.14) Así, cuando D toma valor 1, el intercepto es = y la pendiente es = . Cuando D=0, obtenemos los parámetros y . ¿Cómo descubrimos si hay cambio de régimen? Existen dos técnicas de amplia difusión para descubrir la existencia de regímenes distintos en una muestra: las técnicas recursivas y el test RESET. Comovamos a descubrir, estas técnicas no señalan sólo la presencia de cambio de régimen sino además de otros problemas de especificación. 10 El término variable muda (del inglés dummy) fue introducido aparentemente en 1952 por H. S. Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A, 115:1-28. 11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es decir, la tendencia a observar cambios en la variable de interés debido a fenómenos que no interesa modelar (clima, efemérides, etc.). En tal caso, el modelo es del tipo y i=x i 1∗D 12∗D23∗D 3i , donde las variables D1 , D2 y D3 toman valor 1 para primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso. 5.9 El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12 y consiste en realizar una regresión auxiliar al modelo de interés. Sea el modelo y t=x tt , supongamos que se distribuye N 0, I , y consideremos la siguiente regresión auxiliar: y t=01x t2 z tt (5.15) donde z t={ y t 2 , y t 3 ,} y y t son los valores predichos del modelo original.13 Si el modelo original estaba bien especificado, entonces los coeficientes de las variables auxiliares no debiesen ser estadísticamente significativos. En caso contrario, el estimador de es inconsistente. Por ello la hipótesis nula del test es H 0 :2=0 y H 1 :2≠0 . Para hacer el test en la práctica, se puede hacer un test F o de razones de verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones. Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el test no sólo señalaría la presencia de error de especificación sino, además, de variables omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la variable del lado izquierdo, y t−k , de modo que el test ahora señalaría la presencia de error de especificación sino, además, de correlación residual. La técnicas recursivas se aplican de modo natural a problemas de series de tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo) el tamaño de muestra. Consideremos el modelo y t=x tt y la siguiente regresión auxiliar: y t=t−1 x tt (5.16) donde t es el estimador del parámetro obtenido mediante una regresión hecha con una muestra de datos { y i , x i}i=k1 i=t−1 . La técnica consiste en hacer un conjunto de regresiones auxiliares incrementando el tamaño de muestra desde i=k1 hasta T , donde k es el rango de x. Note que k1 es la primera regresión que es posible hacer. 12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir problemas de especificación aún cuando los criterios tradicionales (R², correlación residual, y tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander (1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of Macroeconomics, 6:347-356.) 13 La lógica de incluir potencias es directa. Suponga que el modelo es logarítmico (p.e., y=x z ). Una expansión de Taylor para linealizarlo exigiría términos de segundo orden al menos. Su omisión –como sucede en el modelo original– implica que el residuo tiene precisamente esa estructura. 5.10 Existen dos posibles variables aleatorias de interés que se obtienen del conjunto de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para ambos hay distintos tests. Tests de residuos recursivos. Hay dos tests clásicos de residuos recursivos: CUSUM y CUSUM-Q. Consideremos primero la varianza predicha del error de predicción de (5.16): t 2= 2 1x t ' x t−1 ' x t−1−1 x t (5.17) y ahora computamos recursivamente la variable aleatoria wt tal que w r= r 1x r ' x r−1 ' x r−1−1 x r (5.18) El test CUSUM computa W r= 1 ∑r=k1 r=t w r donde es la varianza estimada de w r . Bajo la hipótesis nula W r tiene media cero y su varianza es aproximadamente igual a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d. estandarizada). Por ello el intervalo de confianza se obtiene de las rectas [k ,a ±T−k ½ ] y [k ,3 a±T−k ½ ] y se fija a para niveles de significancia de 95% o 99%. Un ejemplo se ve en la Figura 5.2. Figura 5.2 Test CUSUM El test CUSUM-Q, por otro lado, utiliza una variación del test anterior pues estudia el estadígrafo: -30 -20 -10 0 10 20 30 80 82 84 86 88 90 92 94 96 98 CUSUM 5% Signif icance 5.11 S r= ∑ r=k1 r=t w r 2 ∑ r=k1 r=T w r 2 (5.19) donde la diferencia entre el numerador y denominador está en la extensión de las sumas (t vs.T). Bajo la hipótesis nula, la esperanza del estimador es (aproximadamente) E[S r ]=t−k/ T−k y su varianza es una función compleja de (t-k) para la cual existen tablas (ver Figura 5.3). Un problema de los tests CUSUM es que su poder –es decir, la habilidad para rechazar la alternativa cuando ésta es falsa— no es monótono. En particular, éste puede depender del tamaño del quiebre, haciendo que su poder se vaya a cero si el quiebre es suficientemente grande. La razón es que la varianza de los errores se computa sin considerar que hay un quiebre. Además, es posible que el poder tampoco sea monótono cuando hay más de un quiebre en los datos.14 Figura 5.3 Test CUSUM-Q Finalmente, la estimación recursiva del modelo produce para cada iteración un valor del estimador de los parámetros –con su respectiva desviación estándar– que se puede utilizar como medida visual de la inestabilidad de una regresión y de la presencia de cambios de régimen. Como se ve en la Figura 5.4. 14 Ver P. Perron (2007) “Dealing with Structural Breaks”, Palgrave Handbook of Econometrics, Vol. 1: Econometric Theory, T.C. Mills and K. Patterson (eds) -0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 80 82 84 86 88 90 92 94 96 98 CUSUM of Squares 5% Significance 5.12 Figura 5.4 Estimación recursiva de los estimadores de los parámetros Test de Predicción (One Step Ahead Forecast Error Test) Si uno considera la ecuación (5.16) notará que los residuos recursivos corresponden al error de predicción un periodo fuera de muestra. Es posible, entonces, testear si la distancia entre la predicción y el valor verdadero está dentro de un intervalo de confianza definido (p.e., 95%). Una descripción gráfica de este test es presentada en la siguiente figura. Se observan en azul los residuos recursivos, con su desviación estándar (escala derecha). En la escala izquierda se identifican aquellos errores que están entre 5%, 10% y 15% fuera de rango Figura 5.5 Predicción un paso adelante .00 .05 .10 .15 -.4 -.2 .0 .2 .4 80 82 84 86 88 90 92 94 96 98 Probabilidad Un-Paso Adelante Residuos Recursivos 5.13 Tests para quiebres múltiple Hemos visto qué hacer cuando se desconoce la ubicación del quiebre y cómo puede ayudarnos los tests recursivos. Otra preocupación legítima es determinar si existe uno o más quiebres y su ubicación. La literatura sobre quiebres sucesivos es relativamente reciente y tiene relación con modelos de parámetros cambiantes (en el sentido que los parámetros van cambiando en el tiempo y t=t x tt ) y/o con problemas de no estacionariedad (es decir, cuando la media u otros momentos de la distribución conjunta de los datos cambian con cada nueva observación). Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test óptimos para el casoen que haya un quiebre pero que en el caso de múltiples quiebres son poco prácticos pues exigen computar todas las posibles particiones de una muestra de tamaño T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso secuencial. En primer lugar, se computa el valor del máximo test de Wald para un cambio estructural, suponiendo que sólo existe un quiebre. Luego se toma la sub- partición más grande de los datos y se vuelve a realizar el test de Wald para un único cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamaño mínimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribución de este test secuencial no es estándar pues las hipótesis está anidadas (es decir, el segundo test de Wald depende de haber hecho bien la inferencia del primer test de cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen tablas de valores críticos ad-hoc. 5.03 Problemas de Especificación III: Datos erróneos El análisis empírico frecuentemente se enfrenta a problemas con los datos en dos dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos problemas sucedan simultáneamente, pero para efectos pedagógicos los vamos a estudiar por separado. Datos Perdidos Supongamos que el modelo es del tipo y i=x ii . Obviamente, pueden haber datos perdidos en la variable de interés, y, o en los regresores, x. Ello puede suceder por varias razones. En primer lugar, porque no existen los datos para algún determinado período de tiempo o segmento de la muestra. Lo más común es que esto suceda porque los encargados de estadísticas no levantan los datos de base o porque las muestras se han perdido. Segundo, porque los datos existen pero están en distinta 15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. “Optimal change point tests for normal linear regression”. Journal of Econometrics 70: 9-38, 1996. 16 Bai, J. and P. Perron “Critical values for multiple structural change tests”. Econometrics Journal, 6:72-78, 2003. 5.14 frecuencia a la necesaria para hacer el análisis empírico (p.e., datos mensuales versus trimestrales). La literatura sobre datos perdidos es extensa pero puede sintetizarse en las siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los estimadores de mínimos cuadrados serán consistentes pero más ineficientes que en el caso que la muestra estuviese completa. La razón es, obviamente, que la muestra con datos perdidos contiene menos información. Segundo, si los datos no se han perdido de forma aleatoria pero sólo afectan a las variables de lado izquierdo, entonces no hay sesgo y sólo hay problemas de eficiencia. Este caso es llamado sesgo de selección exógeno. Tercero, si los datos no se han perdido de forma aleatoria pero sólo afectan a las variables de lado derecho, entonces hay sesgo de selección endógeno. En este caso, hay correlación entre regresor y residuo –por cuanto las observaciones disponibles están limitadas de forma no aleatoria— e, inevitablemente, hay sesgo en el estimador de mínimos cuadrados.17 La existencia de datos perdidos suele llevar a los econometristas despistados a intentar “soluciones” que, como se discute a continuación, no son efectivas. Para discutir estos métodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1: Cuadro 5.1 Problemas de disponibilidad de datos Datos existen yA xA Datos perdidos - xB Datos perdidos yC - Note que siempre podemos estimar el estimador en el subconjunto A. El punto es ver cómo usar los datos restantes. Estudiaremos primero el caso A+B, es decir cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo). Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de los regresores. 17 La solución a este tipo de sesgo de selección más popular es el estimador en dos etapas de Heckman. Éste consiste en hacer una regresión inicial tipo probit para dar cuenta de los determinantes de la selección de la muestra y, en una segunda etapa, se estima el modelo original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979. 5.15 Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algún método para hacer una predicción de y B y usar posteriormente el modelo econométrico completo para estimar , es decir usando [ yA yB , x Ax B ] . El quid del asunto radica en cómo predecir y B . Hay dos alternativas populares: • Alternativa popular 1. Rellene los datos faltantes con la media de y A . Es fácil demostrar que como resultado se produce sesgo en los parámetros. • Alternativa popular 2. Estime en el subgrupo A, prediga y B usando dicho estimador, y luego estime el modelo completo. Es directo demostrar que el procedimiento es inútil. Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una predicción de yC y usar el modelo completo para estimar , es decir usando [ yA yC ,x AxC ] . ¿Cómo predecir x C ? • Alternativa popular 1. Rellene los datos faltantes con la media de x A . Demuestre que este procedimiento es equivalente a eliminar los datos del segmento C. • Alternativa popular 2. Haga una regresión de x en y en el subgrupo A, estime un parámetro γ y prediga x C usando dicho estimador. Luego estime el modelo completo. Demuestre que este procedimiento viola el espíritu del análisis econométrico.18 Medina y Galván (2007)19 revisan nuevos procedimientos –desarrollados durante las últimas décadas— que tienen mejores propiedades estadísticas que las opciones tradicionales, tales como la eliminación de datos, el pareo de observaciones, el método de medias y el hot-deck. Ellos concluyen que los algoritmos de imputación de datos se pueden aplicar, pero que imputar información no debe entenderse como un fin en sí mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con cautela, y este trabajo concluye que no existe el método de imputación ideal. 18 Si usted encuentra deprimente las conclusiones de esta sección considere la célebre opinión de Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all. 19 Fernando Medina y Marco Galván, “Imputación de datos: teoría y práctica”, Serie Estudios Estadísticos y Prospectivos No 54, CEPAL. 5.16 Variables cercanas (proxies) Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera variable que no es observable o no está disponible. Usualmente el uso de variables cercanas puede ser entendido como la presencia de “variables medidas con error”. Puede haber proxies de la variable de interés o de los regresores, pero el efecto sobre el estimador de mínimos cuadrados ordinarios de los parámetros no es igual. Recordemos que el estimador mínimos cuadrados se derivan de: =x ' x −1 x ' (5.20) y del supuesto cov [x ,]=0 . Podemos reescribir la ecuación anterior como: −=[ x ' xn ] −1 [ x ' n ] (5.21) Hasta el momento se ha cumplido que plim [ − ]=Q xx x , pero la matriz de covarianzas se desvanece cuando n→∞. Veamos ahora qué sucede cuando se usan variables cercanas. Proxy para la variable de interés: Sea el modelo que nos gustaría estimar y *=x . Pero sólo disponemos de y *= y , donde es un shock aleatorio, con media cero y varianza 2 . Entonces el modelo estimable es y=x ε−μ=x ν , donde =− . Nóte que ν es una variable aleatoria con media cero y cuya covarianza con x también es cero. Luego se satisfacen todos los supuestos del modelo clásico y no hay problemasde sesgo en los estimadores de mínimos cuadrados. Obviamente, la varianza del estimador de los residuos está sesgada --siendo más grande— porque incluye tanto la varianza de como la de . Sin embargo, ese sesgo no es posible corregirlo sin conocer 2 . Proxy de los regresores: Sea el modelo que nos gustaría estimar y=x∗ . Pero sólo disponemos de x=x∗ , donde es un shock aleatorio con media cero y varianza 2 . Ahora el modelo es y=x −=x donde =− . El problema radica en que hay correlación entre regresor y residuo porque cov [x ,]=cov [x∗ ,−]=− 2 . El estimador de mínimos cuadrados es: 5.17 = 1 /n∑ i=1 n x i yi 1 /n∑ i=1 n x i 2 (5.22) veamos el plim: plim = plim 1 /n∑ i=1 n x i *x i * plim 1/n∑ i=1 n x i *2 (5.23) y como x*, , y son independientes entre sí, se obtiene: plim = Q* Q* 2 (5.24) con Q *= plim 1/n x * ' x * . Podemos reescribir (5.24) como: plim = 1 2 Q* (5.25) por lo tanto, si hay incertidumbre ( 2≠0 ), el estimador de mínimos cuadrados ordinarios del parámetro es inconsistente y sesgado hacia cero. A mayor error de medida, más fuerte este efecto de atenuación. 5.18 Datos influyentes y extremos (outliers) En el análisis empírico es usual encontrar valores tanto para la variable de interés como sus determinantes que “no parecen formar parte del experimento en cuestión” (también llamados outliers).20 Se entiende por “datos influyentes” aquellos que de ser incluidos o excluidos de la muestra producen grandes variaciones en la estimación, sea en los estimadores de los parámetros o en los estadísticos asociados (p.e., bondad de ajuste). La influencia de estas observaciones se debe tanto a la naturaleza del estimador de mínimos cuadrados como al tamaño de la muestra usada para obtener el estimador. En primer lugar, el estimador de mínimos cuadrados se obtiene al minimizar la suma de residuos al cuadrado, por lo que las observaciones más alejadas del promedio de los datos reciben más valoración. Eso puede hacer que el estimador sea sensible a valores extremos. En segundo lugar, el tamaño de muestra determina el impacto de valores extremos, pues este problema será más agudo mientras más pequeña sea la muestra. Obviamente, en una muestra grande el efecto de un valor extremo es contrapesado por más observaciones y, por lo tanto, tiene menos efectos sobre el estimador. En la literatura se distingue entre valores extremos (outliers) y valores influyentes. Valores extremos se refieren usualmente a valores de y que se desvían mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se desvían de la media muestral y que, por lo tanto influyen mucho en la estimación. En la figura 5.6 se presentan ambos tipos de valores para el caso del modelo más simple, y i=x ii . Figura 5.6 Valores influyentes y extremos 20 Esta es la definición clásica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman and Hall, London. y x 5.19 Frecuentemente los valores extremos e influyentes se producen por errores al ingresar los datos de la muestra: por ejemplo, es común que sucedan porque se invirtieron dígitos (601 en vez de 106) o porque una coma está mal puesta (12,5 en vez de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos cuidadosamente. Existe un centenar de algoritmos de detección de valores influyentes que se basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.) y en definir un intervalo de confianza para determinar si un dato es un valor extremo o no lo es (p.e., 90% o 95%).21 Una manera de detectar valores extremos es estudiar los residuos: si el valor predicho se desvía del efectivo de manera notoria se puede tratar de un valor extremo. No obstante, esta no es una manera que garantice la detección. La razón es que el residuo se mide con respecto a la recta de regresión la que podría variar si se incluye o excluye el valor extremo. Usualmente se estudian los residuos estandarizados –es decir, los residuos divididos por su desviación estándar— de modo de normalizar su tamaño. Otra forma es estudiar la “incidencia” de cada dato en el estimador. Recordemos que en el estimador de mínimos cuadrados cada observación de y es ponderada por H=x x ' x −1x ' . Si se estudia la diagonal de H, es decir los valores de hii, es relativamente directo ver la influencia de cada observación en la estimación. Valores con mucha incidencia suelen señalar la presencia de valores influyentes o extremos. Además esto pone de manifiesto el hecho que valores más alejados de la media de los regresores tiende a darles más influencia. Cuando la muestra es pequeña, tanto la media como la desviación estándar muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es por ello que en ese caso se usan tests de detección de datos influyentes basados en la mediana y su desviación estadística, porque éstas no son sensibles a los valores extremos. El más conocido de estos tests para muestra pequeña es el de Dixon (1950) 22 que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar los datos de menor a mayor y computar el siguiente estadígrafo para cada observación x n : TN7= xn−xn−1 x n− x1 (5.26) El valor de TN7 computado se compara con los valores críticos particulares para tamaños de muestras que van desde 3 observaciones en adelante.23 Si el valor obtenido 21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester. 22 Dixon, W.J. (1950): “Analysis of extreme values”, Annals of Mathematical Statistics, 21(4):488– 506. 23 S. Verma y A. Quiroz-Ruiz, “Critical values for six Dixon tests for outliers in normal samples 5.20 es mayor que el valor de tablas se rechaza la hipótesis nula que la observación n-ésima no es un valor extremo. El estadígrafo TN7 reconoce que en una muestra pequeña resulta mucho más difícil determinar si una observación es un valor extremo porque no hay suficiente información. 5.04 Problemas de Especificación IV: Colinealidad El problema de colinealidad (también llamado multicolinealidad) consiste en que los regresores no son independientes entre sí. Cuando se impuso el supuesto de identificación, es decir que x ’ x −1 fuese positiva definida, no se eliminó el problema que los regresores estén correlacionados imperfectamente.24 Consideremos el siguiente modelo: y i=1 x i 12 x i 23 x i 3i (5.27) pero supongamos que los regresores están correlacionados de acuerdo a la siguiente relación: x i 3=1 x i 12 x i 2i (5.28) Introduciendo (5.28) en (5.27) resulta obvio que: y i=113 x i 1223x i 2t3 i (5.29) Hay dos interpretaciones interesantes de la ecuación anterior. Primero, se puede estimar j j pero no podemos “identificar” j . Segundo, el efecto “marginal” de xk sobre y tiene dos componentes: uno directo ( j ) y otro que se filtra indirectamente a través de xj ( k j ). Note, además, que la varianza del error ( 3 ) tiene una estructura particular. El efecto que tiene la colinealidad sobre el estimador mínimos cuadrados es algo sorprendente. Tomando el estimador up to sizes 100, and applications in science and engineering” Revista Mexicana de Ciencias Geológicas, 23(2):133-161, 2006. 24 Otra razón para que x ’ x −1 no exista es que el rango de x sea mayor que el rango de x’. 5.21 E [ ]=E [x ' x −1 x ' y ] =E[x ' x −1 x i ' x ] =E [x ' x −1 x ' ] (5.30) Por lo tanto, en tanto la matriz de momentos de los regresores exista,el estimador sigue siendo insesgado. Ello porque independientemente de si los regresores son estocásticos o no, la correlación entre regresor y error en valor esperado es cero lo que implica que E[ ]= . Si los parámetros no son sesgados, ¿dónde está el efecto de la colinealidad? Debido a que el problema es que cov x1, x 2 ≠ 0 , entonces tiene que afectar la matriz de momentos de los regresores, x ' x . Veamos cómo la afecta con algunos ejemplos prácticos. Recordemos que la inversa de x ' x es su adjunta dividida por el determinante, es decir: =[a 11 a 12a 21 a 22] entonces −1= 1a11 a 22−a 12a 21 [ a 22 −a 12−a 21 a11 ] (5.31) Supongamos =[1 00 1]⇒−1=11 [1 00 1] (5.32) y ahora consideremos casos donde la covarianza entre las variables no es cero: =[ 1 0.60.6 1 ]⇒−1= 10.64 [ 1 −0.6−0.6 1 ] (5.33) =[ 1 0.90.9 1 ]⇒−1= 10.19 [ 1 −0.9−0.9 1 ] (5.34) Resulta evidente cómo se va reduciendo el determinante de la inversa. Entonces, dado que V =2 x i ' x i −1 , la presencia de colinealidad se traduce en varianzas de los estimadores de los parámetros cada vez más grandes. En el límite la varianza tiende a infinito. 5.22 Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos precisar el valor de los parámetros (varianza infinita). En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y cómo éstas correlacionan muchas variables económicas). Por ello, siempre habrá algún grado de colinealidad. Otro síntoma de la colinealidad es que los estimadores de los parámetros se vuelven inestables (poco robustos). La inestabilidad se produce porque la estimación punto de los parámetros bajo alta colinealidad depende de la conformación de la muestra. Si sacamos un(os) dato(s) de la muestra, la estimación de los parámetros suele cambiar fuertemente. ¿Como detectamos la presencia de colinealidad? Podríamos estudiar la correlación de los regresores antes de estimar el modelo. Esta práctica es esencial en cualquier modelación econométrica, pues aparte de detectar posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un problema práctico, no obstante, es que no es muy claro cuándo hay alta colinealidad entre dos o más variables. Naturalmente una correlación de 99% es alta y una de 5% es baja, pero para una correlación de 57% no es clara la conclusión. Otra alternativa es investigar si los estimadores de los parámetros son inestables. Si bien esto es correcto, existen otros problemas –que veremos más adelante– que también producen inestabilidad. Por ello, este test no es conclusivo. Una tercera alternativa frecuente es que, si bien los parámetros no son significativos por la alta varianza, como un todo la regresión es satisfactoria. Ello se traduciría en el caso “ R 2 alto pero no significativos”. Hay que reconocer, sin embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo satisfactorio tendría el mismo síntoma. ¿Qué solución tiene la colinealidad? En estricto rigor, no existe ninguna solución. La colinealidad no es un problema. Es una característica de las variables aleatorias utilizadas en el modelo. Es decir, una característica del problema económico. 5.23 En ocasiones, la teoría económica permite imponer restricciones que evitan el problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el PIB, que denominamos Y: logY=1 logKF 2 log KH 3 log KF 1/ 2 2 4 logKH 1/2 2 5 log KF logKH donde KF es el capital físico y KH es el capital humano. Usted sospecha que hay colinealidad entre ambos tipos de capital. Si es válido imponer la restricción de retornos constantes de escala ( 1=1−2 y 3=4=5=−1 ) entonces es posible reducir el problema de colinealidad. Esto, sin embargo, no es lo usual. No obstante, algunos textos tradicionales suelen presentar pseudo soluciones empíricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su inaplicabilidad y (b) porque existen otros usos para estas técnicas que se utilizan a menudo. 1. Elimine alguna variable para la que haya evidencia de colinealidad con otras. En el modelo y i=1 x i 12 x i 23 x i 3i entonces se podría eliminar, digamos, x 3 . El resultado es: y i=1 x i 12 x i 23 x i 3i =1x i 12 x i 2i (5.35) Obviamente, el problema de colinealidad se reduce.25 Sin embargo, tenemos un problema grave. Ahora cov x1 , y cov x 2 , no son cero. Por ello, los estimadores están sesgados, no se conoce el tamaño o la dirección del sesgo, y las varianzas de los estimadores pueden estar sobre-estimadas. 2. El método de “ridge”. Esta técnica se basa en la observación que los parámetros son difíciles de identificar porque las varianzas de los parámetros son relativamente pequeñas en comparación con las covarianzas. Las varianzas están en la diagonal de 2 x ’ x −1 . Por ello, este estimador sugiere sumarle “algo” a dicha diagonal, de modo que los parámetros sean identificables. El estimador de “ridge” es: RD=[x i ' x irD ] −1x i ' y i (5.36) donde r es un escalar pequeño (p.e., 0.01) y D una matriz diagonal. Obviamente, ahora las varianzas de los parámetros estimados van a ser menores. 25 ¿por qué sólo se reduce y no se elimina? 5.24 Var RD= 2 [x i ' x irD ] −1 (5.37) Pero este “beneficio” se obtiene a costa de: E[ RD ]=E [x i ' x irD ]−1x i ' y i =E [ x i ' x irD ]−1 x i ' x i ≠ (5.38) Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables pertinentes omitidas producen parámetros sesgados, y (b) es posible tener estimadores sesgados más eficientes que un estimador insesgado. 3. Método de componentes principales. Otra propuesta de solución de colinealidad consiste en extraer de la matriz x ' x los componentes principales de ésta. Si el problema de las x es que no hay independencia lineal, ¿por qué no seleccionamos aquellos x que son “más independientes”? Así, mejoraría la estimación del modelo, pues el subconjunto de x seleccionado representaría bien a todas las variables del modelo. La pregunta es equivalente a ¿cuál combinación lineal de las x es la que tiene el mejor ajuste a todas las x? Esa será la mejor “representante”. Sea la combinación lineal z 1=x a 1 . Entonces, z 1 ' z 1=a1 ' x ' x a1 . Buscamos a 1 tal que maximicemos z 1 ' z 1 (piénselo como matriz de información). Obviamente, si no restringimos a 1 es posible que [z 1 ʹ z 1 ]→∞ . Por ello, optimizamos restringiendo a que a 1 ʹ a 1=1 (a esto se le llama normalizar). Usando la técnica de Lagrange: max a1=a1 ' x ' x a1−1 a 1 ' a1−1 (5.39) derivando obtenemos la siguiente condición de primer orden: ∂ ∂a 1 =2x ' xa 1−21a 1=0 (5.40) es decir: x ' x a1−1a 1=0 (5.41) 5.25 por lo tanto, a 1 es un vector característico. Recuerde, a 1 es el vector característico asociado a λ1 la raíz característica. ¿Cuál vector característico? Aquel asociado a la raíz característica más grande de x ' x . Así, hemos escogido el primer componente principal. Ahora, escogemos el segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal a a 2 ( a 1 ' a 2=0 ) max a2=a 2 ' x ' x a 2−2 a 2 ' a 2−1−a 1 ' a 2 (5.42) Así, obtenemos la siguiente condición de primer orden del problema restringido ∂ ∂a 2 =2x ' xa 2−22 a 2−a 1=0 (5.43) entonces, premultiplicamos por a 1 ' 2 a 1 ' x ' x a 2−22 a1 ' a 2− a1 ' a 1=0 (5.44) pero a 1 ' a 2=0 y a 1 ' a1=1 . Por ello, =0 . Se deduce entonces que x ' x a2=2a2 , es decir a 2 es el segundo vector característico (correspondiente a la segunda raíz característica, 2 ). Podemos hacer esto k veces, obteniendo a k soluciones. Si lo hiciéramos k veces, obtendríamos una representación exactamente equivalente a la matriz original x ' x . Juntamos los resultados en la matriz A=[a 1 ,a 2 , ... , a k] que describe los ponderadores de los “componentes principales” de x ' x , tal que Z=xA son los Z componentes principales. Note que: Z ' Z=A ' x ' xA==[1 0 ⋯ 00 2 ⋯ 0⋮ ⋮ ⋱ ⋮⋯ 0 ⋯ k] (5.45) Además, si el rango de x es rk habrá k−r valores propios iguales a cero.26 26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadígrafo toma un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley, “Demeaning conditioning diagnostics through centering (with discussion)”, The American Statistician, 38:73-93. 5.26 Finalmente, el estimador de componentes principales será: cp=[Z ' Z ] −1Z ' y (5.46) pero Z ' y=A' x ' y=A' x ' [x]=A ' x ' x=A' x ' x . Entonces, se desprende que cp=A −1 de donde se deduce que: • el estimador de componentes principales es una combinación lineal de los verdaderos parámetros. • que el estimador de componentes principales es sesgado. • la varianza del estimador cp es menor que la de mco . Habitualmente, se calculan los componentes sobre variables originales estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los componentes principales, no de la matriz de covarianzas sino de la matriz de correlaciones (en las variables estandarizadas coinciden las covarianzas y las correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a todas las variables originales. En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las variables originales están tipificadas, esto implica que su matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la traza) es igual al número total de variables que hay en la muestra. La suma total de todos los autovalores es p y la proporción de varianza recogida por el autovector j -ésimo (componente) es λj/p. El uso del estimador tiene serios problemas. Primero, los estimadores son sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/σ²), pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos (origen y escala).27 Segundo, la selección de los componentes principales se hace en función de x y no de y, lo que sería preferible. Tercero, la interpretación de los parámetros es muy difícil, pues no serán los coeficientes asociados a las variables sino aquéllos asociados a una combinación lineal de las variables. Note que nuevamente encontramos que (1) modelos con variables pertinentes omitidas producen parámetros sesgados, y (2) es posible tener estimadores sesgados más eficientes que un estimador insesgado. 27 Maddala (1977) propone otras “soluciones” para colinealidad. Entre ellas (a) usar información a-priori, (b) transformar las variables (logs o razones) y (c) usar más datos. Estudiar y evaluar si éstas son útiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors. 5.27 5.05 Modelos de Varianza No Constante Esta es una familia con dos ramas principales de modelos: heterocedasticidad y correlación de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y luego el de correlación de residuos (el contexto más usual es series de tiempo, pero existe una incipiente literatura en correlación espacial). Es común, sobre todo en muestras de corte transversal, que los datos tengan heterocedasticidad, es decir, que los residuos (innovaciones) provengan de distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es común observar correlación residual, es decir que la observación de un residuo en un determinado instante de tiempo contenga información útil para predecir el error en otro instante de tiempo. Naturalmente, en algún caso particular se puede enfrentar simultáneamente la presencia de heterocedasticidad y correlación residual. Desde un punto de vista pedagógico conviene tratar ambos problemas por separado. En el caso en que la varianza de los errores no sea residual, el modelo general se escribe de la siguiente manera: y i=x i i E[i ]=0 E[i i ' ]= 2 (5.47) donde Ω es una matriz definida positiva. Obviamente, cuando Ω=I, volvemos al caso de mínimos cuadrados ordinarios. Por ello, el modelo descrito en (5.47) es llamado modelo de regresión generalizado. Gráficamente, el problema de heterocedasticidad se ve de la siguiente manera: Figura 5.7 Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas de los errores es del tipo: 5.28 2=[ 1 2 0 0 ⋯ 0 0 2 2 0 ⋯ 0 ⋮ ⋮ ⋱ ⋮ ⋮ 0 0 ⋯ 0 n 2] (5.48) en cambio cuando hablamos sólo de correlación residual nos referimos a: 2=[ 1 1 2 ⋯ n−11 1 1 ⋯ n−2⋮ ⋮ ⋱ ⋮ ⋮n−1 n−2 ⋯ 1 1 ] (5.49) donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes. Nuevamente, estas separación es sólo para efectos pedagógicos, pues en la práctica no es infrecuente encontrar ambos problemas. 5.06 Heterocedasticidad ¿Cual es el efecto de la heterocedasticidad sobre un estimador mínimos cuadrados? Recordemos que el estimador mínimos cuadrados se puede escribir como =x ' x −1 x ' y=x ' x −1 x ' (5.50) y es el mejor estimador lineal insesgado, distribuyéndose asintóticamente normal. Más aún, si el residuo es normal, el estimador es eficiente. Propiedades de muestra pequeña Tomando esperanza en (5.50) obtenemos E[ ]=Ex [E [ | x ]]= , es decir el estimador sigue siendo insesgado. Esto es razonable porque el problema de 5.29 heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los errores. Tomemos la varianza del estimador para el caso que x es no estocástico: Var [ |x ]=E [ − −' |x ] =E [x ' x −1 x ' ' x x ' x −1 |x ] =x ' x −1 x ' E [ ' ] x x ' x −1 =x ' x −1 x ' [2] x x ' x −1 (5.51) lo que podemos escribir como: Var [ |x ]= 2 n 1n x ' x −1 1n x 'x1n x ' x −1 (5.52) • Si x es estocástico, la varianza no condicional es Ex [Var |x ] . • Si se distribuye Normal, entonces ↝N [ ,2 x ' x −1 x 'x x ' x −1] . Entonces, lo único que cambia es la varianza del estimador que ahora no es 2 x ' x −1 , por lo que las inferencias basadas en esta última están sesgadas. Por otro lado, el estimador de σ² no tiene por qué haber retenido sus propiedades. Usualmente, no podemos saber si 2 x ' x −1 es mayor o menor que (5.52), por lo que los test t o F resultan inadecuados. Propiedades de muestra grande Retomemos la ecuación (5.52). Resulta evidente que: • si los regresores se comportan bien, los términos 1 /n x ' x convergerán a Q. • el término σ²/n converge a 0. • el término 1 /n x 'x no tiene por qué converger. Se puede demostrar que si los regresores cumplen las condiciones de Grenander, 1 /n x 'x converge. Ello sucede en casos de heterocedasticidad pero no necesariamente cuando hay correlación de residuos. En este último caso, el estimador es inconsistente. 5.30 Finalmente, el estimador es asintóticamente normal porque las mismas condiciones de Grenander que impusimos para que n − =[1n x ' x] −1 [ 1n x ' ] (5.53) se distribuya asintóticamente normal, se cumplen aún si hay heterocedasticidad. También, se aplica el teorema de límite central. La varianza asintótica del estimador será: V.A. = 2 n Q −1 plim 1n x 'x Q−1 (5.54) En resumen, la heterocedasticidad no afecta la estimación punto de los parámetros porque éstos no dependen de la varianza de la distribución. Pero, obviamente afecta la varianza del estimador. Recordemos que: Var [ |x ]=x ' x −1 x ' [ 2]x x ' x −1 (5.55) Cuando hay homocedasticidad, E[i i ' ]= 2 I , por lo que el problema se reduce a tener un estimador de 2 . Por el contrario, el problema que presenta la existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia respecto de la estructura de ésta, es decir, respecto de E[i i ' ] . Vamos a realizar un truco que es estándar en la literatura econométrica: derivamos el estimador óptimo y sus propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qué sucede si esta última suposición no es correcta. El primer estimador es llamado el estimador eficiente, en tanto que el segundo es llamado estimador posible. Estimación eficiente Si tuviésemos E[i i ' ] podríamos resolver el problema. Pensemos que, en ese caso, podríamos usar directamente el estimador de la varianza: Var OLS =x ' x −1 x ' E [ ' ]x x ' x −1 (5.56) 5.31 Basados en la idea que una matriz positiva y definida puede ser factorizada, vamos a hacer una factorización conveniente. Tomemos una matriz T(n×n) y premultipliquemos el modelo, tal que Ty i=Tx i T i (5.57) Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener: E[T ' T ' ]= 2T 'T (5.58) Ahora, si T 'T=I habríamos solucionado el problema de heterocedasticidad, pues podemos estimar el modelo (5.57) por mínimos cuadrados ordinarios ya que los errores serían homocedásticos y recuperar los estimadores de los parámetros del modelo original. Queremos, entonces, encontrar T tal que −1=T ' T para ponderar el modelo. El estimador de mínimos cuadrados ponderados –también llamado estimador de Aitken28– sería: GLS=x i ' T ' T x i −1x i ' T ' T y i pero T ' T= −1 =x i ' −1 x i −1x i ' −1 y i (5.59) Nóte que este estimador es más general de lo que parece. Ciertamente, cualquier forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la matriz de covarianza de los errores sea diagonal del tipo 2 . Nuevamente, note que el estimador de mínimos cuadrados ordinarios es un caso particular de mínimos cuadrados generalizados, aquel donde T=I. Estimación Posible ¿Qué sucede cuando es desconocida? En algunas ocasiones, un reducido número de parámetros, θ, es capaz de describir el patrón de heterocedasticidad. Por ejemplo, i 2= 2 f z i ; entonces, podríamos usar = , es decir, el estimador de basado en el estimador de θ. Esto parece lógico: si plim = entonces → . En realidad, no es siempre así. Sea FGLS=x i ' −1 x i −1 x i ' −1 y i el estimador de mínimos cuadrados 28 A. Aitken (1935), “On least squares and linear combinations of observations”, Proceedings of the Royal Statistical Society, 55:42-48. 5.32 generalizados posible. ¿Cuándo son asintóticamente equivalentes FGLS y GLS ? Las condiciones son: plim[1n x ' −1x−1n x '−1 x ]=0 plim[ 1 n x ' −1− 1n x '−1]=0 (5.60) La primera condición dice que si la matriz de momentos ponderados converge a una matriz positiva definida, la matriz de momentos ponderados posibles debe converger a la misma matriz. Esto, en realidad, es un supuesto. La segunda condición dice que si los regresores transformados están bien comportados, la suma (y por consiguiente el estimador) se distribuirá asintóticamente igual a la verdadera suma y estimador (no necesariamente, pero típicamente, normal). Lo interesante es que no se necesita que el estimador de θ sea eficiente, basta con que sea consistente para que el estimador de mínimos cuadrados generalizados posible sea eficiente. Para demostrar esto basta con plantear el estimador máximo-verosímil de los parámetros del modelo generalizado y demostrar que es equivalente al de mínimos cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar o . Tests de Heterocedasticidad Una buena razón para estudiar tests de heterocedasticidad es, naturalmente, la detección del problema y su eventual corrección. Una razón más sutil, sin embargo, es que cada tipo de test nos enseña de manera simple y valiosa una forma particular que puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cuáles contextos una u otra forma de heterocedasticidad puede estar presente. 1. Tests en muestras repetidas Este es el test más simple de heterocedasticidad y se aplica cuando se tienen varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicación habrá ni observaciones de distribuciones con varianzas potencialmente diferentes. La lógica de operación es la siguiente: • Estime el modelo y i=x i i y compute i 2 para cada muestra i=1, ..., m. • Estime el modelo y i=x i i y compute * 2 con todos los datos. 5.33 El test es directo sobre la hipótesis nula que la varianza de los grupos no difiere de aquella de la muestra completa, ajustando por tamaños relativos Homocedasticidad ≡H 0 :n−m ln * 2−∑ j=1 m n j−1 ln i 2=0 Heterocedasticidad ≡H 1 : n−m ln * 2−∑ j=1 m n j−1 ln i 2≠ 0 (5.61) El test es, directamente, un test de razones de verosimilitud −2[n−m ln *2−∑j=1 m n j−1 ln i 2]↝ 2 m−1 (5.62) Debido a que los estimadores de las varianzas por muestra y totales son formas cuadráticas de errores normalizados, el test se distribuye χ²(m-1). Los grados de libertad se derivan del número de varianzas libres (m) menos la restricción de una única varianza común. 2. Test de Breusch y Pagan29 Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible disponer de varias realizaciones de la variable aleatoria 2 . Una vez estimado el modelo y i=x i i , lo que se hace es: • Computar g i=i 2 / 2 • Hacer una regresión entre gi y las variables que quiera, incluyendo x, y computar la suma de cuadrados explicados, SCE. El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una regresión puede “explicar” la proxy de heterocedasticidad, entonces hay heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante debiese ser estadísticamente significativa. Por ello, H 0 : Homocedasticidad ≡SCE=0 H 1 : Heterocedasticidad ≡SCE≠ 0 (5.64) 29 Breusch, T and A. Pagan (1979), “A simple test of heteroskedasticity and random coefficient variation”, Econometrica 47:1287–1294. 5.34 Debido a que los estimadores de las varianzas por muestra y totales son formas cuadráticas de errores normalizados, ½SCE se distribuye χ²(p-1) bajo la hipótesis nula. Los grados de libertad se derivan del rango de regresores, p, en la segunda regresión. 3. Test de Goldfeld y Quandt30 Este test aprovecha información extra-muestral para estudiar problemas de heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el procedimiento es: • Ordene la muestra de mayor a menor segun xk. • Remueva c datos del centro de la muestra. • Haga la regresión del modelo y i=x i i en cada grupo y compute la suma de cuadrados residuales, SRC. El test consiste en estudiar la diferencia entre las SRC. Si éstas son iguales, significa que no hay heterocedasticidad. Por ello, H 0 : Homocedasticidad ≡SRC 1=SRC 2 H 1 : Heterocedasticidad≡SRC 1≠SRC 2 (5.65) Como estamos comparando dos sumas de residuos normales al cuadrado y hay el mismo número de regresores y datos en cada sub-grupo, entonces el test es SCR 1 SCR 2 ↝ F [n−c /2−kn−c /2−k] . 4. Test de White31 El test de White utiliza una lógica similar a la del test de Breusch y Pagan en el sentido de hacer una regresión entre la proxy de la varianza de los errores y el grupo de regresores de la regresión original, x, pero lo extiende para incluir sus cuadrados y productos cruzados. Es decir, • Computar i= y i−− x i • Hacer una regresión entre i 2 y las variables x i , x i 2 y los productos cruzados x i x j . Es decir, 30 S. M. Goldfeld and R. E. Quandt (1965), “Some tests for homoskedasticity”, Journal of the American Statistical Association, 60:539–547. 31 White, H. (1980), “A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroscedasticity”. Econometrica, 48:817-838. 5.35 i 2=x i x i 2x i x j 'i (5.66) La hipótesis nula es que en un caso de homocedasticidad ninguno de los coeficientes, mas allá de la constante, debe ser significativo. El test preferido de White es un multiplicador de Lagrange hecho sobre la hipótesis nula que ninguna variable debiese ser significativa si el modelo es homocedástico. Aunque la distribución de muestra finita es desconocida, es posible demostrar que nR2 se distribuye asintóticamente χ2(p), donde p es el número de estimadores excepto la constante. Otra alternativa es hacer un test F estándar de variables omitidas. Note que este test es bastante general pues no se necesita hacer supuesto alguno sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin embargo, el test es potente solo asintóticamente lo que significa que tiene poca potencia en muestras pequeñas. Adicionalmente, el uso de muchos términos cruzados hace difícil el rechazo de la hipótesis nula y exacerba el problema de pocos grados de libertad. Matrices de Covarianzas Robustas Hay muchísimos tests de heterocedasticidad. Pero ¿realmente necesitamos estos tests? ¿necesitamos entender qué es lo que causa la heterocedasticidad? • Verdaderamente, no. Lo que queremos es 2 para poder hacer mínimos cuadrados generalizados. • En realidad, no. Lo que queremos es 2 , un estimador de 2 . • Tampoco, lo que queremos es un estimador de = 2 x 'x n • En realidad, lo que queremos no es todo sino sólo su diagonal. White (1980) demuestra que un buen estimador de = 2 x 'x n es S0= 1 n∑ i 2x i ' x i . Por ello, la “matriz de corrección de la varianza de los parámetros para el caso de heterocedasticidad” –también llamada “matriz de errores robustos”– es: Var =n x i ' x i −1 S0 x i ' x i −1 (5.67) Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es general. 5.36 Extensión de Newey y West Newey y West (1987) han extendido el estimador de White para el caso en que la matriz Ω no es diagonal. El estimador es: Q=S0 1 n∑j=1 J ∑ i= j1 n j J1 t t− j x t ' x t− jx t− j ' x t (5.68) donde j/(J+1) es una corrección no paramétrica por tamaño de muestra. Modelos de heterocedasticidad condicional Generalmente estamos interesados en modelar la media condicional de una variable serie. No obstante, recientemente se ha hecho común modelar la varianza de la serie, pues ella puede reflejar comportamientos que son característicos de algunos problemas económicos tales como los precios de activos, variables financieras, riesgo, etc. Los modelos de heterocedasticidad condicional son modelos donde la varianza de la serie no es constante, aunque sigue un proceso estacionario. Un modelo típico de esta familia es el modelo ARCH32: y t=x tt t=t 01 t−1 2 1/2 (5.69) con normal estándar. Como resulta obvio, E[t |t−1 ]=0 y E[t ]=0 . Así es que el modelo sigue describiendo la media condicional de y t . Ahora, la varianza condicional, V [t |t−1 ] , es V [t |t−1 ]=E [t 2 |t−1] =E [t 2 ][01t−1 2 ] =[01t−1 2 ] (5.70) Pero la varianza no condicional, V [t ] , es 32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of U.K. Inflation," Econometrica, 50:987-1008. 5.37 V [t ]=E [V t |t−1] =01E [t−1 2 ] =01V [t−1 2 ] (5.71) Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo, entonces V [t ]=V [t−1 ] , por lo que la ecuación (5.71) implica V [t ]= 0 1−1 (5.72) ¿Cómo se ve un proceso de este tipo? Gráficamente: Figura 5.8 Proceso ARCH y su varianza Es decir, la serie presenta segmentos de comportamiento disímil. El proceso alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de shocks grandes, y otros de relativa estabilidad, donde shocks pequeños siguen a shocks pequeños. Resulta natural preguntarse qué modelo económico puede producir este tipo de comportamiento. Un ejemplo típico son las guerras de precios en mercados donde hay colusión. Mientras la disciplina del cartel se mantiene hay sólo pequeñas desviaciones 5.38 del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en la medida que todos los productores compiten por una mayor participación del mercado. El modelo ARCH puede ser extendido para incorporar términos tipo media móvil en la varianza predicha. En ese caso se llama GARCH (por generalizado)33 y se modela: y t=x tt t 2=01t−1 2 2t−1 2 (5.73) También se puede extender para incluir regresores, z t en la varianza, de modo que el modelo queda: y t=x tt t 2=01t−1 2 2t−1 2 3z t (5.74) Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en finanzas.34 y t=x tt 2t t 2=01t−1 2 2t−1 2 (5.75) ¿Cómo sabemos que el modelo es del tipo GARCH? Una manera simple es estimar el modelo de la media condicional, luego obtener los residuos, computar los residuos al cuadrado (estimador de la varianza) y computar la función de autocorrelación. Si ésta no muere súbito en t=1, hay heterocedasticidad condicional. Es posible, además, hacer tests de especificación para saber si el modelo correcto es GARCH(p,q) o GARCH(0,q). El problema está en que ese tipo de test no permite discernir entre esa hipótesis y esta hipótesis: GARCH(0,q) vs GARCH (0,p+q). ¿Cómo estimamos un modelo GARCH? El proceso de estimación es bastante no lineal. Lo que se hace es iterar en la función de verosimilitud hasta que ésta alcance un máximo. Ello supone que los errores son normales. 33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal of Econometrics, 31:307-327. 34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407. 5.39 log L=−12 log 2− 1 2 log t 2 − 1 2 y t−x t 2 t 2 (5.76) Donde t 2=c y t−1−x t−1 2t−1 2 (5.77) 5.07 Correlación de residuos Supongamos ahora que que E[i , j ]≠ 0 . En tal caso, la matriz de covarianza de residuos es: [11 12 ⋯ 1n 21 22 ⋯ 2n⋮ ⋮ ⋱ ⋮n1 n2 ⋯ nn ] (5.78) Aún si consideramos el problema de residuos son homocedásticos [ 2 12 ... 1n 21 2 ⋯ 2n ⋮ ⋮ ⋱ ⋮ n1 n2 ⋯ 2 ] (5.79) y simétrica, es decir, ij= ji resulta imposible de estimar (5.79) con una muestra finita. Hay más incógnitas que grados de libertad. Usualmente: • Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es estimable. • Si la forma de ij es parametrizable, es decir tiene una estructura (simple),es estimable. • Si es estimable, los parámetros estimados por mínimos cuadrados del modelo y t=x tt siguen siendo insesgados, excepto si las variables de lado derecho 5.40 contienen un rezago de la variable endógena. La demostración del primer caso es: =x t ' x t −1x t ' y t pero yt=x tt =x t ' x t −1x t ' [x tt ]=x t ' x t −1 x t ' t (5.80) y por lo tanto, E[ ]= . Supongamos que y t=x tt y t=t−1t donde t es ruido blanco. Entonces, V [ ]= 2 ∑ x t2 22 ∑ x t2 [∑ x t x t−1∑ x t2 2∑ x t x t−2∑ x t2 ...N−1∑ x1 xN∑ x t2 ] (5.81) por lo tanto, V [ ]=V [ OLS ] sólo si ρ=0 , es decir cuando no hay correlación. La varianza del estimador bajo autocorrelación podrá ser mayor o menor que la de mínimos cuadrados dependiendo del valor de . Si es positivo, se sobreestima la varianza. Si es negativo, no es claro el sesgo. La solución al problema es, naturalmente, usar mínimos cuadrados generalizados, pero esto sólo es posible si conocemos Ω. Lo que se hace, usualmente, es hacer tests estadísticos para determinar el tipo de correlación de los residuos, dentro de modelos relativamente simples en términos del número de parámetros. ¿Cómo sabemos si hay correlación residual? Un test bastante común es el de Durbin y Watson35, para el caso de errores con correlación de orden 1. Es decir, t= t−1t (correlación de orden 2 es t=1t−12t−2t ). El test es: d= ∑ i=2 T t−t−1 2 ∑ i=1 T t 2 (5.82) 35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I", Biometrika, Vol. 37, 1950, pp. 409-428. 5.41 La lógica es que: • si hay correlación positiva, t será “cercano” a t−1 y, por lo tanto, d será cercano a cero. • si hay correlación negativa t será “lejano” a t−1 y, por lo tanto, d será distinto de cero. Desarrollemos el cuadrado del numerador de la ecuación (5.82). ∑ i=2 T t−t−1 2=∑ i=2 T [t 2t−1 2 −2t t−1] (5.83) Sumando y restando convenientemente: ∑ i=2 T t−t−1 2=∑ i=1 T t 2−1 2∑ i=1 T t−1 2 −T 2−∑ i=2 T 2t t−1 (5.84) de vuelta en (5.82) d= ∑ i=1 T t 2−1 2∑ i=1 T t−1 2 −T 2−∑ i=2 T 2t t−1 ∑ i=1 T t 2 (5.85) es decir, d=1− 1 2 ∑ i=1 T t 2 ∑ i=1 T t−1 2 ∑ i=1 T t 2 − T 2 ∑ i=1 T t 2 − ∑ i=2 T 2 t t−1 ∑ i=1 T t 2 (5.86) Notemos que: • Si T es razonablemente grande, el segundo y cuarto términos serán cercanos a cero. • Igualmente, el tercer término será cercano a 1. • El último término es interesante, porque es 5.42 cov t ,t−1 var t−1 (5.87) es decir, es el estimador natural de mínimos cuadrados de . En resumen, podemos escribir d ≈ 2 1− . Volvamos al test de Durbin y Watson. Si d ≈ 2 1− , entonces tenemos los siguientes casos: • Si no hay correlación d = 2. • Si hay correlación positiva, 0 , d es menor que 2. En el límite, d es 0 cuando es 1. • Si hay correlación negativa, 0 , d es mayor que 2. En el límite, d es 4 cuando es -1. por lo tanto, d estará entre 0 y 4. La aplicación del test no es tan simple, porque hay tres casos que estudiar. En este caso habrá dos “tests” son: H 0 :No hay autocorrelación H 1 :Hay autocorrelación positiva H 0 :No hay autocorrelación H 1 :Hay autocorrelación negativa Como se ve, la hipótesis nula es siempre la misma pero la hipótesis alternativa es compleja. Otro problema es que usamos los residuos del mínimos cuadrados como estimadores de los residuos verdaderos, es decir, éstos dependen de x. Por ello, la distribución del test no es estándar y tiene distintos límites superiores e inferiores. Si hacemos un test de correlación positiva al 95%, entonces (1) si d está por encima del limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si d está por debajo del límite inferior tengo correlación positiva. 5.43 Figura 5.9 Si hacemos un test de correlación negativa al 95%, entonces (1) si d está por debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si d está por debajo del límite inferior tengo correlación positiva. Figura 5.10 El test completo de Durbin y Watson para autocorrelación es: Figura 5.11 2LI LS Inconcluso Positiva No hay o negativa 2 4-LI4-LS InconclusoPositiva o no hay Negativa 2 4-LI4-LS Inconcluso Negativa LSLI Positiva No hay correlación Inconcluso 5.44 El test de Durbin y Watson no se puede aplicar cuando hay variables del lado izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este estimador consiste en computar h=r n1−n 2 (5.88) donde r es el coeficiente de correlación del primer rezago, n es el tamaño de muestra y 2 es la varianza del estimador del rezago de la variable endógena. El estadígrafo h se distribuye normal estándar. Soluciones al problema de correlación de primer orden. Volvamos al modelo original. y t=x tt t=t−1t (5.89) Podemos multiplicar el modelo original por , rezagarlo un periodo y restarlo del original para obtener: y t− yt−1=x t−x t−1t−t−1 (5.90) es decir: y t= yt−1[x t− x t−1 ]t (5.91) • Note que ahora no hay problema con los errores. • Si conociéramos , podríamos transformar los datos y estimar con mínimos cuadrados. En realidad esto equivale a hacer mínimos cuadrados generalizados. ¿Lo conocemos? No. Pero tenemos una aproximación, d. Obtenemos d haciendo una regresión en los residuos originales de mínimos cuadrados y luego usamos =1−d /2 . 36 Durbin, J. “Testing for serial correlation in least squares when some of the regressors are lagged dependent variables” Econometrica, 38: 410-421. 5.45 Hay una estrategia estadísticamente mejor (Cochrane-Orcutt).37 1. Estimar el modelo original por mínimos cuadrados y obtener los residuos. 2. Hacer una regresión entre residuos y su rezago, obteniendo 1 3. Transformar el modelo usando 1 (es decir, y t− 1 y t−1 , etc). 4. Ir a 1 y volver a hacer el ejercicio hasta que el converja. Un problema del método de Cochrane-Orcutt es que nada garantiza que la distribución del estimador converja a un óptimo global y, de hecho, podría ser el caso en que haya más de una moda en dicha distribución. Es por ello que se sugiere usar una estrategia de búsqueda sobre la base de una “grilla” que verifique todos los valores de y satisfaga algún criterio de óptimo (p.e., mejor ajuste). En tal caso, un método sencillo es el de Hildreth y Lu38 que consiste en estimar el modelo transformado con =1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos al cuadrado. 5.08 Variables instrumentales El último supuesto que no hemos levantado es la ausencia de correlación entre los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible estar seguros que ello se cumple, en particular cuando se usan datos macroeconómicos. El problema ocurre, en primer lugar, cuando hay variables omitidas que están correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia el rendimiento escolar y se omite la educación de los padres como determinante, entonces la estimación entrega resultados sesgados porque algunas variables independientes (p.e., ingresos familiares) están típicamente relacionadas con la variable omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en alguna variable del lado derecho: este “sesgo de simultaneidad” lo estudiaremos más adelante. Una tercera causa de violación de este supuesto es cuando las variables independientes están medidas con error. En tal caso, como vimos en la sección 2, cada vez que se observa x no se observa la verdadera variable sino una medición con ruido el cual estando correlacionado con x queda incluido
Compartir