Capitulo5Final

•
Outros

Apuntes Generales
3/6/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Administración

636.087 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Capítulo 5
Violación de los Supuestos del Modelo de Regresión Lineal
En esta sección estudiamos problemas derivados de la violación de los seis 
supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo 
anterior. La lógica1 de operar es la siguiente: en primer lugar estudiamos el efecto de la 
violación sobre los estimadores mínimos cuadrados y los diferentes tipos de tests. En 
segundo lugar, propondremos, si es posible, alguna una solución, examinando el 
contexto en el que dicha solución es válida.
La pregunta más natural que aparece es ¿cómo sabemos que se ha violado un 
supuesto? La respuesta no es simple porque hay muchas consecuencias de violar un 
supuesto y, además, porque muchas veces se pueden violar varios supuestos 
simultáneamente. Aunque no hay reglas al respecto, algunos fenómenos que delatan la 
violación de algún supuesto son:
• Los errores que no tienen la característica de ser ruido blanco que se les exige 
para representar la parte asistemática del fenómeno en cuestión. Este es el 
indicador más importante de la violación de algún supuesto aunque, debe 
reconocerse, es difícil de evaluar aún con los mejores tests estadísticos.2
• Los parámetros estimados tienen características que no son congruentes con los 
pre/juicios que se tenían antes de hacer el experimento, en términos que 
presentan signos opuestos a los esperados, baja significancia estadística, o son 
poco robustos ante pequeños cambios en las condiciones de estimación.
• Existen problemas con los estadísticos asociados a la regresión, como son R², tests 
de correlación residual, o la comparación entre el error estándar de la variable de 
interés –  y – el de la regresión,  y .
• Baja capacidad predictiva del modelo estimado o sesgo sistemático en la 
predicción.
1 “Lógica es el arte de pensar y razonar en estricta concordancia con las limitaciones e 
incapacidades de la incomprensión humana” Ambrose Bierce, Diccionario del Diablo.
2 Usualmente en estadística es más fácil demostrar que algo no es lo que se suponía que afirmar 
que sí lo es.
5.2
5.01 Problemas de Especificación I: Regresores Inadecuados
Es frecuente que al modelar el econometrista tenga varias alternativas de 
variables que puede incluir o excluir del modelo. En principio, la teoría debiera sugerir 
una especificación completa y las hipótesis que se va a estudiar. Pero a veces las teorías 
no son muy “finas” y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables (pertinentes e irrelevantes) y dos 
situaciones (incluidas y excluidas). Dos combinaciones son obvias;3 pertinente incluida e 
irrelevante excluida. Las otras dos son más interesantes de estudiar.
Omisión de variable pertinente
Un problema econométrico común en los modelos económicos es la omisión de 
variables que pueden ser potencialmente importantes (típicamente por mala 
especificación analítica o por limitaciones de los datos). Supongamos que el modelo 
y=x  es particionado en dos grupos de variables:
y=x 11x 22 (5.1)
Supongamos ahora que la estimación excluye x 2 . Entonces:
1=x 1 ' x 1
−1x 1 ' y
=x1 ' x1 
−1 x 1 ' [x 11x 22]
=1x1 ' x1 
−1 x 1 ' x 22x 1 ' x 1
−1x 1 ' 
(5.2)
esta expresión ya la hemos visto con anterioridad, de donde derivamos este importante 
resultado:
E[ 1 ]=E [1x 1 ' x 1
−1 x 1 ' x 22x 1 ' x 1
−1x 1 ' ]
=1E[ x 1 ' x 1
−1 x1 ' x22 ]
(5.3)
Entonces, 
3 "Obvious" is the most dangerous word in mathematics (Eric Temple Bell, Mathematical Circles 
Squared, Boston, 1972).
5.3
E[ 1 ]=1 si x 1 ' x 2=0
≠1 si x 1 ' x 2≠ 0
(5.4)
Por lo tanto, la omisión de variables pertinentes no correlacionadas con aquellas 
que quedan en el modelo no sesga el estimador de los coeficientes. Pero la omisión de 
variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los 
estimadores. El sesgo es de dirección y tamaño desconocidos, porque no conocemos 2 . 
Pero hay un segundo efecto. Estudiemos la varianza del estimador usando la 
inversa de matrices particionadas. La varianza del verdadero estimador, es decir 
incluyendo x 2 , es
V [ 1 ]=
2 [x 1 ' x1 −x 1 ' x 2 x 2 ' x 2
−1 x 2 ' x 1]
−1 (5.5)
en tanto que la varianza del estimador en el modelo que excluye x 2 es
V [ 1 ]=
2 x 1 ' x 1
−1 (5.6)
Por lo tanto, en el segundo caso el estimador de 1 es sesgado pero de menor 
varianza. Sin embargo, consideremos el caso más común en el que resulta necesario usar 
el estimador de 2 , 2= ' /n−k1  , donde  son los residuos del modelo 
estimado excluyendo x 2 (no los del modelo completo,  ). Pero podemos expresar  
en función de  usando la matriz M 1 :
 
=M 1 y
=M 1 x 11x 22
=M 1 x 22M1
(5.7)
donde nuevamente M 1=I−x 1 ʹ x1 
−1 x 1 ʹ , es decir, produce “los residuos de una 
regresión de lo-que-haya-a-la derecha de x 1 ”. Por lo tanto, en los residuos muestrales 
están los verdaderos residuos más el efecto de la correlación de x 1 y x 2 ponderado 
por 2 .
¿Cómo afecta esto al estimador de la varianza de los residuos? Tomando la 
ecuación (5.7), multiplicando por su traspuesta y tomando el valor esperado se obtiene 
la siguiente expresión:
E[ ' ]=2 ' x 2 ' M 1 x 22E [ ' M1] (5.8)
5.4
Entonces,
E[ ' ]=2 ' x 2 ' M 1 x 22
2 tr M 1
=2 ' x 2 ' M 1x 22
2 n−k1
(5.9)
El primer término del lado derecho de (5.9) es no-negativo, ya que es una forma 
cuadrática. El segundo es el estimador de la varianza de los residuos para el modelo que 
excluye x 2 . Por ello, la varianza estimada de los residuos –obtenida como la suma de 
los residuos al cuadrado ajustada por grados de libertad– estará sesgada. Es interesante 
notar que aún si x 1 ʹ x 2=0 y los estimadores de los parámetros no están sesgados, el 
estimador de la varianza de los residuos –y por consiguiente los tests t– si lo está.
Adición de variable irrelevante
Nuevamente, debemos contestar las clásicas preguntas: ¿Es el estimador de  
insesgado? ¿Se ha afectado la varianza del estimador de  ? ¿Se ha afectado 2 ? ¿Cuál 
es el impacto sobre los tests? Se deja de tarea encontrar las respuestas, que son bastante 
obvias.
Una conclusión errónea, popular y peligrosa
Como hemos visto, en términos de la calidad de los estimadores resulta 
preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugeriría que 
la mejor estrategia de modelación econométrica es poner “de todo” al lado derecho de la 
regresión, mientras alcancen los grados de libertad. Así, si bien los estimadores tendrían 
problemas de eficiencia, no habría problemas de sesgo. Estos últimos son, naturalmente, 
más graves.
Existen problemas graves con esta estrategia. El modelo de regresión ha sido 
derivado bajo la premisa que éste describe un experimento aleatorio en un espacio de 
probabilidad asociado a un conjunto de posibles eventos de interés. En tal caso, el diseño 
del experimento debe ser hecho ex-ante y debe producir tanto el conjunto de hipótesis 
que se desea estudiar como la especificación funcional particular que se debe usar.
Cuando se incluyen variables aleatorias con el fin de maximizar algún criterio 
(usualmente bondad de ajuste) el primer problema que se presenta es que, en rigor, no 
puede compararse el parámetro de interés entre modelos. Considere los dos modelos 
planteados en la ecuación (5.10):
5.5
a  y i=01 x i
b  y i=01 x i2w i
(5.10)
evidentemente, el parámetro 1 de la ecuación (a) se refiere a un experimento cuyo 
espacio de eventos es distinto del que se considera implícitamente en la ecuación (b), lo 
que impide la comparación entre modelos. Otra manera de ver este mismo problema es 
considerar que la modelación econométrica equivale a estudiar la distribucióncondicional F  y |x  , la que puede ser muy distinta de F  y |x ,w  .
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir 
una especificación no puede usarse esa misma muestra para (in)validar dicha 
especificación.4 En el primer caso, se está usando la información para descubrir 
regularidades de interés (usualmente mal llamadas, hechos estilizados) y motivar la 
modelación y el análisis económico de algún fenómeno. En el segundo caso, se está 
usando un conjunto de variables aleatorias para discutir la validez de una proposición 
económica hecha con independencia de la realización (muestra) de dichas variables 
aleatorias. Si bien ambos casos son válidos por separado, en conjunto ellos no 
constituyen una base adecuada de modelación econométrica.
Frecuentemente los investigadores olvidan este hecho elemental y se engarzan en 
una verdadera carrera de caballos con distintos modelos econométricos, ponderando sus 
virtudes y defectos por medio de una batería de tests. 
¿Cómo sabemos, entonces, si un modelo está bien especificado? Sólo la teoría 
económica nos puede sugerir una especificación. Una vez obtenida una muestra acorde 
al testeo que se desea hacer, hay dos alternativas: si la teoría es congruente con los datos, 
nos quedamos con ésta como una representación adecuada de datos caracterizados por 
algunas regularidades empíricas. Si la teoría no es congruente con los datos, cambie de 
teoría.
Existe la tentación a poner cosas del lado derecho, sólo para encontrarse después 
que no hay como justificar en serio la inclusión de dichas variables. Hay, sin embargo, 
dos objeciones comunes a la idea que un investigador debe limitarse a la disciplina que 
le impone su teoría económica:
1. Si el test t de estas variables adicionales es mayor que 2 ¿por qué no incluirlas? 
El resultado es el peor. La (o las) variable(s) parece(n) ser importante(s) desde un 
punto de vista estadístico para describir la media condicional de y, pero no tenemos idea 
por qué o qué papel desempeñan desde el punto de vista analítico. Lo mismo se aplica a 
justificar por bondad de ajuste: no olvide que el R² es una función del test t. Si se añade 
una variable cuyo test t es mayor que 2, el R² de la regresión sube.
4 Esta es una discusión bastante profunda e, inevitablemente, impopular. Ver D.G. Mayo, Error 
and the Growth of Experimental Knowledge, The University of Chicago Press, Chicago, Il. 1996.
5.6
2. ¿Por qué no usar las k variables disponibles y hacemos una competencia “todos-contra-
todos” seleccionando aquellas que maximizan R² con tests t significativos al, digamos, 95%? 
Esta técnica, llamada stepwise regression, busca aquella combinación lineal de los 
componentes de x que maximiza la bondad de ajuste, R². Esto tiene bastantes problemas. 
En primer lugar, la selección es mecánica con independencia de las restricciones que 
impone la teoría. En segundo lugar, es difícil comparar entre modelos (¿cómo se 
distribuye el test de distancia entre dos o más R²?). En tercer lugar, esto es data mining.
El problema de data mining5, en realidad, excede el de la búsqueda interesada de 
las variables que se debe incluir en el modelo. También debe incluirse la reespecificación 
de los modelos (porque también equivale a cambiar los supuestos sobre los cuales se 
derivó el modelo originalmente), la búsqueda de muestras convenientes (por ejemplo, el 
periodo de tiempo “preciso”) e, incluso, el uso de tests estadísticos favorables (que 
usualmente son aquellos que no tienen poder para probar la hipótesis nula de interés).6
Recientemente el tema de data mining ha recibido un soporte analítico más 
sólido y su uso se ha popularizado en áreas distintas a la economía donde el interés por 
relacionar evidencia empírica con modelos de comportamiento no es importante. Por 
ejemplo, en el uso de datos gráficos para el reconocimiento de patrones sistemáticos 
(caras a partir de fotos). Hirsh (2008) hace un recuento de los avances y desafíos en este 
tipo de modelación.7
5.02 Problemas de Especificación II: Cambio de Régimen
Una forma interesante de violar el supuesto que el modelo sea lineal es el caso en 
el que hay cambio de régimen (un caso frecuente en series de tiempo).8 Cambio de 
régimen es una expresión un tanto vaga que se utiliza para denotar que el fenómeno de 
interés tiene un comportamiento característicamente diferente en diversos periodos de 
tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir 
de manera apreciable.
5 “The art of fishing over alternative models has been partially automated with stepwise 
regression programs. While such advances have made it easier to find high R²s and 
“significant” t coefficients, it is by no means obvious that reductions in the costs of data 
mining have been matched by a proportional increase in our knowledge of how the economy 
actually works.” Lovell, M. C. (1983), “Data Mining,” The Review of Economics and Statistics, 65, 
1-12.
6 Ver A. Spanos (1999) “Revisiting data mining: ‘hunting’ with or without a license”, mimeo, 
Department of Economics, Virginia Polytechnic Institute and State University.
7 H. Hirsh “Data mining research: current status and future opportunities”, Statistical Analysis 
and Data Mining, 1:104-108.
8 A este tipo de modelo se le denomina incorrectamente “cambio estructural”. El nombre más 
adecuado es cambio de régimen, por cuanto nada garantiza que sea produzca un cambio en el 
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su 
naturaleza dual.
5.7
Un ejemplo común queda descrito en la siguiente figura. En una serie que crece 
con tendencia positiva de 2.5% se han incorporado distintos tipos de quiebres para ver el 
efecto. En el panel A se presenta una muestra de 75 datos de la serie original. En el panel 
B se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y 
cuarto cuartos de los datos. El quiebre es de tamaño 40% del nivel. En el panel C se 
presenta la serie con un quiebre que lleva la tendencia a -2.5% en los mismos intervalos. 
En tanto que en el panel D se presenta la serie sujeta a ambos quiebres.
Figura 5.1
Cambio de régimen
Método de Chow
En el caso de cambio de régimen, un modelo del tipo y=x  es inadecuado. 
Supongamos que el cambio de régimen sólo afecta el intercepto de la regresión, Chow9 
sugiere usar es una especificación del tipo:
y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]
(5.11)
9 G. C. Chow (1960) "Tests of Equality Between Sets of Coefficients in Two Linear Regressions". 
Econometrica 28(3):591–605.
5.8
Sin embargo, es preferible anidar ambos modelos en una sola especificación 
usando variables ficticias (mudas o dummies10), que toman valores 0 y 1 dependiendo del 
régimen. El modelo anidado es:
y i=x i D ii (5.12)
donde 
D i=1 ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
D i=0 en el resto
.
Así, cuando la variable muda D es 1, el intercepto es = , en tanto que si es 
0 éste es  .11 Es decir, interpretamos  como la diferencia de interceptos.
Supongamos ahora que el cambio de régimen es tanto en el intercepto como en 
los otros coeficientes de la regresión. Se debería usar es una especificación del tipo:
y i=x i i ∀ i ∈[ 1, ¼N ]∪ [½N ,¾N ]
y i=x i i ∀ i ∈[¼N ,½N ]∪ [¾N ,N ]
(5.13)
Conviene, nuevamente, anidar ambos modelos en una sola especificación usando 
variables ficticias. El modelo anidado es:
y i=x i [D i ]D ii (5.14)
Así, cuando D toma valor 1, el intercepto es = y la pendiente es 
= . Cuando D=0, obtenemos los parámetros  y  .
¿Cómo descubrimos si hay cambio de régimen?
Existen dos técnicas de amplia difusión para descubrir la existencia de regímenes 
distintos en una muestra: las técnicas recursivas y el test RESET. Comovamos a 
descubrir, estas técnicas no señalan sólo la presencia de cambio de régimen sino además 
de otros problemas de especificación.
10 El término variable muda (del inglés dummy) fue introducido aparentemente en 1952 por H. S. 
Houthakker en "The Econometrics of Family Budgets" Journal of the Royal Statistical Society A, 
115:1-28.
11 Otro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es 
decir, la tendencia a observar cambios en la variable de interés debido a fenómenos que no 
interesa modelar (clima, efemérides, etc.). En tal caso, el modelo es del tipo 
y i=x i 1∗D 12∗D23∗D 3i , donde las variables D1 , D2 y D3 toman valor 1 para 
primer, segundo y tercer trimestre, respectivamente, y 0 en cualquier otro caso. 
5.9
El test RESET (Regression specification error test) fue propuesto por Ramsey (1969)12 
y consiste en realizar una regresión auxiliar al modelo de interés. Sea el modelo 
y t=x tt , supongamos que  se distribuye N 0, I  , y consideremos la siguiente 
regresión auxiliar:
y t=01x t2 z tt (5.15)
donde z t={ y t
2 , y t
3 ,} y y t son los valores predichos del modelo original.13 Si el 
modelo original estaba bien especificado, entonces los coeficientes de las variables 
auxiliares no debiesen ser estadísticamente significativos. En caso contrario, el estimador 
de  es inconsistente. Por ello la hipótesis nula del test es H 0 :2=0 y H 1 :2≠0 .
Para hacer el test en la práctica, se puede hacer un test F o de razones de 
verosimilitud. Note que se puede extender el test de Ramsey en dos direcciones. 
Primero, para incluir otras variables en la matriz de variables auxiliares. En este caso, el 
test no sólo señalaría la presencia de error de especificación sino, además, de variables 
omitidas. Segundo, en modelos de series de tiempo es posible incluir rezagos de la 
variable del lado izquierdo, y t−k , de modo que el test ahora señalaría la presencia de 
error de especificación sino, además, de correlación residual.
La técnicas recursivas se aplican de modo natural a problemas de series de 
tiempo y consisten en estimar el modelo incrementando de modo paulatino (recursivo) 
el tamaño de muestra. Consideremos el modelo y t=x tt y la siguiente regresión 
auxiliar:
y t=t−1 x tt (5.16)
donde t es el estimador del parámetro obtenido mediante una regresión hecha con una 
muestra de datos { y i , x i}i=k1
i=t−1 . La técnica consiste en hacer un conjunto de regresiones 
auxiliares incrementando el tamaño de muestra desde i=k1 hasta T , donde k es el 
rango de x. Note que k1 es la primera regresión que es posible hacer.
12 J. Ramsey, J. B. (1969). "Tests for Specification Errors in Classical Linear Least Squares 
Regression Analysis," Journal of the Royal Statistical Society, Series B, 31:350-371. Un trabajo 
posterior demuestra que el test RESET es lo suficientemente poderoso para descubrir 
problemas de especificación aún cuando los criterios tradicionales (R², correlación residual, y 
tests de significancia) sean cumplidos satisfactoriamente (Ramsey, J. B. and A. Alexander 
(1984). "The Econometric Approach to Business-Cycle Analysis Reconsidered," Journal of 
Macroeconomics, 6:347-356.)
13 La lógica de incluir potencias es directa. Suponga que el modelo es logarítmico (p.e., y=x z 
). Una expansión de Taylor para linealizarlo exigiría términos de segundo orden al menos. Su 
omisión –como sucede en el modelo original– implica que el residuo tiene precisamente esa 
estructura.
5.10
Existen dos posibles variables aleatorias de interés que se obtienen del conjunto 
de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. Para 
ambos hay distintos tests.
Tests de residuos recursivos. Hay dos tests clásicos de residuos recursivos: CUSUM y 
CUSUM-Q. Consideremos primero la varianza predicha del error de predicción de 
(5.16):
t
2= 2 1x t ' x t−1 ' x t−1−1 x t (5.17)
y ahora computamos recursivamente la variable aleatoria wt tal que
w r=
r
1x r ' x r−1 ' x r−1−1 x r (5.18)
El test CUSUM computa W r=
1
 ∑r=k1
r=t
w r donde  es la varianza estimada de 
w r . Bajo la hipótesis nula W r tiene media cero y su varianza es aproximadamente igual 
a la suma de los residuos normalizados (es decir, una variable aleatoria i.i.d. 
estandarizada). Por ello el intervalo de confianza se obtiene de las rectas 
[k ,a ±T−k ½ ] y [k ,3 a±T−k ½ ] y se fija a para niveles de significancia de 95% o 
99%. Un ejemplo se ve en la Figura 5.2.
Figura 5.2
Test CUSUM
El test CUSUM-Q, por otro lado, utiliza una variación del test anterior pues 
estudia el estadígrafo:
-30
-20
-10
0
10
20
30
80 82 84 86 88 90 92 94 96 98
CUSUM 5% Signif icance
5.11
S r=
∑
r=k1
r=t
w r
2
∑
r=k1
r=T
w r
2
(5.19)
donde la diferencia entre el numerador y denominador está en la extensión de las sumas 
(t vs.T). Bajo la hipótesis nula, la esperanza del estimador es (aproximadamente) 
E[S r ]=t−k/ T−k y su varianza es una función compleja de (t-k) para la cual 
existen tablas (ver Figura 5.3).
Un problema de los tests CUSUM es que su poder –es decir, la habilidad para 
rechazar la alternativa cuando ésta es falsa— no es monótono. En particular, éste puede 
depender del tamaño del quiebre, haciendo que su poder se vaya a cero si el quiebre es 
suficientemente grande. La razón es que la varianza de los errores se computa sin 
considerar que hay un quiebre. Además, es posible que el poder tampoco sea monótono 
cuando hay más de un quiebre en los datos.14
Figura 5.3
Test CUSUM-Q
Finalmente, la estimación recursiva del modelo produce para cada iteración un 
valor del estimador de los parámetros –con su respectiva desviación estándar– que se 
puede utilizar como medida visual de la inestabilidad de una regresión y de la presencia 
de cambios de régimen. Como se ve en la Figura 5.4.
14 Ver P. Perron (2007) “Dealing with Structural Breaks”, Palgrave Handbook of Econometrics, Vol. 
1: Econometric Theory, T.C. Mills and K. Patterson (eds) 
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
80 82 84 86 88 90 92 94 96 98
CUSUM of Squares 5% Significance
5.12
Figura 5.4
Estimación recursiva de los estimadores de los parámetros
Test de Predicción (One Step Ahead Forecast Error Test)
Si uno considera la ecuación (5.16) notará que los residuos recursivos 
corresponden al error de predicción un periodo fuera de muestra. Es posible, entonces, 
testear si la distancia entre la predicción y el valor verdadero está dentro de un intervalo 
de confianza definido (p.e., 95%). Una descripción gráfica de este test es presentada en la 
siguiente figura. Se observan en azul los residuos recursivos, con su desviación estándar 
(escala derecha). En la escala izquierda se identifican aquellos errores que están entre 
5%, 10% y 15% fuera de rango
Figura 5.5
Predicción un paso adelante
.00
.05
.10
.15
-.4
-.2
.0
.2
.4
80 82 84 86 88 90 92 94 96 98
Probabilidad Un-Paso Adelante Residuos Recursivos
5.13
Tests para quiebres múltiple
Hemos visto qué hacer cuando se desconoce la ubicación del quiebre y cómo 
puede ayudarnos los tests recursivos. Otra preocupación legítima es determinar si existe 
uno o más quiebres y su ubicación. La literatura sobre quiebres sucesivos es 
relativamente reciente y tiene relación con modelos de parámetros cambiantes (en el 
sentido que los parámetros van cambiando en el tiempo y t=t x tt ) y/o con 
problemas de no estacionariedad (es decir, cuando la media u otros momentos de la 
distribución conjunta de los datos cambian con cada nueva observación).
Recientemente, Andrews, Lee and Ploberger (1996) estudian una clase de test 
óptimos para el casoen que haya un quiebre pero que en el caso de múltiples quiebres 
son poco prácticos pues exigen computar todas las posibles particiones de una muestra 
de tamaño T en l segmentos o quiebres.15 Bai Perron (2003)16 sugieren usar un proceso 
secuencial. En primer lugar, se computa el valor del máximo test de Wald para un 
cambio estructural, suponiendo que sólo existe un quiebre. Luego se toma la sub-
partición más grande de los datos y se vuelve a realizar el test de Wald para un único 
cambio estructural. El procedimiento se repite mientras sea necesario, sujeto al tamaño 
mínimo que puede tener un segmento (usualmente k+1). Naturalmente, la distribución 
de este test secuencial no es estándar pues las hipótesis está anidadas (es decir, el 
segundo test de Wald depende de haber hecho bien la inferencia del primer test de 
cambio estructural, el tercero de los dos primeros, etc.), por lo que Bai y Perron proveen 
tablas de valores críticos ad-hoc.
5.03 Problemas de Especificación III: Datos erróneos
El análisis empírico frecuentemente se enfrenta a problemas con los datos en dos 
dimensiones: datos perdidos y variables cercanas. Naturalmente, es posible que estos 
problemas sucedan simultáneamente, pero para efectos pedagógicos los vamos a 
estudiar por separado.
Datos Perdidos
Supongamos que el modelo es del tipo y i=x ii . Obviamente, pueden 
haber datos perdidos en la variable de interés, y, o en los regresores, x. Ello puede 
suceder por varias razones. En primer lugar, porque no existen los datos para algún 
determinado período de tiempo o segmento de la muestra. Lo más común es que esto 
suceda porque los encargados de estadísticas no levantan los datos de base o porque las 
muestras se han perdido. Segundo, porque los datos existen pero están en distinta 
15 Ver Andrews, D.W.K., Lee, I., Ploberger, W. “Optimal change point tests for normal linear 
regression”. Journal of Econometrics 70: 9-38, 1996.
16 Bai, J. and P. Perron “Critical values for multiple structural change tests”. Econometrics Journal, 
6:72-78, 2003.
5.14
frecuencia a la necesaria para hacer el análisis empírico (p.e., datos mensuales versus 
trimestrales).
La literatura sobre datos perdidos es extensa pero puede sintetizarse en las 
siguientes conclusiones. Primero, si los datos se han perdido de manera aleatoria, los 
estimadores de mínimos cuadrados serán consistentes pero más ineficientes que en el 
caso que la muestra estuviese completa. La razón es, obviamente, que la muestra con 
datos perdidos contiene menos información. Segundo, si los datos no se han perdido de 
forma aleatoria pero sólo afectan a las variables de lado izquierdo, entonces no hay 
sesgo y sólo hay problemas de eficiencia. Este caso es llamado sesgo de selección exógeno. 
Tercero, si los datos no se han perdido de forma aleatoria pero sólo afectan a las 
variables de lado derecho, entonces hay sesgo de selección endógeno. En este caso, hay 
correlación entre regresor y residuo –por cuanto las observaciones disponibles están 
limitadas de forma no aleatoria— e, inevitablemente, hay sesgo en el estimador de 
mínimos cuadrados.17
La existencia de datos perdidos suele llevar a los econometristas despistados a 
intentar “soluciones” que, como se discute a continuación, no son efectivas. Para discutir 
estos métodos podemos particionar la matriz de datos de acuerdo al Cuadro 5.1:
Cuadro 5.1
Problemas de disponibilidad de datos
Datos existen yA xA
Datos 
perdidos
- xB
Datos 
perdidos 
yC -
Note que siempre podemos estimar el estimador  en el subconjunto A. El 
punto es ver cómo usar los datos restantes. Estudiaremos primero el caso A+B, es decir 
cuando faltan algunas observaciones de la variable condicionada (o de lado izquierdo). 
Posteriormente, veremos el caso A+C, es decir cuando faltan algunas observaciones de 
los regresores. 
17 La solución a este tipo de sesgo de selección más popular es el estimador en dos etapas de 
Heckman. Éste consiste en hacer una regresión inicial tipo probit para dar cuenta de los 
determinantes de la selección de la muestra y, en una segunda etapa, se estima el modelo 
original tomando en cuenta los resultados del modelo probit. Ver J. Heckman, "Sample 
Selection Bias as a Specification Error," Econometrica, 47(1): 153-6, 1979.
5.15
Datos perdidos en la variable condicionada. Una sugerencia frecuente es utilizar algún 
método para hacer una predicción de y B y usar posteriormente el modelo econométrico 
completo para estimar  , es decir usando [ yA yB , x Ax B ] . El quid del asunto radica 
en cómo predecir y B . Hay dos alternativas populares:
• Alternativa popular 1. Rellene los datos faltantes con la media de y A . Es 
fácil demostrar que como resultado se produce sesgo en los parámetros. 
• Alternativa popular 2. Estime  en el subgrupo A, prediga y B usando 
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el 
procedimiento es inútil.
Datos perdidos entre los condicionantes. Nuevamente la sugerencia popular es hacer una 
predicción de yC y usar el modelo completo para estimar  , es decir usando 
[ yA yC ,x AxC ] . ¿Cómo predecir x C ?
• Alternativa popular 1. Rellene los datos faltantes con la media de x A . 
Demuestre que este procedimiento es equivalente a eliminar los datos del 
segmento C.
• Alternativa popular 2. Haga una regresión de x en y en el subgrupo A, 
estime un parámetro γ y prediga x C usando dicho estimador. Luego estime el 
modelo completo. Demuestre que este procedimiento viola el espíritu del análisis 
econométrico.18
Medina y Galván (2007)19 revisan nuevos procedimientos –desarrollados durante 
las últimas décadas— que tienen mejores propiedades estadísticas que las opciones 
tradicionales, tales como la eliminación de datos, el pareo de observaciones, el método 
de medias y el hot-deck. Ellos concluyen que los algoritmos de imputación de datos se 
pueden aplicar, pero que imputar información no debe entenderse como un fin en sí 
mismo. Sus implicaciones en el análisis secundario de datos deben evaluarse con 
cautela, y este trabajo concluye que no existe el método de imputación ideal. 
18 Si usted encuentra deprimente las conclusiones de esta sección considere la célebre opinión de 
Charles Babbage (1869) Errors using inadequate data are much less than those using no data at all.
19 Fernando Medina y Marco Galván, “Imputación de datos: teoría y práctica”, Serie Estudios 
Estadísticos y Prospectivos No 54, CEPAL.
5.16
Variables cercanas (proxies)
Una variable proxy es un sustituto cercano (es decir, imperfecto) de la verdadera 
variable que no es observable o no está disponible. Usualmente el uso de variables 
cercanas puede ser entendido como la presencia de “variables medidas con error”. 
Puede haber proxies de la variable de interés o de los regresores, pero el efecto sobre el 
estimador de mínimos cuadrados ordinarios de los parámetros no es igual. Recordemos 
que el estimador mínimos cuadrados se derivan de:
=x ' x −1 x '  (5.20)
 y del supuesto cov [x ,]=0 . Podemos reescribir la ecuación anterior como: 
−=[ x ' xn ]
−1
[ x ' n ] (5.21)
Hasta el momento se ha cumplido que plim [ − ]=Q xx x , pero la matriz de 
covarianzas se desvanece cuando n→∞. Veamos ahora qué sucede cuando se usan 
variables cercanas.
Proxy para la variable de interés: Sea el modelo que nos gustaría estimar y *=x  . Pero 
sólo disponemos de y *= y , donde  es un shock aleatorio, con media cero y 
varianza 
2 . Entonces el modelo estimable es y=x ε−μ=x ν , donde =− .
Nóte que ν es una variable aleatoria con media cero y cuya covarianza con x 
también es cero. Luego se satisfacen todos los supuestos del modelo clásico y no hay 
problemasde sesgo en los estimadores de mínimos cuadrados. Obviamente, la varianza 
del estimador de los residuos está sesgada --siendo más grande— porque incluye tanto 
la varianza de  como la de  . Sin embargo, ese sesgo no es posible corregirlo sin 
conocer 
2 .
Proxy de los regresores: Sea el modelo que nos gustaría estimar y=x∗ . Pero sólo 
disponemos de x=x∗ , donde  es un shock aleatorio con media cero y varianza 

2 . Ahora el modelo es y=x −=x  donde =− . El problema 
radica en que hay correlación entre regresor y residuo porque 
cov [x ,]=cov [x∗ ,−]=−
2 . El estimador de mínimos cuadrados es:
5.17
=
1 /n∑
i=1
n
x i yi
1 /n∑
i=1
n
x i
2
(5.22)
veamos el plim:
plim =
plim 1 /n∑
i=1
n
x i
*x i
*
plim 1/n∑
i=1
n
x i
*2
(5.23)
y como x*,  , y  son independientes entre sí, se obtiene:
plim =
Q*
Q*
2 (5.24)
con Q *= plim 1/n x * ' x * . 
Podemos reescribir (5.24) como:
plim = 
1

2
Q*
(5.25)
por lo tanto, si hay incertidumbre ( 
2≠0 ), el estimador de mínimos cuadrados 
ordinarios del parámetro  es inconsistente y sesgado hacia cero. A mayor error de 
medida, más fuerte este efecto de atenuación.
5.18
Datos influyentes y extremos (outliers)
En el análisis empírico es usual encontrar valores tanto para la variable de interés 
como sus determinantes que “no parecen formar parte del experimento en cuestión” 
(también llamados outliers).20
Se entiende por “datos influyentes” aquellos que de ser incluidos o excluidos de 
la muestra producen grandes variaciones en la estimación, sea en los estimadores de los 
parámetros o en los estadísticos asociados (p.e., bondad de ajuste). La influencia de 
estas observaciones se debe tanto a la naturaleza del estimador de mínimos cuadrados 
como al tamaño de la muestra usada para obtener el estimador. En primer lugar, el 
estimador de mínimos cuadrados se obtiene al minimizar la suma de residuos al 
cuadrado, por lo que las observaciones más alejadas del promedio de los datos reciben 
más valoración. Eso puede hacer que el estimador sea sensible a valores extremos. En 
segundo lugar, el tamaño de muestra determina el impacto de valores extremos, pues 
este problema será más agudo mientras más pequeña sea la muestra. Obviamente, en 
una muestra grande el efecto de un valor extremo es contrapesado por más 
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos (outliers) y valores 
influyentes. Valores extremos se refieren usualmente a valores de y que se desvían 
mucho de la media condicional en x. Valores influyentes se refieren a valores de x que se 
desvían de la media muestral y que, por lo tanto influyen mucho en la estimación. En la 
figura 5.6 se presentan ambos tipos de valores para el caso del modelo más simple, 
y i=x ii .
Figura 5.6
Valores influyentes y extremos
20 Esta es la definición clásica de outlier de Hawkins, D. (1980). Identification of Outliers. Chapman 
and Hall, London.
y
x
5.19
Frecuentemente los valores extremos e influyentes se producen por errores al 
ingresar los datos de la muestra: por ejemplo, es común que sucedan porque se 
invirtieron dígitos (601 en vez de 106) o porque una coma está mal puesta (12,5 en vez 
de 1,25). Es por ello que lo primero que se debe hacer es revisar los datos 
cuidadosamente.
Existe un centenar de algoritmos de detección de valores influyentes que se 
basan en seleccionar distribuciones conocidas para los datos (normal, exponencial, etc.) 
y en definir un intervalo de confianza para determinar si un dato es un valor extremo o 
no lo es (p.e., 90% o 95%).21 
Una manera de detectar valores extremos es estudiar los residuos: si el valor 
predicho se desvía del efectivo de manera notoria se puede tratar de un valor extremo. 
No obstante, esta no es una manera que garantice la detección. La razón es que el 
residuo se mide con respecto a la recta de regresión la que podría variar si se incluye o 
excluye el valor extremo. Usualmente se estudian los residuos estandarizados –es decir, 
los residuos divididos por su desviación estándar— de modo de normalizar su tamaño.
Otra forma es estudiar la “incidencia” de cada dato en el estimador. Recordemos 
que en el estimador de mínimos cuadrados cada observación de y es ponderada por 
H=x x ' x −1x ' . Si se estudia la diagonal de H, es decir los valores de hii, es 
relativamente directo ver la influencia de cada observación en la estimación. Valores con 
mucha incidencia suelen señalar la presencia de valores influyentes o extremos. Además 
esto pone de manifiesto el hecho que valores más alejados de la media de los regresores 
tiende a darles más influencia.
Cuando la muestra es pequeña, tanto la media como la desviación estándar 
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es 
por ello que en ese caso se usan tests de detección de datos influyentes basados en la 
mediana y su desviación estadística, porque éstas no son sensibles a los valores 
extremos. El más conocido de estos tests para muestra pequeña es el de Dixon (1950) 22 
que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar 
los datos de menor a mayor y computar el siguiente estadígrafo para cada observación 
x n :
TN7=
xn−xn−1
x n− x1
(5.26)
El valor de TN7 computado se compara con los valores críticos particulares para 
tamaños de muestras que van desde 3 observaciones en adelante.23 Si el valor obtenido 
21 Un tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, V. Barnett 
and T. Lewis, 1994, 3rd edition, John Wiley & Sons, Chichester.
22 Dixon, W.J. (1950): “Analysis of extreme values”, Annals of Mathematical Statistics, 21(4):488–
506.
23 S. Verma y A. Quiroz-Ruiz, “Critical values for six Dixon tests for outliers in normal samples 
5.20
es mayor que el valor de tablas se rechaza la hipótesis nula que la observación n-ésima 
no es un valor extremo. El estadígrafo TN7 reconoce que en una muestra pequeña 
resulta mucho más difícil determinar si una observación es un valor extremo porque no 
hay suficiente información.
5.04 Problemas de Especificación IV: Colinealidad
El problema de colinealidad (también llamado multicolinealidad) consiste en que 
los regresores no son independientes entre sí. Cuando se impuso el supuesto de 
identificación, es decir que x ’ x −1 fuese positiva definida, no se eliminó el problema 
que los regresores estén correlacionados imperfectamente.24 Consideremos el siguiente 
modelo:
y i=1 x i
12 x i
23 x i
3i (5.27)
pero supongamos que los regresores están correlacionados de acuerdo a la siguiente 
relación:
x i
3=1 x i
12 x i
2i (5.28)
Introduciendo (5.28) en (5.27) resulta obvio que:
y i=113 x i
1223x i
2t3 i (5.29)
Hay dos interpretaciones interesantes de la ecuación anterior. Primero, se puede 
estimar  j j  pero no podemos “identificar”  j . Segundo, el efecto “marginal” de 
xk sobre y tiene dos componentes: uno directo (  j ) y otro que se filtra indirectamente a 
través de xj ( k j ). Note, además, que la varianza del error ( 3 ) tiene una 
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mínimos cuadrados es algo 
sorprendente. Tomando el estimador 
up to sizes 100, and applications in science and engineering” Revista Mexicana de Ciencias 
Geológicas, 23(2):133-161, 2006.
24 Otra razón para que x ’ x −1 no exista es que el rango de x sea mayor que el rango de x’.
5.21
E [ ]=E [x ' x −1 x ' y ]
=E[x ' x −1 x i ' x ]
=E [x ' x −1 x '  ]
(5.30)
Por lo tanto, en tanto la matriz de momentos de los regresores exista,el 
estimador sigue siendo insesgado. Ello porque independientemente de si los regresores 
son estocásticos o no, la correlación entre regresor y error en valor esperado es cero lo 
que implica que E[ ]= .
Si los parámetros no son sesgados, ¿dónde está el efecto de la colinealidad? 
Debido a que el problema es que cov x1, x 2 ≠ 0 , entonces tiene que afectar la matriz de 
momentos de los regresores, x ' x . Veamos cómo la afecta con algunos ejemplos 
prácticos. Recordemos que la inversa de x ' x es su adjunta dividida por el 
determinante, es decir:
=[a 11 a 12a 21 a 22] entonces −1= 1a11 a 22−a 12a 21 [ a 22 −a 12−a 21 a11 ] (5.31)
Supongamos 
=[1 00 1]⇒−1=11 [1 00 1] (5.32)
y ahora consideremos casos donde la covarianza entre las variables no es cero:
=[ 1 0.60.6 1 ]⇒−1= 10.64 [ 1 −0.6−0.6 1 ] (5.33)
=[ 1 0.90.9 1 ]⇒−1= 10.19 [ 1 −0.9−0.9 1 ] (5.34)
Resulta evidente cómo se va reduciendo el determinante de la inversa. Entonces, 
dado que V  =2 x i ' x i 
−1 , la presencia de colinealidad se traduce en varianzas de 
los estimadores de los parámetros cada vez más grandes. En el límite la varianza tiende 
a infinito.
5.22
Esto es congruente con lo que obtuvimos en (5.29). Cuando la colinealidad es 
perfecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos 
precisar el valor de los parámetros (varianza infinita).
En la realidad, la colinealidad perfecta no existe (salvo por error). Pero tampoco 
existe, usualmente, la ausencia de colinealidad (piense en el papel de las expectativas y 
cómo éstas correlacionan muchas variables económicas). Por ello, siempre habrá algún 
grado de colinealidad. 
Otro síntoma de la colinealidad es que los estimadores de los parámetros se 
vuelven inestables (poco robustos). La inestabilidad se produce porque la estimación 
punto de los parámetros bajo alta colinealidad depende de la conformación de la 
muestra. Si sacamos un(os) dato(s) de la muestra, la estimación de los parámetros suele 
cambiar fuertemente.
¿Como detectamos la presencia de colinealidad? 
Podríamos estudiar la correlación de los regresores antes de estimar el modelo. 
Esta práctica es esencial en cualquier modelación econométrica, pues aparte de detectar 
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. Un 
problema práctico, no obstante, es que no es muy claro cuándo hay alta colinealidad 
entre dos o más variables. Naturalmente una correlación de 99% es alta y una de 5% es 
baja, pero para una correlación de 57% no es clara la conclusión.
Otra alternativa es investigar si los estimadores de los parámetros son inestables. 
Si bien esto es correcto, existen otros problemas –que veremos más adelante– que 
también producen inestabilidad. Por ello, este test no es conclusivo.
Una tercera alternativa frecuente es que, si bien los parámetros no son 
significativos por la alta varianza, como un todo la regresión es satisfactoria. Ello se 
traduciría en el caso “ R 2 alto pero  no significativos”. Hay que reconocer, sin 
embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo 
satisfactorio tendría el mismo síntoma.
¿Qué solución tiene la colinealidad?
En estricto rigor, no existe ninguna solución. La colinealidad no es un problema. 
Es una característica de las variables aleatorias utilizadas en el modelo. Es decir, una 
característica del problema económico.
5.23
En ocasiones, la teoría económica permite imponer restricciones que evitan el 
problema de colinealidad. Por ejemplo, considere el siguiente modelo translog para el 
PIB, que denominamos Y:
logY=1 logKF 2 log KH 3
log KF 1/ 2
2
4
 logKH 1/2
2
5 log KF  logKH 
donde KF es el capital físico y KH es el capital humano. Usted sospecha que hay 
colinealidad entre ambos tipos de capital. Si es válido imponer la restricción de retornos 
constantes de escala ( 1=1−2 y 3=4=5=−1 ) entonces es posible reducir el 
problema de colinealidad. Esto, sin embargo, no es lo usual.
No obstante, algunos textos tradicionales suelen presentar pseudo soluciones 
empíricas al problema de colinealidad que vale la pena estudiar para (a) descubrir su 
inaplicabilidad y (b) porque existen otros usos para estas técnicas que se utilizan a 
menudo.
1. Elimine alguna variable para la que haya evidencia de colinealidad con otras. En 
el modelo y i=1 x i
12 x i
23 x i
3i entonces se podría eliminar, digamos, 
x 3 . El resultado es:
y i=1 x i
12 x i
23 x i
3i
=1x i
12 x i
2i
(5.35)
Obviamente, el problema de colinealidad se reduce.25 Sin embargo, tenemos un 
problema grave. Ahora cov x1 , y cov x 2 , no son cero. Por ello, los 
estimadores están sesgados, no se conoce el tamaño o la dirección del sesgo, y las 
varianzas de los estimadores pueden estar sobre-estimadas.
2. El método de “ridge”. Esta técnica se basa en la observación que los parámetros 
son difíciles de identificar porque las varianzas de los parámetros son 
relativamente pequeñas en comparación con las covarianzas. Las varianzas están 
en la diagonal de 2 x ’ x −1 . Por ello, este estimador sugiere sumarle “algo” a 
dicha diagonal, de modo que los parámetros sean identificables. El estimador de 
“ridge” es:
RD=[x i ' x irD ]
−1x i ' y i (5.36)
donde r es un escalar pequeño (p.e., 0.01) y D una matriz diagonal. 
Obviamente, ahora las varianzas de los parámetros estimados van a ser menores.
25 ¿por qué sólo se reduce y no se elimina?
5.24
Var  RD=
2 [x i ' x irD ]
−1 (5.37)
Pero este “beneficio” se obtiene a costa de:
E[ RD ]=E  [x i ' x irD ]−1x i ' y i 
=E [ x i ' x irD ]−1 x i ' x i 
≠
(5.38)
Hemos vuelto a obtener dos resultados importantes: (a) modelos con variables 
pertinentes omitidas producen parámetros sesgados, y (b) es posible tener 
estimadores sesgados más eficientes que un estimador insesgado.
3. Método de componentes principales. Otra propuesta de solución de 
colinealidad consiste en extraer de la matriz x ' x  los componentes principales 
de ésta. Si el problema de las x es que no hay independencia lineal, ¿por qué no 
seleccionamos aquellos x que son “más independientes”? Así, mejoraría la 
estimación del modelo, pues el subconjunto de x seleccionado representaría bien 
a todas las variables del modelo. La pregunta es equivalente a ¿cuál combinación 
lineal de las x es la que tiene el mejor ajuste a todas las x? Esa será la mejor 
“representante”. 
Sea la combinación lineal z 1=x a 1 . Entonces, z 1 ' z 1=a1 ' x ' x a1 . Buscamos a 1 
tal que maximicemos z 1 ' z 1 (piénselo como matriz de información). Obviamente, si no 
restringimos a 1 es posible que [z 1 ʹ z 1 ]→∞ . Por ello, optimizamos restringiendo a que 
a 1 ʹ a 1=1 (a esto se le llama normalizar). Usando la técnica de Lagrange:
max a1=a1 ' x ' x a1−1 a 1 ' a1−1 (5.39)
derivando obtenemos la siguiente condición de primer orden:
∂
∂a 1
=2x ' xa 1−21a 1=0 (5.40)
es decir:
x ' x a1−1a 1=0 (5.41)
5.25
por lo tanto, a 1 es un vector característico. Recuerde, a 1 es el vector característico 
asociado a λ1 la raíz característica. ¿Cuál vector característico? Aquel asociado a la raíz 
característica más grande de x ' x .
Así, hemos escogido el primer componente principal. Ahora, escogemos el 
segundo, a 2 . Para ello optimizamos sujeto a a 1 ya encontrado y a que a 1 sea ortogonal 
a a 2 ( a 1 ' a 2=0 )
max a2=a 2 ' x ' x a 2−2 a 2 ' a 2−1−a 1 ' a 2 (5.42)
Así, obtenemos la siguiente condición de primer orden del problema restringido
∂
∂a 2
=2x ' xa 2−22 a 2−a 1=0 (5.43)
entonces, premultiplicamos por a 1 '
2 a 1 ' x ' x a 2−22 a1 ' a 2− a1 ' a 1=0 (5.44)
pero a 1 ' a 2=0 y a 1 ' a1=1 . Por ello, =0 . Se deduce entonces que x ' x a2=2a2 , es 
decir a 2 es el segundo vector característico (correspondiente a la segunda raíz 
característica, 2 ).
Podemos hacer esto k veces, obteniendo a k soluciones. Si lo hiciéramos k veces, 
obtendríamos una representación exactamente equivalente a la matriz original x ' x . 
Juntamos los resultados en la matriz A=[a 1 ,a 2 , ... , a k] que describe los ponderadores 
de los “componentes principales” de x ' x , tal que Z=xA son los Z componentes 
principales. Note que:
 Z ' Z=A ' x ' xA==[1 0 ⋯ 00 2 ⋯ 0⋮ ⋮ ⋱ ⋮⋯ 0 ⋯ k] (5.45)
Además, si el rango de x es rk habrá k−r valores propios iguales a cero.26
26 Se puede usar los valores propios como test del grado de colinealidad. Si el estadígrafo toma 
un valor grande, ello indica la presencia de un nivel grave de colinealidad. (D.A. Belsley, 
“Demeaning conditioning diagnostics through centering (with discussion)”, The American 
Statistician, 38:73-93.
5.26
Finalmente, el estimador de componentes principales será:
cp=[Z ' Z ]
−1Z ' y (5.46)
pero Z ' y=A' x ' y=A' x ' [x]=A ' x ' x=A' x ' x  . Entonces, se desprende 
que cp=A
−1 de donde se deduce que:
• el estimador de componentes principales es una combinación lineal de los 
verdaderos parámetros.
• que el estimador de componentes principales es sesgado.
• la varianza del estimador cp es menor que la de mco .
Habitualmente, se calculan los componentes sobre variables originales 
estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar los 
componentes principales, no de la matriz de covarianzas sino de la matriz de 
correlaciones (en las variables estandarizadas coinciden las covarianzas y las 
correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y son 
distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia a 
todas las variables originales. En la matriz de correlaciones todos los elementos de la 
diagonal son iguales a 1. Si las variables originales están tipificadas, esto implica que su 
matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la 
traza) es igual al número total de variables que hay en la muestra. La suma total de 
todos los autovalores es p y la proporción de varianza recogida por el autovector j 
-ésimo (componente) es λj/p.
El uso del estimador tiene serios problemas. Primero, los estimadores son 
sensibles a la escala de los datos. Por ello se recomienda estandarizar las variables (1/σ²), 
pero esto afecta los resultados (cambia A). En realidad, todos los tests para detectar la 
colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos 
(origen y escala).27 Segundo, la selección de los componentes principales se hace en 
función de x y no de y, lo que sería preferible. Tercero, la interpretación de los 
parámetros es muy difícil, pues no serán los coeficientes asociados a las variables sino 
aquéllos asociados a una combinación lineal de las variables.
Note que nuevamente encontramos que (1) modelos con variables pertinentes 
omitidas producen parámetros sesgados, y (2) es posible tener estimadores sesgados 
más eficientes que un estimador insesgado.
27 Maddala (1977) propone otras “soluciones” para colinealidad. Entre ellas (a) usar información 
a-priori, (b) transformar las variables (logs o razones) y (c) usar más datos. Estudiar y evaluar 
si éstas son útiles o no. G.S. Maddala (1977) Econometrics McGraw-Hill editors.
5.27
5.05 Modelos de Varianza No Constante
Esta es una familia con dos ramas principales de modelos: heterocedasticidad y 
correlación de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y 
luego el de correlación de residuos (el contexto más usual es series de tiempo, pero 
existe una incipiente literatura en correlación espacial).
Es común, sobre todo en muestras de corte transversal, que los datos tengan 
heterocedasticidad, es decir, que los residuos (innovaciones) provengan de 
distribuciones con distintas varianzas. Por otro lado, en modelos de series de tiempo es 
común observar correlación residual, es decir que la observación de un residuo en un 
determinado instante de tiempo contenga información útil para predecir el error en otro 
instante de tiempo. Naturalmente, en algún caso particular se puede enfrentar 
simultáneamente la presencia de heterocedasticidad y correlación residual. Desde un 
punto de vista pedagógico conviene tratar ambos problemas por separado.
En el caso en que la varianza de los errores no sea residual, el modelo general se 
escribe de la siguiente manera:
y i=x i i
E[i ]=0
E[i i ' ]=
2
(5.47)
donde Ω es una matriz definida positiva. 
Obviamente, cuando Ω=I, volvemos al caso de mínimos cuadrados ordinarios. 
Por ello, el modelo descrito en (5.47) es llamado modelo de regresión generalizado. 
Gráficamente, el problema de heterocedasticidad se ve de la siguiente manera:
Figura 5.7
Cuando estudiamos heterocedasticidad suponemos que la matriz de covarianzas 
de los errores es del tipo:
5.28
2=[ 1
2 0 0 ⋯ 0
0  2
2 0 ⋯ 0
⋮ ⋮ ⋱ ⋮ ⋮
0 0 ⋯ 0  n
2] (5.48)
en cambio cuando hablamos sólo de correlación residual nos referimos a:
2=[ 1 1 2 ⋯ n−11 1 1 ⋯ n−2⋮ ⋮ ⋱ ⋮ ⋮n−1 n−2 ⋯ 1 1 ] (5.49)
donde los i son correlaciones (es decir, covarianzas divididas por varianzas). Note que 
en (5.48) las covarianzas son cero, en tanto que en (5.49) las varianzas son constantes. 
Nuevamente, estas separación es sólo para efectos pedagógicos, pues en la práctica no es 
infrecuente encontrar ambos problemas.
5.06 Heterocedasticidad
¿Cual es el efecto de la heterocedasticidad sobre un estimador mínimos 
cuadrados? Recordemos que el estimador mínimos cuadrados se puede escribir como
=x ' x −1 x ' y=x ' x −1 x '  (5.50)
y es el mejor estimador lineal insesgado, distribuyéndose asintóticamente normal. Más 
aún, si el residuo es normal, el estimador es eficiente.
Propiedades de muestra pequeña
Tomando esperanza en (5.50) obtenemos E[ ]=Ex [E [ | x ]]= , es decir el 
estimador sigue siendo insesgado. Esto es razonable porque el problema de 
5.29
heterocedasticidad se refiere al segundo momento (varianzas) y no a la media de los 
errores.
Tomemos la varianza del estimador para el caso que x es no estocástico:
Var [ |x ]=E [ − −' |x ]
 =E [x ' x −1 x '  ' x x ' x −1 |x ]
 =x ' x −1 x ' E [ ' ] x x ' x −1
 =x ' x −1 x ' [2] x x ' x −1
(5.51)
lo que podemos escribir como:
Var [ |x ]=
 2
n 1n x ' x 
−1
 1n x 'x1n x ' x
−1
(5.52)
• Si x es estocástico, la varianza no condicional es Ex [Var  |x ] .
• Si  se distribuye Normal, entonces ↝N [ ,2 x ' x −1 x 'x x ' x −1] .
Entonces, lo único que cambia es la varianza del estimador que ahora no es 
2 x ' x −1 , por lo que las inferencias basadas en esta última están sesgadas. Por otro 
lado, el estimador de σ² no tiene por qué haber retenido sus propiedades. Usualmente, 
no podemos saber si 2 x ' x −1 es mayor o menor que (5.52), por lo que los test t o F 
resultan inadecuados.
Propiedades de muestra grande
Retomemos la ecuación (5.52). Resulta evidente que:
• si los regresores se comportan bien, los términos 1 /n x ' x convergerán a Q.
• el término σ²/n converge a 0.
• el término 1 /n x 'x no tiene por qué converger.
Se puede demostrar que si los regresores cumplen las condiciones de Grenander, 
1 /n x 'x converge. Ello sucede en casos de heterocedasticidad pero no 
necesariamente cuando hay correlación de residuos. En este último caso, el estimador es 
inconsistente.
5.30
Finalmente, el estimador es asintóticamente normal porque las mismas 
condiciones de Grenander que impusimos para que
n  − =[1n x ' x]
−1
[ 1n x ' ] (5.53)
se distribuya asintóticamente normal, se cumplen aún si hay heterocedasticidad. 
También, se aplica el teorema de límite central.
La varianza asintótica del estimador será:
V.A. =
 2
n Q
−1 plim 1n x 'x Q−1 (5.54)
En resumen, la heterocedasticidad no afecta la estimación punto de los 
parámetros porque éstos no dependen de la varianza de la distribución. Pero, 
obviamente afecta la varianza del estimador.
Recordemos que:
Var [ |x ]=x ' x −1 x ' [ 2]x x ' x −1 (5.55)
Cuando hay homocedasticidad, E[i i ' ]=
2 I , por lo que el problema se 
reduce a tener un estimador de 2 . Por el contrario, el problema que presenta la 
existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia 
respecto de la estructura de ésta, es decir, respecto de E[i i ' ] . Vamos a realizar un 
truco que es estándar en la literatura econométrica: derivamos el estimador óptimo y sus 
propiedades bajo el supuesto que conocemos E[i i ' ] y luego estudiamos qué sucede 
si esta última suposición no es correcta. El primer estimador es llamado el estimador 
eficiente, en tanto que el segundo es llamado estimador posible.
Estimación eficiente
Si tuviésemos E[i i ' ] podríamos resolver el problema. Pensemos que, en ese 
caso, podríamos usar directamente el estimador de la varianza:
Var  OLS =x ' x 
−1 x ' E [ ' ]x x ' x −1 (5.56)
5.31
Basados en la idea que una matriz positiva y definida puede ser factorizada, 
vamos a hacer una factorización conveniente. Tomemos una matriz T(n×n) y 
premultipliquemos el modelo, tal que
Ty i=Tx i T i (5.57)
Se sigue cumpliendo que E[T ]=0 , por lo que podemos obtener:
E[T   ' T ' ]= 2T 'T (5.58)
Ahora, si T 'T=I habríamos solucionado el problema de heterocedasticidad, 
pues podemos estimar el modelo (5.57) por mínimos cuadrados ordinarios ya que los 
errores serían homocedásticos y recuperar los estimadores de los parámetros del modelo 
original. Queremos, entonces, encontrar T tal que −1=T ' T para ponderar el modelo. 
El estimador de mínimos cuadrados ponderados –también llamado estimador de 
Aitken28– sería:
GLS=x i ' T ' T x i 
−1x i ' T ' T y i pero T ' T=
−1
 =x i '
−1 x i 
−1x i '
−1 y i
(5.59)
Nóte que este estimador es más general de lo que parece. Ciertamente, cualquier 
forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la 
matriz de covarianza de los errores sea diagonal del tipo 2 . Nuevamente, note que 
el estimador de mínimos cuadrados ordinarios es un caso particular de mínimos 
cuadrados generalizados, aquel donde T=I.
Estimación Posible
¿Qué sucede cuando  es desconocida? En algunas ocasiones, un reducido 
número de parámetros, θ, es capaz de describir el patrón de heterocedasticidad. Por 
ejemplo, i
2= 2 f z i ;  entonces, podríamos usar = , es decir, el estimador de 
 basado en el estimador de θ.
Esto parece lógico: si plim = entonces → . En realidad, no es siempre 
así. Sea FGLS=x i ' 
−1 x i 
−1 x i ' 
−1 y i el estimador de mínimos cuadrados 
28 A. Aitken (1935), “On least squares and linear combinations of observations”, Proceedings of 
the Royal Statistical Society, 55:42-48.
5.32
generalizados posible. ¿Cuándo son asintóticamente equivalentes FGLS y GLS ? Las 
condiciones son:
plim[1n x ' −1x−1n x '−1 x ]=0
plim[ 1 n x ' −1− 1n x '−1]=0
(5.60)
La primera condición dice que si la matriz de momentos ponderados converge a 
una matriz positiva definida, la matriz de momentos ponderados posibles debe 
converger a la misma matriz. Esto, en realidad, es un supuesto.
La segunda condición dice que si los regresores transformados están bien 
comportados, la suma (y por consiguiente el estimador) se distribuirá asintóticamente 
igual a la verdadera suma y estimador (no necesariamente, pero típicamente, normal).
Lo interesante es que no se necesita que el estimador de θ sea eficiente, basta con 
que sea consistente para que el estimador de mínimos cuadrados generalizados posible 
sea eficiente. Para demostrar esto basta con plantear el estimador máximo-verosímil de 
los parámetros del modelo generalizado y demostrar que es equivalente al de mínimos 
cuadrados generalizados posible, por lo que no hay ganancia de eficiencia al usar  o 
 .
Tests de Heterocedasticidad
Una buena razón para estudiar tests de heterocedasticidad es, naturalmente, la 
detección del problema y su eventual corrección. Una razón más sutil, sin embargo, es 
que cada tipo de test nos enseña de manera simple y valiosa una forma particular que 
puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cuáles 
contextos una u otra forma de heterocedasticidad puede estar presente.
1. Tests en muestras repetidas
Este es el test más simple de heterocedasticidad y se aplica cuando se tienen 
varias muestras repetidas de un mismo experimento. Un ejemplo en el cual este test es 
aplicable es cuando se tienen datos agrupados (p.e., ciudades): en cada cada ubicación 
habrá ni observaciones de distribuciones con varianzas potencialmente diferentes. 
La lógica de operación es la siguiente:
• Estime el modelo y i=x i i y compute i
2 para cada muestra i=1, ..., m.
• Estime el modelo y i=x i i y compute *
2 con todos los datos.
5.33
El test es directo sobre la hipótesis nula que la varianza de los grupos no difiere 
de aquella de la muestra completa, ajustando por tamaños relativos
Homocedasticidad ≡H 0 :n−m  ln *
2−∑
j=1
m
n j−1 ln  i
2=0
Heterocedasticidad ≡H 1 : n−m  ln *
2−∑
j=1
m
n j−1 ln  i
2≠ 0
(5.61)
El test es, directamente, un test de razones de verosimilitud
−2[n−m  ln *2−∑j=1
m
n j−1 ln  i
2]↝ 2 m−1 (5.62)
Debido a que los estimadores de las varianzas por muestra y totales son formas 
cuadráticas de errores normalizados, el test se distribuye χ²(m-1). Los grados de libertad 
se derivan del número de varianzas libres (m) menos la restricción de una única varianza 
común.
2. Test de Breusch y Pagan29
Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible 
disponer de varias realizaciones de la variable aleatoria 2 . Una vez estimado el 
modelo y i=x i i , lo que se hace es:
• Computar g i=i
2 /  2
• Hacer una regresión entre gi y las variables que quiera, incluyendo x, y computar 
la suma de cuadrados explicados, SCE.
El test consiste en estudiar la suma de cuadrados explicados, SCE. Si una 
regresión puede “explicar” la proxy de heterocedasticidad, entonces hay 
heterocedasticidad. Alternativamente, si hay homocedasticidad, solo la constante 
debiese ser estadísticamente significativa. Por ello,
H 0 : Homocedasticidad ≡SCE=0
H 1 : Heterocedasticidad ≡SCE≠ 0
(5.64)
29 Breusch, T and A. Pagan (1979), “A simple test of heteroskedasticity and random coefficient 
variation”, Econometrica 47:1287–1294.
5.34
Debido a que los estimadores de las varianzas por muestra y totales son formas 
cuadráticas de errores normalizados, ½SCE se distribuye χ²(p-1) bajo la hipótesis nula. 
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresión.
3. Test de Goldfeld y Quandt30
Este test aprovecha información extra-muestral para estudiar problemas de 
heterocedasticidad. Si creemos que la variable xk es la causante de heterocedasticidad, el 
procedimiento es:
• Ordene la muestra de mayor a menor segun xk.
• Remueva c datos del centro de la muestra.
• Haga la regresión del modelo y i=x i i en cada grupo y compute la suma 
de cuadrados residuales, SRC.
El test consiste en estudiar la diferencia entre las SRC. Si éstas son iguales, 
significa que no hay heterocedasticidad. Por ello,
H 0 : Homocedasticidad ≡SRC 1=SRC 2
H 1 : Heterocedasticidad≡SRC 1≠SRC 2
(5.65)
Como estamos comparando dos sumas de residuos normales al cuadrado y hay 
el mismo número de regresores y datos en cada sub-grupo, entonces el test es 
SCR 1
SCR 2
↝ F [n−c /2−kn−c /2−k] .
4. Test de White31
El test de White utiliza una lógica similar a la del test de Breusch y Pagan en el 
sentido de hacer una regresión entre la proxy de la varianza de los errores y el grupo de 
regresores de la regresión original, x, pero lo extiende para incluir sus cuadrados y 
productos cruzados. Es decir,
• Computar i= y i−− x i
• Hacer una regresión entre i
2 y las variables x i , x i
2 y los productos cruzados 
x i x j . 
Es decir, 
30 S. M. Goldfeld and R. E. Quandt (1965), “Some tests for homoskedasticity”, Journal of the 
American Statistical Association, 60:539–547.
31 White, H. (1980), “A Heteroscedasticity-Consistent Covariance Matrix Estimator and a Direct 
Test for Heteroscedasticity”. Econometrica, 48:817-838.
5.35
i
2=x i x i
2x i x j 'i (5.66)
La hipótesis nula es que en un caso de homocedasticidad ninguno de los 
coeficientes, mas allá de la constante, debe ser significativo. El test preferido de White es 
un multiplicador de Lagrange hecho sobre la hipótesis nula que ninguna variable 
debiese ser significativa si el modelo es homocedástico. Aunque la distribución de 
muestra finita es desconocida, es posible demostrar que nR2 se distribuye 
asintóticamente χ2(p), donde p es el número de estimadores excepto la constante. Otra 
alternativa es hacer un test F estándar de variables omitidas.
Note que este test es bastante general pues no se necesita hacer supuesto alguno 
sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. Sin 
embargo, el test es potente solo asintóticamente lo que significa que tiene poca potencia 
en muestras pequeñas. Adicionalmente, el uso de muchos términos cruzados hace difícil 
el rechazo de la hipótesis nula y exacerba el problema de pocos grados de libertad.
Matrices de Covarianzas Robustas
Hay muchísimos tests de heterocedasticidad. Pero ¿realmente necesitamos estos 
tests? ¿necesitamos entender qué es lo que causa la heterocedasticidad?
• Verdaderamente, no. Lo que queremos es 2 para poder hacer mínimos 
cuadrados generalizados.
• En realidad, no. Lo que queremos es 2  , un estimador de 2 .
• Tampoco, lo que queremos es un estimador de =
 2 x 'x
n
• En realidad, lo que queremos no es todo  sino sólo su diagonal.
White (1980) demuestra que un buen estimador de =
 2 x 'x
n
 es 
S0=
1
n∑ i
2x i ' x i . Por ello, la “matriz de corrección de la varianza de los parámetros 
para el caso de heterocedasticidad” –también llamada “matriz de errores robustos”– es:
Var  =n x i ' x i 
−1 S0 x i ' x i 
−1 (5.67)
Note que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es 
general.
5.36
Extensión de Newey y West
Newey y West (1987) han extendido el estimador de White para el caso en que la 
matriz Ω no es diagonal. El estimador es:
Q=S0
1
n∑j=1
J
∑
i= j1
n j
J1
t t− j x t ' x t− jx t− j ' x t  (5.68)
donde j/(J+1) es una corrección no paramétrica por tamaño de muestra.
Modelos de heterocedasticidad condicional 
Generalmente estamos interesados en modelar la media condicional de una 
variable serie. No obstante, recientemente se ha hecho común modelar la varianza de la 
serie, pues ella puede reflejar comportamientos que son característicos de algunos 
problemas económicos tales como los precios de activos, variables financieras, riesgo, 
etc.
Los modelos de heterocedasticidad condicional son modelos donde la varianza 
de la serie no es constante, aunque sigue un proceso estacionario. Un modelo típico de 
esta familia es el modelo ARCH32:
 
y t=x tt
t=t 01 t−1
2 1/2
(5.69)
con  normal estándar. Como resulta obvio, E[t |t−1 ]=0 y E[t ]=0 . Así es que el 
modelo sigue describiendo la media condicional de y t .
Ahora, la varianza condicional, V [t |t−1 ] , es
V [t |t−1 ]=E [t
2 |t−1]
 =E [t
2 ][01t−1
2 ]
 =[01t−1
2 ]
(5.70)
Pero la varianza no condicional, V [t ] , es
32 Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the 
Variance of U.K. Inflation," Econometrica, 50:987-1008.
5.37
V [t ]=E [V t |t−1]
=01E [t−1
2 ]
=01V [t−1
2 ]
(5.71)
Pero si la varianza es estacionaria, en el sentido que no cambia en el tiempo, 
entonces V [t ]=V [t−1 ] , por lo que la ecuación (5.71) implica
V [t ]=
0
1−1
(5.72)
¿Cómo se ve un proceso de este tipo? Gráficamente:
Figura 5.8
Proceso ARCH y su varianza
Es decir, la serie presenta segmentos de comportamiento disímil. El proceso 
alterna entre periodos de gran inestabilidad, donde shocks grandes son seguidos de 
shocks grandes, y otros de relativa estabilidad, donde shocks pequeños siguen a shocks 
pequeños.
Resulta natural preguntarse qué modelo económico puede producir este tipo de 
comportamiento. Un ejemplo típico son las guerras de precios en mercados donde hay 
colusión. Mientras la disciplina del cartel se mantiene hay sólo pequeñas desviaciones 
5.38
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en 
la medida que todos los productores compiten por una mayor participación del 
mercado.
El modelo ARCH puede ser extendido para incorporar términos tipo media 
móvil en la varianza predicha. En ese caso se llama GARCH (por generalizado)33 y se 
modela:
y t=x tt
t
2=01t−1
2 2t−1
2 (5.73)
También se puede extender para incluir regresores, z t en la varianza, de modo 
que el modelo queda:
 
y t=x tt
t
2=01t−1
2 2t−1
2 3z t
(5.74)
Finalmente, algunos modelos incluyen la varianza condicional en el modelo de la 
media condicional. Esto da origen a un modelo ARCH-M que es ampliamente usado en 
finanzas.34
y t=x tt
2t
t
2=01t−1
2 2t−1
2 (5.75)
¿Cómo sabemos que el modelo es del tipo GARCH? Una manera simple es 
estimar el modelo de la media condicional, luego obtener los residuos, computar los 
residuos al cuadrado (estimador de la varianza) y computar la función de 
autocorrelación. Si ésta no muere súbito en t=1, hay heterocedasticidad condicional.
Es posible, además, hacer tests de especificación para saber si el modelo correcto 
es GARCH(p,q) o GARCH(0,q). El problema está en que ese tipo de test no permite 
discernir entre esa hipótesis y esta hipótesis: GARCH(0,q) vs GARCH (0,p+q).
¿Cómo estimamos un modelo GARCH? El proceso de estimación es bastante no 
lineal. Lo que se hace es iterar en la función de verosimilitud hasta que ésta alcance un 
máximo. Ello supone que los errores son normales.
33 Bollerslev, Tim (1986). "Generalized Autoregressive Conditional Heteroskedasticity," Journal 
of Econometrics, 31:307-327.
34 Engle, Robert F., David M. Lilien, and Russell P. Robins (1987). "Estimating Time Varying Risk 
Premia in the Term Structure: The ARCH-M Model," Econometrica, 55:391-407.
5.39
log L=−12 log 2−
1
2 log t
2 −
1
2
 y t−x t 
2
t
2 (5.76)
Donde 
t
2=c y t−1−x t−1
2t−1
2 (5.77)
5.07 Correlación de residuos
Supongamos ahora que que E[i , j ]≠ 0 . En tal caso, la matriz de covarianza de 
residuos es:
[11  12 ⋯ 1n 21  22 ⋯ 2n⋮ ⋮ ⋱ ⋮n1  n2 ⋯  nn ] (5.78)
Aún si consideramos el problema de residuos son homocedásticos
[ 
2  12 ... 1n
 21 
2 ⋯ 2n
⋮ ⋮ ⋱ ⋮
n1  n2 ⋯ 
2 ] (5.79)
y simétrica, es decir, ij= ji resulta imposible de estimar (5.79) con una muestra finita. 
Hay más incógnitas que grados de libertad. Usualmente:
• Si la forma de ij no es parametrizable, es decir no tiene una estructura, no es 
estimable.
• Si la forma de ij es parametrizable, es decir tiene una estructura (simple),es 
estimable.
• Si es estimable, los parámetros estimados por mínimos cuadrados del modelo 
y t=x tt siguen siendo insesgados, excepto si las variables de lado derecho 
5.40
contienen un rezago de la variable endógena. La demostración del primer caso 
es:
=x t ' x t 
−1x t ' y t pero yt=x tt
=x t ' x t 
−1x t ' [x tt ]=x t ' x t 
−1 x t ' t
(5.80)
y por lo tanto, E[ ]= .
Supongamos que y t=x tt y t=t−1t donde t es ruido blanco. 
Entonces,
V [ ]= 
2
∑ x t2

22
∑ x t2 [∑ x t x t−1∑ x t2 2∑ x t x t−2∑ x t2 ...N−1∑ x1 xN∑ x t2 ] (5.81)
por lo tanto, V [ ]=V [ OLS ] sólo si ρ=0 , es decir cuando no hay correlación.
La varianza del estimador bajo autocorrelación podrá ser mayor o menor que la 
de mínimos cuadrados dependiendo del valor de  . Si  es positivo, se sobreestima la 
varianza. Si  es negativo, no es claro el sesgo.
La solución al problema es, naturalmente, usar mínimos cuadrados 
generalizados, pero esto sólo es posible si conocemos Ω. Lo que se hace, usualmente, es 
hacer tests estadísticos para determinar el tipo de correlación de los residuos, dentro de 
modelos relativamente simples en términos del número de parámetros.
¿Cómo sabemos si hay correlación residual?
Un test bastante común es el de Durbin y Watson35, para el caso de errores con 
correlación de orden 1. Es decir, t= t−1t (correlación de orden 2 es 
t=1t−12t−2t ). El test es:
d=
∑
i=2
T
t−t−1 
2
∑
i=1
T
t
2
(5.82)
35 Durbin, J. and Watson, G.S., "Testing for Serial Correlation in Least Squares Regression I", 
Biometrika, Vol. 37, 1950, pp. 409-428.
5.41
La lógica es que:
• si hay correlación positiva, t será “cercano” a t−1 y, por lo tanto, d será 
cercano a cero.
• si hay correlación negativa t será “lejano” a t−1 y, por lo tanto, d será distinto 
de cero.
Desarrollemos el cuadrado del numerador de la ecuación (5.82).
∑
i=2
T
t−t−1
2=∑
i=2
T
[t
2t−1
2 −2t t−1] (5.83)
Sumando y restando convenientemente:
∑
i=2
T
t−t−1
2=∑
i=1
T
t
2−1
2∑
i=1
T
t−1
2 −T
2−∑
i=2
T
2t t−1 (5.84)
de vuelta en (5.82)
d=
∑
i=1
T
t
2−1
2∑
i=1
T
t−1
2 −T
2−∑
i=2
T
2t t−1
∑
i=1
T
t
2
(5.85)
es decir, 
d=1−
1
2
∑
i=1
T
t
2

∑
i=1
T
t−1
2
∑
i=1
T
t
2
−
T
2
∑
i=1
T
t
2
−
∑
i=2
T
2 t t−1
∑
i=1
T
t
2
(5.86)
Notemos que:
• Si T es razonablemente grande, el segundo y cuarto términos serán cercanos a 
cero.
• Igualmente, el tercer término será cercano a 1.
• El último término es interesante, porque es 
5.42
cov t ,t−1
var t−1
(5.87)
es decir, es el estimador natural de mínimos cuadrados de  . En resumen, podemos 
escribir d ≈ 2 1− .
Volvamos al test de Durbin y Watson. Si d ≈ 2 1− , entonces tenemos los 
siguientes casos:
• Si no hay correlación d = 2.
• Si hay correlación positiva, 0 , d es menor que 2. En el límite, d es 0 cuando 
 es 1.
• Si hay correlación negativa, 0 , d es mayor que 2. En el límite, d es 4 cuando 
 es -1.
por lo tanto, d estará entre 0 y 4.
La aplicación del test no es tan simple, porque hay tres casos que estudiar. En 
este caso habrá dos “tests” son:
H 0 :No hay autocorrelación
H 1 :Hay autocorrelación positiva
H 0 :No hay autocorrelación
H 1 :Hay autocorrelación negativa
Como se ve, la hipótesis nula es siempre la misma pero la hipótesis alternativa es 
compleja. Otro problema es que usamos los residuos del mínimos cuadrados como 
estimadores de los residuos verdaderos, es decir, éstos dependen de x. Por ello, la 
distribución del test no es estándar y tiene distintos límites superiores e inferiores.
Si hacemos un test de correlación positiva al 95%, entonces (1) si d está por 
encima del limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si 
d está por debajo del límite inferior tengo correlación positiva.
5.43
Figura 5.9
Si hacemos un test de correlación negativa al 95%, entonces (1) si d está por 
debajo de 4-limite superior no puedo rechazar la H 0 que no hay autocorrelación y (2) si 
d está por debajo del límite inferior tengo correlación positiva.
Figura 5.10
El test completo de Durbin y Watson para autocorrelación es:
Figura 5.11
2LI LS
Inconcluso
Positiva
No hay o negativa
2 4-LI4-LS
InconclusoPositiva o no hay
Negativa
2 4-LI4-LS
Inconcluso
Negativa
LSLI
Positiva
No hay correlación
Inconcluso
5.44
El test de Durbin y Watson no se puede aplicar cuando hay variables del lado 
izquierdo rezagada al lado derecho. En ese caso se usa el test h de Durbin (1970).36 Este 
estimador consiste en computar
h=r  n1−n 2 (5.88)
donde r es el coeficiente de correlación del primer rezago, n es el tamaño de muestra y 
 
2 es la varianza del estimador del rezago de la variable endógena. El estadígrafo h se 
distribuye normal estándar.
Soluciones al problema de correlación de primer orden.
Volvamos al modelo original.
y t=x tt
t=t−1t
(5.89)
Podemos multiplicar el modelo original por  , rezagarlo un periodo y restarlo 
del original para obtener:
y t− yt−1=x t−x t−1t−t−1 (5.90)
es decir:
y t= yt−1[x t− x t−1 ]t (5.91)
• Note que ahora no hay problema con los errores.
• Si conociéramos  , podríamos transformar los datos y estimar con mínimos 
cuadrados. En realidad esto equivale a hacer mínimos cuadrados generalizados.
¿Lo conocemos? No. Pero tenemos una aproximación, d. Obtenemos d haciendo 
una regresión en los residuos originales de mínimos cuadrados y luego usamos 
=1−d /2 .
36 Durbin, J. “Testing for serial correlation in least squares when some of the regressors are 
lagged dependent variables” Econometrica, 38: 410-421.
5.45
Hay una estrategia estadísticamente mejor (Cochrane-Orcutt).37
1. Estimar el modelo original por mínimos cuadrados y obtener los residuos.
2. Hacer una regresión entre residuos y su rezago, obteniendo 1
3. Transformar el modelo usando 1 (es decir, y t− 1 y t−1 , etc).
4. Ir a 1 y volver a hacer el ejercicio hasta que el  converja.
Un problema del método de Cochrane-Orcutt es que nada garantiza que la 
distribución del estimador  converja a un óptimo global y, de hecho, podría ser el caso 
en que haya más de una moda en dicha distribución. Es por ello que se sugiere usar una 
estrategia de búsqueda sobre la base de una “grilla” que verifique todos los valores de 
 y satisfaga algún criterio de óptimo (p.e., mejor ajuste). En tal caso, un método 
sencillo es el de Hildreth y Lu38 que consiste en estimar el modelo transformado con 
=1, 0.99, 0.98, ... 0 ,... -0.99, -1 y se escoge el estimador minimizando la suma de residuos 
al cuadrado.
5.08 Variables instrumentales
El último supuesto que no hemos levantado es la ausencia de correlación entre 
los regresores y el error, es decir, E[ x ,]=0 . En numerosas ocasiones no es posible 
estar seguros que ello se cumple, en particular cuando se usan datos macroeconómicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que están 
correlacionadas con aquellas que se usan para modelar. Por ejemplo, cuando se estudia 
el rendimiento escolar y se omite la educación de los padres como determinante, 
entonces la estimación entrega resultados sesgados porque algunas variables 
independientes (p.e., ingresos familiares) están típicamente relacionadas con la variable 
omitida. Un segundo caso se produce cuando hay problemas de endogeneidad en 
alguna variable del lado derecho: este “sesgo de simultaneidad” lo estudiaremos más 
adelante. Una tercera causa de violación de este supuesto es cuando las variables 
independientes están medidas con error. En tal caso, como vimos en la sección 2, cada 
vez que se observa x no se observa la verdadera variable sino una medición con ruido el 
cual estando correlacionado con x queda incluido