Capitulo4Final - Gustavo Perales Vivar

•
Outros

Desafio PASSEI DIRETO
28/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

101.558 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Capítulo 4
Modelo Clásico de Regresión Lineal
En las secciones anteriores hemos definido el modelo estadístico como aquel que 
incluye:
● un modelo probabilístico, ={ f  x; ,∈}
● un modelo muestral, x= X 1, X 2, ... X n
de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el 
problema consiste en sustituir la ignorancia sobre la función de probabilidad por la 
ignorancia respecto de los parámetros  de la función de densidad f · que se escoge 
para describir el fenómeno de interés.
En general, los datos recolectables no corresponden de manera precisa con la 
noción de la muestra observada de variables aleatorias independientes que está implícita 
en el uso del modelo muestral por varias razones. Primero, porque no necesariamente 
las muestras tienen las características que se requieren para hacer la inferencia. Por 
ejemplo, datos agrupados –que son muy comunes– corresponden típicamente al 
resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que 
los datos correspondan a una muestra aleatoria simple porque hay dependencia 
temporal. Segundo, porque en muchos casos existen parámetros incidentales que 
complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio 
y se debe incluir parámetros adicionales para capturar esa dimensión (p.e., datos 
nominales en presencia de inflación)
Formalmente, se postula la existencia de un modelo adicional que da origen a los 
datos estadísticos (MGE) que aproxima, a veces de manera gruesa, el MGD que dió 
origen a los datos. La existencia de este modelo suplementario permite incluir no sólo la 
información de la muestra, sino otra que sea a-priori sobre el fenómeno.
Exigiremos que para una variable aleatoria de interés y definida en 
S ,ℱ , P . el modelo MGE quede definido por
y i=ii (4.1)
donde i=E  y i |℘  y es cualquier σ-álgebra que cumpla . Definido de esta℘ ℘ ⊆ ℱ 
manera, llamaremos parte sistemática a i y parte asistemática a i , donde se cumple que 
ambas partes son ortogonales entre sí, i⊥i . Analíticamente es importante que ambas 
partes sean ortogonales, porque de otro modo invalidaría la elección de . Note que al℘ 
definir el problema de este modo, el concepto de “error” es mucho más amplio que el 
que se le da en la interpretación clásica como el resultado de error de medición o en 
variables.
4.2
4.01 Lógica del modelo de regresión1
El modelo de regresión lineal será nuestra principal herramienta en este curso, 
aunque no la única. Una definición apropiada de regresión econométrica es: Regresión es 
una relación funcional entre dos o más variables correlacionadas que se obtiene de los datos y se 
usa para predecir una dada la(s) otra(s).2
y i= f x1
i , x2
i , ... , xk
i ;i (4.2)
Lo que estudiaremos es una técnica que nos permite seleccionar los parámetros 
 que relacionan los condicionantes o “regresores” x  con la variable de interés 
 y . Existen otras herramientas para parametrizar la ecuación (4.2), algunas de amplia 
utilización en economía, que nosostros no vamos a estudiar en este curso por razones de 
tiempo. Por ejemplo, los métodos Bayesianos, no paramétricos, o semi no-paramétricos.
Estudiaremos varias dimensiones del modelo de regresión lineal, incluyendo 
problemas de especificación, problemas de estimación de parámetros, testeo de hipótesis 
sobre los parámetros, y uso del modelo estimado para hacer predicciones condicionales.
El modelo clásico de regresión lineal se basa en seis supuestos que vamos a 
revisar a fondo antes de derivar estimadores y distribuciones.
1. Forma funcional lineal
2. Rango completo de los regresores
3. Media condicional de los residuos cero
4. Residuos esféricos
5. Regresores no estocásticos
6. Residuos normales.
Como veremos a lo largo de este capítulo, los primeros tres supuestos nos 
permiten obtener los estimadores de los parámetros, en tanto que los segundos tres 
supuestos nos permiten hacer inferencias, tests y proyecciones.
4.02 Análisis de los supuestos del modelo de regresión lineal
1 El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el 
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el 
que descubrió que las distintas generaciones tienden a parecerse más a sus ancestros lejanos que a sus 
padres (“Typical Laws of Heredity”, Nature, 15 (1877)). Galton llamó a la regresión reversión, lo que 
sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny 
Yule, sobre la base de la distribución normal multivariada. R.A. Fischer reformuló el modelo de 
regresión sobre la base del trabajo de Gauss que se refiere al método de método de mínimos cuadrados.
2 Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922.
4.3
Modelo lineal
Un modelo es lineal si podemos escribir la relación entre x e y como:
y i= x ii (4.3)
donde α y β son parámetros constantes. Si el modelo analítico no es lineal, hay que 
linealizarlo (si es posible). Por ejemplo: 
 Y i=AK i
 Li

log Y i=logA log K i log Li
(4.4)
Note, sin embargo, que el modelo debe ser lineal en los parámetros, no en las 
variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en 
los parámetros y pueden ser estimados mediante transformaciones simples de las 
variables.
y i=
1
x i
i
y i= log xii
(4.5)
De esta manera, podemos escribir el modelo general como:
y i=x i i (4.6)
donde y es un vector con la variable de interés, x es una matriz con las variables que 
describen el fenómeno y  es un vector de perturbaciones aleatorias que denota la 
distancia entre MGD y MGE. Escribimos la ecuación (4.6) de manera explícita:
[ y1y2⋮yn]=[
x1
1 x1
2 ⋯ x1
j
x2
1 x2
2 ⋯ x2
j
⋮ ⋮ ⋱ ⋮
xn
1 xn
2 ⋯ xn
j][12⋮ j][
1
2
⋮
n
] (4.7)
Para considerar la posibilidad que las variables aleatorias tengan media distinta 
de cero, incluimos un vector de 1 en la primera columna.
4.4
[ y1y2⋮yn]=[
1 x1
1 x1
2 ⋯ x1
j
1 x2
1 x2
2 ⋯ x2
j
⋮ ⋮ ⋮ ⋱ ⋮
1 xn
1 xn
2 ⋯ xn
j][01⋮ j][
1
2
⋮
n
] (4.8)
Regresores de rango completo
El supuesto necesario es que el rango de x sea completo, x =k . Este 
supuesto es también llamado condición de identificación, ya que:
y i=1 xi
12 x i
23 x i
3i
x i
3= x i
2i
⇒
y i=1 xi
12 x i
23[ x i
2i]i
y i=3 1 x i
1[23] x i
23ii
(4.9)
es decir, aunque es posible obtener un estimador de 23  no es posible identificar 
por separado los parámetros 2 y 3 . Evidentemente las variables económicas suelen 
tener bastante correlación entre sí, por lo que este problema se presenta con frecuencia 
en el trabajo empírico. Más adelante, cuando se discutan problemas de 
multicolinealidad, se abordará formalmente este tipo de fenómeno, su detección y su 
eventual corrección.
Resulta evidente que rango completo requiere que  xʹ =nx =k . No 
obstante, puede haber correlación imperfecta entre los regresores, lo que dificulta pero 
no impide la estimación de un modelo de regresión lineal y su uso para hacer 
proyecciones (este problema lo volveremos a estudiar en el Capítulo 5).
Media condicional de los errores cero
El supuesto de media cero de los errores es condicional en x . Es decir, 
E [i | x ]=0 . La intuición se relaciona directamente con la descripción del MGE 
discutido más arriba. Del supuesto anterior se derivan varios elementos que son 
importantes para entender qué hace y no hace el modelo de regresión lineal.
• El supuesto no es E [i | x i]=0 . 
4.5
• Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definición de densidadmarginal.
• La presencia de la constante entre los regresores asegura que E [ | x ]=0 . 
• Si E [ | x ]=0 , entonces el modelo de regresión es una media condicional. Si, por 
el contrario, E [i | x ]≠ 0 , la regresión no es una media condicional, como se ve 
en la siguiente derivación.
E [ y | x ]=E [ x | x ]
 = E [ x | x ]E [ | x ]
 = x
(4.10)
• Se cumple que cov [ x i ,i]=0 .
Errores esféricos3
Para estudiar este supuesto es conveniente descomponerlo en dos partes. 
(a) Var [i | x ]=
2 es constante y, en particular, no depende de x . A esto se le llama 
homocedasticidad.4 La función cedástica es la que describe la incertidumbre asociada a los 
shocks o perturbaciones,  . Homocedasticidad señala que dicha incertidumbre no 
depende de haber observado una realización particular de x .
(b) Cov i , j | x =0 . A esto se le llama ausencia de correlación entre errores. Señala 
que observar una determinada perturbación o error no contiene información respecto 
del posible tamaño de otra perturbación.
La matriz de covarianzas condicional de los errores es:
E [ ' | x ]=[E [11 | x ] E [12 | x ] ⋯ E [1 n | x ]E [21 | x] E [2 2 | x ] ⋯ E [2 n | x ]⋮ ⋮ ⋱ ⋯E [n1 | x ] E [n 2 | x ] ... E [n n | x ]]=[
 2 0 ⋯ 0
0  2 ⋯ 0
⋮ ⋮ ⋱ ⋮
0 0 ⋯ 2] (4.11)
3 "Like other occult techniques of divination, the statistical method has a private jargon deliberately 
contrived to obscure its methods from non-practitioners." - G. O. Ashley
4 Los términos hetero y homocedástico fueron acuñados por Karl Pearson en 1905 ("On the general theory 
of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El término 
se deriva del griego skedastos , que significa “capaz de ser repartido de manera irregular”.
4.6
De manera sintética podemos escribir E [ ' | x ]= 2 I . Aplicando la 
descomposición de varianza se puede derivar la siguiente identidad:
V []=E x [V [ | x ] ]V x [E [ | x ]] (4.12)
es decir, la incertidumbre de la predicción hecha sobre la base de un modelo 
econométrico V x [ E [ | x ]] es menor que la incertidumbre de los datos V [ ] .
Regresores no estocásticos
Este supuesto señala que la única fuente de incertidumbre en el modelo 
estadístico está en la variable que se modela, y . Más precisamente, en los parámetros 
que describen la distribución f  y , condicional en x .
Otra manera intuitiva de entender este supuesto es observar que no se está 
haciendo un modelo de los regresores. En ese sentido, los regresores son variables 
“controlables” por el científico. Por ello, usualmente se dice que “los regresores son fijos 
en muestras repetidas”, queriendo decir que si el científico quisiera repetir el 
experimento –sacar otra muestra, en nuestro caso– la única fuente de incertidumbre 
sería el resultado del experimento, pero no la variación de los condicionantes. Si los 
regresores son controlables, entonces los supuestos anteriores son incondicionales.
Este supuesto no es demasiado costoso, como se deducirá al estudiar las 
distribuciones asintóticas de los estimadores más adelante.
Errores “normales”
Esto quiere decir que los errores, condicionales en x, se distribuyen con 
distribución normal. En particular,
i | x↝ N [0,2 I ] (4.13)
¿Por qué “normales”? La manera de entender esto es que el modelo no pretende 
ser una descripción 100% fiel del fenómeno, sino sólo una aproximación conveniente. 
Por ello, hay un “error”. Si las causas de este error no son sistemáticas, una normal es 
una buena descripción. Si son sistemáticas, el modelo está mal especificado, pues 
debería incluir dichas sistematicidades.
4.7
4.03 Representación gráfica de la regresión lineal
Una manera simple de entender la relación entre la muestra, los supuestos y la 
regresión lineal se encuentra en las siguientes tres figuras. Para que resulte fácil de 
entender se ha reducido el problema a un modelo univariado y una muestra de dos 
observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En 
la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}).
Figura 4.1
Las observaciones
Pero recordemos que, respecto de y , el problema de observar determinados 
valores es esencialmente estocástico y, más específicamente, que hemos supuesto que las 
perturbaciones aleatorias siguen una distribución normal (supuesto 6). Por otro lado, 
estamos suponiendo que los condicionantes x son determinísticos (supuesto 5). La 
Figura 4.2 describe el rol que juegan ambos supuestos.
Figura 4.2
La estocasticidad
P(u)
x1 x2
y1
y2
P(u)
x1 x2
y1
y2
4.8
Nóte varios elementos importantes. Primero, la “forma” de la distribución en 
términos de dispersión es idéntica para cualquier observación de la variable aleatoria x 
(supuesto 4). Segundo, las observaciones de y no tienen por qué coincidir con el valor 
esperado de y condicional en x, basta con que estén en el rango de la distribución. 
Tercero, no hay incertidumbre respecto de cada observación de x.
Finalmente, la regresión lineal describe la media condicional de y dado x , lo 
que gráficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como 
se ver en la Figura 4.3.
Figura 4.3
La regresión
4.04 Derivación del estimador de mínimos cuadrados5
En términos generales la idea subyacente en el método de mínimos cuadrados es 
extremadamente simple y consiste en tratar de aproximar la curva de regresión 
E [ y i ∣ x ] usando las observaciones contenidas en la muestra cometiendo el menor error 
posible. Es usual referirse a:
• Modelo verdadero (poblacional) y i= x ii
• Modelo muestral y i=  x i i
La idea del método de mínimos cuadrados es buscar el  que minimiza el error 
cometido. Si el procedimiento está bien,  convergerá a  . No tiene sentido minimizar 
5 El término Método de Cuadrados Mínimos fue acuñado por Adrien Marie Legendre (1752-1833), 
presentado en el apéndice de su libro Nouvelles méthods pour la determination des orbite des cométes (1803). 
Un tratamiento más completo del método apareció posteriormente en el libro de Gauss Theoria Motus 
Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del 
método surgió porque Gauss afirmó que venía usándolo desde 1795.
P(u)
X1 X2
y1
y2
yi=xi
E y1|x1
E y2|x2
4.9
un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos 
por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de 
errores al cuadrado.
Estimador de mínimos cuadrados
Definimos la suma de residuos al cuadrado de un modelo lineal –para algún 0 – 
como:
∑
i=1
n
i |0
2 =∑
i=1
n
 y i−0 ' x i
2=|0 ' |0 (4.14)
note que hemos usado el supuesto 1. En adelante omitimos el subíndice i salvo que sea 
confuso. El objetivo es minimizar la ecuación (4.14) escogiendo adecuadamente  , es 
decir:
min0 S  0=0 ' 0= y−0 ' x '  y−0 ' x
 = y ' y−0 ' x ' y− y ' x 00 ' x ' x 0
(4.15)
Note que se ha usado el supuesto (3). Como sabemos de cálculo, minimizar la 
ecuación (4.15) requiere hacer que su derivada sea igual a cero:
∂ S 0
∂ 0
=−2 x ' y2 x ' x 0=0 (4.16)
La ecuación (4.16) –que en realidad es un sistema de ecuaciones– es llamada 
ecuación normal. Tomando la segunda derivada:
∂2 S 0
∂0 ∂ 0 '
=2 x ' x (4.17)
por lo tanto cualquiera sea el valor de  , si x ' x es positiva definida el problema es 
una minimización.
Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el 
estimador de mínimos cuadrados (ordinarios).
=x ' x−1 x ' y (4.18)
4.10
Note que sólo hemos usado los primeros tres supuestos, pero no los segundos 
tres. Es decir, es posible obtenerun estimador del parámetro aún si no se cumplen estos 
últimos, porque ellos se refieren a la distribución del estimador.
Propiedades interesantes de la solución
De la ecuación (4.16) obtenemos 0=x ' x − x ' y=x ' x − y =−x '  . Si la 
matriz de regresores contiene una columna de unos se deduce 
1. cada columna de x es ortogonal a los residuos.
2. la suma de los residuos es cero.
3. la regresión pasa por la media.
4. la predicción de y hecha sobre la base de fijar xP es insesgada, y=x p 
Vamos a usar repetidamente la siguiente matriz idempotente y simétrica:
M = I− x x ' x −1 x '  (4.19)
la que aplicada a y produce “los residuos de una regresión de y en x”, es decir:
My= I −x x ' x−1 x '  y= y− x x ' x −1 x ' y= y−x = (4.20)
Regresión particionada
Supongamos que la regresión tiene dos grupos de variables, x1 y x2 . Entonces, 
las ecuaciones normales son:
[ x1 ' x1 x1 ' x2x2 ' x1 x2 ' x2] [12]=[ x1 ' yx2 ' y] (4.21)
de lo cual obtenemos:
4.11
1=x1 ' x1
−1 x1 ' y−x1 ' x1
−1 x1 ' x2 2 (4.22)
De la ecuación (4.22) se desprenden varios resultados importantes:
(1) Si x1 ' x2=0 , es decir si x1 y x2 son ortogonales, los estimadores pueden ser 
obtenidos de regresiones independientes.
(2) Si x1 y x2 no son ortogonales, la omisión de x1 y x2 llevará a obtener 
estimadores sesgados.
Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la 
regresión hecha sólo con x1 obtenemos:
x2 ' x1 x1 ' x1
−1 x1 ' y− x2 ' x1x1 ' x1
−1 x1 ' x2 2 x2 ' x2 2= x2 ' y
x2 ' [ I −x1x1 ' x1
−1 x1 ' ] x2 2=x2 ' [I −x1x1 ' x1
−1 x1 ' ] y
x2 ' M 1 x22=x2 ' M 1 y
(4.23)
Este es otro resultado importante, llamado el Teorema de Frisch-Waugh6: el 
estimador 2 describe la contribución marginal de x2 para explicar las variaciones de 
y , es decir neta de la contribución de x1 .
Bondad de ajuste7
El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de 
y . Es decir, la variación total de y : ∑
i
 y i−y 
2
.
Sea M 0=[ I−
1
n
ii ' ] . Aplicada a y computa desviaciones con respecto a y . 
Entonces, la suma de cuadrados totales se puede escribir como y ʹ M 0 y . Así:
y ' M 0 y=  ' x ' M 0 x  ' M 0 ' M 0 =  ' x ' M 0 x  '  (4.24)
el lado izquierdo de la ecuación (4.24) corresponde a la suma total de cuadrados (SCT) 
en tanto que el primer término de lado derecho es la suma de cuadrados “explicados” 
6 Frisch, R. and Waugh, F., 1933, “Partial time regressions as compared with individual trends”, 
Econometrica, 45, 939-53.
7 El término bondad de ajuste proviene de un artículo de Karl Pearson donde ya se expresan dudas respecto 
de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit, 
but I have used it in default of a better." “Contributions to the Mathematical Theory of Evolution. II. 
Skew Variation in Homogeneous Material”, Philosophical Transactions of the Royal Society of London (1895) 
Series A, 186, 343-414
4.12
por la regresión (SCE). El último término corresponde a la suma de residuos al cuadrado 
(SCR). Por ello, se define la bondad de ajuste como:
R2= SCE
SCT
=1− SCR
SCT
=1−  ' 
y ' M 0 y
(4.25)
El problema de R 2 es que si se añaden variables a la regresión, éste no puede 
reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de 
regresores. El R 2 ajustado es dicha medida:
R2=1−  ' /n−k 
 y ' M 0 y/ n−1
(4.26)
4.05 Propiedades del estimador de mínimos cuadrados en muestra 
finita
Las propiedades del estimador de mínimos cuadrados deben ser estudiadas 
tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el 
papel de los supuestos del modelo y su aplicabilidad en circunstancias prácticas. 
Adicionalmente, estudiaremos tanto el caso en que los regresores son estocásticos como 
determinísticos. Esto nos da cuatro casos de interés.
En esta parte estudiaremos las propiedades del estimador de mínimos cuadrados 
en muestra finita, dejando el caso de muestra grande para la sección 4.08. El estimador 
de mínimos cuadrados de  puede ser escrito como:
 =x ' x −1 x ' y
 =x ' x −1 x ' [ x ]
 = x ' x −1 x ' x   x ' x −1 x ' 
 =  x ' x −1 x ' 
 (4.27)
Si los regresores son no estocásticos, entonces x ʹ x −1 x ʹ es una constante. Así, 
E [ ]= . El estimador es insesgado, independientemente de la distribución de los 
residuos.
La matriz de varianzas y covarianzas de  se puede obtener usando la ecuación 
(4.27) directamente:
4.13
V [ ]=E [ −E [ ] −E [ ] ' ]
 =E [ x ' x −1 x '   ' x x ' x −1]
 =x ' x −1 x ' E [  ' ] x x ' x−1
 = 2x ' x −1
(4.28)
La ecuación (4.28) señala que la varianza (incertidumbre con respecto) del 
estimador proviene tanto de la estocasticidad del problema –medido por la varianza de 
los errores– como de la variabilidad de los regresores. A mayor varianza de los residuos 
–es decir la parte no explicada— mayor es la imprecisión del estimador. A menor 
varianza de los regresores, mayor es la imprecisión del estimador.
Una vez obtenida la varianza del estimador resulta directo demostrar que ésta es, 
además, mínima. La demostración es llamada teorema de Gauss-Markov. El 
procedimiento consiste en comparar la varianza del estimador de mínimos cuadrados 
con la de un estimador rival. 
Supongamos que existe otro estimador insesgado que es cualquier combinación 
lineal de las observaciones de la variable de interés: =cy . Como este estimador rival 
es insesgado, se debe cumplir E [ ]=E [cy ]= . Entonces:
E [cy ]=⇒ E [cx c]=⇒ cx=I (4.29)
es decir, cualquier combinación lineal es válida (lo que le da generalidad al teorema). 
Obtenemos ahora la varianza del rival:
V [ ]=2 cc ' (4.30)
Definimos la “distancia” entre ambos estimadores como Dy= −  . 
Naturalmente se cumple que D=c− x ʹ x−1 x ʹ . Despejamos c y lo introducimos en la 
ecuación (4.30) para obtener:
V [ ]=2 cc '
 = 2[Dx ' x −1 x ' ][ Dx ' x−1 x ' ] '
 = 2x ' x −12 DD'
(4.31)
4.14
ya que Dx=0 y cx= I . Entonces, V [ ]=V [ ]DD' . Si D≠ 0 , la varianza del rival 
es mayor y, por lo tanto, el estimador de mínimos cuadrados es de mínima varianza. 
Así, cada estimador k es insesgado y de varianza mínima.
Veamos ahora el caso en que los regresores son estocásticos, es decir, x no es fijo 
entre muestras. El truco para obtener las propiedades del estimador es primero obtener 
las propiedades condicionales en x y luego las propiedades no condicionales.
Obtengamos el estimador de mínimos cuadrados condicional en x usando la 
ecuación (4.27):
E [  | x]=x ' x−1 x ' E [ | x ]= (4.32)
esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la 
esperanza incondicional del estimador:
E [ ]=E x [E [  | x] ]=E x[ x ' x 
−1 x ' E [ | x ]]= (4.33)
este resultado no depende de supuestos sobre la distribución de x sino sólo del 
supuesto 3 (no correlación entre regresores y errores).
Computamos, también, la varianza incondicional. Sabemos que la varianza 
condicional es V [  | x ]= 2x ʹ x −1 . Por lo tanto,
V [ ]=E x [V [  | x ]]V x [E [  | x ]]
 =E x [V [  | x ]]
 =E x [
2x ' x−1]
(4.34)
Como resulta evidente, la varianza del estimador depende de la realización de la 
muestra. Pero, para una realización particular de la muestra, el estimador de mínimos 
cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusión principal 
de Gauss-Markov no se altera.
Caractericemos ahora la distribución del estimador de mínimos cuadrados. 
Debido a que hemos supuesto que los errores se distribuyen normales, entonces:
 | x N [ ,2 x ' x−1] (4.35)
esta es unadistribución normal multivariada. Es decir, cada k se distribuye normal. 
4.15
Este resultado proviene del supuesto 6. Sin éste, no podríamos hacer inferencia 
alguna en este contexto. Cuando los regresores no son estocásticos, ésa es exactamente la 
distribución del estimador. Cuando los regresores son estocásticos, esa es la distribución 
condicional del estimador.
Como se ha supuesto que la distribución de los residuos es normal, la densidad 
conjunta queda descrita por la siguiente función de verosimilitud:
∏
i
f x i ;=∏
i
[2 2]−1 /2 e− i
2/ 22=2 2 
−n
2 e [−' / 2
2]
⇒
log L  ,2 ; xi=
−n
2 log 2
2−
1
2 2
 y i−x i  '  y i−x i 
(4.36)
Es evidente que maximizar la función de verosimilitud en este caso es 
equivalente a minimizar el segundo término que, a su vez, es una función de la suma de 
residuos al cuadrado. Entonces, el estimador de mínimos cuadrados es el de máxima 
verosimilitud y, por consiguiente, es MELI.
Estimador de la varianza de los errores, 2
Para calcular la varianza del estimador de mínimos cuadrados de los parámetros 
de la ecuación (4.28) requiere conocer 2 . Ello no es usual. Un estimador natural usaría 
los residuos muestrales:
2= 1
n ∑i=1
n
i
2 (4.37)
Este no es el estimador adecuado, sin embargo. Consideremos:
=My=M  x =M  (4.38)
Así, la suma de residuos al cuadrado es  ' = ' M  , cuyo valor esperado es 
E [  '  | x ]=E [ ' M  | x ] . Debido a que  '  y  ' M  son matrices cuadradas, obtener 
el valor esperado anterior es equivalente a la esperanza de su traza. Pero,
E [ tr   '  | x]=E [ tr  ' M  | x ]=E [tr M  '  | x ] (4.39)
4.16
como M es una función de x para un x dado, entonces
E [ tr M  '  | x ]= tr ME [ '  | x]
 =tr M 2 I 
 = 2tr M 
 = 2tr  I n− x x ' x 
−1 x ' 
 = 2[ tr  I n−tr x  x ' x 
−1 x ' ]
 = 2[n−k ]
(4.40)
Por ello, el estimador insesgado de la varianza de los errores es: 
2= 1
n−k ∑i=1
n
i
2 (4.41)
En el Apéndice B se presenta un procedimiento en Gauss que hace estimaciones 
por mínimos cuadrados ordinarios, computando los estimadores y los estadígrafos 
asociados que hemos descrito en estas secciones.
4.06 Tests de hipótesis en el modelo multivariado
Sea y i=x i  i el modelo estimado. Buscamos un método de hacer cualquier 
tipo de hipótesis e inferencia sobre el conjunto de parámetros estimados. Una manera 
general de hacer tests para hipótesis lineales es expresar dichas hipótesis de la siguiente 
manera:
R =q (4.42)
donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El 
truco consiste en escoger de manera inteligente las matrices R y q.
En términos generales, escribiremos:
4.17
r 1,1 1r1,2 2⋯r1,k k=q1
r 2,1 1r 2,2 2⋯r 2,k k=q2
⋮
r j ,1 1r j ,2 2⋯r j , k k=q j
(4.43)
donde los r son los elementos de R. Note que hay k parámetros y j ecuaciones (j<k). 
Usaremos la estructura de la ecuación (4.43) para derivar los distintos tipos de tests y, 
posteriormente, sus distribuciones.
Test de una hipótesis simple
Supongamos que queremos testear  j=2 . Usamos:
R=[0,0,⋯ ,1, 0,⋯ ,0 ]
q=2 (4.44)
de esa forma, R escoge el parámetro j-ésimo.
Test de una hipótesis de igualdad de parámetros
 Supongamos que queremos testear  j= k . Es decir,  j− k=0 . Escogemos:
R=[0,0 ,⋯,1 ,−1,⋯,0]
q=0 (4.45)
Test de varias hipótesis sobre parámetros
Supongamos que queremos testear si las siguientes hipótesis se cumplen  j=1 
y k=−4 . Escogemos:
R=[0,0,⋯,1,0,⋯00,0,⋯,0,1,⋯0]
q =[1−4]
(4.46)
Note que ahora hay dos filas en q (j=2).
Test de varias hipótesis sobre varios parámetros
4.18
Supongamos que queremos testear si las siguientes hipótesis se cumplen 
 j=1− i y k= . Escogemos:
R=[0,0,⋯,1,1,0,⋯00,0,⋯, 0,0,1,⋯0]
q =[1]
(4.47)
Note que también hay dos filas en q (j=2).
Ya sabemos cómo escribir cualquier grupo de hipótesis lineales en términos de 
R =q . ¿Cómo hacemos un test estadístico?
● La intuición es que si n→∞ , entonces sería fácil comparar directamente R =q
● Pero, n es finito. Por ello, aún si R ≠q en términos numéricos, estadísticamente 
podrían ser iguales.
Hagamos el clásico test para la hipótesis nula H 0 : R −q=0 :
R −q
Var R −q 
(4.48)
La intuición del test es directa. Si la distancia R −q es “grande” entonces 
R ≠q y se rechaza Ho. En la ecuación (4.48) hay dos cosas que no conocemos: (1) 
Var R −q y (2) la distribución del test. 
Estudiamos primero la varianza. Aplicando las propiedades de este operador al 
test:
Var R −q=Var R 
 =RVar  R '
 =R  2 x ' x −1R '
 =2 R x ' x −1R '
(4.49)
4.19
Estudiemos ahora la distribución del test en la ecuación (4.48). Note que R y q 
son constantes. Por ello, el numerador es una función de los errores normales (  es una 
combinación lineal de errores) y por lo tanto es N 0,2 R x ' x −1R '  . Pero, estamos 
dividiendo por 2 R x ' x −1R ' , es decir, la distribución es N(0,1).
Como usualmente la varianza de los errores es desconocida, usamos el estimador 
de ésta y, por lo tanto, estamos dividiendo por algo que es estocástico. Pareciera que 
obtener la distribución es algo directo. El problema es que queremos la distribución de la 
razón y no la distribución del numerador y del denominador por separado. Excepto que 
éstos sean “independientes”. 
● Note que  es una combinación lineal de  del tipo L  . Ello, porque 
−

=x ' x −1 x '


.
● Note que 2 es una combinación lineal de  del tipo xAx . Ello, porque 
i ' i=i ' M i .
Para que ambos términos sean independientes, la combinación lineal de ellos 
debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x −1 x ' M=0 , que obviamente se 
cumple.
Así, debido a que k se distribuye normal, el test de la hipótesis nula de un 
único parámetro es directamente:
z k=
k−k
 2 Skk
↝N 0,1  (4.50)
Cuando la varianza de los residuos es desconocida demostraremos que tenemos 
una normal estándar dividida por una χ² ajustada por grados de libertad. Usamos el 
estimador de la varianza de la ecuación (4.41). Entonces, dividimos la ecuación (4.50) por 
la raíz del estimador para obtener:
t k=
 k−k/ 2 Skk
n−k   2/ 2 /n−k 
=
 k−k
Skk  2
↝ t n−k (4.51)
Así, el reemplazo de la verdadera varianza por su estimador produce una 
distribución t. La demostración es la siguiente. Conocemos la distribución de 
4.20
 k−k/2 Skk pero queremos  k−k/ 2 Skk . Luego tenemos que multiplicar y 
dividir por  2 . Reacomodando los términos queda:
 k−k/ 2S kk
  2 / 2
(4.52)
De acuerdo a la ecuación (4.50), el numerador es normal estándar. El 
denominador es “algo”. 
2=
 ' 
n−k  ⇒ n−k  
2= ' = ' M  (4.53)
Ahora, dividimos por 2 convenientemente 
n−k 
 2
 2
=
 ' M 
2
 ⇒ [  ]' M [  ] (4.54)
Note que  se distribuye normal con media cero, por lo que / es N(0,1) y la 
ecuación (4.54) es el “cuadrado” de una normal estándar, por lo que se distribuye χ². Los 
grados de libertad son el rango de M que es (n-k). Así es que tenemos una N(0,1) 
dividido por una χ². Si queremos el test t debemos ajustar el denominador por los 
grados de libertad.
Cuando se trata de una hipótesis compleja, usamos directamente el test de Wald 
de la siguiente forma:
[R −q ]'  2R x ' x −1R ' −1[R −q ]↝ J 2 (4.55)
la distribución es más bien obvia. Obtener los grados de libertad del test (J) se deja de 
ejercicio.
Nuevamente, tenemos el problema que 2 es desconocida. Se usa el estimador 
de la ecuación (4.41) por lo que seobtiene el siguiente test que tiene la distribución de 
Fischer. 
[R −q ] ' R x ' x −1 R ' −1[R −q ] / J
 ' /n−k 
↝ F  J ,n−k  (4.56)
4.21
La intuición es de nuevo directa. Si R −q es “grande” entonces R ≠q y se 
rechaza Ho.
4.07 Tests de hipótesis y modelo restringido
Otra manera de pensar un test de hipótesis es en términos de “restricciones 
impuestas”. Supongamos que en vez de hacer el test, imponemos directamente la 
hipótesis nula y hacemos la regresión. Habrán dos resultados posibles: (1) la restricción 
que hemos impuesto si afecta la estimación, cambiando los parámetros estimados y (2) 
la restricción que hemos impuesto no afecta la estimación.
¿Dónde se reflejaría más fácilmente el efecto? Obviamente en los parámetros que 
no hemos restringido, pero sería dificil de evaluar. Más fácil de evaluar es el efecto sobre 
la suma de residuos al cuadrado,  '  . Si ponemos una restricción y afectamos la 
estimación, tendremos que estar cometiendo “más errores” que sin dicha restricción, 
porque la estimación sin restricción es la óptima min  '  . Por otro lado, si ponemos 
una restricción y no afectamos la estimación, entonces la restricción ya se cumplía y no 
estaremos cometiendo “más errores” que sin dicha restricción. 
Si llamamos * ' * a los errores de la regresión con la restricción impuesta, 
entonces:
•  ' =* ' * señala que la estimación con y sin restricciones son iguales.
•  ' * ' * señala que la estimación con y sin restricciones son distintas. 
¿Qué son  '  y * ' * ?
= y−x 
*= y−x *
 (4.57)
Por lo tanto:
*=x −x *=−x  *−  (4.58)
de lo que se desprende
* ' *= ' − ' x  *− − *−  ' x '  *−  ' x ' x  *− 
 = '  *− ' x ' x  *− 
(4.59)
4.22
Si queremos entender la ecuación anterior tenemos que estudiar  − * . Para 
ello, vamos a pensar de nuevo en el problema de optimización. Vamos a buscar * tal 
que sea óptimo bajo H 0 . Es decir,
min  y−x  '  y−x  sujeto a H 0 :R =q (4.60)
formamos el Lagrangeano,
ℒ = y−x '  y−x −2R −q (4.61)
derivando, obtenemos
∂ℒ
∂ 
=−2x ' y2x ' x −2R ' =0
∂ℒ
∂
=−2R −q =0
(4.62)
de la primera ecuación normal obtenemos * . Premultiplicamos por R x ' x −1 y 
obtenemos:
−2R x ' x −1x ' y2Rx ' x −1x ' x *−2R x ' x −1 R ' =0 (4.63)
Note que el primer término es −2R  y el segundo es −2R * . Entonces, 
=[R x ' x −1 R ' ]−1 R *−q  (4.64)
De vuelta en la ecuación (4.62) despejamos:
*= x ' x −1 R ' [R x ' x −1 R ' ]−1R −q  (4.65)
pero *=Rβ−q . Usando la ecuación (4.62) en la ecuación (4.58), obtenemos
* ' *= '  *−  ' x ' x  *− 
 = ' R −q ' x ' x R −q
(4.66)
4.23
pero esto ya lo conocemos. Así,
* ' *− ' =R −q ' x ' x R −q  (4.67)
Por ello, el test F que usamos para evaluar hipótesis complejas puede ser escrito 
como:
[ * ' *− '  ] / J
 ' / n−k
↝ F [ Jn−k] (4.68)
La ecuación (4.68) tiene una interpretación de gran importancia para la manera 
como entendemos el análisis cuantitativo en economía. Hemos demostrado que hacer un 
test respecto de uno o más parámetros es exactamente equivalente a hacer una 
comparación de dos modelos, uno restringido y uno sin restringir. Si las restricciones 
son válidas, el modelo restringido es una mejor descripción del fenómeno, en el sentido 
que es más eficiente en la descripción de éste.
Note que dividiendo el denominador y numerador por ∑
i=1
n
 y i−y 
2 obtenemos:
[ R2−R2* ] / J
1−R2/ n−k 
↝ F [ Jn−k ] (4.69)
lo que no es de extrañar por cuanto existe una relación directa entre estimadores de 
parámetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad 
de ajuste se define como R2=1−SRCSCT .
4.08 Propiedades del estimador de mínimos cuadrados en muestra 
grande
Ahora vamos a obtener las propiedades asintóticas de los estimadores mínimos 
cuadrados. Hay dos razones para ello: primero, saber cuándo las propiedades de 
muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores 
no convencionales.
4.24
Vamos a suponer que limn →∞
1
n
x ' x=Q pos.def.
● Cuando x es no estocástico el supuesto es obvio.
● Cuando x es estocástico, el supuesto se va a referir al tipo de muestra 
(volveremos a esto más adelante).
El estimador de mínimos cuadrados puede ser escrito como:
=[ 1n x ' x]
−1
[ 1n x ' ] (4.70)
Tomando plim y suponiendo que Q−1 existe:
plim = Q−1 plim[ 1n x ' ] (4.71)
Para encontrar plim del segundo término, definimos una variable auxiliar w:
1
n x ' =
1
n∑i x i i=
1
n ∑i w i=w (4.72)
Tomemos E[ w ]=
1
n ∑i E [w i ]=
1
n ∑i x i E[i ]=0 .
Tomemos V [w ]=E [w w ' ]=
1
n
x ' E [ ' ] x 1
n
= 
2
n
x ' x
n
.
Así, limn→∞ V [ w ]=0⋅Q=0
Por lo tanto, w converge medio cuadráticamente a cero, plim w=0 , 
plim1/n x ' =0 , y plim = . Es decir, el estimador de mínimos cuadrados es 
consistente.
El supuesto plim 1 /n x ʹ x=Q es, en realidad, demasiado restrictivo. Las 
siguientes condiciones –llamadas condiciones de Grenander– son menos restrictivas 
pero suficientes.
4.25
1. Para cada columna de x , limn→∞ x k ' x k=∞ (no degenera a una secuencia de 
ceros o cada observación añade información útil para la estimación de los 
parámetros)
2. limn→∞
x ik
2
x k ' x k
=0 (ninguna observación domina la varianza promedio y, por lo 
tanto, no hay dominancia de un valor extremo).
3. La matriz x es de rango completo.
Distribución del estimador cuando los regresores son no estocásticos
Hemos visto que  existe si se cumplen las condiciones de Grenander pero 
¿cómo se distribuye el estimador? Tomemos de nuevo la ecuación (4.70), la que 
podemos re-escribir como:
n  − =[ 1n x ' x ]
−1
[ 1 n x ' ] (4.73)
Recordemos nuestros rudimentos de teoría asintótica de las clases anteriores: el 
lado izquierdo es conocido (Teorema de Límite Central). Estudiamos el lado derecho.
• Como la inversa es una función continua de Q, limn →∞ [ x ' xn ]
−1
=Q−1 .
• Estudiar la distribución límite de la ecuación (4.73) es equivalente a estudiar la 
distribución límite de ( 1 / n x ʹ  ), es decir:
1
n
x ' =n  w−E  w  (4.74)
pero ya sabemos que E [ w ]=0 , sólo interesa la distribución límite de n w .
Pero de la ecuación (4.72) sabemos que w es el promedio de n vectores 
aleatorios del tipo x i i con media cero y varianza:
V [ x i i]=
2 xi ' x i=
2Qi (4.75)
4.26
por lo que 
V [n w ]= 2 Q=2 1n [ Q1Qn ]
 = 2 1n∑i x i ' x i=
2x ' xn 
 (4.76)
en el límite de muestra grande se obtiene limn→∞ 
2 Qn=
2 Q (de nuevo, no hay 
dominancia).
Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener:
1
n
x '  
d
N [0, 2 Q ] (4.77)
naturalmente, 
Q−1 1
n
x '  
d
N [0, Q−1 2 Q Q−1] (4.78)
Entonces, 
n − d N [0, Q−1 2 Q  Q−1 ] (4.79)
Finalmente, 

d
N [ , 2n Q−1] (4.80)
El resultado es más importante de lo que se ve a simple vista. Note que no se ha 
supuesto ninguna distribución para los residuos y aún así el estimador es asintóticamente 
normal. Esto es consecuencia del teorema central del límite y del supuesto que se 
cumplen las condiciones de Grenander.
4.27
El estimador de la varianza de los errores
La ecuación (4.79) depende de 2 que es típicamente desconocido. Necesitamos 
el estimador asintótico de la varianza de los residuos (EVA). La contrapartida asintótica 
del estimador de 2 se obtiene de:
2=
1
n−k  ' M 
=
1
n−k [ ' − ' x x ' x 
−1x '  ] 
 = nn−k [  ' n −  ' xn  x ' x −1n  x ' n ]
(4.81)
Obviamente, 
• cuando n→∞ el primertérmino tiende a 1.
• El segundo término del paréntesis converge a cero.
• El primer término es el promedio de 2. Si la varianza de este promedio es finita 
(es decir, el cuarto momento de  es finito), entonces la ecuación (4.81) converge 
a 2 .
Por ello, plim  2 x ' xn 
−1
=2 Q−1 .
Distribución de los tests de hipótesis.
Cuando los errores no se distribuyen normal, los tests t, F y χ² no se pueden 
aplicar directamente.
Test t. Asintóticamente se tiene que distribuir normal (obvio). 
Test F. El test para la hipótesis R −q=0 es 
F=
* ' *− ' / J
 ' /n−k
=
R −q ' [R  2 x ' x −1R ' ]−1 R −q 
J
(4.82)
4.28
Pero, =x ' x −1 x '  . Por lo tanto,
F=  ' x x ' x 
−1 R ' [R x ' x −1R ' ]−1R x ' x −1 x ' / J
 ' M /n−k 
(4.83)
Sea L=x x ' x −1 R ' [R x ' x −1R ' ]−1 R x ' x −1x ' , entonces la ecuación (4.83) 
es:
F=  ' L / J
 ' M /n−k 
=
/  ' L / / J
[ ' M /n−k ]/2
 (4.84)
La ecuación (4.84) no tiene distribución conocida. Pero JF si la tiene:
JF =
/  ' L / 
[ ' M /n−k ] / 2

d
2 tr L = J  (4.85)
La razón es que el denominador converge a 1, en tanto que el numerador es –otra 
vez– una forma cuadrática. La traza de L –que se obtiene fácilmente– depende de Rx 
que es de rango J.
Distribución límite del test de Wald
Si n  − d N [0,2 Q−1 ] y H 0 : R −q=0 es cierta, entonces:
W =R −q ' [R  2 x ' x −1R ' ]−1 R −q = JF 
d
 J 
2 (4.86)
Distribución del estimador de mínimos cuadrados cuando los regresores son 
estocásticos
Reemplazamos el supuesto que x es no-estocástico por [x i ,i ] secuencias de 
variables aleatorias i.i.d., con cov x i ,i =0 y donde x tiene matriz de covarianzas 
positiva definida y cuartos momentos finitos de  . Gráficamente, el modelo de 
regresión corresponde a la Figura 4.5.
4.29
Figura 4.5
Regresión con regresores estocásticos
El supuesto clave para obtener la distribución asintótica de los estimadores es
plim 1n x ' x= Q (4.87)
y la no covarianza entre x y  . Nuevamente, la distribución asintótica será Normal 
(ecuación 4.80) y si los cuartos momentos de  son finitos, 2 es un estimador 
consistente de 2 y la varianza asintótica estimada de los parámetros queda dada por la 
ecuación (4.81).
Cuando hay correlación entre x y  los resultados anteriores no son válidos y 
se debe usar variables instrumentales (lo veremos en la sección 5).
Distribución del test “t” con regresores estocásticos
¿Qué sucede cuando los regresores son estocásticos? Acabamos de obtener la 
distribución condicional del test t en x t |x  . Deberíamos integrar por x para obtener 
la distribución marginal del test t (es decir, la distribución no condicional en x ).
t k |x=
 k−k
 x ' x kk−1 2
(4.88)
El estimador  es normal condicional en x . Su distribución marginal no tiene 
por qué ser normal porque depende de x . Cuando x es estocástico, el denominador no 
tiene por qué ser la raíz de una χ² ajustada por (n-k) grados de libertad. No obstante, el 
test sigue siendo “t” a pesar de que x contenga variables estocásticas y determinísticas. 
Ello, porque f t | x  –la integración para obtener la marginal– no es función de x .
P(u)
X1 X2
y1
y2
yi=xi
E y1|x1
E y2|x2
4.30
4.09 Transformaciones de estimadores: el método Delta
Frecuentemente, tenemos interés en usar funciones de los estimadores, f   . 
Calcular las distribuciones asintóticas podría ser una pesadilla, excepto que:
C=
∂ f  
∂  '
(4.89)
es decir, C es una matriz de tamaño jxk . Usando el teorema de Slutzky 
plim f  = f   obtenemos:
plim C= ∂ f 
∂
= (4.90)
y podemos obtener la transformación del estimador:
f  →N [ f  , 2n Q−1 ' ] (4.91)
con EVA f  =C 2x ' x −1 C ' .
4.10 Predicción8
Una vez parametrizado un modelo resulta natural preguntarse por las 
propiedades de las proyecciones hechas con éste. Hay dos alternativas de proyecciones: 
dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El 
valor efectivo para la observación “o” del modelo es y 0=x 00 , en tanto que el valor 
proyectado es y= x p . Note que la proyección es lineal, insesgada, y de mínima 
varianza. Por ello el error de predicción es simplemente:
e f = y 0− y=x 0 − 0 (4.92)
lo que pone de manifiesto las tres fuentes de error de una proyección.
8 "Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu.
4.31
● La estocasticidad de los regresores.
● La distancia que hay entre el parámetro y su estimador, aún si E[ ]= .
● La presencia del error aleatorio.
Resulta conveniente computar la varianza del error de pronóstico y deducir la 
expresión:
Var [ f ]=Var [x 0  −0 ]
 =
2Var [ x0  −]
 =
2 [11
n
∑
j=2
k
∑
b=2
k
x j
0−x j xb
0−x bx ' M 0 x 
jb ]
(4.93)
de donde se desprende que la incertidumbre de la proyección depende de (1) la 
presencia de shocks aleatorios, 2 , (2) el tamaño muestral, n, y (3) la distancia entre la 
proyección de los regresores y su media, x −x .
Medidas de calidad de la predicción
La principal medida de calidad de una regresión debiese ser con respecto del 
experimento que se está haciendo. No obstante, se usan frecuentemente medidas 
resumidas basadas en los errores de predicción dentro de la muestra. El más popular es 
el error cuadrático medio (ECM) que se define como:
ECM= 1n0 ∑  y i− y i 2 (4.94)
el que es una variación es el error absoluto medio (EAM) 
EAM= 1n0
∑∣ y i− y i∣ (4.95)
El problema del ECM y EAM es que dependen de la unidad de medida de las 
variables. Por ello, Theil propone el siguiente estadístico normalizado:
U= 1n0 ∑  y i− y i 2 / 1n0 ∑ y i2 (4.96)
4.32
El error cuadrático medio puede ser descompuesto en tres componentes que 
resultan interesantes:
1
n0
∑  y i− y i 2=∑  
y i
n0
− y 
2
 s y−s y 
221−r  s y s y (4.97)
donde s y , s y y r son las desviaciones estándares de cada variable aleatoria y la 
correlación entre predicción y valor verdadero. De esta descomposición se pueden 
obtener tres proporciones:
∑ y in0 − y
2
1
n0
∑  y i− y i 2
Esta es una medida de sesgo, porque nos dice que tan lejos está la 
media de la predicción de la verdadera media de la variable
s y−s y
2
1
n0
∑  y i− y i 2
Esta es una medida de variación, porque indica qué tan lejos está 
la variación de la predicción respecto de la verdadera variabilidad 
de la variable.
2 1−r s y s y
1
n0
∑  y i− y i 2
Esta es una medida de covariación residual que refleja los 
componentes no sistemáticos que separan la predicción del 
verdadero valor de la variable.
Una mejor predicción es aquella donde el sesgo sistemático y la impresición de 
las predicciónes son menores.9
4.11 Método generalizado de momentos
La estimación por mínimos cuadrados no es la única forma de parametrizar un 
modelo. Una alternativa interesante es el llamado método general de momentos (MGM), 
el que explota dos elementos: las propiedades de convergencia de los estadígrafos que se 
pueden construir a partir de una muestra y el hecho que los valores límites de dichos 
9 “Prediction is very difficult, especially about the future”. Mark Twain.
4.33
estadígrafos dependen de los parámetros que caracterizan la distribución de 
probabilidades del fenómeno. Por ejemplo, si tenemos una muestra de una distribución 
 , sabemos que la esperanza y varianza están relacionadas a los parámetros de la 
distribución  p ,q de la siguiente manera:
E [x t ]=
p
q E [x t−E [x t ]
2 ]= p
q2
(4.98)
entonces las condiciones sobre los momentos serían una función de tipo E [ f x ,]=0 , 
es decir,
E [x t ]−
p
q=0
E [x t−E[ x t ]2 ]− pq2 =0
(4.99)
así,buscaríamos p* y q* tal que se cumplan las condiciones de la ecuación (4.99) 
usando la información de la muestra.
Para el modelo clásico de regresión lineal podemos derivar condiciones similares. 
Dado el modelo básico (ecuación 4.6) e imponiendo la condición de ortogonalidad entre 
regresor y residuo E[ x ,]=0 tenemos:
E[ y i |x ]=E [x i i |x ]=x i E [i |x ]=x i  (4.100)
Usando la ley de expectativas iteradas10 tenemos:
E [x i i ]=Ex [E [x i i |x i ]]=Ex [x i E [i |x i ]]=0 (4.101)
entonces, las condiciones son:
E[x i  y i−x i *  ]=0 (4.102)
Naturalmente, cuando el modelo es multivariado, habrá l ecuaciones en la 
ecuación (4.102) que deben ser optimizadas para recuperar los parámetros. Si el número 
de ecuaciones linealmente independientes en la ecuación (4.102) es igual o mayor a los 
10 Esta ley no parece ser de fácil comprensión para algunos políticos. Dan Quayle, vicepresidente de 
Estados Unidos, señaló: The future will be better tomorrow.
4.34
parámetros que se quiere estimar el problema tiene solución (el último caso se llama 
sobreidentificado). 
Una manera alternativa de entender este tema de la sobreidentificación es 
considerar el modelo de regresión:
y i=x i
11x i
2 2i
E[ x i , i ]=0
(4.103)
donde x 1=k , x 2=r y l =kr . Suponga ahora que se le informa que 2=0 . 
¿Cómo estimaría 1 ? Una alternativa es usar el estimador mínimos cuadrados en el 
modelo restringido y i=x i
11i . Pero ello sería ineficiente, pues no hace uso de toda la 
información. Note que hay l restricciones en la ecuación (4.103) y solo habría k 
restricciones en el modelo restringido. Si se usa toda la información habría l −k=r 
restricciones sobre los momentos adicionales que son de utilidad; estas se llaman 
restricciones de sobreidentificación (overidentifying restrictions). 
Generalicemos la estructura y notación del ejemplo anterior. Sea g  y ,z ,x , 
una función de dimensión l ×1 de un vector de parámetros  de dimensión k×1 con 
l ≥k tal que:
E [ g  y ,z , x ,0]=0 (4.104)
La restricción l ≥k señala que z corresponde a un conjunto de variables más 
amplio que el conjunto x , pudiendo incluir componentes o funciones de este último. En 
econometría a la ecuación (4.104) se le llama modelo de condiciones de momentos, en 
tanto que en estadística se le llama ecuación de estimación.
Note que se ha impuesto muy poca estructura sobre las innovaciones i , al 
menos en comparación con el método de mínimos cuadrados o el de máxima 
verosimilitud. No obstante, no hemos discutido dos elementos: (1) cómo se obtienen los 
parámetros y (2) cuáles son las propiedades asintóticas de este estimador.
Estimación de parámetros por método de momentos
Suponga que el modelo está exactamente identificado, es decir hay tantos 
parámetros desconocidos (l) en la ecuación (4.104) como ecuaciones disponibles, k. El 
problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual 
podemos derivar el estimador muestral de la condición de ortogonalidad, 
E [ f x ,]=0 :
4.35
f n =
1
n∑i=1
n
f x i , (4.105)
En el caso de la regresión lineal obtenemos:
1
N ∑i =1
N
[x i  y i−x i * ]=0 (4.106)
de donde se desprende:
*=∑i =1
N
x i ' x i
−1
∑
i=1
N
x i ' y i  (4.107)
es decir, el estimador de mínimos cuadrados es un estimador de momentos.
El estimador del método de momentos se aplica cuando hay más condiciones 
para los momentos que parámetros por estimar, es decir, cuando el sistema está 
sobreidentificado. En tal caso, en general no habrá un * que haga f n  =0 , pero se 
puede buscar aquel  que haga que f n  esté arbitrariamente cerca de 0, es decir 
aquel que minimiza la ecuación (4.104). Consideremos la contraparte muestral de la 
ecuación (4.107):
g n =
1
n∑i=1
n
z i  y i−x i =
1
n ∑i =1
n
z ' y−z ' x  (4.108)
Para una matriz arbitraria W n0 definimos:
J n =n g n  'W n gn  (4.109)
esta es una medida de “distancia” del vector g n  . Lo que hace el estimador MGM es 
minimizar la ecuación (4.109). Definimos:
GMM=argmin J n  (4.110)
Considere la derivada de la ecuación (4.110) tal que:
4.36
0=
∂ J n 
∂ 
 =2
∂ g n  'W n g n 
∂ 
 =2 1n z ' xW n
1
n x '  y−z 
(4.111)
de donde se desprende:
2z ' x W n x ' y=2 z ' xW n x ' z  (4.112)
 y por lo tanto:
GMM=z ' xW n x ' z 
−1z ' x W nx ' y (4.113)
Note que el estimador MGM depende de W n pero sólo como factor de escala, es 
decir, si usamos cW n para c0 , el estimador no cambia.
Teoría asintótica para el estimador de método de momentos11
Para desarrollar la teoría asintótica aplicable en este contexto, tenemos que hacer 
los siguientes supuestos:
1. Los momentos poblacionales g n =E[ f x i ,] existen12 y son finitos para 
todo  y para todo i. Además, existe un único * que hace g n 
*=0 . 
2. f x i , obedece la ley débil de los grandes números. Es decir, 
f n x i ,− g n 
p
0 ∀  ∈ 
3. Existe una secuencia de matrices no-estocásticas W n tales que W n− W n
p
0.
Estos supuestos permiten demostrar que el estimador MGM es (débilmente) 
consistente. En términos esquemáticos, la prueba de consistencia del estimador consiste 
en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria 
Qn = g n ' W n g n  tal que 
11 Una demostración formal de estos supuestos está desarrollada en L. Mátyás, Generalized Methods of 
Moments, Cambridge University Press, 1999.
12 La existencia de los momentos poblacionales requiere de supuestos más primitivos sobre la naturaleza 
del proceso estocástico de x . Este tema se discute in extenso en el curso de Teoría Econométrica III.
4.37
Qn − Qn 
p
0 (4.114)
converge uniformemente para todo ∈ . Además, se usa el supuesto 1 para demostrar 
que Qn=0 si y sólo si =* . Entonces, se deduce que si =argminQn  , si 
*=argmin Qn  , y Qn − Qn 
p
0 entonces necesariamente  
p
 .
La derivación de la normalidad asintótica del estimador MGM requiere algunos 
supuestos adicionales:
1. f x i , debe ser continuamente diferenciable con respecto a ∈ .
2. Para toda secuencia donde se cumple que  
p
 , se cumple que F n  − F n
p
0
3. f x i , satisface el teorema del límite central, es decir, 
V n
−½ n f n 0
d
N 0, I  donde V n=n Var  f n  0  .
Con estos seis supuestos es posible demostrar que el estimador MGM tiene 
distribución asintótica normal:
[F n  n' W n V nW n F n  n ]
−½ [F n  n ' W n F n  n] n  n−* d N 0, I  (4.115)
La matriz de ponderación W n óptima es aquella que minimiza la varianza del 
estimador MGM. Lamentablemente, ésta no es usualmente conocida. Por ello, dada 
cualquier matriz de ponderación, el estimador MGM es consistente, pero no 
necesariamente eficiente. Una alternativa en el modelo lineal sería fijar W n=I . Una 
alternativa mejor –recuerde MCG– es usar W n=x ’ x 
−1 . Dada dicha matriz como 
estimador de primer paso es posible computar los residuos del modelo como: 
i= y i−z i  y las ecuaciones de momentos: g i=x i i= g w i , z i  . Computemos 
g n= g n  =
1
n∑i=1
n
g i y g n
*= g i− g n (4.116)
Entonces se define:
W n=1n ∑i =1
n
g i
* g i
*
−1
= 1n∑i=1
n
g i g i '− gn g n ' 
−1
(4.117)
4.38
en probabilidad esta matriz W n converge a W n=E [ g i g i ʹ ]
−1 que es la matriz 
eficiente. Por ello, el estimador MGM será asintóticamente eficiente.13
Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado 
que posiblemente tiene mejores propiedades estadísticas. Considere que la matriz de 
ponderadores sea una función de  tal que el estimadorMGM sea aquel que minimiza 
el criterio:
J n =n g n ' 1n ∑i =1
n
g i
*  g i
* 'W n g n  (4.118)
donde g i
*= g i − g n  . El  que minimiza la ecuación (4.118) es llamado 
estimador MGM de actualización contínua14.
Test de restricciones de sobreidentificación
Los modelos que están sobreidentificados tiene la facilidad de proveer espacio 
para testear las restricciones impuestas sobre la estructura del modelo. Note que 
g n
p
E[ g i ] y que, por lo tanto, g n puede ser usado para hacer un test sobre si 
E[ g i ]=0 . 
Note que J n =n g n  'W n gn  es una forma cuadrática en g n por lo que es 
un test natural de H 0 : E [ g i ]=0 . Si el modelo está correctamente especificado y si la 
matriz W n es asintóticamente eficiente:
J   d
→
 l −k
2
 (4.119)
este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al 
número de restricciones impuestas en la sobreidentificación.
Tests de hipótesis
13 En ocasiones se usa el estimador alternativo W n= 1n ∑i=1
n
g i g i ' 
−1
. El problema es que este estimador de 
momentos no centrados no garantiza que E [x ’ ε ]=0 , lo que produce un estimador sesgado y reduce el 
poder de los tests. Verifique que tipo de estimador usa su programa econométrico. 
14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), “Finite Sample Properties of Some Alternative GMM 
Estimators,” Journal of Business and Economic Statistics, 14:262-280.
4.39
Como se puede ver el test anterior testea la estructura completa del modelo. Para 
hacer tests de hipótesis ocupamos directamente la lógica de testear un modelo 
restringido versus uno que no lo está. El procedimiento es directo:
● Supongamos que hay un conjunto de hipótesis sobre los parámetros 
H 0 : h  =0
● Supongamos que W n está dada, el criterio del estimador MGM no restringido es 
es J n  =n g n  ʹ W n g n  . Por otro lado, el criterio del estimador MGM 
restringido es es J n  | h=0=n g n ʹ W n g n  .
● Entonces el test de distancia es D= J  − J   . Si se usa la misma matriz W n 
para ambos J   entonces el test se distribuye asintóticamente χ² r  .
Un punto importante de hacer notar que h  no tiene por qué ser lineal, lo que 
es una ventaja desde el punto de vista de la flexibilidad del análisis. Por otro lado, si las 
hipótesis fuesen lineales, el test de restricciones de identificación corresponde al test de 
Wald.
4.40
Apéndice A: Ejercicios
1. En una regresión lineal las variables del lado derecho son independientes, las columnas 
de la matriz x son independientes y los errores se distribuyen independientementes." En 
la frase anterior se usó la palabra "independiente" en tres distintos sentidos. 
Explique cada uno de los usos de ella y discuta que papel juegan dichos 
conceptos en la teoria clásica de estimación de modelos lineales.
2. En el modelo lineal y=x  , un elemento central del análisis econométrico 
clásico es que el estimador de  es independiente de los residuos,  . 
Demuestre.
3. ¿Cómo se entiende el supuesto de rango completo si x contiene sólo una 
variable?
4. ¿Qué restricción debe cumplir la matriz de momentos de los regresores para que 
sea posible obtener estimadores mínimos cuadrados con propiedades estándares 
si x es determinístico? ¿Qué pasa cuando se levanta el supuesto que los 
regresores son no-estocásticos?
5. Suponga que tiene una muestra de n datos de { y n , xn }. Derive el estimador de 
mínimos cuadrados de la regresión de y n en x n. Suponga ahora que a la 
muestra se le añade un dato. Demuestre que el nuevo estimador del parámetro 
es:
n1= n
1
1x s ' x n ' x n
−1 x s
xn ' x n
−1x s ' [ y s−x n ' s ]
Note que el último término es es , es decir el residuo de la predicción de ys 
usando los coeficientes obtenidos con la muestra x n . 
6. Si nos fijamos en la fórmula de la varianza estimada del estimador de mínimos 
cuadrados, resulta obvio que mientras más observaciones tengamos ésta se 
reduce y más preciso es el estimador (demuestre). Por ello, es conveniente tener 
más datos. Si eso es así, ¿para qué buscar más datos? ¿No bastaría con poner los 
mismos datos dos veces? Con ello tendríamos 2n datos, en vez de n. (considere 
x no estocástico).
7. Considere el caso de la regresión y=x  y el de la regresión “inversa”, 
x = y* ¿bajo qué condiciones es posible recuperar el estimador de  a 
partir del estimador de γ? No olvide referirse a la desviación estándar del 
estimador.
8. Demuestre que el estimador de mínimos cuadrados ordinarios es de varianza 
mínima. 
4.41
9. ¿En qué caso los coeficientes de una regresión de Y en x 1 y x 2 son idénticos a 
los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? ¿Por 
qué? ¿es necesario poner una constante en cada una de estas últimas dos 
regresiones o basta ponerla en una sola?
10. Su jefe juntó datos de precios y ventas de vino de los últimos 25 años en Chile y 
concluyó: “cada vez que subo el precio 10% las ventas caen 5%, por lo que la 
elasticidad es -0.5". Explíquele –con delicadeza pero con absoluto detalle– por 
qué su estimación es inconsistente.
11. Considere la función de producción con elasticidad de sustitucion constante 
(CES):
Y i , t= [ K i , t−1−L i , t−]
−
 e i , t

Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el 
producto, K es el capital, y L es el trabajo, y donde los parámetros γ, δ, ν, y  se 
denominan parámetros de eficiencia, distribución, rendimientos de escala, y 
sustitución, respectivamente. Como la función CES no es lineal en los parámetros 
no pueden estimarse por mínimos cuadrados ordinarios. Demuestre que la 
función puede linealizarse utilizando la técnica de Taylor de la siguiente manera:
LnY i , t=i1 LnK i , t2 LnL i , t3[ ln K i , tL i , t ]
2
i , t
y encuentre las expresiones de equivalencia entre los estimadores  y los 
parámetros de la ecuación.
12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos 
2=n−k −1∑ i2 se distribuye χ². 
13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de 
la distribución de los residuos sean finitos para que el estimador asintótico exista.
14. Demuestre que testear un conjunto de restricciones lineales es equivalente a 
hacer un test tipo F entre una ecuación restringida y una que no lo está.
15. Suponga que el verdadero modelo es y=xu (no tiene constante) pero que 
Ud. usó uno de esos softwares de econometría de segunda clase y tuvo que 
estimar su modelo con la constante. ¿La omisión de esta variable causa sesgo? 
Compare la varianza del estimador de  del modelo verdadero con la del 
estimado.
16. Considere el siguiente modelo y i=x ii f i =1/e
−i / i0 . 
Note que los errores tienen la característica que siempre son positivos. 
4.42
(a) calcule la E[] . 
(b) demuestre que el estimador de mínimos cuadrados de la pendiente es 
consistente pero el del intercepto es inconsistente.
17. Demuestre que R 2 puede ser negativo.
18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en función de R 2 como:
R 2=1− n−1n−k 1−R
2
19. Pruebe que R 2 no puede reducirse si se añade una variable en la regresión. Dé 
la intuición.
20. Suponga que una regresión lineal es adecuada y el modelo está bien especificado. 
¿Tiene el R 2 computado alguna distribución?
21. Considere la regresión de y en K variables (incluida la constante) representadas 
por X . Considere un conjunto de regresores alternativos Z=XP , donde P es 
una matriz no singular. Así, cada columna es una mezcla de algunas columnas 
de X . Pruebe que los vectoresde residuos de la regresión de y en X y de y en Z 
son idénticos. ¿Qué importancia tiene esto respecto de la posibilidad de cambiar 
el ajuste de una regresión mediante la transformación de los datos?
22. El problema de un productor es cómo predecir la demanda de su producto de 
exportación (yuca). Ud hace un modelo econométrico tipo x t=α 0α 1Y t
*−α 2 Px t 
(log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud 
estima los parámetros por mínimos cuadrados. Su jefe no cree en la econometría 
y tiene sus propias elasticidades,  , calculadas al ojo. Pruebe que la diferencia 
entre su R 2 y el R 2 de su jefe, es proporcional a: − ́ZZ − donde Z = 
{Y,Px} y {  , } los vectores de parámetros.
23. Considere el siguiente modelo y t= ' x tt , con x =[ c ,z ] y donde c es una 
constante y z un conjunto de variables. Suponga que la varianza de  es 
constante, 2 . Encuentre la varianza de la predicción fuera de muestra de y. 
Demuestre que ésta se reduce cuando aumenta el tamaño de muestra y mientras 
más cerca estamos de E[ x ] .
24. ¿Cuáles son las fuentes de incertidumbre en una predicción ( y ) hecha con un 
modelo lineal del tipo y=x u ? Calcule analíticamente la V  y  .
25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es 
equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo 
está.
4.43
26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un 
intervalo de confianza al 95% para el producto que hace que su beneficio 
esperado máximo. Ud tiene la siguiente información. (use una demanda lineal).
Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21
P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7
27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la 
muestra se le añade un dato. Demuestre que el estimador de mínimos cuadrados 
de la regresión usando n+1 datos es proporcional al residuo de la predicción de y 
basada en los coeficientes obtenidos con la muestra de n datos. 
28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo 
y t= x tt donde t=t−1t y t es ruido blanco Gaussiano.
1. Compute el error de predicción de y tn y su intervalo de confianza del 90%.
2. Demuestre que el intervalo de confianza converge en distribución.
29. Demuestre que si  es el estimador MICO, E[  ' ]= '  2∑
k=1
K 1
k
, donde λ 
es uno de los valores propios de x ' x .
30. Considere el modelo y i=1x ii , que no incluye la constante, y donde el error 
cumple las condiciones Gauss-Markov. 
 I. Derive el estimador de mínimos cuadrados ordinarios de 1 y llámelo 1 . 
¿Es este estimador insesgado? Demuestre que es de varianza mínima. 
 II. Considere el modelo y i=01 x ii , donde el error cumple las 
condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador 
1 es sesgado. ¿es posible determinar la dirección del sesgo?. Naturalmente, 
si β0=0 no hay sesgo, pero ¿es la varianza del estimador 1 mayor o menor 
que la varianza del estimador mínimos cuadrados de 1 ? Demuestre que si 
E[ x i ]=0 , el estimador 1 es insesgado.
4.44
Apéndice A: Algebra de Matrices y Gauss
Operaciones elementales (ver programa de Gauss asociado)
1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden m×n. La suma de 
matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij. 
Ejemplo:
A=[1 2 34 5 67 8 9] y B=[0 1 11 0 10 1 0] entonces AB=C=[1 3 45 5 77 9 9] .
Note que A y B son conformables para la suma.
Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C).
2. Multiplicación por escalar. Sea λ un escalar, entonces λA =[λaij]. Ejemplo, si λ es 2.
 A=[ 2 4 68 10 1214 16 18]
3. Multiplicación de matrices. El producto de las matrices A y B debe ser conformable 
respecto de la multiplicación, es decir, el numero de filas de B debe ser igual al 
número de columnas de A. Los elementos de C=A*B corresponden a:
c ij=∑
j
a ij∗b jk
C=[102130 11203 1 112 13 04 05160 41506 1 4 15 16 0708 19 0 71809 1 7 18190 ]=[2 4 35 10 98 16 15]
La multiplicación de matrices en general no es conmutativa.
4.45
B∗A=[ 9 9 123 0 3−4 −11 −9]
4. Transposición. La transpuesta de la matriz A=[aij] de orden m×n es una matriz 
A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A.
A '=[1 4 72 5 83 6 9]
Las reglas básicas de la transposición son:
1. La transpuesta de A' es A.
2. Si C=A+B entonces C' = A' + B' 
3. Si C = AB then C'=B'A'.
5. Inversión. Si A=[aij] de orden n×n, entonces su inversa, si existe, es una matriz 
definida de manera única A-1 de orden n×n que satisface la condicion AA-1=I, 
donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional). 
B−1=[−1 1 10 0 11 0 −1]
La inversa existe sólo si el determinante de la matrix no es cero.
Las reglas básicas de la inversion son:
1. La inversa de A-1 es A.
2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'. 
3. If C=AB, then C-1=B-1A-1.
6. Operaciones elementales. Las siguientes operaciones elementales se usan para, 
entre otros fines, para obtener inversas:
4.46
1. Multiplicación de una fila por un escalar, λ.
[ 0 00 1 00 0 1][1 2 34 5 67 8 9]=[1 2 34 5 67 8 9 ]
2. Resta de una fila por otra.
[ 1 0 0−1 1 00 0 1 ][1 2 34 5 67 8 9]=[1 2 33 3 37 8 9]
3. Intercambio de filas
[0 1 01 0 00 0 1][1 2 34 5 67 8 9]=[4 5 61 2 37 8 9]
Para obtener una inversa se usa una secuencia de estas operaciones elementales. 
Consideremos el caso de una matriz de 2x2:
U =[2 54 3]
computamos [1/2 00 1][2 54 3]=[1 2.54 3 ]
computamos [ 1 0−4 1][1 2.54 3 ]=[1 2.50 3 ]
computamos [1 00 1/3][1 2.50 3 ]=[1 2.50 1 ]
computamos [1 −2.50 1 ][1 2.50 1 ]=[1 00 1 ]
	Capítulo 4
	Modelo Clásico de Regresión Lineal
	4.01	Lógica del modelo de regresión1
	4.02	Análisis de los supuestos del modelo de regresión lineal
	4.03	Representación gráfica de la regresión lineal
	4.04	Derivación del estimador de mínimos cuadrados5
	4.05	Propiedades del estimador de mínimos cuadrados en muestra finita
	4.06	Tests de hipótesis en el modelo multivariado
	4.07	Tests de hipótesis y modelo restringido
	4.08	Propiedades del estimador de mínimos cuadrados en muestra grande
	4.09	Transformaciones de estimadores: el método Delta
	4.10	Predicción8
	4.11	Método generalizado de momentos
	Apéndice A: 	Ejercicios
	Apéndice A:	Algebra de Matrices y Gauss