Apuntes Econometría

•
Outros

Central de Apuntes
26.5.2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Administración

587.890 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Apuntes de Econometŕıa para el Examen de
Grado*
Pontificia Universidad Católica de Chile
*Compilación preparada a partir de los apuntes de Teoŕıa Econométrica I de los profesores Raimundo Soto, Juan
Eduardo Coeymans y de los apuntes de Inferencia Estad́ıstica de Rafael Aguila. La sección Modelos de respuesta
discreta y la parte de Variables Instrumentales se extrajo del libro de J. Wooldridge “Econometric Analysis of Cross
Section and Panel Data”, la parte de Series de Tiempo en parte del libro de Green “Econometric Analysis” y en
parte de los apuntes de Teoŕıa Econométrica III del profesor R. Soto.
Índice
1. Probabilidad e Inferencia 1
1.1. Elementos de Inferencia Estad́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Elementos de Teoŕıa Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Modelo Clásico de Regresión Lineal 4
2.1. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Regresores Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Mı́nimos Cuadrados Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3. Variables Instrumentales 11
3.1. Estimación en Dos Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4. Econometŕıa de Series de Tiempo 14
4.1. Modelos Estacionarios Univariados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2. Modelos Estacionarios Multivariados . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3. Modelos Estacionarios para la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Procesos no estacionarios y ráıces unitarias . . . . . . . . . . . . . . . . . . . . . . . 17
4.5. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6. Modelo de corrección de errores y relaciones de largo plazo . . . . . . . . . . . . . . 18
5. Modelos de Respuesta Discreta 20
5.1. Modelo de probabilidad lineal para respuesta binaria . . . . . . . . . . . . . . . . . . 20
5.2. Probit y Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria . . . . . . . . 21
1 Probabilidad e Inferencia 1
1. Probabilidad e Inferencia
1.1. Elementos de Inferencia Estad́ıstica
• Podemos obtener la función generatriz de momentos usando una expansión de McLaurin,
donde t es el conjunto de vectores no aleatorios para los cuales la función existe y es finita en
la vecindad t = 0:
m(t) = E(et
′x) =
∫
et
′xdF (x) = 1 + tE(x) +
t2
2!
E(x2) +
t3
3!
E(x3) + ...
Para obtener un determinado momento hacemos:
∂im(t = 0)
∂ti
= E(xi)
• Distribución Normal:
f(z) =
1
σ
√
2π
exp
−{z − E(z)}2
2σ2
• Función caracteŕıstica de la Normal:
mx(t) = exp
(
µxt+
σ2xt
2
2
)
• Error Cuadrático Medio:
ECM = E[(θ − θ̂)2] = Var(θ̂) + [sesgo(θ̂)]2
donde sesgo(θ̂) = E(θ̂)− θ.
• El estimador de máxima verosimilitud será aquel θ∗ que hace máxima la Función de
verosimilitud:
L = f(x1, x2, ..., xn; θ) =
n∏
i=1
f(xi; θ) = [f(x; θ)]n
Este estimador es insesgado, de varianza mı́nima, asintóticamente normal e invariante a trans-
formaciones afines.
• La Cota de Cramer-Rao es el inverso del número informacional de Fisher:
[In(θ)]−1 =
(
−E
(
∂2 lnL(θ)
∂θ2
))−1
=
(
−E
((
∂ lnL(θ)
∂θ
)2))−1
• Distribución de la media muestral: Sea Y1, Y2, ..., Yn una muestra aleatoria de Y →
N(µ, σ2), entonces, E(Ȳ ) = µ y V (Ȳ ) = σ2/n, y se cumple que:
Ȳ → N(µ, σ
2
n
)
Ȳ − µ
σ√
n
→ N(0, 1)
1 Probabilidad e Inferencia 2
• Una distribución t se forma de la siguiente manera: Sea Z → N(0, 1) e independiente de
W → χ2(n), entonces:
Z√
W/n
→ t(n)
1.2. Elementos de Teoŕıa Asintótica
• Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en probabilidad
si:
ĺım
n→∞
Pr(|xn − x| < �) = 1 ∀�
lo que escribimos p ĺımxn = x, o también xn
p−→ x. Un estimador β̂ es consistente si β̂
converge en probabilidad a β.
• Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en media cuadráti-
ca a x si:
ĺım
n→∞
E(xn − x)2 = 0
lo que escribimos xn
m−→ x.
• La sucesión de variables aleatorias {xn} converge en distribución a una variable aleatoria
X con función de densidad acumulada F (x) si:
ĺım
n→∞
|F (Xn)− F (X)| = 0
en todos los puntos en los que F (x) sea continua, y se anota Xn
d−→ X.
• Teorema del ĺımite central de Lindberg-Levy: Sea {xn : n > 1} una secuencia de
variables aleatorias extráıda de cualquier función de probabilidad con media y varianza finita
(µ, σ2), y si x̄n = 1n
∑
xi, entonces:
√
n(x̄n − µ)
d−→ N(0, σ2)
lo que alternativamente podemos escribir como:
ĺım
n→∞
Fn(x) = ĺım
n→∞
P (xn < x) =
∫ x
−∞
1√
2π
exp
(
−1
2
u2
)
• Teorema del ĺımite central de Lindberg-Feller con varianzas distintas: Sea {xn : n >
1} una secuencia de variables aleatorias extráıda de un conjunto de funciones de distribución
{Fn, n ≥ 1}, cada una de ellas con media y varianza finita (µi, σ2i ).
a. Definiendo la varianza promedio como: σ̄2n =
1
n(σ
2
1 + σ
2
2 + ...)
b. Y si ninguna varianza domina a la varianza promedio: ĺımn→∞máx1≤i≤n
(
σi
nσ̄n
)
= 0
c. Y si σ̄2n converge a una constante finita: ĺımn→∞ σ̄
2
n = σ̄
2, entonces:
Z =
√
n(X̄n − µn)→ N(0, σ̄2)
1 Probabilidad e Inferencia 3
1.3. Máxima Verosimilitud
Ejemplo de estimadores de máxima verosimilitud para los parámetros de una distribución Normal.
Estimador de máxima verosimilitud de la media:
L(µ, σ2) =
i=n∏
i=1
1
σ
√
2π
exp
{
−1
2
(
Yi − µ
σ
)2}
lnL(µ, σ2) = −n lnσ − n
2
ln 2π − 1
2σ2
∑
(Yi − µ)2
∂ lnL(µ, σ2)
∂µ
=
1
2σ2
· 2
∑
(Yi − µ) = 0∑
(Yi − µ) = 0
µ̂MV =
∑
Yi
n
= Ȳ
Estimador de máxima verosimilitud de la varianza:
∂ lnL(µ, σ2)
∂σ2
= −n
2
1
σ2
+
1
2σ4
∑
(Yi − µ)2 = 0
σ2 =
∑
(Yi − µ)2
n
σ̂2MV =
∑
(Yi − Ȳ )2
n
= S2n
1.4. Intervalos de Confianza
Bilateral si Z → N(0, 1) : P (−z1−α
2
≤ Z = Ȳ − µσ√
n
≤ +z1−α
2
) = 1− α
Unilateral si Z → N(0, 1) : P (Z = Ȳ − µσ√
n
≤ +z1−α) = 1− α
Bilateral si Z → t(n− 1) : P (−t1−α
2
≤ Z = Ȳ − µ
S√
n
≤ +t1−α
2
) = 1− α
1.5. Test de Hipótesis
En los test de hipótesis se comparan o contrastan 2 hipótesis complementarias que subdividen el
espacio paramétrico —o de todos los posibles valores de θ— en 2 subespacios, por ejemplo:
H0 : µ ≥ 25
H1 = µ < 25
Se le llama H0 a la hipótesis nula y H1 a la hipótesis alternativa. Una vez establecidas las hipótesis
se debe decidir entre ellas, para lo cual se utiliza la información contenida en una muestra aleatoria
Y1, ..., Yn.
Es útil definir algunos conceptos luego de conocer lo que es el testeo de hipótesis:
2 Modelo Clásico de Regresión Lineal 4
1. Error Tipo I: Rechazar H0 cuando es verdadera
2. Error Tipo II: No Rechazar H0 cuando es falsa
3. Tamaño del test: probabilidad de cometer error tipo I
4. Poder del test: probabilidad de rechazar correctamente H0 cuando es falsa
2. Modelo Clásico de Regresión Lineal
• Los supuestos del modelo son:
1. Forma funcional lineal
2. Rango completo de los regresores
3. Mediacondicional de los residuos cero: E(ei|x) = 0
4. Residuos esféricos
5. Regresores no estocásticos
6. Residuos normales
• Estimador de mı́nimos cuadrados:
mı́n
β
S(β0) = e′e = (y − β′0x)′(y − β′0x)
= y′y − 2x′yβ0 + x′β0β′0x
Ecuación normal:
∂S(β0)
∂β0
= −2x′y + 2x′xβ0 = 0
β̂ = (x′x)−1x′y → N(β, σ2(x′x)−1)
• Otras formas de escribir el Estimador:
Con constante : β̂ =
∑
XiYi − nX̄Ȳ∑
X2i − nX2
Sin constante : β̂ =
∑
XiYi∑
X2i
• Varianza del Estimador:
V ar(β̂) = E
[
(β̂ − E[β̂])(β̂ − E[β̂])′
]
= (x′x)−1x′E(e′e)x(x′x)−1
= σ2(x′x)−1
2 Modelo Clásico de Regresión Lineal 5
• Teorema de Frisch-Waugh:
Tomamos la matriz particionada
(
x′1x1 x
′
1x2
x′2x1 x
′
2x2
)(
β1
β2
)
=
(
x′1y
x′2y
)
(1) β̂1 = (x′1x1)
−1x′1y − (x′1x1)−1x′1x2β2
(2) x′2x1β1 + x
′
2x2β2 = x
′
2y
Y con las ecuaciones (1) y (2) obtenemos el teorema:
(x′2M1x2)β2 = (x2M1y)
• R-Cuadrados:
R2 =
ŷ′M0ŷ
y′M0y
=
β̂′x′M0xβ̂
y′M0y
= 1− e
′e
y′M0y
R̄2 = 1− e
′e/(n− k)
y′M0y/(n− 1)
= 1− n− 1
n− k
(1−R2)
Se nota que cuando R2 ≈ 0 y k >> 0, podŕıa darse que R̄2 < 0. En una regresión múltiple,
R̄2 disminuirá (aumentará) cuando se suprime la variable x de la regresión si el estad́ıstico
t asociado a esta variable es mayor (menor) que 1. Una segunda dificultad con R2 hace
referencia al término constante del modelo, donde para que 0 ≤ R2 ≤ 1 se requiere que X
tenga una columna de unos, si no, entonces (1) M0e 6= e y (2) e′M0X 6= 0 y el tercer término
en:
y′M0y = (Xβ + e)′M0(Xβ + e) = β′X ′M0Xβ + β′X ′M0e+ e′M0Xβ + e′M0e
no desaparece, y cuando se calcula R2 el resultado es entonces impredecible, incluso pudiendo
ser negativo.
• Teorema de Gauss-Markov: Este teorema demuestra que el estimador de mı́nimos cua-
drados es el de menor varianza dentro del conjunt de estimadores lineales insesgados. Para
demostrarlo, tomamos otro estimador lineal insesgado ¯̂β = cy, entonces:
E(cy) = β ⇒ E(cxβ + ce) = β ⇒ cx = I
y por lo tanto obtenemos V ( ¯̂β) = σ2c′c. Luego, definimos la distancia entre ambos estimadores
como Dy = ¯̂β − β̂, de manera que se cumple que D = c − (x′x)−1x′. Despejando c de esta
última ecuación y reemplazándola en la ecuación anterior obtenemos una varianza mayor,
demostrando aśı que la varianza del estimador mico es menor.
V ( ¯̂β) = σ2(x′x)−1 + σ2DD′
2 Modelo Clásico de Regresión Lineal 6
• Estimador de la varianza de los errores:
ê = y − x(x′x)−1x′y = My = M(xβ + e) = Me
ê′ê = (Me)′(Me) = e′Me
Tomamos una matriz M =

a11 ... a1n
... ... ...
an1 ... ann

E(ê′ê) = E(e′Me) = E[e1(e1a11 + ...+ enan1) + ...+ en(e1an1 + ...+ enann)]
= a11E(e21) + ...+ annE(e
2
n)
= σ2tr(M) = σ2
[
tr(I)− tr(x(x′x)−1x′)
]
= σ(n− k)
⇒ E
(
ê′ê
n− k
)
= σ2
Lo que implica que un estimador insesgado de σ2 es σ̂2 = ê
′ê
n−k .
• Test de Wald:
Con σ desconocido :
[(Rβ̂ − q)′(R(x′x)−1R′)−1(Rβ̂ − q)]/J
e′e/(n− k)
→ F (J, n− k)
Con σ conocido : (Rβ̂ − q)′(σ2R(x′x)−1R′)−1(Rβ̂ − q) → χ2(J)
Donde V (Rβ̂ − q) = σ2R(x′x)−1R′.
• Test de modelo restringido:
(ê∗
′
ê∗ − ê′ê)/J
ê′ê/(n− k)
→ F (J, n− k)
Donde ê∗ = y − xβ∗ se obtiene con los J parámetros restringidos. Este test es equivalente al
test de Wald.
• Método Delta: Para la distribución asintótica de una función de β̂. Si f(β̂) es un conjunto
de funciones cont́ınuas de β̂ tales que C = ∂f(β̂)
∂β̂′
, y si se cumple el teorema de Slutsky
p ĺım f(β̂) = f(β), entonces:
p ĺımC =
∂f(β)
∂β
= Γ
f(β̂) → N
(
f(β),Γ
σ2
n
Q−1Γ′
)
Con un estimador asintótico de la matriz de varianzas y covarianzas igual a:
Var(f(β̂)) = C
[
σ̂2(X ′X)−1
]
C ′ = Var(β̂) ·
[
∂f(β)
∂β
]2
Si alguna de las funciones son no lineales, la propiedad de insesgadez que se mantiene para f(β̂)
podŕıa no transmitirse a f(β̂). Sin embargo, se deduce que en general f(β̂) es un estimador
consistente de f(β).
2 Modelo Clásico de Regresión Lineal 7
Sesgo de atenuación
Estamos interesados en estimar y = xβ+e, pero solamente tenemos x∗ = x+µ, donde Cov(x, e) = 0,
por lo tanto podemos estimar y = x∗β + e− βµ, donde:
β̂ = (x∗ ′x∗)−1x∗ ′y = (x∗ ′x∗)−1x∗ ′(x∗β + e− βµ)
= β + (x∗ ′x∗)−1x∗ ′e− (x∗ ′x∗)−1x∗ ′βµ
p ĺım β̂ = β − Cov(x
∗, βµ)
Var(x∗)
= β − β
σ2µ
Var(x∗)
= β
(
σ2x∗ − σ2µ
σ2x∗
)
< β
2.1. Predicción
• Valor efectivo para la observación o del modelo: yo = βxo + eo
• Valor proyectado: ŷ = β̂xo
• Error de predicción: ef = yo − ŷ = xo(β − β̂) + eo, con E(ef ) = 0. Esta predicción es lineal,
insesgada, y de mı́nima varianza.
• Varianza del error de predicción:
Var(ef ) = Var[eo + xo(β − β̂)] = σ2 + Var[(β − β̂)′xo]
= σ2 + xo ′
(
σ2(X ′X)−1
)
xo
2.2. Regresores Estocásticos
• Ley de expectativas iteradas: E(Y ) = EX(E(Y |X))
• Descomposición de la varianza: V (Y ) = VX(E(Y |X)) + EX(V (Y |X)). Que es lo mismo que
decir que la variación total es igual a la variación explicada más la variación residual.
• Teorema de Mann-Wald: Los estimadores Mico están sesgados cuando los regresores son
estocásticos y hay ausencia de correlación contemporánea pero dependencia no contemporánea
entre el error e y los regresores x. Esto ocurre cuando se estima un modelo con rezagos de la
variable dependiente (Yt−j dentro de las explicativas) pero con errores bien comportados. Si:
a. E(e) = 0
b. E(ee′) = σ2I
c. E(X ′ie) = 0, donde Xi es la columna i (⇒ E(X ′e) = 0). Esto no es independencia
completa, es solo no correlación contemporánea.
2 Modelo Clásico de Regresión Lineal 8
d. plim
(
X′X
n
)
= Σxx <∞
Entonces se cumple que:
1. plim
(
X′e
n
)
= 0
2. X
′e√
n
→ N(0, σ2ΣXX), donde ΣXX = plim
(
X′X
n
)
Por lo tanto el estimador es consistente, y la estimación de la varianza de β̂ se hace con la
fórmula tradicional σ2(X ′X)−1 ya que (ΣXX)
−1
n = (X
′X)−1.
• Cuando los regresores son estocásticos y hay dependencia contemporánea y no contemporánea
entre e y X, el plim
(
X′e
n
)
6= 0, y los estimadores Mico seŕıan inconsistentes.
2.3. Multicolinealidad
• La multicolinealidad perfecta ocurre cuando una columna de la matriz de regresores es
una combinación lineal de las otras. Si el rango de X y el rango de X ′X son menores que k,
entonces det(X ′X) = 0 y los estimadores no se pueden computar, ya que /∈ (X ′X)−1.
• La multicolinealidad imperfecta ocurre cuando existe asociación imperfecta entre varia-
bles explicativas. El R2 entre una variable explicativa y otra el resto es distinto de cero.
• En presencia de multicolinealidad el estimador Mico sigue siendo insesgado, pero la varianza
es mayor por causa de que la matriz (X ′X)−1 es mayor mientras más colinealidad exista. El
estimador Mico sigue siendo el mejor estimador lineal insesgado.
• Pseudo-soluciones a la multicolinealidad: En realidad no son soluciones porque la mul-
ticolinealidad no es un problema, sino una caracteŕıstica de los datos.
1. Uso de restricciones exactas: Consiste en introducir una restricción a la regresión,
del tipo βi + βj = 1, suponiendo que hay colinealidad entre xi y xj , de manera de
reducir la varianza del estimador sin alterar el hecho de que el estimador sea insesgado.
Algunos ejemplos de su uso: restricción de retornos constantes a escala, o restricciones
de homogeneidad en la demanda. Hay que chequear que la restricción sea plausible, ya
que de otro modo se producirá sesgo en los parámetros.
2. Método de componentes principales: Consiste en extraer de la matriz (x′x)−1 los
componentes principales de ésta, es decir, seleccionar aquellos x que son más indepen-
dientes entre śı. Se define la combinación lineal como z1 = xa1, entonces buscamos un a1
tal que maximicemos z′1z1 = a1x
′a1, pero debemos normalizar a′1a1 = 1 (restricción en
la maximización) para que z′1z1 no se vaya a infinito. Usando un lagrangeano L encon-
tramos a1, que es un vector caracteŕıstico asociado a λ1 (multiplicador de lagrange en
2 Modelo Clásico de Regresión Lineal 9
la maximización). Luego volvemos a repetir el procedimiento para encontrar el segundo
componente principal, ahora agregandola restricción a′1a2 = 0 (independencia lineal).
Podemos hacer esto k veces, obteniendo ak soluciones. Juntamos los resultados en una
matriz A = [a1, a2, ..., ak], tal que Z = xA, donde Z son los componente principales.
Aśı, calculamos β̂CP = (Z ′Z)−1Z ′y, el cual claramente tiene menor varianza, pero es
sesgado.
2.4. Mı́nimos Cuadrados Generalizados
Hemos mantenido el supuesto de que E(e′e) = σ2I, pero cuando se viola tendremos que E(e′e) =
σ2Ω. Esto ocurre cuando hay heterocedasticidad o correlación residual. Obviamente si conociéra-
mos Ω podŕıamos usar directamente el estimador de la varianza. Transformando el modelo Tyi =
Txiβ + Tei, de manera que se sigue cumpliendo E(Te) = 0, obtenemos E(Tee′T ′) = σ2T ′ΩT . Si
T ′ΩT = I habŕıamos solucionado el problema, porque ocupamos Mico como siempre. Entonces
queremos encontrar un T tal que Ω−1 = T ′T para ponderar el modelo. El estimador de mı́nimos
cuadrados generalizados (también llamado estimador de Aitken) seŕıa:
β̂GLS = (x′iT
′Txi)−1x′iT
′Tyi = (x′iΩ
−1xi)−1x′iΩ
−1yi
¿Qué sucede cuando Ω es desconocida? Podŕıamos estimarla con algunos parámetros Ω̂ = Ω(θ̂)
—donde θ podŕıa ser la autocorrelación, por ejemplo— siempre y cuando haya convergencia. Su-
pongamos que θ̂ es un estimador consistente de θ, entonces podŕıamos formar Ω̂ = Ω(θ̂), y podŕıamos
hacer mı́nimos cuadrados generalizados factibles:
ˆ̂
βGLS = (x′Ω̂−1x)−1x′Ω̂−1y
que es asintóticamente equivalente a β si se cumplen las siguientes condiciones:
1. plim
[(
1
nx
′Ω̂−1x
)
−
(
1
nx
′Ω−1x
)]
= 0
2. plim
[(
1√
n
x′Ω̂−1e
)
−
(
1√
n
x′Ω−1e
)]
= 0
Pero en realidad no necesitamos σ2Ω, solo necesitamos la diagonal, por lo que podemos ocupar la
matriz de White —también llamada matriz de errores robustos— para corregir por heterocedas-
ticidad:
S0 =
1
n
∑
σ2i x
′
ixi
con lo que obtenemos de manera general: Var(β̂) = n(x′ixi)
−1S0(x′ixi)
−1
2 Modelo Clásico de Regresión Lineal 10
2.5. Heterocedasticidad
Varianza con errores heterocedásticos, es decir, cuando los residuos provienen de distribuciones con
distintas varianzas:
Var(β̂) = (x′x)−1x′E(ee′)x(x′x)−1
= (x′x)−1x′σ2Ωx(x′x)−1
= σ2(x′x)−1(x′Ωx)(x′x)−1
=
σ2
n
(
1
n
x′x
)−1( 1
n
x′Ωx
)(
1
n
x′x
)−1
Donde Ω es la forma de la heterocedasticidad, si los regresores se comportan bien
(
1
nx
′x
)−1 con-
vergerá a Q−1, y el término σ
2
n a 0. Pero
1
nx
′Ωx no tiene porqué converger. Pero si se cumplen
las condiciones de Grenander convergerá. El estimador Mico sigue siendo el mejor estimador lineal
insesgado, y sigue distribuyéndose asintóticamente normal, esto es razonable porque el problema
de la heterocedasticidad se refiere al segundo momento y no a la media de los errores. Entonces, lo
único que cambia es la varianza del estimador que ahora no es σ2(x′x)−1, por lo que las inferencias
basadas en esta última están sesgadas.
• Condiciones de Grenander:
1. Para cada columna de x, ĺımn→∞ x′kxk = +∞ (no degenera a una secuencia de ceros).
2. ĺımn→∞
x2ik
x′kxk
= 0 (ninguna observación domina la varianza).
3. La matriz x es de rango completo.
• Estimación en dos etapas cuando hay heterocedasticidad:
(1) Estimar σ̂2i
(2) Estimar ˆ̂β =
(∑n
i=1
1
σ̂2i
x′ixi
)−1 (∑n
i=1
1
σ̂2i
x′iy
)
2.6. Autocorrelación
Si la forma de autocorrelación σij no es parametrizable (no tiene estructura), no se puede estimar.
Si la forma de σij es parametrizable (tiene una estructura simple), es estimable y los parámetros
siguen siendo insesgados, excepto si las variables del lado derecho contienen un rezago de la variable
endógena. Por otro lado, la Var( ˆ̂β) = Var(β̂OLS) solo cuando no hay autocorrelación. La varianza del
estimador bajo autocorrelación podŕıa ser mayor o menos que la del estimador Mico dependiendo
del valor de ρ. Si ρ > 0, se sobreestima la varianza, y si es negativo no es claro el sesgo. Los test t
estarán sesgados. La solución al problema es, naturalmente, usar mı́nimos cuadrados generalizados
(si es que conocemos Ω).
3 Variables Instrumentales 11
• Coeficiente de autocorrelación: rs = E(utut−s)Eu2t
• Autocovarianza con rezago s: E(etet−s) = γs con s = 0,±1,±2, ...
• Operador de rezagos: Lizt = zt−i
• Autocorrelación de primer orden AR(1):
ut = ρut−1 + νt con ρ < 1
= νt + ρνt−1 + ρ2νt−2 + ...
= νt(1 + Lρ+ L2ρ2 + ...)
σ2u = σν(1 + ρ
2 + ρ4 + ...)
=
σ2ν
1− ρ2
• Para obtener las covarianzas y varianzas en el caso de AR(1):
ut = ρut−1 + νt / · ut−s
utut−s = ρut−1ut−s + νtut−s
E(utyt−s) = ρE(ut−1ut−s) + E(νtut−s)
Dada la independencia entre νt y ut−s tenemos:
E(utut−s) = ρE(ut−1ut−s)
Y haciendo s = 1 tenemos entonces: Cov(ut, ut−1) = ρσ2u
3. Variables Instrumentales
En este caso existe correlación 6= 0 entre el error no observable u y alguna de las variables explica-
tivas xj con j = 1, ..., k.
y = β0 + β1x1 + ...+ βkxk + u (1)
Si solo xk podŕıa estar correlacionada con el error, se dice que xk es potencialmente endógena, y
x−k son variables exógenas. Se puede pensar que u contiene alguna variable omitida no observable
correlacionada con xk. El estimador Mico en este caso está sesgado, y por lo tanto no se puede
estimar de manera consistente. Necesitamos entonces una variable observable z1 que no esté en la
ecuación (1) que satisfaga dos condiciones:
1. Condición de Exogeneidad: Que no esté correlacionada con u, Cov(z1, u) = 0, es decir,
que sea exógena a la ecuación (1).
3 Variables Instrumentales 12
2. Condición de Identificación: Que este correlacionada con la variable endógena de manera
tal que:
xk = δ0 + δ1x−k + θ1z1 + rk
donde E(rk) = 0 y rk no esta correlacionado con x−k y z1, y x−k son los regresores 6= k en la
ecuación (1), y debe cumplirse que:
θ1 6= 0 (2)
donde esto no significa que z1 esté correlacionado con xk, sino que significa que z1 debe estar
parcialmente correlacionado con xk una vez que se ha neteado el efecto de las otras variables
x−k. Entonces está mal decir que esta segunda condición es Cov(z1, xk) 6= 0, porque esto es
solo en el caso particular que en la ecuación (1) hay un solo regresor igual a xk.
Si z1 cumple con estas dos condiciones, es un candidato a variable instrumental de xk (instrumentos
admisibles). En este caso, como x−k son exógenas, son instrumentos de si mismas al no estar corre-
lacionada con u. La ecuación (2) es la ecuación en forma reducida para la variable explicativa
endógena xk. Ahora, incorporando la ecuación (2) en la (1) obtenemos:
y = α0 + α1x1 + ...+ αk−1xk−1 + λ1z1 + ν (3)
donde ν = u + βkrk, αj = βj + βkγj , y λ1 = βkθ1, y debido a los supuestos, Mico puede estimar
consistentemente los parámetros αj y λ1. En términos matriciales podemos escribir:
x = (1, x1, ..., xk)
z = (1, x1, ..., z1)
Donde en y = xβ + u por los supuestos sabemos que E(z′u) = 0, entonces el estimador:
β̂ = (z′x)−1(z′y) (4)
es un estimador consistente si se utiliza una muestra aleatoria de (x, y, z1). Esto sucede porque la
ecuación [E(z′x)]β = E(z′y) representa un sistema de ecuaciones con una solución única si y solo
si la matriz de k × k E(z′x) tiene rango completo:
Condición de Rango : rango E(z′x) = k
lo cual solo sucede cuando θ1 6= 0. Es importante recalcar que mientras la condición de identificación
se puede testear, la condición de exogeneidad no se puede, porque u es no observable.
3.1. Estimación en Dos Etapas
Supongamos que ahora tenemos más de una variable instrumental para xk: z1, z2, ..., zM con Cov(zh, u) =
0 y h = 1, 2, ...,M . Cada una de las variables zh cumple con la condición de exogeneidad. Definimos
3 Variables Instrumentales 13
el vector de variables exógenas:
z ≡ (1, x1, ..., z1, ..., zM , ...xn)
donde z es un vector de 1 × L con L = k + M . De todas las posibles combinaciones que pueden
escogerse de z como instrumento para xk, el método en dos etapas (2SLS) escoge la que está más
correlacionada con xk. Esta combinación viene dada por:
x∗k ≡ δ0 + δ1x1 + ...+ δk−1xk−1 + θ1z1 + ...+ θMzM
donde muchasveces se interpreta x∗k como la parte de xk que no está correlacionada con u. Esti-
mando esta ecuación por Mico podemos obtener un estimador x̂k en la primera etapa:
x̂k = δ̂0 + δ̂1x1 + ...+ δ̂k−1xk−1 + θ̂1z1 + ...+ θ̂MzM
Definiendo x̂ ≡ (1, x1, ..., xk−1, x̂k) podemos estimar la segunda etapa y escribir el estimador
2SLS como:
β̂ = (X̂′X)−1X̂′Y
Donde X̂ = Z(Z′Z)−1Z′X. Es importante notar que si en la primera etapa se omiten los regre-
sores x−k se obtendrán estimadores inconsistentes en la segunda etapa. El estimador de variables
instrumentales y el estimador 2SLS son equivalentes cuando solo hay 1 instrumento para xk. La
condición de identificación en el caso 2SLS es que debe haber al menos un θj 6= 0, lo que se prue-
ba fácilmente con una hipótesis nula que todos son cero y usando un test de multiplicadores de
Lagrange. Un modelo con 1 variable endógena se dice sobreidentificado cuando M > 1, y existen
M − 1 restricciones de sobreidentificación.
3.2. Consistencia y Normalidad Asintótica
Para poder estimar consistentemente de una muestra aleatoria una ecuación como (1) con (quizás)
varias variables endógenas es necesario que:
Para algún vector z de 1× L se cumpla : E(z′u) = 0
: rango E(z′z) = L
: rango E(z′x) = k
donde el vector z contiene variables fuera del modelo de la ecuación (1).
La normalidad asintótica de
√
n(β̂−β) viene de la normalidad asintótica de n−1/2
∑N
i=1 z
′
iui, que a
su vez viene del teorema del ĺımite central y el supuesto de segundos momentos bien comportados.
El Estimador de la Varianza Asintótica es:
V AE(β̂2SLS) = σ̂2(X̂′X̂)−1 = σ̂2(Z′X)−1Z′Z(Z′X)−1
4 Econometŕıa de Series de Tiempo 14
3.3. Instrumentos Débiles
La probabilidad ĺımite del estimador 2SLS puede escribirse como:
plim β̂1 = β1 +
σu
σx
Corr(z1, u)
Corr(z1, x1)
donde podemos ver que el segundo término del lado derecho se vuelve muy grande cuando Corr(z1, x1)
tiende a 0 y Corr(z1, u) 6= 0. Desafortunadamente, como u es no observable no podemos saber el
tamaño de las inconsistencias en los estimadores, pero debeŕıamos preocuparnos si la correlación
entre x1 y z1 es débil. Si el poder explicativo de z1 es débil, la varianza asintótica del estimador
2SLS puede ser muy grande. La Corr(x1, z1) 6= 0 no es suficiente para que el estimador 2SLS sea
eficiente, para esto la correlación debe ser un tamaño considerable.
4. Econometŕıa de Series de Tiempo
4.1. Modelos Estacionarios Univariados
Un proceso autorregresivo AR(p) puede escribirse como
yt = µ+ φ1yt−1 + ...+ φpyt−p
En la práctica todo proceso AR se puede escribir como un MA(∞):
yt = µ+ et − θet−1
= µ+ (1− θL)et
yt
1− θL
=
µ
1− θ
+ et
yt =
µ
1− θ
− θyt−1 + θ2yt−2 − ...+ et
Porque sabemos que (1 + θL + θ2L2 + ...) = 11−θL . Por otro lado, un proceso de media móvil
MA(q) tiene las siguientes caracteŕısticas:
Representación : yt = µ+ �t + θ1�t−1 + ...+ θq�t−q
Varianza : γ0 = σ2� = (1 + θ
2
1 + ...+ θ
2
q)
Función de autocovarianza : γj = σ2� = (θj + θj+1θ1 + ...+ θqθq−j) ∀ j = 0, 1, ..., q
Función de autocorrelación : ρ =
θj + θjθj+1 + ...+ θqθq−j
1 + θ21 + ...+ θ2q
∀ j = 0, 1, ..., j
Si la secuencia de coeficientes del MA(∞) es sumable absoluta, entonces la secuencia de autocova-
rianzas es sumable absoluta y el proceso es estacionario. Un proceso que contiene tanto una parte
autorregresiva como una parte media móvil es denominado proceso ARMA(p,q), y se escribe
como:
yt = µ+ φ1yt−1 + ...+ φpyt−p + �t + θ1�t−1 + ...+ θq�t−q
4 Econometŕıa de Series de Tiempo 15
Estacionariedad Débil
Un proceso yt es débilmente estacionario o de covarianza estacionaria si satisface los siguientes
requisitos:
1. E(yt) es independiente de t.
2. Var(yt) es constante e independiente de t.
3. Cov(yt, ys) es una función de t− s, pero no de t o de s.
Teorema de Wold
Cualquier proceso con media cero y estacionario en covarianza {yt} puede ser representado de
manera única por un componente lineal determińıstico y un componente lineal no determińıstico:
yt = P ∗[yt|yt−1, yt−2, ..., yt−p] +
∞∑
i=0
θ1�t−i
Donde P ∗ es un predictor lineal y debe cumplirse que:
1. �t = yt − P ∗[yt|yt−1, yt−2, ..., yt−p] es un error de predicción.
2. �t es ruido blanco.
3. Sumabilidad cuadrática:
∑∞
i=1 θ
2
i <∞.
4. Todas las ráıces de θ(L) están fuera del ćırculo unitario.
Metodoloǵıa Box-Jenkins
1. Hacer estacionaria la variable aleatoria y retirar componentes determińısticos.
2. Parametrizar identificando rezagos con los correlogramas muestrales.
3. Tests de especificación para evaluar y predecir dentro y fuera de la muestra.
4.2. Modelos Estacionarios Multivariados
• VAR en su forma primitiva:
yt = β11 + β12yt−1 + β13zt−1 + �yt
zt = β21 + β22zt−1 + β23yt−1 + �zt
4 Econometŕıa de Series de Tiempo 16
• VAR en su forma reducida:(
yt
zt
)
=
(
a11 a12
a21 a22
)(
yt−1
zt−1
)
+
(
e1t
e2t
)
• Causalidad de Granger: Si θ(L) 6= 0 en y = φ(L)yt−1 + θ(L)zt−1 + �t, entonces zt causa-
a-la-Granger a yt.
• Causalidad de Sims: Si θ(L) 6= 0 en yt = c +
∑∞
i=0 φizt−i +
∑∞
i=1 θizt+i + �t, entonces zt
causa-a-la-Sims a yt.
• Causalidad de Geweke, Meese y Dent: Corrige a Sims por autocorrelación residual. Si
θ(L) 6= 0 en yt = c−
∑∞
i=1 λiyt−i+
∑∞
i=0 φizt−i+
∑∞
i=1 θizt+i+�t, entonces zt causa-a-la-GMD
a yt.
• Estimación:
logL = −1
2
(T − p)n log(2π) + (T − p) log Ω−1 − 1
2
T−p∑
i=1
êiΩ−1êi
∂ logL
∂Ω−1
= 0 ⇒ Ω̂ =
∑T−p
i=1 �̂i�̂i
T − P
La inclusión del estimador de Ω produce la llamada función de verosimilitud condensada
4.3. Modelos Estacionarios para la Varianza
• ARCH(1):
yt = βxt + �t
�t = µ(α0 + α1�2t−1)
1/2
V (�t|�t−1) = α0 + α1�2t−1
V (�t) = α0 + α1σ2� =
α0
1− α1
• ARCH(q): σ2t = µ2(α0 + α1�2t−1 + ...+ αq�2t−q)
• GARCH(p, q): σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t )
• Con regresores exógenos: σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t ) + α3wt
• ARCH-M: usado en finanzas
yt = βxt + θσ2t + �t
�t−1) = α0 + α1�2t−1 + α2σ
2
t
4 Econometŕıa de Series de Tiempo 17
• Test de Engle: Tests para detectar residuos ARCH. Correr la regresión:
�2t = α0 + α1�
2
t−1 + ...+ αq�t−q
con un test de multiplicadores de lagrange TR2 que se distribuye χ2(q).
4.4. Procesos no estacionarios y ráıces unitarias
Variables como el PIB o el nivel de precios no son estacionarias. En muchos casos puede conseguirse
la estacionariedad simplemente tomando diferencias, o mediante alguna otra transformación. Pero
surgen cuestiones estad́ısticas nuevas.
• Random Walk: Se puede representar como:
yt = µ+ yt−1 + et =
∞∑
i=0
(µ+ et)
donde la varianza de yt será obviamente infinita. Este proceso es claramente no estacionario,
pero tomando la primera diferencia tenemos que zt = yt−yt−1 = µ+et es ahora estacionario.
La serie yt se dice que es integrada de orden 1, I(1), porque tomando una primera diferencia
obtenemos un proceso estacionario. Abreviando tenemos que:
zt = (1− L)dyt = ∆dyt
• La utilización de datos que se caracterizan por tener ráıces unitarias son susceptibles de
conducir a serios errores en las inferencias. La inferencia basada en mı́nimos cuadrados no
es válida en este caso. El paseo aleatorio con deriva (con término constante), el proceso
estacionario con tendencia, y el paseo aleatorio se caracterizan por tener una ráız
unitaria, esto es, divergen y sus momentos no dependen del tiempo. Consideremos los tres
modelos en una sola ecuación:
zt = µ+ βt+ zt−1 + ut
Ahora restamos zt−1 a los dos lados de la ecuación e introducimos un parámetro artificial γ:
zt − zt−1 = µγ + β(1− γ)t+ (γ − 1)zt−1 + ut
= α0 + α1t+ (γ − 1)zt−1 + ut
donde, por hipótesis γ = 1. Esta ecuación nos proporciona las bases para los contrastes de
ráız unitaria. Un contraste de la hipótesis γ − 1 = 0 confirma el paseo aleatorio con deriva, y
si es menor que 0 favorece la tendencia estacionaria (y eliminarla es el método preferible).
4 Econometŕıa de Series de Tiempo 18
4.5. Cointegración
En la especificación completa del modelo yt = xtβ = et está impĺıcitala presunción de que los
residuos et son una serie estacionaria, ruido blanco. Pero probablemente esto no será cierto cuando
xt e yt sean series integradas. Generalmente, si dos series son integradas para diferentes órdenes,
las combinaciones lineales de ambas estarán integradas para el más alto de los dos órdenes. Aśı,
si xt e yt son series I(1), entonces normalmente esperaŕıamos que yt − xtβ sea I(1) sea cual sea
el valor de β. Por otra parte, si las dos series son I(1), puede existir un β tal que et = yt − βxt
sea I(0). Intuitivamente, si las dos series son I(0), esta diferencia entre ellas tiene que ser estable
alrededor de una media fija. Esto significaŕıa que las series crecen simultáneamente a la misma tasa.
Dos series que satisfacen estos requisitos se dice que están cointegradas, y el vector [1− β] (o un
múltiplo de él) es un vector de cointegración. Podemos distinguir entonces una relación de largo
plazo entre xt e yt, es decir, la forma en la cual las dos variables crecen, la dinámica de corto plazo y
las desviaciones de xt respecto de su tendencia de corto plazo. Si este es el caso, una diferenciación
de los datos seŕıa contraproducente, ya que podŕıa oscurecer la relación de largo plazo entre xt e
yt. El error ut es estacionario cuando yt y xt están cointegradas.
4.6. Modelo de corrección de errores y relaciones de largo plazo
Tomemos el siguiente modelo:
lnYt = β1 + β2 lnXt + β3 lnXt−1 + β4 lnYt−1 + ut (5)
Supongamos que la teoŕıa dice que en el largo plazo Y crece a la misma tasa queX. Esto significa que
en largo plazo Y/X es constante, por lo tanto se puede incluir la siguiente restricción: lnYt−lnXt =
C. Por lo tanto, para el modelo se cumplirá en el largo plazo:
Yt = cXt
∆ lnYt = ∆ lnYt−1 = ∆ lnXt = ∆ lnXt−1 = ∆
∆ = β2∆ + β3∆ + β4∆
= (β2 + β3 + β4)∆
⇒ β2 + β3 + β4 = 1
donde la última ecuación es la restricción teórica. Podemos escribir el modelo con esta restricción
en el largo plazo:
lnYt = β1 + β2 lnXt + β3 lnXt−1 + (1− β2 − β3) lnYt−1 + ut
El modelo se puede escribir en dos tipos de formatos adicionales:
4 Econometŕıa de Series de Tiempo 19
1. En cambios y niveles: Ocupando ∆Zt = Zt − Zt−1 en la ecuación (5) cuando se suma y
resta β2 lnXt−1.
∆ lnYt = β1 + β2∆ lnXt + (β2 + β3) lnXt−1 − (β2 + β3) lnYt−1 + ut
2. Corrección de errores: Formando un término de desequilibrio o corrección de error en el
peŕıodo t− 1.
∆ lnYt = β2∆ lnXt − (β2 + β3)
[
lnYt−1 −
β1
β2 + β3
− lnXt−1
]
+ ut
Dado que β2 + β3 = 1− β4 cuando ∆ lnXt y ut sean iguales a 0, la variable Yt convergerá a
un equilibrio de largo plazo:
lnYt =
β1
1− β4
+ lnXt (6)
Para obtener la elasticidad de largo plazo (en el caso que exista un equilibrio de largo
plzo entre los niveles de las variables) todos los términos en ∆ se hacen igual a 0 y todos los
sub́ındices se igualan a t. Aśı se obtiene la ecuación de largo plazo, que este caso particular seŕıa
igual a la ecuación (6). Derivand esta ecuación con respecto a lnXt se obtiene la elasticidad
de largo plazo con respecto de Xt, que en este cas0 particular seŕıa 1. El modelo de serie
de tiempo original en la ecuación (5) permite testear distintas especificaciones dinámicas a
través de la imposición de determinadas restricciones sobre los parámetros. Para poder usar
la corrección de errores se requiere de una teoŕıa que señale que existe un nivel de equilibrio
de la variable que se quiere explicar o una trayectoria de equilibrio.
En el modelo:
Yt = a1Yt−1 + a2Yt−2 + b1Xt + b2Xt−1 + ut
si hay un equilibrio de largo plazo, el valor al cual convergerá Yt condicional a Xt y ut contantes
será:
Y ∗ =
(b1 + b2)Xt + ut
1− a1 − a2
Si Xt es estacionaria, la existencia de una relación de equilibrio de largo plazo entre Yt y Xt exige
la estacionariedad de Yt, lo cual a su vez requiere de dos condiciones:
a. Las ráıces de la ecuación caracteŕıstica deben ser menores que uno, de otra forma, cualquier
perturbación en el error de la ecuación haŕıa explotar a Yt.
b. También ut debe ser estacionario, por la misma razón.
Si Xt es no estacionaria, Yt será no estacionaria, pero si se cumplen a. y b. habrá una relación
de largo plazo entre ambas variables no estacionarias, lo que recibe el nombre de cointegración. Se
suele confundir los término de relación de largo plazo con el de cointegración. Cointegración implica
que hay una relación de largo plazo, pero no al revés.
5 Modelos de Respuesta Discreta 20
5. Modelos de Respuesta Discreta
En modelos cualitativos la variable y es una variable aleatoria que puede tomar un número finito
de valores. El caso clásico es cuando y es una respuesta binaria que toma valores de 1 ó 0, que
indica si cierto evento ha o no ha ocurrido. En estos modelos el interés recae principalmente en la
probabilidad de la respuesta:
p(x) ≡ P (y = 1|x) = P (y = 1|x1, x2, ..., xk)
para varios valores de x. Para una variable continua xj , el efecto parcial de xj en la probabilidad
de respuesta es:
∂P (y = 1|x)
∂xj
=
∂p(x)
∂xj
(7)
Y cuando mutliplicamos (7) por ∆xj nos da el cambio aproximado en P (y = 1|x) cuando xj
aumenta en ∆xj , manteniendo las otras variables fijas. Si xk fuese una variable binaria, estaŕıamos
interesados en p(x1, x2, ..., xk−1, 1)− p(x1, x2, ..., xk−1, 0), que es la diferencia en la probabilidad de
respuesta. Para la mayoŕıa de los modelos se considera que, si una variable xj , ya sea continua o
discreta, el efecto parcial de xj en p(x) depende de todos los x.
Debemos recordar algunas cosas de la función Bernoulli para trabajar con estos modelos:
P (y = 1|x) = p(x)
P (y = 0|x) = 1− p(x)
E(y|x) = p(x)
Var(y|x) = p(x)[1− p(x)]
Además, la función densidad de una binomial es p(y)X(1 − p(y))Z , donde X y Z son los valores
que toma la variable y cuando se da el éxito y el fracaso respectivamente.
5.1. Modelo de probabilidad lineal para respuesta binaria
El modelo de probabilidad lineal (LPM) para la respuesta binaria se especifica como:
P (y = 1|x) = β0 + β1x1 + β2x2 + ...+ βkxk
Asumiendo que x1 no está relacionada con otras variables explicativas, β1 =
∂P (y=1|x)
∂x1
. Entonces,
β1 es el cambio en la probabilidad de éxito (y = 1) dado un aumento de una unidad en x1. Es útil
derivar la media y la varianza del modelo:
E(y|x) = β0 + β1x1 + β2x2 + ...+ βkxk (8)
Var(y|x) = xβ(1− xβ) donde xβ = β0 + ...+ βkxk (9)
5 Modelos de Respuesta Discreta 21
La ecuación (8) nos indica que dada una muestra aleatoria, la regresión OLS de y en 1, x1, x2, ..., xk
produce estimadores consistentes e insesgados de βj . La ecuación (9) nos indica que hay heteroce-
dasticidad presente a menos que todos los β sean 0 (hay que utilizar la matriz de errores robustos).
Se puede usar el test F para testear la significancia conjunta de todas las variables (dejando la
constante sin restringir).
5.2. Probit y Logit
En este caso los modelos de respuesta binaria son de la forma:
P (y = 1|x) = G(xβ) = p(x) (10)
donde x es 1×K, β es K×1, y tomamos el primer elemento de x como unitario. En LPM G(z) = z
es la función identidad. En esta sección asumimos que G(·) toma valores en el intervalo unitario
abierto 0 < G(z) < 1 para todo z ∈ R. El modelo descrito en (10) se llama modelo index porque
restringe la forma en que la probabilidad de la respuesta depende de x: p(x) es una función de x
solo a través del index: xβ = β1 + x2β2 + ...+ xkβk.
Modelo Probit
El modelo probit es el caso especial de (10) cuando:
G(z) ≡ Φ(z) =
∫ z
−∞
φ(v)dv
donde φ(z) = (2π)−1/2 exp{−z2/2}
Modelo Logit
El modelo logit es el caso especial de (10) cuando:
G(z) ≡ Λ(z) = exp(x)/[1− exp(z)]
Para aplicar exitosamente modelos probit y logit es importante interpretar βj en variables explica-
tivas continuas y discretas.
5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria
Asumimos que tenemos N observaciones independientes e idénticamente distribuidas siguiendo el
modelo (10). Para estimar el modelo por máximaverosimilitud (condicional), necesitamos la log-
verosimilitud para cada i. La densidad de yi dado xi puede escribirse como:
f(y|xi;β) = [G(xiβ)]y[1−G(xiβ)]1−y
5 Modelos de Respuesta Discreta 22
con y = 0, 1. La log-verosimilitud para la observación i es una función de los K × 1 vectores de
parámetros y de los datos (xi, yi):
li(β) = yi logG(xiβ) + (1− yi) log(1−G(xiβ))
Restringiendo que G(·) esté entre 0 y 1 asegura que la función esté bien definida para todos los
valores de β. De los resultados generales de máxima verosimilitud sabemos que β̂ es consistente
y asintóticamente normal. Asumimos que G(·) es dos veces diferenciable, y la función g(z) es la
derivada de G(·). Para el modelo probit g(z) = φ(z), y para el modelo logit g(z) = exp(z)/(1 +
exp(z))2. Tenemos:
si(β) ≡
g(xiβ)x′i[yi −G(xiβ)]
G(xiβ)[1−G(xiβ)]
	Probabilidad e Inferencia
	Elementos de Inferencia Estadística
	Elementos de Teoría Asintótica
	Máxima Verosimilitud
	Intervalos de Confianza
	Test de Hipótesis
	Modelo Clásico de Regresión Lineal
	Predicción
	Regresores Estocásticos
	Multicolinealidad
	Mínimos Cuadrados Generalizados
	Heterocedasticidad
	Autocorrelación
	Variables Instrumentales
	Estimación en Dos Etapas
	Consistencia y Normalidad Asintótica
	Instrumentos Débiles
	Econometría de Series de Tiempo
	Modelos Estacionarios Univariados
	Modelos Estacionarios Multivariados
	Modelos Estacionarios para la Varianza
	Procesos no estacionarios y raíces unitarias
	Cointegración
	Modelo de corrección de errores y relaciones de largo plazo
	Modelos de Respuesta Discreta
	Modelo de probabilidad lineal para respuesta binaria
	Probit y Logit
	Estimación por máxima verosimilitud en modelos de respuesta binaria