Logo Studenta

Apuntes Econometría

¡Este material tiene más páginas!

Vista previa del material en texto

Apuntes de Econometŕıa para el Examen de
Grado*
Pontificia Universidad Católica de Chile
*Compilación preparada a partir de los apuntes de Teoŕıa Econométrica I de los profesores Raimundo Soto, Juan
Eduardo Coeymans y de los apuntes de Inferencia Estad́ıstica de Rafael Aguila. La sección Modelos de respuesta
discreta y la parte de Variables Instrumentales se extrajo del libro de J. Wooldridge “Econometric Analysis of Cross
Section and Panel Data”, la parte de Series de Tiempo en parte del libro de Green “Econometric Analysis” y en
parte de los apuntes de Teoŕıa Econométrica III del profesor R. Soto.
Índice
1. Probabilidad e Inferencia 1
1.1. Elementos de Inferencia Estad́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Elementos de Teoŕıa Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Modelo Clásico de Regresión Lineal 4
2.1. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Regresores Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Mı́nimos Cuadrados Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3. Variables Instrumentales 11
3.1. Estimación en Dos Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.2. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4. Econometŕıa de Series de Tiempo 14
4.1. Modelos Estacionarios Univariados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2. Modelos Estacionarios Multivariados . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3. Modelos Estacionarios para la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4. Procesos no estacionarios y ráıces unitarias . . . . . . . . . . . . . . . . . . . . . . . 17
4.5. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.6. Modelo de corrección de errores y relaciones de largo plazo . . . . . . . . . . . . . . 18
5. Modelos de Respuesta Discreta 20
5.1. Modelo de probabilidad lineal para respuesta binaria . . . . . . . . . . . . . . . . . . 20
5.2. Probit y Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria . . . . . . . . 21
1 Probabilidad e Inferencia 1
1. Probabilidad e Inferencia
1.1. Elementos de Inferencia Estad́ıstica
• Podemos obtener la función generatriz de momentos usando una expansión de McLaurin,
donde t es el conjunto de vectores no aleatorios para los cuales la función existe y es finita en
la vecindad t = 0:
m(t) = E(et
′x) =
∫
et
′xdF (x) = 1 + tE(x) +
t2
2!
E(x2) +
t3
3!
E(x3) + ...
Para obtener un determinado momento hacemos:
∂im(t = 0)
∂ti
= E(xi)
• Distribución Normal:
f(z) =
1
σ
√
2π
exp
−{z − E(z)}2
2σ2
• Función caracteŕıstica de la Normal:
mx(t) = exp
(
µxt+
σ2xt
2
2
)
• Error Cuadrático Medio:
ECM = E[(θ − θ̂)2] = Var(θ̂) + [sesgo(θ̂)]2
donde sesgo(θ̂) = E(θ̂)− θ.
• El estimador de máxima verosimilitud será aquel θ∗ que hace máxima la Función de
verosimilitud:
L = f(x1, x2, ..., xn; θ) =
n∏
i=1
f(xi; θ) = [f(x; θ)]n
Este estimador es insesgado, de varianza mı́nima, asintóticamente normal e invariante a trans-
formaciones afines.
• La Cota de Cramer-Rao es el inverso del número informacional de Fisher:
[In(θ)]−1 =
(
−E
(
∂2 lnL(θ)
∂θ2
))−1
=
(
−E
((
∂ lnL(θ)
∂θ
)2))−1
• Distribución de la media muestral: Sea Y1, Y2, ..., Yn una muestra aleatoria de Y →
N(µ, σ2), entonces, E(Ȳ ) = µ y V (Ȳ ) = σ2/n, y se cumple que:
Ȳ → N(µ, σ
2
n
)
Ȳ − µ
σ√
n
→ N(0, 1)
1 Probabilidad e Inferencia 2
• Una distribución t se forma de la siguiente manera: Sea Z → N(0, 1) e independiente de
W → χ2(n), entonces:
Z√
W/n
→ t(n)
1.2. Elementos de Teoŕıa Asintótica
• Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en probabilidad
si:
ĺım
n→∞
Pr(|xn − x| < �) = 1 ∀�
lo que escribimos p ĺımxn = x, o también xn
p−→ x. Un estimador β̂ es consistente si β̂
converge en probabilidad a β.
• Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en media cuadráti-
ca a x si:
ĺım
n→∞
E(xn − x)2 = 0
lo que escribimos xn
m−→ x.
• La sucesión de variables aleatorias {xn} converge en distribución a una variable aleatoria
X con función de densidad acumulada F (x) si:
ĺım
n→∞
|F (Xn)− F (X)| = 0
en todos los puntos en los que F (x) sea continua, y se anota Xn
d−→ X.
• Teorema del ĺımite central de Lindberg-Levy: Sea {xn : n > 1} una secuencia de
variables aleatorias extráıda de cualquier función de probabilidad con media y varianza finita
(µ, σ2), y si x̄n = 1n
∑
xi, entonces:
√
n(x̄n − µ)
d−→ N(0, σ2)
lo que alternativamente podemos escribir como:
ĺım
n→∞
Fn(x) = ĺım
n→∞
P (xn < x) =
∫ x
−∞
1√
2π
exp
(
−1
2
u2
)
• Teorema del ĺımite central de Lindberg-Feller con varianzas distintas: Sea {xn : n >
1} una secuencia de variables aleatorias extráıda de un conjunto de funciones de distribución
{Fn, n ≥ 1}, cada una de ellas con media y varianza finita (µi, σ2i ).
a. Definiendo la varianza promedio como: σ̄2n =
1
n(σ
2
1 + σ
2
2 + ...)
b. Y si ninguna varianza domina a la varianza promedio: ĺımn→∞máx1≤i≤n
(
σi
nσ̄n
)
= 0
c. Y si σ̄2n converge a una constante finita: ĺımn→∞ σ̄
2
n = σ̄
2, entonces:
Z =
√
n(X̄n − µn)→ N(0, σ̄2)
1 Probabilidad e Inferencia 3
1.3. Máxima Verosimilitud
Ejemplo de estimadores de máxima verosimilitud para los parámetros de una distribución Normal.
Estimador de máxima verosimilitud de la media:
L(µ, σ2) =
i=n∏
i=1
1
σ
√
2π
exp
{
−1
2
(
Yi − µ
σ
)2}
lnL(µ, σ2) = −n lnσ − n
2
ln 2π − 1
2σ2
∑
(Yi − µ)2
∂ lnL(µ, σ2)
∂µ
=
1
2σ2
· 2
∑
(Yi − µ) = 0∑
(Yi − µ) = 0
µ̂MV =
∑
Yi
n
= Ȳ
Estimador de máxima verosimilitud de la varianza:
∂ lnL(µ, σ2)
∂σ2
= −n
2
1
σ2
+
1
2σ4
∑
(Yi − µ)2 = 0
σ2 =
∑
(Yi − µ)2
n
σ̂2MV =
∑
(Yi − Ȳ )2
n
= S2n
1.4. Intervalos de Confianza
Bilateral si Z → N(0, 1) : P (−z1−α
2
≤ Z = Ȳ − µσ√
n
≤ +z1−α
2
) = 1− α
Unilateral si Z → N(0, 1) : P (Z = Ȳ − µσ√
n
≤ +z1−α) = 1− α
Bilateral si Z → t(n− 1) : P (−t1−α
2
≤ Z = Ȳ − µ
S√
n
≤ +t1−α
2
) = 1− α
1.5. Test de Hipótesis
En los test de hipótesis se comparan o contrastan 2 hipótesis complementarias que subdividen el
espacio paramétrico —o de todos los posibles valores de θ— en 2 subespacios, por ejemplo:
H0 : µ ≥ 25
H1 = µ < 25
Se le llama H0 a la hipótesis nula y H1 a la hipótesis alternativa. Una vez establecidas las hipótesis
se debe decidir entre ellas, para lo cual se utiliza la información contenida en una muestra aleatoria
Y1, ..., Yn.
Es útil definir algunos conceptos luego de conocer lo que es el testeo de hipótesis:
2 Modelo Clásico de Regresión Lineal 4
1. Error Tipo I: Rechazar H0 cuando es verdadera
2. Error Tipo II: No Rechazar H0 cuando es falsa
3. Tamaño del test: probabilidad de cometer error tipo I
4. Poder del test: probabilidad de rechazar correctamente H0 cuando es falsa
2. Modelo Clásico de Regresión Lineal
• Los supuestos del modelo son:
1. Forma funcional lineal
2. Rango completo de los regresores
3. Mediacondicional de los residuos cero: E(ei|x) = 0
4. Residuos esféricos
5. Regresores no estocásticos
6. Residuos normales
• Estimador de mı́nimos cuadrados:
mı́n
β
S(β0) = e′e = (y − β′0x)′(y − β′0x)
= y′y − 2x′yβ0 + x′β0β′0x
Ecuación normal:
∂S(β0)
∂β0
= −2x′y + 2x′xβ0 = 0
β̂ = (x′x)−1x′y → N(β, σ2(x′x)−1)
• Otras formas de escribir el Estimador:
Con constante : β̂ =
∑
XiYi − nX̄Ȳ∑
X2i − nX2
Sin constante : β̂ =
∑
XiYi∑
X2i
• Varianza del Estimador:
V ar(β̂) = E
[
(β̂ − E[β̂])(β̂ − E[β̂])′
]
= (x′x)−1x′E(e′e)x(x′x)−1
= σ2(x′x)−1
2 Modelo Clásico de Regresión Lineal 5
• Teorema de Frisch-Waugh:
Tomamos la matriz particionada
(
x′1x1 x
′
1x2
x′2x1 x
′
2x2
)(
β1
β2
)
=
(
x′1y
x′2y
)
(1) β̂1 = (x′1x1)
−1x′1y − (x′1x1)−1x′1x2β2
(2) x′2x1β1 + x
′
2x2β2 = x
′
2y
Y con las ecuaciones (1) y (2) obtenemos el teorema:
(x′2M1x2)β2 = (x2M1y)
• R-Cuadrados:
R2 =
ŷ′M0ŷ
y′M0y
=
β̂′x′M0xβ̂
y′M0y
= 1− e
′e
y′M0y
R̄2 = 1− e
′e/(n− k)
y′M0y/(n− 1)
= 1− n− 1
n− k
(1−R2)
Se nota que cuando R2 ≈ 0 y k >> 0, podŕıa darse que R̄2 < 0. En una regresión múltiple,
R̄2 disminuirá (aumentará) cuando se suprime la variable x de la regresión si el estad́ıstico
t asociado a esta variable es mayor (menor) que 1. Una segunda dificultad con R2 hace
referencia al término constante del modelo, donde para que 0 ≤ R2 ≤ 1 se requiere que X
tenga una columna de unos, si no, entonces (1) M0e 6= e y (2) e′M0X 6= 0 y el tercer término
en:
y′M0y = (Xβ + e)′M0(Xβ + e) = β′X ′M0Xβ + β′X ′M0e+ e′M0Xβ + e′M0e
no desaparece, y cuando se calcula R2 el resultado es entonces impredecible, incluso pudiendo
ser negativo.
• Teorema de Gauss-Markov: Este teorema demuestra que el estimador de mı́nimos cua-
drados es el de menor varianza dentro del conjunt de estimadores lineales insesgados. Para
demostrarlo, tomamos otro estimador lineal insesgado ¯̂β = cy, entonces:
E(cy) = β ⇒ E(cxβ + ce) = β ⇒ cx = I
y por lo tanto obtenemos V ( ¯̂β) = σ2c′c. Luego, definimos la distancia entre ambos estimadores
como Dy = ¯̂β − β̂, de manera que se cumple que D = c − (x′x)−1x′. Despejando c de esta
última ecuación y reemplazándola en la ecuación anterior obtenemos una varianza mayor,
demostrando aśı que la varianza del estimador mico es menor.
V ( ¯̂β) = σ2(x′x)−1 + σ2DD′
2 Modelo Clásico de Regresión Lineal 6
• Estimador de la varianza de los errores:
ê = y − x(x′x)−1x′y = My = M(xβ + e) = Me
ê′ê = (Me)′(Me) = e′Me
Tomamos una matriz M =

a11 ... a1n
... ... ...
an1 ... ann

E(ê′ê) = E(e′Me) = E[e1(e1a11 + ...+ enan1) + ...+ en(e1an1 + ...+ enann)]
= a11E(e21) + ...+ annE(e
2
n)
= σ2tr(M) = σ2
[
tr(I)− tr(x(x′x)−1x′)
]
= σ(n− k)
⇒ E
(
ê′ê
n− k
)
= σ2
Lo que implica que un estimador insesgado de σ2 es σ̂2 = ê
′ê
n−k .
• Test de Wald:
Con σ desconocido :
[(Rβ̂ − q)′(R(x′x)−1R′)−1(Rβ̂ − q)]/J
e′e/(n− k)
→ F (J, n− k)
Con σ conocido : (Rβ̂ − q)′(σ2R(x′x)−1R′)−1(Rβ̂ − q) → χ2(J)
Donde V (Rβ̂ − q) = σ2R(x′x)−1R′.
• Test de modelo restringido:
(ê∗
′
ê∗ − ê′ê)/J
ê′ê/(n− k)
→ F (J, n− k)
Donde ê∗ = y − xβ∗ se obtiene con los J parámetros restringidos. Este test es equivalente al
test de Wald.
• Método Delta: Para la distribución asintótica de una función de β̂. Si f(β̂) es un conjunto
de funciones cont́ınuas de β̂ tales que C = ∂f(β̂)
∂β̂′
, y si se cumple el teorema de Slutsky
p ĺım f(β̂) = f(β), entonces:
p ĺımC =
∂f(β)
∂β
= Γ
f(β̂) → N
(
f(β),Γ
σ2
n
Q−1Γ′
)
Con un estimador asintótico de la matriz de varianzas y covarianzas igual a:
Var(f(β̂)) = C
[
σ̂2(X ′X)−1
]
C ′ = Var(β̂) ·
[
∂f(β)
∂β
]2
Si alguna de las funciones son no lineales, la propiedad de insesgadez que se mantiene para f(β̂)
podŕıa no transmitirse a f(β̂). Sin embargo, se deduce que en general f(β̂) es un estimador
consistente de f(β).
2 Modelo Clásico de Regresión Lineal 7
Sesgo de atenuación
Estamos interesados en estimar y = xβ+e, pero solamente tenemos x∗ = x+µ, donde Cov(x, e) = 0,
por lo tanto podemos estimar y = x∗β + e− βµ, donde:
β̂ = (x∗ ′x∗)−1x∗ ′y = (x∗ ′x∗)−1x∗ ′(x∗β + e− βµ)
= β + (x∗ ′x∗)−1x∗ ′e− (x∗ ′x∗)−1x∗ ′βµ
p ĺım β̂ = β − Cov(x
∗, βµ)
Var(x∗)
= β − β
σ2µ
Var(x∗)
= β
(
σ2x∗ − σ2µ
σ2x∗
)
< β
2.1. Predicción
• Valor efectivo para la observación o del modelo: yo = βxo + eo
• Valor proyectado: ŷ = β̂xo
• Error de predicción: ef = yo − ŷ = xo(β − β̂) + eo, con E(ef ) = 0. Esta predicción es lineal,
insesgada, y de mı́nima varianza.
• Varianza del error de predicción:
Var(ef ) = Var[eo + xo(β − β̂)] = σ2 + Var[(β − β̂)′xo]
= σ2 + xo ′
(
σ2(X ′X)−1
)
xo
2.2. Regresores Estocásticos
• Ley de expectativas iteradas: E(Y ) = EX(E(Y |X))
• Descomposición de la varianza: V (Y ) = VX(E(Y |X)) + EX(V (Y |X)). Que es lo mismo que
decir que la variación total es igual a la variación explicada más la variación residual.
• Teorema de Mann-Wald: Los estimadores Mico están sesgados cuando los regresores son
estocásticos y hay ausencia de correlación contemporánea pero dependencia no contemporánea
entre el error e y los regresores x. Esto ocurre cuando se estima un modelo con rezagos de la
variable dependiente (Yt−j dentro de las explicativas) pero con errores bien comportados. Si:
a. E(e) = 0
b. E(ee′) = σ2I
c. E(X ′ie) = 0, donde Xi es la columna i (⇒ E(X ′e) = 0). Esto no es independencia
completa, es solo no correlación contemporánea.
2 Modelo Clásico de Regresión Lineal 8
d. plim
(
X′X
n
)
= Σxx <∞
Entonces se cumple que:
1. plim
(
X′e
n
)
= 0
2. X
′e√
n
→ N(0, σ2ΣXX), donde ΣXX = plim
(
X′X
n
)
Por lo tanto el estimador es consistente, y la estimación de la varianza de β̂ se hace con la
fórmula tradicional σ2(X ′X)−1 ya que (ΣXX)
−1
n = (X
′X)−1.
• Cuando los regresores son estocásticos y hay dependencia contemporánea y no contemporánea
entre e y X, el plim
(
X′e
n
)
6= 0, y los estimadores Mico seŕıan inconsistentes.
2.3. Multicolinealidad
• La multicolinealidad perfecta ocurre cuando una columna de la matriz de regresores es
una combinación lineal de las otras. Si el rango de X y el rango de X ′X son menores que k,
entonces det(X ′X) = 0 y los estimadores no se pueden computar, ya que /∈ (X ′X)−1.
• La multicolinealidad imperfecta ocurre cuando existe asociación imperfecta entre varia-
bles explicativas. El R2 entre una variable explicativa y otra el resto es distinto de cero.
• En presencia de multicolinealidad el estimador Mico sigue siendo insesgado, pero la varianza
es mayor por causa de que la matriz (X ′X)−1 es mayor mientras más colinealidad exista. El
estimador Mico sigue siendo el mejor estimador lineal insesgado.
• Pseudo-soluciones a la multicolinealidad: En realidad no son soluciones porque la mul-
ticolinealidad no es un problema, sino una caracteŕıstica de los datos.
1. Uso de restricciones exactas: Consiste en introducir una restricción a la regresión,
del tipo βi + βj = 1, suponiendo que hay colinealidad entre xi y xj , de manera de
reducir la varianza del estimador sin alterar el hecho de que el estimador sea insesgado.
Algunos ejemplos de su uso: restricción de retornos constantes a escala, o restricciones
de homogeneidad en la demanda. Hay que chequear que la restricción sea plausible, ya
que de otro modo se producirá sesgo en los parámetros.
2. Método de componentes principales: Consiste en extraer de la matriz (x′x)−1 los
componentes principales de ésta, es decir, seleccionar aquellos x que son más indepen-
dientes entre śı. Se define la combinación lineal como z1 = xa1, entonces buscamos un a1
tal que maximicemos z′1z1 = a1x
′a1, pero debemos normalizar a′1a1 = 1 (restricción en
la maximización) para que z′1z1 no se vaya a infinito. Usando un lagrangeano L encon-
tramos a1, que es un vector caracteŕıstico asociado a λ1 (multiplicador de lagrange en
2 Modelo Clásico de Regresión Lineal 9
la maximización). Luego volvemos a repetir el procedimiento para encontrar el segundo
componente principal, ahora agregandola restricción a′1a2 = 0 (independencia lineal).
Podemos hacer esto k veces, obteniendo ak soluciones. Juntamos los resultados en una
matriz A = [a1, a2, ..., ak], tal que Z = xA, donde Z son los componente principales.
Aśı, calculamos β̂CP = (Z ′Z)−1Z ′y, el cual claramente tiene menor varianza, pero es
sesgado.
2.4. Mı́nimos Cuadrados Generalizados
Hemos mantenido el supuesto de que E(e′e) = σ2I, pero cuando se viola tendremos que E(e′e) =
σ2Ω. Esto ocurre cuando hay heterocedasticidad o correlación residual. Obviamente si conociéra-
mos Ω podŕıamos usar directamente el estimador de la varianza. Transformando el modelo Tyi =
Txiβ + Tei, de manera que se sigue cumpliendo E(Te) = 0, obtenemos E(Tee′T ′) = σ2T ′ΩT . Si
T ′ΩT = I habŕıamos solucionado el problema, porque ocupamos Mico como siempre. Entonces
queremos encontrar un T tal que Ω−1 = T ′T para ponderar el modelo. El estimador de mı́nimos
cuadrados generalizados (también llamado estimador de Aitken) seŕıa:
β̂GLS = (x′iT
′Txi)−1x′iT
′Tyi = (x′iΩ
−1xi)−1x′iΩ
−1yi
¿Qué sucede cuando Ω es desconocida? Podŕıamos estimarla con algunos parámetros Ω̂ = Ω(θ̂)
—donde θ podŕıa ser la autocorrelación, por ejemplo— siempre y cuando haya convergencia. Su-
pongamos que θ̂ es un estimador consistente de θ, entonces podŕıamos formar Ω̂ = Ω(θ̂), y podŕıamos
hacer mı́nimos cuadrados generalizados factibles:
ˆ̂
βGLS = (x′Ω̂−1x)−1x′Ω̂−1y
que es asintóticamente equivalente a β si se cumplen las siguientes condiciones:
1. plim
[(
1
nx
′Ω̂−1x
)
−
(
1
nx
′Ω−1x
)]
= 0
2. plim
[(
1√
n
x′Ω̂−1e
)
−
(
1√
n
x′Ω−1e
)]
= 0
Pero en realidad no necesitamos σ2Ω, solo necesitamos la diagonal, por lo que podemos ocupar la
matriz de White —también llamada matriz de errores robustos— para corregir por heterocedas-
ticidad:
S0 =
1
n
∑
σ2i x
′
ixi
con lo que obtenemos de manera general: Var(β̂) = n(x′ixi)
−1S0(x′ixi)
−1
2 Modelo Clásico de Regresión Lineal 10
2.5. Heterocedasticidad
Varianza con errores heterocedásticos, es decir, cuando los residuos provienen de distribuciones con
distintas varianzas:
Var(β̂) = (x′x)−1x′E(ee′)x(x′x)−1
= (x′x)−1x′σ2Ωx(x′x)−1
= σ2(x′x)−1(x′Ωx)(x′x)−1
=
σ2
n
(
1
n
x′x
)−1( 1
n
x′Ωx
)(
1
n
x′x
)−1
Donde Ω es la forma de la heterocedasticidad, si los regresores se comportan bien
(
1
nx
′x
)−1 con-
vergerá a Q−1, y el término σ
2
n a 0. Pero
1
nx
′Ωx no tiene porqué converger. Pero si se cumplen
las condiciones de Grenander convergerá. El estimador Mico sigue siendo el mejor estimador lineal
insesgado, y sigue distribuyéndose asintóticamente normal, esto es razonable porque el problema
de la heterocedasticidad se refiere al segundo momento y no a la media de los errores. Entonces, lo
único que cambia es la varianza del estimador que ahora no es σ2(x′x)−1, por lo que las inferencias
basadas en esta última están sesgadas.
• Condiciones de Grenander:
1. Para cada columna de x, ĺımn→∞ x′kxk = +∞ (no degenera a una secuencia de ceros).
2. ĺımn→∞
x2ik
x′kxk
= 0 (ninguna observación domina la varianza).
3. La matriz x es de rango completo.
• Estimación en dos etapas cuando hay heterocedasticidad:
(1) Estimar σ̂2i
(2) Estimar ˆ̂β =
(∑n
i=1
1
σ̂2i
x′ixi
)−1 (∑n
i=1
1
σ̂2i
x′iy
)
2.6. Autocorrelación
Si la forma de autocorrelación σij no es parametrizable (no tiene estructura), no se puede estimar.
Si la forma de σij es parametrizable (tiene una estructura simple), es estimable y los parámetros
siguen siendo insesgados, excepto si las variables del lado derecho contienen un rezago de la variable
endógena. Por otro lado, la Var( ˆ̂β) = Var(β̂OLS) solo cuando no hay autocorrelación. La varianza del
estimador bajo autocorrelación podŕıa ser mayor o menos que la del estimador Mico dependiendo
del valor de ρ. Si ρ > 0, se sobreestima la varianza, y si es negativo no es claro el sesgo. Los test t
estarán sesgados. La solución al problema es, naturalmente, usar mı́nimos cuadrados generalizados
(si es que conocemos Ω).
3 Variables Instrumentales 11
• Coeficiente de autocorrelación: rs = E(utut−s)Eu2t
• Autocovarianza con rezago s: E(etet−s) = γs con s = 0,±1,±2, ...
• Operador de rezagos: Lizt = zt−i
• Autocorrelación de primer orden AR(1):
ut = ρut−1 + νt con ρ < 1
= νt + ρνt−1 + ρ2νt−2 + ...
= νt(1 + Lρ+ L2ρ2 + ...)
σ2u = σν(1 + ρ
2 + ρ4 + ...)
=
σ2ν
1− ρ2
• Para obtener las covarianzas y varianzas en el caso de AR(1):
ut = ρut−1 + νt / · ut−s
utut−s = ρut−1ut−s + νtut−s
E(utyt−s) = ρE(ut−1ut−s) + E(νtut−s)
Dada la independencia entre νt y ut−s tenemos:
E(utut−s) = ρE(ut−1ut−s)
Y haciendo s = 1 tenemos entonces: Cov(ut, ut−1) = ρσ2u
3. Variables Instrumentales
En este caso existe correlación 6= 0 entre el error no observable u y alguna de las variables explica-
tivas xj con j = 1, ..., k.
y = β0 + β1x1 + ...+ βkxk + u (1)
Si solo xk podŕıa estar correlacionada con el error, se dice que xk es potencialmente endógena, y
x−k son variables exógenas. Se puede pensar que u contiene alguna variable omitida no observable
correlacionada con xk. El estimador Mico en este caso está sesgado, y por lo tanto no se puede
estimar de manera consistente. Necesitamos entonces una variable observable z1 que no esté en la
ecuación (1) que satisfaga dos condiciones:
1. Condición de Exogeneidad: Que no esté correlacionada con u, Cov(z1, u) = 0, es decir,
que sea exógena a la ecuación (1).
3 Variables Instrumentales 12
2. Condición de Identificación: Que este correlacionada con la variable endógena de manera
tal que:
xk = δ0 + δ1x−k + θ1z1 + rk
donde E(rk) = 0 y rk no esta correlacionado con x−k y z1, y x−k son los regresores 6= k en la
ecuación (1), y debe cumplirse que:
θ1 6= 0 (2)
donde esto no significa que z1 esté correlacionado con xk, sino que significa que z1 debe estar
parcialmente correlacionado con xk una vez que se ha neteado el efecto de las otras variables
x−k. Entonces está mal decir que esta segunda condición es Cov(z1, xk) 6= 0, porque esto es
solo en el caso particular que en la ecuación (1) hay un solo regresor igual a xk.
Si z1 cumple con estas dos condiciones, es un candidato a variable instrumental de xk (instrumentos
admisibles). En este caso, como x−k son exógenas, son instrumentos de si mismas al no estar corre-
lacionada con u. La ecuación (2) es la ecuación en forma reducida para la variable explicativa
endógena xk. Ahora, incorporando la ecuación (2) en la (1) obtenemos:
y = α0 + α1x1 + ...+ αk−1xk−1 + λ1z1 + ν (3)
donde ν = u + βkrk, αj = βj + βkγj , y λ1 = βkθ1, y debido a los supuestos, Mico puede estimar
consistentemente los parámetros αj y λ1. En términos matriciales podemos escribir:
x = (1, x1, ..., xk)
z = (1, x1, ..., z1)
Donde en y = xβ + u por los supuestos sabemos que E(z′u) = 0, entonces el estimador:
β̂ = (z′x)−1(z′y) (4)
es un estimador consistente si se utiliza una muestra aleatoria de (x, y, z1). Esto sucede porque la
ecuación [E(z′x)]β = E(z′y) representa un sistema de ecuaciones con una solución única si y solo
si la matriz de k × k E(z′x) tiene rango completo:
Condición de Rango : rango E(z′x) = k
lo cual solo sucede cuando θ1 6= 0. Es importante recalcar que mientras la condición de identificación
se puede testear, la condición de exogeneidad no se puede, porque u es no observable.
3.1. Estimación en Dos Etapas
Supongamos que ahora tenemos más de una variable instrumental para xk: z1, z2, ..., zM con Cov(zh, u) =
0 y h = 1, 2, ...,M . Cada una de las variables zh cumple con la condición de exogeneidad. Definimos
3 Variables Instrumentales 13
el vector de variables exógenas:
z ≡ (1, x1, ..., z1, ..., zM , ...xn)
donde z es un vector de 1 × L con L = k + M . De todas las posibles combinaciones que pueden
escogerse de z como instrumento para xk, el método en dos etapas (2SLS) escoge la que está más
correlacionada con xk. Esta combinación viene dada por:
x∗k ≡ δ0 + δ1x1 + ...+ δk−1xk−1 + θ1z1 + ...+ θMzM
donde muchasveces se interpreta x∗k como la parte de xk que no está correlacionada con u. Esti-
mando esta ecuación por Mico podemos obtener un estimador x̂k en la primera etapa:
x̂k = δ̂0 + δ̂1x1 + ...+ δ̂k−1xk−1 + θ̂1z1 + ...+ θ̂MzM
Definiendo x̂ ≡ (1, x1, ..., xk−1, x̂k) podemos estimar la segunda etapa y escribir el estimador
2SLS como:
β̂ = (X̂′X)−1X̂′Y
Donde X̂ = Z(Z′Z)−1Z′X. Es importante notar que si en la primera etapa se omiten los regre-
sores x−k se obtendrán estimadores inconsistentes en la segunda etapa. El estimador de variables
instrumentales y el estimador 2SLS son equivalentes cuando solo hay 1 instrumento para xk. La
condición de identificación en el caso 2SLS es que debe haber al menos un θj 6= 0, lo que se prue-
ba fácilmente con una hipótesis nula que todos son cero y usando un test de multiplicadores de
Lagrange. Un modelo con 1 variable endógena se dice sobreidentificado cuando M > 1, y existen
M − 1 restricciones de sobreidentificación.
3.2. Consistencia y Normalidad Asintótica
Para poder estimar consistentemente de una muestra aleatoria una ecuación como (1) con (quizás)
varias variables endógenas es necesario que:
Para algún vector z de 1× L se cumpla : E(z′u) = 0
: rango E(z′z) = L
: rango E(z′x) = k
donde el vector z contiene variables fuera del modelo de la ecuación (1).
La normalidad asintótica de
√
n(β̂−β) viene de la normalidad asintótica de n−1/2
∑N
i=1 z
′
iui, que a
su vez viene del teorema del ĺımite central y el supuesto de segundos momentos bien comportados.
El Estimador de la Varianza Asintótica es:
V AE(β̂2SLS) = σ̂2(X̂′X̂)−1 = σ̂2(Z′X)−1Z′Z(Z′X)−1
4 Econometŕıa de Series de Tiempo 14
3.3. Instrumentos Débiles
La probabilidad ĺımite del estimador 2SLS puede escribirse como:
plim β̂1 = β1 +
σu
σx
Corr(z1, u)
Corr(z1, x1)
donde podemos ver que el segundo término del lado derecho se vuelve muy grande cuando Corr(z1, x1)
tiende a 0 y Corr(z1, u) 6= 0. Desafortunadamente, como u es no observable no podemos saber el
tamaño de las inconsistencias en los estimadores, pero debeŕıamos preocuparnos si la correlación
entre x1 y z1 es débil. Si el poder explicativo de z1 es débil, la varianza asintótica del estimador
2SLS puede ser muy grande. La Corr(x1, z1) 6= 0 no es suficiente para que el estimador 2SLS sea
eficiente, para esto la correlación debe ser un tamaño considerable.
4. Econometŕıa de Series de Tiempo
4.1. Modelos Estacionarios Univariados
Un proceso autorregresivo AR(p) puede escribirse como
yt = µ+ φ1yt−1 + ...+ φpyt−p
En la práctica todo proceso AR se puede escribir como un MA(∞):
yt = µ+ et − θet−1
= µ+ (1− θL)et
yt
1− θL
=
µ
1− θ
+ et
yt =
µ
1− θ
− θyt−1 + θ2yt−2 − ...+ et
Porque sabemos que (1 + θL + θ2L2 + ...) = 11−θL . Por otro lado, un proceso de media móvil
MA(q) tiene las siguientes caracteŕısticas:
Representación : yt = µ+ �t + θ1�t−1 + ...+ θq�t−q
Varianza : γ0 = σ2� = (1 + θ
2
1 + ...+ θ
2
q)
Función de autocovarianza : γj = σ2� = (θj + θj+1θ1 + ...+ θqθq−j) ∀ j = 0, 1, ..., q
Función de autocorrelación : ρ =
θj + θjθj+1 + ...+ θqθq−j
1 + θ21 + ...+ θ2q
∀ j = 0, 1, ..., j
Si la secuencia de coeficientes del MA(∞) es sumable absoluta, entonces la secuencia de autocova-
rianzas es sumable absoluta y el proceso es estacionario. Un proceso que contiene tanto una parte
autorregresiva como una parte media móvil es denominado proceso ARMA(p,q), y se escribe
como:
yt = µ+ φ1yt−1 + ...+ φpyt−p + �t + θ1�t−1 + ...+ θq�t−q
4 Econometŕıa de Series de Tiempo 15
Estacionariedad Débil
Un proceso yt es débilmente estacionario o de covarianza estacionaria si satisface los siguientes
requisitos:
1. E(yt) es independiente de t.
2. Var(yt) es constante e independiente de t.
3. Cov(yt, ys) es una función de t− s, pero no de t o de s.
Teorema de Wold
Cualquier proceso con media cero y estacionario en covarianza {yt} puede ser representado de
manera única por un componente lineal determińıstico y un componente lineal no determińıstico:
yt = P ∗[yt|yt−1, yt−2, ..., yt−p] +
∞∑
i=0
θ1�t−i
Donde P ∗ es un predictor lineal y debe cumplirse que:
1. �t = yt − P ∗[yt|yt−1, yt−2, ..., yt−p] es un error de predicción.
2. �t es ruido blanco.
3. Sumabilidad cuadrática:
∑∞
i=1 θ
2
i <∞.
4. Todas las ráıces de θ(L) están fuera del ćırculo unitario.
Metodoloǵıa Box-Jenkins
1. Hacer estacionaria la variable aleatoria y retirar componentes determińısticos.
2. Parametrizar identificando rezagos con los correlogramas muestrales.
3. Tests de especificación para evaluar y predecir dentro y fuera de la muestra.
4.2. Modelos Estacionarios Multivariados
• VAR en su forma primitiva:
yt = β11 + β12yt−1 + β13zt−1 + �yt
zt = β21 + β22zt−1 + β23yt−1 + �zt
4 Econometŕıa de Series de Tiempo 16
• VAR en su forma reducida:(
yt
zt
)
=
(
a11 a12
a21 a22
)(
yt−1
zt−1
)
+
(
e1t
e2t
)
• Causalidad de Granger: Si θ(L) 6= 0 en y = φ(L)yt−1 + θ(L)zt−1 + �t, entonces zt causa-
a-la-Granger a yt.
• Causalidad de Sims: Si θ(L) 6= 0 en yt = c +
∑∞
i=0 φizt−i +
∑∞
i=1 θizt+i + �t, entonces zt
causa-a-la-Sims a yt.
• Causalidad de Geweke, Meese y Dent: Corrige a Sims por autocorrelación residual. Si
θ(L) 6= 0 en yt = c−
∑∞
i=1 λiyt−i+
∑∞
i=0 φizt−i+
∑∞
i=1 θizt+i+�t, entonces zt causa-a-la-GMD
a yt.
• Estimación:
logL = −1
2
(T − p)n log(2π) + (T − p) log Ω−1 − 1
2
T−p∑
i=1
êiΩ−1êi
∂ logL
∂Ω−1
= 0 ⇒ Ω̂ =
∑T−p
i=1 �̂i�̂i
T − P
La inclusión del estimador de Ω produce la llamada función de verosimilitud condensada
4.3. Modelos Estacionarios para la Varianza
• ARCH(1):
yt = βxt + �t
�t = µ(α0 + α1�2t−1)
1/2
V (�t|�t−1) = α0 + α1�2t−1
V (�t) = α0 + α1σ2� =
α0
1− α1
• ARCH(q): σ2t = µ2(α0 + α1�2t−1 + ...+ αq�2t−q)
• GARCH(p, q): σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t )
• Con regresores exógenos: σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t ) + α3wt
• ARCH-M: usado en finanzas
yt = βxt + θσ2t + �t
�t−1) = α0 + α1�2t−1 + α2σ
2
t
4 Econometŕıa de Series de Tiempo 17
• Test de Engle: Tests para detectar residuos ARCH. Correr la regresión:
�2t = α0 + α1�
2
t−1 + ...+ αq�t−q
con un test de multiplicadores de lagrange TR2 que se distribuye χ2(q).
4.4. Procesos no estacionarios y ráıces unitarias
Variables como el PIB o el nivel de precios no son estacionarias. En muchos casos puede conseguirse
la estacionariedad simplemente tomando diferencias, o mediante alguna otra transformación. Pero
surgen cuestiones estad́ısticas nuevas.
• Random Walk: Se puede representar como:
yt = µ+ yt−1 + et =
∞∑
i=0
(µ+ et)
donde la varianza de yt será obviamente infinita. Este proceso es claramente no estacionario,
pero tomando la primera diferencia tenemos que zt = yt−yt−1 = µ+et es ahora estacionario.
La serie yt se dice que es integrada de orden 1, I(1), porque tomando una primera diferencia
obtenemos un proceso estacionario. Abreviando tenemos que:
zt = (1− L)dyt = ∆dyt
• La utilización de datos que se caracterizan por tener ráıces unitarias son susceptibles de
conducir a serios errores en las inferencias. La inferencia basada en mı́nimos cuadrados no
es válida en este caso. El paseo aleatorio con deriva (con término constante), el proceso
estacionario con tendencia, y el paseo aleatorio se caracterizan por tener una ráız
unitaria, esto es, divergen y sus momentos no dependen del tiempo. Consideremos los tres
modelos en una sola ecuación:
zt = µ+ βt+ zt−1 + ut
Ahora restamos zt−1 a los dos lados de la ecuación e introducimos un parámetro artificial γ:
zt − zt−1 = µγ + β(1− γ)t+ (γ − 1)zt−1 + ut
= α0 + α1t+ (γ − 1)zt−1 + ut
donde, por hipótesis γ = 1. Esta ecuación nos proporciona las bases para los contrastes de
ráız unitaria. Un contraste de la hipótesis γ − 1 = 0 confirma el paseo aleatorio con deriva, y
si es menor que 0 favorece la tendencia estacionaria (y eliminarla es el método preferible).
4 Econometŕıa de Series de Tiempo 18
4.5. Cointegración
En la especificación completa del modelo yt = xtβ = et está impĺıcitala presunción de que los
residuos et son una serie estacionaria, ruido blanco. Pero probablemente esto no será cierto cuando
xt e yt sean series integradas. Generalmente, si dos series son integradas para diferentes órdenes,
las combinaciones lineales de ambas estarán integradas para el más alto de los dos órdenes. Aśı,
si xt e yt son series I(1), entonces normalmente esperaŕıamos que yt − xtβ sea I(1) sea cual sea
el valor de β. Por otra parte, si las dos series son I(1), puede existir un β tal que et = yt − βxt
sea I(0). Intuitivamente, si las dos series son I(0), esta diferencia entre ellas tiene que ser estable
alrededor de una media fija. Esto significaŕıa que las series crecen simultáneamente a la misma tasa.
Dos series que satisfacen estos requisitos se dice que están cointegradas, y el vector [1− β] (o un
múltiplo de él) es un vector de cointegración. Podemos distinguir entonces una relación de largo
plazo entre xt e yt, es decir, la forma en la cual las dos variables crecen, la dinámica de corto plazo y
las desviaciones de xt respecto de su tendencia de corto plazo. Si este es el caso, una diferenciación
de los datos seŕıa contraproducente, ya que podŕıa oscurecer la relación de largo plazo entre xt e
yt. El error ut es estacionario cuando yt y xt están cointegradas.
4.6. Modelo de corrección de errores y relaciones de largo plazo
Tomemos el siguiente modelo:
lnYt = β1 + β2 lnXt + β3 lnXt−1 + β4 lnYt−1 + ut (5)
Supongamos que la teoŕıa dice que en el largo plazo Y crece a la misma tasa queX. Esto significa que
en largo plazo Y/X es constante, por lo tanto se puede incluir la siguiente restricción: lnYt−lnXt =
C. Por lo tanto, para el modelo se cumplirá en el largo plazo:
Yt = cXt
∆ lnYt = ∆ lnYt−1 = ∆ lnXt = ∆ lnXt−1 = ∆
∆ = β2∆ + β3∆ + β4∆
= (β2 + β3 + β4)∆
⇒ β2 + β3 + β4 = 1
donde la última ecuación es la restricción teórica. Podemos escribir el modelo con esta restricción
en el largo plazo:
lnYt = β1 + β2 lnXt + β3 lnXt−1 + (1− β2 − β3) lnYt−1 + ut
El modelo se puede escribir en dos tipos de formatos adicionales:
4 Econometŕıa de Series de Tiempo 19
1. En cambios y niveles: Ocupando ∆Zt = Zt − Zt−1 en la ecuación (5) cuando se suma y
resta β2 lnXt−1.
∆ lnYt = β1 + β2∆ lnXt + (β2 + β3) lnXt−1 − (β2 + β3) lnYt−1 + ut
2. Corrección de errores: Formando un término de desequilibrio o corrección de error en el
peŕıodo t− 1.
∆ lnYt = β2∆ lnXt − (β2 + β3)
[
lnYt−1 −
β1
β2 + β3
− lnXt−1
]
+ ut
Dado que β2 + β3 = 1− β4 cuando ∆ lnXt y ut sean iguales a 0, la variable Yt convergerá a
un equilibrio de largo plazo:
lnYt =
β1
1− β4
+ lnXt (6)
Para obtener la elasticidad de largo plazo (en el caso que exista un equilibrio de largo
plzo entre los niveles de las variables) todos los términos en ∆ se hacen igual a 0 y todos los
sub́ındices se igualan a t. Aśı se obtiene la ecuación de largo plazo, que este caso particular seŕıa
igual a la ecuación (6). Derivand esta ecuación con respecto a lnXt se obtiene la elasticidad
de largo plazo con respecto de Xt, que en este cas0 particular seŕıa 1. El modelo de serie
de tiempo original en la ecuación (5) permite testear distintas especificaciones dinámicas a
través de la imposición de determinadas restricciones sobre los parámetros. Para poder usar
la corrección de errores se requiere de una teoŕıa que señale que existe un nivel de equilibrio
de la variable que se quiere explicar o una trayectoria de equilibrio.
En el modelo:
Yt = a1Yt−1 + a2Yt−2 + b1Xt + b2Xt−1 + ut
si hay un equilibrio de largo plazo, el valor al cual convergerá Yt condicional a Xt y ut contantes
será:
Y ∗ =
(b1 + b2)Xt + ut
1− a1 − a2
Si Xt es estacionaria, la existencia de una relación de equilibrio de largo plazo entre Yt y Xt exige
la estacionariedad de Yt, lo cual a su vez requiere de dos condiciones:
a. Las ráıces de la ecuación caracteŕıstica deben ser menores que uno, de otra forma, cualquier
perturbación en el error de la ecuación haŕıa explotar a Yt.
b. También ut debe ser estacionario, por la misma razón.
Si Xt es no estacionaria, Yt será no estacionaria, pero si se cumplen a. y b. habrá una relación
de largo plazo entre ambas variables no estacionarias, lo que recibe el nombre de cointegración. Se
suele confundir los término de relación de largo plazo con el de cointegración. Cointegración implica
que hay una relación de largo plazo, pero no al revés.
5 Modelos de Respuesta Discreta 20
5. Modelos de Respuesta Discreta
En modelos cualitativos la variable y es una variable aleatoria que puede tomar un número finito
de valores. El caso clásico es cuando y es una respuesta binaria que toma valores de 1 ó 0, que
indica si cierto evento ha o no ha ocurrido. En estos modelos el interés recae principalmente en la
probabilidad de la respuesta:
p(x) ≡ P (y = 1|x) = P (y = 1|x1, x2, ..., xk)
para varios valores de x. Para una variable continua xj , el efecto parcial de xj en la probabilidad
de respuesta es:
∂P (y = 1|x)
∂xj
=
∂p(x)
∂xj
(7)
Y cuando mutliplicamos (7) por ∆xj nos da el cambio aproximado en P (y = 1|x) cuando xj
aumenta en ∆xj , manteniendo las otras variables fijas. Si xk fuese una variable binaria, estaŕıamos
interesados en p(x1, x2, ..., xk−1, 1)− p(x1, x2, ..., xk−1, 0), que es la diferencia en la probabilidad de
respuesta. Para la mayoŕıa de los modelos se considera que, si una variable xj , ya sea continua o
discreta, el efecto parcial de xj en p(x) depende de todos los x.
Debemos recordar algunas cosas de la función Bernoulli para trabajar con estos modelos:
P (y = 1|x) = p(x)
P (y = 0|x) = 1− p(x)
E(y|x) = p(x)
Var(y|x) = p(x)[1− p(x)]
Además, la función densidad de una binomial es p(y)X(1 − p(y))Z , donde X y Z son los valores
que toma la variable y cuando se da el éxito y el fracaso respectivamente.
5.1. Modelo de probabilidad lineal para respuesta binaria
El modelo de probabilidad lineal (LPM) para la respuesta binaria se especifica como:
P (y = 1|x) = β0 + β1x1 + β2x2 + ...+ βkxk
Asumiendo que x1 no está relacionada con otras variables explicativas, β1 =
∂P (y=1|x)
∂x1
. Entonces,
β1 es el cambio en la probabilidad de éxito (y = 1) dado un aumento de una unidad en x1. Es útil
derivar la media y la varianza del modelo:
E(y|x) = β0 + β1x1 + β2x2 + ...+ βkxk (8)
Var(y|x) = xβ(1− xβ) donde xβ = β0 + ...+ βkxk (9)
5 Modelos de Respuesta Discreta 21
La ecuación (8) nos indica que dada una muestra aleatoria, la regresión OLS de y en 1, x1, x2, ..., xk
produce estimadores consistentes e insesgados de βj . La ecuación (9) nos indica que hay heteroce-
dasticidad presente a menos que todos los β sean 0 (hay que utilizar la matriz de errores robustos).
Se puede usar el test F para testear la significancia conjunta de todas las variables (dejando la
constante sin restringir).
5.2. Probit y Logit
En este caso los modelos de respuesta binaria son de la forma:
P (y = 1|x) = G(xβ) = p(x) (10)
donde x es 1×K, β es K×1, y tomamos el primer elemento de x como unitario. En LPM G(z) = z
es la función identidad. En esta sección asumimos que G(·) toma valores en el intervalo unitario
abierto 0 < G(z) < 1 para todo z ∈ R. El modelo descrito en (10) se llama modelo index porque
restringe la forma en que la probabilidad de la respuesta depende de x: p(x) es una función de x
solo a través del index: xβ = β1 + x2β2 + ...+ xkβk.
Modelo Probit
El modelo probit es el caso especial de (10) cuando:
G(z) ≡ Φ(z) =
∫ z
−∞
φ(v)dv
donde φ(z) = (2π)−1/2 exp{−z2/2}
Modelo Logit
El modelo logit es el caso especial de (10) cuando:
G(z) ≡ Λ(z) = exp(x)/[1− exp(z)]
Para aplicar exitosamente modelos probit y logit es importante interpretar βj en variables explica-
tivas continuas y discretas.
5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria
Asumimos que tenemos N observaciones independientes e idénticamente distribuidas siguiendo el
modelo (10). Para estimar el modelo por máximaverosimilitud (condicional), necesitamos la log-
verosimilitud para cada i. La densidad de yi dado xi puede escribirse como:
f(y|xi;β) = [G(xiβ)]y[1−G(xiβ)]1−y
5 Modelos de Respuesta Discreta 22
con y = 0, 1. La log-verosimilitud para la observación i es una función de los K × 1 vectores de
parámetros y de los datos (xi, yi):
li(β) = yi logG(xiβ) + (1− yi) log(1−G(xiβ))
Restringiendo que G(·) esté entre 0 y 1 asegura que la función esté bien definida para todos los
valores de β. De los resultados generales de máxima verosimilitud sabemos que β̂ es consistente
y asintóticamente normal. Asumimos que G(·) es dos veces diferenciable, y la función g(z) es la
derivada de G(·). Para el modelo probit g(z) = φ(z), y para el modelo logit g(z) = exp(z)/(1 +
exp(z))2. Tenemos:
si(β) ≡
g(xiβ)x′i[yi −G(xiβ)]
G(xiβ)[1−G(xiβ)]
	Probabilidad e Inferencia
	Elementos de Inferencia Estadística
	Elementos de Teoría Asintótica
	Máxima Verosimilitud
	Intervalos de Confianza
	Test de Hipótesis
	Modelo Clásico de Regresión Lineal
	Predicción
	Regresores Estocásticos
	Multicolinealidad
	Mínimos Cuadrados Generalizados
	Heterocedasticidad
	Autocorrelación
	Variables Instrumentales
	Estimación en Dos Etapas
	Consistencia y Normalidad Asintótica
	Instrumentos Débiles
	Econometría de Series de Tiempo
	Modelos Estacionarios Univariados
	Modelos Estacionarios Multivariados
	Modelos Estacionarios para la Varianza
	Procesos no estacionarios y raíces unitarias
	Cointegración
	Modelo de corrección de errores y relaciones de largo plazo
	Modelos de Respuesta Discreta
	Modelo de probabilidad lineal para respuesta binaria
	Probit y Logit
	Estimación por máxima verosimilitud en modelos de respuesta binaria

Otros materiales