Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Apuntes de Econometŕıa para el Examen de Grado* Pontificia Universidad Católica de Chile *Compilación preparada a partir de los apuntes de Teoŕıa Econométrica I de los profesores Raimundo Soto, Juan Eduardo Coeymans y de los apuntes de Inferencia Estad́ıstica de Rafael Aguila. La sección Modelos de respuesta discreta y la parte de Variables Instrumentales se extrajo del libro de J. Wooldridge “Econometric Analysis of Cross Section and Panel Data”, la parte de Series de Tiempo en parte del libro de Green “Econometric Analysis” y en parte de los apuntes de Teoŕıa Econométrica III del profesor R. Soto. Índice 1. Probabilidad e Inferencia 1 1.1. Elementos de Inferencia Estad́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Elementos de Teoŕıa Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.5. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2. Modelo Clásico de Regresión Lineal 4 2.1. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2. Regresores Estocásticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.4. Mı́nimos Cuadrados Generalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3. Variables Instrumentales 11 3.1. Estimación en Dos Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3.2. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4. Econometŕıa de Series de Tiempo 14 4.1. Modelos Estacionarios Univariados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.2. Modelos Estacionarios Multivariados . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.3. Modelos Estacionarios para la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.4. Procesos no estacionarios y ráıces unitarias . . . . . . . . . . . . . . . . . . . . . . . 17 4.5. Cointegración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.6. Modelo de corrección de errores y relaciones de largo plazo . . . . . . . . . . . . . . 18 5. Modelos de Respuesta Discreta 20 5.1. Modelo de probabilidad lineal para respuesta binaria . . . . . . . . . . . . . . . . . . 20 5.2. Probit y Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria . . . . . . . . 21 1 Probabilidad e Inferencia 1 1. Probabilidad e Inferencia 1.1. Elementos de Inferencia Estad́ıstica • Podemos obtener la función generatriz de momentos usando una expansión de McLaurin, donde t es el conjunto de vectores no aleatorios para los cuales la función existe y es finita en la vecindad t = 0: m(t) = E(et ′x) = ∫ et ′xdF (x) = 1 + tE(x) + t2 2! E(x2) + t3 3! E(x3) + ... Para obtener un determinado momento hacemos: ∂im(t = 0) ∂ti = E(xi) • Distribución Normal: f(z) = 1 σ √ 2π exp −{z − E(z)}2 2σ2 • Función caracteŕıstica de la Normal: mx(t) = exp ( µxt+ σ2xt 2 2 ) • Error Cuadrático Medio: ECM = E[(θ − θ̂)2] = Var(θ̂) + [sesgo(θ̂)]2 donde sesgo(θ̂) = E(θ̂)− θ. • El estimador de máxima verosimilitud será aquel θ∗ que hace máxima la Función de verosimilitud: L = f(x1, x2, ..., xn; θ) = n∏ i=1 f(xi; θ) = [f(x; θ)]n Este estimador es insesgado, de varianza mı́nima, asintóticamente normal e invariante a trans- formaciones afines. • La Cota de Cramer-Rao es el inverso del número informacional de Fisher: [In(θ)]−1 = ( −E ( ∂2 lnL(θ) ∂θ2 ))−1 = ( −E (( ∂ lnL(θ) ∂θ )2))−1 • Distribución de la media muestral: Sea Y1, Y2, ..., Yn una muestra aleatoria de Y → N(µ, σ2), entonces, E(Ȳ ) = µ y V (Ȳ ) = σ2/n, y se cumple que: Ȳ → N(µ, σ 2 n ) Ȳ − µ σ√ n → N(0, 1) 1 Probabilidad e Inferencia 2 • Una distribución t se forma de la siguiente manera: Sea Z → N(0, 1) e independiente de W → χ2(n), entonces: Z√ W/n → t(n) 1.2. Elementos de Teoŕıa Asintótica • Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en probabilidad si: ĺım n→∞ Pr(|xn − x| < �) = 1 ∀� lo que escribimos p ĺımxn = x, o también xn p−→ x. Un estimador β̂ es consistente si β̂ converge en probabilidad a β. • Una secuencia de variables aleatorias (reales o vectoriales) {xn} converge en media cuadráti- ca a x si: ĺım n→∞ E(xn − x)2 = 0 lo que escribimos xn m−→ x. • La sucesión de variables aleatorias {xn} converge en distribución a una variable aleatoria X con función de densidad acumulada F (x) si: ĺım n→∞ |F (Xn)− F (X)| = 0 en todos los puntos en los que F (x) sea continua, y se anota Xn d−→ X. • Teorema del ĺımite central de Lindberg-Levy: Sea {xn : n > 1} una secuencia de variables aleatorias extráıda de cualquier función de probabilidad con media y varianza finita (µ, σ2), y si x̄n = 1n ∑ xi, entonces: √ n(x̄n − µ) d−→ N(0, σ2) lo que alternativamente podemos escribir como: ĺım n→∞ Fn(x) = ĺım n→∞ P (xn < x) = ∫ x −∞ 1√ 2π exp ( −1 2 u2 ) • Teorema del ĺımite central de Lindberg-Feller con varianzas distintas: Sea {xn : n > 1} una secuencia de variables aleatorias extráıda de un conjunto de funciones de distribución {Fn, n ≥ 1}, cada una de ellas con media y varianza finita (µi, σ2i ). a. Definiendo la varianza promedio como: σ̄2n = 1 n(σ 2 1 + σ 2 2 + ...) b. Y si ninguna varianza domina a la varianza promedio: ĺımn→∞máx1≤i≤n ( σi nσ̄n ) = 0 c. Y si σ̄2n converge a una constante finita: ĺımn→∞ σ̄ 2 n = σ̄ 2, entonces: Z = √ n(X̄n − µn)→ N(0, σ̄2) 1 Probabilidad e Inferencia 3 1.3. Máxima Verosimilitud Ejemplo de estimadores de máxima verosimilitud para los parámetros de una distribución Normal. Estimador de máxima verosimilitud de la media: L(µ, σ2) = i=n∏ i=1 1 σ √ 2π exp { −1 2 ( Yi − µ σ )2} lnL(µ, σ2) = −n lnσ − n 2 ln 2π − 1 2σ2 ∑ (Yi − µ)2 ∂ lnL(µ, σ2) ∂µ = 1 2σ2 · 2 ∑ (Yi − µ) = 0∑ (Yi − µ) = 0 µ̂MV = ∑ Yi n = Ȳ Estimador de máxima verosimilitud de la varianza: ∂ lnL(µ, σ2) ∂σ2 = −n 2 1 σ2 + 1 2σ4 ∑ (Yi − µ)2 = 0 σ2 = ∑ (Yi − µ)2 n σ̂2MV = ∑ (Yi − Ȳ )2 n = S2n 1.4. Intervalos de Confianza Bilateral si Z → N(0, 1) : P (−z1−α 2 ≤ Z = Ȳ − µσ√ n ≤ +z1−α 2 ) = 1− α Unilateral si Z → N(0, 1) : P (Z = Ȳ − µσ√ n ≤ +z1−α) = 1− α Bilateral si Z → t(n− 1) : P (−t1−α 2 ≤ Z = Ȳ − µ S√ n ≤ +t1−α 2 ) = 1− α 1.5. Test de Hipótesis En los test de hipótesis se comparan o contrastan 2 hipótesis complementarias que subdividen el espacio paramétrico —o de todos los posibles valores de θ— en 2 subespacios, por ejemplo: H0 : µ ≥ 25 H1 = µ < 25 Se le llama H0 a la hipótesis nula y H1 a la hipótesis alternativa. Una vez establecidas las hipótesis se debe decidir entre ellas, para lo cual se utiliza la información contenida en una muestra aleatoria Y1, ..., Yn. Es útil definir algunos conceptos luego de conocer lo que es el testeo de hipótesis: 2 Modelo Clásico de Regresión Lineal 4 1. Error Tipo I: Rechazar H0 cuando es verdadera 2. Error Tipo II: No Rechazar H0 cuando es falsa 3. Tamaño del test: probabilidad de cometer error tipo I 4. Poder del test: probabilidad de rechazar correctamente H0 cuando es falsa 2. Modelo Clásico de Regresión Lineal • Los supuestos del modelo son: 1. Forma funcional lineal 2. Rango completo de los regresores 3. Mediacondicional de los residuos cero: E(ei|x) = 0 4. Residuos esféricos 5. Regresores no estocásticos 6. Residuos normales • Estimador de mı́nimos cuadrados: mı́n β S(β0) = e′e = (y − β′0x)′(y − β′0x) = y′y − 2x′yβ0 + x′β0β′0x Ecuación normal: ∂S(β0) ∂β0 = −2x′y + 2x′xβ0 = 0 β̂ = (x′x)−1x′y → N(β, σ2(x′x)−1) • Otras formas de escribir el Estimador: Con constante : β̂ = ∑ XiYi − nX̄Ȳ∑ X2i − nX2 Sin constante : β̂ = ∑ XiYi∑ X2i • Varianza del Estimador: V ar(β̂) = E [ (β̂ − E[β̂])(β̂ − E[β̂])′ ] = (x′x)−1x′E(e′e)x(x′x)−1 = σ2(x′x)−1 2 Modelo Clásico de Regresión Lineal 5 • Teorema de Frisch-Waugh: Tomamos la matriz particionada ( x′1x1 x ′ 1x2 x′2x1 x ′ 2x2 )( β1 β2 ) = ( x′1y x′2y ) (1) β̂1 = (x′1x1) −1x′1y − (x′1x1)−1x′1x2β2 (2) x′2x1β1 + x ′ 2x2β2 = x ′ 2y Y con las ecuaciones (1) y (2) obtenemos el teorema: (x′2M1x2)β2 = (x2M1y) • R-Cuadrados: R2 = ŷ′M0ŷ y′M0y = β̂′x′M0xβ̂ y′M0y = 1− e ′e y′M0y R̄2 = 1− e ′e/(n− k) y′M0y/(n− 1) = 1− n− 1 n− k (1−R2) Se nota que cuando R2 ≈ 0 y k >> 0, podŕıa darse que R̄2 < 0. En una regresión múltiple, R̄2 disminuirá (aumentará) cuando se suprime la variable x de la regresión si el estad́ıstico t asociado a esta variable es mayor (menor) que 1. Una segunda dificultad con R2 hace referencia al término constante del modelo, donde para que 0 ≤ R2 ≤ 1 se requiere que X tenga una columna de unos, si no, entonces (1) M0e 6= e y (2) e′M0X 6= 0 y el tercer término en: y′M0y = (Xβ + e)′M0(Xβ + e) = β′X ′M0Xβ + β′X ′M0e+ e′M0Xβ + e′M0e no desaparece, y cuando se calcula R2 el resultado es entonces impredecible, incluso pudiendo ser negativo. • Teorema de Gauss-Markov: Este teorema demuestra que el estimador de mı́nimos cua- drados es el de menor varianza dentro del conjunt de estimadores lineales insesgados. Para demostrarlo, tomamos otro estimador lineal insesgado ¯̂β = cy, entonces: E(cy) = β ⇒ E(cxβ + ce) = β ⇒ cx = I y por lo tanto obtenemos V ( ¯̂β) = σ2c′c. Luego, definimos la distancia entre ambos estimadores como Dy = ¯̂β − β̂, de manera que se cumple que D = c − (x′x)−1x′. Despejando c de esta última ecuación y reemplazándola en la ecuación anterior obtenemos una varianza mayor, demostrando aśı que la varianza del estimador mico es menor. V ( ¯̂β) = σ2(x′x)−1 + σ2DD′ 2 Modelo Clásico de Regresión Lineal 6 • Estimador de la varianza de los errores: ê = y − x(x′x)−1x′y = My = M(xβ + e) = Me ê′ê = (Me)′(Me) = e′Me Tomamos una matriz M = a11 ... a1n ... ... ... an1 ... ann E(ê′ê) = E(e′Me) = E[e1(e1a11 + ...+ enan1) + ...+ en(e1an1 + ...+ enann)] = a11E(e21) + ...+ annE(e 2 n) = σ2tr(M) = σ2 [ tr(I)− tr(x(x′x)−1x′) ] = σ(n− k) ⇒ E ( ê′ê n− k ) = σ2 Lo que implica que un estimador insesgado de σ2 es σ̂2 = ê ′ê n−k . • Test de Wald: Con σ desconocido : [(Rβ̂ − q)′(R(x′x)−1R′)−1(Rβ̂ − q)]/J e′e/(n− k) → F (J, n− k) Con σ conocido : (Rβ̂ − q)′(σ2R(x′x)−1R′)−1(Rβ̂ − q) → χ2(J) Donde V (Rβ̂ − q) = σ2R(x′x)−1R′. • Test de modelo restringido: (ê∗ ′ ê∗ − ê′ê)/J ê′ê/(n− k) → F (J, n− k) Donde ê∗ = y − xβ∗ se obtiene con los J parámetros restringidos. Este test es equivalente al test de Wald. • Método Delta: Para la distribución asintótica de una función de β̂. Si f(β̂) es un conjunto de funciones cont́ınuas de β̂ tales que C = ∂f(β̂) ∂β̂′ , y si se cumple el teorema de Slutsky p ĺım f(β̂) = f(β), entonces: p ĺımC = ∂f(β) ∂β = Γ f(β̂) → N ( f(β),Γ σ2 n Q−1Γ′ ) Con un estimador asintótico de la matriz de varianzas y covarianzas igual a: Var(f(β̂)) = C [ σ̂2(X ′X)−1 ] C ′ = Var(β̂) · [ ∂f(β) ∂β ]2 Si alguna de las funciones son no lineales, la propiedad de insesgadez que se mantiene para f(β̂) podŕıa no transmitirse a f(β̂). Sin embargo, se deduce que en general f(β̂) es un estimador consistente de f(β). 2 Modelo Clásico de Regresión Lineal 7 Sesgo de atenuación Estamos interesados en estimar y = xβ+e, pero solamente tenemos x∗ = x+µ, donde Cov(x, e) = 0, por lo tanto podemos estimar y = x∗β + e− βµ, donde: β̂ = (x∗ ′x∗)−1x∗ ′y = (x∗ ′x∗)−1x∗ ′(x∗β + e− βµ) = β + (x∗ ′x∗)−1x∗ ′e− (x∗ ′x∗)−1x∗ ′βµ p ĺım β̂ = β − Cov(x ∗, βµ) Var(x∗) = β − β σ2µ Var(x∗) = β ( σ2x∗ − σ2µ σ2x∗ ) < β 2.1. Predicción • Valor efectivo para la observación o del modelo: yo = βxo + eo • Valor proyectado: ŷ = β̂xo • Error de predicción: ef = yo − ŷ = xo(β − β̂) + eo, con E(ef ) = 0. Esta predicción es lineal, insesgada, y de mı́nima varianza. • Varianza del error de predicción: Var(ef ) = Var[eo + xo(β − β̂)] = σ2 + Var[(β − β̂)′xo] = σ2 + xo ′ ( σ2(X ′X)−1 ) xo 2.2. Regresores Estocásticos • Ley de expectativas iteradas: E(Y ) = EX(E(Y |X)) • Descomposición de la varianza: V (Y ) = VX(E(Y |X)) + EX(V (Y |X)). Que es lo mismo que decir que la variación total es igual a la variación explicada más la variación residual. • Teorema de Mann-Wald: Los estimadores Mico están sesgados cuando los regresores son estocásticos y hay ausencia de correlación contemporánea pero dependencia no contemporánea entre el error e y los regresores x. Esto ocurre cuando se estima un modelo con rezagos de la variable dependiente (Yt−j dentro de las explicativas) pero con errores bien comportados. Si: a. E(e) = 0 b. E(ee′) = σ2I c. E(X ′ie) = 0, donde Xi es la columna i (⇒ E(X ′e) = 0). Esto no es independencia completa, es solo no correlación contemporánea. 2 Modelo Clásico de Regresión Lineal 8 d. plim ( X′X n ) = Σxx <∞ Entonces se cumple que: 1. plim ( X′e n ) = 0 2. X ′e√ n → N(0, σ2ΣXX), donde ΣXX = plim ( X′X n ) Por lo tanto el estimador es consistente, y la estimación de la varianza de β̂ se hace con la fórmula tradicional σ2(X ′X)−1 ya que (ΣXX) −1 n = (X ′X)−1. • Cuando los regresores son estocásticos y hay dependencia contemporánea y no contemporánea entre e y X, el plim ( X′e n ) 6= 0, y los estimadores Mico seŕıan inconsistentes. 2.3. Multicolinealidad • La multicolinealidad perfecta ocurre cuando una columna de la matriz de regresores es una combinación lineal de las otras. Si el rango de X y el rango de X ′X son menores que k, entonces det(X ′X) = 0 y los estimadores no se pueden computar, ya que /∈ (X ′X)−1. • La multicolinealidad imperfecta ocurre cuando existe asociación imperfecta entre varia- bles explicativas. El R2 entre una variable explicativa y otra el resto es distinto de cero. • En presencia de multicolinealidad el estimador Mico sigue siendo insesgado, pero la varianza es mayor por causa de que la matriz (X ′X)−1 es mayor mientras más colinealidad exista. El estimador Mico sigue siendo el mejor estimador lineal insesgado. • Pseudo-soluciones a la multicolinealidad: En realidad no son soluciones porque la mul- ticolinealidad no es un problema, sino una caracteŕıstica de los datos. 1. Uso de restricciones exactas: Consiste en introducir una restricción a la regresión, del tipo βi + βj = 1, suponiendo que hay colinealidad entre xi y xj , de manera de reducir la varianza del estimador sin alterar el hecho de que el estimador sea insesgado. Algunos ejemplos de su uso: restricción de retornos constantes a escala, o restricciones de homogeneidad en la demanda. Hay que chequear que la restricción sea plausible, ya que de otro modo se producirá sesgo en los parámetros. 2. Método de componentes principales: Consiste en extraer de la matriz (x′x)−1 los componentes principales de ésta, es decir, seleccionar aquellos x que son más indepen- dientes entre śı. Se define la combinación lineal como z1 = xa1, entonces buscamos un a1 tal que maximicemos z′1z1 = a1x ′a1, pero debemos normalizar a′1a1 = 1 (restricción en la maximización) para que z′1z1 no se vaya a infinito. Usando un lagrangeano L encon- tramos a1, que es un vector caracteŕıstico asociado a λ1 (multiplicador de lagrange en 2 Modelo Clásico de Regresión Lineal 9 la maximización). Luego volvemos a repetir el procedimiento para encontrar el segundo componente principal, ahora agregandola restricción a′1a2 = 0 (independencia lineal). Podemos hacer esto k veces, obteniendo ak soluciones. Juntamos los resultados en una matriz A = [a1, a2, ..., ak], tal que Z = xA, donde Z son los componente principales. Aśı, calculamos β̂CP = (Z ′Z)−1Z ′y, el cual claramente tiene menor varianza, pero es sesgado. 2.4. Mı́nimos Cuadrados Generalizados Hemos mantenido el supuesto de que E(e′e) = σ2I, pero cuando se viola tendremos que E(e′e) = σ2Ω. Esto ocurre cuando hay heterocedasticidad o correlación residual. Obviamente si conociéra- mos Ω podŕıamos usar directamente el estimador de la varianza. Transformando el modelo Tyi = Txiβ + Tei, de manera que se sigue cumpliendo E(Te) = 0, obtenemos E(Tee′T ′) = σ2T ′ΩT . Si T ′ΩT = I habŕıamos solucionado el problema, porque ocupamos Mico como siempre. Entonces queremos encontrar un T tal que Ω−1 = T ′T para ponderar el modelo. El estimador de mı́nimos cuadrados generalizados (también llamado estimador de Aitken) seŕıa: β̂GLS = (x′iT ′Txi)−1x′iT ′Tyi = (x′iΩ −1xi)−1x′iΩ −1yi ¿Qué sucede cuando Ω es desconocida? Podŕıamos estimarla con algunos parámetros Ω̂ = Ω(θ̂) —donde θ podŕıa ser la autocorrelación, por ejemplo— siempre y cuando haya convergencia. Su- pongamos que θ̂ es un estimador consistente de θ, entonces podŕıamos formar Ω̂ = Ω(θ̂), y podŕıamos hacer mı́nimos cuadrados generalizados factibles: ˆ̂ βGLS = (x′Ω̂−1x)−1x′Ω̂−1y que es asintóticamente equivalente a β si se cumplen las siguientes condiciones: 1. plim [( 1 nx ′Ω̂−1x ) − ( 1 nx ′Ω−1x )] = 0 2. plim [( 1√ n x′Ω̂−1e ) − ( 1√ n x′Ω−1e )] = 0 Pero en realidad no necesitamos σ2Ω, solo necesitamos la diagonal, por lo que podemos ocupar la matriz de White —también llamada matriz de errores robustos— para corregir por heterocedas- ticidad: S0 = 1 n ∑ σ2i x ′ ixi con lo que obtenemos de manera general: Var(β̂) = n(x′ixi) −1S0(x′ixi) −1 2 Modelo Clásico de Regresión Lineal 10 2.5. Heterocedasticidad Varianza con errores heterocedásticos, es decir, cuando los residuos provienen de distribuciones con distintas varianzas: Var(β̂) = (x′x)−1x′E(ee′)x(x′x)−1 = (x′x)−1x′σ2Ωx(x′x)−1 = σ2(x′x)−1(x′Ωx)(x′x)−1 = σ2 n ( 1 n x′x )−1( 1 n x′Ωx )( 1 n x′x )−1 Donde Ω es la forma de la heterocedasticidad, si los regresores se comportan bien ( 1 nx ′x )−1 con- vergerá a Q−1, y el término σ 2 n a 0. Pero 1 nx ′Ωx no tiene porqué converger. Pero si se cumplen las condiciones de Grenander convergerá. El estimador Mico sigue siendo el mejor estimador lineal insesgado, y sigue distribuyéndose asintóticamente normal, esto es razonable porque el problema de la heterocedasticidad se refiere al segundo momento y no a la media de los errores. Entonces, lo único que cambia es la varianza del estimador que ahora no es σ2(x′x)−1, por lo que las inferencias basadas en esta última están sesgadas. • Condiciones de Grenander: 1. Para cada columna de x, ĺımn→∞ x′kxk = +∞ (no degenera a una secuencia de ceros). 2. ĺımn→∞ x2ik x′kxk = 0 (ninguna observación domina la varianza). 3. La matriz x es de rango completo. • Estimación en dos etapas cuando hay heterocedasticidad: (1) Estimar σ̂2i (2) Estimar ˆ̂β = (∑n i=1 1 σ̂2i x′ixi )−1 (∑n i=1 1 σ̂2i x′iy ) 2.6. Autocorrelación Si la forma de autocorrelación σij no es parametrizable (no tiene estructura), no se puede estimar. Si la forma de σij es parametrizable (tiene una estructura simple), es estimable y los parámetros siguen siendo insesgados, excepto si las variables del lado derecho contienen un rezago de la variable endógena. Por otro lado, la Var( ˆ̂β) = Var(β̂OLS) solo cuando no hay autocorrelación. La varianza del estimador bajo autocorrelación podŕıa ser mayor o menos que la del estimador Mico dependiendo del valor de ρ. Si ρ > 0, se sobreestima la varianza, y si es negativo no es claro el sesgo. Los test t estarán sesgados. La solución al problema es, naturalmente, usar mı́nimos cuadrados generalizados (si es que conocemos Ω). 3 Variables Instrumentales 11 • Coeficiente de autocorrelación: rs = E(utut−s)Eu2t • Autocovarianza con rezago s: E(etet−s) = γs con s = 0,±1,±2, ... • Operador de rezagos: Lizt = zt−i • Autocorrelación de primer orden AR(1): ut = ρut−1 + νt con ρ < 1 = νt + ρνt−1 + ρ2νt−2 + ... = νt(1 + Lρ+ L2ρ2 + ...) σ2u = σν(1 + ρ 2 + ρ4 + ...) = σ2ν 1− ρ2 • Para obtener las covarianzas y varianzas en el caso de AR(1): ut = ρut−1 + νt / · ut−s utut−s = ρut−1ut−s + νtut−s E(utyt−s) = ρE(ut−1ut−s) + E(νtut−s) Dada la independencia entre νt y ut−s tenemos: E(utut−s) = ρE(ut−1ut−s) Y haciendo s = 1 tenemos entonces: Cov(ut, ut−1) = ρσ2u 3. Variables Instrumentales En este caso existe correlación 6= 0 entre el error no observable u y alguna de las variables explica- tivas xj con j = 1, ..., k. y = β0 + β1x1 + ...+ βkxk + u (1) Si solo xk podŕıa estar correlacionada con el error, se dice que xk es potencialmente endógena, y x−k son variables exógenas. Se puede pensar que u contiene alguna variable omitida no observable correlacionada con xk. El estimador Mico en este caso está sesgado, y por lo tanto no se puede estimar de manera consistente. Necesitamos entonces una variable observable z1 que no esté en la ecuación (1) que satisfaga dos condiciones: 1. Condición de Exogeneidad: Que no esté correlacionada con u, Cov(z1, u) = 0, es decir, que sea exógena a la ecuación (1). 3 Variables Instrumentales 12 2. Condición de Identificación: Que este correlacionada con la variable endógena de manera tal que: xk = δ0 + δ1x−k + θ1z1 + rk donde E(rk) = 0 y rk no esta correlacionado con x−k y z1, y x−k son los regresores 6= k en la ecuación (1), y debe cumplirse que: θ1 6= 0 (2) donde esto no significa que z1 esté correlacionado con xk, sino que significa que z1 debe estar parcialmente correlacionado con xk una vez que se ha neteado el efecto de las otras variables x−k. Entonces está mal decir que esta segunda condición es Cov(z1, xk) 6= 0, porque esto es solo en el caso particular que en la ecuación (1) hay un solo regresor igual a xk. Si z1 cumple con estas dos condiciones, es un candidato a variable instrumental de xk (instrumentos admisibles). En este caso, como x−k son exógenas, son instrumentos de si mismas al no estar corre- lacionada con u. La ecuación (2) es la ecuación en forma reducida para la variable explicativa endógena xk. Ahora, incorporando la ecuación (2) en la (1) obtenemos: y = α0 + α1x1 + ...+ αk−1xk−1 + λ1z1 + ν (3) donde ν = u + βkrk, αj = βj + βkγj , y λ1 = βkθ1, y debido a los supuestos, Mico puede estimar consistentemente los parámetros αj y λ1. En términos matriciales podemos escribir: x = (1, x1, ..., xk) z = (1, x1, ..., z1) Donde en y = xβ + u por los supuestos sabemos que E(z′u) = 0, entonces el estimador: β̂ = (z′x)−1(z′y) (4) es un estimador consistente si se utiliza una muestra aleatoria de (x, y, z1). Esto sucede porque la ecuación [E(z′x)]β = E(z′y) representa un sistema de ecuaciones con una solución única si y solo si la matriz de k × k E(z′x) tiene rango completo: Condición de Rango : rango E(z′x) = k lo cual solo sucede cuando θ1 6= 0. Es importante recalcar que mientras la condición de identificación se puede testear, la condición de exogeneidad no se puede, porque u es no observable. 3.1. Estimación en Dos Etapas Supongamos que ahora tenemos más de una variable instrumental para xk: z1, z2, ..., zM con Cov(zh, u) = 0 y h = 1, 2, ...,M . Cada una de las variables zh cumple con la condición de exogeneidad. Definimos 3 Variables Instrumentales 13 el vector de variables exógenas: z ≡ (1, x1, ..., z1, ..., zM , ...xn) donde z es un vector de 1 × L con L = k + M . De todas las posibles combinaciones que pueden escogerse de z como instrumento para xk, el método en dos etapas (2SLS) escoge la que está más correlacionada con xk. Esta combinación viene dada por: x∗k ≡ δ0 + δ1x1 + ...+ δk−1xk−1 + θ1z1 + ...+ θMzM donde muchasveces se interpreta x∗k como la parte de xk que no está correlacionada con u. Esti- mando esta ecuación por Mico podemos obtener un estimador x̂k en la primera etapa: x̂k = δ̂0 + δ̂1x1 + ...+ δ̂k−1xk−1 + θ̂1z1 + ...+ θ̂MzM Definiendo x̂ ≡ (1, x1, ..., xk−1, x̂k) podemos estimar la segunda etapa y escribir el estimador 2SLS como: β̂ = (X̂′X)−1X̂′Y Donde X̂ = Z(Z′Z)−1Z′X. Es importante notar que si en la primera etapa se omiten los regre- sores x−k se obtendrán estimadores inconsistentes en la segunda etapa. El estimador de variables instrumentales y el estimador 2SLS son equivalentes cuando solo hay 1 instrumento para xk. La condición de identificación en el caso 2SLS es que debe haber al menos un θj 6= 0, lo que se prue- ba fácilmente con una hipótesis nula que todos son cero y usando un test de multiplicadores de Lagrange. Un modelo con 1 variable endógena se dice sobreidentificado cuando M > 1, y existen M − 1 restricciones de sobreidentificación. 3.2. Consistencia y Normalidad Asintótica Para poder estimar consistentemente de una muestra aleatoria una ecuación como (1) con (quizás) varias variables endógenas es necesario que: Para algún vector z de 1× L se cumpla : E(z′u) = 0 : rango E(z′z) = L : rango E(z′x) = k donde el vector z contiene variables fuera del modelo de la ecuación (1). La normalidad asintótica de √ n(β̂−β) viene de la normalidad asintótica de n−1/2 ∑N i=1 z ′ iui, que a su vez viene del teorema del ĺımite central y el supuesto de segundos momentos bien comportados. El Estimador de la Varianza Asintótica es: V AE(β̂2SLS) = σ̂2(X̂′X̂)−1 = σ̂2(Z′X)−1Z′Z(Z′X)−1 4 Econometŕıa de Series de Tiempo 14 3.3. Instrumentos Débiles La probabilidad ĺımite del estimador 2SLS puede escribirse como: plim β̂1 = β1 + σu σx Corr(z1, u) Corr(z1, x1) donde podemos ver que el segundo término del lado derecho se vuelve muy grande cuando Corr(z1, x1) tiende a 0 y Corr(z1, u) 6= 0. Desafortunadamente, como u es no observable no podemos saber el tamaño de las inconsistencias en los estimadores, pero debeŕıamos preocuparnos si la correlación entre x1 y z1 es débil. Si el poder explicativo de z1 es débil, la varianza asintótica del estimador 2SLS puede ser muy grande. La Corr(x1, z1) 6= 0 no es suficiente para que el estimador 2SLS sea eficiente, para esto la correlación debe ser un tamaño considerable. 4. Econometŕıa de Series de Tiempo 4.1. Modelos Estacionarios Univariados Un proceso autorregresivo AR(p) puede escribirse como yt = µ+ φ1yt−1 + ...+ φpyt−p En la práctica todo proceso AR se puede escribir como un MA(∞): yt = µ+ et − θet−1 = µ+ (1− θL)et yt 1− θL = µ 1− θ + et yt = µ 1− θ − θyt−1 + θ2yt−2 − ...+ et Porque sabemos que (1 + θL + θ2L2 + ...) = 11−θL . Por otro lado, un proceso de media móvil MA(q) tiene las siguientes caracteŕısticas: Representación : yt = µ+ �t + θ1�t−1 + ...+ θq�t−q Varianza : γ0 = σ2� = (1 + θ 2 1 + ...+ θ 2 q) Función de autocovarianza : γj = σ2� = (θj + θj+1θ1 + ...+ θqθq−j) ∀ j = 0, 1, ..., q Función de autocorrelación : ρ = θj + θjθj+1 + ...+ θqθq−j 1 + θ21 + ...+ θ2q ∀ j = 0, 1, ..., j Si la secuencia de coeficientes del MA(∞) es sumable absoluta, entonces la secuencia de autocova- rianzas es sumable absoluta y el proceso es estacionario. Un proceso que contiene tanto una parte autorregresiva como una parte media móvil es denominado proceso ARMA(p,q), y se escribe como: yt = µ+ φ1yt−1 + ...+ φpyt−p + �t + θ1�t−1 + ...+ θq�t−q 4 Econometŕıa de Series de Tiempo 15 Estacionariedad Débil Un proceso yt es débilmente estacionario o de covarianza estacionaria si satisface los siguientes requisitos: 1. E(yt) es independiente de t. 2. Var(yt) es constante e independiente de t. 3. Cov(yt, ys) es una función de t− s, pero no de t o de s. Teorema de Wold Cualquier proceso con media cero y estacionario en covarianza {yt} puede ser representado de manera única por un componente lineal determińıstico y un componente lineal no determińıstico: yt = P ∗[yt|yt−1, yt−2, ..., yt−p] + ∞∑ i=0 θ1�t−i Donde P ∗ es un predictor lineal y debe cumplirse que: 1. �t = yt − P ∗[yt|yt−1, yt−2, ..., yt−p] es un error de predicción. 2. �t es ruido blanco. 3. Sumabilidad cuadrática: ∑∞ i=1 θ 2 i <∞. 4. Todas las ráıces de θ(L) están fuera del ćırculo unitario. Metodoloǵıa Box-Jenkins 1. Hacer estacionaria la variable aleatoria y retirar componentes determińısticos. 2. Parametrizar identificando rezagos con los correlogramas muestrales. 3. Tests de especificación para evaluar y predecir dentro y fuera de la muestra. 4.2. Modelos Estacionarios Multivariados • VAR en su forma primitiva: yt = β11 + β12yt−1 + β13zt−1 + �yt zt = β21 + β22zt−1 + β23yt−1 + �zt 4 Econometŕıa de Series de Tiempo 16 • VAR en su forma reducida:( yt zt ) = ( a11 a12 a21 a22 )( yt−1 zt−1 ) + ( e1t e2t ) • Causalidad de Granger: Si θ(L) 6= 0 en y = φ(L)yt−1 + θ(L)zt−1 + �t, entonces zt causa- a-la-Granger a yt. • Causalidad de Sims: Si θ(L) 6= 0 en yt = c + ∑∞ i=0 φizt−i + ∑∞ i=1 θizt+i + �t, entonces zt causa-a-la-Sims a yt. • Causalidad de Geweke, Meese y Dent: Corrige a Sims por autocorrelación residual. Si θ(L) 6= 0 en yt = c− ∑∞ i=1 λiyt−i+ ∑∞ i=0 φizt−i+ ∑∞ i=1 θizt+i+�t, entonces zt causa-a-la-GMD a yt. • Estimación: logL = −1 2 (T − p)n log(2π) + (T − p) log Ω−1 − 1 2 T−p∑ i=1 êiΩ−1êi ∂ logL ∂Ω−1 = 0 ⇒ Ω̂ = ∑T−p i=1 �̂i�̂i T − P La inclusión del estimador de Ω produce la llamada función de verosimilitud condensada 4.3. Modelos Estacionarios para la Varianza • ARCH(1): yt = βxt + �t �t = µ(α0 + α1�2t−1) 1/2 V (�t|�t−1) = α0 + α1�2t−1 V (�t) = α0 + α1σ2� = α0 1− α1 • ARCH(q): σ2t = µ2(α0 + α1�2t−1 + ...+ αq�2t−q) • GARCH(p, q): σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t ) • Con regresores exógenos: σ2t = µ2(α0 + α1(L)�2t−1 + α2(L)σ2t ) + α3wt • ARCH-M: usado en finanzas yt = βxt + θσ2t + �t �t−1) = α0 + α1�2t−1 + α2σ 2 t 4 Econometŕıa de Series de Tiempo 17 • Test de Engle: Tests para detectar residuos ARCH. Correr la regresión: �2t = α0 + α1� 2 t−1 + ...+ αq�t−q con un test de multiplicadores de lagrange TR2 que se distribuye χ2(q). 4.4. Procesos no estacionarios y ráıces unitarias Variables como el PIB o el nivel de precios no son estacionarias. En muchos casos puede conseguirse la estacionariedad simplemente tomando diferencias, o mediante alguna otra transformación. Pero surgen cuestiones estad́ısticas nuevas. • Random Walk: Se puede representar como: yt = µ+ yt−1 + et = ∞∑ i=0 (µ+ et) donde la varianza de yt será obviamente infinita. Este proceso es claramente no estacionario, pero tomando la primera diferencia tenemos que zt = yt−yt−1 = µ+et es ahora estacionario. La serie yt se dice que es integrada de orden 1, I(1), porque tomando una primera diferencia obtenemos un proceso estacionario. Abreviando tenemos que: zt = (1− L)dyt = ∆dyt • La utilización de datos que se caracterizan por tener ráıces unitarias son susceptibles de conducir a serios errores en las inferencias. La inferencia basada en mı́nimos cuadrados no es válida en este caso. El paseo aleatorio con deriva (con término constante), el proceso estacionario con tendencia, y el paseo aleatorio se caracterizan por tener una ráız unitaria, esto es, divergen y sus momentos no dependen del tiempo. Consideremos los tres modelos en una sola ecuación: zt = µ+ βt+ zt−1 + ut Ahora restamos zt−1 a los dos lados de la ecuación e introducimos un parámetro artificial γ: zt − zt−1 = µγ + β(1− γ)t+ (γ − 1)zt−1 + ut = α0 + α1t+ (γ − 1)zt−1 + ut donde, por hipótesis γ = 1. Esta ecuación nos proporciona las bases para los contrastes de ráız unitaria. Un contraste de la hipótesis γ − 1 = 0 confirma el paseo aleatorio con deriva, y si es menor que 0 favorece la tendencia estacionaria (y eliminarla es el método preferible). 4 Econometŕıa de Series de Tiempo 18 4.5. Cointegración En la especificación completa del modelo yt = xtβ = et está impĺıcitala presunción de que los residuos et son una serie estacionaria, ruido blanco. Pero probablemente esto no será cierto cuando xt e yt sean series integradas. Generalmente, si dos series son integradas para diferentes órdenes, las combinaciones lineales de ambas estarán integradas para el más alto de los dos órdenes. Aśı, si xt e yt son series I(1), entonces normalmente esperaŕıamos que yt − xtβ sea I(1) sea cual sea el valor de β. Por otra parte, si las dos series son I(1), puede existir un β tal que et = yt − βxt sea I(0). Intuitivamente, si las dos series son I(0), esta diferencia entre ellas tiene que ser estable alrededor de una media fija. Esto significaŕıa que las series crecen simultáneamente a la misma tasa. Dos series que satisfacen estos requisitos se dice que están cointegradas, y el vector [1− β] (o un múltiplo de él) es un vector de cointegración. Podemos distinguir entonces una relación de largo plazo entre xt e yt, es decir, la forma en la cual las dos variables crecen, la dinámica de corto plazo y las desviaciones de xt respecto de su tendencia de corto plazo. Si este es el caso, una diferenciación de los datos seŕıa contraproducente, ya que podŕıa oscurecer la relación de largo plazo entre xt e yt. El error ut es estacionario cuando yt y xt están cointegradas. 4.6. Modelo de corrección de errores y relaciones de largo plazo Tomemos el siguiente modelo: lnYt = β1 + β2 lnXt + β3 lnXt−1 + β4 lnYt−1 + ut (5) Supongamos que la teoŕıa dice que en el largo plazo Y crece a la misma tasa queX. Esto significa que en largo plazo Y/X es constante, por lo tanto se puede incluir la siguiente restricción: lnYt−lnXt = C. Por lo tanto, para el modelo se cumplirá en el largo plazo: Yt = cXt ∆ lnYt = ∆ lnYt−1 = ∆ lnXt = ∆ lnXt−1 = ∆ ∆ = β2∆ + β3∆ + β4∆ = (β2 + β3 + β4)∆ ⇒ β2 + β3 + β4 = 1 donde la última ecuación es la restricción teórica. Podemos escribir el modelo con esta restricción en el largo plazo: lnYt = β1 + β2 lnXt + β3 lnXt−1 + (1− β2 − β3) lnYt−1 + ut El modelo se puede escribir en dos tipos de formatos adicionales: 4 Econometŕıa de Series de Tiempo 19 1. En cambios y niveles: Ocupando ∆Zt = Zt − Zt−1 en la ecuación (5) cuando se suma y resta β2 lnXt−1. ∆ lnYt = β1 + β2∆ lnXt + (β2 + β3) lnXt−1 − (β2 + β3) lnYt−1 + ut 2. Corrección de errores: Formando un término de desequilibrio o corrección de error en el peŕıodo t− 1. ∆ lnYt = β2∆ lnXt − (β2 + β3) [ lnYt−1 − β1 β2 + β3 − lnXt−1 ] + ut Dado que β2 + β3 = 1− β4 cuando ∆ lnXt y ut sean iguales a 0, la variable Yt convergerá a un equilibrio de largo plazo: lnYt = β1 1− β4 + lnXt (6) Para obtener la elasticidad de largo plazo (en el caso que exista un equilibrio de largo plzo entre los niveles de las variables) todos los términos en ∆ se hacen igual a 0 y todos los sub́ındices se igualan a t. Aśı se obtiene la ecuación de largo plazo, que este caso particular seŕıa igual a la ecuación (6). Derivand esta ecuación con respecto a lnXt se obtiene la elasticidad de largo plazo con respecto de Xt, que en este cas0 particular seŕıa 1. El modelo de serie de tiempo original en la ecuación (5) permite testear distintas especificaciones dinámicas a través de la imposición de determinadas restricciones sobre los parámetros. Para poder usar la corrección de errores se requiere de una teoŕıa que señale que existe un nivel de equilibrio de la variable que se quiere explicar o una trayectoria de equilibrio. En el modelo: Yt = a1Yt−1 + a2Yt−2 + b1Xt + b2Xt−1 + ut si hay un equilibrio de largo plazo, el valor al cual convergerá Yt condicional a Xt y ut contantes será: Y ∗ = (b1 + b2)Xt + ut 1− a1 − a2 Si Xt es estacionaria, la existencia de una relación de equilibrio de largo plazo entre Yt y Xt exige la estacionariedad de Yt, lo cual a su vez requiere de dos condiciones: a. Las ráıces de la ecuación caracteŕıstica deben ser menores que uno, de otra forma, cualquier perturbación en el error de la ecuación haŕıa explotar a Yt. b. También ut debe ser estacionario, por la misma razón. Si Xt es no estacionaria, Yt será no estacionaria, pero si se cumplen a. y b. habrá una relación de largo plazo entre ambas variables no estacionarias, lo que recibe el nombre de cointegración. Se suele confundir los término de relación de largo plazo con el de cointegración. Cointegración implica que hay una relación de largo plazo, pero no al revés. 5 Modelos de Respuesta Discreta 20 5. Modelos de Respuesta Discreta En modelos cualitativos la variable y es una variable aleatoria que puede tomar un número finito de valores. El caso clásico es cuando y es una respuesta binaria que toma valores de 1 ó 0, que indica si cierto evento ha o no ha ocurrido. En estos modelos el interés recae principalmente en la probabilidad de la respuesta: p(x) ≡ P (y = 1|x) = P (y = 1|x1, x2, ..., xk) para varios valores de x. Para una variable continua xj , el efecto parcial de xj en la probabilidad de respuesta es: ∂P (y = 1|x) ∂xj = ∂p(x) ∂xj (7) Y cuando mutliplicamos (7) por ∆xj nos da el cambio aproximado en P (y = 1|x) cuando xj aumenta en ∆xj , manteniendo las otras variables fijas. Si xk fuese una variable binaria, estaŕıamos interesados en p(x1, x2, ..., xk−1, 1)− p(x1, x2, ..., xk−1, 0), que es la diferencia en la probabilidad de respuesta. Para la mayoŕıa de los modelos se considera que, si una variable xj , ya sea continua o discreta, el efecto parcial de xj en p(x) depende de todos los x. Debemos recordar algunas cosas de la función Bernoulli para trabajar con estos modelos: P (y = 1|x) = p(x) P (y = 0|x) = 1− p(x) E(y|x) = p(x) Var(y|x) = p(x)[1− p(x)] Además, la función densidad de una binomial es p(y)X(1 − p(y))Z , donde X y Z son los valores que toma la variable y cuando se da el éxito y el fracaso respectivamente. 5.1. Modelo de probabilidad lineal para respuesta binaria El modelo de probabilidad lineal (LPM) para la respuesta binaria se especifica como: P (y = 1|x) = β0 + β1x1 + β2x2 + ...+ βkxk Asumiendo que x1 no está relacionada con otras variables explicativas, β1 = ∂P (y=1|x) ∂x1 . Entonces, β1 es el cambio en la probabilidad de éxito (y = 1) dado un aumento de una unidad en x1. Es útil derivar la media y la varianza del modelo: E(y|x) = β0 + β1x1 + β2x2 + ...+ βkxk (8) Var(y|x) = xβ(1− xβ) donde xβ = β0 + ...+ βkxk (9) 5 Modelos de Respuesta Discreta 21 La ecuación (8) nos indica que dada una muestra aleatoria, la regresión OLS de y en 1, x1, x2, ..., xk produce estimadores consistentes e insesgados de βj . La ecuación (9) nos indica que hay heteroce- dasticidad presente a menos que todos los β sean 0 (hay que utilizar la matriz de errores robustos). Se puede usar el test F para testear la significancia conjunta de todas las variables (dejando la constante sin restringir). 5.2. Probit y Logit En este caso los modelos de respuesta binaria son de la forma: P (y = 1|x) = G(xβ) = p(x) (10) donde x es 1×K, β es K×1, y tomamos el primer elemento de x como unitario. En LPM G(z) = z es la función identidad. En esta sección asumimos que G(·) toma valores en el intervalo unitario abierto 0 < G(z) < 1 para todo z ∈ R. El modelo descrito en (10) se llama modelo index porque restringe la forma en que la probabilidad de la respuesta depende de x: p(x) es una función de x solo a través del index: xβ = β1 + x2β2 + ...+ xkβk. Modelo Probit El modelo probit es el caso especial de (10) cuando: G(z) ≡ Φ(z) = ∫ z −∞ φ(v)dv donde φ(z) = (2π)−1/2 exp{−z2/2} Modelo Logit El modelo logit es el caso especial de (10) cuando: G(z) ≡ Λ(z) = exp(x)/[1− exp(z)] Para aplicar exitosamente modelos probit y logit es importante interpretar βj en variables explica- tivas continuas y discretas. 5.3. Estimación por máxima verosimilitud en modelos de respuesta binaria Asumimos que tenemos N observaciones independientes e idénticamente distribuidas siguiendo el modelo (10). Para estimar el modelo por máximaverosimilitud (condicional), necesitamos la log- verosimilitud para cada i. La densidad de yi dado xi puede escribirse como: f(y|xi;β) = [G(xiβ)]y[1−G(xiβ)]1−y 5 Modelos de Respuesta Discreta 22 con y = 0, 1. La log-verosimilitud para la observación i es una función de los K × 1 vectores de parámetros y de los datos (xi, yi): li(β) = yi logG(xiβ) + (1− yi) log(1−G(xiβ)) Restringiendo que G(·) esté entre 0 y 1 asegura que la función esté bien definida para todos los valores de β. De los resultados generales de máxima verosimilitud sabemos que β̂ es consistente y asintóticamente normal. Asumimos que G(·) es dos veces diferenciable, y la función g(z) es la derivada de G(·). Para el modelo probit g(z) = φ(z), y para el modelo logit g(z) = exp(z)/(1 + exp(z))2. Tenemos: si(β) ≡ g(xiβ)x′i[yi −G(xiβ)] G(xiβ)[1−G(xiβ)] Probabilidad e Inferencia Elementos de Inferencia Estadística Elementos de Teoría Asintótica Máxima Verosimilitud Intervalos de Confianza Test de Hipótesis Modelo Clásico de Regresión Lineal Predicción Regresores Estocásticos Multicolinealidad Mínimos Cuadrados Generalizados Heterocedasticidad Autocorrelación Variables Instrumentales Estimación en Dos Etapas Consistencia y Normalidad Asintótica Instrumentos Débiles Econometría de Series de Tiempo Modelos Estacionarios Univariados Modelos Estacionarios Multivariados Modelos Estacionarios para la Varianza Procesos no estacionarios y raíces unitarias Cointegración Modelo de corrección de errores y relaciones de largo plazo Modelos de Respuesta Discreta Modelo de probabilidad lineal para respuesta binaria Probit y Logit Estimación por máxima verosimilitud en modelos de respuesta binaria
Compartir