Logo Studenta

Apunte Final 2017

¡Este material tiene más páginas!

Vista previa del material en texto

Teoŕıa Econométrica I
Tomás Rau Binder1
Agosto 2017
1Profesor Instituto de Economı́a, Pontificia Universidad Católica de Chile.
Índice general
1. Introducción 5
2. Elementos de Teoŕıa de Probabilidad 7
2.1. Espacio de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Definiciones de cdf, pdf y pmf . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3. Momentos de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . 17
2.4. Algunas Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5. Distribuciones bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6. Distribuciones Multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3. El modelo de regresión lineal 37
3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.2. Objetos de Interés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3. El Modelo de Regresión Lineal . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4. Derivación Alternativa desde la Estad́ıstica . . . . . . . . . . . . . . . . . 42
3.5. Bondad de Ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7. Momentos del Estimador OLS . . . . . . . . . . . . . . . . . . . . . . . . 47
3.8. El Modelo Normal de Regresión Lineal . . . . . . . . . . . . . . . . . . . 49
3.8.1. Intervalos y Regiones de Confianza . . . . . . . . . . . . . . . . . 51
3.9. Desviación de los Supuestos Clásicos . . . . . . . . . . . . . . . . . . . . 53
1
4. Elementos de Teoŕıa Asintótica 56
4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2. Algunos Teoremas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5. Problemas de Especificación y Datos 72
5.1. Mı́nimos Cuadrados Generalizados (Aitken) . . . . . . . . . . . . . . . . 72
5.2. Distribución Asintótica del estimador MCG . . . . . . . . . . . . . . . . 75
5.3. Caso Particular: Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . 79
5.4. Test para detectar Heterocedasticidad . . . . . . . . . . . . . . . . . . . . 81
5.5. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.6. Tests de Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.6.1. Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . 90
5.6.2. Test de Breusch y Godfrey . . . . . . . . . . . . . . . . . . . . . 91
5.6.3. Test de Box-Pierce-Ljung (Q-Stat) . . . . . . . . . . . . . . . . . 92
5.7. Mı́nimos Cuadrados Generalizados Factibles . . . . . . . . . . . . . . . . 92
5.7.1. El Método de Cochrane Orcutt . . . . . . . . . . . . . . . . . . . 93
5.7.2. Prais-Winsten (1954) . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7.3. El método de Durbin . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7.4. Estimación por Máxima Verosimilitud . . . . . . . . . . . . . . . 94
5.8. Estimación Consistente de Matriz de Varianzas y Covarianzas . . . . . . 95
5.8.1. Estimación consistente: Newey y West (1987) . . . . . . . . . . . 95
5.8.2. Estimando Σ: Newey y West (1987) . . . . . . . . . . . . . . . . . 96
5.8.3. Clustered standard errors . . . . . . . . . . . . . . . . . . . . . . 96
5.9. Mı́nimos Cuadrados No Lineales . . . . . . . . . . . . . . . . . . . . . . . 98
5.9.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.9.2. Gauss-Newton (algoritimo) . . . . . . . . . . . . . . . . . . . . . . 99
5.9.3. Pasos del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.9.4. Distribución Asintótica . . . . . . . . . . . . . . . . . . . . . . . . 100
5.10. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
2
6. Técnicas de remuestreo y errores estándar 105
6.1. The Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.2. Función de distribución emṕırica . . . . . . . . . . . . . . . . . . . . . . 106
6.3. Bootstrap No-Paramétrico . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.4. Estimación del sesgo y varianza via Bootstrap . . . . . . . . . . . . . . . 108
6.5. Intervalos de Confianza con Bootstrap . . . . . . . . . . . . . . . . . . . 109
6.5.1. Método del percentil . . . . . . . . . . . . . . . . . . . . . . . . . 109
6.5.2. Método de Hall . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.5.3. Percentile-t Equal-tailed Interval . . . . . . . . . . . . . . . . . . 112
6.5.4. Symmetric Percentile-t Interval . . . . . . . . . . . . . . . . . . . 114
6.6. Bootstrap en el modelo de regresión lineal . . . . . . . . . . . . . . . . . 115
6.6.1. Wild Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
7. Endogeneidad 117
7.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.1. Ecuaciones estructurales . . . . . . . . . . . . . . . . . . . . . . . 117
7.1.2. Endogeneidad y Variables Instrumentales (Id. exacta) . . . . . . . 118
7.1.3. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . 119
7.2. Múltiples instrumentos: 2SLS . . . . . . . . . . . . . . . . . . . . . . . . 121
7.2.1. Consistencia y Normalidad Asintótica . . . . . . . . . . . . . . . . 122
7.3. Método Generalizado de Momentos (GMM) . . . . . . . . . . . . . . . . 123
7.3.1. Breve repaso de GMM . . . . . . . . . . . . . . . . . . . . . . . . 123
7.4. Fallas en la identificación . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
7.4.1. Instrumentos Débiles . . . . . . . . . . . . . . . . . . . . . . . . . 127
7.5. Limited Information Maximum Likelihood (LIML) . . . . . . . . . . . . . 133
7.5.1. Ejemplo clásico de identificación débil . . . . . . . . . . . . . . . . 134
7.5.2. Extensiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.6. Estimador de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.6.1. Ejemplo: La loteŕıa de Vietnam . . . . . . . . . . . . . . . . . . . 140
3
8. Máxima Verosimilitud 143
8.1. Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . 145
8.2. La Cota Inferior de Cramèr-Rao . . . . . . . . . . . . . . . . . . . . . . . 148
8.3. Propiedades Asintóticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.4. Estimación de la Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.5. Computación del Estimador MV . . . . . . . . . . . . . . . . . . . . . . . 153
8.5.1. El Método de Steepest Ascent . . . . . . . . . . . . . . . . . . . . 155
8.5.2. Métodos Cuadráticos . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.5.3. Criterios de Convergencia . . . . . . . . . . . . . . . . . . . . . . 158
8.6. Inferencia en Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 159
9. Variable Dependiente Limitada 161
9.1. Modelo Básico de Elección Binaria . . . . . . . . . . . . . . . . . . . . . 161
9.2. Estimación por Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . 162
9.3. Modelo Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
9.4. Modelo Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
9.5. Propiedades Asintóticas del estimador ML . . . . . . . . . . . . . . . . . 165
9.6. Comparación entre modelos Probit y Logit . . . . . . . . . . . . . . . . . 166
9.7. Efectos Marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.8. Comentarios finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
10.Evaluaciones de semestres anteriores 172
10.1. Pruebas I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
10.2. Pruebas II . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . 188
10.3. Examenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
4
Caṕıtulo 1
Introducción
Este curso está orientado a estudiantes de magister o doctorado en economı́a y correspon-
de a un primer curso de econometŕıa de un semestre de duración. Los cursos requeridos
para cursar con éxito esta clase son álgebra lineal (especialmente álgebra matricial),
cálculo en una y más variables, probabilidades y estad́ıstica entre otros.
El apunte se basa en mis clases impartidas en los programas de Magister y Doctorado
en Economı́a de las Universidades de Chile y Pontificia Universidad Católica de Chile
entre los años 2008 y 2015. Se agradece la colaboración de los participantes en especial a
quienes me ayudaron a su traspaso a Latex de éstas, entre ellos: Cármen Quezada, Juan
Agust́ın Echeñique, Federico Hunneus, David López, Eugenio Rojas, Cristóbal Cástro,
Pedro Zúñiga, Daniela Luengo, Triana Yentzen, Roberto Gillmore, Julio Rodŕıguez, Vi-
cente Castro y Mart́ın Carrasco.
El apunte contiene ocho secciones adicionales a esta introducción. En el caṕıtulo 2 se
ven elementos de teoŕıa de probabilidad. Se revisa brevemente la axiomatización de la
teoŕıa como un espacio de medida, cuya medida es la función de probabilidad. Se repasa
el concepto de cdf, pdf y pmf, se ven ejemplos y teoremas fundamentales.
En el caṕıtulo 3 se ve el modelo de regresión lineal, supuestos, inferencia, el mode-
lo normal de regresión lineal entre otros tópicos relevantes. En el caṕıtulo 4 se ven
elementos de teoŕıa asintótica relevantes para entender las propiedades de los estimado-
res. Se ven las leyes débiles de grandes números y teoremas centrales del ĺımite como
Lindeverg-Lèvy. Una vez cubiertos estos tópicos se procede a una derivación formal de
la distirbución asintótica del estimador de MCO y se discuten métodos de estimación de
la matriz de varianzas y covarianzas robusta.
En el caṕıtulo 5 revisamos las desviaciones de los supuestos que implican problemas
5
de especificación y de datos. En este se revisa el estimador de Mı́nimos Cuadrados
Generalizados de Aitken y casos particulares como heterocedasticidad y autocorrelación.
Se ve el caso de mı́nimos cuadrados no lineales y se discute el algoritmo de Gauss-Newton
para su estimación numérica.
El caṕıtulo 6 revisa algunas técnicas de remuestreo como Bootstrap clásico (Efron,
1979), Bootstrap salvaje y la construcción de intervalos de confianza con significancia
correcta. Estas técnicas son de mucha utilidad en la econometŕıa emṕırica puesto que
proveen una alternativa fiable a la teoŕıa asintótica para la obtención de errores estándar
y la construcción de intervalos de confianza.
En el caṕıtulo 7 se ve formalmente el problema de endogeneidad y algunos estimadores
clásicos como variables instrumentales, 2SLS. Además, se ven algunos tests importantes
como el de Hausmann, algunos de restricciones de sobreidentificación como Sargan y J
y tests de instrumentos débiles como Cragg-Donald y Stock-Yogo. Se da un tratamiento
especial al caso de identificación débil y cómo hacer inferencia correcta en presencia de
dichos instrumentos.
En el caṕıtulo 8 se ve en profundidad el método de Máxima Verosimilitud desde su
derivación estad́ıstica, algoritmos computacionales, hasta las propiedades asintóticas de
de los estimadores. Se ve con detenimiento una serie de algoritmos entre ellos el de
Steepest Ascent y el de Newton-Raphson.
En el caṕıtulo 9 revisa el modelo de elección binaria y su estimación por máxima
verosimilitud, el cálculo de efectos marginales y sus errores estándar.
Por último, el caṕıtulo 10 incluye las evaluaciones realizadas en sala en mis cursos de la
PUC, durante los años 2010-2015. El año 2013 no dicté el curso por estar como profesor
visitante en la University of California, Berkeley.
6
Caṕıtulo 2
Elementos de Teoŕıa de
Probabilidad
2.1. Espacio de probabilidad
Partiremos dando un marco teórico a la noción o concepto de probabilidad que vimos
en pregrado. Usamos la palabra probabilidad de que un evento ocurra, cuando esta-
mos en una situación de incertidumbre y requerimos cuantificar o dar una medida de su
cualidad de posible. La axiomatización de la teoŕıa de la probabilidad que conocemos
(Kolmogorov) se da en un marco experimental. Este experimento tiene resultados posi-
bles que son elementos de un espacio muestral. Si el experimento se reproduce muchas
veces, diferentes resultados pueden ocurrir. La frecuencia de ocurrencia de un resultado
en particular puede ser entendido como una medida de probabilidad. Luego, necesitamos
definir conceptos como medida, espacio muestral, espacio de probabilidad, etc.
En matemática, una medida es una función que asigna un número (que en nuestro
caso será una probabilidad) a los subconjuntos de un conjunto dado. En nuestro caso, el
conjunto dado será el espacio muestral. Generalmente es imposible asignar una medida
a todos los subconjuntos de un conjunto dado, luego sólo lo haremos sobre familias de
conjuntos que se denotan medibles. Las condiciones que deben cumplir dichos conjuntos
son un poco técnicas y se resumen en la definición de σ-álgebra. Partiremos definiendo
primero, espacio muestral.
Definición. El espacio muestral Ω es el conjunto de todos los posibles resultados o
realizaciones de algún experimento. Elementos individuales ω ∈ Ω se llaman resulta-
dos elementales o simplemente resultados. Un subconjunto B ⊆ Ω (una colección de
resultados) es llamado un evento .
Una colección B de eventos es una σ-álgebra si
7
(i) ∅ ∈ B.
(ii) B ∈ B ⇒ BC ∈ B (B es cerrado bajo complementación).
(iii) B1, B2, . . . ∈ B ⇒
⋃∞
i=1Bi ∈ B (B es cerrado bajo uniones contables).
Ejemplo: si Ω = {1, 2, 3, 4}, un σ-algebra de Ω es la colección B = {ø, {1, 2}, {3, 4}, S}.
Una función P : B → [0, 1] definido en una σ-álgebra B es una función de probabili-
dad si
(i) P (Ω) = 1.
(ii) P (A) ≥ 0, A ∈ B.
(iii) P (
⋃∞
i=1Bi) =
∑∞
i=1 P (Bi) cuando B1, B2, . . . ∈ B sean disjuntos de a pares
(Bi
⋂
Bj = ∅, ∀i 6= j).
Note que la función de probabilidad mapea desde el σ-álgebra B al compacto [0, 1] y no
desde Ω. Luego, solo para elementos del σ-álgebra B podemos asociar una medida de
probabilidad. Una explicación (no libre de complejidades) es que realmente hay eventos
que “no nos interesan” o no son relevantes para el anáisis y no le asignamos probabilidad.
Un espacio de probabilidad es una tripleta (Ω,B, P ) donde Ω es un espacio muestral,
B es una σ-álgebra de eventos y P una función de probabilidad.
Los espacios de probabilidad de interés primario para nosotros son aquellos en donde las
realizaciones elementales ω son (vectores de) números reales. Una forma conveniente de
construir espacios de probabilidad de este tipo es a través de variables aleatorias.
Definición. Sea (Ω,B, P ) un espacio de probabilidad. Una variable aleatoria es una
función medible con valores reales definida en Ω, la denotamos X : Ω → R. Un vector
aleatorio es un vector de variables aleatorias.
Cualquier variable aleatoriaX : Ω → R induce un espacio de probabilidad (R,B(R), PX),
donde B(R) es una σ-álgebra de Borel definida en R y PX = P ◦X−1; eso es,
PX(B) = P ◦X−1(B) = P ({ω : X(ω) ∈ B}) , B ∈ B(R)
Similarmente, cualquier vector aleatorio induce un espacio de probabilidad cuyas reali-
zaciones elementales son vectores de números reales.
8
Las propiedades de una variable aleatoria X están completamente caracterizadas por la
función de probabilidad PX . Una caracterización alternativa es provista por la función
de distribución acumulada de X .
Definición. SeaX una variable aleatoria definida en el espacio de probabilidad (Ω,B, P ).
La función de distribución acumulada (cdf) de X es la función FX : R → [0, 1]
definida por
FX(x) = PX((−∞, x]) = P ({ω : X(ω) ≤ x}), x ∈ R
Notar que si conocemos PX automáticamente conocemos FX . De esto se sigue el teoremade correspondencia para cdfs (Casella y Berger, Teorema 1.5.10) de manera que lo opues-
to también se mantiene. De esta forma el conocimiento de FX implica el conocimiento
de PX y viceversa. Dado que FX es a menudo mucho más fácil de trabajar que PX (su
dominio es R y de esta forma se puede graficar la función), es mucho más conveniente
caracterizar las propiedades de una variable aleatoria X en términos de FX en vez de PX
y t́ıpicamente haremos eso. Dado esto, el siguiente teorema resulta ser muy útil puesto
que provee las condiciones necesarias y suficientes para que una función sea una cdf.
2.2. Definiciones de cdf, pdf y pmf
Teorema (Casella y Berger, Teorema 1.5.3). Una función F : R → [0, 1] es una
cdf si y solo si las siguientes tres condiciones se satisfacen
(i) ĺımx→−∞ F (x) = 0 y ĺımx→+∞ F (x) = 1.
(ii) F (x) es no decreciente.
(iii) F (x) es continua por la derecha.
Observaciones. Recuerde que una función F : R → R es continua en x0 ∈ R, si para
cualquier ǫ > 0, existe un δ > 0 tal que |F (x)−F (x0)| < ǫ cuando |x−x0| < δ (es decir,
cuando x0 − δ < x < x0 + δ). Una función F : R → R es continua por la derecha
en x0 ∈ R si para cualquier ǫ > 0, existe un δ > 0 tal que |F (x) − F (x0)| < ǫ cuando
x0 < x < x0 + δ. Una función F : R → R es continua por la izquierda en x0 ∈ R
si para cualquier ǫ > 0, existe un δ > 0 tal que |F (x)− F (x0)| < ǫ cuando x0 − δ < x.
Por lo tanto, una función F : R → R es continua si y solo si es continua por la derecha
y continua por la izquierda.
9
EJEMPLO 1: Función no continua por la derecha
F (x) =



0 x < 0
1
2
si x = 0
1 si x > 0
Note que si se mueve de derecha a izquierda cuando x >> 0, tenemos que a medida
Figura 2.1: No continua por la derecha, ni por la izquierda en x0 = 0
que x0 se aproxima infinitesimalmente a 0 podemos encontrar siempre un valor de x a
la derecha de cero (porque es abierto) y se cumple la propiedad de continuidad por la
derecha |F (x)−F (x0)| < ǫ. Sin embargo, cuando x0 = 0, tenemos que los valores de x >
x0 implican “saltar” de la recta F (x) =
1
2
a la recta F (x) = 1, luego |F (x)−F (x0)| = 12
cuando x0 < x < x0+ δ y x0 = 0 y no es una diferencia arbitrariamente pequeña, lo que
hace que la condición de continuidad por la derecha no se cumpla.
EJEMPLO 2: Continua por la derecha en x0 = 0. Haciendo la siguiente modificación
F (x) =
{
0 si x < 0
1 si x ≥ 0
Siempre podremos tener un x a la derecha de x0 ya sea en la recta F (x) = 0 o F (x) = 1.
En particular, cuando x0 = 0, estamos en la recta F (x) = 1 y no hay problemas de
continuidad. Cuando x0 < 0, estamos en la recta F (x) = 0 y como es abierto, siempre
podremos situar un x a la derecha de x0.
Es importante notar que el hecho de que una cdf sea continua por la derecha es una
consecuencia de la definición de cdf, es decir FX(x) = Pr(X ≤ x). Si hubiésemos definido
la cdf como FX(x) = Pr(X < x) seŕıa continua por la izquierda.
10
Figura 2.2: Continua por la derecha
(Receta: necesitamos que si nos movemos de izquierda a derecha, todos los
intervalos sean abiertos por la derecha.)
EJEMPLO 3: Una variable aleatoria X tiene una distribución Bernoulli con parámetro
p ∈ [0, 1], denotada X ∼ Ber(p), si
FX(x) =



0 para x < 0
1− p para 0 ≤ x < 1
1 para x ≥ 1
EJEMPLO 4: Una variable aleatoria X tiene una distribución uniforme en [0, 1], de-
notada X ∼ U [0, 1], si
FX(x) =



0 para x < 0
x para 0 ≤ x < 1
1 para x ≥ 1
EJEMPLO 5: Una variable aleatoria X tiene una distribución normal estándar, deno-
tada X ∼ N (0, 1), si
FX(x) =
∫ x
−∞
φ(t)dt, x ∈ R,
donde
φ(t) =
1√
2π
exp
(
−1
2
t2
)
, t ∈ R
11
La variable aleatoria del primer ejemplo es discreta mientras que las variables aleatorias
de los otros ejemplos son continuas, de acuerdo a la siguiente clasificación.
Definición. Sea X una variable aleatoria con cdf FX . Luego,
(i) X es una variable aleatoria discreta si existe una función fX : R → [0, 1] tal
que
FX(x) =
∑
t≤x
fX(t) ∀x ∈ R
La función fX es la función de masa de probabilidad (pmf) de X .
(ii) X es una variable aleatoria continua si existe una función fX : R → R+ tal
que
FX(x) =
∫ x
−∞
fX(t)dt ∀x ∈ R
Cualquier función de este tipo es una función de densidad de probabilidad
(pdf) de X .
Observación. La cdf de una variable aleatoria discreta es una step function.
EJEMPLO 6: Si X ∼ Ber(p), X es discreta con pmf
fX(x) =



1− p para x = 0
p para x = 1
0 otro caso.
Observación. Una pdf es única en el sentido de que dos pdf’s de una variable aleato-
ria continua X coinciden “casi en todos lados”. Esto significa que pueden coincidir en
conjuntos de “medida cero”.
Observación. La cdf de una variable aleatoria continua es continua. De hecho, es ab-
solutamente continua, una condición más fuerte que continuidad (uniforme) pero más
débil que diferenciabilidad.
EJEMPLO 7: Si X ∼ U [0, 1], la cdf de X es no diferenciable (en 0 y en 1). A pesar
de esto X es continua con pdf
fX(x) =
{
1 para 0 ≤ x ≤ 1
0 otro caso.
12
Esta pdf no es única. Una pdf alternativa es
fX(x) =
{
1 para 0 < x < 1
0 otro caso.
EJEMPLO 8: Si X ∼ N (0, 1). X es continua con pdf
fX(x) =
1√
2π
exp
(
−1
2
x2
)
, x ∈ R
Cuando una variable aleatoria es discreta (continua) a menudo es más conveniente es-
pecificar su distribución en función de la pmf (pdf ) que en términos de su cdf. Los
siguientes teoremas proveen una condición necesaria y suficiente para que una función
sea una pmf (pdf ) de una variable aleatoria discreta (continua).
Teorema (Casella y Berger, Teorema 1.6.5). Una función f : R → [0, 1] es una
pmf de una variable aleatoria discreta si y solo si
(i) f(x) ≥ 0
(ii)
∑
x∈R f(x) = 1
Una función f : R → R+ es una pdf de una variable aleatoria continua si y solo si
(i) f(x) ≥ 0
(ii)
∫ +∞
−∞ f(x)dx = 1
Este teorema nos da condiciones generales que deben satisfacer las pdf y pmf. Sin em-
bargo podemos ser más expĺıcitos a la hora de dar una expresión concreta para cada una
de ellas. Para el caso de la pmf, tenemos que f(x) = Pr(X = x). Para la pdf, usando el
Teorema Fundamental del Cálculo tenemos que f(x) = ∂FX(x)
∂x
.
Por último, recuerde que cuando X es un variable aleatoria continua, tenemos que
Pr(a < X < b) =
∫ b
a
fX(x)dx
Observación: note que la pmf tiene como imagen el compacto [0, 1] no aśı una pdf que
son los reales no negativos.
13
EJEMPLO 9: la distribución exponencial con parámetro λ > 1 tiene pdf > 1 en
algunos subconjuntos del soporte:
Las propiedades distribucionales de una variable aleatoria X están t́ıpicamente caracte-
rizadas por:
(i) Especificando la cdf FX directamente;
(ii) Especificando la pdf (pmf ) fX directamente si X es continua (discreta); o
(iii) Definiendo X = g(Z), donde g : R → R es una función (medible) y Z es una
variable aleatoria con cdf FZ conocida.
Los ejemplos previos ilustran las alternativas (i) y (ii). La alternativa (iii) es muy común
en estad́ıstica y econometŕıa y nos lleva a considerar la siguiente pregunta: si X es una
variable aleatoria con cdf FX , ¿cuáles son las de propiedades distribucionales de una
variable aleatoria Y = g(X)?
Al igual que X , la variable aleatoria Y induce un espacio de probabilidad de la forma
(R,B(R), PY ). Las propiedades de Y dependen de las propiedades de g y de X . Si X es
discreta, también lo es Y . Por otro lado, si X es continua, las propiedades de Y dependen
(en parte) de las propiedades de g, como lo ilustra el siguiente ejemplo.
EJEMPLO 10: Suponga X ∼ N (0, 1). Considere las variables aleatorias g1(X), g2(X)
y g3(X), donde
14
g1(x) = x, x ∈ R
g2(x) =
{
0 para x ≤ 0
1 para x > 0
g3(x) =
{
0 para x ≤ 0
x para x > 0
La variable aleatoria g1(X) es continua (en efecto, g1(X) ∼ N (0, 1)), g2(X) ∼ Ber(12)
es discreta mientras que g3(X) no es ni discreta ni continua. Las transformaciones g2 y
g3 son populares en econometŕıa y serán vistas con mayor detalle más adelante.
Por otro lado, la función de probabilidad PY depende de PX y deg a través de la relación
PY = PX ◦ g−1. Esto es,
PY (B) = PX ◦ g−1(B) = PX({x : g(x) ∈ B}) = P ({ω ∈ Ω : g(X(ω)) ∈ B}), B ∈ B(R)
donde (Ω,B, P ) es el espacio de probabilidad subyacente en el cual X está definido. La
utilidad de esta relación es limitada por el hecho de que t́ıpicamente deseamos trabajar
con la cdf o pmf /pdf de Y en vez que con PY . La cdf de Y está dada por:
FY (y) = P ({ω : Y (ω) ≤ y}) = P ({ω : g(X(ω)) ≤ y}), y ∈ R
y es relativamente fácil encontrarla cuando:
(i) Y es discreta; o
(ii) g es monótona (ver Casella y Berger, Teorema 2.1.3).
Si Y es discreta, su pmf es relativamente fácil de encontrar tal como lo es la pdf de
Y si X es continua y g es monótona con una inversa continuamente diferenciable (ver
Casella y Berger, Teorema 2.1.5).
EJEMPLO 11: Sea X una variable aleatoria con cdf FX y considere una variable
aleatoria Y = aX + b, donde a > 0, b ∈ R. La cdf de Y es
FY (y) = FX
(
y − b
a
)
, y ∈ R
Si X es discreta con pmf fX , Y es discreta con pmf fY dada por
15
fY (y) = fX
(
y − b
a
)
, y ∈ R
Si X es continua con pdf fX , Y es continua con pdf fY dada por
fY (y) =
1
a
fX
(
y − b
a
)
, y ∈ R
Al mantener a = 1 fijo y variando b, una familia de localizaciones de distribuciones
es generada. Al mantener b = 0 fijo y variando a, una familia de escalas de distribu-
ciones es generada. Al variar a y b, una familia de localización-escala de distribuciones
es generada. Las familias de localización-escala de distribuciones son muy comúnes en
estad́ıstica y econometŕıa.
Un ejemplo t́ıpico de localización-escala es la familia generada al definir Y = σX + µ
para distintos µ y σ > 0 cuando X ∼ N (0, 1). En este caso la variable aleatoria Y es
continua con pdf
fY (y|µ, σ2) =
1√
2πσ2
exp
(
− 1
2σ2
(y − µ)2
)
, y ∈ R
Donde la notación fY (·|µ, σ2) indica la dependencia en µ y σ. Alternativamente, escri-
bimos Y ∼ N (µ, σ2) y decimos que Y se distribuye normal con media µ y varianza σ2,
donde los conceptos de media y varianza serán definidos en la siguiente sección.
Podemos generalizar las transformadas al caso no lineal con el siguiente teorema.
Teorema (Casella y Berger 2.1.3). Sea X una variable aleatoria con cdf FX(x). Sea
Y = g(X) y X = {x : fX(x) > 0} e Y = {y : y = g(x), x ∈ X}
a) Si g es creciente en X , FY (y) = FX(g−1(y)) para y ∈ Y .
b) Si g es decreciente en X y X una variable aleatoria continua, FY (y) = 1 −
FX(g
−1(y)) para y ∈ Y .
Si la pdf de Y es continua la podemos obtener derivando la cdf teniendo cuidado con la
monotonicidad de g.
Teorema (Casella y Berger 2.1.5). Sea X una variable aleatoria con pdf fX(x). Sea
Y = g(X), donde g es una función monótona. Suponga que fX(x) es continua en X y
que g−1(y) tiene derivada continua en Y . Luego, la pdf de Y está dada por
16
fY (y) =
{
fX(g
−1(y))| d
dy
g−1(y) y ∈ Y
0 y /∈ Y
La prueba es directa, sólo debemos derivar y aplicar regla de la cadena.
2.3. Momentos de una variable aleatoria
Definición.
(i) Sea X una variable aleatoria discreta con pmf fX y sea g : R → [0, 1] cualquier
función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∑
x∈R
g(x)fX(x),
provisto que
∑
x∈R g(x)fX(x) < +∞. En caso contrario, decimos que el valor
esperado no existe.
(ii) Sea X una variable aleatoria continua con pdf fX y sea g : R → R cualquier
función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∫ +∞
−∞
g(x)fX(x)dx,
provisto que
∫ +∞
−∞ g(x)fX(x) < +∞. En caso contrario, decimos que el valor espe-
rado no existe.
Observación. De forma más general, sea X una variable aleatoria con cdf FX y sea
g : R → R cualquier función (medible). El valor esperado de g(X), denotado por
E(g(X)), es
E(g(X)) =
∫ +∞
−∞
g(x)dFX(x),
provisto que la integral (de Lebesgue-Stieltjes) existe; esto es, provisto que
∫ +∞
−∞ g(x)dFX(x) <
+∞. En caso contrario, decimos que el valor esperado no existe.
17
Las siguientes esperanzas son usadas con frecuencia por lo que tienen una notación es-
pecial sólo para ellas.
Definición. La media de una variable aleatoria X se denota por µ = E(X). La va-
rianza de X se denota por
V ar(X) = σ2 = E
(
(X − µ)2
)
= E(X2)− µ2
mientras que σ =
√
V ar(X) es llamada la desviación estandar de X .
EJEMPLO 12: Si X ∼ N (0, 1), entonces
E(X) =
1√
2π
∫ +∞
−∞
x exp
(
−1
2
x2
)
dx = − 1√
2π
exp
(
−1
2
x2
) ∣∣∣∣
+∞
x=−∞
= 0
V ar(X) = E(X2) =
1√
2π
∫ +∞
−∞
x2 exp
(
−1
2
x2
)
dx
= − 1√
2π
x exp
(
−1
2
x2
) ∣∣∣∣
+∞
x=−∞
+
1√
2π
∫ +∞
−∞
exp
(
−1
2
x2
)
dx = 1.
donde la primera igualdad usa E(X) = 0, la tercera igualdad usa integración por partes
(u = x y dv = x exp
(
−1
2
x2
)
dx) y la última usa el hecho que
∫ +∞
−∞
1√
2π
exp
(
−1
2
x2
)
dx = 1
En el sentido de la siguiente definición, la media es un momento no central mientras que
la varianza es un momento central (respecto a la media).
Definición. El k-ésimo momento de una variable aleatoria X es
µk = E
(
Xk
)
, k ∈ N = {1, 2, . . .}.
El k-ésimo momento central de X es µk = E
(
(X − µ)k
)
.
Observación. En algunas ocasiones, momentos de orden superior son útiles. Los ejem-
plos más conocidos son: el coeficiente de asimetŕıa (skewness) y la kurtosis. El coe-
ficiente de asimetŕıa de una variable aleatoria X es E ((X − µ)3) mientras que la
18
kurtosis es E ((X − µ)4).
La media y varianza de transformaciones afines de X están relacionadas a aquellas de
X de una manera simple (Casella y Berger, Teorema 2.2.5a y Teorema 2.3.4).
En efecto, si a y b son constantes y X una variable aleatoria, entonces
E(aX + b) = aE(X) + b y
V ar(aX + b) = a2V ar(X),
en el sentido de que si un lado existe, también existe el otro y son iguales.
EJEMPLO 13: Para la familia localización-escala generada como σX + µ para un µ
estocástico y σ > 0 con X ∼ N (0, 1), tenemos que
E(σX + µ) = σE(X) + µ = µ, y
V ar(σX + µ) = σ2V ar(X) = σ2,
justificando la terminoloǵıa “distribuida normalmente con media µ y varianza σ2”.
2.4. Algunas Desigualdades
Definición. Una función g : R → R es convexa si g(λx+(1−λ)y) ≤ λg(x)+(1−λ)g(y)
para todo x, y y cualquier λ ∈ (0, 1). Una función g : R → R es cóncava si −g es con-
vexa.
Una función g dos veces diferenciable es convexa si y solo si g′′ ≥ 0 para todo x. En
particular, una función af́ın es convexa y cóncava y la siguiente famosa desigualdad ge-
neraliza el resultado E(g(X)) = g(E(X)) cuando g es una función af́ın.
Teorema (Desigualdad de Jensen; Casella y Berger, Teorema 4.7.7). Si X es
una variable aleatoria y g es una función convexa, entonces
E(g(X)) ≥ g(E(X)).
EJEMPLO 14: Si X es una variable aleatoria con P (X ≥ 0) = 1, entonces
19
E
(
1
X
)
≥ 1
E(X)
, y
E(log(X)) ≤ log(E(X)).
Otra famosa desigualdad es la Desigualdad de Chebychev.
Teorema (Desigualdad de Chebychev; Casella y Berger, Teorema 3.6.1). Si X
es una variable aleatoria y g es una función no negativa entonces
P (g(X) ≥ r) ≤ E(g(X))
r
, ∀r > 0.
EJEMPLO 15: Sea X una variable aleatoria con E(X) = µ. Para cualquier r > 0,
P (|X| > r) ≤ E|X|
r
P (|X| > r) = P (X2 > r2) ≤ E(X
2)
r2
P (|X − µ| > r) = P
(
(X − µ)2 > r2
)
≤ V ar(X)
r2
2.5. Distribuciones bivariadas
Definición. Un vector aleatorio bivariado es un vector (X, Y ), donde X e Y son
variables aleatorias (definidas en el mismo espacio de probabilidad (Ω,B, P )).
Un vector aleatorio bivariado (X, Y ) : Ω → R2 induce un espacio de probabilidad
(R2,B(R2), PX,Y ), donde B(R2) es una σ-álgebra de Borel definida en R2 y
PX,Y (B) = P ({ω : (X(ω), Y (ω)) ∈ B}), B ∈ B(R2)
Definición. Una cdf conjunta de (X, Y ) es la función FX,Y : R
2 → [0, 1] definida por
FX,Y (x, y) = PX,Y ((−∞, x]× (−∞, y]) = P ({ω : X(ω) ≤ x, Y (ω) ≤ y}), (x, y) ∈ R2
Notar que si conocemos FX,Y conocemos PX,Y y viceversa.
20
Observación. Existen condiciones necesarias y suficientes para que una función sea una
cdf conjunta. En efecto, una función F : R2 → R es una cdf conjunta si y solo si
(i) ĺımx→−∞ F (x, y) = 0 para cualquier y, ĺımy→−∞ F (x, y) = 0 para cualquier xy en
donde ĺımx→+∞,y→+∞F (x, y) = 1.
(ii) F es no decreciente, esto es, F (x′, y′) ≥ F (x, y) cuando x′ ≥ x y y′ ≥ y.
(iii) F es continua por la derecha; esto es, para cualquier ǫ > 0 y cualquier (x0, y0) ∈ R2,
existe un δ > 0 tal que |F (x, y) − F (x0, y0)| < ǫ cuando x0 ≤ x < x0 + δ y
y0 < y < y0 + δ.
Definición. Sea (X, Y ) un vector aleatoria bivariado con cdf conjunta FX,Y .
(i) (X, Y ) es un vector aleatorio discreto si existe una función fX,Y no negativa
tal que
FX,Y (x, y) =
∑
s≤x,t≤y
fX,Y (s, t) ∀(x, y) ∈ R2
(ii) (X, Y )es un vector aleatorio continuo si existe una función fX,Y no negativa
tal que
FX,Y (x, y) =
∫ x
−∞
∫ y
−∞
fX,Y (t, s)dsdt ∀(x, y) ∈ R2
Cualquier función que cumpla con los requerimientos anteriores es una cdf conjun-
ta de (X, Y ).
Observación. Una función f : R2 → [0, 1] es una pmf de un vector aleatorio discreto
si y solo si (Casella y Berger, p. 142)
∑
(x,y)∈R2
f(x, y) = 1.
Análogamente, una función f : R2 → R+ es una pdf conjunta de un vector aleatorio
continuo si y solo si (Casella y Berger, p. 145)
∫ +∞
−∞
∫ +∞
−∞
f(x, y)dydx = 1.
21
Definición. Sea (X, Y ) es vector aleatorio bivariado. La cdf de X se llama la cdf mar-
ginal de X . Si (X, Y ) es discreto, X es una variable aleatoria discreta y su pmf se llama
la pmf marginal de X . Si (X, Y ) es continuo, X es una variable aleatoria continua y
una pdf de X se llama la pdf marginal de X .
La distribución conjunta de (X, Y ) determina las distribuciones marginales de X e Y .
En efecto, la cdf marginal de X está relacionada a la cdf conjunta FX,Y de (X, Y ) de la
siguiente manera:
FX(x) = ĺım
y→+∞
FX,Y (x, y) ∀x ∈ R.
Es más, si (X, Y ) es discreto con pmf fX,Y , entonces la pmf marginal fX de X satisface
(Casella y Berger, Teorema 4.1.6)
fX(x) =
∑
y∈R
fX,Y (x, y) ∀x ∈ R.
Análogamente, si (X, Y ) es continuo con pdf fX,Y , entonces una pdf marginal de X es
la función fX : R → R+, dada por
fX(x) =
{∫ +∞
−∞ fX,Y (x, y)dy si
∫ +∞
−∞ fX,Y (x, y)dy < +∞
0 si
∫ +∞
−∞ fX,Y (x, y)dy = +∞
, x ∈ R.
En adición a la distribución marginal de X ahora introduciremos la distribución con-
dicional de X (dado Y = y). La distribución condicional de X dado Y = y está bien
definida aún cuando si (X, Y ) no es ni discreto ni continuo, al igual que las esperanzas
condicionales y el concepto de independencia. Para nuestros propósitos es suficiente con-
siderar los casos discretos y continuos.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto bivariado con una pmf conjun-
ta fX,Y y una pmf marginal fY de Y . Para cualquier y tal que fY (y) > 0, la pmf
condicional de X dado Y = y es la función fX|Y (·|y) : R → [0, 1] dada por
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
, x ∈ R
(ii) Sea (X, Y ) un vector aleatorio continuo bivariado con una pdf conjunta fX,Y y una
pdf marginal fY de Y . Para cualquier y tal que fY (y) > 0, la pdf condicional de X
dado Y = y es la función fX|Y (·|y) : R → R+ dada por
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
, x ∈ R
22
Ordenando la ecuación que define fX|Y (x|y), llegamos a la importante relación
fX,Y (x, y) = fX|Y (x|y) · fY (y)
Evidentemente las distribuciones marginales de X e Y no determinan la distribución
conjunta de (X, Y ) a menos que la distribución condicional en Y = y sea igual a la
distribución marginal de X para todos los valores de y. Esto es, mientras que la distri-
bución conjunta de (X, Y ) siempre determina las distribuciones marginales de X e Y lo
contrario no se mantiene a menos que X e Y sean independientes, en el sentido de la
siguiente definición.
Definición. Sea (X, Y ) un vector aleatorio discreto (continuo) bivariado con pmf (pdf )
conjunta fX,Y y pmfs (pdfs) marginales fX y fY . Las variables aleatorias X e Y son
variables aleatorias independientes si
fX,Y (x, y) = fX(x)fY (y), ∀(x, y) ∈ R2.
Para cualquier y fijo con fY (y) > 0, la pmf (pdf ) condicional fX|Y (·|y) es una pmf (pdf )
y tiene sentido definir las esperanzas condicionales con respecto a la distribución de X
condicional en Y = y.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto y sea g : R → R una función.
Para cualquier y tal que fY (y) > 0, el valor esperado condicional de g(X) dado Y = y
es denotado por EX|Y (g(X)|y) y es dado por
EX|Y (g(X)|y) =
∑
x∈R
g(x)fX|Y (x|y),
provisto que
∑
x∈R g(x)fX|Y (x|y) < +∞.
(ii) Sea (X, Y ) un vector aleatorio continuo y sea g : R → R una función. Para cualquier
y tal que fY (y) > 0, el valor esperado condicional de g(X) dado Y = y es denotado
por EX|Y (g(X)|y) y es dado por
EX|Y (g(X)|y) =
∫ +∞
−∞
g(x)fX|Y (x|y)dx,
provisto que
∫ +∞
−∞ g(x)fX|Y (x|y)dx < +∞. En caso contrario, decimos que el valor espe-
rado condicional no existe.
23
Observación. Para distinguir entre las esperanzas condicionales de la esperanza de
g(X) con respecto a la distribución marginal de X ocasionalmente denotaremos lo últi-
mo como EX(g(X)).
La media condicional de X dado Y = y es EX|Y (X|y), mientras que la varianza condi-
cional de X dado Y = y es
V arX|Y (X|y) = EX|Y
(
(X − EX|Y (X|y))2
)
= EX|Y (X
2|y)− EX|Y (X|y)2
Para cualquier y fijo, tanto la media condicional EX|Y (X|y) como la varianza condi-
cional V arX|Y (X|y) son solo números fijos. Viendo a EX|Y (X|·) y a V arX|Y (X|·) como
funciones de y, podemos definir las variables aleatorias EX|Y (X|Y ) y V arX|Y (X|Y ). Los
siguientes teoremas establecen importantes relaciones entre los momentos de estas va-
riables (funciones de Y ) y momentos de X .
Teorema (Ley de Esperanzas Iteradas; Casella y Berger, Teorema 4.4.3). Para
cualquier vector aleatorio bivariado (X, Y ),
EX(X) = EY (EX|Y (X|Y )),
en el sentido de que si algún lado existe también existe el otro y son iguales.
Teorema (Identidad de la Varianza Condicional; Casella y Berger, Teorema
4.4.7). Para cualquier vector aleatorio bivariado (X, Y ),
V arX(X) = EY (V arX|Y (X|Y )) + V arY (EX|Y (X|Y )),
en el sentido de que si algún lado existe también existe el otro y son iguales.
Definición. (i) Sea (X, Y ) un vector aleatorio discreto bivariado con pmf conjunta fX,Y
y sea g : R2 → R una función. El valor esperado de g(X, Y ), denotado E(g(X, Y )),
es
E(g(X, Y )) =
∑
(x,y)∈R2
g(x, y)fX,Y (x, y),
provisto que
∑
(x,y)∈R2 g(x, y)fX,Y (x, y) < +∞. En caso contrario, decimos que el valor
esperado no existe. (ii) Sea (X, Y ) un vector aleatorio continuo bivariado con pdf con-
junta fX,Y y sea g : R
2 → R una función. El valor esperado de g(X, Y ), denotado
E(g(X, Y )), es
24
E(g(X, Y )) =
∫ +∞
−∞
∫ +∞
−∞
g(x, y)fX,Y (x, y)dydx,
provisto que
∫ +∞
−∞
∫ +∞
−∞ g(x, y)fX,Y (x, y)dydx < +∞. En caso contrario, decimos que el
valor esperado no existe.
Observación. La presente definición generaliza la definición de esperanza EX(·) con
respecto a la distribución marginal de X . Espećıficamente, sea (X, Y ) un vector aleatorio
bivariado y sea g : R → R una función. Entonces
E(g(X)) = EX(g(X)).
EJEMPLO 16: Si (X, Y ) es un vector aleatorio bivariado entonces
E(X + Y ) = E(X) + E(Y )
Definición. Sea (X, Y ) un vector aleatorio bivariado. La covarianza de X e Y es
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))) = E(XY )− E(X)E(Y ) = Cov(Y,X).
La correlación de X e Y es el coeficiente de correlación ρXY definido por
ρXY =
Cov(X, Y )√
V ar(X)
√
V ar(Y )
.
Definición. Sea (X, Y ) un vector aleatorio bivariado. La media (vector) de (X, Y ) es
E
(
X
Y
)
=
(
E(X)
E(Y )
)
.
La matriz de covarianza de (X, Y ) es
V ar
(
X
Y
)
=
(
V ar(X) Cov(X, Y )
Cov(Y,X) V ar(Y )
)
.
Observación. La matriz de covarianza de cualquier vector aleatorio bivariado (X, Y )
es simétrica y semidefinida positiva. La matriz de covarianza es singular si y solo si
|ρXY | = 1.
25
El siguiente teorema provee una condición necesaria para independencia.
Teorema (Casella y Berger, Teorema 4.5.5). Sea (X, Y ) un vector aleatorio biva-
riado. Si X e Y son independientes, entonces Cov(X, Y ) = ρXY = 0.
La varianza de la variable aleatoria g(X, Y ) está definida de la forma natural:
V ar(g(X,Y )) = E
(
(g(X, Y )− E(g(X, Y )))2)
)
En el caso especial donde g(x, y) = x+ y una caracterización útil de V ar(g(X, Y )) es la
siguiente.
Teorema (Casella y Berger, Teorema 4.5.6). Si (X, Y ) es un vector aleatorio bi-
variado, entonces
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )
A través del siguiente teorema veremos que el coeficiente de correlación ρXY cuantifica
el alcance de la relación lineal que existe entre X e Y .
Teorema (Casella y Berger, Teorema 4.5.7). Si (X, Y ) es un vector aleatorio bi-
variado entonces |ρXY | ≤ 1 con igualdad si y solo si existen números a 6= 0 y b tal que
P (Y = aX + b) = 1.
La desigualdad |ρXY | ≤ 1 es un caso especial del siguiente resultado.
Teorema (Desigualdad de Cauchy-Schwarz, Casella y Berger, Teorema 4.7.3).
Si (X, Y ) es un vector aleatorio bivariado. entonces
|E(XY )| ≤ E|XY | ≤ (E(X2))1/2(E(Y 2))1/2.
Observación. La Desigualdad de Cauchy-Schwarz es un caso especial (cuando p = q =
2) de la Desigualdad de Hölder (Casella y Berger, Teorema 4.7.2), de acuerdo a la
cual
|E(XY )| ≤ E|XY | ≤ (E(|X|p))1/p(E(|Y |q))1/q
cuando p y q son números positivos tales que p−1 + q−1 = 1.
26
2.6. Distribuciones Multivariadas
Definición. Un vector aleatorio n − dimensional es un vector X = (X1, . . . , Xn)′,
donde X1, . . . , Xn son variables aleatorias (definidas en el mismo espacio de probabilidad
(Ω,B, P )).
Un vector aleatorio n-dimensional X : Ω → Rn induce un espacio de probabilidad
(Rn,B(Rn), PX), donde B(Rn) es una σ-álgebra de Borel definida en Rn y
PX(B) = P ({ω : (X(ω)) ∈ B}), B ∈ B(Rn).
Definición. La cdf conjunta de un vector aleatorio n-dimensional X es la
función FX : R
n → [0, 1] definida por
FX(x) = PX((−∞, x1]× . . .× (−∞, xn])
= P ({ω : X1(ω) ≤ x1, . . . , Xn(ω) ≤ xn}), x = (x1, . . . , xn)′ ∈ Rn.
Definición. Sea X un vector aleatorio n-dimensional con cdf conjunta FX .
(i) X es un vector aleatorio discreto si existe una función no negativa fX tal que
FX(x) =
∑
t≤x
fX(t) ∀x ∈ Rn
donde ′′t ≤ x′′ es una abreviación para t1 ≤ x1, . . . , tn ≤ xn. La función fX es la
pmf conjunta de X .
(ii) X es un vector aleatorio continuo si existe una función no negativa fX tal que
FX(x) =
∫
t≤x
fX(t)dt ∀x ∈ Rn
Cualquier función que cumpla lo anterior es una pdf conjunta de X .
Por analoǵıa con el caso bivariado FX determina únicamente a PX . Es más, condiciones
necesarias y suficientes para que una función sea una cdf /pmf /pdf conjunta están dis-
ponibles.
Definición. (i) Sea X un vector aleatorio discreto n-dimensional con pmf conjunta fX
y sea g : Rn → R una función. El valor esperado de g(X), denotado por E(g(X)), es
27
E(g(X)) =
∑
x∈Rn
g(x)fX(x),
provisto que
∑
x∈Rn g(x)fX(x) < +∞. En caso contrario, decimos que el valor esperado
no existe.
(ii) Sea X un vector aleatorio continuo n-dimensional con pdf conjunta fX y sea g :
Rn → R una función. El valor esperado de g(X), denotado por E(g(X)), es
E(g(X)) =
∫
Rn
g(x)fX(x)dx,
provisto que
∫
Rn
g(x)fX(x)dx < +∞. En caso contrario, decimos que el valor esperado
no existe.
Observación. De forma más general, sea
g =


g11 · · · g1m
...
. . .
...
gk1 · · · gkm

 : Rn → Rk×m
una función con valores matriciales. El valor esperado de g(X), denotado por E(g(X)),
es
E(g(X)) =


E(g11(X)) · · · E(g1m(X))
...
. . .
...
E(gk1(X)) · · · E(gkm(X))


provisto que
∫
Rn
gij(x)fX(x)dx < +∞, ∀1 ≤ i ≤ k, 1 ≤ j ≤ m. En caso contrario,
decimos que el valor esperado no existe.
Definición. Sea X un vector aleatorio n-dimensional. La media (vector) de X , de-
notada E(X), es
E(X) = µ =


µ1
...
µn

 ,
donde µi = E(Xi), 1 ≤ i ≤ n. La matriz de covarianza de X , denotada V ar(X), es
28
V ar(X) = E ((X − µ)(X − µ)′) = Σ =


σ11 · · · σ1n
...
. . .
...
σn1 · · · σnn

 ,
donde σij = Cov(Xi, Xj), 1 ≤ i, j ≤ n.
Sea X = (X1, . . . , Xn)
′ un vector aleatorio n-dimensional. Si a1, . . . , an y b1, . . . , bn son
constantes, entonces
E
(
n∑
i=1
aiXi
)
=
n∑
i=1
aiE(Xi), y
Cov
(
n∑
i=1
aiXi,
n∑
j=1
bjXj
)
=
n∑
i=1
n∑
j=1
aibjCov(Xi, Xj),
en el sentido de que si algún lado existe, también existe el otro y son iguales. Como caso
especial del último resultado tenemos que:
V ar
(
n∑
i=1
aiXi
)
= Cov
(
n∑
i=1
aiXi,
n∑
j=1
ajXj
)
=
n∑
i=1
n∑
j=1
aiajCov(Xi, Xj),
lo que se simplifica a
V ar
(
n∑
i=1
aiXi
)
=
n∑
i=1
a2iV ar(Xi)
en el caso especial que las variables aleatorias no estén correlacionadas (es decir, Cov(Xi, Xj) =
0 cuando i 6= j).
Una reexpresión de estas identidades puede obtenerse al definir los vectores a = (a1, . . . , an)
′
y b = (b1, . . . , bn)
′. Espećıficamente, tenemos que
E(a′X) = a′E(X)
Cov(a′X, b′X) = a′V ar(X)b, y
V ar(a′X) = a′V ar(X)a.
Observación. Para cualquier vector aleatorio X = (X1, . . . , Xn)
′ la matriz de cova-
rianza Σ = V ar(X) es simétrica porque Cov(Xi, Xj) = Cov(Xj, Xi) para cualquier
1 ≤ i, j ≤ n. Es más, Σ es semidefinida positiva porque a′Σa = V ar(a′X) ≥ 0 para
cualquier vector no nulo a ∈ Rn. En efecto, Σ es definida positiva a menos que podamos
29
encontrar un vector no nulo a tal que V ar(a′X) = 0.
Definición. Sea X un vector aleatorio n-dimensional y particione X en la k-ésima fila
como
X =
(
Y
Z
)
,
donde Y = (X1, . . . , Xk)
′ y Z = (Xk+1, . . . , Xn)
′.
La cdf de Y se llama la cdf marginal de Y . Si X es discreto, Y es un vector aleatorio
discreto y su pmf se llama la pmf marginal de Y . Si X es continuo, Y es un vector
aleatorio continuo y su pdf se llama la pdf marginal de Y .
Si (Y ′, Z ′)′ es un vector aleatorio discreto con pmf conjunta fY,Z y pmf marginal fZ de
Z, la pmf condicional de Y dado Z = z es la función fY |Z(·|z) dada por
fY |Z(y|z) =
fY,Z(y, z)
fZ(z)
,
para cualquier y ∈ Rk y cualquier z ∈ Rn−k tal que fZ(z) > 0.
Si (Y ′, Z ′)′ es un vector aleatorio continuo con pdf conjunta fY,Z y pdf marginal fZ de
Z, la pdf condicional de Y dado Z = z es la función fY |Z(·|z) dada por
fY |Z(y|z) =
fY,Z(y, z)
fZ(z)
,
para cualquier y ∈ Rk y cualquier z ∈ Rn−k tal que fZ(z) > 0.
Definición. Sean X1, . . . , Xn vectores aleatorios discretos (continuos) (no necesariamen-
te de la misma dimensión) con pmf (pdf) conjunta fX1,...,Xn y pmfs (pdfs) marginales
fX1 , . . . , fXn. Los vectores aleatorios X1, . . . , Xn son mutuamente independientes si
fX1,...,Xn(x1, . . . , xn) = fX1(x1) · . . . · fXn(xn) ∀x1, . . . , xn.
La independencia mutua se preserva bajo transformaciones de los vectores aleatorios
individuales.
30
Teorema (Casella y Berger, Teorema 4.6.12). Si X1, . . . , Xn son vectores aleatorios
mutuamente independientes entonces g1(X1), . . . , gn(Xn) son vectores aleatorios mutua-
mente independientes para cualesquiera funciones (posiblemente con valores vectoriales)
g1, . . . , gn.
En este curso los vectores aleatorios multivariados serán a menudo:
(i) normalmente distribuidos (o funciones con valores vectoriales de vectores aleatorios
normalmente distribuidos); y/o
(ii) vectores aleatorios mutuamente independientes con distribuciones marginales idénti-
cas. A continuación se discutirán los casos especiales.
Definición. Un vector aleatorio n-dimensional X = (X1, . . . , Xn)
′ está normalmente
distribuido con media (vector)
µ =


µ1
...
µn


y matriz de covarianza
Σ =


σ11 · · · σ1n
...
. . .
...
σn1 · · · σnn

 ,
denotado X ∼ N (µ,Σ), si X es continuo con pdf conjunta fX dada por
fX(x) =
1
(2π)n/2|Σ|1/2 exp
(
−1
2
(x− µ)′Σ−1(x− µ)
)
, x ∈ Rn
Como la terminoloǵıa sugiere, X tiene media µ,
E(X) = µ
y matriz de covarianza Σ,
V ar(X) = E ((X − µ)(X − µ)′) = Σ.
31
Cuando X se distribuye normal también lo está cualquier subvector de X . De forma más
general tenemos el siguiente resultado.
Teorema (Ruud, Lema 10.3). Suponga que X ∼ N (µ,Σ) es un vector aleatorio
n-dimensional. Si A ∈ Rm×n tiene rango m y b ∈ Rm, entonces
AX + b ∼ N (Aµ+ b, AΣA′) .
EJEMPLO 17: Para cualquier i ∈ {1, . . . , n}, sea Ei el i-ésimo vector unitarioen Rn
(es decir, Ei ∈ Rn tiene un uno en la i-ésima posición y ceros en cualquier otro lugar).
Fijando A = Ei, b = 0 y aplicando el teorema tenemos:
Xi ∼ N (µi, σii).
Es importante recordar que la normalidad conjunta implica normalidad marginal, mien-
tras que lo contrario no necesariamente es cierto.
Suponga que X = (X1, . . . , Xn)
′ ∼ N (µ,Σ) es un vector aleatorio n-dimensional. Parti-
cione en la k-ésima fila como
X =
(
Y
Z
)
,
donde Y = (X1, . . . , Xk)
′ y Z = (Xk+1, . . . , Xn)
′. Conformablemente particione µ y Σ
como
µ =
(
µY
µZ
)
, y
Σ =
(
ΣY Y ΣY Z
ΣZY ΣZZ
)
.
La distribución marginal de Y y Z es normal,
Y ∼ N (µY ,ΣY Y ) ,
Z ∼ N (µZ ,ΣZZ) ,
como también lo es la distribución condicional de Y dado Z = z.
32
Teorema (Ruud, Lemas 10.4 y 10.5). Si
(
Y
Z
)
∼ N
((
µY
µZ
)
,
(
ΣY Y ΣY Z
ΣZY ΣZZ
))
, entonces
Y |Z = z ∼ N
(
µY − ΣY ZΣ−1ZZ(z − µZ),ΣY Y − ΣY ZΣ−1ZZΣZY
)
.
Los vectores aleatorios Y y Z son (mutuamente) independientes si y solo si ΣY Z = 0.
Definición. Una variable aleatoria X tiene una una distribución chi cuadrado con
p grados de libertad , denotada X ∼ χ2(p), si X es continua con una pdf fX dada por
fX(x) =
{
0 para x ≤ 0
1
Γ(p/2)2p/2
x(p/2)−1 exp
(
−1
2
x
)
para x > 0
,
donde Γ es la función gamma.
Un hecho útil acerca de la distribución normal multivariada es el siguiente.
Lema (Ruud, Lema 10.2). Suponga que X ∼ N (µ,Σ) es un vector aleatorio p-
dimensional. Entonces
(X − µ)′Σ−1(X − µ) ∼ χ2(p).
2.7. Muestras aleatorias
Definición. Sea X = (X1, . . . , Xn)
′ un vector aleatorio n-dimensional. Las variables
aleatorias X1, . . . , Xn se llaman muestra aleatoria si es que son mutuamente indepen-
dientes y tienen distribuciones marginales idénticas. En este caso decimos queX1, . . . , Xn
son variables aleatorias independientes e idénticamente distribuidas (i.i.d.).
Si X1, . . . , Xn es una muestra aleatoria de una distribución con cdf F , la cdf conjunta
de (X1, . . . , Xn)
′ es
FX1,...,Xn(x1, . . . , xn) =
n∏
i=1
FXi(xi) =
n∏
i=1
F (xi),
33
donde la primera igualdad usa independencia mientras que la segunda usa el hecho de
que cada Xi tiene la misma distribución. Análogamente, la pmf (pdf ) conjunta de una
muestra aleatoria de una distribución discreta (continua) con pmf (pdf ) f es
fX1,...,Xn(x1, . . . , xn) =
n∏
i=1
fXi(xi) =
n∏
i=1
f(xi).
Definición. Sea X1, . . . , Xn una mustra aleatoria y sea T : R
n → Rk una función (me-
dible). El vector aleatorio Y = T (X1, . . . , Xn) se llama estad́ıstico y su distribución se
llama distribución muestral de Y .
A este nivel de generalidad, cualquier función de X1, . . . , Xn es un estad́ıstico. Solamen-
te estudiaremos aquellos estad́ısticos que son relevantes cuando estamos en presencia de
una muestra aleatoria de una distribución normal.
Definición. La media muestral es el estad́ıstico definido por
X =
1
n
n∑
i=1
Xi.
La varianza muestral es
S2 =
1
n− 1
n∑
i=1
(Xi −X)2 =
1
n− 1
(
n∑
i=1
X2i − nX
2
)
,
mientras que S =
√
S2 se llama la desviación estándar muestral .
Una justificación parcial para el uso de (n−1) en la definición es provista en la parte (c)
del siguiente teorema, el cual caracteriza algunas propiedades (momentos) elementales
de X y S2.
Teorema (Casella y Berger, Teorema 5.2.6). Sea X1, . . . , Xn una muestra aleatoria
de una distribución con media µ y varianza σ2. Entonces
(a) E(X) = µ.
(b) V ar(X) = σ2/n.
(c) E(S2) = σ2.
34
Demostración. En primer lugar:
E(X) = E
(
1
n
n∑
i=1
Xi
)
=
1
n
E
(
n∑
i=1
Xi
)
=
1
n
n∑
i=1
E(Xi) =
1
n
n∑
i=1
µ = µ.
Luego, procediendo de manera similar,
V ar(X) = V ar
(
1
n
n∑
i=1
Xi
)
=
1
n2
V ar
(
n∑
i=1
Xi
)
=
1
n2
n∑
i=1
V ar(Xi) =
σ2
n
,
donde la penúltima igualdad usa independencia. Finalmente, usando el hecho de que
E(X2) = V ar(X) + E(X)2 para cualquier variable aleatoria X ,
E(S2) = E
(
1
n− 1
(
n∑
i=1
X2i − nX
2
))
=
1
n− 1E
(
n∑
i=1
X2i − nX
2
)
=
1
n− 1
(
n∑
i=1
E(x2i )− nE
(
X
2
))
=
1
n− 1
(
n∑
i=1
(σ2 + µ2)− n
(
σ2
n
+ µ2
))
= σ2.
Si la distribución subyacente es conocida la distribución muestral de los estad́ısticos co-
mo X y S2 pueden (al menos en principio) ser encontrada. En el caso especial donde
X1, . . . , Xn es una muestra aleatoria de una distribución normal tenemos el siguiente
resultado.
Teorema (Casella y Berger, Teorema 5.3.1). Sea X1, . . . , Xn una muestra aleatoria
de una distribución N (µ, σ2). Entonces
(a) (X) y S2 son independientes.
(b) (X) ∼ N (µ, σ2/n).
(c) (n− 1)S2/σ2 ∼ χ2(n− 1).
Demostración de (a)-(b). Para demostrar (a) es suficiente mostrar que S2 es una
función de un vector aleatorio que es independiente de X . Ahora,
35
n∑
i=1
(Xi −X) = (X1 −X) +
n∑
i=2
(Xi −X) = 0,
de forma que X1 − X = −
∑n
i=2(Xi − X) puede ser escrito como función de (X2 −
X, . . . , Xn −X)′, al igual que
S2 =
1
n− 1
n∑
i=1
(
Xi −X
)2
.
Los vectores aleatorios X y (X2−X, . . . , Xn−X)′ son conjuntamente normales y por lo
tanto independientes (si y solo si) Cov(X,Xi−X) = 0 para i = 2, . . . , n. Para cualquier
i = 2, . . . , n,
Cov(X,Xi −X) = Cov(X,Xi)− Cov(X,X)
= Cov
(
1
n
n∑
j=1
Xj, Xi
)
− V ar
(
X
)
=
1
n
n∑
j=1
Cov(Xj, Xi)− V ar
(
X
)
=
1
n
V ar(Xi)− V ar
(
X
)
=
σ2
n
− σ
2
n
= 0.
Esto establece (a). La parte (b) se sigue de las partes (a)-(b) del teorema anterior y del
hecho de que combinaciones lineales de variables distribuidas normal conjuntamente se
distribuyen normal.
Observación. Casella y Berger establecen la parte (c) al emplear un argumento de
inducción. Una demostración alternativa puede ser encontrada en Ruud (Caṕıtulo 10).
36
Caṕıtulo 3
El modelo de regresión lineal
3.1. Introducción
Antes de revisar el modelo de regresión lineal repasaremos algunos conceptos esenciales.
El primero de ellos es el de esperanza condicional. La esperanza condicional de Y
(escalar) dado X (vector en ℜk) es un mapping o función escalar que se escribe:
E(Y |X) : ℜk → ℜ
y representa el primer momento de la distribución condicional de Y en X . En estricto
rigor, debiésemos escribirla aśı:
E(Y |X = X0)
lo cual nos indica cuál es el valor esperado de Y para un valor predeterminado deX = X0.
Aśı, X0 en una realización X . Generalmente omitimos eso y escribimos E(Y |X). En con-
secuencia, dado que X no es fijo, la esperanza condicional se convierte en una variable
aleatoria que es función de X .
EJEMPLO 1: (quedamos en no mencionar la ecuación de mincer!)
Y: rendimiento en el curso de Econometŕıa I (4,0 ; 5,0; 5,5; 6,0)
X: altura (1,30; 1,50; 1,70; 1,90)
La relación entre las distintas alturas y el rendimiento econometŕıa puede o no entregar
una relación causal (eso dependerá de si somos capaces de identificar esta relación en el
sentido estad́ıstico). También podemos construir escenarios contrafactuales los cuales
son muy útiles para predicción.
37
La esperanza condicional se escribe simplemente de la siguiente manera si la variable
aleatoria es cont́ınua:
E(Y |X) =
∫ ∞
−∞
yf(x, y)
f(x)
dy
Si bien es cierto que la esperanza condicional es un objeto de interés fundamental, tam-
bién nos interesarán otros objetos que dependen de ella. Por ejemplo efectos marginales,
parciales o elasticidades que definiremos a continuación.
3.2. Objetos de Interés
1. Efecto Parcial de Xj sobre E(Y |X):
∂E(Y |X)
∂Xj
Este efecto parcial es marginal, sin embargo si queremos calcular efectos de cambios
mayores, por ejemplo “∆Xj” (p.e: 20 unidades) podemos escribir:
∆E(Y |X)
∆Xj
≈ ∂E(Y |X)
∂Xj
∆Xj
Si
∂E(Y |X)
∂Xj
= β con β constante, entonces esta aproximación se cumple con igualdad.
2. Elasticidad: cambios porcentuales
ξE(Y |X),X =
∂E(Y |X)
∂Xj
Xj
E(Y |X)
Esta expresión también puede ser escrita como:
ξE(Y |X),X =
∂ lnE(Y |X)
∂ lnXj
Notar que:
ξE(Y |X),X =
∂ lnE(Y |X)
∂ lnXj
6= ∂E((lnY |X))
∂ lnXj
Salvo en este caso particular:
EJEMPLO 2: Supongamos un modelo expresado en logaritmo (su variablede-
pendiente):
ln(y) = g(x) + µ
38
donde µ es independiente de X ⇒ E(X|µ) = 0. Por simplicidad supongamos que
x es escalar. Recordemos:
y = exp(g(x)) ∗ exp(µ)
Por lo tanto,
E[y|x] = exp(g(x)) ∗ E(exp(µ)|x)
La elasticidad queda:
ξ = ✘✘✘
✘✘✘exp(g(x))g′(x)✘✘✘
✘✘✘E(exp(µ))
x
✘✘
✘✘
✘✘
exp(g(x))✘✘✘
✘✘✘E(exp(µ))
ξ = g′(x)x
Ahora el modelo en logaritmos:
E[ln (y)|x] = g(x)
E[ln (y)|x] = g(exp(ln(x)))
∂E[ln (y)|x]
∂ln(x)
= g′(x) exp(ln (x))
ξ = g′(x)x
3. Semi Elasticidad: Se define como
Semielasticidad =
∂E(Y |X)
∂Xj
1
E(Y |X)
Un ejemplo de semielasticidad la podemos encontrar en el efecto marginal de la
escolaridad en el ingreso, ya que la variable escolaridad está medida en niveles, y
la de ingreso en logaritmos.
4. Ley de Esperanzas Iteradas: En su versión más sencilla esta enuncia que:
Ex(E(y|x)) = E(y)
Demostración (en variable continua):
39
Ex(E(y|x)) =
∫ [∫
y
f(x, y)
f(x)
dy
]
f(x)dx
Ex(E(y|x)) =
∫ ∫
y
f(x, y)
f(x)
f(x)dxdy
Ex(E(y|x)) =
∫
y
[∫
f(x, y)dx
]
dy
Ex(E(y|x)) =
∫
yf(y)dy porque
∫
f(x, y)dx = f(y)
Ex(E(y|x)) = E(y)
3.3. El Modelo de Regresión Lineal
Definimos:
Yn×1 =


y1
y2
...
yn


Xn×k =


x11 x12 · · · x1k
x21 x22 · · · x2k
...
...
. . .
...
xn1 xn2 · · · xnk


Donde n denota el número de observaciones del modelo y k denota al número de variables
explicativas.
Supuestos:
1. E(Y |X) = E(Y ) = Xβ Linealidad en los parámetros (porque asumiremos regreso-
res no estocásticos)
2. V (Y ) = E([(y − E(y))(y − E(y))′] = σ2I Homocedasticidad y no autocorrelación
en el término de error.
3. Regresores Determińısticos (No estocásticos)
4. Matriz X de Rango Completo (mı́nimo de columnas o filas linealmente indepen-
diente). En otras palabras, que X ′X sea invertible.
40
Paradigma Estad́ıstico
El paradigma estad́ıstico dice que una variable aleatoria la podemos descomponer en
su esperanza condicional más un residuo. Donde este residuo cumple una propiedad
conocida:
y = E[y|x] + ε
donde E(ε|x) = 0. Luego los supuestos los podemos expresar en función de ε
ε = Y − E(Y |X)
ε = Y −Xβ
En esta notación los supuestos son:
1. Esperanza lineal: E(ε|X) = E(ε) = 0
2. V (ε) = σ2In
3. Regresores Determińısticos (No estocásticos)
4. Rango completo de X(k)
Derivación del estimador de MCO
El estimador de MCO es aquel que minimiza la suma de los errores al cuadrado;
argmin
β
S =
n∑
i=1
ε2i = ε
′ε = (Y −Xβ)′(Y −Xβ)
en clase discutimos porque en 1805 se eligió este criterio (Legendre) en lugar de por
ejemplo:
argmin
β
S∗ =
n∑
i=1
|εi|
que se conoce como Least Absolute Deviations (LAD). Este problema es matemática-
mente más complejo de resolver, no tiene una forma anaĺıtica cerrada como MCO y las
propiedades asintóticas son dif́ıciles de derivar. De hecho se hicieron recién en los años
80s. Lo interesante de este enfoque es que es insensible a outliers y se le conoce como
Regresión Robusta. Se puede demostrar que aśı como MCO pasa por las medias, LAD
pasa por las medianas y es un caso particular de las regresiones de cuantiles o Quantile
Regressions Koenker (1984).
41
Recuerde que escribimos el criterio de minimización y lo derivamos con respecto a β
S = (Y −Xβ)′(Y −Xβ) = Y ′Y − 2Y ′Xβ + β ′X ′Xβ
y usamos las reglas de derivación que puede ver en el apéndice del libro de Greene: Si
A es una matriz simétrica y x un vector y los productos Ax y x’Ax son conformables,
tenemos que:
∂Ax
∂x
= A′
∂x’Ax
∂x
= (A′ + A)x = 2Ax
donde la última igualdad ocurre si A es simétrica. Luego, aplicando las reglas de cálculo
diferencial matricial a S tenemos la ecuación normal:
0 = X′(y −Xβ̂)
β̂ = (X′X)−1X′y
=
(
1
N
N∑
i=1
x′ixi
)−1(
1
N
N∑
i=1
x′iYi
)
.
Donde xi es un vector de 1× k con la i-ésima observación para los k regresores.
Que son las dos representaciones t́ıpicas del estimador OLS de β. Junto con el estimador
OLS de β está el estimador del parámetro de varianza σ2,
s2 ≡ 1
N −K
(
y −Xβ̂
)′ (
y −Xβ̂
)
Que es una forma cuadrática del vector de residuos. La normalización inusual (dividir por
N−K en vez de N) nos da un estimador que es insesgado bajo los supuestos estándares.
La demostración implica intercambiar el operador traza y esperanza convenientemente
además del uso de propiedades como tr(AB) = tr(BA), etc.
3.4. Derivación Alternativa desde la Estad́ıstica
El estimador MCO proviene de un problema de optimización y es aquel que minimiza la
suma de los errores al cuadrado. Es posible encontrar un estimador por el Principio de
42
la Analoǵıa o Método de Momentos explotando el supuesto de identificación E(ǫ|x) = 0
y = xβ + ǫ
Donde x es un vector de 1 × k que incluye una observación para los k regresores. El
supuesto de identificación de MCO implica que
E(x′ǫ) = 0
Note que el parámetro poblacional β puede ser expresado en momentos de las variables
observables explotando el supuesto recién presentado:
x′y = x′xβ + x′ǫ
tomando valor esperado tenemos que:
β = E(x′x)−1E(x′y)
lo que se conoce como Regresión Poblacional. Dado que (y,x) es observable, β es iden-
tificado.
El principio de la analoǵıa o analogy principle (Goldberger (1968), Manski (1988)) im-
plica
β̂MM = β̂MCO =
[
1
n
n∑
i=1
x′ixi
]−1 [
1
n
n∑
i=1
x′iyi
]
≡ (X ′X)−1X ′Y
Lo interesante es que el estimador de MM y MCO son idénticos para el mismo modelo
lineal de dos paradigmas diferentes. El primero, de optimización y el segundo, estad́ıstico.
Interpretación Geométrica
Note que tanto la estimación de la esperanza condicional y el residuo estimado se pueden
interpretar geométricamente.
ǫ̂ ≡ y −Xβ̂
= (I−X(X′X)−1X′)y
≡ Mxy.
Donde Mx es una matriz de proyección (idempotente y simétrica) en el espacio nulo de
las columnas X, Col(X). Por otra parte,
ŷ ≡ Xβ̂
= X(X′X)−1X′y
≡ Pxy
43
Donde Px es una matriz de proyección en el espacio generado por las columnas de X.
Luego, y = Mxy +Pxy
Figura 3.1: Descomposición Ortogonal de Y
3.5. Bondad de Ajuste
Si la primera columna de X es una vector columna “ι” igual a 1, se tiene una medida
resumen para la “bondad de ajuste” de los valores predichos de la siguiente identidad:
n∑
i=1
(Yi − Ȳ )2 =
n∑
i=1
(Yi − Ŷi)2 +
n∑
i=1
(Ŷi − Ȳ )2
TSS = RSS + ESS
1 =
RSS
TSS
+
ESS
TSS
donde RSS es la suma de los residuos al cuadrado , TSS es la suma Total de las desviacio-
nes de y con respecto a su media y ESS la suma explicada por el modelo respectivamente.
La medida de bondad de ajuste es
R2 =
ESS
TSS
= 1− RSS
TSS
44
En términos matriciales
R2 ≡ 1− (y −Xβ̂)
′(y−Xβ̂)
(y − yι)′(y− yι)
= 1− ǫ̂
′ǫ̂
(y − yι)′(y − yι)
donde y es el promedio muestral (escalar) de la variable dependiente,
y ≡ 1
N
∑
i
Yi
y ι es un vector de unos de dimensión N .
Note que:
1. El coeficiente de determinación es siempre menor a 1. Ello porque RSS ≤ TSS y
por lo tanto RSS
TSS
≤ 1.
2. El análisis de varianza anterior fue derivado bajo el supuesto que el modelo inclúıa
una constante. En dicho caso, necesariamente R2 ≥ 0.
3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá constante o
aumentará).
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este último punto, suponga que usted posee el siguiente modelo poblacional:
Y = β1 + β2X + u
donde X es un vector (n× 1). Suponga ahora que restamos X a ambos lados de nuestro
modelo. Obtenemos entonces:
Y −X = β1 + γX + u
Si β2 ≈ 1, entonces es fácil verificar que el R2 del primer modelo será alto, mientras
que el del segundo sera cercano a cero, a pesar de que los modelos son matemática-
mente equivalentes. A pesar de lo anterior, en trabajos aplicados, el R2 es ampliamente
utilizado, por lo cual se recomienda su publicación.
¿Por qué sucede (3)? Note que al incluir regresores, la RSS necesariamente decrece (o
en el mejor de los casos se mantiene), mientras que la TSS permanece constante. Por
esta razón se creó el coeficiente de determinación ajustado, el cual corrige el R2 original
45
por los gradosde libertad del numerador y el denominador. Entonces, definimos el R2
ajustado, denotado porR̃2 como:
R̃2 ≡ 1− (y −Xβ̂)
′(y −Xβ̂)/(n− k)
(y− yι)′(y − yι)/(n− 1)
= 1− ǫ̂
′ǫ̂
(y − yι)′(y − yι)
(n− 1)
(n− k)
o equivalentemente:
R̃2 = 1− (1−R2) (n− 1)
(n− k) (3.1)
3.6. Regresión Particionada
Al particionar la matriz de regresores podemos escribir X como la concatenazión hori-
zontal de dos sub-matrices
X ≡ [X1 X2]
donde X1 es de n × k1 y X2 de n × k2 con k1 + k2 = k lo que, junto con una versión
particionada del estimador OLS
β̂ ≡
(
β̂1
β̂2
)
Aśı, el modelo de regresión lineal se puede escribir de la siguiente manera
Y = X1β1 +X2β2 + ǫ
Esta notación hace posible que podamos derivar una relación entre el subvector β̂1 de la
regresión “larga” (de y sobre X1 y X2) y los coeficientes de la regresión “corta” (de y
sobre X1),
β̂∗1 ≡ (X ′1X1)−1X ′1Y
donde β̂∗1 solamente usa la submatriz X1 de regresores. Esta relación es la siguiente
β̂∗1 = β̂1 + (X
′
1X1)
−1X ′1X2β̂2
donde la relación anterior viene de reemplazar Y = X1β̂1 +X2β̂2 + ǫ̂ en el coeficiente de
la regresión “corta”.
46
Si X ′1X2 6= 0 y β̂2 6= 0 el término (X ′1X1)−1X ′1X2β̂2 corresponde al sesgo por omisión de
variables relevantes.
Otra relación algebraica útil es la representación de “regresión residual” de un determi-
nado subvector, por ejemplo β̂1, de los coeficientes β̂ de la regresión larga. Definiendo la
matriz de proyección
P2 ≡ X2(X ′2X2)−1X ′2
que proyecta los vectores en un subespacio lineal generado por las columnas de X2. Los
coeficientes de la regresión larga pueden ser escritos como
β̂1 = (X
′
1M2X1)
−1X ′1M2Y
= (X∗1X
∗
1 )
−1X∗
′
1 Y
= (X∗
′
1 X
∗
1 )
−1X∗
′
1 Y
∗
donde
X∗1 ≡ M2X1 ≡ (I − P2)X1
que es el residuo de la regresión de X1 en X2. Por otro lado tenemos
Y ∗ ≡ M2Y ≡ (I − P2)Y
que es el residuo de la regresión Y en X2. Todo esto es conocido como el Teorema de
Frisch-Waugh-Lovell.
3.7. Momentos del Estimador OLS
Las reglas para el cálculo de la media (vector) y matriz de varianzas y covarianzas de
una función lineal Ay de un vector aleatorio y (con A no estocástica) son:
E[Ay] = AE[y]
V [Ay] = AV [y]A′
Aplicando estas reglas al estimador OLS β̂, bajo los supuestos estándar, tenemos que
E[β̂] = (X′X)−1X′E[y]
= (X′X)−1X′Xβ
= β
esto significa que el estimador OLS β̂ es insesgado. Por otro lado, tenemos que
V [β̂] = (X′X)−1X′V [y]X(X′X)−1
= (X′X)−1X′[σ2I]X(X′X)−1
= σ2(X′X)−1
47
De forma similar es posible demostrar que s2 es un estimador insesgado de σ2. Tarea:
demostrar que E[s2] = σ2.
El resultado de eficiencia de la versión clásica de OLS, conocido como Teorema de
Gauss-Markov, propone que, bajo las condiciones estándar, el estimador OLS β̂ es el
mejor estimador lineal insesgado (BLUE por sus siglas en inglés). El término “mejor”
viene dado por poseer la menor matriz de varianzas y covarianzas. De forma más precisa,
si β̃ es un estimador de β que es lineal en y,
β̃ = Ay
Para alguna matriz A de dimensión K ×N y no estocástica. Si β̃ es insesgado, o sea,
E[β̃] = β
para todos los posibles β ∈ RK , entonces, bajo los supuestos estándar, la matriz de
varianzas y covarianzas de β̃ es tan grande como la de β̂, en el sentido de que V [β̃]−V [β̂]
es semidefinida positiva. Este resultado es obtenido de la descomposición de β̃ como la
suma de β̂ y β̃ − β̂.
Es posible demostrar (hecho en clases) que la covarianza entre estos dos componentes es
0 (usando las restricciones de insesgamiento, AX = I), de forma tal que
V [β̃] = V [β̂] + V [β̃ − β̂]
de donde sigue el resultado anterior.
La clase pasada terminamos demostrando el teorema de Gauss-Markov y esbozamos una
demostración para E(s
2) = σ2.
Aśı como el estimador MCO tiene una interpretación geométrica, el Teorema de G-M
también la tiene.
El plano es el espacio de las X’s. La esfera es la matriz de varianzas y covarianzas de Y.
El cilindro es una proyección no ortogonal de Y en el espacio de las X’s.
Por último, recuerde que G-M aplica a estimadores comparables y modelos comparables.
Un ejemplo sencillo de estimador de menor varianza para el modelo lineal es el de la
“regresión corta”. Usando las reglas de cálculo de medias y varianzas enunciadas ante-
riormente es posible aplicarlas a la regresión particionada. La esperanza de β̂∗1 definido
anteriormente viende dada por
E[β̂∗1 ] = E[β̂1] + (X
′
1X1)
−1X1X2E[β̂2]
= β1 + (X
′
1X1)
−1X′1X2β2
48
Figura 3.2: Geometŕıa de Gauss-Markov
que es igual al verdadero valor de β1 sólo si los coeficientes de la regresión de X2β2 en
X1 son todos cero (este resultado es conocido como la fórmula de sesgo por variable
omitida). Usando las reglas de cálculo de varianza tenemos que
V [β̂∗1 ] = σ
2(X′1X1)
−1
V [β̂1] = σ
2(X∗1
′X∗1)
−1
de esto se sigue que la matriz de varianzas y covarianzas de los coeficientes β̂∗1 no es más
grande (en un sentido “definido positivo”) que la de β̂1 dado que
X1X1 −X∗1′X∗1 = X′1P2X1
es definida positiva. El resultado es directo dado que P2 es una matriz de proyección y por
definición simétrica, idempotente y positiva semidefinida. Luego, admite descomposición
de Cholezky (P2 = C
′C donde C es triangular superior).
Esto es interesante puesto que omitir variables no sólo produce sesgo, sino que además
nos induce a cometer Error Tipo I.
3.8. El Modelo Normal de Regresión Lineal
Hasta aqúı no hemos asumido una distribución para el término de error. La ventaja de
asumir normalidad es que podemos hacer inferencia exacta, es decir, tendremos estad́ısti-
cos cuya distribución no depende de aproximaciones asintóticas, luego tienen “buenas
49
propiedades” incluso en muestra finita. Para lograr esto, debemos aumentar en un su-
puesto el modelo anterior. Este modelo fue propuesto por Gauss en 1809 varios años
después de que Legendre propusiera el estimador de MCO.
5. (Normalidad). El vector y (o equivalentemente ǫ = y − Xβ) tiene una distribución
normal multivariada.
Luego, bajo los supuestos 1-5, la distribución del vector y es
y ∼ N (Xβ, σ2I)
y
ǫ ∼ N (0, σ2I)
Bajo estos supuestos, Gauss en 1809 derivó el estimador MCO del modelo como un
estimador de Máxima Verosimilitud para este modelo.
Es fácil darse cuenta que
L = f(y1, y2, . . . , yn;X, σ
2, β) =
1
(2πσ2)
n
2
exp−
(Y −Xβ)′(Y −Xβ)
2σ2
con lo cual, el estimador β̂MV se obtiene maximizando:
máx
β,σ2
ln(L) = máx
β,σ2
ln
(
1
(2πσ2)
n
2
exp−
(Y −Xβ)′(Y −Xβ)
2σ2
)
= máx
β,σ2
(
−n
2
ln(2π)− n
2
ln(σ2)− (Y −Xβ)
′(Y −Xβ)
2σ2
)
(3.2)
∂ lnL
∂β
=
1
σ̂2
X ′(Y −Xβ̂) = 0
=⇒ β̂MV = (X ′X)−1X ′Y (3.3)
Luego, tenemos que β̂MV = β̂MCO = β̂ tiene una distribución normal
β̂ ∼ N(β, σ2(X ′X)−1)
Inferencia en el Modelo Normal de Regresión Lineal
El resultado anterior tiene implicancias directas. Cualquier combinación lineal de β̂
tendrá una distribución normal. Aśı,
θ̂ = Rβ̂ ∼ N (θ, σ2R(X ′X)−1R′)
50
donde θ = Rβ. También, el supuesto de normalidad implica que
(N −K)s2
σ2
∼ χ2N−K
Con los resultados anteriores podemos hacer inferencia exacta. Si R tiene sólo una fila
(es una hipótesis lineal) tenemos que
θ̂ − θ√
s2R(X ′X)−1R′
∼ tN−K
y generar intervalos de confianza es trivial pues sólo debemos invertir el test-t.
Si R tiene más de una fila, entonces R(X ′X)−1R′ no es escalar y podemos fabricar un
test F. Si R tiene r filas, tenemos que
(θ̂ − θ)′[s2R(X ′X)−1R′]−1(θ̂ − θ)/r ∼ Fr,N−K
Este resultado nos sirve para testear hipótesis del tipo H0 : Rβ = θ0 y Ha : Rβ 6= θ0
donde sólo debemos reemplazar el parámetro θ por el hipotético θ0.
Es posible que en un caso especial en donde la matriz X esté particionada de la forma
X = [X1X2] y donde X1 es un vector columna de unos (X1 = ι). Esto, junto con la
correspondiente partición de β, permite testear la hipótesis nula H0 : β2 = 0 usando
el estad́ıstico R2. Bajo los supuestos vistos anteriormente y la hipótesis nula recién
enunciado tenemos:
N −K
N − 1
R2
1− R2 ∼ FK−1,N−K
En el caso del modelo de regresión lineal tenemos que existeuna relación monotónica
entre el R2 y el estad́ıstico F para testear que todos los coeficientes (menos el intercepto)
son cero.
3.8.1. Intervalos y Regiones de Confianza
Una manera natural de obtener un intervalo de confianza (IC) para θ̂ es a través del
test-t asociado. En la sección anterior vimos que corresponde a:
θ̂ − θ√
s2R(X ′X)−1R′
∼ tN−K
51
entonces, si deseamos un IC del (1-α)% de confianza (es decir, de α% de significancia)
para θ, basta obtener de las tablas de distribución el valor t
1−α/2
N−K correspondiente e
invertir el test, es decir:
1− α = Pr
[
t
α/2
N−K ≤
θ̂ − θ√
s2R(X ′X)−1R′
≤ t1−α/2N−K
]
(3.4)
= Pr
[
−t1−α/2N−K ≤
θ̂ − θ√
s2R(X ′X)−1R′
≤ t1−α/2N−K
]
= Pr
[
θ̂ − t1−α/2N−K
√
s2R(X ′X)−1R′ ≤ θ ≤ θ̂ + t1−α/2N−K
√
s2R(X ′X)−1R′
]
Aśı, un intervalo de confianza para θ a un 95% de confianza está dado por:
θ ∈
[
θ̂ ± t1−α/2N−K ×
√
s2R(X ′X)−1R′
]
Note que también podemos invertir un test F. En este caso podemos tener “regiones de
confianza”. Es un poco más complicado y para el caso que la matriz R tenga sólo 2 filas
tiene una representación gráfica en R2. Las regiones de confianza serán elipses. Para ello
sólo debemos notar lo siguiente:
Pr[(θ̂ − θ)′[s2R(X ′X)−1R′]−1(θ̂ − θ)/r ≤ F 1−αr,N−K ] = 1− α
luego resolvemos para el argumento y nos quedará la ecuación de una elipse. Ver ejemplo
para dos parámetros.
EJEMPLO 3: Considere el modelo y = β1x1 + β2x2 + u. Se quiere testear simultánea-
mente que β1 = r1 y β2 = r2. Note que
R =
(
1 0
0 1
)
Si,
X ′X =
(
φ1 φ2
φ3 φ4
)
desarrollando el argumento de la región de confianza llegamos a una ecuación de la elipse:
1
s2r
[
(β1 − r1)2φ1 + (β2 − r2)(β1 − r1)(φ2 + φ3) + (β2 − r2)2φ4 = F 1−αr,n−k
]
52
Figura 3.3: Regiones de Confianza Eĺıpticas
−5 −4 −3 −2 −1 0 1 2 3 4 5
−5
−4
−3
−2
−1
0
1
2
3
4
5
Figura 3.4: Regiones de Confianza Eĺıpticas 3D
−0.5
0
0.5
1
−0.5
0
0.5
1
0
0.2
0.4
0.6
0.8
1
x
((0.3−x)2 0.9−(0.2+0.2) (0.3−x) (0.7−y)+(0.7−y)2 1)/(2)
y
3.9. Desviación de los Supuestos Clásicos
En las secciones anteriores hemos visto que se han realizado supuestos, unos más fuertes
que otros, acerca del modelo de regresión lineal. A continuación veremos, de forma
bastante superflua, las consecuencias del levantamiento de cada uno de estos supuestos.
1. (No Normalidad) Si y no es multinormalmente distribuida entonces la distribu-
ción exacta del estimador MCO (normalidad para β̂ y chi-cuadrado para s2) ya
53
no aplica. Afortunadamente la teoŕıa asintótica nos dice que β̂ se distribuye apro-
ximadamente normal y que este error de aproximación se va hacia cero cuando
el tamaño muestral aumenta. La teoŕıa asintótica combina dos tipos diferentes de
aproximaciones. Primero, están los teoremas centrales del ĺımite clásicos, que dan
condiciones generales bajo las cuales las distribuciones de sumas ponderadas de va-
riables aleatorias son aproximadamente multinormal. Segundo, están los teoremas
Slutsky, que muestran cómo funciones suaves de promedios muestrales (como β̂ y
s2) son aproximadamente sumas ponderadas de variables aleatorias, a las cuales los
teoremas centrales del ĺımite pueden ser aplicados. Si los supuestos estándar cum-
plen con las condiciones que los teoremas del ĺımite y Slutsky requieren, entonces
el estimador OLS se distribuye aproximadamente normal
β̂
A∼
(
β, σ2(X′X)−1
)
Donde “
A∼” significa “distribuido aproximadamente como”. Resultados como es-
te implican que los procedimientos de inferencia desarrollados para el modelo de
regresión lineal pueden ser aproximadamente válidos cuando la variable depen-
diente no sea normalmente distribuida.
Las próximas dos clases veremos teoŕıa asintótica y sus implicancias para la infe-
rencia en el modelo lineal sin asumir normalidad.
2. (Multicolinealidad) Si la matriz X no es de rango (columna) completo entonces
la matriz X′X no es invertible y el verdadero vector de parámetros β no puede
ser identificado a partir de los datos observados (eso si, algunas combinaciones
lineales pueden ser únicamente determinadas). Si la meta es obtener estimaciones
puntuales de β, con multicolinealidad perfecta no podremos hacerlo.
3. (Regresores Estocásticos) Si X es aleatoria pero los supuestos estándar se
mantienen condicional a X (es decir, E(y|X) = Xβ, V (y|X) = σ2I, etc.) enton-
ces es necesario hacer un pequeño ajuste a los procedimientos de inferencia; OLS
sigue siendo BLUE (condicional al X observado), y la distribución normal y chi-
cuadrado de β̂ y s2 se mantienen condicional a X. Es más, dado que la distribución
de s2 no depende de X, es proporcional a una variable aleatoria que se distribuye
chi-cuadrado, no importando si X es determińıstico o aletorio. Dado que los es-
tad́ısticos F y t también tienen distribuciones que bajo la nula no dependen de X
el caso anterior también aplica.
4. (Matriz de Covarianzas No Escalar) Cuando la matriz de covarianzas de y
(o ǫ) no es proporcional a una matriz identidad- V (y) ≡ Σ 6= σ2I para cualquier
σ2- entonces el estimador OLS clásico, aun cuando es lineal, deja de ser el “mejor”
54
en su tipo. Si Σ es proporcional a una constante - Σ = σ2Ω, con Ω conocido -
entonces y y X pueden ser transformados (al premultiplicar por la inversa de Ω)
para determinar el estimador BLUE de β, al aplicar OLS a los datos transformados.
Este caso es llamado el estimador Generalized Least Squares (GLS) de Aitken,
β̂GLS ≡ (X′Ω−1X)−1X′Ω−1y
El cual es BLUE para una Ω dada (no singular) y es un caso generalizado del caso
clásico de OLS (cuando Ω = I). Si y es multinormal y Ω es conocida (no estimada),
entonces la multinormalidad del estimador GLS aplica de la misma forma que para
el estimador OLS. Si Ω es desconocida, de forma tal que debe ser estimada usando
y, entonces una versión “factible” de GLS (Feasible Generalized Least Squares) que
usa una versión estimada Ω̂ será una función no lineal de y y la distribución de
este estimador no será exactamente normal. Ahora, la teoŕıa asintótica puede ser
utilizada para mostrar que el estimador FGLS tiene aproximadamente la misma
distribución normal que su contraparte, dado que Ω̂ se aproxima a Ω a medida que
el tamaño muestral crece.
Dependiendo del tipo de aplicación, Ω puede desviarse de la matriz identidad de
varias formas, cada una teniendo su nombre particular. En los modelos hetero-
cedásticos la matriz Ω es diagonal pero con elementos no constantes en ella. En
los modelos con correlación serial la matriz Ω posee componentes no nulos fuera
de la diagonal.
5. (Regresores Endógenos) Si falla el supuesto de que la esperanza de y dado X
no es una combinación lineal deX, se tiene la complicación más grave del caso OLS
clásico. Mientras que E(y|X) = Xβ puede no darse producto de que la verdadera
media condicional es no lineal en los regresores, un problema t́ıpico en economı́a
emṕırica es que existe correlación no nula entre el término de error, ǫ ≡ y−Xβ, y
algunas columnas de X, llamado regresores endógenos. Esta endogeneidad puede
surgir por una infinidad de razones como error de medida en los regresores, simul-
taneidad, sesgo de selección de la muestra, regresores omitidos y otros problemas
emṕıricos. El apronte econométrico estándar para la estimación de β, bajo este
problema, implica la recolección de variables adicionales conocidad como variables
instrumentales, generalmente denotadas por una matriz Z de dimensión L×K (con
L al menos tan grande como K), las cuales no están correlacionadas con el término
de error pero śı correlacionadas con columnas de la matriz X. Existen variantes
de este método como Two-Stage Least Squares (2SLS) y Generalized Method of
Moments (GMM) que también pueden ayudar a tratar este tema.
55
Caṕıtulo 4
Elementos de Teoŕıa Asintótica
4.1. Introducción
En la sección anterior analizamos la interpretación geométrica del teorema de Gauss-
Markov, luego demostramos que la varianza de la regresión corta es menor o igual

Otros materiales