Logo Studenta

Apunte Econometría I

Vista previa del material en texto

Econometría I
Autores:1
Jose Miguel Benavente
Andrés Otero
Javiera Vásquez
Agosto 2007
1Cualquier error es responsabilidad exclusiva de los autores.
Índice general
1. Introducción 5
2. Modelo de Regresión Lineal 8
2.1. Análisis de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1. ¾Qué es una regresión? . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Relaciones estadísticas versus relaciones determinísticas . . 9
2.1.3. Regresión versus Causalidad . . . . . . . . . . . . . . . . . 10
2.1.4. Regresión versus Correlación . . . . . . . . . . . . . . . . . 10
2.2. Análisis de regresión con dos variables . . . . . . . . . . . . . . . 14
2.2.1. Función de regresión poblacional (FRP) . . . . . . . . . . 16
2.2.2. Especi�cación estocástica de la función de regresión pobla-
cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2.3. Función de regresión muestral . . . . . . . . . . . . . . . . 18
2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 21
2.3. Modelo de regresión con dos variables . . . . . . . . . . . . . . . . 24
2.3.1. Método de Mínimos Cuadrados Ordinarios . . . . . . . . . 24
2.3.2. Supuestos detrás del método MCO . . . . . . . . . . . . . 31
2.3.3. Errores estándar de los Estimadores Mínimos Cuadrados
Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1
2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2 . . . . . . . 36
2.4. Modelo de Regresión con k variables . . . . . . . . . . . . . . . . 38
2.4.1. Representación Matricial del Modelo de Regresión Lineal . 38
2.4.2. Estimador Mínimo Cuadrados Ordinarios . . . . . . . . . . 39
2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 41
2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 42
2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 42
2.6. Geometría del Estimador MCO . . . . . . . . . . . . . . . . . . . 44
2.7. Bondad de Ajuste y Análisis de Varianza . . . . . . . . . . . . . . 45
2.7.1. Modelo de Regresión Lineal en Desvíos . . . . . . . . . . . 45
2.7.2. Análisis de Varianza . . . . . . . . . . . . . . . . . . . . . 47
2.7.3. Bondad de Ajuste: R2 y R̃2 . . . . . . . . . . . . . . . . . 48
2.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.8.1. Test t (Una hipótesis lineal) . . . . . . . . . . . . . . . . . 53
2.8.2. Test F (Conjunto de hipótesis lineales) . . . . . . . . . . . 61
2.8.3. Intervalos de Con�anza . . . . . . . . . . . . . . . . . . . . 61
2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . . 63
2.9. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.9.1. Medición de la precisión de la predicción . . . . . . . . . . 67
2.10. Estimación Máximo Verosímil (EMV) . . . . . . . . . . . . . . . . 74
2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . . 75
2.10.2. Estimación MV . . . . . . . . . . . . . . . . . . . . . . . . 76
2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . . 80
2.11.1. Test de Razón de Verosimilitud (LR) . . . . . . . . . . . . 80
2
2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . . 81
2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 81
2.12. Algunas acotaciones respecto a la estimación y la inferencia MV . 85
3. Forma Funcional y Especi�cación 87
3.1. Regresores Estocásticos en el Modelo de Regresión Lineal . . . . . 87
3.2. Incorporación de No Linealidades . . . . . . . . . . . . . . . . . . 89
3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . . 90
3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . . 92
3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . . 97
3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101
3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente
rezagada como regresor . . . . . . . . . . . . . . . . . . . . 103
3.5. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.5.1. Ejemplo: Retornos a la educación, diferencias entre hom-
bres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109
3.7. Omisión de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110
3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110
3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111
3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.8. Inclusión de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114
3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114
3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114
3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3
3.9. Perturbaciones no Esféricas . . . . . . . . . . . . . . . . . . . . . 117
3.9.1. Consecuencias de estimación por MCO . . . . . . . . . . . 118
3.9.2. Estimación E�ciente: Mínimos Cuadrados Generalizados . 118
3.9.3. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 119
3.9.4. Estimación cuando Ω es desconocida:
Mínimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120
3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121
3.9.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . 130
4. Problemas con los datos 149
4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada 151
4.1.2. Detección de Multicolinealidad . . . . . . . . . . . . . . . 151
4.1.3. Otros métodos de detección de multicolinealidad . . . . . . 153
4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155
4.2. Error de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.2.1. Estimación por Variables Instrumentales . . . . . . . . . . 159
4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160
4
Capítulo 1
Introducción
Econometría es la ciencia que aplica métodos matemáticos y estadísticos al análi-
sis de datos económicos, con el objetivo de dotar de una base empírica a una
teoría económica, para así refutarla o veri�carla.
Aunque la econometría parece ser tan antigua como la misma ciencia económica,
sólo en 1930 se crea la Sociedad Econométrica, la cual sistematizó su estudio y
práctica. En 1933 se lanza el primer número de Econometrica en el que Ragnan
Frish (uno de los fundadores de la Sociedad Econométrica, a quién de hecho, se
le acredita el haber acuñado el término .Econometría") destaca: "La experiencia
ha mostrado que cada uno de estos tres puntos de vista, el de la estadística, la
teoría económica y las matemáticas, es necesario, pero por si mismo no su�ciente
para una comprensión real de las relaciones cuantitativas de la vida económica
modera. Es la unión de los tres aspectos lo que constituye una herramienta de
análisis potente. Es la unión lo que constituye la econometría".
Sin embargo, las metodologías aplicadas en econometría (los tres puntos de vista
de Frish), no han sido utilizados exclusivamente por la ciencia económica. Otras
ciencias naturales también han aprovechado sus ventajas. Sin embargo, en el
campo del comportamiento económico adquieren especial particularidad y rele-
vancia, en tanto el ambiente y el comportamiento económicos, son esencialmente
no-experimentales, colocándonos en situaciones donde todas las variables rele-
vantes parecen moverse constantemente y donde existen factores impredecibles
que pueden alterar los resultados. Es por esto que la econometría es esencial-
mente una ciencia no determinística, donde se reconoce la existencia de factores
esencialmente impredecibles que determinan nuestras conclusiones.
5
Capitulo 1: Introducción
Econometría I
FEN, Universidad de Chile
La metodología econométrica se puede detallar (a grandes rasgos) según lo enun-
cia laFigura 1. En primer lugar contamos con una teoría económica que busca
validez. Para ella, es necesario encontrar su equivalente modelo econométrico
(relaciones matemáticas que describan el comportamiento de los agentes involu-
crados). Para estimar entonces dicho modelo, se necesita de la ecuación resultante
del modelo, los datos que ella implica y los supuestos bajo los cuales se construye.
Sólo una vez que contamos con dichos ingredientes se procede a estimar cuan-
titativamente las predicciones o implicancias expuestas por la teoría económica
inicial. Luego, se debe realizar inferencia o pruebas de hipótesis, las cuales nos in-
dicarán si nuestros resultados son estadísticamente signi�cativos. Si la respuesta
es si, entonces sólo queda realizar las predicciones pertinentes y las recomenda-
ciones de política asociadas. Si la respuestas es no, entonces, debemos revisar los
posibles errores que existan a nivel de teoría o metodología.
TEORIA ECONOMICA
MODELO ECONOMETRICO
ECUACION DATOS SUPUESTOS
ESTIMACION
INFERENCIA Y PRUEBA DE HIPOTESIS
PREDICCIONES Y 
RECOMENDACIONES DE POLITICA
SI NO
TEORIA VERIFICADA
6
Capitulo 1: Introducción
Econometría I
FEN, Universidad de Chile
Esta breve descripción no es más que una somera vista a lo que realmente implica
hacer econometría. El camino no está exento de di�cultades (en términos de la
calidad de los datos, de la di�cultad de medir las variables que la teoría indica,
de los supuestos que realizamos, etc), sin embargo, esto, más que una di�cultad,
implica un desafío.
7
Capítulo 2
Modelo de Regresión Lineal
2.1. Análisis de Regresión
2.1.1. ¾Qué es una regresión?
La regresión es un elemento fundamental en la Econometría, corresponde a un
estudio de dependencia entre una variable dependiente y una o más variables
explicativas. El análisis de regresión tiene como objeto estimar y/o predecir el
promedio poblacional de la variable dependiente para valores �jos de la(s) vari-
able(s) explicativa(s).
Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestra
variable explicativa (X): notas controles, y en el eje de las ordenadas tenemos
nuestra variable dependiente (Y): nota examen.
Notas de los controles
Figura 1: Distribución de las Notas del Examen vs. Promedio Notas de
Controles
8
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Podemos observar dos cosas: primero, para cada nota posible en los controles
(3.0, 4.0,..) tenemos un rango o distribución de notas en el examen y segundo,
el promedio de notas en el examen es mayor mientras mayores son notas de los
controles. Esto último se puede apreciar al trazar una recta que una los valores
promedios de notas en examen para cada nota en los controles (linea negra del la
Figura 1), la que corresponde a la recta de regresión. Esta nos permite, para
cada nivel de edad, predecir la estatura promedio correspondiente.
2.1.2. Relaciones estadísticas versus relaciones determinís-
ticas
La calidad de un producto, por ejemplo el vino, dependerá de como fue su cosecha
y por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, la
cantidad de lluvia, sol y los fertilizantes. La relación entre estas variables explica-
tivas y la calidad del vino tiene una naturaleza estadística, ya que si bien estas
variables ayudan al productor de vino a saber más o menos como será la cosecha,
no podrá predecir en forma exacta la calidad del producto debido a los errores
involucrados en estas variables y porque pueden haber otros factores difíciles de
medir que estén afectando la calidad del vino.
La variable dependiente, en este caso la calidad del vino, tiene una variabilidad
aleatoria, ya que no puede ser explicada en su totalidad por las variables explica-
tivas.
En la econometría nos interesa la dependencia estadística entre variables, donde
tratamos con variables aleatorias, es decir, variables que tienen una distribución
de probabilidad. La dependencia determinística, por el contrario, trata relaciones
como la ley de gravedad de Newton1, las que son exactas (no tienen naturaleza
aleatoria).
1La ley de gravedad de Newton plantea que toda partícula en el universo atrae a cualquier
otra partícula con una fuerza directamente proporcional al producto de sus masas e inversamente
proporcional al cuadrado de la distancia entre ellas: F=k(m1m2r2 ), donde F=fuerza, m1 y m2
son la masa de las dos partículas, r es la distancia y k una constante de proporcionalidad. Esta
es una relación determinística, ya que para valores de masas, distancia y constante sabemos
exactamente a la fuerza que se atraen estas partículas. Si alguna de las variables estuviera
medida con error, la ley de Newton pasa a ser una relación estadística, y F se convierte en una
variable aleatoria.
9
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.1.3. Regresión versus Causalidad
Es importante tener claro que la regresión es una relación estadística, que no
implica causalidad apriori. En el ejemplo del vino, no hay una razón estadística
para suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentido
común nos hace considerar como variable dependiente la calidad del vino y no la
lluvia. Es importante recordar de aquí en adelante que una relación estadística
no puede por sí misma implicar en forma lógica una causalidad.
2.1.4. Regresión versus Correlación
El Análisis de Correlación está estrechamente relacionado con el de regresión
aunque conceptualmente son dos cosas muy diferentes. El análisis de correlación
tiene como objetivo medir el grado de asociación lineal entre dos variables, medida
a través del coe�ciente de correlación. Por ejemplo, se puede estar interesado
en medir el grado de correlación entre años de educación y salario. En cambio, el
análisis de regresión trata de estimar o predecir el valor promedio de salario para
un nivel dado de educación.
Las diferencias fundamentales son que, en el análisis de regresión, tenemos una
variable dependiente y una o más explicativas, la que son tratadas en forma
asimétrica: la variable dependiente es aleatoria, tiene una distribución de proba-
bilidad, en cambio las variables explicativas toman valores �jos. En el análisis de
correlación las variables son tratadas de forma simétrica: la correlación entre edu-
cación y salario es igual a la correlación entre salario y educación. Además ambas
variables son aleatorias. Así, si x e y son dos variables aleatorias, el coe�ciente de
correlación se de�ne de la siguiente manera:
ρyx =
E {[x− E(x)] [y − E(y)]}√
var(x)var(y)
=
σxy√
σ2xσ
2
y
Lo que se calcula para una muestra de la siguiente forma:
ρ̂yx =
∑n
i=1
[
xi −X
] [
yi − Y
]
√∑n
i=1
[
xi −X
]2√∑n
i=1
[
yi − Y
]2
con X = 1
n
∑n
i=1 xi e Y = 1n
∑n
i=1 yi.
De ahora en adelante denotaremos con un ˆ a los estimadores de un estadísti-
co obtenidos a partir de información muestral.
10
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ejemplo 1: Portales de Internet, correlación entre número de visitas y valor de
la empresa:
Ejemplo 2: Correlación entre Empleo y Producto (serie de tiempo):
11
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ejemplo 3: Correlación entre Producto per-capita y ranking fútbol:
Ejemplo 4: Correlación entre temperatura media del día y estudiantes ausentes
a clases:
12
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Algunas precauciones con el coe�ciente de correlación:
Cuidado cuando el grado de correlación muestral depende de solo unas
pocas observaciones.
El coe�ciente de correlación mide una relación lineal. Por lo tanto, una
variable puede depender de otra aún cuando la correlación sea cero si la
relación es no lineal.
Correlación no implica causalidad económica, es sólo una relación estadís-
tica.
Correlación puede indicar relación espuria.
No olvidar que la correlación muestral es una variable aleatoriay que por
lo tanto, el coe�ciente por si sólo no garantiza la existencia de una relación
estadística entre las series.
13
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.2. Análisis de regresión con dos variables
Para esta sección asumiremos que existe una variable dependiente (Y) que es
explicada por sólo una variable (X).
Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salarios
y nivel de educación para una población de 60 individuos 2
Tabla 1: Salarios y Años de Educación
Años de Educación (X)
Salario (Y) 8 9 10 11 12 13 14 15 16 17
16000 18260 15000 15000 20000 20000 21912 35000 40000 60000
32868 36520 40000 40000 50000 54780 60000 73040 90000 120000
50000 54780 58000 60000 73040 80000 89000 100000 105000 165784
80000 82170 90000 90000 100000 100500 120000 140000 180000 250000
100000 109560 120000 120000 140000 160000 200000 230000 280000 365200
150000 170000 182600 188973 219120 257880 300000 400000 434686 600000
219120 273900 280000 328680 365200 400000 500000 600000 730400 1095600
300000 365200 380000 434120 500000 550000 650000 883085 1000000 1643400
547800 730400 913000 821700 1064558 1460800 1500000 1826000 2487041 4000000
E(Y|X) 166199 204532 230956 233164 281324 342662 382324 476347 594125 922220
La población tiene 10 niveles distintos de educación, que van desde 8 a 17. Para
cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la
variabilidad en los salarios para cada nivel educacional considerado, en promedio
el salario se incrementa a medida que los años de educación aumentan. Esto
último se puede veri�car al calcular el promedio para cada nivel de educación, lo
que se presenta en la última linea de la Tabla 1, estos corresponden a los valores
esperados condicionales, ya que dependen de los valores dados de la variable X.
En la Figura 2, los valores medios condicionales están marcados con una cruz. La
unión de estos valores representa la Recta de regresión poblacional, donde
el término poblacional se re�ere a que estamos trabajando con el total de la
población.
0
1
0
0
0
0
0
0
2
0
0
0
0
0
0
3
0
0
0
0
0
0
4
0
0
0
0
0
0
s
a
la
ri
o
8 10 12 14 16 18
x
x
x x
x x
x
x x
x
Figura 2: Distribución de los salarios para distintos niveles de educación.
Recta de regesión
poblacional (RRP)
Escolaridad
2Una población de 60 individuos puede parecer un poco pequeña, pero por el momento
consideremos que estas familias son el total existente
14
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
De�nición: La curva de regresión poblacional es simplemente el lugar geométri-
co de las medias condicionales de la variable dependiente para los valores �jos de
la(s) variable(s) explicativa(s).
En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma
simétrica en torno al valor promedio para cada valor X, desde ahora asumiremos
que esto si se cumple, tal como lo podemos apreciar en la Figura 3.
Figura 3: Ingreso semanal y Gasto semanal. Distribución simétrica
En este ejemplo, se ve la relación entre ingreso semanal y gasto en consumo
semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye
en forma simétrica entorno al valor promedio condicional de gasto.
15
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.2.1. Función de regresión poblacional (FRP)
De lo anterior es claro que la media condicional E(Y|Xi) es función de Xi, donde
Xi es un valor dado de X:
E(Y |Xi) = f(Xi) (2.1)
donde f(·) es una función cualquiera, en el ejemplo anterior era una función lineal.
La ecuación (2.1) se denomina Regresión Poblacional.
Que forma tiene f(·) es una pregunta empírica, aunque muchas veces la teoría nos
puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario
esta relacionado linealmente con la educación, así podemos suponer que la función
de regresión poblacional E(Y|Xi) es una función lineal de Xi, es decir:
E(Y |Xi) = β1 + β2Xi (2.2)
donde β1 y β2 se denominan coe�cientes de regresión. Así el objetivo es estimar
β1 y β2 a partir de datos de X e Y.
2.2.2. Especi�cación estocástica de la función de regresión
poblacional
En los dos ejemplos anteriores veíamos que a medida que se incrementa la vari-
able explicativa (educación o ingreso), el valor promedio de la variable dependi-
ente (salario o gasto) también se incrementaba. Sin embargo, este patrón se da
solo a nivel de promedios. A nivel individual esto no es necesariamente cierto.
En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 años
de educación, gana menos que el individuo con 8 años de educación con mayor
salario.
Existe una dispersion de los valores individuales de Yi en torno al promedio
condicional de esta variable. De esta forma, podemos de�nir:
ui = Yi − E(Y |Xi)
o
Yi = E(Y |Xi) + ui (2.3)
donde ui es una variable aleatoria no observable que toma valores positivos o neg-
ativos. Este término surge pues no se puede esperar que todas las observaciones
16
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Yi sean igual al promedio condicional a Xi.
Recordemos que la regresión es una relación estadística, a pesar de conocer los
valores de Xi, esto no nos permite predecir en forma exacta Yi. Lo que no pode-
mos explicar debido a que tiene naturaleza aleatoria se representa a través de ui,
denominado término de error estocástico.
Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de una
familia individual (Yi) corresponde a la suma de dos componentes:
E(Y|Xi), que corresponde a la media de gasto de todas las familias con el
mismo nivel de ingresos → Componente Determinístico
ui → Componente Aleatorio
Si E(Y|Xi) es lineal en Xi, podemos escribir la ecuación (2.3) de la siguiente
forma:
Yi = E(Y |Xi) + ui
= β1 + β2Xi + ui (2.4)
Tomando el valor esperado condicional en Xi a la ecuación (2.4):
E(Yi|Xi) = E[E(Y |Xi)|Xi] + E(ui|Xi)
= E(Y |Xi) + E(ui|Xi) (2.5)
Debido a que E(Yi|Xi) = E(Y |Xi), implica que:
E(ui|Xi) = 0 (2.6)
Así, el supuesto de que la recta de regresión pasa a través de las medias condi-
cionales de Y, implica que la media condicional de ui es cero.
17
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.2.3. Función de regresión muestral
En la mayoría de los fenómenos económicos a estudiar, no disponemos de las
observaciones totales de la población, como hemos supuesto hasta ahora. En la
práctica se tiene alcance nada más que a una muestra de los valores de Y que
corresponden a unos valores �jos de X. En este caso tenemos que estimar la fun-
ción de regresión poblacional en base a información muestral.
Los datos poblacionales asociados a la Figura 3 son los siguientes:
Tabla 2. Ingreso familiar (X) y Gasto en consumo (Y).
Y|X 80 100 120 140 160 180 200 220 240 260
Gasto en 55 65 79 80 102 110 120 135 137 150
consumo 60 70 84 93 107 115 136 137 145 152
familiar 65 74 90 95 110 120 140 140 155 175
semanal 70 80 94 103 116 130 144 152 165 178
(Y) 75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Media Condicional 65 77 89 101 113 125 137 149 161 173
Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso
a las observaciones correspondientes a la población total. Tenemos a nuestra dis-
posición sólo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria
de la población.
Es importante notar que a partir de una población podemos sacar una gran can-
tidad de muestras en forma aleatoria y en la realidad nosotros observamos solo
una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP
pero no de manera precisa. Para ejempli�car esto supongamos que además de la
muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la información
poblacional.
Tabla 3. Muestra aleatoria
de la población en tabla 2.
Y X
70 80
65 100
90 120
95 140
110 160
115 180120 200
140 220
155 240
150 260
Tabla 4. Muestra aleatoria
de la población en tabla 2.
Y X
55 80
88 100
90 120
80 140
118 160
120 180
145 200
135 220
145 240
175 260
18
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Al gra�car los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en
la Figura 4. En este diagrama se han trazado dos rectas de regresión mues-
tral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda.
Como vemos, no es posible asegurar cual de las dos rectas muestrales representa
mejor la recta de regresión poblacional.
Entonces es importante tener en mente que las rectas de regresión muestral rep-
resentan la recta de regresión poblacional, pero debido a �uctuaciones muestrales
pueden ser consideradas sólo como una aproximación.
Como contraparte muestral la función de regresión muestral puede escribirse
como:
Ŷi = β̂1 + β̂2Xi (2.7)
donde Ŷi es el estimador de E(Y|Xi), β̂1 es el estimador de β1 y β̂2 es el estimador
de β2.
Figura 4: Rectas de Regresión basadas en dos muestras distintas
De�nición: Un estimador es una regla, fórmula o método que dice cómo deter-
minar el parámetro poblacional a partir de la información suministrada por la
muestra disponible.
De igual manera que para el caso poblacional la función de regresión muestral
19
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
también tiene una representación estocástica:
Yi = β̂1 + β̂2Xi + ûi (2.8)
Entonces, el objetivo del Análisis de Regresión es estimar la Función de regresión
poblacional:
Yi = β1 + β2Xi + ui (2.9)
con base en la Función de regresión muestral:
Yi = β̂1 + β̂2Xi + ûi (2.10)
Esta aproximación se puede ver en la Figura 5:
Figura 5: Rectas de Regresión muestral y poblacional
En términos de la función de regresión muestral, la Yi observada puede ser ex-
presada como:
Yi = Ŷi + ûi (2.11)
y en términos de la función de regresión poblacional puede ser expresada como:
Yi = E(Y |Xi) + ui (2.12)
20
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
En la �gura 5 podemos notar que para todo Xi a la derecha del punto A, Ŷi
sobreestima E(Y |Xi). De igual manera, para cualquier punto a la izquierda de A,
Ŷi subestima E(Y |Xi). Esta sobreestimación y subestimación del modelo pobla-
cional es inevitable debido a las �uctuaciones muestrales.
¾Cómo se puede construir la función de regresión muestral para β̂1
y β̂2 que este lo más cerca de los valores verdaderos (poblacionales) de
β1 y β2?
2.2.4. Propiedades de un Estimador
Un estimador, siendo función de la muestra, es una variable aleatoria y tiene su
propia distribución de probabilidad.
Las propiedades de los estimadores son las siguientes:
1. Se denomina sesgo a la diferencia entre el valor esperado del estimador y
su verdadero valor: E(β̂)− β. De esta forma, se dice que β̂ es un estimador
insesgado si E(β̂) = β.
2. El estimador es e�ciente o de mínima varianza si no hay ningún otro esti-
mador insesgado que tenga una varianza menor que β̂. En general se trata de
utilizar estimadores de varianza pequeña, pues de este modo la estimación
es más precisa.
3. El Error Cuadrático Medio (ECM) es una propiedad de los estimadores que
mezcla los conceptos de e�ciencia e insesgamiento. El ECM de β̂ se de�ne
como:
ECM(β̂) = E[(β̂ − β)2]
Lo que se puede expresar equivalentemente de la siguiente manera:
ECM(β̂) = V ar(β̂) + [Sesgo(β̂)]2
4. La última propiedad de un estimador es la consistencia. El estimador β̂
es consistente si converge (en el limite) al verdadero valor del parámetro.
Se dice que la sucesión de variables aleatorias X1, X2,...,Xn converge en
probabilidad a la variable aleatoria (o constante) X si:
∀ε > 0, ĺım
n→∞
Pr[|Xn −X| < ε] = 1
Esto se denota plim Xn = X. Dos reglas útiles al respecto son:
21
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
plim
(
X
Y
)
=plimX
plimY
plim (X · Y )=plimX · plimY
Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un com-
ponente �jo o determinístico (c) y un componente aleatorio(ui):
yi = c︸︷︷︸
componente fijo
+ ui︸︷︷︸
componente aleatorio
Si ui ∼ N(0, σ2u), entonces:
µ = E(yi) = c
V (yi) = E[(yi − E(yi))2] = E[u2i ] = σ2u
22
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ahora consideremos el siguiente estimador de la esperanza de yi, la media mues-
tral:
µ̂ = Y =
1
n
(y1 + y2 + ... + yn) =
1
n
n∑
i=1
yi
Veamos que propiedades tiene este estimador:
Insesgamiento: E(µ̂) = µ
E(µ̂) = E
(
Y
)
= E
(
1
n
(y1 + y2 + ... + yn)
)
=
1
n
(E(y1) + E(y2) + ... + E(yn))
dado que E(yi) = E(c) + E(ui)︸ ︷︷ ︸
0
= c,
E(µ̂) = c = µ
E�ciencia: V ar(µ̂)<V ar(µ̂1)
Comparemos el estimador promedio muestral con un estimador que es sim-
plemente cualquier valor de yi:
µ̂ = Y E(Y ) = c V ar(Y )=σ2u
n
µ̂1 = yi E(yi) = c V ar(yi) = σ
2
u
Entonces para n>1 siempre se cumple que µ̂ es más e�ciente (menor vari-
anza) que µ̂1.
Error Cuadrático Medio: Como µ̂ es un estimador insesgado de µ al
igual que µ̂1, el error cuadrático medio de ambos estimadores es igual a la
varianza del estimador, de esta forma µ̂ tiene menor error cuadrático medio
que µ̂1.
Consistencia: µ̂ es un estimador consistente dado que:
plim(µ̂) = plim(Y ) = c
Ya que si ĺımn→∞ V ar(Y ) = 0 ⇒ plim(Y ) = c.
23
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.3. Modelo de regresión con dos variables
2.3.1. Método de Mínimos Cuadrados Ordinarios
De la sección anterior teníamos que el error estimado era:
ûi = Yi − Ŷi
= Yi − β̂1 − β̂2Xi (2.13)
es decir, los residuos son simplemente la diferencia entre los valores verdaderos y
estimados de Y.
Si queremos que la función de regresión muestral sea lo más cercana posible
a la poblacional, debemos tratar de escoger los coe�cientes de regresión (los β's)
de forma tal que los errores sean lo más pequeños posible. De acuerdo a esto
un criterio para escoger la función de regresión muestral podría ser minimizar
la suma de los los errores:
∑
ûi =
∑
(Yi − Ŷi), sin embargo este criterio no es
muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud
de los errores, sin embargo en la suma de los errores todos reciben el mismo peso.
Debido a esto es posible que la suma de los errores sea muy pequeña cercana a
cero, incluso cuando la dispersion de los errores en torno a la función de regresión
muestral es alta.
Figura 6: Mínimos Cuadrados Ordinarios
24
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Este problema puede ser solucionado al considerar la suma de los errores al
cuadrado como criterio a minimizar, en este caso los errores más lejos reciben
un mayor peso:
∑
û2i =
∑
(Yi − Ŷi)2
=
∑
(Yi − β̂1 − β̂2Xi)2 (2.14)
El Método de Mínimos Cuadrados Ordinarios (MCO) escoge β̂1 y β̂2 de
forma tal que para una muestra dada,
∑
û2i sea lo más pequeño posible.
Entonces el problema que este método propone resolver es el siguiente:
mı́n
β̂1,β̂2
∑
(Yi − β̂1 − β̂2Xi)2 (2.15)
las condiciones de primer orden de este problema son:
∂
∑
û2i
∂β̂1
= −2
∑
(Yi − β̂1 − β̂2Xi) = −2
∑
ûi = 0 (2.16)
∂
∑
û2i
∂β̂2
= −2
∑
(Yi − β̂1 − β̂2Xi)Xi = −2
∑
ûiXi = 0 (2.17)
Simpli�cando (2.16) y (2.17) obtenemos las ecuaciones normales:
∑
Yi = nβ̂1 + β̂2
∑
Xi (2.18)∑
YiXi = β̂1
∑
Xi + β̂2
∑
X2i (2.19)
Debemos resolver un sistema con dos ecuaciones y dos incógnitas. De la ecuación
(2.18) podemos despejar β̂1:
β̂1 =
∑
Yi − β̂2
∑
Xi
n
(2.20)
reemplazando (2.20) en (2.19):
∑
YiXi =
(∑
Yi − β̂2
∑
Xi
n
)
·
∑
Xi + β̂2
∑
X2i (2.21)
De esta forma, el estimador de β2 es:
β̂2 =
n ·∑ YiXi −
∑
Xi
∑
Yi
n ·∑X2i − (
∑
Xi)2
(2.22)
25
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
El que puede ser escrito de la siguiente forma (hacerlo):
β̂2 =
∑
xiyi∑
x2i
(2.23)
donde xi = Xi −X e yi = Yi − Y , con X = 1n
∑n
i=1Xi e Y = 1n
∑n
i=1 Yi
Reemplazando (2.22) en (2.20):
β̂1 =
∑
X2i
∑
Yi −
∑
Xi
∑
XiYi
n ·∑X2i − (
∑
Xi)2
(2.24)
= Y − β̂2X (2.25)
Los resultados (2.23) y (2.25) podrían haber sido obtenidos de igual forma, expre-
sando inicialmente el modelo de regresión en desviaciones con respecto a la media.
El modelo de regresión original es:
Yi = β̂1 + β̂2Xi + ûi
si le restamos el promedio de esta:
Y = β̂1 + β̂2X + ûi (2.26)
y recordando que el valor esperado del término de error es 0, tenemos el siguiente
modelo de regresión lineal expresado en desviaciones con respecto a la media:
(Yi − Y ) = β̂2(Xi −X) + ûi
yi = β̂2xi + ûi
Así el problema de Mínimos Cuadrados Ordinarios es:
mı́n
β̂2
∑
(yi − β̂2xi)2
La condición de primer orden de este problema es:
∂
∑
û2i
∂β̂2
= −2
∑
(yi − β̂2xi)xi = 0
Así obtenemos el mismo estimador de β2, encontrado en (2.23), y β1 se obtiene
simplemente despejando la ecuación (2.26):
β̂1 = Y − β̂2X
26
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
que corresponde a lo mismo en la ecuación (2.25).
Una vez estimados los coe�cientes de regresión mediante MCO y utilizando la
información muestral, la recta de regresión muestral (Ŷi = β̂1 + β̂2Xi) puede ser
obtenida fácilmente.
Ejemplo 1: Disponemos datos de una empresa química sobre el gasto que el-
la realiza en Investigación y Desarrollo (I+D) y las ganancias anuales de esta
compañía:
Año Gasto en I+D Ganancia Anual
(Millones de dólares) (Millones de dólares)
1990 2 20
1991 3 25
1992 5 34
1993 4 30
1994 11 40
1995 5 31
Ahora debemos debemos determinar de que forma como cambia el promedio
condicional de la variable dependiente (Ganancias) cuando cambia el valor �jo de
la variable explicativa (Gasto en I+D).
La forma muestral de la recta de regresión: ̂E(Yi|Xi) = β̂1 + β̂2Xi requiere deter-
minar el valor estimado de estos parámetros, para lo cual utilizaremos el método
27
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
de mínimos cuadrados ordinarios:
β̂2 =
n ·∑ YiXi −
∑
Xi
∑
Yi
n ·∑ X2i − (
∑
Xi)2
β̂2 =
∑
YiXi − nXY∑
X2i − n(X)2
Utilicemos los datos para obtener los cálculos necesarios para computar el esti-
mador de β2:
Año Gasto en I+D (X) Ganancia Anual (Y )
(n=6) (Millones de dólares) (Millones de dólares) XY X2
1990 2 20 40 4
1991 3 25 75 9
1992 5 34 170 25
1993 4 30 120 16
1994 11 40 440 121
1995 5 31 155 25
Suma
∑
X=30
∑
Y =180
∑
XY =1000
∑
X2=200
X =
∑
X
n
X = 30
6
X = 5 ← Media de los valores de la variable dependiente
Y =
∑
Y
n
Y = 180
6
Y = 30 ← Media de los valores de la variable independiente
De esta forma,
β̂2 =
1000− 6 · 5 · 30
200− 6 · (5)2
=
1000− 900
200− 150
=
100
50
β̂2 = 2
β̂1 = Y − β̂2X
= 30− 2 · 5
= 30− 10
β̂1 = 20
De esta forma, la recta de regresión muestral estimada es:
Ŷ = 20 + 2 ·X
28
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Con esta ecuación en mano, el gerente de I+D de esta compañía puede predecir
el promedio en ganancias futuras anuales a partir de la cantidad presupuestada
de gasto en Investigación y Desarrollo. Por ejemplo, si la compañía presupuesta
gastar 8 millones de dólares en I+D el próximo año, entonces debe ganar aprox-
imadamente 36 millones de dólares durante este año.
Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales
queremos ver el impacto promedio del número de visitas en el valor de la empresa:
vempresa visitas y-ybar x-xbar (y-ybar)*(x-xbar) (x-xbar)^2 ygorro ugorro
AOL 134844 50 108787.6 30.6 3331621.0 937.9 98976.5 35867.5
Yahoo 55526 38 29469.6 18.6 548871.8 346.9 70403.7 -14877.7
Lycos 5533 28 -20523.4 8.6 -177014.1 74.4 46593.1 -41060.1
Cnet 4067 8 -21989.4 -11.4 250129.1 129.4 -1028.3 5095.3
Juno Web 611 8 -25445.4 -11.4 289441.1 129.4 -1028.3 1639.3
NBC Internet 4450 16 -21606.4 -3.4 72921.5 11.4 18020.3 -13570.3
Earthlink 2195 5 -23861.4 -14.4 343007.3 206.6 -8171.5 10366.5
El sitio 1225 2 -24831.4 -17.4 431445.1 301.9 -15314.7 16539.7
Promedio 26056.4 19.4 26056.4 0
Suma 5090422.9 2137.9
β1 2381.1
β2 -20076.8
29
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Utilizando estos datos tenemos:
n∑
i=1
(Xi −X)2 = 2137,9
n∑
i=1
(Yi − Y )(Xi −X) = 5090422,9
β̂2 =
5090422,9
2137,9
= 2381,1
β̂1 = 26056,4− 2381,1 ∗ 19,4 = −20076,8
30
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.3.2. Supuestos detrás del método MCO
En el análisis de regresión nuestro objetivo no es sólo obtener los valores de β̂1 y
β̂2 sino también hacer inferencia sobre los verdaderos β1 y β2. Nos interesa saber
que tan cerca están β̂1 y β̂2 de sus contraparte poblacional o que tan cerca esta Ŷi
de la verdadera E(Y|Xi). La Función de regresión poblacional: Yi = β1+β2Xi+ui,
nos muestra que Yi depende de Xi y ui. Así, los supuestos hechos para estas dos
variables son fundamentales para lograr una interpretación válida de los valores
estimados de la regresión. Mientras no se especi�que la forma como se generan
Xi y ui, no hay forma de hacer inferencia estadística sobre Yi ni sobre β1 y β2.
Supuesto 1: Modelo de regresión lineal, el modelo de regresión es lineal en
parámetros:
Yi = β1 + β2Xi + ui
Supuesto 2: Los valores de X son �jos, X se supone no estocástica. Esto im-
plica que el análisis de regresión es un análisis de regresión condicional,
condicionado a los valores dados del regresor X.
Supuesto 3: El valor medio del error ui es igual a cero. Dado el valor de
X, el valor esperado del término de error ui es cero:
E(ui|Xi) = 0
Lo que nos dice este supuesto es que los factores que no están considerados
en el modelo y que están representados a través de ui, no afectan sistemáti-
camente el valor de la media de Y. Es decir, los valores positivos de ui se
cancelan con los valores negativos de ui. De esta forma, el efecto promedio
de ui sobre Y es cero. Ver Figura 7.
31
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Figura 7: Distribución condicional del término de error ui
Supuesto 4: Homocedasticidad o igual varianza de ui. Dado el valor de
X, la varianza de ui es la misma para todas las observaciones:
var(ui|Xi) = E[ui − E(ui)|Xi]2
= E(u2i |Xi) por supuesto 3
= σ2
En la Figura 8 podemos apreciar el signi�cado del supuesto de homocedas-
ticidad, la variación alrededor de la recta de regresión es la misma para
todos los valores de X. Esto implica que la función de densidad del término
de error ui es la misma.
Figura 8: Homocedasticidad
32
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Por el contrario, el la Figura 9 observamos el caso cuando la varianza del
término de error varia para cada Xi, en este caso particular la varianza del
error aumenta en la medida que Xi crece.
Figura 9: Heterocedasticidad
Esto se conoce como Heterocedasticidad o varianza desigual, lo que se
expresa de la siguiente manera:
var(ui|Xi) = σ2i (2.27)
Supuesto 5: No existe autocorrelación entre los errores. Dado dos valores
de X, Xi y Xj, con i 6= j, la correlación entre ui y uj es cero:
cov(ui, uj|Xi, Xj) = E{[ui − E(ui)]|Xi}{[uj − E(uj)]|Xj}
= E(ui|Xi)(uj|Xj)
= 0
Si en la Función de regresión poblacional Yi = β1 + β2Xi + ui, ui esta
correlacionado con uj, entonces Yi no depende solamente de Xi sino también
de uj. Al imponer le supuesto 5 estamos diciendo que solo se considerará
el efecto sistemático de Xi sobre Yi sin preocuparse de otros factores que
pueden estar afectando a Y, como la correlación entre los u's.
Supuesto 6: La covarianza entre ui y Xi es cero E(uiXi) = 0:
cov(ui, Xi) = E[ui − E(ui)][Xi − E(Xi)]
= E[ui(Xi − E(Xi)] por supuesto E(ui) = 0
= E(uiXi)− E(ui)E(Xi) por supuesto E(Xi) no estocastica
= E(uiXi) por supuesto E(ui) = 0
= 0
33
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Como mencionamos en la sección 2.2.2 se supone que X y u tienen una in-
�uencia separada sobre Y (determinísticay estocástica, respectivamente),
ahora si X y u están correlacionadas, no es posible determinar los efectos
individuales sobre Y.
Este supuesto se cumple automáticamente si X es no estocástica y el supuesto
3 se cumple.
Supuesto 7: El número de observaciones n debe ser mayor que el número
de parámetros por estimar. El número de observaciones tiene que ser
mayor que el número de variables explicativas, de otra forma no se puede
resolver el sistema de ecuaciones. Supongamos que tenemos una sola obser-
vación para nuestra variable dependiente y nuestra variable explicativa (Y1
y X1), el modelo de regresión es tal que tiene intercepto, es decir:
Y1 = β1 + β2X1 + u1
el estimador MCO de β2 es :
β2 =
∑
xiyi∑
x2i
donde xi = Xi−X e yi = Yi−Y , sin embargo con una observación X1 = X
e Y1 = Y , así β2 no esta determinado y así tampoco podemos determinar
β1.
Supuesto 8: Variabilidad en los valores de X. No todos los valores de X en
una muestra deben ser iguales, var(X) debe ser un número �nito positivo.
Si las X son las mismas ⇒ Xi = X, de esta forma ni β2 ni β1 pueden ser
estimados.
Supuesto 9: El modelo de regresión esta correctamente especi�cado.
Esto es muy importante, ya que por ejemplo la omisión de variables impor-
tantes en el modelo, o la elección de la forma funcional inadecuada, o la
consideración de supuestos estocásticos equivocados sobre las variables del
modelo, harán cuestionable la validez de la interpretación de la regresión
estimada. (Aspectos que veremos más adelante).
34
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.3.3. Errores estándar de los Estimadores Mínimos Cuadra-
dos Ordinarios
Como vimos en la sección 2.3.1, los valores estimados para β1 y β2 dependen de
los datos muestrales, sin embargo, los datos cambian de una muestra a otra y así
los valores estimados también, por eso es necesario tener una medida que nos per-
mita decir que tan cercano son los valores estimados a los valores poblacionales
de los parámetros.
La medida que utilizaremos para medir la precisión del estimador es el error es-
tándar, que es la desviación estándar de la distribución muestral del estimador,
la que a su vez es la distribución del conjunto de valores del estimador obtenidos
de todas las muestras posibles de igual tamaño de una población dada.
Recordemos el estimador MCO de β2:
β̂2 =
∑
xiyi∑
x2i
donde yi = β2xi+ui (modelo poblacional en desviaciones con respecto a la media).
De esta forma reemplazando yi en el estimador de β2:
β̂2 =
∑
xi(β2xi + ui)∑
x2i
= β2
∑
x2i∑
x2i
+
∑
uixi∑
x2i
= β2 +
∑
uixi∑
x2i
Aplicando valor esperado a la expresión anterior:
E(β̂2) = β2 + E
(∑
uixi∑
x2i
)
= β2 +
(∑
E(ui)xi∑
x2i
)
por supuesto 2
= β2 por supuesto 3 (2.28)
La ecuación (2.28) nos dice que en valor esperado el estimador MCO de β̂2 es
igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como
insesgamiento.
35
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ahora procedamos a calcular la varianza de el estimador MCO de β2:
var(β̂2) = E[β̂2 − E(β̂2)]2
= E(β̂2 − β2)2
= E
(
[
∑
xiui]
2
[
∑
x2i ]
2
)
Por supuesto 4 E(u2i ) = σ2 y por supuesto 6 E(uiuj) = 0, esto implica que:
var(β̂2) =
σ2∑
x2i
(2.29)
2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2
Ahora debemos estimar el parámetro poblacional σ2, como este corresponde al
valor esperado de u2i y ûi es una estimación de ui, por analogía:
σ̂2 =
∑n
i=1 û
2
i
n
pareciera ser un estimador razonable. Pero los errores de MCO, están estimados
imperfectamente si los comparamos con los errores poblacionales, ya que depen-
den de una estimación de β1 y β2. Veamos esto con más detalle:
Partiendo del Regresión poblacional expresado en desviaciones con respecto a
la media:
yi = β2xi + (ui − u) (2.30)
y recordando también que:
ûi = yi − β̂2xi (2.31)
Al sustituir (2.30) en (2.31), se obtiene:
ûi = β2xi + (ui − u)− β̂2xi
Elevando al cuadrado la expresión anterior, aplicando sumatoria y tomando valor
esperado:
E
(∑
û2i
)
= E(β̂2 − β2)2
∑
x2i + E
[∑
(ui − u)2
]
︸ ︷︷ ︸
(i)
−2 E
[
(β̂2 − β2)
∑
xi(ui − u)
]
︸ ︷︷ ︸
(ii)
= var(β̂2)
∑
x2i + (n− 1)var(ui)− 2E
[∑
xiui∑
x2i
∑
xi(ui − u)
]
= σ2 + (n− 1)σ2 − 2σ2
= (n− 2)σ2
36
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
(i) E
[∑
(ui − u)2
]
= E
[∑
(u2i − 2uiu + u2)
]
= E
[∑
u2i − 2u
∑
ui + nu
2
]
= E
[∑
u2i − 2u
n
n
∑
ui + nu
2
]
= E
[∑
u2i − 2nu2 + nu2
]
= E
[∑
u2i − nu2
]
= E
[∑
u2i − n
(∑
ui
n
)2]
= nσ2 − n
n
σ2
= (n− 1)σ2
(ii) E
[
(β̂2 − β2)
∑
xi(ui − u)
]
= E
[
(β̂2 − β2)
∑
xi(ui − u)
]
= E
[∑
xiui∑
x2i
∑
xi(ui − u)
]
= E
[
(
∑
xiui)
2
∑
x2i
− u
∑
xiui
∑
xi∑
x2i
]
= σ2
Por lo tanto se de�ne el estimador de la varianza σ̃2 como:
σ̃2 =
∑
û2i
n− 2 (2.32)
De forma tal que, σ̃2 es un estimador insesgado de σ2:
σ̃2 =
1
n− 2E
(∑
û2i
)
= σ2
37
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.4. Modelo de Regresión con k variables
Ahora abandonemos la simpli�cación de solo usar dos variables, de ahora en ade-
lante generalizaremos el modelo de regresión lineal para que pueda tener hasta k
variables explicativas.
Aclaración: haremos un cambio de notación, cada observación i de la variable
dependiente será denotada por yi y cada observación i de una variable explicati-
va, por ejemplo X1, será denotada por x1i. Ahora las variables en minúscula no
signi�ca que estén en desvíos.
El Modelo de Regresión Poblacional en este caso es:
yi = β1 + β2x2i + β3x3i + ... + βkxki + ui i = 1, ..., n
2.4.1. Representación Matricial del Modelo de Regresión
Lineal
El modelo con k variables explicativas puede ser expresado en notación matricial.
En efecto, cada variable explicativa xj, con j=1,..., k, es un vector columna de
dimensión n, al igual que la variable dependiente y el término de error. De este
modo, el modelo puede ser reescrito de la siguiente forma:


y1
y2
...
yn

 =


1
1
...
1

 β1 +


x21
x22
...
x2n

 β2 +


x31
x32
...
x3n

 β3 + ... +


xk1
xk2
...
xkn

 βk +


u1
u2
...
un


Donde las variables explicativas se pueden agrupar en una sola matriz de dimen-
sión n×k, que denotaremos simplemente como X, de esta manera el modelo se
expresa de la siguiente forma:


y1
y2
...
yn

 =


1 x21 x31 · · · xk1
1 x22 x32 · · · xk2
... ... ... . . . ...
1 x2n x3n · · · xkn

 ·


β1
β2
...
βk

 +


u1
u2
...
un

 ⇒ Y = Xβ + u(2.33)
donde Y es un vector de dimensión n×1, X es la matriz de variables explicativas
de dimensión n×k y u es un vector correspondiente al término de error con di-
mensión n×1.
38
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ahora debemos expresar la distribución del término de error en términos ma-
triciales:
E(u) =


E(u1)
E(u2)
...
E(un)

 = 0n×1
E(uu′) =


E(u21) E(u1u2) · · · E(u1un)
E(u2u1) E(u
2
2) · · · E(u2un)... ... . . . ...
E(unu1) E(unu2) · · · E(u2n)

 =


σ2 0 · · · 0
0 σ2 · · · 0
... ... . . . ...
0 0 · · · σ2

 = σ
2 I
n×n
De los supuestos 3, 4 y 5, tenemos entonces que el término de error tiene la
siguiente distribución:
u ∼
(
0
n×1
, σ2 I
n×n
)
(2.34)
2.4.2. Estimador Mínimo Cuadrados Ordinarios
El método de MCO, plantea que los parámetros del modelo pueden ser estimados
minimizando la suma de los errores al cuadrado (SE(β̂)), la que en términos
matriciales equivale a:
SE(β̂) =
n∑
i=1
û2i = û
′û
donde û = Y −Xβ̂. Entonces el problema de minimizar la suma de los errores al
cuadrado se expresa de la siguiente forma:
mı́n
β̂
SE(β̂) = mı́n
β̂
[
(Y −Xβ̂)′(Y −Xβ̂)
]
= mı́n
β̂
[
Y ′Y − 2β̂′X ′Y + β̂′X ′Xβ̂
]
∂SE(β̂)
∂β̂′
= −2X ′Y + 2X ′Xβ̂ = 0
⇒ β̂ = (X ′X)−1X ′Y (2.35)
39
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
De (2.35) tenemos:X ′(Y −Xβ̂) = 0 ⇒ X ′û = 0 (2.36)
(2.36) es la condición de ortogonalidad.
De esta forma, el vector de parámetros estimados β̂ se obtiene de resolver el
siguiente sistema de ecuaciones normales:
X ′Xβ̂ = X ′Y ⇔


1 1 1 · · · 1
x2,1 x2,2 x2,3 · · · x2,n
x3,1 x3,2 x3,3 · · · x3,n
... ... ... . . . ...
xk,1 xk,2 xk,3 · · · xk,n




1 x2,1 x3,1 · · · xk,1
1 x2,2 x3,2 · · · xk,2
1 x2,3 x3,3 · · · xk,3
... ... ... . . . ...
1 x2,n x3,n · · · xk,n




β̂1
β̂2
β̂3
...
β̂k


=


1 1 1 · · · 1
x2,1 x2,2 x2,3 · · · x2,n
x3,1 x3,2 x3,3 · · · x3,n
... ... ... . . . ...
xk,1 xk,2 xk,3 · · · xk,n




y1
y2
y3
...
yn


⇔


n
∑n
i=1 x2,i
∑n
i=1 x3,i · · ·
∑n
i=1 xk,i∑n
i=1 x2,i
∑n
i=1 x
2
2,i
∑n
i=1 x2,ix3,i · · ·
∑n
i=1 x2,ixk,i∑n
i=1 x3,i
∑n
i=1 x3,ix2,i
∑n
i=1 x
2
3,i · · ·
∑n
i=1 x3,ixk,i... ... ... . . . ...∑n
i=1 xk,i
∑n
i=1 xk,ix2,i
∑n
i=1 xk,ix3,i · · ·
∑n
i=1 x
2
k,i




β̂1
β̂2
β̂3
...
β̂k


=


∑n
i=1 yi∑n
i=1 yix2,i∑n
i=1 yix3,i...∑n
i=1 yixk,i


Es importante recordar que el estimador MCO esta de�nido solo cuando la matriz
(X'X) es invertible, lo que ocurre siempre y cuando:
1. Las k columnas de la matriz X sean linealmente independientes.
2. Se disponga al menos de tantas observaciones como variables explicativas,
es decir: n≥ k.(Supuesto 7)
Pongamos atención en el segundo supuesto, cuando n=k la matriz X tiene dimen-
sión k×k, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de
esta forma (X ′X)−1 = X−1(X ′)−1 y por lo tanto:
β̂ = (X ′X)−1X ′Y = X−1(X ′)−1X ′Y = X−1Y (2.37)
40
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
el vector de residuos û = Y −Xβ̂ = Y −X(X−1Y ) = Y − Y = 0n, de esta forma
el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual
forma toma el mínimo valor posible, cero.
Sin embargo, esta no es una característica deseable, el ajuste perfecto ocurre
porque tenemos una muestra muy reducida. Esto trae como consecuencia poco
robustez e imprecisión en las estimaciones. Si escogemos una nueva muestra, del
mismo tamaño que la anterior, obtendremos otro estimador β̂ con suma residual
0, que puede diferir en forma arbitraria del anterior.
Para lograr estimaciones precisas de los parámetros, es necesario tener un número
de observaciones notablemente superior al de las variables explicativas. La difer-
encia n-k se conoce como el número de grados de libertad de la estimación.
2.5. Propiedades del estimador MCO
Notemos que el vector β̂ es un vector aleatorio, ya que depende del vector de
errores:
β̂ = (X ′X)−1X ′Y = (X ′X)−1X ′(Xβ + u) = β + (X ′X)−1X ′u (2.38)
E(β̂) = E(β) + E[(X ′X)−1X ′u]
= β + (X ′X)−1X ′E(u)
La esperanza de β es el mismo parámetro, ya que este es un constante (valor
poblacional), y por supuestos 2 y 3 el segundo término de la expresión anterior
es cero,
⇒ E(β̂) = β (2.39)
Es decir, el estimador MCO es insesgado, tal como lo habíamos mostrado en la
ecuación (2.28).
De (2.38) podemos de�nir el error de estimación o sesgo como:
β̂ − β = (X ′X)−1X ′u
41
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Ahora calculemos la varianza de β̂:
var(β̂) = E[(β̂ − E(β̂)) · (β̂ − E(β̂))′]
= E[(β̂ − β) · (β̂ − β)′]
= E[(X ′X)−1X ′uu′X(X ′X)−1]
= (X ′X)−1X ′E(uu′)X(X ′X)−1
= (X ′X)−1X ′(σ2In)X(X ′X)−1
= σ2(X ′X)−1 (2.40)
Para poder estimar la varianza de β̂ necesitamos reemplazar σ2 en (2.40) por su
estimador insesgado:
σ̃2 =
u′u
n− k
2.5.1. Propiedad de mejor estimador lineal insesgado
Se dice que β̂, es el mejor estimador lineal insesgado (MELI) de β si se cumple
lo siguiente:
1. El lineal, es decir, es una función lineal de una variable aleatoria, como la
variable y en el modelo de regresión.
2. Es insesgado, es decir, su valor esperado, E(β̂), es igual a el verdadero
valor, β.
3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales
insesgados; un estimador insesgado como varianza mínima es conocido como
un estimador e�ciente.
2.5.2. Teorema de Gauss-Markov
Proposición: El estimador MCO es el estimador lineal insesgado óptimo, en el
sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de co-
varianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI.
Demostración: Sea β̃ = Ãy un estimador lineal de β, donde à es una matriz
42
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
k×n. Denotemos A = Ã− (X ′X)−1X ′, de modo que:
β̃ = [A + (X ′X)−1X ′]Y
= [A + (X ′X)−1X ′](Xβ + u)
= AXβ + β + [A + (X ′X)−1X ′]u
Aplicando esperanza a la expresión anterior:
E(β̃) = AXβ + β + [A + (X ′X)−1X ′]E(u)
= AXβ + β
El estimador β̃ será insesgado solo si la matriz A es tal que AX=0k×k. De esta
forma:
β̃ = β + [A + (X ′X)−1X ′]u
y su matriz de covarianza será:
cov(β̃) = E[(β̃ − β)(β̃ − β)′]
= E{([A + (X ′X)−1X ′]u)([A + (X ′X)−1X ′]u)′}
= σ2AA′ + σ2(X ′X)−1︸ ︷︷ ︸
cov(β̂)
Como la matriz AA′ es semide�nida positiva, se concluye la diferencia entre la
covarianza de β̃ y β̂ es una matriz semide�nida positiva, con lo que la covarianza
de β̃ es mayor o igual a la covarianza de β̂
43
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.6. Geometría del Estimador MCO
Recordemos que el modelo de regresión muestral tiene la siguiente expresión:
Y = Xβ̂ + û
la que puede ser reescrita de la siguiente forma:
Y = PY + MY (2.41)
donde P se denomina matriz de proyección y se de�ne de la siguiente manera:
P = X(X ′X)−1X ′
Además se tiene que M=I-P. De acuerdo a la ecuación (2.36) el estimador MCO es
tal que los errores son ortogonales a las X, es decir se deben escoger los parámet-
ros β de forma tal que el vector de errores sea ortogonal al espacio formados por
las variables explicativas.
Así, el estimador MCO nos permite descomponer Y en dos términos ortogonales
entre si: el primer componente puede ser escrito como una combinación lineal
de las columnas x y el segundo es un componente ortogonal a X (el término de
error), tal como lo muestra (2.41). Esto se representa grá�camente en la Figura
10.
Col X
Y
MY
PY
0
Figura 10: Descomposición Ortogonal de Y
x1
x2
El término PY alternativamente se puede ver como la proyección de Y en el
espacio barrido por las X's y MY como la proyección de Y es el espacio ortogonal
a las X's.
44
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.7. Bondad de Ajuste y Análisis de Varianza
El objetivo de esta sección es introducir un criterio de ajuste de nuestra regre-
sión, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a
la muestra.
En principio, podríamos pensar que la suma de los residuos cuadrados, es de-
cir, nuestro criterio original de ajuste, es una buena opción: a menor sea éste,
mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede
ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el fac-
tor de escala deseado, lo cual invalida su uso como criterio de ajuste.
Por ello, se ha desarrollado un criterio que elimine el problema anterior. Di-
cho estadístico ya no se basará en la magnitud de un valor (como la suma de
los cuadrados de los residuos), sino que intentará preguntarse si la variación de
las variables independientes (X) explica la variación de la variable independi-
ente, como veremos más adelante. Para ello analizaremos con un poco más de
profundidad el modelo de regresión lineal en desvíos con respecto a la media y
presentaremos la llamada descomposición de varianza (o análisis de varianza),
ambos, insumos fundamentales para obtener nuestro estadístico de bondad de
ajuste.
2.7.1. Modelo de Regresión Lineal en Desvíos
Sea el modelo poblacional usual con k variables:
yi = β1 + β2x2i + β3x3i + · · ·+ βkxki + ui (2.42)
donde i = 1 . . . n y cuya contraparte estimada es:
yi =β̂1 + β̂2x2i + β̂3x3i + · · ·+ β̂kxki + ûi (2.43)
Luego, si sumamos para todas las observaciones y dividimos a ambos lados por
el tamaño muestral n, tenemos:
Ȳ = β̂1 + β̂2x̄2 + β̂3x̄3 + · · ·+ β̂kx̄k (2.44)
por lo cual:
β̂1 = Ȳ − β̂2x̄2 + β̂3x̄3 + · · ·+ β̂kx̄k (2.45)
45
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
La ecuación (2.45) muestra que el término independiente de una regresión queda
determinado por el resto de los k-1 coe�cientes involucrados. Finalmente, note
que restando las ecuaciones (2.43) y (2.44) obtenemos:
yi − Ȳ = β̂2(x2i − x̄2) + β̂3(x3i − x̄3) + · · ·+ β̂k(xki − x̄k) + ûi (2.46)
la cual es una expresión similar a (2.43), excepto por dos importantes diferencias.
Primero, el modelo no posee constante y segundo, las variables se encuentran
expresadas en desvíos con respecto a la media. A pesar de ello, note que los coe-
�cientes y los residuos son los mismos en ambos modelos.
De lo anterior surge un importante corolario respecto del término constante de
nuestro modelo. En general, el interés del investigador se centra en el impacto de
los regresores sobre la variable dependiente, por lo cual, el término constante no
es más que una corrección que garantiza que los promedios muestrales de ambos
miembros del modelo econométrico coincidan.
Para transformar en desvíos con respecto a la media un modelo en términos ma-
triciales, introduciremos una matriz fundamental para el análisis de esta sección.
Denotaremos por M0 una matriz de n× n, de�nida como:
M0 = I
n×n
−ii
′
n
=


1 0 · · · 0
0 1 · · · 0
... ... . . . ...
0 0 · · · 1

−
1
n


1 1 · · · 1
1 1 · · · 1
... ... . . . ...
1 1 · · · 1

 =


1− 1
n
− 1
n
· · · − 1
n
− 1
n
1− 1
n
· · · − 1
n... ... . . . ...
− 1
n
− 1
n
· · · 1− 1
n


donde I es la identidad (n×n) e i corresponde al vector unitario de dimensión n.
Dicha matriz es singular, simétrica (M0'=M0) e idempotente (M0M0=M0). En
general, M0 es conocida como matriz de desvíos, ya que resta a cada columna de
la matriz involucrada, su media aritmética. Por ejemplo, es fácil comprobar que:
M0Y = Y − 1
n
ii′Y =


y1
y2
...
yn

−
1
n


∑n
i=1 yi∑n
i=1 yi...∑n
i=1 yi

 =


y1 − Ȳ
y2 − Ȳ
...
yn − Ȳ


Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en tér-
minos de desvío con respecto a la media como:
M0Y = M0Xβ + M0u (2.47)
46
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.7.2. Análisis de Varianza
Suponga entonces el siguiente modelo poblacional:
Y = Xβ + u
donde Y corresponde a una vector n× 1, X corresponde a nuestra matriz de re-
gresores que incluye un término constante, tal que X es de n× k y u corresponde
a nuestro vector de errores de n× 1.
Buscamos entonces de�nir la variación de la variable dependiente (Suma de los
cuadrados totales = TSS) como3:
TSS =
n∑
i=1
(Yi − Ȳ )2 (2.48)
Para encontrar entonces una expresión para (2.48), de la ecuación (2.47) tenemos
que nuestro modelo estimado en desvíos con respecto a la media es:
M0Y = M0Xβ̂ + M0û
con lo cual, al particionar nuestra matriz X en X = [i X2], nuestro vector de
parámetros en β′ = [β1 β2] y considerando que M0i = 0 y que M0û = û,
tenemos que:
M0Y = M0iβ̂1 + M
0X2β̂2 + M
0û
= M0X2β̂2 + û (2.49)
Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadra-
dos de las desviaciones de Y con respecto a su media), de la ecuación (2.48),
multiplicamos por Y' la ecuación (2.49):
Y ′M0Y = Y ′(M0X2β̂2 + û)
= (Xβ̂ + û)′(M0X2β̂2 + û)
= β̂′X ′M0X2β̂2 + β̂′X ′û + û′M0X2β̂2 + û′û
Y ′M0Y = β̂2X ′2M
0X2β̂2 + û
′û (2.50)
TSS = ESS + RSS (2.51)
donde el segundo y el tercer término desaparecen gracias a que los residuos estima-
dos son, por construcción, ortogonales a las variables explicativas 4. La igualdad
3Note que para dicha de�nición utilizamos los cuadrados de la desviaciones, ya que la suma
de las desviaciones es siempre cero.
4Ya que X ′û = X ′(Y −Xβ̂) = X ′Y −X ′Y = 0.
47
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
anterior es conocida como la descomposición de varianza. El término de la
izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de
la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se
encuentra la variabilidad de las variables independientes o regresores y la variabil-
idad de los errores. ¾Cuál es entonces el objetivo?: descomponer la varianza de
la variable dependiente aquella parte que es explicada por la regresión (ESS) de
aquella parte explicada por los residuos (RSS). ¾Por qué?: porque intuitivamente,
la regresión se ajusta mejor si las desviaciones de Y se explican en su mayor parte
por desviaciones de X y no por desviaciones de los residuos.
2.7.3. Bondad de Ajuste: R2 y R̃2
De�nimos entonces la bondad de ajuste del modelo a través del siguiente estadí-
grafo llamado también coe�ciente de determinación:
R2 =
ESS
TSS
(2.52)
es decir, como la proporción de la varianza de Y que es explicada por la varianza
de la regresión. Alternativamente:
R2 = 1− RSS
TSS
(2.53)
Note que:
1. El coe�ciente de determinación es siempre menor a 1. Ello porque RSS ≤
TSS y por lo tanto RSS
TSS
≤ 1.
2. El análisis de varianza anterior fue derivado bajo el supuesto que el modelo
incluía una constante (por ello utilizábamos la matriz M0). En dicho caso,
necesariamente R2 ≥ 0. En caso de que el modelo no incluya una constante,
se debe utilizar la fórmula (2.5.2) utilizando TSS=Y'Y (sin desvíos).
3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá con-
stante o aumentará)
4. No es claro cuan bueno sea como predictor de ajuste.
Para ver este último punto, suponga que usted posee el siguiente modelo pobla-
cional:
Y = β1 + β2X + u
48
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
donde X es un vector (n× 1). Suponga ahora que restamos X a ambos lados de
nuestro modelo. Obtenemos entonces:
Y −X = β1 + γX + u
Si β2 ≈ 1, entonces es fácil veri�car que el R2 del primer modelo será cercano a
1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos
son matemáticamente equivalentes. A pesar de lo anterior, en trabajos aplicados,
el R2 es ampliamente utilizado, por lo cual se recomienda su publicación.
Retrocedamos ahora al punto tres. El nos dice que el coe�ciente de determinación
probablemente crecerá al incluir regresores. Ello plantea incentivos a incluir re-
gresores no relevantes para nuestro modelo, con el �n de obtener un mejor ajuste.
¾Porqué sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece
(o en el mejor de los casos se mantiene), mientras que la TSS permanece constante.
Por esta razón se creó el coe�ciente de determinación ajustado, el cual corrige el
R2 original por los grados de libertad del numerador y el denominador. Entonces,
de�nimos el R2 ajustado (R̃2) como:
R̃2 = 1− û
′û/(n− k)
Y ′MY/(n− 1) (2.54)
o equivalentemente:
R̃2 = 1− (1−R2) (n− 1)
(n− k) (2.55)
49
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.8. Inferencia
Una vez que hemos estimado nuestra regresión muestral, es necesario preguntarse
cuan buena aproximación es dicha regresión de la poblacional. Para que la aprox-
imación sea cercana, es condición necesaria que los parámetros incluidos en la
regresión muestral sea estadísticamente distintos de cero (en caso contrario, no
pertenecen a la regresión poblacional). Así, uno de nuestros objetivos puede ser
el testear la signi�cancia individual de los parámetros.
Pero lo anterior es sólo una de las preguntas que como investigadores podemos
estar interesados en responder. Por ejemplo, en la estimación de la función de
producción de una �rma, que asumimos Cobb Douglas (Y = AKαLβeu o en loga-
ritmo ln Y = ln A+α ln K +β ln L+u), podemos estar interesados en descubrir si
la �rma presenta rendimientosconstantes, crecientes o decrecientes a la escala, lo
cual se re�ejará en que α + β > o ≤ 1. Por lo tanto, ello podría ser otra hipótesis
interesante de plantearse. También podría ser interesante descubrir si todos los
parámetros a la vez son distintos de cero, o de algún valor determinado.
La gama de preguntas posibles respecto del valor de los parámetros es sólo aco-
tada por la pregunta que el investigador desee responder. Nuestro objetivo es,
por lo tanto, desarrollar los métodos de inferencia y contraste de hipótesis que
nos permitan responder, en el contexto de una regresión muestral particular, las
preguntas anteriores.
Dos notas precautorias. En esta sección nos ocuparemos de restricciones o hipóte-
sis lineales sobre los coe�cientes. Restricciones no lineales son más escasas en
econometría aplicada y se desarrollan en contexto de un modelo particular. Se-
gundo, en todo lo que se re�ere a este apartado, asumiremos que los errores de
nuestra regresión muestral siguen una distribución normal (ya veremos porqué).
Entonces, sea nuestro modelo poblacional
Y = Xβ + u
donde X es una matriz de (n × k),u e Y son vectores (n × 1) y β es vector de
(k × 1).
Sean entonces las siguientes hipótesis:
1. H0: βi = 0 ⇒ Plantea que el regresor Xi no posee in�uencia alguna sobre Y.
Este es el test más común y nos referiremos a él como test de signi�cancia.
50
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2. H0: βi = βi0 ⇒ Plantea que el regresor Xi posee un impacto determinado
por βi0 sobre Y.
3. H0: βi + βj=1 ⇒ Plantea que la suma de los regresores Xi y Xj poseen un
impacto conjunto de magnitud 1.
4. H0: βi = βj ⇒ Plantea que los regresores Xi y Xj poseen el mismo impacto
sobre Y.
5. H0: βi=0 ∀ i=2. . . k ⇒ Plantea que todos los regresores conjuntamente,
excepto la constante, son cero.
6. H0: βl=0 donde el vector β ha sido particionado en dos (βl y βp) con di-
mensiones (kl × 1) y (kp × 1) respectivamente, tal que kl + kp = k. Plantea
entonces que un subconjunto de parámetros son estadísticamente no signi-
�cativos.
Todas las hipótesis anteriores pueden ser resumidas en la siguiente expresión:
Rβ = r
donde R es una matriz de (q× k) constantes conocidas (ceros o unos), cuyo obje-
tivo será seleccionar los parámetros a testear, cuyo número de �las, q, representa
el número de restricciones. A su vez, r es un vector de dimensión q y contiene el
real al cual es restringido cada parámetro. Veamos como serán las matrices R y
r en cada una de nuestras hipótesis:
1. R=[0. . . 010 . . . 0]; r=0; q=1
donde 1 se encuentra en la i-ésima posición
2. R=[0. . . 010 . . . 0]; r=βi0; q=1
donde 1 se encuentra en la i-ésima posición
3. R=[0. . . 010 . . . 010 . . . 0]; r=1; q=1
donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.
4. R=[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1
donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.
5. R=[0q×1 Ik−1]; r=0; q=k − 1
6. R=[0ki×kj Iki ]; r=0; q=ki
51
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Entonces, nuestra hipótesis nula corresponde a:
H0 : Rβ = r (2.56)
con lo cual, sólo nos resta derivar el test que nos permita rechazar o no rechazar
nuestra nula. La construcción del estadígrafo es como sigue. Dado que MCO
(bajo los supuestos relevantes) es insesgado, tenemos que E(β̂) = β, por lo tanto,
E(Rβ̂) = Rβ, mientras que la varianza de Rβ̂ corresponde a
V [Rβ̂] = E[R(β̂ − β)(β̂ − β)′R′]
= RV ar(β̂)R′
= σ2R(X ′X)−1R′
Necesitamos aún un supuesto más para determinar la distribución muestral de
nuestra nula. Dado que β̂ es función de u y u ∼ N(0, σ2), entonces β̂ ∼ N(β, σ2(X ′X)−1)
y por lo tanto Rβ̂ ∼ N(r, σ2R(X ′X)−1R′), entonces:
β̂ ∼ N [β, σ2(X ′X)−1] (2.57)
y
Rβ̂ ∼ N [Rβ, σ2R(X ′X)−1R′] (2.58)
y si la nula Rβ = r es cierta:
∴ (Rβ̂ − r) ∼ N [0, σ2R(X ′X)−1R′] (2.59)
luego estandarizamos, con lo cual:
(Rβ̂ − r)√
σ2R(X ′X)−1R′
∼ N [0, 1] (2.60)
Además, se puede demostrar que (hacerlo)5:
û′û
σ2
∼ χ2(n−k) (2.61)
Luego, se puede demostrar que (hacerlo)6:
(Rβ̂ − r)′[σ2R(X ′X)−1R′]−1(Rβ̂ − r) ∼ χ2q (2.62)
5Basta con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo
cual x ∼ N(0, σ2I) y A corresponde a una matriz simétrica e idempotente de rango n, entonces
1
σ2 x
′Ax ∼ χ2n . Finalmente, recuerde que û = MY = Mu y que el rango de una matriz simétrica
e idempotente es su traza.
6Basta con recorder que si el vector x, de dimensión n, es tal que x ∼ N(0, Σ), entonces,
x′Σ−1x ∼ χ2n.
52
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
luego, combinando los dos resultados anteriores, se puede demostrar que (hacer-
lo)7:
[(Rβ̂ − r)′[R(X ′X)−1R′]−1(Rβ̂ − r)]/q
û′û/(n− k) ∼ F(q,n−k) (2.63)
El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test
es de utilidad para testear cualquier hipótesis de la forma expuesta en (2.56). A
continuación veremos subcasos de dicho test general.
2.8.1. Test t (Una hipótesis lineal)
Reescribiendo el test F como:
[(Rβ̂ − r)′[RV̂ ar(β̂)R′]−1(Rβ̂ − r)] ∼ F(q,n−k)
y haciendo el reemplazo respectivo de R y r correspondientes a las hipótesis 1 o
2 (H0: βi = 0 = βi0), llegaremos a:
F =
(β̂ − βi0)2
V̂ ar(βi)
∼ F (1, n− k) (2.64)
Recordando que t2 es una caso particular de una F con un grado de libertad en
el numerador, tenemos que:
t =
β̂ − βi0√
V̂ ar(βi)
∼ tn−k (2.65)
Lo anterior es conocido como el test t (test de signi�cancia) y en su versión más
utilizada corresponde a t = β̂√
V̂ ar(βi)
, donde se busca testear la hipótesis nula de
que el parámetro es cero.
El test t también cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0: βi+βj=1),
el estadígrafo corresponderá a:
t =
β̂i + β̂j − 1√
V̂ ar(β̂i) + 2Ĉov(β̂i, β̂j) + V̂ ar(β̂j)
∼ tn−k (2.66)
La distribución t es simétrica y se aproxima a la normal para tamaños de muestras
7Sólo un poquito de álgebra y recordar como se construye una distribución F(q, n-k) a partir
de la división de dos χ2 con grados de libertad q en el numerador y n-k en el denominador.
53
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
grandes, sin embargo, la t posee colas más gruesas que la normal (lo cual es más
pronunciado en muestras pequeñas: n≤30). La siguiente �gura expone la relación
entre la distribución t y la normal:
Distribución Normal
Distribución t
Probabilidad
 0
Nota precautoria:
Toda la derivación anterior se basa en el estricto supuesto de normalidad de
los errores. En caso de que los mismos no distribuyan normal, la distribución
del test F (y por lo tanto el del t) es desconocida en muestras �nitas. Sin em-
bargo, es posible demostrar que t a∼ N(0, 1), es decir, que el test t distribuye
asintóticamente normal. Luego, los valores críticos de t y Φ (normal estándar)
se encuentran sumamente cerca si n-k≥30, por lo cual, en términos prácticos no
importa mucho cual de ellas escojamos para los valores críticos (a menos que la
muestra sea especialmente pequeña).
Finalmente, nos queda examinar los criterios de rechazo del test y los niveles
de con�anza. Como usted recordará de sus clases de estadística, lo anterior de-
pende de como especi�quemos la hipótesis alternativa. A continuación, pasamos
a revisar este punto.
54
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Criterio de Rechazo y Nivel de Con�anza
Una vez que hemos calculado el valor del test para nuestra nula particular (o
valor calculado), resta calcular el valor crítico o el valor que nos indica la tabla t.
Dicho valor crítico nos dirá si nuestra nula es falsa o si no podemos a�rmar que lo
es. La elección de dicho valor crítico se toma desde la tabla de distribución t y el
número debe ser escogido tomado en cuenta el nivel de signi�cancia escogido
(1%, 5% o 10%), el cual a su vez determina el nivel de con�anza del test
(99%, 95% o 90%, respectivamente). El nivel de con�anza posee una explicación
intuitiva: Nuestro estadígrafo esfunción de la muestra con lo que estamos traba-
jando, por lo cual, si contáramos con una gran número de ellas y con cada una
pudiésemos calcular nuestro estadígrafo, el nivel de con�anza indica el porcenta-
je de veces que calculamos nuestro estadígrafo en que realmente no rechazamos
lo cierto o rechazamos correctamente lo falso. La forma en que se distribuya la
probabilidad de rechazo, es decir, el nivel de signi�cancia, depende de nuestra
hipótesis alternativa. A continuación revisamos dicho asunto. Test de una cola
Supongamos que nuestra hipótesis es:
H0 : βi = βio
H1 : βi > βio
donde βi0 ∈ R. En dicho caso, el estadígrafo es calculado según lo propuesto en la
sección anterior. El punto está en como acumulamos la probabilidad de rechazo.
En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha
de la distribución, como lo muestra la siguiente �gura8:
8¾Por qué en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de sig-
ni�cancia, nos indica hasta donde puedo tolerar un valor mayor a βio, por lo cual, carecería de
sentido que la zona de rechazo se encuentre en la cola izquierda de la distribución. Por ejemplo,
si βio=0, la distribución de nuestro estadígrafo se centra en cero (vea la fórmula), por lo cual la
hipótesis alternativa correspondería a que el parámetro es positivo. el punto es ¾cuán positivo
puedo aceptar que sea?.
55
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Probabilidad
 No se Rechaza
Se Rechaza (5%)
por lo tanto, rechazaremos nuestra hipótesis nula de que el coe�ciente es cero
contra la hipótesis alternativa que el parámetro es mayor que βio, si el valor cal-
culado del test es mayor al valor crítico de la tabla t. En el caso que H1 sea que
el parámetro es menor a βio, entonces la probabilidad de rechazo se concentra en
la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor
que el valor crítico de la tabla t.
Test de dos colas
Supongamos que nuestra hipótesis es:
H0 : βi = βio
H1 : βi 6= βio
En este caso estamos repartiendo uniformemente la probabilidad de rechazo en
ambas colas de la distribución como lo muestra la siguiente �gura (al 95% de
con�anza):
56
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Probabilidad
 No se Rechaza
Se Rechaza (2,5%)
Se Rechaza (2,5%))
Por lo tanto, rechazaremos la nula si el valor calculado es en módulo mayor que
el valor crítico de tabla. Note que en este caso, la probabilidad de rechazo se
reparte un partes iguales en ambas colas. Ello se justi�ca en que la distribución
t corresponde a una distribución simétrica.
Error de Tipo I, Error de Tipo II, Tamaño y Potencia de un test
Antes de continuar, veremos cuatro conceptos estadísticos importantes que nos
indican características de nuestro test.
1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar la
nula cuando es cierta.
2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar la
nula cuando es falsa.
3. Tamaño del Test: Corresponde la probabilidad de cometer ETI. Se de�ne
como el nivel de signi�cancia del test (α).
4. Potencia del Test: Corresponde a la probabilidad de rechazar la nula
cuando es falsa. Se de�ne como Potencia =1-ETII.
El óptimo para el investigador sería minimizar ambos tipos de errores y tener un
test con un menor tamaño y mayor potencia posibles, sin embargo, note que el
57
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
tamaño del test y por lo tanto, el ETI, es una variable endógena al investigador,
en tanto que él decide con que nivel de con�anza trabajar. Luego, el objetivo se
transforma en, dado un nivel de con�anza, minimizar la ocurrencia de ETII.
Intuitivamente, si usted escoge un nivel de signi�cancia pequeño (1%, por ejemp-
lo), sus zonas de rechazo serán pequeñas, con lo cual, inevitablemente, la zona de
no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII.
P-value
Otra forma alternativa al valor crítico de tabla para rechazar o no rechazar nues-
tra nula, corresponde al uso de los llamados p-values, los cuales son reportados
en cualquier paquete estadístico. El p-value (p) se de�ne como:
p = p(tcalculado) = P (|Z| ≥ |tcalculado|) = 2(1− Φ(|tcalculado|)) (2.67)
es decir, el p-value representa la probabilidad de que el valor crítico (t de tabla, en
nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de signif-
icancia exacto asociado a un resultado econométrico en particular. Por ejemplo,
un p-value de 0.07 indica que un coe�ciente es estadisticamente signi�cativo en
un nivel de 0.07 (o con un 93% de con�anza).
Ejemplo:
Suponga el siguiente Modelo de Regresión Lineal Simple:
Yi = β1 + β2Xi + ui para i = 1, ..., N
Además posee la siguiente información muestral de X e Y:
Y 2 5 6 7
X 0 10 18 20
El estimador MCO de β1 y β2 es el siguiente:
β̂ =
[
β̂1
β̂2
]
=
[
4 48
48 824
]−1 [
20
298
]
=
[
2,1935
0,2338
]
La matriz de varianzas y covarianzas de β̂ es:
V̂ (β̂) = σ̂2u(X
′X)−1
=
0,436
2
[
4 48
48 824
]−1
=
[
0,180866 −0,010536
−0,010536 0,000878
]
58
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
Primero veamos el ajuste de este modelo, es decir, en que grado la variable x
explica a la variable y, para lo cual calculemos el R2 y R2:
R2 = 1− RSS
TSS
= 1−
∑4
i=1 û
2
i∑4
i=1(Yi − Y )2
= 1− 0,436
14
= 0,969
R
2
= 1− RSS/2
TSS/3
= 1−
∑4
i=1 û
2
i /2∑4
i=1(Yi − Y )2/3
= 0,953
Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el
modelo incluye constante, el R2 se puede interpretar como la proporción de la
variabilidad de la variable independiente que es explicada por la variabilidad de
la variable dependiente, la que en este caso alcanza un 97%.
Ahora veamos si estos parámetros estimados son signi�cativos a un 95% de con-
�anza, para lo cual realizaremos un test t de signi�cancia a cada uno de ellos:
1. Test de signi�cancia de β̂1:
H0 : β̂1 = 0
H1 : β̂1 6= 0
t =
β̂1
V ar(β̂1)
∼ t2
De esta forma, el valor calculado para el estadístico t es:
tc =
2,193548387√
0,180866
= 5,157850523
El valor de tabla del estadístico t a un 95% de con�anza y con dos grados
de libertad es 4,303.
Probabilidad
No se
Rechaza Se
Rechaza
(2,5%)
Se
Rechaza
(2,5%))
t(2)=4,303 t(2)=4,303
tc=5,158
59
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
De esta forma, se rechaza la hipótesis nula de que β̂1=0, y por lo tanto el
parámetro estimado resulta ser estadísticamente signi�cativo.
2. Test de signi�cancia de β̂2:
H0 : β̂2 = 0
H1 : β̂2 6= 0
t =
β̂2
V ar(β̂2)
∼ t2
De esta forma, el valor calculado para el estadístico t es:
tc =
0,233870968√
0,000878
= 7,892762865
El valor de tabla del estadístico t a un 95% de con�anza y con dos grados
de libertad es 4,303.
Probabilidad
No se
Rechaza Se
Rechaza
(2,5%)
Se
Rechaza
(2,5%))
t(2)=4,303 t(2)=4,303
tc=7,893
De esta forma, se rechaza la hipótesis nula de que β̂2=0, y por lo tanto el
parámetro estimado resulta ser estadísticamente signi�cativo.
3. TAREA: Testee la siguiente hipótesis nula:
H0 : β̂1 − β̂2 = 2
H1 : β̂1 − β̂2 6= 2
60
Capitulo 2: Modelo de Regresión Lineal
Econometría I
FACEA, Universidad de Chile
2.8.2. Test F (Conjunto de hipótesis lineales)
Los casos 6. y 5. corresponden a un conjunto de hipótesis a testear. En el caso
5. correspondía a un subconjunto particular de parámetros, mientras que el caso
6. correspondía a la nula de que todos ellos eran cero, menos la constante. En
dichos casos se aplica la fórmula del test F según la ecuación (2.63) y los criterios
de rechazo siguen lo expuesto en la sección anterior.
Sin embargo, en ambos casos podemos derivar expresiones alternativas para nue-
stro test.
Todas las pendientes del modelo son cero: En este caso, se puede
demostrar que el test F puede expresarse como:
F =
ESS/(k − 1)
RSS/(n− k) ∼ F(k−1,n−k) (2.68)
o alternativamente,

Otros materiales