econometria191_clase12_problemas_de_especificacion_y_de_datos

•
Outros

0
Central de Apuntes
26/5/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Administración

603.233 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Econometŕıa I – EAE-250A
Problemas de especificación y de datos
Jaime Casassus
Instituto de Econoḿıa
Pontificia Universidad Católica de Chile
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Tabla de Contenidos
1 Problemas de especificación de la forma funcional
2 Uso de variables proxy
3 Outliers
4 Errores de medición
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Omisión de una función de una variable independiente
• Un modelo mal especificado no explica en forma adecuada la relación entre
la variable dependiente y las variables explicativas.
• Por ejemplo omitir el término exper2 si el modelo verdadero es
log(salario) = β0 + β1educ + β2exper + β3exper
2 + u
• Otro ejemplo es omitir el término de interacción mujer · educ si el modelo
verdadero es
log(salario) = β0 + β1educ + β2exper + β3exper
2
β4mujer + β5mujer · educ + u
• Otro ejemplo es usar salario como variable dependiente si en el modelo
verdadero es log(salario).
• La especificación incorrecta puede tener consecuencias graves.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
RESET: Regression Specification Error Test
• RESET testea la especificación de la forma funcional.
• La idea de este test es simple: si el modelo original es
y = β0 + β1x1 + ...+ βkxk + u
entonces si se agrega a la regresión una función no lineal de las
variables independientes, ésta no debiera ser significativa.
• Si el modelo tiene muchas variables explicativas, es costoso agregar
formas no lineales de cada regresor. ¿Por qué?
• RESET incorpora polinomios de los valores ajustados por MCO para
detectar clases generales de especificaciones incorrectas de la forma
funcional.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
RESET: Regression Specification Error Test (cont.)
• Sea ŷ los valores obtenidos al estimar mediante MCO la regresión.
• Recuerde que ŷ es una función lineal de los xj .
• Considere la ecuación ampliada
y = β0 + β1x1 + ...+ βkxk + δ1ŷ
2 + δ2ŷ
3 + u
• La hipótesis nula H0 : δ1 = 0; δ2 = 0 testea si el modelo original
ignora no linealidades importantes.
• Recordemos que las variables ŷ2 y ŷ3 son funciones no lineales de las
variables xj .
• Bajo los supuestos de Gauss-Markov la distribución de este estad́ıstico
F es, en este caso, F2,n−k−3.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Ejemplo: Precio de las viviendas
• Considere dos modelos para el precio de la vivienda.
• El primero, tiene todas las variables en niveles
precio = β0 + β1tlote + β2piecua + β3habit + u
• El segundo, considera el logaritmo de las variables salvo habit
lprecio = β0 + β1ltlote + β2lpiecua + β3habit + u
• Con n = 88 viviendas, el estad́ıstico RESET de la primera ecuación resulta
ser igual a 4.67 y su valor p asociado, 0.012. Gretl
• Por otra parte, el estad́ıstico RESET de la segunda ecuación resulta ser igual
a 2.56 y su valor p, 0.083. Gretl
• RESET sugiere que es preferible el segundo modelo porque no se rechaza la
hipótesis nula del test (a un nivel de significancia del 5%).
• RESET no indica en qué dirección proceder si se rechaza el modelo.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Test para alternativas no anidadas
• ¿Qué hacer si se debe decidir si una variable independiente debe aparecer en
niveles o en logaritmos?
• Por ejemplo, es posible testear el modelo
y = β0 + β1x1 + β2x2 + u
versus
y = β0 + β1log(x1) + β2log(x2) + u
y viceversa.
• Estos modelos no son anidados, por lo que no es posible utilizar un
estad́ıstico F .
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Test para alternativas no anidadas (cont.)
• Test de Mizon y Richard (1986): plantear un modelo exhaustivo que sea la
unión de todos los modelos y testear las restricciones que conducen a cada
uno de los modelos originales.
• En este caso:
y = γ0 + γ1x1 + γ2x2 + γ3log(x1) + γ4log(x2) + u
• Primero, se testea H0 : γ1 = 0; γ2 = 0 y luego H0 : γ3 = 0; γ4 = 0.
• Test de Davidson y MacKinnon (1981): se basa en que si uno de los
modelos es verdadero, entonces los valores predichos por el otro modelo no
serán significativos en el primero.
• Problemas de estos tests:
◦ no necesariamente va a surgir un modelo mejor: es posible rechazar
ambos o ninguno,
◦ rechazar un modelo, no significa que el otro sea el correcto,
◦ los modelos alternativos podŕıan tener variables distintas.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Tabla de Contenidos
1 Problemas de especificación de la forma funcional
2 Uso de variables proxy
3 Outliers
4 Errores de medición
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Variables proxy
• ¿Qué sucede si por falta de datos se excluye una variable clave del modelo?
• Considere la siguiente ecuación de salarios
log(salario) = β0 + β1educ + β2exper + β3capac + u
• En general, la capacidad no es observable y no siempre se define de la
misma forma.
• Si educ se correlaciona con capac, al omitir capac se obtienen estimadores
sesgados.
• Suponga que el interés principal en la estimación son los parámetros β1 y β2.
• Es posible usar una variable que aproxime lo suficientemente bien a la
variable omitida, por ejemplo, la variable coeficiente intelectual.
• A este tipo de variables por lo general se les llama variables proxy.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Variables proxy (cont.)
• Considere el siguiente modelo:
y = β0 + β1x1 + β2x2 + β3x
∗
3 + u
donde la variable explicativa x∗3 no es observable, pero se podŕıa reemplazar
por la variable proxy x3.
• ¿Qué caracteŕısticas debe tener x3?
• Al menos, debe guardar una relación con x∗3 . Esto se captura mediante la
ecuación
x∗3 = δ0 + δ1x3 + v3
donde v3 es un error debido a que x
∗
3 y x3 no están perfectamente
correlacionadas.
• Los supuestos necesarios para evitar sesgos en los estimadores MCO de β1 y
β2 debe ocurrir que los errores u y v3 no se correlacionan con x1, x2 ni x3.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Uso de variables dependientes rezagadas como proxy
• A veces no se sabe como obtener una proxy para una posible variable
omitida.
• En este caso es común usar el valor de la variable dependiente en un periodo
anterior como proxy (si se tiene ese dato).
• Si existe inercia, la variable omitida puede estar correlacionada tanto con la
variable dependiente actual como con esa misma variable rezagada.
• Por ejemplo, muchos determinantes en la selección de una universidad,
pueden estar capturados en la selección del periodo anterior (eg.
infraestructura, curŕıculo, profesores).
• Otro ejemplo, muchos factores no observables que determinan la tasa de
delincuencia en una ciudad, pueden haber afectado la tasa de delincuencia
del periodo anterior.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Ejemplo: Índice de delincuencia urbana
• Considere la siguiente ecuación para explicar el ı́ndice de delincuencia
ldelin = β0 + β1desem + β2lgasto + β3ldelin−1 + u
donde ldelin−1 es el ı́ndice de delincuencia en el año anterior.
• ¿Cuál es el propósito de incluir el término β3ldelin−1?
• Se espera que β3 > 0 puesto que la delincuencia tiene inercia. ¿Por qué?
• Hay factores no observables que influyen en ldelin y que estén
correlacionados con lgasto.
• Es probable que las ciudades con ı́ndices de delincuencia altos gasten más en
prevención.
• Estimación del modelo con elasticidad constante Gretl
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Tabla de Contenidos
1 Problemas de especificación de la forma funcional
2 Uso de variables proxy
3 Outliers
4 Errores de medición
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Efecto de los outliers en los estimadores
• Cuando se cuenta con muestras pequeñas, una o unas pocas
observaciones pueden influir mucho en las estimaciones por MCO.
• Una observación es aberrante o un outlier si alcanza un valor inusual
dada la distribución muestral.
• Visto de otra forma, una observación es un outlier, si los estimadores
de MCO cambian sustancialmenteal excluirla de la muestra.
• Una buena poĺıtica es preocuparse cuando se modifica ligeramente
nuestra muestra y los estimadores cambian en forma considerable.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Efecto de los outliers en los estimadores (cont.)
• Desde el punto de vista práctico, los outliers se deben a dos razones:
◦ se cometió un error al tomar los datos, o
◦ se tomaron datos de una población pequeña y uno o varios de sus
miembros son muy distintos del resto.
• Debido a la primera de estas razones, siempre es buena idea calcular
estad́ısticos –entre otros, el ḿınimo y el máximo– para detectar estos
outliers.
• Frente a la segunda razón, es dif́ıcil tomar la decisión de si mantener
o no los outliers en la regresión. En estos casos es mejor reportar los
resultados con y sin estas observaciones si es que modifican los
resultados sustancialmente.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Inversión en I&D
• Suponga que está interesado en medir el efecto de las ventas de una
empresa en su inversión en I&D.
• Para ello, se estima el modelo
gastoI&D = β0 + β1ventas + β2ganancias + u,
donde gastoI&D = GastoI&Dventas .
• Obteniendo los siguientes resultados: Gretl
ˆgastoI&D = 2, 625 + 0, 000053ventas + 0, 0446ganancias
(0, 586) (0, 000044) (0, 0462)
n = 32, R2 = 0, 0761 R2 = 0, 0124
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
file:"U:/jcasassus/Documents/teaching/ucecon/econometria/102/clases/clase15_missing_data_muestras_no_aleatorias_y_outliers/ejemplo_i_d.bat"
Inversión en I&D (cont.)
• De las 32 empresas, 31 tienen ventas inferiores a los 20 mil millones
de dólares, una tiene ventas por sobre los 35 mil.
0
2
4
6
8
10
In
ve
rs
ió
n 
en
 I&
D
 c
om
o 
po
rc
en
ta
je
 d
e 
la
s 
ve
nt
as
0 10000 20000 30000 40000
Ventas
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Inversión en I&D (cont.)
• Compare los resultados que obtenemos al eliminar esta observación.
• Muestra inicial:
ˆgastoI&D = 2, 625 + 0, 000053ventas + 0, 0446ganancias
(0, 586) (0, 000044) (0, 0462)
n = 32, R2 = 0, 0761 R2 = 0, 0124
• Muestra sin el outlier: Gretl
ˆgastoI&D = 2, 297 + 0, 000186ventas + 0, 0478ganancias
(0, 592) (0, 000084) (0, 0445)
n = 31, R2 = 0, 1728 R2 = 0, 1137
• Entre otros, se observa que el coeficiente de ventas aumenta en más
de tres veces.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
file:"U:/jcasassus/Documents/teaching/ucecon/econometria/102/clases/clase15_missing_data_muestras_no_aleatorias_y_outliers/ejemplo_i_d2.bat"
Tabla de Contenidos
1 Problemas de especificación de la forma funcional
2 Uso de variables proxy
3 Outliers
4 Errores de medición
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Propiedades de MCO bajo errores de medición
• Los errores de medición ocurren porque se utiliza una medida
imprecisa de una variable.
• En algunos casos estos errores de medición implican sesgos asintóticos
en las variables.
• El problema de errores de medición tiene una estructura estad́ıstica
similar al problema de variables omitidas y uso de variables proxy,
pero son conceptualmente distintos.
• En el caso de errores de medición, la variable no observable está bien
definida, algo que no ocurre siempre ocurre con las variables proxy.
• También, muchas veces interesa el efecto de la variable que tiene
error de medición, mientras que las variable proxy son usadas como
control de otras variables independientes.
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Error de medición en la variable dependiente
• Sea y∗ la variable dependiente que se busca explicar.
• Por ejemplo, el ingreso que declaran las familias. ¿Qué hogares tienden a
sobre declarar? ¿Qué hogares tienden a sub declarar?
• Considere el modelo
y∗ = β0 + β1x1 + ...+ βkxk + u
que satisface los supuestos de Gauss-Markov.
• Sea y la medida observada de y∗.
• El error de medición se define como e0 = y − y∗.
• El modelo se puede reescribir de la forma
y = β0 + β1x1 + ...+ βkxk + u + e0
• El término de error de esta ecuación está dado por u + e0. ¿Cómo es
Var[u + e0|X ]?
• ¿Cuándo los estimadores MCO son consistentes?
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
Error de medición en la variable independiente
• Considere con el modelo de regresión simple
y = β0 + β1x
∗
1 + u
que cumple los primeros cuatro primeros supuestos de Gauss-Markov.
• En este caso, no se observa x∗1 sino que x1.
• El error de medición está dado por e1 = x1 − x∗1
• Se supone que E (e1) = 0 y que u no se correlaciona con x∗1 ni x1.
• Reemplazando en el modelo original
y = β0 + β1x1 + (u − β1e1)
• Note que Var[e1] = Cov[x1, e1]− Cov[x∗1 , e1] => 0
• ¿Qué pasa si Cov[x1, e1] = 0?
• ¿Y si Cov[x∗1 , e1] = 0?
Casassus (UC) EAE-250A - Econometŕıa I 27-May-19
	Problemas de especificación de la forma funcional
	Omisión de una función de una variable independiente
	RESET: Regression Specification Error Test
	Ejemplo: Precio de las viviendas
	Test para alternativas no anidadas
	Uso de variables proxy
	Variables proxy
	Uso de variables dependientes rezagadas como proxy
	Ejemplo: Índice de delincuencia urbana
	Outliers
	Efecto de los outliers en los estimadores
	Inversión en I&D
	Errores de medición
	Propiedades de MCO bajo errores de medición
	Error de medición en la variable dependiente
	Error de medición en la variable independiente