Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Econometŕıa I – EAE-250A Problemas de especificación y de datos Jaime Casassus Instituto de Econoḿıa Pontificia Universidad Católica de Chile Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Tabla de Contenidos 1 Problemas de especificación de la forma funcional 2 Uso de variables proxy 3 Outliers 4 Errores de medición Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Omisión de una función de una variable independiente • Un modelo mal especificado no explica en forma adecuada la relación entre la variable dependiente y las variables explicativas. • Por ejemplo omitir el término exper2 si el modelo verdadero es log(salario) = β0 + β1educ + β2exper + β3exper 2 + u • Otro ejemplo es omitir el término de interacción mujer · educ si el modelo verdadero es log(salario) = β0 + β1educ + β2exper + β3exper 2 β4mujer + β5mujer · educ + u • Otro ejemplo es usar salario como variable dependiente si en el modelo verdadero es log(salario). • La especificación incorrecta puede tener consecuencias graves. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 RESET: Regression Specification Error Test • RESET testea la especificación de la forma funcional. • La idea de este test es simple: si el modelo original es y = β0 + β1x1 + ...+ βkxk + u entonces si se agrega a la regresión una función no lineal de las variables independientes, ésta no debiera ser significativa. • Si el modelo tiene muchas variables explicativas, es costoso agregar formas no lineales de cada regresor. ¿Por qué? • RESET incorpora polinomios de los valores ajustados por MCO para detectar clases generales de especificaciones incorrectas de la forma funcional. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 RESET: Regression Specification Error Test (cont.) • Sea ŷ los valores obtenidos al estimar mediante MCO la regresión. • Recuerde que ŷ es una función lineal de los xj . • Considere la ecuación ampliada y = β0 + β1x1 + ...+ βkxk + δ1ŷ 2 + δ2ŷ 3 + u • La hipótesis nula H0 : δ1 = 0; δ2 = 0 testea si el modelo original ignora no linealidades importantes. • Recordemos que las variables ŷ2 y ŷ3 son funciones no lineales de las variables xj . • Bajo los supuestos de Gauss-Markov la distribución de este estad́ıstico F es, en este caso, F2,n−k−3. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Ejemplo: Precio de las viviendas • Considere dos modelos para el precio de la vivienda. • El primero, tiene todas las variables en niveles precio = β0 + β1tlote + β2piecua + β3habit + u • El segundo, considera el logaritmo de las variables salvo habit lprecio = β0 + β1ltlote + β2lpiecua + β3habit + u • Con n = 88 viviendas, el estad́ıstico RESET de la primera ecuación resulta ser igual a 4.67 y su valor p asociado, 0.012. Gretl • Por otra parte, el estad́ıstico RESET de la segunda ecuación resulta ser igual a 2.56 y su valor p, 0.083. Gretl • RESET sugiere que es preferible el segundo modelo porque no se rechaza la hipótesis nula del test (a un nivel de significancia del 5%). • RESET no indica en qué dirección proceder si se rechaza el modelo. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Test para alternativas no anidadas • ¿Qué hacer si se debe decidir si una variable independiente debe aparecer en niveles o en logaritmos? • Por ejemplo, es posible testear el modelo y = β0 + β1x1 + β2x2 + u versus y = β0 + β1log(x1) + β2log(x2) + u y viceversa. • Estos modelos no son anidados, por lo que no es posible utilizar un estad́ıstico F . Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Test para alternativas no anidadas (cont.) • Test de Mizon y Richard (1986): plantear un modelo exhaustivo que sea la unión de todos los modelos y testear las restricciones que conducen a cada uno de los modelos originales. • En este caso: y = γ0 + γ1x1 + γ2x2 + γ3log(x1) + γ4log(x2) + u • Primero, se testea H0 : γ1 = 0; γ2 = 0 y luego H0 : γ3 = 0; γ4 = 0. • Test de Davidson y MacKinnon (1981): se basa en que si uno de los modelos es verdadero, entonces los valores predichos por el otro modelo no serán significativos en el primero. • Problemas de estos tests: ◦ no necesariamente va a surgir un modelo mejor: es posible rechazar ambos o ninguno, ◦ rechazar un modelo, no significa que el otro sea el correcto, ◦ los modelos alternativos podŕıan tener variables distintas. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Tabla de Contenidos 1 Problemas de especificación de la forma funcional 2 Uso de variables proxy 3 Outliers 4 Errores de medición Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Variables proxy • ¿Qué sucede si por falta de datos se excluye una variable clave del modelo? • Considere la siguiente ecuación de salarios log(salario) = β0 + β1educ + β2exper + β3capac + u • En general, la capacidad no es observable y no siempre se define de la misma forma. • Si educ se correlaciona con capac, al omitir capac se obtienen estimadores sesgados. • Suponga que el interés principal en la estimación son los parámetros β1 y β2. • Es posible usar una variable que aproxime lo suficientemente bien a la variable omitida, por ejemplo, la variable coeficiente intelectual. • A este tipo de variables por lo general se les llama variables proxy. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Variables proxy (cont.) • Considere el siguiente modelo: y = β0 + β1x1 + β2x2 + β3x ∗ 3 + u donde la variable explicativa x∗3 no es observable, pero se podŕıa reemplazar por la variable proxy x3. • ¿Qué caracteŕısticas debe tener x3? • Al menos, debe guardar una relación con x∗3 . Esto se captura mediante la ecuación x∗3 = δ0 + δ1x3 + v3 donde v3 es un error debido a que x ∗ 3 y x3 no están perfectamente correlacionadas. • Los supuestos necesarios para evitar sesgos en los estimadores MCO de β1 y β2 debe ocurrir que los errores u y v3 no se correlacionan con x1, x2 ni x3. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Uso de variables dependientes rezagadas como proxy • A veces no se sabe como obtener una proxy para una posible variable omitida. • En este caso es común usar el valor de la variable dependiente en un periodo anterior como proxy (si se tiene ese dato). • Si existe inercia, la variable omitida puede estar correlacionada tanto con la variable dependiente actual como con esa misma variable rezagada. • Por ejemplo, muchos determinantes en la selección de una universidad, pueden estar capturados en la selección del periodo anterior (eg. infraestructura, curŕıculo, profesores). • Otro ejemplo, muchos factores no observables que determinan la tasa de delincuencia en una ciudad, pueden haber afectado la tasa de delincuencia del periodo anterior. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Ejemplo: Índice de delincuencia urbana • Considere la siguiente ecuación para explicar el ı́ndice de delincuencia ldelin = β0 + β1desem + β2lgasto + β3ldelin−1 + u donde ldelin−1 es el ı́ndice de delincuencia en el año anterior. • ¿Cuál es el propósito de incluir el término β3ldelin−1? • Se espera que β3 > 0 puesto que la delincuencia tiene inercia. ¿Por qué? • Hay factores no observables que influyen en ldelin y que estén correlacionados con lgasto. • Es probable que las ciudades con ı́ndices de delincuencia altos gasten más en prevención. • Estimación del modelo con elasticidad constante Gretl Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Tabla de Contenidos 1 Problemas de especificación de la forma funcional 2 Uso de variables proxy 3 Outliers 4 Errores de medición Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Efecto de los outliers en los estimadores • Cuando se cuenta con muestras pequeñas, una o unas pocas observaciones pueden influir mucho en las estimaciones por MCO. • Una observación es aberrante o un outlier si alcanza un valor inusual dada la distribución muestral. • Visto de otra forma, una observación es un outlier, si los estimadores de MCO cambian sustancialmenteal excluirla de la muestra. • Una buena poĺıtica es preocuparse cuando se modifica ligeramente nuestra muestra y los estimadores cambian en forma considerable. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Efecto de los outliers en los estimadores (cont.) • Desde el punto de vista práctico, los outliers se deben a dos razones: ◦ se cometió un error al tomar los datos, o ◦ se tomaron datos de una población pequeña y uno o varios de sus miembros son muy distintos del resto. • Debido a la primera de estas razones, siempre es buena idea calcular estad́ısticos –entre otros, el ḿınimo y el máximo– para detectar estos outliers. • Frente a la segunda razón, es dif́ıcil tomar la decisión de si mantener o no los outliers en la regresión. En estos casos es mejor reportar los resultados con y sin estas observaciones si es que modifican los resultados sustancialmente. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Inversión en I&D • Suponga que está interesado en medir el efecto de las ventas de una empresa en su inversión en I&D. • Para ello, se estima el modelo gastoI&D = β0 + β1ventas + β2ganancias + u, donde gastoI&D = GastoI&Dventas . • Obteniendo los siguientes resultados: Gretl ˆgastoI&D = 2, 625 + 0, 000053ventas + 0, 0446ganancias (0, 586) (0, 000044) (0, 0462) n = 32, R2 = 0, 0761 R2 = 0, 0124 Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 file:"U:/jcasassus/Documents/teaching/ucecon/econometria/102/clases/clase15_missing_data_muestras_no_aleatorias_y_outliers/ejemplo_i_d.bat" Inversión en I&D (cont.) • De las 32 empresas, 31 tienen ventas inferiores a los 20 mil millones de dólares, una tiene ventas por sobre los 35 mil. 0 2 4 6 8 10 In ve rs ió n en I& D c om o po rc en ta je d e la s ve nt as 0 10000 20000 30000 40000 Ventas Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Inversión en I&D (cont.) • Compare los resultados que obtenemos al eliminar esta observación. • Muestra inicial: ˆgastoI&D = 2, 625 + 0, 000053ventas + 0, 0446ganancias (0, 586) (0, 000044) (0, 0462) n = 32, R2 = 0, 0761 R2 = 0, 0124 • Muestra sin el outlier: Gretl ˆgastoI&D = 2, 297 + 0, 000186ventas + 0, 0478ganancias (0, 592) (0, 000084) (0, 0445) n = 31, R2 = 0, 1728 R2 = 0, 1137 • Entre otros, se observa que el coeficiente de ventas aumenta en más de tres veces. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 file:"U:/jcasassus/Documents/teaching/ucecon/econometria/102/clases/clase15_missing_data_muestras_no_aleatorias_y_outliers/ejemplo_i_d2.bat" Tabla de Contenidos 1 Problemas de especificación de la forma funcional 2 Uso de variables proxy 3 Outliers 4 Errores de medición Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Propiedades de MCO bajo errores de medición • Los errores de medición ocurren porque se utiliza una medida imprecisa de una variable. • En algunos casos estos errores de medición implican sesgos asintóticos en las variables. • El problema de errores de medición tiene una estructura estad́ıstica similar al problema de variables omitidas y uso de variables proxy, pero son conceptualmente distintos. • En el caso de errores de medición, la variable no observable está bien definida, algo que no ocurre siempre ocurre con las variables proxy. • También, muchas veces interesa el efecto de la variable que tiene error de medición, mientras que las variable proxy son usadas como control de otras variables independientes. Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Error de medición en la variable dependiente • Sea y∗ la variable dependiente que se busca explicar. • Por ejemplo, el ingreso que declaran las familias. ¿Qué hogares tienden a sobre declarar? ¿Qué hogares tienden a sub declarar? • Considere el modelo y∗ = β0 + β1x1 + ...+ βkxk + u que satisface los supuestos de Gauss-Markov. • Sea y la medida observada de y∗. • El error de medición se define como e0 = y − y∗. • El modelo se puede reescribir de la forma y = β0 + β1x1 + ...+ βkxk + u + e0 • El término de error de esta ecuación está dado por u + e0. ¿Cómo es Var[u + e0|X ]? • ¿Cuándo los estimadores MCO son consistentes? Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Error de medición en la variable independiente • Considere con el modelo de regresión simple y = β0 + β1x ∗ 1 + u que cumple los primeros cuatro primeros supuestos de Gauss-Markov. • En este caso, no se observa x∗1 sino que x1. • El error de medición está dado por e1 = x1 − x∗1 • Se supone que E (e1) = 0 y que u no se correlaciona con x∗1 ni x1. • Reemplazando en el modelo original y = β0 + β1x1 + (u − β1e1) • Note que Var[e1] = Cov[x1, e1]− Cov[x∗1 , e1] => 0 • ¿Qué pasa si Cov[x1, e1] = 0? • ¿Y si Cov[x∗1 , e1] = 0? Casassus (UC) EAE-250A - Econometŕıa I 27-May-19 Problemas de especificación de la forma funcional Omisión de una función de una variable independiente RESET: Regression Specification Error Test Ejemplo: Precio de las viviendas Test para alternativas no anidadas Uso de variables proxy Variables proxy Uso de variables dependientes rezagadas como proxy Ejemplo: Índice de delincuencia urbana Outliers Efecto de los outliers en los estimadores Inversión en I&D Errores de medición Propiedades de MCO bajo errores de medición Error de medición en la variable dependiente Error de medición en la variable independiente
Compartir