Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Consecuencias de una mala especificación del modelo Luis Frank Depto. Métodos Cuantitativos Facultad de Agronoḿıa Universidad de Buenos Aires Mayo, 2022 Introducción Hasta el momento asumimos que nuestro modelo era coherente con el verdadero proceso generador de datos. Sin embargo, suele suceder en la práctica que por desconocimiento ▶ omitamos variables relevantes para explicar y, o bien ▶ incluyamos variables irrelevantes entre los regresores. La pregunta que nos interesa responder entonces es ¿qué consecuencias acarrea excluir del modelo variables que son relevantes, o bien incluir variables que son irrelevantes? Es decir, ▶ qué consecuencias cabe esperar de una mala especificación. Para responder esta pregunta reescribamos el modelo clásico como y = [ X1 X2 ] [ β1 β2 ] + ϵ con ϵ ∼ N(0, σ2In). (1) Regresión particionada El sistema de ecuaciones normales que resulta de minimizar la suma de errores al cuadrado es ahora[ X′1X1 X ′ 1X2 X′2X1 X ′ 2X2 ] [ b1 b2 ] = [ X′1y X′2y ] , y la solución para b1 que surge de la primera ecuación es b1 = (X ′ 1X1) −1X′1(y− X2b2). (2) En general, se verifica que b1 ̸= (X′1X1)−1X′1y, salvo que los regresores sean ortogonales entre śı, es decir que X′1X2 = 0, situación que rara vez se da en la práctica. Regresión particionada (cont.) Introduciendo (2) en la segunda ecuación del sistema obtenemos X′2 (In −M1)X2 b2 = X′2 (In −M1) y, donde M1 = X1 ( X′1X1 )−1 X′1. La solución para b2 es b2 = [ X′2 (In −M1)X2 ]−1 X′2 (In −M1) y. (3) Notemos que (a) In −M1 es una matriz idempotente, de modo que definiendo X̃2 = (In −M1)X2 es posible calcular b2 por OLS simplemente regresando y sobre X̃2; (b) podemos calcular b1 en dos etapas primero con (3) (o por OLS con X̃2) y luego con (2). Omisión de variables relevantes Recordemos el modelo (1) pero supongamos que (por descono- cimiento) omitimos las variables X2. Si estimamos β1 por OLS b̃1 = (X ′ 1X1) −1X′1y. La esperanza de b̃1 es E (b̃1|X) = ( X′1X1 )−1 X′1E (X1β1 + X2β2 + ϵ|X) = β1 + ( X′1X1 )−1 X′1X2β2 donde resulta evidente que b̃1 es un estimador sesgado, salvo que ocurra que X′1X2 = 0 o β2 = 0. Para calcular la varianza de b1 conviene (sin pérdida de generalidad) intercambiar b1 por b2 en (2) y (3) de modo que b1 = [ X′1 (In −M2)X1 ]−1 X′1 (In −M2) y. Omisión de variables relevantes (cont.) Luego, la var(b1|X) es var(b1) = σ 2 [ X′1(In −M2)X1 ]−1 X′1 (In −M2)X1 [ X′1 (In −M2)X1 ]−1 = σ2 [ X′1 (In −M2)X1 ]−1 , ̸= σ2(X′1X1)−1 La diferencia entre las inversas de var(b̃1) var(b1) es var(b̃1) −1 − var(b1)−1 = σ−2X′1X1 − σ−2X′1 (In −M2)X1 = σ−2X′1M2X1, donde la matriz del lado derecho es positva definida ya que puede ser expresada como B′AB donde A = (X′2X2) −1 y B = X′2X1. Esto significa que para cualquier combinación lineal de b̃1 y b1 var(w′b̃1) −1 > var(w′b1) −1 o var(w′b̃1) < var(w ′b1). Es decir, la varianza de del estimador sesgado b̃1 es siempre menor que la del estimador insesgado b1. Inclusión de variables irrelevantes Recordemos una vez más el modelo clásico y = X1β1 + ϵ con ϵ ∼ N ( 0, σ2In ) , pero supongamos que por error incluimos variables irrelevantes X2, y = [ X1 X2 ] [ β1 0 ] + ϵ con ϵ ∼ ( 0, σ2In ) (4) En este caso, cabe esperar que ▶ E (b2) = 0 y que por lo tanto b1 sea un estimador insesgado de β1. ▶ var(w′b1) > var(w′b̃1) (ver sección anterior) siendo ahora b̃1 el estimador correcto y b1 el estimador de variables irrelevantes. Es decir, la incluisión de variables irrelevantes produce estimadores insesgados aunque ineficientes.
Compartir