Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Econometŕıa Gúıa 2: Regresión Lineal Pilar Alcalde∗ Universidad de los Andes 2do sem 2014 1 Supuestos de la Regresión Lineal 1. Ejercicios de Wooldridge: (a) Ejercicio 2.1 (b) Ejercicio 2.4 (c) Ejercicio 2.5 (d) Ejercicio 2.6 (e) Ejercicio 3.1 (f) Ejercicio 3.2 (g) Ejercicio 3.4 (h) Ejercicio 3.5 (i) Ejercicio 3.6 (j) Ejercicio 3.7 (k) Ejercicio 3.8 (l) Ejercicio 3.10 2. Considere el modelo de regresión: yi = β0 + β1 · xi + ui. (a) Explique brevemente cada supuesto de Gauss-Markov asociado a este modelo. (b) Suponga que el modelo cumple todos los supuestos de insesgadez, excepto que E(ui|xi) = 10, para cada i. Reescriba este modelo tal que el modelo reescrito cumpla todos los supuestos de insesgadez. Argumente. 3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta. ∗Esta gúıa contiene ejercicios de pruebas y controles de años anteriores, correspondientes a los profesores Pilar Alcalde, Ignacio Inostroza, y David Kimber, a los cuales agradezco por facilitarme el material. 1 (a) No es posible lograr estimadores precisos, sin aumentar la varianza de éstos. (b) Los modelos econométricos pueden ser entendidos como modelos determińısticos. (c) La exclusión de variables relevantes no tiene ningún efecto sobre la homocedasti- cidad del modelo. (d) Nunca se obtendrán los mismos estimadores (betas) al pasar de estimar una re- gresión simple a estimar una múltiple con dos variables explicativas (se agrega una variable relevante al modelo inicial). (e) En un modelo de regresión simple, la pendiente estimada por MCO es 8/10. Entonces, bajo los supuestos del modelo lineal clásico, la distribución de todas las estimaciones MCO de la pendiente debe tener distribución normal centrada en 8/10. (f) En una regresión lineal simple, da igual si la correlación entre X e Y es positiva o negativa ya que β̂1 siempre será positiva. (g) La inclusión de variables relevantes a un modelo econométrico disminuye la vari- anza estimada de los estimadores. (h) En un modelo de regresión lineal múltiple, el coeficiente de determinación siempre es mayor o igual a 0. (i) En un modelo de regresión lineal simple, si no se conoce la distribución de prob- abilidad de los errores, entonces los estimadores MCO del intercepto y de la pendiente no tienen varianza mı́nima. 4. Considere el siguiente modelo que busca explicar el número de asaltos en la ciudad de Santiago. Ai = β1 + β2Hi + ui donde • Ai: número de asaltos en Santiago en una semana. • Hi: número de helados vendidos en dicha semana. y β1, β2 > 0. (a) Interprete el modelo brevemente. (b) ¿Es lógico el modelo? Explique brevemente. 5. Suponga que el modelo yi = β0 + β1 · xi1 + β2 · xi2 + ui (1) satisface todos los supuestos de Gauss-Markov, con β2 < 0. Con una m.a.s. de tamaño n de las tres variables involucradas, Ud. reporta el modelo estimado: ỹi = β̃0 + β̃1 ·xi1. (a) Qué signo tiene el sesgo de β̃1, como estimador de β1? Explique brevemente. (b) Compare la varianza de β̃1 con la varianza del estimador de β1 que se obtiene al estimar el modelo (1). 2 (c) Si Ud. estima el modelo (1), qué factores afectan a la varianza del estimador de β1? Explique brevemente cómo la afectan. 6. En un estudio, se registran salarios (en dólares anuales) de una muestra de profesores de una facultad, aśı como también el sexo de cada profesor y los años que lleva ejerciendo su profesión dentro de esta facultad. Con estos datos, se provee la siguiente regresión estimada: Salarioi = 24697− 3340 ·Hi + ui En esta regresión, Hi es una variable binaria que toma el valor 1 si el docente es hombre, mientras que toma el valor 0 si es mujer. Pero, al incorporar la variable Exp, que indica los años que el docente lleva ejerciendo dentro de la facultad, el modelo estimado (usando la misma muestra) es: Salarioi = 18065 + 201 ·Hi + 759 · Expi + vi Como podrá darse cuenta, al incorporar la variable Exp, la estimación del coefi- ciente asociado al sexo del académico cambió de signo. ¿Cómo puede producirse este fenómeno? Justifique con claridad. 7. Explique qué es el coeficiente de determinación, cómo se interpreta y cómo se puede calcular. ¿Qué sucede con este coeficiente cuando se agregan variables independientes a la regresión? 8. Nombre los supuestos de insesgadez de parámetros poblacionales y explique 3 de éstos. 9. Interprete la siguiente regresión, siendo Salaryi el sueldo mensual de un vendedor y Salesi las ventas que realiza en el mes. ¿Tiene sentido lo obtenido? ln (Salaryi) = 5.789 + 0.0346 · Salesi + ui 10. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta. (a) Siempre que se omita una variable independiente relevante del modelo se intro- ducirán sesgos (positivos o negativos) en estimadores MCO de las variables inde- pendientes que se conservan en el modelo. (b) Considere el modelo yi = β0 + β1xi + ui, el cual satisface todos los supuestos del modelo lineal clásico. Luego, ceteris paribus, la varianza del estimador MCO de β1 será menor si la distribución de x está cada vez más concentrada en su respectivo promedio muestral. (c) En un estudio sobre los determinantes del PIB de distintos páıses, la regresión entre el PIB y el promedio de escolaridad del páıs tiene un R2 de 0.74. En cambio, la regresión entre el logaritmo del PIB y el logaritmo del promedio de escolaridad tiene un R2 de 0.83. Entonces, se prefiere la especificación en logaritmos. (d) Considere un modelo de regresión que satisface todos los supuestos del modelo lineal clásico. En este modelo, la inclusión de variables relevantes disminuye la estimación de la varianza de los estimadores. 3 (e) En el modelo de regresión simple yi = β0 + β1 · · · xi + ui, con E(ui|xi) = 6, la estimación MCO de β0 es sesgada, pero la estimación MCO de β1 no lo es. (f) Un modelo que no satisface el supuesto de normalidad indica que tampoco cumple el teorema de Gauss-Markov. (g) Independiente de la muestra que se tenga, la función de regresión muestral esti- mada siempre será la misma y cercana a la poblacional. (h) Considere el modelo econométrico estimado: bwghti = 119, 770, 514 · · · cigsi. Aqúı, para la i-ésima madre, bwghti es el peso de su bebé al nacer (en onzas) y cigsi es el número de cigarros que ella fumó durante su embarazo. Entre los datos que se usaron para estimar este modelo, se observó a una madre que fumó exactamente 25 cigarros durante su embarazo y su bebé pesó 109 onzas al nacer. En este caso, claramente el modelo econométrico estimado subestima el peso del bebé en 2,08 onzas. (i) En el modelo de regresión lineal, la suma de los residuos (usando MCO) es siempre cero. 2 Inferencia 1. Ejercicios de Wooldridge: (a) Ejercicio 4.1 (b) Ejercicio 4.2 (c) Ejercicio 4.4 (d) Ejercicio 4.5 (e) Ejercicio 4.6 (f) Ejercicio 4.7 (g) Ejercicio 4.8 (h) Ejercicio 4.9 (i) Ejercicio 4.11 2. En una investigación Ud. recopila antecedentes de consumidores chilenos para predecir cuánto gastan anualmente en vacaciones. Para ello, Ud. postula el modelo: Vi = β0 + β1 · Ii + β2 ·Hi + ui (2) donde, para el consumidor i: Ii es su ingreso anual (en millones de pesos), Hi es el número de hijos que tiene, y Vi es su gasto anual en vacaciones (en millones de pesos). Suponga que este modelo cumple todos los supuestos del MLC. Con una m.a.s. de tamaño 50, Ud. estima este modelo y obtiene: β̂0 = 0.72; β̂1 = 0.03 y β̂2 = 0.9. Los errores estándar (ee) son: ee(β̂0) = 0.11; ee(β̂1) = 0.01 y ee(β̂2) = 0.5. Finalmente, R2 = 0.83. 4 (a) Explique con claridad el supuesto de normalidad en el modelo (2). Por qué es importante que se cumpla este supuesto? (b) ¿Será verdad que el número de hijos es estad́ısticamente significativo? Use α = 5%. Explique su procedimiento con claridad. (c) Indique si es verdadera, falsa o incierta la siguiente afirmación: “En el test de significancia conjunta del modelo (2), el valor-p es el menor valor del estad́ıstico de prueba observadoa partir del cual se rechaza la hipótesis nula”. Justifique su respuesta. (d) Un analista afirma: “Para un consumidor sin hijos y con un salario anual de 10 millones de pesos, la estimación de su gasto anual en vacaciones es mayor a 2 millones de pesos”. Explique la importancia del nivel de significancia para averiguar si la afirmación del analista es cierta. 3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta. (a) Un grupo de investigadores A diseñó un modelo que busca explicar el precio de una droga farmacéutica en función de los efectos secundarios (no de casos con efectos secundarios) y su efectividad en pruebas de laboratorio (resultados positivos de tratamiento). Ambas variables resultaron ser significativas. Otro grupo de investigadores B, usó la misma base de datos y siguió los mismos pasos que el grupo A para estimar el modelo, sin embargo obtuvo como resultado que el estimador del parámetro asociado a los efectos secundarios no era significativo. (b) En un modelo que satisface los supuestos del modelo lineal clásico, un test de sig- nificancia conjunta de varios parámetros proporciona siempre el mismo resultado que realizar cada uno de los tests de significancia individual de los parámetros considerados en la hipótesis nula, usando el mismo nivel de significancia en todos los tests. (c) En un modelo de regresión lineal, el supuesto de normalidad en errores es necesario para poder estimar por MCO los parámetros del modelo. (d) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil rechazar esta hipótesis. (e) En un test de significancia individual de X1, rechazar incorrectamente la hipótesis nula implica aumentar la varianza de los estimadores MCO de los parámetros incorporados en el modelo. (f) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil rechazar esta hipótesis. 4. Los profesores de un curso de Econometŕıa deciden que, en lugar de corregir el examen, definirán la nota de éste utilizando los resultados académicos obtenidos por los alumnos durante el semestre. De esta forma, definen un modelo que estará en función de tres evaluaciones anteriores (prueba, promedio de los controles y tareas) y un indicador de 5 asistencia a clases. Suponga que las notas están medidas en una escala de 1 a 7. Los resultados obtenidos aparecen en la Tabla 1. ¿Son todos los parámetros es- tad́ısticamente significativos a nivel individual a un 95% de confianza? Plantee la hipótesis nula y alternativa de una de las variables. Table 1: Modelo 1: MCO, n = 74 Variable dependiente: NOTA EXAMEN Coeficiente Desv. T́ıpica Estad́ıstico t Valor p Const 1.567713 0.495579 3.163395 0.0023 PRUEBA 0.208768 0.109861 1.900285 0.0616 PARTICIPACIÓN 0.100139 0.024607 4.069539 0.0001 CONTROLES 0.219578 0.088838 2.471675 0.0159 TAREAS 0.176957 0.066811 2.648622 0.01 SCR = 31,79855, Error estándar de la Regresión = 0,678858, R2 = 0,532557 5. Considere el siguiente modelo econométrico: yi = β0+β1·xi1+β2·xi2+ui, el cual cumple todos los supuestos del modelo lineal clásico. Al estimar por MCO este modelo usando una m.a.s. de tamaño n = 100, usted obtiene β̂0 = 1, β̂1 = 0.01, β̂2 = 0.001 y una SRC igual a 100. Además, usando esta muestra, la varianza de la variable dependiente es 1.06. Testee la significancia conjunta de ambas variables independientes, usando un 5% de significancia. Para ello, escriba la hipótesis nula, la hipótesis alternativa, el estad́ıstico de prueba (incluida su distribucin de probabilidad y grados de libertad), la regla de decisión y su conclusión. 6. ¿Cuál(es) de las siguientes causas puede(n) hacer que los estad́ısticos t usuales de MCO no sean válidos (o sea, que no tengan una distribución t-Student bajo la hipótesis nula)? Justifique claramente su respuesta. (a) Heterocedasticidad en errores. (b) Que exista un coeficiente de determinación lineal muestral igual al 95% entre dos variables independientes incorporadas en el modelo. (c) La omisión de una variable relevante. 7. Se tiene la siguiente ecuación: ln (Wagei) = β0 + β1 · Educi + β2Experi + β3Tenurei + ui Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo lineal clásico. (a) Plantee las hipótesis que muestren que la experiencia no tiene ningún efecto en el salario que recibe la persona y luego muestre cuál seŕıa el estad́ıstico de prueba correspondiente. 6 (b) Ahora plantee las hipótesis y estad́ıstico de prueba mostrando que las variables Exper y Tenure no tienen ningún efecto en el salario que recibe la persona. 8. ¿Cuál es la diferencia entre la significatividad económica y estad́ıstica? ¿Cuáles son las directrices para analizarlas en una variable en un modelo de regresión múltiple? 9. El Ministerio de Educación realizó un estudio para ver cuáles son los factores que afectan el promedio PSU por colegio a lo largo de todo el páıs. Para esto, utilizó las siguientes variables explicativas en un modelo analizado mediante regresión lineal múltiple: • Promedio Notas : Promedio de notas por colegio • Número de Alumnos : Número de alumnos que rindieron la prueba por colegio • Distancia: Distancia desde la ciudad en que se ubica el colegio a Santiago Y obtuvo los siguientes resultados: Suponga que el modelo econométrico respectivo Desv. Estad́ıs- Int. Confianza Coeficiente T́ıpica tico t 95% Significancia Constante 177.663 11.458 15.51 155.191 200.135 Número de Alumnos 0.085 0.05 4.069 -0.0138 0.1829 Promedio Notas 0.7006 0.0196 35.68 0.66211 0.7391 Distancia -11.555 1.934 -5.97 -15.348 -7.762 satisface todos los supuestos del modelo lineal clásico. ¿Son todos los parámetros estad́ısticamente significativos a nivel individual a un 95% de confianza? 10. En la siguiente regresión, qué interpretación se le daŕıa a H0 : β2 = 0, si no se puede rechazar esta hipótesis nula? Vi = β0 + β1V endi + β2MCi + ui Donde: • Vi: ventas mensuales en la tienda i. • V endi: cantidad de vendedores en la tienda. • MCi: metros cuadrados destinados a los productos. Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo lineal clásico. 11. Considere un modelo de regresión que satisface todos los supuestos del modelo lineal clásico. En un test de significancia estad́ıstica individual de cualquier variable inde- pendiente, cometer un error de tipo II tiene como costo un incremento en la varianza de los estimadores MCO en el modelo que se elige erradamente. Comente. 7 12. Usted desea estimar una relación entre la antigüedad de un auto (A) y su precio (P ). Usando precios (medidos en millones de pesos) y antigüedades (en años) observadas en 218 autos, los resultados de la estimación por mı́nimos cuadrados ordinarios son: P̂ = 18, 951, 38 · A • Coeficiente de determinación = 0,448 • Varianza muestral de la variable Precio = 4,6236 • Varianza muestral de la variable Antigüedad = 1,0858 (a) En el contexto del enunciado, interprete el intercepto y la pendiente estimada. (b) Provea la estimación de la varianza del error y obtenga el error estándar de la regresión. Obtenga la varianza de la pendiente estimada. (c) Refiérase a la significancia global e individual del modelo. Explique con números cómo testeaŕıa la hipótesis H0 : β1 = −2. (d) Sólo en esta pregunta, usted desea estimar esta relación usando un modelo econométrico con los mismos 218 datos, pero considerando la antigüedad, medida en décadas, y el precio, medido en miles de pesos. Escriba la nueva ecuación estimada por mı́nimos cuadrados y reporte el respectivo coeficiente de determinación. Inter- prete la nueva pendiente estimada, en el contexto del enunciado. Cómo cambian sus resultados en la pregunta (2)? Y la (3)? (e) Sólo en esta pregunta, usted deseaestimar esta relación entre precio (en millones de pesos) y antigüedad (en años) usando un modelo econométrico con los mismos 218 datos, pero ahora usted considera el logaritmo natural del precio del auto y el logaritmo natural de la antigüedad, obteniendo los siguientes resultados: ˆlnP = 2, 7 + β̂1 · lnA i. En el contexto del enunciado, interprete la estimación del intercepto. ii. Obtenga el valor de β̂1 que satisface la siguiente condición: si se tienen dos autos A1 y A2, tales que A1 tiene 4 meses de antigüedad y A2 tiene 4,08 meses de antigüedad, entonces usando los resultados de la ecuación se estima que el precio de A2 es un 15% más bajo respecto al precio de A1. 13. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta. (a) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil rechazar esta hipótesis. (b) En un test de significancia individual de cualquier variable independiente, cometer un error de tipo I implica aumentar la varianza de los estimadores MCO de los parámetros incorporados en el modelo. 8 3 Temas adicionales 1. Ejercicios de Wooldridge: (a) Ejercicio 2.8 (b) Ejercicio 2.9 (c) Ejercicio 6.2 (d) Ejercicio 6.8 2. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta. (a) El coeficiente de determinación R2 es un buen método de comparación entre modelos, independiente de los tipos de modelos que este comparando (nivel-nivel, nivel-log, log-nivel, log-log). (b) En una regresión simple entre el retorno de una acción y el retorno del mercado, el coeficiente beta obtenido es el mismo si los retornos se expresan en pesos o en dólares, porque estamos escalando a ambos lados de la regresión por la misma variable. (c) La inclusión de variables relevantes a un modelo econométrico disminuye la vari- anza estimada de los estimadores. (d) Si una variable ordinal toma demasiados valores (ej: ranking de las 100 mejores empresas de Chile) no hay forma de incorporarla como variable independiente en un modelo de regresión. (e) Al estimar un modelo de regresión simple en que la variable dependiente es logaŕıtmica y la explicativa está en niveles, es claro que el parámetro asociado a la pendiente no muestra un cambio constante en Y ante un aumento de 1 unidad en X. (f) Cuando aumenta el número de variables explicativas, el estad́ıstico R2 puede aumentar, disminuir o mantenerse, pero el R2 ajustado solo aumentará si el valor absoluto del estad́ıstico t asociado a ese coeficiente es mayor que uno. (g) En una regresión simple entre el retorno de una acción y el retorno del mercado, las estimaciones de los coeficientes para la pendiente y el intercepto tienen los mismos valores si los retornos se expresan en pesos o en dólares, pues se escala por la misma variable a ambos lados de la regresión. (h) Al comparar entre modelos alternativos, maximizar el coeficiente de determi- nación, minimizar el criterio de Akaike y minimizar el criterio de Schwartz nos lleva a las mismas conclusiones. 3. Se estimó el siguiente modelo que relaciona el salario por hora (medido en US$) con el nivel de educación (medido en años). La muestra la conformaban 526 trabajadores de distintos niveles e industrias. Salarioi = −0.9 + 0.54Educi + ui 9 El salario por hora promedio de la muestra es US$ 5.90, el cual considerando el IPC del peŕıodo, equivale a US$ 16.64 en dólares de 1997. (a) Cuando alguien posee 8 años de educación, el salario por hora estimado es de US$ 3.42 en moneda de 1976. ¿Cuánto seŕıa en 1997? (b) Si se agregara al modelo la variable “experiencia laboral” (medida en años de experiencia), ¿Qué podŕıa pasar con la varianza del estimador de la pendiente asociada a la variable “educación”? 10
Compartir