Logo Studenta

2_regresion_lineal

¡Estudia con miles de materiales!

Vista previa del material en texto

Econometŕıa
Gúıa 2: Regresión Lineal
Pilar Alcalde∗
Universidad de los Andes
2do sem 2014
1 Supuestos de la Regresión Lineal
1. Ejercicios de Wooldridge:
(a) Ejercicio 2.1
(b) Ejercicio 2.4
(c) Ejercicio 2.5
(d) Ejercicio 2.6
(e) Ejercicio 3.1
(f) Ejercicio 3.2
(g) Ejercicio 3.4
(h) Ejercicio 3.5
(i) Ejercicio 3.6
(j) Ejercicio 3.7
(k) Ejercicio 3.8
(l) Ejercicio 3.10
2. Considere el modelo de regresión: yi = β0 + β1 · xi + ui.
(a) Explique brevemente cada supuesto de Gauss-Markov asociado a este modelo.
(b) Suponga que el modelo cumple todos los supuestos de insesgadez, excepto que
E(ui|xi) = 10, para cada i. Reescriba este modelo tal que el modelo reescrito
cumpla todos los supuestos de insesgadez. Argumente.
3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
∗Esta gúıa contiene ejercicios de pruebas y controles de años anteriores, correspondientes a los profesores
Pilar Alcalde, Ignacio Inostroza, y David Kimber, a los cuales agradezco por facilitarme el material.
1
(a) No es posible lograr estimadores precisos, sin aumentar la varianza de éstos.
(b) Los modelos econométricos pueden ser entendidos como modelos determińısticos.
(c) La exclusión de variables relevantes no tiene ningún efecto sobre la homocedasti-
cidad del modelo.
(d) Nunca se obtendrán los mismos estimadores (betas) al pasar de estimar una re-
gresión simple a estimar una múltiple con dos variables explicativas (se agrega
una variable relevante al modelo inicial).
(e) En un modelo de regresión simple, la pendiente estimada por MCO es 8/10.
Entonces, bajo los supuestos del modelo lineal clásico, la distribución de todas
las estimaciones MCO de la pendiente debe tener distribución normal centrada
en 8/10.
(f) En una regresión lineal simple, da igual si la correlación entre X e Y es positiva
o negativa ya que β̂1 siempre será positiva.
(g) La inclusión de variables relevantes a un modelo econométrico disminuye la vari-
anza estimada de los estimadores.
(h) En un modelo de regresión lineal múltiple, el coeficiente de determinación siempre
es mayor o igual a 0.
(i) En un modelo de regresión lineal simple, si no se conoce la distribución de prob-
abilidad de los errores, entonces los estimadores MCO del intercepto y de la
pendiente no tienen varianza mı́nima.
4. Considere el siguiente modelo que busca explicar el número de asaltos en la ciudad de
Santiago.
Ai = β1 + β2Hi + ui
donde
• Ai: número de asaltos en Santiago en una semana.
• Hi: número de helados vendidos en dicha semana.
y β1, β2 > 0.
(a) Interprete el modelo brevemente.
(b) ¿Es lógico el modelo? Explique brevemente.
5. Suponga que el modelo
yi = β0 + β1 · xi1 + β2 · xi2 + ui (1)
satisface todos los supuestos de Gauss-Markov, con β2 < 0. Con una m.a.s. de tamaño
n de las tres variables involucradas, Ud. reporta el modelo estimado: ỹi = β̃0 + β̃1 ·xi1.
(a) Qué signo tiene el sesgo de β̃1, como estimador de β1? Explique brevemente.
(b) Compare la varianza de β̃1 con la varianza del estimador de β1 que se obtiene al
estimar el modelo (1).
2
(c) Si Ud. estima el modelo (1), qué factores afectan a la varianza del estimador de
β1? Explique brevemente cómo la afectan.
6. En un estudio, se registran salarios (en dólares anuales) de una muestra de profesores de
una facultad, aśı como también el sexo de cada profesor y los años que lleva ejerciendo
su profesión dentro de esta facultad. Con estos datos, se provee la siguiente regresión
estimada:
Salarioi = 24697− 3340 ·Hi + ui
En esta regresión, Hi es una variable binaria que toma el valor 1 si el docente es
hombre, mientras que toma el valor 0 si es mujer. Pero, al incorporar la variable Exp,
que indica los años que el docente lleva ejerciendo dentro de la facultad, el modelo
estimado (usando la misma muestra) es:
Salarioi = 18065 + 201 ·Hi + 759 · Expi + vi
Como podrá darse cuenta, al incorporar la variable Exp, la estimación del coefi-
ciente asociado al sexo del académico cambió de signo. ¿Cómo puede producirse este
fenómeno? Justifique con claridad.
7. Explique qué es el coeficiente de determinación, cómo se interpreta y cómo se puede
calcular. ¿Qué sucede con este coeficiente cuando se agregan variables independientes
a la regresión?
8. Nombre los supuestos de insesgadez de parámetros poblacionales y explique 3 de éstos.
9. Interprete la siguiente regresión, siendo Salaryi el sueldo mensual de un vendedor y
Salesi las ventas que realiza en el mes. ¿Tiene sentido lo obtenido?
ln (Salaryi) = 5.789 + 0.0346 · Salesi + ui
10. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Siempre que se omita una variable independiente relevante del modelo se intro-
ducirán sesgos (positivos o negativos) en estimadores MCO de las variables inde-
pendientes que se conservan en el modelo.
(b) Considere el modelo yi = β0 + β1xi + ui, el cual satisface todos los supuestos del
modelo lineal clásico. Luego, ceteris paribus, la varianza del estimador MCO de β1
será menor si la distribución de x está cada vez más concentrada en su respectivo
promedio muestral.
(c) En un estudio sobre los determinantes del PIB de distintos páıses, la regresión
entre el PIB y el promedio de escolaridad del páıs tiene un R2 de 0.74. En cambio,
la regresión entre el logaritmo del PIB y el logaritmo del promedio de escolaridad
tiene un R2 de 0.83. Entonces, se prefiere la especificación en logaritmos.
(d) Considere un modelo de regresión que satisface todos los supuestos del modelo
lineal clásico. En este modelo, la inclusión de variables relevantes disminuye la
estimación de la varianza de los estimadores.
3
(e) En el modelo de regresión simple yi = β0 + β1 · · · xi + ui, con E(ui|xi) = 6, la
estimación MCO de β0 es sesgada, pero la estimación MCO de β1 no lo es.
(f) Un modelo que no satisface el supuesto de normalidad indica que tampoco cumple
el teorema de Gauss-Markov.
(g) Independiente de la muestra que se tenga, la función de regresión muestral esti-
mada siempre será la misma y cercana a la poblacional.
(h) Considere el modelo econométrico estimado: bwghti = 119, 770, 514 · · · cigsi.
Aqúı, para la i-ésima madre, bwghti es el peso de su bebé al nacer (en onzas)
y cigsi es el número de cigarros que ella fumó durante su embarazo. Entre los
datos que se usaron para estimar este modelo, se observó a una madre que fumó
exactamente 25 cigarros durante su embarazo y su bebé pesó 109 onzas al nacer.
En este caso, claramente el modelo econométrico estimado subestima el peso del
bebé en 2,08 onzas.
(i) En el modelo de regresión lineal, la suma de los residuos (usando MCO) es siempre
cero.
2 Inferencia
1. Ejercicios de Wooldridge:
(a) Ejercicio 4.1
(b) Ejercicio 4.2
(c) Ejercicio 4.4
(d) Ejercicio 4.5
(e) Ejercicio 4.6
(f) Ejercicio 4.7
(g) Ejercicio 4.8
(h) Ejercicio 4.9
(i) Ejercicio 4.11
2. En una investigación Ud. recopila antecedentes de consumidores chilenos para predecir
cuánto gastan anualmente en vacaciones. Para ello, Ud. postula el modelo:
Vi = β0 + β1 · Ii + β2 ·Hi + ui (2)
donde, para el consumidor i: Ii es su ingreso anual (en millones de pesos), Hi es el
número de hijos que tiene, y Vi es su gasto anual en vacaciones (en millones de pesos).
Suponga que este modelo cumple todos los supuestos del MLC.
Con una m.a.s. de tamaño 50, Ud. estima este modelo y obtiene: β̂0 = 0.72; β̂1 = 0.03
y β̂2 = 0.9. Los errores estándar (ee) son: ee(β̂0) = 0.11; ee(β̂1) = 0.01 y ee(β̂2) = 0.5.
Finalmente, R2 = 0.83.
4
(a) Explique con claridad el supuesto de normalidad en el modelo (2). Por qué es
importante que se cumpla este supuesto?
(b) ¿Será verdad que el número de hijos es estad́ısticamente significativo? Use α =
5%. Explique su procedimiento con claridad.
(c) Indique si es verdadera, falsa o incierta la siguiente afirmación: “En el test de
significancia conjunta del modelo (2), el valor-p es el menor valor del estad́ıstico
de prueba observadoa partir del cual se rechaza la hipótesis nula”. Justifique su
respuesta.
(d) Un analista afirma: “Para un consumidor sin hijos y con un salario anual de
10 millones de pesos, la estimación de su gasto anual en vacaciones es mayor
a 2 millones de pesos”. Explique la importancia del nivel de significancia para
averiguar si la afirmación del analista es cierta.
3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Un grupo de investigadores A diseñó un modelo que busca explicar el precio
de una droga farmacéutica en función de los efectos secundarios (no de casos
con efectos secundarios) y su efectividad en pruebas de laboratorio (resultados
positivos de tratamiento). Ambas variables resultaron ser significativas. Otro
grupo de investigadores B, usó la misma base de datos y siguió los mismos pasos
que el grupo A para estimar el modelo, sin embargo obtuvo como resultado que
el estimador del parámetro asociado a los efectos secundarios no era significativo.
(b) En un modelo que satisface los supuestos del modelo lineal clásico, un test de sig-
nificancia conjunta de varios parámetros proporciona siempre el mismo resultado
que realizar cada uno de los tests de significancia individual de los parámetros
considerados en la hipótesis nula, usando el mismo nivel de significancia en todos
los tests.
(c) En un modelo de regresión lineal, el supuesto de normalidad en errores es necesario
para poder estimar por MCO los parámetros del modelo.
(d) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
(e) En un test de significancia individual de X1, rechazar incorrectamente la hipótesis
nula implica aumentar la varianza de los estimadores MCO de los parámetros
incorporados en el modelo.
(f) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
4. Los profesores de un curso de Econometŕıa deciden que, en lugar de corregir el examen,
definirán la nota de éste utilizando los resultados académicos obtenidos por los alumnos
durante el semestre. De esta forma, definen un modelo que estará en función de tres
evaluaciones anteriores (prueba, promedio de los controles y tareas) y un indicador de
5
asistencia a clases. Suponga que las notas están medidas en una escala de 1 a 7.
Los resultados obtenidos aparecen en la Tabla 1. ¿Son todos los parámetros es-
tad́ısticamente significativos a nivel individual a un 95% de confianza? Plantee la
hipótesis nula y alternativa de una de las variables.
Table 1: Modelo 1: MCO, n = 74
Variable dependiente: NOTA EXAMEN
Coeficiente Desv. T́ıpica Estad́ıstico t Valor p
Const 1.567713 0.495579 3.163395 0.0023
PRUEBA 0.208768 0.109861 1.900285 0.0616
PARTICIPACIÓN 0.100139 0.024607 4.069539 0.0001
CONTROLES 0.219578 0.088838 2.471675 0.0159
TAREAS 0.176957 0.066811 2.648622 0.01
SCR = 31,79855, Error estándar de la Regresión = 0,678858, R2 = 0,532557
5. Considere el siguiente modelo econométrico: yi = β0+β1·xi1+β2·xi2+ui, el cual cumple
todos los supuestos del modelo lineal clásico. Al estimar por MCO este modelo usando
una m.a.s. de tamaño n = 100, usted obtiene β̂0 = 1, β̂1 = 0.01, β̂2 = 0.001 y una
SRC igual a 100. Además, usando esta muestra, la varianza de la variable dependiente
es 1.06. Testee la significancia conjunta de ambas variables independientes, usando
un 5% de significancia. Para ello, escriba la hipótesis nula, la hipótesis alternativa, el
estad́ıstico de prueba (incluida su distribucin de probabilidad y grados de libertad), la
regla de decisión y su conclusión.
6. ¿Cuál(es) de las siguientes causas puede(n) hacer que los estad́ısticos t usuales de MCO
no sean válidos (o sea, que no tengan una distribución t-Student bajo la hipótesis nula)?
Justifique claramente su respuesta.
(a) Heterocedasticidad en errores.
(b) Que exista un coeficiente de determinación lineal muestral igual al 95% entre dos
variables independientes incorporadas en el modelo.
(c) La omisión de una variable relevante.
7. Se tiene la siguiente ecuación:
ln (Wagei) = β0 + β1 · Educi + β2Experi + β3Tenurei + ui
Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo
lineal clásico.
(a) Plantee las hipótesis que muestren que la experiencia no tiene ningún efecto en el
salario que recibe la persona y luego muestre cuál seŕıa el estad́ıstico de prueba
correspondiente.
6
(b) Ahora plantee las hipótesis y estad́ıstico de prueba mostrando que las variables
Exper y Tenure no tienen ningún efecto en el salario que recibe la persona.
8. ¿Cuál es la diferencia entre la significatividad económica y estad́ıstica? ¿Cuáles son
las directrices para analizarlas en una variable en un modelo de regresión múltiple?
9. El Ministerio de Educación realizó un estudio para ver cuáles son los factores que
afectan el promedio PSU por colegio a lo largo de todo el páıs. Para esto, utilizó
las siguientes variables explicativas en un modelo analizado mediante regresión lineal
múltiple:
• Promedio Notas : Promedio de notas por colegio
• Número de Alumnos : Número de alumnos que rindieron la prueba por colegio
• Distancia: Distancia desde la ciudad en que se ubica el colegio a Santiago
Y obtuvo los siguientes resultados: Suponga que el modelo econométrico respectivo
Desv. Estad́ıs- Int. Confianza
Coeficiente T́ıpica tico t 95% Significancia
Constante 177.663 11.458 15.51 155.191 200.135
Número de Alumnos 0.085 0.05 4.069 -0.0138 0.1829
Promedio Notas 0.7006 0.0196 35.68 0.66211 0.7391
Distancia -11.555 1.934 -5.97 -15.348 -7.762
satisface todos los supuestos del modelo lineal clásico. ¿Son todos los parámetros
estad́ısticamente significativos a nivel individual a un 95% de confianza?
10. En la siguiente regresión, qué interpretación se le daŕıa a H0 : β2 = 0, si no se puede
rechazar esta hipótesis nula?
Vi = β0 + β1V endi + β2MCi + ui
Donde:
• Vi: ventas mensuales en la tienda i.
• V endi: cantidad de vendedores en la tienda.
• MCi: metros cuadrados destinados a los productos.
Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo
lineal clásico.
11. Considere un modelo de regresión que satisface todos los supuestos del modelo lineal
clásico. En un test de significancia estad́ıstica individual de cualquier variable inde-
pendiente, cometer un error de tipo II tiene como costo un incremento en la varianza
de los estimadores MCO en el modelo que se elige erradamente. Comente.
7
12. Usted desea estimar una relación entre la antigüedad de un auto (A) y su precio (P ).
Usando precios (medidos en millones de pesos) y antigüedades (en años) observadas
en 218 autos, los resultados de la estimación por mı́nimos cuadrados ordinarios son:
P̂ = 18, 951, 38 · A
• Coeficiente de determinación = 0,448
• Varianza muestral de la variable Precio = 4,6236
• Varianza muestral de la variable Antigüedad = 1,0858
(a) En el contexto del enunciado, interprete el intercepto y la pendiente estimada.
(b) Provea la estimación de la varianza del error y obtenga el error estándar de la
regresión. Obtenga la varianza de la pendiente estimada.
(c) Refiérase a la significancia global e individual del modelo. Explique con números
cómo testeaŕıa la hipótesis H0 : β1 = −2.
(d) Sólo en esta pregunta, usted desea estimar esta relación usando un modelo econométrico
con los mismos 218 datos, pero considerando la antigüedad, medida en décadas,
y el precio, medido en miles de pesos. Escriba la nueva ecuación estimada por
mı́nimos cuadrados y reporte el respectivo coeficiente de determinación. Inter-
prete la nueva pendiente estimada, en el contexto del enunciado. Cómo cambian
sus resultados en la pregunta (2)? Y la (3)?
(e) Sólo en esta pregunta, usted deseaestimar esta relación entre precio (en millones
de pesos) y antigüedad (en años) usando un modelo econométrico con los mismos
218 datos, pero ahora usted considera el logaritmo natural del precio del auto y
el logaritmo natural de la antigüedad, obteniendo los siguientes resultados:
ˆlnP = 2, 7 + β̂1 · lnA
i. En el contexto del enunciado, interprete la estimación del intercepto.
ii. Obtenga el valor de β̂1 que satisface la siguiente condición: si se tienen dos
autos A1 y A2, tales que A1 tiene 4 meses de antigüedad y A2 tiene 4,08 meses
de antigüedad, entonces usando los resultados de la ecuación se estima que el
precio de A2 es un 15% más bajo respecto al precio de A1.
13. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
(b) En un test de significancia individual de cualquier variable independiente, cometer
un error de tipo I implica aumentar la varianza de los estimadores MCO de los
parámetros incorporados en el modelo.
8
3 Temas adicionales
1. Ejercicios de Wooldridge:
(a) Ejercicio 2.8
(b) Ejercicio 2.9
(c) Ejercicio 6.2
(d) Ejercicio 6.8
2. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) El coeficiente de determinación R2 es un buen método de comparación entre
modelos, independiente de los tipos de modelos que este comparando (nivel-nivel,
nivel-log, log-nivel, log-log).
(b) En una regresión simple entre el retorno de una acción y el retorno del mercado,
el coeficiente beta obtenido es el mismo si los retornos se expresan en pesos o en
dólares, porque estamos escalando a ambos lados de la regresión por la misma
variable.
(c) La inclusión de variables relevantes a un modelo econométrico disminuye la vari-
anza estimada de los estimadores.
(d) Si una variable ordinal toma demasiados valores (ej: ranking de las 100 mejores
empresas de Chile) no hay forma de incorporarla como variable independiente en
un modelo de regresión.
(e) Al estimar un modelo de regresión simple en que la variable dependiente es
logaŕıtmica y la explicativa está en niveles, es claro que el parámetro asociado
a la pendiente no muestra un cambio constante en Y ante un aumento de 1
unidad en X.
(f) Cuando aumenta el número de variables explicativas, el estad́ıstico R2 puede
aumentar, disminuir o mantenerse, pero el R2 ajustado solo aumentará si el valor
absoluto del estad́ıstico t asociado a ese coeficiente es mayor que uno.
(g) En una regresión simple entre el retorno de una acción y el retorno del mercado,
las estimaciones de los coeficientes para la pendiente y el intercepto tienen los
mismos valores si los retornos se expresan en pesos o en dólares, pues se escala
por la misma variable a ambos lados de la regresión.
(h) Al comparar entre modelos alternativos, maximizar el coeficiente de determi-
nación, minimizar el criterio de Akaike y minimizar el criterio de Schwartz nos
lleva a las mismas conclusiones.
3. Se estimó el siguiente modelo que relaciona el salario por hora (medido en US$) con el
nivel de educación (medido en años). La muestra la conformaban 526 trabajadores de
distintos niveles e industrias.
Salarioi = −0.9 + 0.54Educi + ui
9
El salario por hora promedio de la muestra es US$ 5.90, el cual considerando el IPC
del peŕıodo, equivale a US$ 16.64 en dólares de 1997.
(a) Cuando alguien posee 8 años de educación, el salario por hora estimado es de US$
3.42 en moneda de 1976. ¿Cuánto seŕıa en 1997?
(b) Si se agregara al modelo la variable “experiencia laboral” (medida en años de
experiencia), ¿Qué podŕıa pasar con la varianza del estimador de la pendiente
asociada a la variable “educación”?
10

Continuar navegando

Materiales relacionados

36 pag.
2-Modelos lineales

User badge image

wendy sedano ricaldi