2_regresion_lineal

•
Outros

Estudiando Ingenieria
24/5/2022
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Ingeniería Civil

106.495 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Econometŕıa
Gúıa 2: Regresión Lineal
Pilar Alcalde∗
Universidad de los Andes
2do sem 2014
1 Supuestos de la Regresión Lineal
1. Ejercicios de Wooldridge:
(a) Ejercicio 2.1
(b) Ejercicio 2.4
(c) Ejercicio 2.5
(d) Ejercicio 2.6
(e) Ejercicio 3.1
(f) Ejercicio 3.2
(g) Ejercicio 3.4
(h) Ejercicio 3.5
(i) Ejercicio 3.6
(j) Ejercicio 3.7
(k) Ejercicio 3.8
(l) Ejercicio 3.10
2. Considere el modelo de regresión: yi = β0 + β1 · xi + ui.
(a) Explique brevemente cada supuesto de Gauss-Markov asociado a este modelo.
(b) Suponga que el modelo cumple todos los supuestos de insesgadez, excepto que
E(ui|xi) = 10, para cada i. Reescriba este modelo tal que el modelo reescrito
cumpla todos los supuestos de insesgadez. Argumente.
3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
∗Esta gúıa contiene ejercicios de pruebas y controles de años anteriores, correspondientes a los profesores
Pilar Alcalde, Ignacio Inostroza, y David Kimber, a los cuales agradezco por facilitarme el material.
1
(a) No es posible lograr estimadores precisos, sin aumentar la varianza de éstos.
(b) Los modelos econométricos pueden ser entendidos como modelos determińısticos.
(c) La exclusión de variables relevantes no tiene ningún efecto sobre la homocedasti-
cidad del modelo.
(d) Nunca se obtendrán los mismos estimadores (betas) al pasar de estimar una re-
gresión simple a estimar una múltiple con dos variables explicativas (se agrega
una variable relevante al modelo inicial).
(e) En un modelo de regresión simple, la pendiente estimada por MCO es 8/10.
Entonces, bajo los supuestos del modelo lineal clásico, la distribución de todas
las estimaciones MCO de la pendiente debe tener distribución normal centrada
en 8/10.
(f) En una regresión lineal simple, da igual si la correlación entre X e Y es positiva
o negativa ya que β̂1 siempre será positiva.
(g) La inclusión de variables relevantes a un modelo econométrico disminuye la vari-
anza estimada de los estimadores.
(h) En un modelo de regresión lineal múltiple, el coeficiente de determinación siempre
es mayor o igual a 0.
(i) En un modelo de regresión lineal simple, si no se conoce la distribución de prob-
abilidad de los errores, entonces los estimadores MCO del intercepto y de la
pendiente no tienen varianza mı́nima.
4. Considere el siguiente modelo que busca explicar el número de asaltos en la ciudad de
Santiago.
Ai = β1 + β2Hi + ui
donde
• Ai: número de asaltos en Santiago en una semana.
• Hi: número de helados vendidos en dicha semana.
y β1, β2 > 0.
(a) Interprete el modelo brevemente.
(b) ¿Es lógico el modelo? Explique brevemente.
5. Suponga que el modelo
yi = β0 + β1 · xi1 + β2 · xi2 + ui (1)
satisface todos los supuestos de Gauss-Markov, con β2 < 0. Con una m.a.s. de tamaño
n de las tres variables involucradas, Ud. reporta el modelo estimado: ỹi = β̃0 + β̃1 ·xi1.
(a) Qué signo tiene el sesgo de β̃1, como estimador de β1? Explique brevemente.
(b) Compare la varianza de β̃1 con la varianza del estimador de β1 que se obtiene al
estimar el modelo (1).
2
(c) Si Ud. estima el modelo (1), qué factores afectan a la varianza del estimador de
β1? Explique brevemente cómo la afectan.
6. En un estudio, se registran salarios (en dólares anuales) de una muestra de profesores de
una facultad, aśı como también el sexo de cada profesor y los años que lleva ejerciendo
su profesión dentro de esta facultad. Con estos datos, se provee la siguiente regresión
estimada:
Salarioi = 24697− 3340 ·Hi + ui
En esta regresión, Hi es una variable binaria que toma el valor 1 si el docente es
hombre, mientras que toma el valor 0 si es mujer. Pero, al incorporar la variable Exp,
que indica los años que el docente lleva ejerciendo dentro de la facultad, el modelo
estimado (usando la misma muestra) es:
Salarioi = 18065 + 201 ·Hi + 759 · Expi + vi
Como podrá darse cuenta, al incorporar la variable Exp, la estimación del coefi-
ciente asociado al sexo del académico cambió de signo. ¿Cómo puede producirse este
fenómeno? Justifique con claridad.
7. Explique qué es el coeficiente de determinación, cómo se interpreta y cómo se puede
calcular. ¿Qué sucede con este coeficiente cuando se agregan variables independientes
a la regresión?
8. Nombre los supuestos de insesgadez de parámetros poblacionales y explique 3 de éstos.
9. Interprete la siguiente regresión, siendo Salaryi el sueldo mensual de un vendedor y
Salesi las ventas que realiza en el mes. ¿Tiene sentido lo obtenido?
ln (Salaryi) = 5.789 + 0.0346 · Salesi + ui
10. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Siempre que se omita una variable independiente relevante del modelo se intro-
ducirán sesgos (positivos o negativos) en estimadores MCO de las variables inde-
pendientes que se conservan en el modelo.
(b) Considere el modelo yi = β0 + β1xi + ui, el cual satisface todos los supuestos del
modelo lineal clásico. Luego, ceteris paribus, la varianza del estimador MCO de β1
será menor si la distribución de x está cada vez más concentrada en su respectivo
promedio muestral.
(c) En un estudio sobre los determinantes del PIB de distintos páıses, la regresión
entre el PIB y el promedio de escolaridad del páıs tiene un R2 de 0.74. En cambio,
la regresión entre el logaritmo del PIB y el logaritmo del promedio de escolaridad
tiene un R2 de 0.83. Entonces, se prefiere la especificación en logaritmos.
(d) Considere un modelo de regresión que satisface todos los supuestos del modelo
lineal clásico. En este modelo, la inclusión de variables relevantes disminuye la
estimación de la varianza de los estimadores.
3
(e) En el modelo de regresión simple yi = β0 + β1 · · · xi + ui, con E(ui|xi) = 6, la
estimación MCO de β0 es sesgada, pero la estimación MCO de β1 no lo es.
(f) Un modelo que no satisface el supuesto de normalidad indica que tampoco cumple
el teorema de Gauss-Markov.
(g) Independiente de la muestra que se tenga, la función de regresión muestral esti-
mada siempre será la misma y cercana a la poblacional.
(h) Considere el modelo econométrico estimado: bwghti = 119, 770, 514 · · · cigsi.
Aqúı, para la i-ésima madre, bwghti es el peso de su bebé al nacer (en onzas)
y cigsi es el número de cigarros que ella fumó durante su embarazo. Entre los
datos que se usaron para estimar este modelo, se observó a una madre que fumó
exactamente 25 cigarros durante su embarazo y su bebé pesó 109 onzas al nacer.
En este caso, claramente el modelo econométrico estimado subestima el peso del
bebé en 2,08 onzas.
(i) En el modelo de regresión lineal, la suma de los residuos (usando MCO) es siempre
cero.
2 Inferencia
1. Ejercicios de Wooldridge:
(a) Ejercicio 4.1
(b) Ejercicio 4.2
(c) Ejercicio 4.4
(d) Ejercicio 4.5
(e) Ejercicio 4.6
(f) Ejercicio 4.7
(g) Ejercicio 4.8
(h) Ejercicio 4.9
(i) Ejercicio 4.11
2. En una investigación Ud. recopila antecedentes de consumidores chilenos para predecir
cuánto gastan anualmente en vacaciones. Para ello, Ud. postula el modelo:
Vi = β0 + β1 · Ii + β2 ·Hi + ui (2)
donde, para el consumidor i: Ii es su ingreso anual (en millones de pesos), Hi es el
número de hijos que tiene, y Vi es su gasto anual en vacaciones (en millones de pesos).
Suponga que este modelo cumple todos los supuestos del MLC.
Con una m.a.s. de tamaño 50, Ud. estima este modelo y obtiene: β̂0 = 0.72; β̂1 = 0.03
y β̂2 = 0.9. Los errores estándar (ee) son: ee(β̂0) = 0.11; ee(β̂1) = 0.01 y ee(β̂2) = 0.5.
Finalmente, R2 = 0.83.
4
(a) Explique con claridad el supuesto de normalidad en el modelo (2). Por qué es
importante que se cumpla este supuesto?
(b) ¿Será verdad que el número de hijos es estad́ısticamente significativo? Use α =
5%. Explique su procedimiento con claridad.
(c) Indique si es verdadera, falsa o incierta la siguiente afirmación: “En el test de
significancia conjunta del modelo (2), el valor-p es el menor valor del estad́ıstico
de prueba observadoa partir del cual se rechaza la hipótesis nula”. Justifique su
respuesta.
(d) Un analista afirma: “Para un consumidor sin hijos y con un salario anual de
10 millones de pesos, la estimación de su gasto anual en vacaciones es mayor
a 2 millones de pesos”. Explique la importancia del nivel de significancia para
averiguar si la afirmación del analista es cierta.
3. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Un grupo de investigadores A diseñó un modelo que busca explicar el precio
de una droga farmacéutica en función de los efectos secundarios (no de casos
con efectos secundarios) y su efectividad en pruebas de laboratorio (resultados
positivos de tratamiento). Ambas variables resultaron ser significativas. Otro
grupo de investigadores B, usó la misma base de datos y siguió los mismos pasos
que el grupo A para estimar el modelo, sin embargo obtuvo como resultado que
el estimador del parámetro asociado a los efectos secundarios no era significativo.
(b) En un modelo que satisface los supuestos del modelo lineal clásico, un test de sig-
nificancia conjunta de varios parámetros proporciona siempre el mismo resultado
que realizar cada uno de los tests de significancia individual de los parámetros
considerados en la hipótesis nula, usando el mismo nivel de significancia en todos
los tests.
(c) En un modelo de regresión lineal, el supuesto de normalidad en errores es necesario
para poder estimar por MCO los parámetros del modelo.
(d) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
(e) En un test de significancia individual de X1, rechazar incorrectamente la hipótesis
nula implica aumentar la varianza de los estimadores MCO de los parámetros
incorporados en el modelo.
(f) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
4. Los profesores de un curso de Econometŕıa deciden que, en lugar de corregir el examen,
definirán la nota de éste utilizando los resultados académicos obtenidos por los alumnos
durante el semestre. De esta forma, definen un modelo que estará en función de tres
evaluaciones anteriores (prueba, promedio de los controles y tareas) y un indicador de
5
asistencia a clases. Suponga que las notas están medidas en una escala de 1 a 7.
Los resultados obtenidos aparecen en la Tabla 1. ¿Son todos los parámetros es-
tad́ısticamente significativos a nivel individual a un 95% de confianza? Plantee la
hipótesis nula y alternativa de una de las variables.
Table 1: Modelo 1: MCO, n = 74
Variable dependiente: NOTA EXAMEN
Coeficiente Desv. T́ıpica Estad́ıstico t Valor p
Const 1.567713 0.495579 3.163395 0.0023
PRUEBA 0.208768 0.109861 1.900285 0.0616
PARTICIPACIÓN 0.100139 0.024607 4.069539 0.0001
CONTROLES 0.219578 0.088838 2.471675 0.0159
TAREAS 0.176957 0.066811 2.648622 0.01
SCR = 31,79855, Error estándar de la Regresión = 0,678858, R2 = 0,532557
5. Considere el siguiente modelo econométrico: yi = β0+β1·xi1+β2·xi2+ui, el cual cumple
todos los supuestos del modelo lineal clásico. Al estimar por MCO este modelo usando
una m.a.s. de tamaño n = 100, usted obtiene β̂0 = 1, β̂1 = 0.01, β̂2 = 0.001 y una
SRC igual a 100. Además, usando esta muestra, la varianza de la variable dependiente
es 1.06. Testee la significancia conjunta de ambas variables independientes, usando
un 5% de significancia. Para ello, escriba la hipótesis nula, la hipótesis alternativa, el
estad́ıstico de prueba (incluida su distribucin de probabilidad y grados de libertad), la
regla de decisión y su conclusión.
6. ¿Cuál(es) de las siguientes causas puede(n) hacer que los estad́ısticos t usuales de MCO
no sean válidos (o sea, que no tengan una distribución t-Student bajo la hipótesis nula)?
Justifique claramente su respuesta.
(a) Heterocedasticidad en errores.
(b) Que exista un coeficiente de determinación lineal muestral igual al 95% entre dos
variables independientes incorporadas en el modelo.
(c) La omisión de una variable relevante.
7. Se tiene la siguiente ecuación:
ln (Wagei) = β0 + β1 · Educi + β2Experi + β3Tenurei + ui
Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo
lineal clásico.
(a) Plantee las hipótesis que muestren que la experiencia no tiene ningún efecto en el
salario que recibe la persona y luego muestre cuál seŕıa el estad́ıstico de prueba
correspondiente.
6
(b) Ahora plantee las hipótesis y estad́ıstico de prueba mostrando que las variables
Exper y Tenure no tienen ningún efecto en el salario que recibe la persona.
8. ¿Cuál es la diferencia entre la significatividad económica y estad́ıstica? ¿Cuáles son
las directrices para analizarlas en una variable en un modelo de regresión múltiple?
9. El Ministerio de Educación realizó un estudio para ver cuáles son los factores que
afectan el promedio PSU por colegio a lo largo de todo el páıs. Para esto, utilizó
las siguientes variables explicativas en un modelo analizado mediante regresión lineal
múltiple:
• Promedio Notas : Promedio de notas por colegio
• Número de Alumnos : Número de alumnos que rindieron la prueba por colegio
• Distancia: Distancia desde la ciudad en que se ubica el colegio a Santiago
Y obtuvo los siguientes resultados: Suponga que el modelo econométrico respectivo
Desv. Estad́ıs- Int. Confianza
Coeficiente T́ıpica tico t 95% Significancia
Constante 177.663 11.458 15.51 155.191 200.135
Número de Alumnos 0.085 0.05 4.069 -0.0138 0.1829
Promedio Notas 0.7006 0.0196 35.68 0.66211 0.7391
Distancia -11.555 1.934 -5.97 -15.348 -7.762
satisface todos los supuestos del modelo lineal clásico. ¿Son todos los parámetros
estad́ısticamente significativos a nivel individual a un 95% de confianza?
10. En la siguiente regresión, qué interpretación se le daŕıa a H0 : β2 = 0, si no se puede
rechazar esta hipótesis nula?
Vi = β0 + β1V endi + β2MCi + ui
Donde:
• Vi: ventas mensuales en la tienda i.
• V endi: cantidad de vendedores en la tienda.
• MCi: metros cuadrados destinados a los productos.
Suponga que el modelo econométrico respectivo satisface todos los supuestos del modelo
lineal clásico.
11. Considere un modelo de regresión que satisface todos los supuestos del modelo lineal
clásico. En un test de significancia estad́ıstica individual de cualquier variable inde-
pendiente, cometer un error de tipo II tiene como costo un incremento en la varianza
de los estimadores MCO en el modelo que se elige erradamente. Comente.
7
12. Usted desea estimar una relación entre la antigüedad de un auto (A) y su precio (P ).
Usando precios (medidos en millones de pesos) y antigüedades (en años) observadas
en 218 autos, los resultados de la estimación por mı́nimos cuadrados ordinarios son:
P̂ = 18, 951, 38 · A
• Coeficiente de determinación = 0,448
• Varianza muestral de la variable Precio = 4,6236
• Varianza muestral de la variable Antigüedad = 1,0858
(a) En el contexto del enunciado, interprete el intercepto y la pendiente estimada.
(b) Provea la estimación de la varianza del error y obtenga el error estándar de la
regresión. Obtenga la varianza de la pendiente estimada.
(c) Refiérase a la significancia global e individual del modelo. Explique con números
cómo testeaŕıa la hipótesis H0 : β1 = −2.
(d) Sólo en esta pregunta, usted desea estimar esta relación usando un modelo econométrico
con los mismos 218 datos, pero considerando la antigüedad, medida en décadas,
y el precio, medido en miles de pesos. Escriba la nueva ecuación estimada por
mı́nimos cuadrados y reporte el respectivo coeficiente de determinación. Inter-
prete la nueva pendiente estimada, en el contexto del enunciado. Cómo cambian
sus resultados en la pregunta (2)? Y la (3)?
(e) Sólo en esta pregunta, usted deseaestimar esta relación entre precio (en millones
de pesos) y antigüedad (en años) usando un modelo econométrico con los mismos
218 datos, pero ahora usted considera el logaritmo natural del precio del auto y
el logaritmo natural de la antigüedad, obteniendo los siguientes resultados:
ˆlnP = 2, 7 + β̂1 · lnA
i. En el contexto del enunciado, interprete la estimación del intercepto.
ii. Obtenga el valor de β̂1 que satisface la siguiente condición: si se tienen dos
autos A1 y A2, tales que A1 tiene 4 meses de antigüedad y A2 tiene 4,08 meses
de antigüedad, entonces usando los resultados de la ecuación se estima que el
precio de A2 es un 15% más bajo respecto al precio de A1.
13. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) Si el costo de rechazar incorrectamente una hipótesis nula es muy alto, debeŕıamos
reducir el nivel de significancia al mı́nimo posible, ya que aśı será más dif́ıcil
rechazar esta hipótesis.
(b) En un test de significancia individual de cualquier variable independiente, cometer
un error de tipo I implica aumentar la varianza de los estimadores MCO de los
parámetros incorporados en el modelo.
8
3 Temas adicionales
1. Ejercicios de Wooldridge:
(a) Ejercicio 2.8
(b) Ejercicio 2.9
(c) Ejercicio 6.2
(d) Ejercicio 6.8
2. Comente Verdadero (V), Falso (F) o Incierto (I). Explique su respuesta.
(a) El coeficiente de determinación R2 es un buen método de comparación entre
modelos, independiente de los tipos de modelos que este comparando (nivel-nivel,
nivel-log, log-nivel, log-log).
(b) En una regresión simple entre el retorno de una acción y el retorno del mercado,
el coeficiente beta obtenido es el mismo si los retornos se expresan en pesos o en
dólares, porque estamos escalando a ambos lados de la regresión por la misma
variable.
(c) La inclusión de variables relevantes a un modelo econométrico disminuye la vari-
anza estimada de los estimadores.
(d) Si una variable ordinal toma demasiados valores (ej: ranking de las 100 mejores
empresas de Chile) no hay forma de incorporarla como variable independiente en
un modelo de regresión.
(e) Al estimar un modelo de regresión simple en que la variable dependiente es
logaŕıtmica y la explicativa está en niveles, es claro que el parámetro asociado
a la pendiente no muestra un cambio constante en Y ante un aumento de 1
unidad en X.
(f) Cuando aumenta el número de variables explicativas, el estad́ıstico R2 puede
aumentar, disminuir o mantenerse, pero el R2 ajustado solo aumentará si el valor
absoluto del estad́ıstico t asociado a ese coeficiente es mayor que uno.
(g) En una regresión simple entre el retorno de una acción y el retorno del mercado,
las estimaciones de los coeficientes para la pendiente y el intercepto tienen los
mismos valores si los retornos se expresan en pesos o en dólares, pues se escala
por la misma variable a ambos lados de la regresión.
(h) Al comparar entre modelos alternativos, maximizar el coeficiente de determi-
nación, minimizar el criterio de Akaike y minimizar el criterio de Schwartz nos
lleva a las mismas conclusiones.
3. Se estimó el siguiente modelo que relaciona el salario por hora (medido en US$) con el
nivel de educación (medido en años). La muestra la conformaban 526 trabajadores de
distintos niveles e industrias.
Salarioi = −0.9 + 0.54Educi + ui
9
El salario por hora promedio de la muestra es US$ 5.90, el cual considerando el IPC
del peŕıodo, equivale a US$ 16.64 en dólares de 1997.
(a) Cuando alguien posee 8 años de educación, el salario por hora estimado es de US$
3.42 en moneda de 1976. ¿Cuánto seŕıa en 1997?
(b) Si se agregara al modelo la variable “experiencia laboral” (medida en años de
experiencia), ¿Qué podŕıa pasar con la varianza del estimador de la pendiente
asociada a la variable “educación”?
10