TP2_RegresionMultiple

•
SIN SIGLA

Jeronimo
21/6/2023
¡Estudia con miles de materiales!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Econometría

6349 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Trabajo Práctico Nro. 2 de Econometŕıa
(Modelo Lineal General. Estimación y Pruebas de Hipótesis.)
[2.1] En un estudio sobre factores que influyen en el éxito de 10 estudiantes se obtuvieron los
resultados que figuran en la tabla 2.1. Las variables: puntuación (y), coeficiente de inteligencia
(x2) y cantidad de horas semanales dedicadas al estudio (x3). Bajo el supuesto de linealidad en
la relación entre las variables (y = Xβ) se desea:
(a) Estimar los parámetros del modelo por OLS.
(b) Analizar la representividad de la ecuación estimada.
(c) Estimar por intervalos los parámetros β1 y β2.
(d) Contrastar la hipótesis H0: β1 = β2 = 0.
[2.2] En un estudio sobre consumo de tabaco se especificó el siguiente modelo de regresión.
ct = β0 + β1 pt + β2 gt + ϵt,
donde ct representa las ventas de cigarrillos de las principales empresas de tabaco (en millones
de unidades), pt es el precio del cigarrillo (en dólares de 1958), y gt el gasto en publicidad (en
miles de dólares de 1988). Los resultados de la estimación con datos de 1960 - 2008 son:
S =
 0, 0361 −0, 0065 −0, 0011−0, 0065 0, 0015 0, 0001
−0, 0011 0, 0001 0, 0002
 X′y =
 5, 331617, 0580
25, 5319
 e′e = 0, 989.
Se pide:
(a) ¿Es el modelo globalmente significativo con un 95% de confianza?
(b) Una posible medida para limitar el consumo de tabaco consiste en controlar el volumen
de publicidad ¿Cómo se puede contrastar si esto último es cierto?
(c) Contrastar la hipótesis H0: β1 = 2β2.
(d) Se sabe que en el año 2009 el precio del cigarrillo se situó en 1,25 dólares y los gastos
de publicidad en 12,95 (miles de dólares). Construir un intervalo de confianza para la
predicción de las ventas esperadas con un 95% de confianza.
[2.3] El gerente de un polideportivo municipal ubicado en Mar del Plata conoce, por experiencia
de los cinco años anteriores, que el número de entradas vendidas al d́ıa (y) depende de la
distancia (en kilómetros) a la playa más cercana (x1) y del número de piscinas particulares
situadas en la zona (x2). Y dispone además de la siguiente información:
S =
 0, 5625 −0, 6875 −0, 43751, 4375 −1, 0625
0, 8125
 X′y =
 2059
88
 s2y = 2 R2 = 0, 95.
1
Dado el modelo:
yi = β0 + β1 xi1 + β2 xi2 + ϵi ϵi ∼ N(0, σ2),
contrastar las siguientes hipótesis:
(a) El modelo es globalmente significativo con un 95% de confianza. Comentar los resultados
obtenidos.
(b) El número de piscinas particulares influye de forma significativa en la venta de entradas
en el polideportivo municipal (nivel de significancia del 5%).
(c) Utilizando un nivel de confianza del 95%:
H0 :
{
β2 − β0 = 0
β2 = 3
[2.4] La información suministrada en la tabla 2.4 corresponde al consumo anual de manzanas
en kg por familia, el precio de la manzana en moneda constante, el precio de las peras (bien
sustituto) y el ingreso anual medido de las familias, también en moneda constante.
(a) Estimar los parámetros del modelo por mı́nimos cuadrados ordinarios.
(b) Estimar las varianzas y covarianzas de las estimaciones.
(c) Estimar el coeficiente de determinación R2y.x1.x2.
(d) Al responder al ı́tem (a) se utilizará alternativamente las siguientes escalas de medición:
(i) unidades originales para todas las variables del modelo; (ii) unidades centradas para
la variable explicativa únicamente; y, (iii) unidades centradas para todas las variables del
modelo.
[2.5] La tabla 2.5 muestra el ingreso per cápita en miles de dólares en 1981 (y) junto con el
porcentaje de la fuerza laboral en la agricultura (x1) y los años promedio de educación de la
población por encima de 25 años de edad (x2) para 15 páıses desarrollados.
(a) Trace un diagrama de dispersión para los datos de la tabla y determine por inspección si
existe una relación lineal aproximada entre las variables y− x1 e y− x2.
(b) Estime por mı́nimos cuadrados ordinarios los parámetros de ecuación de regresión que
relaciona la entre la variable dependiente con las variables independientes.
(c) Interprete el significado de los estimadores de los parámetros βj.
(d) Establezca las hipótesis nula y alternativa para probar la significatividad estad́ıstica (al
5%) de los estimadores. Indique cuál es la forma de la distribución muestral de b2 y b3, y
qué distribución debe emplearse para probar la significación estad́ıstica de los mismos.
(e) Halle los intervalos de confianza para de b2 y b3.
(f) Realice las pruebas de bondad de ajuste (R2 y R2 ajustado) y de correlación para los
estimadores de los parámetros.
(g) Analice la significación global de la regresión mediante el estad́ıstico F .
2
[2.6] La tabla 2.6 presenta los datos sobre la cantidad demandada de un art́ıculo, su precio y
el ingreso medio del consumidor entre 1971 y 1985.
(a) Ajuste una regresión de por mı́nimos cuadrados.
(b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete.
(d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri-
buye más al poder explicativo del modelo.
(e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias.
(g) Pruebe la significatividad global de la regresión.
[2.7] El siguiente ejercicio es una extensión del anterior. La tabla 2.7 contiene datos sobre la
cantidad demandada de un art́ıculo, el precio y el ingreso medio de los consumidores, y el precio
de un bien sustituto entre 1971 y 1985.
(a) Ajuste una regresión por mı́nimos cuadrados.
(b) Pruebe al nivel del 5% la significatividad estad́ıstica de los parámetros estimados.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete.
(d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri-
buye más al poder explicativo del modelo.
(e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias.
(f) Pruebe la significatividad global de la regresión.
[2.8] En la tabla 2.8 se tienen 10 observaciones de y en función de las variables x1 y x2.
(a) Halle la ecuación de regresión de y sobre x1 y x2.
(b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros. Construya los inter-
valos de confianza correspondientes.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado, e interprete.
(d) Compare los valores obtenidos con los que surgen de estimar la ecuación de regresión de
y sobre x1 solamente.
(e) ¿Debe incluirse x2 en la regresión?
(f) Con los datos del modelo original, halle los coeficientes de correlación parcial e indique
cuál variable independiente contribuye más al poder explicativo del modelo.
(g) Pruebe la significación global de la regresión.
3
[2.9] Se registró la producción (Q), el capital invertido (K), y el nivel de empleo (L) en el
sector agrario de un páıs entre 1996-2006 (ver tabla 2.9). Bajo el supuesto de que la relación
entre la producción, el capital y el empleo puede representarse adecuadamente mediante una
función Cobb-Douglas:
Qt = AK
β1
t L
β2
t e
ϵt donde ϵt ∼ N(0, σ2)
(a) Indique si realizaŕıa una transformación previa a la estimación de la función con estos
datos. Justifique por qué.
(b) Estime los parámetros de la función con algebra de matrices.
(c) Estime la varianza del término de perturbación aleatoria con algebra de matrices.
[2.10] Las compañ́ıas de enerǵıa eléctrica tienen particular interés en predecir de la demanda
de enerǵıa de los consumidores domiciliarios tanto a corto como a largo plazo. Se realizó un
estudio a corto plazo para investigar el efecto de la temperatura media diaria x1 y el costo por
kilowatt/hora x2 sobre el consumo diario de enerǵıa en kilowatts/hora [KW/h] por familia. La
compañ́ıa esperaba una demanda alta de electricidad con tiempo fŕıo (debido a la calefacción),
una menor demanda con temperaturas moderadas y otra vez alta demanda con temperaturas
altas por el uso de aire acondicionado. Por otraparte, esperaba una cáıda de la demanda a
mayor costo por kilowatt/hora. Se dispońıa de los datos correspondientes a dos años, un peŕıodo
en el cual el costo por kilowatt/hora x2 se incrementó debido a un aumento en el precio del
combustible. La empresa ajustó el siguiente modelo a los datos de la tabla 2.10.
E(y) = β0 + β1 x1 + β2 x
2
1 + β3 x2 + β4 x1x2 + β5 x
2
1x2
(a) Compruebe la significatividad del modelo y de cada uno de los parámetros.
(b) Estime la variancia poblacional.
(c) Calcule el residuo de la tercera observación.
(d) Examı́nese la relación entre E(y) y la temperatura x1 para un precio fijo por kilowatt/hora
x2. Sustituya un valor para x2, digamos $ 10, en la ecuación para E(y). ¿Qué tipo de curva
corresponde al modelo que relaciona E(y) con x1?
(e) Si la hipótesis de la empresa acerca de la relación entre el consumo diario y la temperatura
fuera correcta, ¿cuál tendŕıa que ser el signo del coeficiente de x21 ?
(f) Examı́nese la relación entre E(y) y el precio por kilowatt/hora, x2, cuando la temperatura,
x1, permanece constante. Sustituya un valor para x1 en la ecuación de E(y), digamos
x1 = 50
◦F . ¿Qué tipo de curva corresponde al modelo que relaciona E(y) con x2?
(g) Refiérase al inciso anterior. Si fuera correcta la hipótesis de la empresa acerca del consumo
diario y el precio por kilowatt/hora, ¿cuál debeŕıa ser el signo del coeficiente de x2?
(h) ¿Qué efecto tienen los dos últimos términos del modelo en las curvas que relacionan E(y)
con x1 para varios valores del precio por kilowatt/hora?
4
Ejercicios teóricos
[2.11] Demuestre que la matriz M = X(X′X)−1X′ es una matriz simétrica e idempotente. Si
llamamos P = In−M, esta matriz ¿es también idempotente? ¿Cuánto valen los productos PM
y MP?
[2.12] Demuestre que el vector de residuales e es (a) una transformación lineal del vector ϵ de
errores, es decir, que e = Pϵ; (b) una transformación lineal del vector de observaciones y, es
decir, que e = Mϵ.
[2.13] Sobre la base de las deducciones anteriores, ¿son los residuales variables aleatoria inde-
pendientes entre śı? ¿Y los errores?
[2.14] Exprese las siguientes hipótesis en forma de sistema lineal del tipo Rβ = r. Asuma que
β es un vector de dimensión 4× 1.
(a) β2 + · · ·+ β4 = 1
(b) β3= 0,2
(c) β4 = 2β1
5
A. Ejercicio integrador
[A.1] El rendimiento medio del máız en Argentina puede ser explicado por una cantidad de
variables relacionadas con la dotación de insumos y las condiciones climáticas durante la esta-
ción de crecimiento. El archivo adjunto contiene una serie de rendimientos medios en [kg/ha]
(según FAO) entre los años 1961 y 2015, y las siguientes ocho variables explicativas:
Tendencia lineal (TEND): años numerados consecutivamente desde 1 hasta 55; representa
el avance genético, la optimización productiva y el aprendizaje del productor.
Siembra directa (SD): proporción de la superficie laboreada bajo siembra directa sobre el
total de superficie sembrada.1
Fertilización (FERT): proporción de la superficie total del cultivo fertilizada, principalmen-
te con fertilizantes nitrogenados.2
Término de interacción entre FERT y precipitación (FERT×PP): variable de interacción
entre fertilización y suficiencia hidrica, esta última codificada como PP=1-SEQUIA.
Seqúıa (SEQUIA): variable categórica de seqúıa.3 Se asignó 0 en aquellos años en que no
se registró seqúıa alguna; 0,5 si hubo seqúıas leves o localizadas, pero que que hayan
producido algún daño irreversible a los cultivos; y, 1 si hubo seqúıa generalizada en toda
la región, principalmente en la Zona Núcleo.
Inundación o anegamientos generalizados (INUND): similar a la variable SEQUIA pero para
excesos h́ıdricos.
Temperaturas extremas (TEMP): varible binaria, que toma el valor 1 si la temperatura
media de noviembre-abril superó los 23◦C en Buenos Aires, como sitio referencial.
Fuente registral (CNA): variable binaria que vale 1 en años censales e inmediatamente
posteriores al censo agropecuario, o 0 en caso contrario. Se incluyó esta variable para
captar el efecto de correcciones administrativas en la serie de rendimientos justificadas
por la disponibilidad de datos censales.
A partir de estos datos se le pide:
(a) Realice un gráfico de dispersión matricial entre el rendimiento y cada una de las posibles
variables explicativas. Aparte, calcule la matriz de correlaciones entre todos los posibles
pares de variables, incluyendo el rendimiento. En vista del gráfico y las correlaciones,
¿justificaŕıa un anaálisis de regresión? ¿Por qué? Nota: lea en el apartado 10.7 de Gujarati
el punto referido a gráficos de dispersión.
(b) Estime los parámetros del modelo LOG-LIN que explica el rendimiento medio de máız en
función de las variables propuestas. Los signos de los parámetros estimados, ¿coinciden
con los que Usted hubiera esperado en vista de los gráficos de dispersión y la matriz de
correlaciones?. Nota: volveremos sobre este punto en (i).
1Entre 1999/00 y 2004/05, y 2010/11 informes de AAPRESID. Entre 1991/92 y 1998/99, 2005/06 y 2009/10,
interpolación lineal corroborado con información gráfica de AAPRESID. De 2011/12 en adelante extrapolación
lineal.
2Entre 1993 y 2005, informe de ICASA Mora y Araujo; 2005,2006 MINAGRI y FERTILIZAR Asociación Ci-
vil; 2010 en adelante FERTILIZAR. Con estos datos se realizó una regresión auxiliar por rangos y se reestimaron
las proporciones para todos los años.
3Esta variable fue construida a partir de informes climáticos de FAO (1960-1974) y BCBA (1975 en adelante)
6
(c) Calcule la tabla de ANOVA asociada a este análisis. Escriba expĺıcitamente las hipótesis
(nula y alternativa) que se ponen a prueba a través del análisis de la varianza (ANOVA).
¿Incluyen estas hipótesis a la ordenada al origen? ¿Por qué?
(d) Explique con sus propias palabras cuál es el significado del término de interacción en el
modelo. ¿Es importante el signo del coeficiente de este término?
(e) Soponga que deseamos probar que la seqúıa tiene el mismo efecto sobre el rendimiento que
la inundación. Plantee las hipótesis correspondientes a esta prueba en forma expĺıcita y
póngalas a prueba con un estad́ıstico apropiado. ¿Cuál es el valor-p asociado al estad́ıstico
de prueba?.
(f) Para probar hipótesis sobre las “significatividad” de conjuntos de parámetros se recurre
al estad́ıstico de Wald. Este estad́ıstico tiene varias versiones, una de las cuales (quizá la
más práctica) es
F =
(e′ReR − e′CeC)/q
e′CeC/(n− k)
∼ F(q,n−k)
bajo la hipótesis nula, donde e′ReR es la suma de cuadrados del modelo “reducido”, es
decir, sin incluir las q variables presumiblemente irrelevantes y e′CeC es la suma de cua-
drados del modelo “completo”. Suponga que deseamos probar la relevancia de la variable
SD. Plantee las hipótesis nula y alternativa, y póngalas a prueba. Explique por qué la SC
del modelo reducido será siempre superior a la del modelo completo.
Nota: esta forma del estad́ıstico de Wald puede consultarse en la sección 8.6 del texto de
Gujarati.
(g) Continuando con el análisis del punto anterior, sobre la relevancia de la variable SD,
compruebe si el estad́ıstico t asociado a este parámetro en la salida de computadora del
modelo completo es igual a la ráız cuadrada del estad́ıstico de Wald de este test.
(h) Estime por intervalos el rendimiento en 2012 si no hubiera habido seqúıa. Recuerde que
la varianza de ŷ0 es
var(ŷi) = σ
2x′i(X
′X)−1xi
Aunque no resulte evidente, la var(ŷi) es una suma de cuadrados. En vista de ello, ¿qué
forma espera que tengan los ĺımites del intervalo de confianza de ŷ a lo largo del dominio
de cada xj? Recuerde el apartado 5.10 de Gujarati referido a este tema, pero en relación
a regresión simple.
Nota 1 : por convención la mayoŕıa de los textos de Econometŕıa asumen que los vectores
son vectores columna, y que los vectores fila son vectores columna traspuestos. Por esta
razón, la i-ésima fila de X se escribe x′i.
Nota2 : Dada la complejidad de la versión escalar de la fórmula anterior, Gujarati remite
al lector (ver sección 8.8) al apéndice C de desarrollos matriciales.
(i) Nos interesa ahora estudiar el efecto de la siembra directa sobre el rendimiento, controlan-
do por el efecto de las demás variables. Para ello, calculamos el coeficiente de correlación
parcial (ver sección 7.11 del texto de Gujarati) entre REND y SD del siguiente modo:
(1) Ajustamos una regresión entre REND y todas las variables del modelo excepto SD y
calculamos el vector de residuos. Llamemos a este vector eREND.
(2) Ajustamos una regresión entre SD y todas las variables del modelo y calculamos los
residuos eSD.
7
(3) Finalmente calculamos el coeficiente de corelación entre los residuos eREND y eSD.
Explique con sus propias palabras cuál es la ventaja de calcular la correlación de este
modo en vez de calcular directamente la correlación simple entre las variables origina-
les. Compare el coeficiente de correlación parcial entre REND y SD con el coeficiente de
correlación simple. ¿A qué atribuye la diferencia, especialmente en el cambio de signo?
¡Atención! en este punto seguimos trabajando con el modelo LOG-LIN propuesto en (b)
aunque por simplicidad llamemos REND al logarirmo del rendimiento.
8