Logo Studenta

TP2_RegresionMultiple

¡Estudia con miles de materiales!

Vista previa del material en texto

Trabajo Práctico Nro. 2 de Econometŕıa
(Modelo Lineal General. Estimación y Pruebas de Hipótesis.)
[2.1] En un estudio sobre factores que influyen en el éxito de 10 estudiantes se obtuvieron los
resultados que figuran en la tabla 2.1. Las variables: puntuación (y), coeficiente de inteligencia
(x2) y cantidad de horas semanales dedicadas al estudio (x3). Bajo el supuesto de linealidad en
la relación entre las variables (y = Xβ) se desea:
(a) Estimar los parámetros del modelo por OLS.
(b) Analizar la representividad de la ecuación estimada.
(c) Estimar por intervalos los parámetros β1 y β2.
(d) Contrastar la hipótesis H0: β1 = β2 = 0.
[2.2] En un estudio sobre consumo de tabaco se especificó el siguiente modelo de regresión.
ct = β0 + β1 pt + β2 gt + ϵt,
donde ct representa las ventas de cigarrillos de las principales empresas de tabaco (en millones
de unidades), pt es el precio del cigarrillo (en dólares de 1958), y gt el gasto en publicidad (en
miles de dólares de 1988). Los resultados de la estimación con datos de 1960 - 2008 son:
S =
 0, 0361 −0, 0065 −0, 0011−0, 0065 0, 0015 0, 0001
−0, 0011 0, 0001 0, 0002
 X′y =
 5, 331617, 0580
25, 5319
 e′e = 0, 989.
Se pide:
(a) ¿Es el modelo globalmente significativo con un 95% de confianza?
(b) Una posible medida para limitar el consumo de tabaco consiste en controlar el volumen
de publicidad ¿Cómo se puede contrastar si esto último es cierto?
(c) Contrastar la hipótesis H0: β1 = 2β2.
(d) Se sabe que en el año 2009 el precio del cigarrillo se situó en 1,25 dólares y los gastos
de publicidad en 12,95 (miles de dólares). Construir un intervalo de confianza para la
predicción de las ventas esperadas con un 95% de confianza.
[2.3] El gerente de un polideportivo municipal ubicado en Mar del Plata conoce, por experiencia
de los cinco años anteriores, que el número de entradas vendidas al d́ıa (y) depende de la
distancia (en kilómetros) a la playa más cercana (x1) y del número de piscinas particulares
situadas en la zona (x2). Y dispone además de la siguiente información:
S =
 0, 5625 −0, 6875 −0, 43751, 4375 −1, 0625
0, 8125
 X′y =
 2059
88
 s2y = 2 R2 = 0, 95.
1
Dado el modelo:
yi = β0 + β1 xi1 + β2 xi2 + ϵi ϵi ∼ N(0, σ2),
contrastar las siguientes hipótesis:
(a) El modelo es globalmente significativo con un 95% de confianza. Comentar los resultados
obtenidos.
(b) El número de piscinas particulares influye de forma significativa en la venta de entradas
en el polideportivo municipal (nivel de significancia del 5%).
(c) Utilizando un nivel de confianza del 95%:
H0 :
{
β2 − β0 = 0
β2 = 3
[2.4] La información suministrada en la tabla 2.4 corresponde al consumo anual de manzanas
en kg por familia, el precio de la manzana en moneda constante, el precio de las peras (bien
sustituto) y el ingreso anual medido de las familias, también en moneda constante.
(a) Estimar los parámetros del modelo por mı́nimos cuadrados ordinarios.
(b) Estimar las varianzas y covarianzas de las estimaciones.
(c) Estimar el coeficiente de determinación R2y.x1.x2.
(d) Al responder al ı́tem (a) se utilizará alternativamente las siguientes escalas de medición:
(i) unidades originales para todas las variables del modelo; (ii) unidades centradas para
la variable explicativa únicamente; y, (iii) unidades centradas para todas las variables del
modelo.
[2.5] La tabla 2.5 muestra el ingreso per cápita en miles de dólares en 1981 (y) junto con el
porcentaje de la fuerza laboral en la agricultura (x1) y los años promedio de educación de la
población por encima de 25 años de edad (x2) para 15 páıses desarrollados.
(a) Trace un diagrama de dispersión para los datos de la tabla y determine por inspección si
existe una relación lineal aproximada entre las variables y− x1 e y− x2.
(b) Estime por mı́nimos cuadrados ordinarios los parámetros de ecuación de regresión que
relaciona la entre la variable dependiente con las variables independientes.
(c) Interprete el significado de los estimadores de los parámetros βj.
(d) Establezca las hipótesis nula y alternativa para probar la significatividad estad́ıstica (al
5%) de los estimadores. Indique cuál es la forma de la distribución muestral de b2 y b3, y
qué distribución debe emplearse para probar la significación estad́ıstica de los mismos.
(e) Halle los intervalos de confianza para de b2 y b3.
(f) Realice las pruebas de bondad de ajuste (R2 y R2 ajustado) y de correlación para los
estimadores de los parámetros.
(g) Analice la significación global de la regresión mediante el estad́ıstico F .
2
[2.6] La tabla 2.6 presenta los datos sobre la cantidad demandada de un art́ıculo, su precio y
el ingreso medio del consumidor entre 1971 y 1985.
(a) Ajuste una regresión de por mı́nimos cuadrados.
(b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete.
(d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri-
buye más al poder explicativo del modelo.
(e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias.
(g) Pruebe la significatividad global de la regresión.
[2.7] El siguiente ejercicio es una extensión del anterior. La tabla 2.7 contiene datos sobre la
cantidad demandada de un art́ıculo, el precio y el ingreso medio de los consumidores, y el precio
de un bien sustituto entre 1971 y 1985.
(a) Ajuste una regresión por mı́nimos cuadrados.
(b) Pruebe al nivel del 5% la significatividad estad́ıstica de los parámetros estimados.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete.
(d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri-
buye más al poder explicativo del modelo.
(e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias.
(f) Pruebe la significatividad global de la regresión.
[2.8] En la tabla 2.8 se tienen 10 observaciones de y en función de las variables x1 y x2.
(a) Halle la ecuación de regresión de y sobre x1 y x2.
(b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros. Construya los inter-
valos de confianza correspondientes.
(c) Calcule los valores de los coeficientes R2 y R2 ajustado, e interprete.
(d) Compare los valores obtenidos con los que surgen de estimar la ecuación de regresión de
y sobre x1 solamente.
(e) ¿Debe incluirse x2 en la regresión?
(f) Con los datos del modelo original, halle los coeficientes de correlación parcial e indique
cuál variable independiente contribuye más al poder explicativo del modelo.
(g) Pruebe la significación global de la regresión.
3
[2.9] Se registró la producción (Q), el capital invertido (K), y el nivel de empleo (L) en el
sector agrario de un páıs entre 1996-2006 (ver tabla 2.9). Bajo el supuesto de que la relación
entre la producción, el capital y el empleo puede representarse adecuadamente mediante una
función Cobb-Douglas:
Qt = AK
β1
t L
β2
t e
ϵt donde ϵt ∼ N(0, σ2)
(a) Indique si realizaŕıa una transformación previa a la estimación de la función con estos
datos. Justifique por qué.
(b) Estime los parámetros de la función con algebra de matrices.
(c) Estime la varianza del término de perturbación aleatoria con algebra de matrices.
[2.10] Las compañ́ıas de enerǵıa eléctrica tienen particular interés en predecir de la demanda
de enerǵıa de los consumidores domiciliarios tanto a corto como a largo plazo. Se realizó un
estudio a corto plazo para investigar el efecto de la temperatura media diaria x1 y el costo por
kilowatt/hora x2 sobre el consumo diario de enerǵıa en kilowatts/hora [KW/h] por familia. La
compañ́ıa esperaba una demanda alta de electricidad con tiempo fŕıo (debido a la calefacción),
una menor demanda con temperaturas moderadas y otra vez alta demanda con temperaturas
altas por el uso de aire acondicionado. Por otraparte, esperaba una cáıda de la demanda a
mayor costo por kilowatt/hora. Se dispońıa de los datos correspondientes a dos años, un peŕıodo
en el cual el costo por kilowatt/hora x2 se incrementó debido a un aumento en el precio del
combustible. La empresa ajustó el siguiente modelo a los datos de la tabla 2.10.
E(y) = β0 + β1 x1 + β2 x
2
1 + β3 x2 + β4 x1x2 + β5 x
2
1x2
(a) Compruebe la significatividad del modelo y de cada uno de los parámetros.
(b) Estime la variancia poblacional.
(c) Calcule el residuo de la tercera observación.
(d) Examı́nese la relación entre E(y) y la temperatura x1 para un precio fijo por kilowatt/hora
x2. Sustituya un valor para x2, digamos $ 10, en la ecuación para E(y). ¿Qué tipo de curva
corresponde al modelo que relaciona E(y) con x1?
(e) Si la hipótesis de la empresa acerca de la relación entre el consumo diario y la temperatura
fuera correcta, ¿cuál tendŕıa que ser el signo del coeficiente de x21 ?
(f) Examı́nese la relación entre E(y) y el precio por kilowatt/hora, x2, cuando la temperatura,
x1, permanece constante. Sustituya un valor para x1 en la ecuación de E(y), digamos
x1 = 50
◦F . ¿Qué tipo de curva corresponde al modelo que relaciona E(y) con x2?
(g) Refiérase al inciso anterior. Si fuera correcta la hipótesis de la empresa acerca del consumo
diario y el precio por kilowatt/hora, ¿cuál debeŕıa ser el signo del coeficiente de x2?
(h) ¿Qué efecto tienen los dos últimos términos del modelo en las curvas que relacionan E(y)
con x1 para varios valores del precio por kilowatt/hora?
4
Ejercicios teóricos
[2.11] Demuestre que la matriz M = X(X′X)−1X′ es una matriz simétrica e idempotente. Si
llamamos P = In−M, esta matriz ¿es también idempotente? ¿Cuánto valen los productos PM
y MP?
[2.12] Demuestre que el vector de residuales e es (a) una transformación lineal del vector ϵ de
errores, es decir, que e = Pϵ; (b) una transformación lineal del vector de observaciones y, es
decir, que e = Mϵ.
[2.13] Sobre la base de las deducciones anteriores, ¿son los residuales variables aleatoria inde-
pendientes entre śı? ¿Y los errores?
[2.14] Exprese las siguientes hipótesis en forma de sistema lineal del tipo Rβ = r. Asuma que
β es un vector de dimensión 4× 1.
(a) β2 + · · ·+ β4 = 1
(b) β3= 0,2
(c) β4 = 2β1
5
A. Ejercicio integrador
[A.1] El rendimiento medio del máız en Argentina puede ser explicado por una cantidad de
variables relacionadas con la dotación de insumos y las condiciones climáticas durante la esta-
ción de crecimiento. El archivo adjunto contiene una serie de rendimientos medios en [kg/ha]
(según FAO) entre los años 1961 y 2015, y las siguientes ocho variables explicativas:
Tendencia lineal (TEND): años numerados consecutivamente desde 1 hasta 55; representa
el avance genético, la optimización productiva y el aprendizaje del productor.
Siembra directa (SD): proporción de la superficie laboreada bajo siembra directa sobre el
total de superficie sembrada.1
Fertilización (FERT): proporción de la superficie total del cultivo fertilizada, principalmen-
te con fertilizantes nitrogenados.2
Término de interacción entre FERT y precipitación (FERT×PP): variable de interacción
entre fertilización y suficiencia hidrica, esta última codificada como PP=1-SEQUIA.
Seqúıa (SEQUIA): variable categórica de seqúıa.3 Se asignó 0 en aquellos años en que no
se registró seqúıa alguna; 0,5 si hubo seqúıas leves o localizadas, pero que que hayan
producido algún daño irreversible a los cultivos; y, 1 si hubo seqúıa generalizada en toda
la región, principalmente en la Zona Núcleo.
Inundación o anegamientos generalizados (INUND): similar a la variable SEQUIA pero para
excesos h́ıdricos.
Temperaturas extremas (TEMP): varible binaria, que toma el valor 1 si la temperatura
media de noviembre-abril superó los 23◦C en Buenos Aires, como sitio referencial.
Fuente registral (CNA): variable binaria que vale 1 en años censales e inmediatamente
posteriores al censo agropecuario, o 0 en caso contrario. Se incluyó esta variable para
captar el efecto de correcciones administrativas en la serie de rendimientos justificadas
por la disponibilidad de datos censales.
A partir de estos datos se le pide:
(a) Realice un gráfico de dispersión matricial entre el rendimiento y cada una de las posibles
variables explicativas. Aparte, calcule la matriz de correlaciones entre todos los posibles
pares de variables, incluyendo el rendimiento. En vista del gráfico y las correlaciones,
¿justificaŕıa un anaálisis de regresión? ¿Por qué? Nota: lea en el apartado 10.7 de Gujarati
el punto referido a gráficos de dispersión.
(b) Estime los parámetros del modelo LOG-LIN que explica el rendimiento medio de máız en
función de las variables propuestas. Los signos de los parámetros estimados, ¿coinciden
con los que Usted hubiera esperado en vista de los gráficos de dispersión y la matriz de
correlaciones?. Nota: volveremos sobre este punto en (i).
1Entre 1999/00 y 2004/05, y 2010/11 informes de AAPRESID. Entre 1991/92 y 1998/99, 2005/06 y 2009/10,
interpolación lineal corroborado con información gráfica de AAPRESID. De 2011/12 en adelante extrapolación
lineal.
2Entre 1993 y 2005, informe de ICASA Mora y Araujo; 2005,2006 MINAGRI y FERTILIZAR Asociación Ci-
vil; 2010 en adelante FERTILIZAR. Con estos datos se realizó una regresión auxiliar por rangos y se reestimaron
las proporciones para todos los años.
3Esta variable fue construida a partir de informes climáticos de FAO (1960-1974) y BCBA (1975 en adelante)
6
(c) Calcule la tabla de ANOVA asociada a este análisis. Escriba expĺıcitamente las hipótesis
(nula y alternativa) que se ponen a prueba a través del análisis de la varianza (ANOVA).
¿Incluyen estas hipótesis a la ordenada al origen? ¿Por qué?
(d) Explique con sus propias palabras cuál es el significado del término de interacción en el
modelo. ¿Es importante el signo del coeficiente de este término?
(e) Soponga que deseamos probar que la seqúıa tiene el mismo efecto sobre el rendimiento que
la inundación. Plantee las hipótesis correspondientes a esta prueba en forma expĺıcita y
póngalas a prueba con un estad́ıstico apropiado. ¿Cuál es el valor-p asociado al estad́ıstico
de prueba?.
(f) Para probar hipótesis sobre las “significatividad” de conjuntos de parámetros se recurre
al estad́ıstico de Wald. Este estad́ıstico tiene varias versiones, una de las cuales (quizá la
más práctica) es
F =
(e′ReR − e′CeC)/q
e′CeC/(n− k)
∼ F(q,n−k)
bajo la hipótesis nula, donde e′ReR es la suma de cuadrados del modelo “reducido”, es
decir, sin incluir las q variables presumiblemente irrelevantes y e′CeC es la suma de cua-
drados del modelo “completo”. Suponga que deseamos probar la relevancia de la variable
SD. Plantee las hipótesis nula y alternativa, y póngalas a prueba. Explique por qué la SC
del modelo reducido será siempre superior a la del modelo completo.
Nota: esta forma del estad́ıstico de Wald puede consultarse en la sección 8.6 del texto de
Gujarati.
(g) Continuando con el análisis del punto anterior, sobre la relevancia de la variable SD,
compruebe si el estad́ıstico t asociado a este parámetro en la salida de computadora del
modelo completo es igual a la ráız cuadrada del estad́ıstico de Wald de este test.
(h) Estime por intervalos el rendimiento en 2012 si no hubiera habido seqúıa. Recuerde que
la varianza de ŷ0 es
var(ŷi) = σ
2x′i(X
′X)−1xi
Aunque no resulte evidente, la var(ŷi) es una suma de cuadrados. En vista de ello, ¿qué
forma espera que tengan los ĺımites del intervalo de confianza de ŷ a lo largo del dominio
de cada xj? Recuerde el apartado 5.10 de Gujarati referido a este tema, pero en relación
a regresión simple.
Nota 1 : por convención la mayoŕıa de los textos de Econometŕıa asumen que los vectores
son vectores columna, y que los vectores fila son vectores columna traspuestos. Por esta
razón, la i-ésima fila de X se escribe x′i.
Nota2 : Dada la complejidad de la versión escalar de la fórmula anterior, Gujarati remite
al lector (ver sección 8.8) al apéndice C de desarrollos matriciales.
(i) Nos interesa ahora estudiar el efecto de la siembra directa sobre el rendimiento, controlan-
do por el efecto de las demás variables. Para ello, calculamos el coeficiente de correlación
parcial (ver sección 7.11 del texto de Gujarati) entre REND y SD del siguiente modo:
(1) Ajustamos una regresión entre REND y todas las variables del modelo excepto SD y
calculamos el vector de residuos. Llamemos a este vector eREND.
(2) Ajustamos una regresión entre SD y todas las variables del modelo y calculamos los
residuos eSD.
7
(3) Finalmente calculamos el coeficiente de corelación entre los residuos eREND y eSD.
Explique con sus propias palabras cuál es la ventaja de calcular la correlación de este
modo en vez de calcular directamente la correlación simple entre las variables origina-
les. Compare el coeficiente de correlación parcial entre REND y SD con el coeficiente de
correlación simple. ¿A qué atribuye la diferencia, especialmente en el cambio de signo?
¡Atención! en este punto seguimos trabajando con el modelo LOG-LIN propuesto en (b)
aunque por simplicidad llamemos REND al logarirmo del rendimiento.
8

Continuar navegando

Materiales relacionados