Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Trabajo Práctico Nro. 2 de Econometŕıa (Modelo Lineal General. Estimación y Pruebas de Hipótesis.) [2.1] En un estudio sobre factores que influyen en el éxito de 10 estudiantes se obtuvieron los resultados que figuran en la tabla 2.1. Las variables: puntuación (y), coeficiente de inteligencia (x2) y cantidad de horas semanales dedicadas al estudio (x3). Bajo el supuesto de linealidad en la relación entre las variables (y = Xβ) se desea: (a) Estimar los parámetros del modelo por OLS. (b) Analizar la representividad de la ecuación estimada. (c) Estimar por intervalos los parámetros β1 y β2. (d) Contrastar la hipótesis H0: β1 = β2 = 0. [2.2] En un estudio sobre consumo de tabaco se especificó el siguiente modelo de regresión. ct = β0 + β1 pt + β2 gt + ϵt, donde ct representa las ventas de cigarrillos de las principales empresas de tabaco (en millones de unidades), pt es el precio del cigarrillo (en dólares de 1958), y gt el gasto en publicidad (en miles de dólares de 1988). Los resultados de la estimación con datos de 1960 - 2008 son: S = 0, 0361 −0, 0065 −0, 0011−0, 0065 0, 0015 0, 0001 −0, 0011 0, 0001 0, 0002 X′y = 5, 331617, 0580 25, 5319 e′e = 0, 989. Se pide: (a) ¿Es el modelo globalmente significativo con un 95% de confianza? (b) Una posible medida para limitar el consumo de tabaco consiste en controlar el volumen de publicidad ¿Cómo se puede contrastar si esto último es cierto? (c) Contrastar la hipótesis H0: β1 = 2β2. (d) Se sabe que en el año 2009 el precio del cigarrillo se situó en 1,25 dólares y los gastos de publicidad en 12,95 (miles de dólares). Construir un intervalo de confianza para la predicción de las ventas esperadas con un 95% de confianza. [2.3] El gerente de un polideportivo municipal ubicado en Mar del Plata conoce, por experiencia de los cinco años anteriores, que el número de entradas vendidas al d́ıa (y) depende de la distancia (en kilómetros) a la playa más cercana (x1) y del número de piscinas particulares situadas en la zona (x2). Y dispone además de la siguiente información: S = 0, 5625 −0, 6875 −0, 43751, 4375 −1, 0625 0, 8125 X′y = 2059 88 s2y = 2 R2 = 0, 95. 1 Dado el modelo: yi = β0 + β1 xi1 + β2 xi2 + ϵi ϵi ∼ N(0, σ2), contrastar las siguientes hipótesis: (a) El modelo es globalmente significativo con un 95% de confianza. Comentar los resultados obtenidos. (b) El número de piscinas particulares influye de forma significativa en la venta de entradas en el polideportivo municipal (nivel de significancia del 5%). (c) Utilizando un nivel de confianza del 95%: H0 : { β2 − β0 = 0 β2 = 3 [2.4] La información suministrada en la tabla 2.4 corresponde al consumo anual de manzanas en kg por familia, el precio de la manzana en moneda constante, el precio de las peras (bien sustituto) y el ingreso anual medido de las familias, también en moneda constante. (a) Estimar los parámetros del modelo por mı́nimos cuadrados ordinarios. (b) Estimar las varianzas y covarianzas de las estimaciones. (c) Estimar el coeficiente de determinación R2y.x1.x2. (d) Al responder al ı́tem (a) se utilizará alternativamente las siguientes escalas de medición: (i) unidades originales para todas las variables del modelo; (ii) unidades centradas para la variable explicativa únicamente; y, (iii) unidades centradas para todas las variables del modelo. [2.5] La tabla 2.5 muestra el ingreso per cápita en miles de dólares en 1981 (y) junto con el porcentaje de la fuerza laboral en la agricultura (x1) y los años promedio de educación de la población por encima de 25 años de edad (x2) para 15 páıses desarrollados. (a) Trace un diagrama de dispersión para los datos de la tabla y determine por inspección si existe una relación lineal aproximada entre las variables y− x1 e y− x2. (b) Estime por mı́nimos cuadrados ordinarios los parámetros de ecuación de regresión que relaciona la entre la variable dependiente con las variables independientes. (c) Interprete el significado de los estimadores de los parámetros βj. (d) Establezca las hipótesis nula y alternativa para probar la significatividad estad́ıstica (al 5%) de los estimadores. Indique cuál es la forma de la distribución muestral de b2 y b3, y qué distribución debe emplearse para probar la significación estad́ıstica de los mismos. (e) Halle los intervalos de confianza para de b2 y b3. (f) Realice las pruebas de bondad de ajuste (R2 y R2 ajustado) y de correlación para los estimadores de los parámetros. (g) Analice la significación global de la regresión mediante el estad́ıstico F . 2 [2.6] La tabla 2.6 presenta los datos sobre la cantidad demandada de un art́ıculo, su precio y el ingreso medio del consumidor entre 1971 y 1985. (a) Ajuste una regresión de por mı́nimos cuadrados. (b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros. (c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete. (d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri- buye más al poder explicativo del modelo. (e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias. (g) Pruebe la significatividad global de la regresión. [2.7] El siguiente ejercicio es una extensión del anterior. La tabla 2.7 contiene datos sobre la cantidad demandada de un art́ıculo, el precio y el ingreso medio de los consumidores, y el precio de un bien sustituto entre 1971 y 1985. (a) Ajuste una regresión por mı́nimos cuadrados. (b) Pruebe al nivel del 5% la significatividad estad́ıstica de los parámetros estimados. (c) Calcule los valores de los coeficientes R2 y R2 ajustado e interprete. (d) Halle los coeficientes de correlación parcial e indique cuál variable independiente contri- buye más al poder explicativo del modelo. (e) Calcule la elasticidad precio de la demanda y la elasticidad ingreso en las medias. (f) Pruebe la significatividad global de la regresión. [2.8] En la tabla 2.8 se tienen 10 observaciones de y en función de las variables x1 y x2. (a) Halle la ecuación de regresión de y sobre x1 y x2. (b) Pruebe al nivel del 5% la significación estad́ıstica de los parámetros. Construya los inter- valos de confianza correspondientes. (c) Calcule los valores de los coeficientes R2 y R2 ajustado, e interprete. (d) Compare los valores obtenidos con los que surgen de estimar la ecuación de regresión de y sobre x1 solamente. (e) ¿Debe incluirse x2 en la regresión? (f) Con los datos del modelo original, halle los coeficientes de correlación parcial e indique cuál variable independiente contribuye más al poder explicativo del modelo. (g) Pruebe la significación global de la regresión. 3 [2.9] Se registró la producción (Q), el capital invertido (K), y el nivel de empleo (L) en el sector agrario de un páıs entre 1996-2006 (ver tabla 2.9). Bajo el supuesto de que la relación entre la producción, el capital y el empleo puede representarse adecuadamente mediante una función Cobb-Douglas: Qt = AK β1 t L β2 t e ϵt donde ϵt ∼ N(0, σ2) (a) Indique si realizaŕıa una transformación previa a la estimación de la función con estos datos. Justifique por qué. (b) Estime los parámetros de la función con algebra de matrices. (c) Estime la varianza del término de perturbación aleatoria con algebra de matrices. [2.10] Las compañ́ıas de enerǵıa eléctrica tienen particular interés en predecir de la demanda de enerǵıa de los consumidores domiciliarios tanto a corto como a largo plazo. Se realizó un estudio a corto plazo para investigar el efecto de la temperatura media diaria x1 y el costo por kilowatt/hora x2 sobre el consumo diario de enerǵıa en kilowatts/hora [KW/h] por familia. La compañ́ıa esperaba una demanda alta de electricidad con tiempo fŕıo (debido a la calefacción), una menor demanda con temperaturas moderadas y otra vez alta demanda con temperaturas altas por el uso de aire acondicionado. Por otraparte, esperaba una cáıda de la demanda a mayor costo por kilowatt/hora. Se dispońıa de los datos correspondientes a dos años, un peŕıodo en el cual el costo por kilowatt/hora x2 se incrementó debido a un aumento en el precio del combustible. La empresa ajustó el siguiente modelo a los datos de la tabla 2.10. E(y) = β0 + β1 x1 + β2 x 2 1 + β3 x2 + β4 x1x2 + β5 x 2 1x2 (a) Compruebe la significatividad del modelo y de cada uno de los parámetros. (b) Estime la variancia poblacional. (c) Calcule el residuo de la tercera observación. (d) Examı́nese la relación entre E(y) y la temperatura x1 para un precio fijo por kilowatt/hora x2. Sustituya un valor para x2, digamos $ 10, en la ecuación para E(y). ¿Qué tipo de curva corresponde al modelo que relaciona E(y) con x1? (e) Si la hipótesis de la empresa acerca de la relación entre el consumo diario y la temperatura fuera correcta, ¿cuál tendŕıa que ser el signo del coeficiente de x21 ? (f) Examı́nese la relación entre E(y) y el precio por kilowatt/hora, x2, cuando la temperatura, x1, permanece constante. Sustituya un valor para x1 en la ecuación de E(y), digamos x1 = 50 ◦F . ¿Qué tipo de curva corresponde al modelo que relaciona E(y) con x2? (g) Refiérase al inciso anterior. Si fuera correcta la hipótesis de la empresa acerca del consumo diario y el precio por kilowatt/hora, ¿cuál debeŕıa ser el signo del coeficiente de x2? (h) ¿Qué efecto tienen los dos últimos términos del modelo en las curvas que relacionan E(y) con x1 para varios valores del precio por kilowatt/hora? 4 Ejercicios teóricos [2.11] Demuestre que la matriz M = X(X′X)−1X′ es una matriz simétrica e idempotente. Si llamamos P = In−M, esta matriz ¿es también idempotente? ¿Cuánto valen los productos PM y MP? [2.12] Demuestre que el vector de residuales e es (a) una transformación lineal del vector ϵ de errores, es decir, que e = Pϵ; (b) una transformación lineal del vector de observaciones y, es decir, que e = Mϵ. [2.13] Sobre la base de las deducciones anteriores, ¿son los residuales variables aleatoria inde- pendientes entre śı? ¿Y los errores? [2.14] Exprese las siguientes hipótesis en forma de sistema lineal del tipo Rβ = r. Asuma que β es un vector de dimensión 4× 1. (a) β2 + · · ·+ β4 = 1 (b) β3= 0,2 (c) β4 = 2β1 5 A. Ejercicio integrador [A.1] El rendimiento medio del máız en Argentina puede ser explicado por una cantidad de variables relacionadas con la dotación de insumos y las condiciones climáticas durante la esta- ción de crecimiento. El archivo adjunto contiene una serie de rendimientos medios en [kg/ha] (según FAO) entre los años 1961 y 2015, y las siguientes ocho variables explicativas: Tendencia lineal (TEND): años numerados consecutivamente desde 1 hasta 55; representa el avance genético, la optimización productiva y el aprendizaje del productor. Siembra directa (SD): proporción de la superficie laboreada bajo siembra directa sobre el total de superficie sembrada.1 Fertilización (FERT): proporción de la superficie total del cultivo fertilizada, principalmen- te con fertilizantes nitrogenados.2 Término de interacción entre FERT y precipitación (FERT×PP): variable de interacción entre fertilización y suficiencia hidrica, esta última codificada como PP=1-SEQUIA. Seqúıa (SEQUIA): variable categórica de seqúıa.3 Se asignó 0 en aquellos años en que no se registró seqúıa alguna; 0,5 si hubo seqúıas leves o localizadas, pero que que hayan producido algún daño irreversible a los cultivos; y, 1 si hubo seqúıa generalizada en toda la región, principalmente en la Zona Núcleo. Inundación o anegamientos generalizados (INUND): similar a la variable SEQUIA pero para excesos h́ıdricos. Temperaturas extremas (TEMP): varible binaria, que toma el valor 1 si la temperatura media de noviembre-abril superó los 23◦C en Buenos Aires, como sitio referencial. Fuente registral (CNA): variable binaria que vale 1 en años censales e inmediatamente posteriores al censo agropecuario, o 0 en caso contrario. Se incluyó esta variable para captar el efecto de correcciones administrativas en la serie de rendimientos justificadas por la disponibilidad de datos censales. A partir de estos datos se le pide: (a) Realice un gráfico de dispersión matricial entre el rendimiento y cada una de las posibles variables explicativas. Aparte, calcule la matriz de correlaciones entre todos los posibles pares de variables, incluyendo el rendimiento. En vista del gráfico y las correlaciones, ¿justificaŕıa un anaálisis de regresión? ¿Por qué? Nota: lea en el apartado 10.7 de Gujarati el punto referido a gráficos de dispersión. (b) Estime los parámetros del modelo LOG-LIN que explica el rendimiento medio de máız en función de las variables propuestas. Los signos de los parámetros estimados, ¿coinciden con los que Usted hubiera esperado en vista de los gráficos de dispersión y la matriz de correlaciones?. Nota: volveremos sobre este punto en (i). 1Entre 1999/00 y 2004/05, y 2010/11 informes de AAPRESID. Entre 1991/92 y 1998/99, 2005/06 y 2009/10, interpolación lineal corroborado con información gráfica de AAPRESID. De 2011/12 en adelante extrapolación lineal. 2Entre 1993 y 2005, informe de ICASA Mora y Araujo; 2005,2006 MINAGRI y FERTILIZAR Asociación Ci- vil; 2010 en adelante FERTILIZAR. Con estos datos se realizó una regresión auxiliar por rangos y se reestimaron las proporciones para todos los años. 3Esta variable fue construida a partir de informes climáticos de FAO (1960-1974) y BCBA (1975 en adelante) 6 (c) Calcule la tabla de ANOVA asociada a este análisis. Escriba expĺıcitamente las hipótesis (nula y alternativa) que se ponen a prueba a través del análisis de la varianza (ANOVA). ¿Incluyen estas hipótesis a la ordenada al origen? ¿Por qué? (d) Explique con sus propias palabras cuál es el significado del término de interacción en el modelo. ¿Es importante el signo del coeficiente de este término? (e) Soponga que deseamos probar que la seqúıa tiene el mismo efecto sobre el rendimiento que la inundación. Plantee las hipótesis correspondientes a esta prueba en forma expĺıcita y póngalas a prueba con un estad́ıstico apropiado. ¿Cuál es el valor-p asociado al estad́ıstico de prueba?. (f) Para probar hipótesis sobre las “significatividad” de conjuntos de parámetros se recurre al estad́ıstico de Wald. Este estad́ıstico tiene varias versiones, una de las cuales (quizá la más práctica) es F = (e′ReR − e′CeC)/q e′CeC/(n− k) ∼ F(q,n−k) bajo la hipótesis nula, donde e′ReR es la suma de cuadrados del modelo “reducido”, es decir, sin incluir las q variables presumiblemente irrelevantes y e′CeC es la suma de cua- drados del modelo “completo”. Suponga que deseamos probar la relevancia de la variable SD. Plantee las hipótesis nula y alternativa, y póngalas a prueba. Explique por qué la SC del modelo reducido será siempre superior a la del modelo completo. Nota: esta forma del estad́ıstico de Wald puede consultarse en la sección 8.6 del texto de Gujarati. (g) Continuando con el análisis del punto anterior, sobre la relevancia de la variable SD, compruebe si el estad́ıstico t asociado a este parámetro en la salida de computadora del modelo completo es igual a la ráız cuadrada del estad́ıstico de Wald de este test. (h) Estime por intervalos el rendimiento en 2012 si no hubiera habido seqúıa. Recuerde que la varianza de ŷ0 es var(ŷi) = σ 2x′i(X ′X)−1xi Aunque no resulte evidente, la var(ŷi) es una suma de cuadrados. En vista de ello, ¿qué forma espera que tengan los ĺımites del intervalo de confianza de ŷ a lo largo del dominio de cada xj? Recuerde el apartado 5.10 de Gujarati referido a este tema, pero en relación a regresión simple. Nota 1 : por convención la mayoŕıa de los textos de Econometŕıa asumen que los vectores son vectores columna, y que los vectores fila son vectores columna traspuestos. Por esta razón, la i-ésima fila de X se escribe x′i. Nota2 : Dada la complejidad de la versión escalar de la fórmula anterior, Gujarati remite al lector (ver sección 8.8) al apéndice C de desarrollos matriciales. (i) Nos interesa ahora estudiar el efecto de la siembra directa sobre el rendimiento, controlan- do por el efecto de las demás variables. Para ello, calculamos el coeficiente de correlación parcial (ver sección 7.11 del texto de Gujarati) entre REND y SD del siguiente modo: (1) Ajustamos una regresión entre REND y todas las variables del modelo excepto SD y calculamos el vector de residuos. Llamemos a este vector eREND. (2) Ajustamos una regresión entre SD y todas las variables del modelo y calculamos los residuos eSD. 7 (3) Finalmente calculamos el coeficiente de corelación entre los residuos eREND y eSD. Explique con sus propias palabras cuál es la ventaja de calcular la correlación de este modo en vez de calcular directamente la correlación simple entre las variables origina- les. Compare el coeficiente de correlación parcial entre REND y SD con el coeficiente de correlación simple. ¿A qué atribuye la diferencia, especialmente en el cambio de signo? ¡Atención! en este punto seguimos trabajando con el modelo LOG-LIN propuesto en (b) aunque por simplicidad llamemos REND al logarirmo del rendimiento. 8
Compartir