Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
FRANCISCO PARRA RODRÍGUEZ (Doctor en Economía. Universidad Nacional de Educación a Distancia) ECONOMETRÍA APLICADA I Econometria Aplicada I by Francisco Parra Rodríguez is licensed under a Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional License. ÍNDICE Parte I PRESENTACIÓN ........................................................................................................................................ 4 1. LA ECONOMETRÍA: HISTORIA Y METODOLOGÍA .................................................................... 6 1.1. LOS ORÍGENES DE LA ECONOMETRIA ............................................................................... 6 1.2. LOS MODELOS ECONOMÉTRICOS...................................................................................... 12 1.3. LA METODOLOGÍA ECONOMÉTRICA ................................................................................ 14 2. EL MODELO LINEAL GENERAL .................................................................................................. 18 2.1. INTRODUCCIÓN ...................................................................................................................... 18 2.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS MÍNIMOS CUADRADOS ORDINARIOS. ...................................................................................................................................... 18 2.3. REGRESIÓN LINEAL MÚLTIPLE .......................................................................................... 25 2.4. PROPIEDADES ESTADISTICAS DEl ESTIMADOR MÍNIMO CUADRADO. .................... 30 2.5. COEFICIENTES DE DETERMINACIÓN Y CORRELACIÓN PARCIAL ............................. 31 2.5.1. Coeficiente de determinación ............................................................................................. 31 2.5.2. Coeficiente de correlación parcial ...................................................................................... 35 2.6. INFERENCIA ACERCA DE LOS ESTIMADORES ................................................................ 35 2.6.1. Intervalos De Confianza ..................................................................................................... 36 2.6.2. Contrastes de Hipótesis ...................................................................................................... 39 2.7. TABLA DE ANALIS DE LA VARIANZA (ANOVA) ............................................................. 43 2.8. PREDICCIÓN EN EL MODELO DE REGRESIÓN ................................................................ 44 2.9. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON EXCEL ........................ 46 2.10. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON R ........................... 54 2.11. PROBLEMAS .................................................................................................................... 59 3. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL ............................................................ 62 3.1. INTRODUCCIÓN ...................................................................................................................... 62 3.2. HETEROSCEDASTICIDAD ..................................................................................................... 65 3.2.1. Test de Bartlett ................................................................................................................... 65 3.2.2. Contraste de Goldfeld-Quant .............................................................................................. 66 3.2.3. Contraste de White ............................................................................................................. 69 3.3 AUTOCORRELACIÓN ................................................................................................................... 71 3.3.1. Contraste de Durbin-Watson .................................................................................................... 71 3.3.1. Contraste de Breush-Godfrey ................................................................................................... 75 3.4. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD ................................................. 76 3.5. ERRORES DE ESPECIFICACIÓN ........................................................................................... 79 3.5.1. Omisión de una variable relevante...................................................................................... 80 3.5.2. Inclusión de una variable innecesaria ................................................................................. 81 3.5.3. Especificación funcional incorrecta .................................................................................... 82 3.5.4. Contraste de errores de especificación ................................................................................ 83 3.6. MINIMOS CUADRADOS GENERALIZADOS....................................................................... 84 3.7. PROBLEMAS ............................................................................................................................ 91 4. MODELOS CON ERRORES EN LAS VARIABLES ...................................................................... 95 4.1. INTRODUCCIÓN ...................................................................................................................... 95 4.2. TIPOS DE ERRORES DE MEDIDA ......................................................................................... 96 4.2.1. Errores de medida en la variable endógena ........................................................................ 96 4.2.2. Errores de medida en la variable exógena .......................................................................... 97 4.3. ESTIMACIÓN DE MODELOS CON ERRORES EN LAS VARIABLES ............................. 100 4.4. APLICACIÓN PRÁCTICA ..................................................................................................... 102 4.5. PROBLEMAS .......................................................................................................................... 104 5. MODELOS CON VARIABLES CUALITATIVAS ........................................................................ 107 5.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO REGRESORES. ................................................................................................................................... 107 5.1.1. Modelos ANOVA ............................................................................................................. 108 5.1.2. Modelos ANCOVA .......................................................................................................... 113 5.2. EL EMPLEO DE VARIABLES CUALITATIVAS PARA EL TRATAMIENTO DE LA ESTACIONALIDAD ........................................................................................................................... 122 5.3. APLICACIONES DE LAS VARIABLES CUALITATIVAS A LA REGRESIÓN POR TRAMOS. ............................................................................................................................................ 129 5.4. EL MODELO PROBABILÍSTICO LINEAL .......................................................................... 130 5.5. EL MODELO LOGIT .............................................................................................................. 132 5.6. EL MODELO PROBIT ............................................................................................................ 137 5.7. PROBLEMAS .......................................................................................................................... 142 6. MODELOS CON DATOS DE PANEL ........................................................................................... 145 6.1. INTRODUCCIÓN ....................................................................................................................145 6.2. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL ....................... 146 6.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL .................. 149 6.4. MODELO DE EFECTOS FIJOS ............................................................................................. 151 6.5. MODELO DE EFECTOS ALEATORIOS ............................................................................... 154 6.6. ELECCIÓN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS .............................. 156 6.7. PROBLEMAS .......................................................................................................................... 163 7. MODELOS DE ECUACIONES SIMULTÁNEAS ......................................................................... 165 7.1. INTRODUCCIÓN .................................................................................................................... 165 7.2. FORMA ESTRUCTURAL Y REDUCIDA ............................................................................. 167 7.3. DETECCIÓN DE LA SIMULTANEIDAD. PRUEBA DE HAUSMAN ................................ 172 7.4. IDENTIFICACIÓN DEL SISTEMA ....................................................................................... 177 7.4.1. Condiciones de Orden y Rango en la Identificación ........................................................ 179 7.5. PROBLEMAS .......................................................................................................................... 183 8. MÉTODOS DE ESTIMACIÓN DE MODELOS DE ECUACIONES SIMULTÁNEAS ............... 185 8.1. INTRODUCCIÓN .................................................................................................................... 185 8.2. MÍNIMOS CUADRADOS INDIRECTOS (MCI) ................................................................... 185 8.2.1. Estimación de curvas de oferta y demanda por MCI ........................................................ 188 8.2.2. Estimación de Haavelmo de la propensión marginal al consumo por MCI ...................... 191 8.3. VARIABLES INSTRUMENTALES (VI) ............................................................................... 194 8.3.1. Estimación una función keynesiana de consumo por VI .................................................. 198 8.4. MÍNIMOS CUADRADOS EN DOS ETAPAS (MC2E) ......................................................... 201 8.4.1. Estimación de un modelo de gastos e ingresos por MC2E ............................................... 204 8.5. MODELOS RECURSIVOS ..................................................................................................... 210 8.5.1. Estimación de un Modelo Recursivo de Determinación de Precios y Salarios................. 213 8.6. EJEMPLO PRÁCTICO: ESTIMACIÓN DE UN MODELO EXACTAMENTE IDENTIFICADO POR MCI, VI Y MC2E ........................................................................................... 216 8.7. PROBLEMAS .......................................................................................................................... 223 9. MÉTODOS DE ESTIMACIÓN NO LINEALES ............................................................................ 226 9.1. INTRODUCCIÓN .................................................................................................................... 226 9.2. ESTIMACIÓN DE UN MODELO DE MODELOS NO LINEALES POR MINIMOS CUADRADOS ORDINARIOS. ........................................................................................................... 227 9.3. MÍNIMOS CUADRADOS NO LINEALES ............................................................................ 229 9.3.1. Algoritmo de Newton-Raphson ........................................................................................ 231 9.4. EL ESTIMADOR DE MÁXIMA VEROSIMILITUD ............................................................. 234 9.5. APROXIMACIÓN LINEAL DE TAYLOR ............................................................................ 236 9.6. PROBLEMAS .......................................................................................................................... 240 10. MÉTODOS DE ESTIMACIÓN NO PARAMÉTRICOS ............................................................. 242 10.1. INTRODUCCIÓN ............................................................................................................ 242 10.2. FUNCIÓN NUCLEO ....................................................................................................... 244 10.3. ESTIMADORES DE FUNCIÓN NUCLEO Y POLINOMIOS LOCALES .................... 249 10.4. REGRESIÓN POR SPLINES .......................................................................................... 259 10.5. APROXIMACIÓN POR SERIES DE FOURIER ............................................................ 268 10.6. PROBLEMAS .................................................................................................................. 274 ANEXO I. NOCIONES DE ALGEBRA MATRICIAL .......................................................................... 277 ANEXO II. TABLAS ESTADÍSTICAS .................................................................................................. 293 BIBLIOGRAFÍA ...................................................................................................................................... 302 PRESENTACIÓN En el año 2004 el Departamento de Economía Aplicada y Estadística de la Universidad Nacional de Educación a Distancia (UNED) encargó a los entonces profesores de la asignatura econometría I de Administración y Dirección de Empresas y Económicas, elaborar un texto de econometría que sirviera de bibliografía básica para la misma, dicho texto que se publicó en Ediciones Académicas bajo el título de econometría, fue revisado y actualizado en 2007 y editado de nuevo por Ediciones Académicas pero con un nuevo título: Econometría Aplicada. En lo que sé, el manual sigue utilizándose como bibliografía en la UNED, ya que en septiembre del 2006 deje de ser profesor de dicha asignatura. No obstante, durante el tiempo de docencia en la UNED también participe en otros cursos de posgrado para los cuales también elaboré diferente material docente: Curso de Contabilidad Nacional y Tablas Input-Output y Curso de Eficiencia y Productividad, dentro del Programa de Doctorado del Departamento de Economía Aplicada y Estadística, y Máster en Economía Aplicada y Programa Modular Economía Aplicada. La parte que redacté de manual de Econometría y Econometría Aplicada se había basado a su vez en los apuntes de otro curso de estadística y econometría para empleados públicos que impartí junto a Mauricio Beltrán Pascual dentro de los programas de formación de funcionarios de la Junta de Castilla y León. El curso se denominaba: Estadística Aplicada a la Administración Pública, y los materiales del curso acabaron editándose por la Junta de Castilla y León, sin ISBN, en una serie de Metodologías Estadísticas, bajo el título: Apuntes de Análisis Estadístico Aplicados a la Administración Pública. La serie tuvo corta vida, ta solo dos números, y con el tiempo el curso pasó a denominarse Aplicaciones Estadísticas en las Hojas de Cálculo, y Curso de Estadística Descriptiva y Análisis de Datos con la Hoja de Calculo Excel, cuando se incluyó en el año 2007 en los programas de formación del Centro de Estudios de la Administración Regional del Gobierno de Cantabria. En el 2011 se programó el último de aquellos cursos, ya que en el 2012 pase a impartir la asignatura de Econometría dentro de la licenciatura y grado de Administración y Dirección de Empresas de la Universidad de Cantabria y andaba escaso de tiempo. Dado que había reunido un amplio material de recursos docentes tanto de la asignatura de econometría I UNED, los cursos de postgrado en los que participe, como en los cursos impartidos para las administraciones públicas, en 2007 abrí un blog en wordpress:Http://econometria.wordpress.com/ en el que reuní una parte de aquellos documentos, que posteriormente fui ampliando bien con el material de otros cursos que me fueron encargados (Curso de Contabilidad Trimestral) y análisis estadísticos propios basados en Series de Fourier. Del blog, los recurso más descargados fueros un curso de econometría básica, y otro de econometría avanzado, que ha sido sucesivamente actualizado con los análisis estadísticos basados en series de Fourier. Dado que ha sido ya suficiente el tiempo que ha pasado desde la aparición del primer manual de econometría editado por ediciones académicas, me propuse actualizar este con los contenidos que se difunden a través del blog, ampliando los capítulos ya publicados, redactando nuevos capítulos sobre econometría no parámetrica, cointegración, regresión en dinámica de la frecuencia y el uso de filtros desestacionalizadores, e incorporando junto a los ejemplos desarrollados en Excel otros desarrollados en R, software que está ganando mucho terreno en la docencia de la econometría. Entre dichos materiales se incluye la base teórica de librería en R “descomponer” que elaboré para extraer tendencias y estacionalidades en series de tiempo en base al periodograma de la serie temporal. Dado que uno de los contenidos de los cursos de formación para las Administraciones Públicas era la elaboración de números índices de precios y cantidades, se ha incluido otro capitulo con estos contenidos, a pesar de que los números indices no es materia de las enseñanzas de econometría. Al haber aumentado de forma notable el indice de capítulos, se ha dividido este en dos partes, en la primera se incluyen los capítulos más generales sobre la técnica econométrica y en una segunda parte los más específicos relativos a las series temporales. Desde que cree el blog de econometría aplicada, he comprobado que la mayor parte de las descargas proceden de América Latina, supongo que estos materiales están facilitando de alguna u otra manera que los jóvenes latinoamericanos puedan disponer de materiales de econometría en Castellano para completar sus estudios. Este es en definitiva el objetivo último de este manual facilitar el estudio y la aplicación de la econometría a la comunidad de hispana de la manera más abierta posible. 1. LA ECONOMETRÍA: HISTORIA Y METODOLOGÍA 1.1. LOS ORÍGENES DE LA ECONOMETRIA La Econometría es una disciplina independiente de la Estadística mediante la que se trata de contrastar la validez empírica de la teoría económica mediante modelos matemáticos y estadísticos. Para lograr este objetivo se utiliza como instrumento básico el modelo econométrico, el cual trata de ser una representación simplificada del mundo real mediante la que es posible reproducir el comportamiento y las interrelaciones que se dan entre diversas variables económicas. El término 'econometría' fue utilizado por primera vez por Pawel Ciompa en 1910, siendo rescatado por Frisch en su artículo de 1936 titulado “Note on term ‘Econometrics’”; este autor, socio fundador de la Econometric Society, le asigna el significado que atribuimos en la actualidad a este término. Dicho significado queda recogido en el primer artículo de los estatutos de la mencionada sociedad, y en el mismo se menciona la necesidad del progreso de la teoría económica mediante la utilización del análisis estadístico y matemático. En un sentido más formal, se han propuesto a lo largo de la historia diferentes definiciones que apuntan en la misma dirección e integran los mismos elementos (matemáticas, estadística y datos económicos). Samuelson, Koopmans y Stone (1954) definen la Econometría como “el análisis cuantitativo de fenómenos económicos actuales, basado en el desarrollo congruente de teoría y observaciones, y relacionado por métodos apropiados de inferencia”; Intriligator (1978) señala que es “la rama de la economía relacionada con la estimación empírica de las relaciones económicas”. Chow (1983) la define como el “arte y ciencia de usar métodos para la medida de relaciones económicas”. Stewart y Wallis (1984) consideran que la Econometría es aquella ciencia que “se ocupa de la medición de las relaciones entre las variables económicas y de la confrontación de la teoría con la evidencia empírica” . Finalmente, Greene (1993) señala que “es el campo de la Economía que se refiere a ésta como aplicación de la Estadística Matemática y los instrumentos de la Estadística Inferencial a la medición empírica de las relaciones postuladas por la Teoría Económica”. Si bien el término ‘econometría’ fue reconocido en 1936, se considera a Henry Moore (1914, 1917) el primer autor en efectuar una estimación de relaciones económicas de demanda a partir de estadísticas económicas. Las regresiones lineales de Moore crearon escuela y entre sus seguidores cabe destacar a Henry Schultz, Holbrook Working y Paul Douglas, entre otros. Working (1927) planteó la estimación de mercados en equilibrio, descubrió en sus trabajos los problemas asociados a los errores en las variables y planteó inicialmente la importancia de las expectativas. Schultz (1938) publicó un libro íntegramente dedicado a la teoría y análisis de la demanda en Estados Unidos, demostrando una preocupación permanente por la unión entre teoría y medida. La otra área de estudio con interés para los pioneros del análisis estadístico económico, la constituían los ciclos económicos. Si bien en los trabajos iniciales de Sir William Petty se dejaba constancia de los ciclos, no será hasta el siglo XIX cuando renacerá la curiosidad por su estudio. Así, el físico francés Clement Juglar (1819-1905) es el primero en utilizar las series históricas para el estudio del ciclo en los negocios, descubriendo un ciclo para la inversión de 7 a 11 años de duración. A este trabajo le siguen los de Kitchin, Kuznets y Kondratieff, identificando un ciclo de los inventarios de 3 a 5 años, un ciclo de la construcción de 15 a 25 años y un ciclo de actividades a largo de 45 a 60 años. En general estos estudios de los ciclos y los emprendidos posteriormente por Mitchell (1927) y Burns y Mitchell (1947) en el National Bureau of Economic Research, fueron de tipo morfológico y descriptivo, por lo que las relaciones entre variables constituían un segundo plano de interés. No servirán, por tanto, de ayuda para el empuje del análisis econométrico ya que sus objetivos y metodología son diferentes. Por el contrario, los trabajos de Wright (1915, 1928), Working (1927), Tinbergen (1930) y Frisch (1933) sobre análisis de la demanda, planteando el problema de la identificación en las relaciones estructurales entre variables económicas, sientan las bases para el desarrollo econométrico que culminaría en la creación de la Econometric Society en 1930, de la mano de Fisher, Frisch y Roos. Dicha sociedad, junto con los trabajos de la Cowles Commission, sentaran las bases de la Econometría actual. La importancia asignada a la creación de la Econometric Society se debe a la obtención de una agrupación de economistas con preocupaciones de tipo cuantitativo, creando un instrumento de expresión de los mismos mediante la revista Econométrica. En ese momento la Econometría deja de ser una actividad dispersa, facilitándose el intercambio de información entre investigadores, convirtiéndose así en un movimiento organizado con un medio para el intercambio de ideas y resultados. Una vez creada la Econometric Society era importante disponer de una institución donde localizar y centralizar las investigaciones sobre la nueva disciplina; éste será el papel a desempeñar por la Cowles Commission. La Cowles Commission for Research in Economics, era una institución sin fines lucrativos fundada por Alfred Cowles III, presidente de una sociedad de inversores. Su objetivo era la aplicación de las matemáticasa la economía con el fin de obtener buenas predicciones de las cotizaciones en Bolsa. Sin embargo, no tardarán en aparecer las primeras críticas a los métodos utilizados por los primeros económetras, Así, podemos encontrar la del propio Keynes juzgando a la econometría como próxima a la alquimia y sin resultados fiables al considerar el contexto económico difícilmente modelizable por relaciones matemáticas, o la de Milton Friedman dudando del método de Tinbergen para seleccionar una teoría económica entre varias estimadas empíricamente. Asimismo, un alumno de Frisch, Trygve Haavelmo (1943,1944) demuestra la inconsistencia de la estimación por Mínimos Cuadrados Ordinarios (MCO) y la simultaneidad en los sistemas macroeconómicos, poniendo de manifiesto la necesidad de cuestionar los procedimientos basados en MCO. Haavelmo propone la introducción del modelo probabilístico para sustentar la base de la metodología econométrica, modelo que será adoptado inicialmente por la Cowles Commission para realizar estimación e inferencia. En 1950 la Cowles Commission publicó la obra "Statistical Inference in Dynamic Economic Models", obra elaborada por un equipo de prestigiosos investigadores del que formaron parte Marschak, Tjalling, Koopmans, Hurwicz, Rubin, Klein y Anderson, que recogía todos los trabajos y avances realizados en años anteriores y establece las normas básicas de la investigación econométrica. Todo el conocimiento acumulado en los años treinta y cuarenta conduce un espectacular desarrollo de la Econometría durante los años cincuenta; de entre los avances que se producen en la época cabe destacar los siguientes: − A mediados de los años cincuenta aparece el método de estimación por Mínimos Cuadrados en 2 Etapas (MC2E), desarrollado por Theil (1954, 1958) y Bassmann (1957), el cual debido a su sencillez y facilidad de cálculo gozará de una gran aceptación como método de estimación de modelos de ecuaciones simultáneas frente a los métodos de Máxima Verosimilitud con Información Completa (MVIC), propuesto por Koopmans (1950), y con Información Limitada (MVIL), propuesto por Anderson y Rubin (1949); posteriormente, a finales de esta década, aparecerá el método de las Variables Instrumentales (VI) propuesto por Sargan (1958). − Klein y Goldberger (1955) desarrollan y perfeccionan su trabajo anterior, dando lugar a uno de los modelos más populares entre los económetras: el modelo Klein-Goldberger, el cual incorpora novedades a las especificaciones de los modelos macroeconómicos precedentes, determinando el consumo no solamente a través de la renta, sino también a través de los efectos riqueza e impuestos, e incorporando por primera vez funciones de producción. − Otro acontecimiento de importancia capital en el desarrollo de la econometría y los grandes modelos estructurales se produce en 1958, cuando los editores de Econometrica promueven un Congreso bajo el título de “Estimación de ecuaciones simultáneas: ¿Alguna sentencia?” y con el que se pretendía establecer un debate sobre el método propuesto por la Cowles Commission. Como era de esperar, en dicho Congreso hubo diferentes posiciones, destacando las de Liu (1960), Hildreth (1960), Christ (1960) y Klein (1960). Sin embargo, el esplendor de que gozó la Econometría en los años cincuenta pronto se vería eclipsado por la crisis que se produjo a comienzos de los años setenta a causa de la elevación de los precios energéticos, hecho que no pudo ser previsto por ningún modelo econométrico. Ello afectó directamente al pensamiento económico general y al desarrollo posterior de la Econometría. Una de las primeras críticas que se lanzó en contra de los modelos econométricos era que se habían dejado de lado los planteamientos microeconómicos, por lo que los modelos econométricos que sólo utilizaban agregados macroeconómicos no podían representar de forma consistente la conducta racional y optimizadora de los agentes económicos. Esta crítica propició la incorporación de datos y relaciones microeconómicas, dando lugar a la rama conocida como Microeconometría. Entre los principales desarrollos alcanzados en esta área cabe destacar los siguientes: − Por un lado, los Modelos con Variable Dependiente Cualitativa, en los que se considera que la variable dependiente admite un conjunto acotado de valores discretos, generalmente 0 ó 1, mediante los que es posible representar cualidades de los individuos. Entre los trabajos pioneros en este campo están los de McFadden (1974, 1976) y Amemiya (1978), en los que se considera una aproximación logística en la estimación de estos modelos (modelo Logit), mientras que en Albright, Lerman y Manski (1977) se estudia la aproximación mediante una distribución Normal (modelo Probit). − Por otro lado, los Modelos de Datos de Panel en los que se incluye información de una muestra de agentes económicos (individuos, empresas, bancos, ciudades, países, etc.) durante un determinado período de tiempo, combinando así la dimensión temporal y la dimensión estructural de los datos. Entre los trabajos más notables de esta línea, cabe mencionar a Kuh (1959), Balestra y Nerlove (1966), Rosenberg (1973) y Swamy y Mentha (1977). Mención aparte merece el espectacular desarrollo que se produce en esta década del análisis econométrico de series temporales, tanto de tipo multivariante como, especialmente, univariante. Los modelos univariantes de series temporales giran, de forma mayoritaria, en torno a la metodología desarrollada por Box y Jenkins (1970). Dichos autores proponen la construcción de modelos sobre una variable temporal, tratándola como un mecanismo autónomo, cuya gran ventaja es la mejora de las predicciones a corto plazo. La metodología Box-Jenkins supone la ruptura con la econometría clásica y con el pensamiento económico en general al no existir una relación con la teoría económica, por lo que no pueden ser considerados como una alternativa a los modelos estructurales multiecuacionales. Sin embargo, la principal crítica realizada durante los años setenta de los métodos econométricos se centra en la identificación y estimación de modelos multiecuacionales. Partiendo del trabajo de Muth (1961), Lucas (1972, 1973), Sargent (1973) y Sargent y Wallace (1975), abanderados de la escuela de las expectativas racionales, plantean la duda sobre la permanencia a lo largo del tiempo de los parámetros estructurales incluidos en los modelos macroeconómicos, ante cambios en la política económica del gobierno. Es decir, no existe nada que nos garantice que la estructura de las reglas de decisión de los agentes económicos quedará inalterada al modificar las reglas de política económica; y dado que esta estructura es la que representa el modelo, no hay razón para pensar que los parámetros del mismo sean fijos. Por tanto, si no separamos los parámetros de las decisiones políticas de los de las relaciones económicas, los modelos que estimemos no podrán ser utilizados en la toma de decisiones. La solución adoptada para resolver este problema ha sido la inclusión del proceso de formación de las expectativas racionales en los modelos econométricos, asegurando la coexistencia entre expectativas y simulaciones mediante la imposición de restricciones paramétricas entre ecuaciones. Finalmente, otra crítica importante a la econometría clásica es la planteada por Sims (1980, 1982) a comienzos de los años ochenta. La idea central de Sims es que no es necesaria la existencia de una teoría económica a priori para establecer las restricciones que hagan posible la identificación de modelos estructurales, ya que no es necesario para la previsión y simulación. Sims propone una nueva clase de modelos como alternativa a los modelos de ecuaciones simultáneas, los Vectores Autorregresivos (VAR), en los que no es necesario clasificarlas variables en endógenas y exógenas. Sin embargo, el desconocimiento que los modelos VAR conllevan sobre las relaciones de tipo estructural (variables endógenas, exógenas, forma estructural) no permite realizar una aproximación a los efectos producidos por cambios en la política económica, con lo que su campo de aplicación se limita a la simple previsión. A finales de la década pasada. Granger y Newbold (1974) advirtieron sobre el peligro que supone especificar relaciones espúreas, es decir, relaciones no de causalidad sino de casualidad. Sus estudios aumentaron el interés por la modelización dinámica y las propiedades a largo plazo de los modelos econométricos. Su contribución ha dado lugar a los conceptos de cointegración (Granger, 1981), el test de raiz unitaria (Dickey y Fuller, 1979) y los modelos de corrección de error (Sargent, 1984). En los últimos años, en paralelo al avance de las nuevas tecnologías de la información y al desarrollo de las grandes bases de datos, asistimos a un nuevo cambio conceptual de la teoría econométrica, poniendose en cuestión los supuestos sobre la normalidad de la distribución de probabilidad de las variables sujetas al análisis. Otros problemas que enfrentan los investigadores hoy día son la existencia de datos imperfectos con poca correspondencia con las variables definidas en los modelos económicos y el poco entendimiento del verdadero significado de algunas pruebas de hipótesis. En consecuencia, se estan produciendo desarrollos teóricos que permiten un mayor acercamiento a los procesos económicos tal y como se presentan y que no exigen el supuesto de normalidad de las variables bajo estudio (o del término de error). Entre los avances teóricos más recientes que merecen ser mencionados se encuentran el desarrollo de la econometría no paramétrica y la econometría de series de tiempo no lineales. 1.2. LOS MODELOS ECONOMÉTRICOS El método científico en las Ciencias Sociales se basa tanto en la deducción como en el conocimiento empírico. La deducción es el proceso de razonamiento lógico que conduce a unas conclusiones partiendo de unas premisas o informaciones iniciales. El conocimiento empírico objetiva el conocimiento a través de la experiencia, de los hechos y de la Historia. El punto de partida del investigador es la realidad, los hechos económicos tal y como se producen en la sociedad. La lectura de esos datos y el conocimiento general de la realidad sugerirán al investigador alguna hipótesis explicativa de las razones por las que los datos ofrecen una determinada magnitud o evolución. Esas hipótesis son las que permiten organizar los datos y dan lugar a la formulación de leyes, teorías y modelos. Las leyes expresan las regularidades encontradas en las series de datos. Las teorías son una forma de organizar las hipotéticas leyes y facilitan la comprensión del funcionamiento de la economía. Finalmente, los modelos son construcciones intelectuales basadas en las teorías que permiten realizar estimaciones de los efectos que pueden derivarse de cambios en los datos reales. Los modelos constituyen por tanto un puente entre la teoría pura y el mundo real, pudiendo contrastarse si una determinada teoría es una buena representación de los hechos que trata de explicar o no. En el caso de la ciencia económica, los modelos están basados generalmente en supuestos simplificadores de la realidad y están formados generalmente por ecuaciones matemáticas que relacionan distintas variables. Dichas variables pueden dividirse en variables exógenas, que son aquellas cuyos valores deben ser tomados de la realidad; y variables endógenas, que son aquellas cuyo valor es deducido al operar con las ecuaciones del modelo. Ambos tipos de variables se relacionan mediante un conjunto de parámetros, los cuales deben ser estimados. Los modelos permiten realizar predicciones económicas susceptibles de ser contrastadas con la realidad. Dichas predicciones son probabilísticas y no deterministas; es decir, que con los modelos económicos no es posible predecir con precisión cuál será, por ejemplo, el consumo exacto que realizará un determinado individuo, pero sí se puede prever el comportamiento de grandes agregados de consumidores estableciendo unos márgenes de error entre los que estará comprendido, o lo que es lo mismo, estimando la probabilidad de que esa predicción se cumpla. Según el objeto de análisis, podemos distinguir diversos tipos de modelos económicos: − Modelos Macroeconómicos, cuando los modelos representan la economía en su totalidad; se trata de modelos en los que generalmente existe poco detalle sectorial con los que se pretende cuantificar los resultados de las políticas macroeconómicas, como puede ser un aumento del gasto público o de la imposición directa. La mayoría de los economistas que realizan predicciones utilizan tales modelos. − Modelos Microeconómicos, los cuales analizan la situación de una cierta industria, mercado o institución. Asimismo, atendiendo al tipo de relaciones que se establecen entre las variables del modelo podemos distinguir entre: − Modelos Deterministas, en los que las relaciones exactas entre las variables del modelo son exactas. Se trata generalmente de modelos en los que se parte de una o varias variables, denominadas inputs, a partir de las cuales se intenta conocer el comportamiento de otras variables, denominadas output, mediante diversas transformaciones matemáticas. Un ejemplo de este tipo de modelos son las tablas input-output de Leontief. − Modelos Estocásticos, en los que las relaciones entre las variables no son exactas, ya que existe un componente de carácter aleatorio, denominado término de error o perturbación aleatoria, que forma parte de las ecuaciones del modelo. Dicho componente aleatorio recoge todos aquellos aspectos que no quedan especificados en la relación causal establecida en el modelo tales como determinadas circunstancias acontecidas de carácter impredecible (shocks) que influyen en la relación estudiada y los errores en la medición, documentación y computación de las variables observables que aproximan las variables teóricas del modelo. En la literatura económica, la mayor parte de los modelos econométricos son de este tipo estocástico. Según el tipo de datos de las variables utilizadas en el modelo, podemos distinguir entre: − Modelos de Series Temporales, en los que se utilizan datos recogidos a lo largo de un determinado periodo de tiempo: días, semanas, meses, trimestres o años. Ejemplos de este tipo de variables son las cotizaciones diarias de las acciones, el Índice de Precios al Consumo, la Encuesta de Población Activa, los datos anuales y trimestrales del Producto Interior Bruto, etc. − Modelos de Series de Corte Transversal, en los que se utilizan datos referidos a diferentes individuos en un mismo momento del tiempo. Ejemplos de datos transversales serían los productos consumidos por diferentes familias en un determinado año, las ventas que realizan diversas empresas que forman una determinada industria en un determinado trimestre, el paro registrado en los municipios españoles en un determinado semestre, etc. − Modelos de Datos de Panel, en los que se combinan datos de diversos individuos recogidos a lo largo del tiempo. Considerando la existencia o no de retardos de las variables incluidas en el modelo podemos diferenciar entre: − Modelos Estáticos, cuando las relaciones entre las variables del modelo tienen lugar en el mismo instante del tiempo tanto para la variable endógena como para todas las variables explicativas del modelo. − Modelos Dinámicos, cuando las relaciones entre las variables del modelo están referidas a diferentes momentos en el tiempo, de forma que un modelo dinámico se construye con variables retardadas. Finalmente, según el número de variables endógenasque deseemos explicar podemos distinguir entre: − Modelos Uniecuacionales, que constan de una única variable endógena. − Modelos Multiecuacionales, que poseen varias variables endógenas, algunas de las cuales pueden ser a su vez variables explicativas en otras ecuaciones. 1.3. LA METODOLOGÍA ECONOMÉTRICA En términos generales, la metodología econométrica tradicional considera los siguientes pasos en lo referente a la elaboración de modelos: 1. Planteamiento de la teoría o hipótesis: generalmente se utiliza una construcción teórica de la Macroeconomía y/o Microeconomía, como por ejemplo la función keynesiana de consumo, la curva de Phillips, la teoría de la demanda del consumidor, etc. 2. Especificación: el siguiente paso es establecer la relación formal entre las variables a que da lugar la teoría. Dicha relación se establece en forma matemática funcional, mediante una ecuación o un sistema de ecuaciones. Las variables que reciben los efectos son las variables endógenas, las cuales figuraran a la izquierda de las igualdades, mientras que las que producen los efectos, son las denominadas variables exógenas, las cuales aparecen en el lado derecho de las ecuaciones. Los efectos de cada variable exógena se cuantifican a través de una serie de parámetros que debemos estimar. Asimismo, en cada ecuación del modelo existirá un término de error o perturbación que recoge los efectos aleatorios y que tendrá unas propiedades probabilísticas definidas. Una vez establecida la relación funcional matemática, deberemos seleccionar datos de los que dispongamos nos servirán para representar los valores de las variables teóricas. Por ejemplo, si incluimos en el modelo como variable teórica la renta tendremos que elegir los datos que utilizaremos para representar dicha variable de entre las encuestas de que dispongamos: la renta familiar disponible, la renta interior, la renta nacional, etc. En algunas ocasiones, puede ocurrir que no exista una variable estadística que responda a los requisitos que exijamos, por lo que deberemos considerar la existencia de un posible error de observación. En definitiva, para la especificación de un modelo completo habrá que especificar claramente lo siguiente: − variables endógenas teóricas (y sus respectivos valores observados) − variables exógenas teóricas (y sus respectivos valores observados) − perturbaciones aleatorias (no observables) − errores de observación en las variables endógenas − errores de observación en las variables exógenas. 3. Selección de datos: una vez hemos especificado el modelo procederemos a la obtención de un número de suficiente de datos que tengan las siguientes características: − Suficientes: como mínimo para poder realizar la estimación, el número de observaciones debe ser igual al número de parámetros que queremos estimar; de lo contrario, la estimación obtenida no resultará fiable. − Homogéneos: los datos deben estar expresados de una forma homogénea; esto quiere decir que todos deben estar expresados en las mismas magnitudes o valores y tienen que haber sido obtenidos por procedimientos estadísticos semejantes. Asimismo, si fuera necesario, todas las variables deberán estar corregidas de la misma manera de determinados efectos que se dan en las variables económicas como la tendencia o la estacionalidad. − Actuales: la falta de actualidad en los datos es un problema grave, en particular si el modelo que construimos tiene como finalidad predecir los valores futuros o realizar simulaciones de política económica. 4. Estimación: se trata del procedimiento utilizado para obtener el valor de los parámetros del modelo. Habitualmente la técnica utilizada es el análisis de regresión que incluye diferentes técnicas: Mínimos Cuadrados Ordinarios (MCO), Mínimos Cuadrados Indirectos (MCI), Variables Instrumentales (VI), Mínimos Cuadrados en 2 Etapas (MC2E), Mínimos Cuadrados Generalizados (MCG), etc. Las técnicas econométricas requieren realizar cálculos a veces muy complejos, por ello es de gran utilidad el auxiliarnos de herramientas como hojas de cálculo (Excel, Lotus 123, etc.) y programas estadísticos y econométricos (EViews, SPSS, SAS, etc.) 5. Validación: una vez que se han estimado los parámetros del modelo, habrá que verificar que los valores obtenidos concuerdan con los postulados de la teoría que se ha utilizado para la construcción del modelo. La validación del modelo se realiza mediante la técnica estadística de inferencia o contraste de hipótesis, que consiste en analizar mediante pruebas estadísticas la bondad del ajuste y la significatividad estadística de los valores estimados, de tal forma que si el modelo no ha dado los resultados esperados deberá perfeccionarse mediante: − Un cambio en la forma matemática funcional del modelo. − Incluyendo en el modelo alguna variable explicativa que haya sido omitida. − Reemplazando las observaciones utilizadas para representar las variables endógenas y explicativas por otras que posean un menor error de observación. 6. Utilización: una vez validado, el modelo econométrico puede ser utilizado para diversas tareas tales como: − Análisis estructural: cuantificar las relaciones que entre las variables endógenas y exógenas. − Predicción: dados unos valores de las variables explicativas, podemos obtener mediante el modelo estimado el valor futuro que tomará la variable endógena. − Simulación o evaluación de políticas: efectos que tienen sobre la variable endógena (variable objetivo) las diferentes estrategias que se planteen sobre las variables explicativas (variables de control). 2. EL MODELO LINEAL GENERAL 2.1. INTRODUCCIÓN La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha técnica tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endógena, respecto de una o varias variables explicativas o exógenas. Gujarati (1975), define el análisis de regresión como el estudio de la dependencia de la variable dependiente, sobre una o más variables explicativas, con el objeto de estimar o predecir el valor promedio poblacional de la primera en términos de los valores conocidos o fijos (en medias muestrales repetidas) de las últimas. En este capitulo abordaremos el estudio del caso de una única ecuación de tipo lineal con una variable dependiente y una independiente, y la generalización del modelo al caso de múltiples variables exógenas. Las extensiones del modelo lineal general se analizaran en capítulos siguientes. 2.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS MÍNIMOS CUADRADOS ORDINARIOS. Partimos de la existencia de una relación lineal entre una variable endógena (Y) y k variables exógenas (Xi): ikikiii eXXXY +++++= ββββ ...22110 Nuestro objetivo consiste en estimar los parámetros βi de la ecuación anterior a partir de los datos muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este método debemos plantear ciertas hipótesis sobre el comportamiento de las variables que integran el modelo. La variable et la denominamos término de perturbación o error, y en ella recogemos todos aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin embargo, no están reflejados en las variables explicativas, Xi. Estos factores deberían ser poco importantes, ya que no debería existir ninguna variable explicativa relevante omitida en el modelo de regresión. En caso contrario estaríamos incurriendo en lo que se conoce como un error de especificación del modelo. El término de perturbación también recogería los posibles errores de medida de la variable dependiente, Y. De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de vitalimportancia que dicho término de error no ejerza ninguna influencia determinante en la explicación del comportamiento de la variable dependiente. Por ello, si el modelo esta bien especificado, cuando se aplica el método de Mínimos Cuadrados Ordinarios, cabe realizar las siguientes hipótesis de comportamiento sobre el término de error: 1. La esperanza matemática de et es cero, tal que E(ei) = 0. Es decir, el comportamiento del término de error no presenta un sesgo sistemático en ninguna dirección determinada. Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un error de medida por exceso y otras por defecto, pero en media los errores estarán compensados. 2. La covarianza entre ei y ej es nula para ji ≠ tal que E(ei·ej) = 0. Ello quiere decir que el error cometido en un momento determinado, i, no debe estar correlacionado con el error cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen influencia unos sobre otros. En caso de existir este tipo de influencia o correlación, nos encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide realizar una estimación por Mínimos Cuadrados válida. 3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que Var(ei) = σ2I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos una variable, se produce un cierto error, resulta deseable que los errores que cometamos en momentos diferentes del tiempo sean similares en cuantía. Esta condición es lo que se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediría un uso correcto de la estimación lineal por Mínimos Cuadrados. Estas hipótesis implican que los errores siguen una distribución Normal de media cero y varianza constante por lo que, dado su carácter aleatorio, hace que los errores sean por naturaleza impredecibles. Asimismo, las variables incluidas en el modelo deben verificar que: 1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo el periodo muestral, es decir, no se produce un cambio importante en la estructura de comportamiento de Y a lo largo de la muestra considerada. 2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en muestreos repetidos. 3. El número de variables explicativas, k, siempre debe ser menor que el tamaño muestral, n. Es decir, siempre debemos disponer de más observaciones que parámetros haya en el modelo (coeficientes β). Partiendo de la relación lineal más sencilla: iii eXY ++= 110 ββ Si suponemos que se verifican los supuestos anteriores, la estimación mínimo cuadrática de los parámetros β0 y β1, dará como resultado gráfico una recta que se ajuste lo máximo posible a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede apreciar en el Figura 2.1. Fig. 2.1. Nube de puntos o gráfico de dispersión con variables relacionadas linealmente El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la imagen de Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es decir1: ∑ ∑∑ = == −−=−= n i n i iii n i ii XYYYeMin 1 1 2 10 2 1 2 )ˆˆ()ˆ( ββ Derivando esta expresión respecto a los coeficientes 0β̂ y 1β̂ e igualando a cero obtenemos el sistema de ecuaciones normales: XYXnY o n i i n i i 1 1 10 1 ˆˆˆˆ ββββ +=⇒+= ∑∑ == ∑∑∑ === += n i i n i i n i ii XXXY 1 2 1 1 0 1 ˆˆ ββ 1 Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que son estimadas por lo que no se corresponden con el valor real del parámetro sino con el calculado por nosotros. donde n representa el tamaño muestral y X e Y representan las medias de dichas variables. Resolviendo dicho sistema de ecuaciones obtenemos la solución para los parámetros a y b: ( )( ) ( ) XY XX YYXX o n i i n i ii 1 1 2 1 1 ˆˆ ˆ ββ β −= − −− = ∑ ∑ = = Ejemplo 2.1. Supongamos que el director de una empresa piensa que la demanda de un producto que él comercializa depende únicamente del precio de venta al público. Para estudiar la demanda de este producto pretende estimar el siguiente modelo: ttt eXY ++= 10 ββ donde Yt es la cantidad vendida anualmente del bien Y en el año t, y Xt es el precio medio al cual se vendió el bien Y durante el año t. Se dispone de los siguientes datos muestrales: Año Yt Xt 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 10 12 13 14 15 17 20 21 22 20 19 18 16 15 15 14 14 13 12 13 A partir de estos datos iniciales podemos calcular la siguiente tabla: Yt Xt ( )tY Y− )( XX t − ( )·( )t tY Y X X− − 2)( XX t − 2)( YYt − 10 19 -6.4 4.1 -26.24 16.81 40.96 12 18 -4.4 3.1 -13.64 9.61 19.36 13 16 -3.4 1.1 -3.74 1.21 11.56 14 15 -2.4 0.1 -0.24 0.01 5.76 15 15 -1.4 0.1 -0.14 0.01 1.96 17 14 0.6 -0.9 -0.54 0.81 0.36 20 14 3.6 -0.9 -3.24 0.81 12.96 21 13 4.6 -1.9 -8.74 3.61 21.16 22 12 5.6 -2.9 -16.24 8.41 31.36 20 13 3.6 -1.9 -6.84 3.61 12.96 Total 164 149 0 0 -79.6 44.9 158.4 Media 16.4 14.9 Aplicando las formulas vistas anteriormente: 1 1 2 1 0 1 ( )( ) 79.6ˆ 1.7728 44.9( ) ˆ ˆ 16.4 ( 1.7728·14.9) 42.82 n t t t n t i X X Y Y X X Y X β β β = = − − −= = = − − = − = − − = ∑ ∑ de donde la ecuación de la recta estimada será: ttt eXY +−= 7728.182.42 Finalmente, sustituyendo en la expresión anterior los valores de Xt podemos obtener los valores de tŶ y el valor de los términos de error et: tŶ ttt YYe ˆ−= 9.13140312 0.86859688 10.9042316 1.09576837 14.4498886 -1.44988864 16.2227171 -2.22271715 16.2227171 -1.22271715 17.9955457 -0.99554566 17.9955457 2.00445434 19.7683742 1.23162584 21.5412027 0.45879733 19.7683742 0.23162584 2.3. REGRESIÓN LINEAL MÚLTIPLE Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias variables exógenas, de tal forma que se trata de determinar la relación que existe entre la variable endógena Y y variables exógenas: X1, X2.…, Xk. Dicho modelo se puede formular matricialmente de la siguiente manera: ikikii eXXXeXY ++++=+= ββββ ...· 2211 , i=1,2,…, n donde: = nY Y Y Y ... 2 1 es el vector de observaciones de la variable endógena [ ]k21 21 22221 11211 X ...X X ... ............ ... ... = = nknn k k XXX XXX XXX X es la matriz de observaciones de las variables exógenas = Kβ β β β ... 2 1 es el vector de coeficientes que pretendemos estimar = ne e e e ... 2 1 es el vector de términos de error Si en la expresión anterior se considerara que existe término independiente, β0, la matriz X quedaría como: 11 1 21 2 1 3 k 1 1 ... 1 ... X X ... X ... ... ... ... 1 ... 1 k k n nk X X X X X X X = = Y el modelo quedaría así: ikikiioi eXXXY +++++= ββββ ...2211 , i=1,2,…, n Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver nuevamente es la minimizaciónde la suma de los cuadrados de los términos de error tal que: ( ) ( )∑ ∑ ∑ = = = −=−= n i n i n i iii XYYYeMin 1 1 1 222 ˆˆ β Desarrollando dicho cuadrado y derivando respecto a cada βi obtenemos el siguiente sistema de ecuaciones normales expresado en notación matricial: ˆ' · 'X X X Yβ = en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz )'( XX para obtener la estimación de los parámetros del modelo tal que: YXXX ')'(ˆ 1−=β donde: = ∑∑∑ ∑∑∑ ∑∑∑ === === === n t ki n t iki t i n t kii n t i n t ii n t kii n t ii n t i XXXX XXXXX XXXXX XX 1 2 1 2 n 1 1ki 1 2 1 2 2 1 12 1 1 1 21 1 2 1 ...X .................. ... ... ' = ∑ ∑ ∑ = = = n t iki n t ii n t ii YX YX YX YX 1 1 2 1 1 .... ` Si en el modelo existiera término independiente, β0, las matrices anteriores serían: = ∑∑∑ ∑∑∑ ∑∑ === === == n t ki n t iki t n t kii n t i n t i n t ki n t i XXX XXXX XXn XX 1 2 1 1 n 1 ki 1 1 1 2 1 1 1 11 1 ...X .................. ... ... ' = ∑ ∑ ∑ = = = n t iki n t ii n t i YX YX Y YX 1 1 1 1 .... ` El resultado de multiplicar dichas matrices conduce a la obtención de la estimación de los parámetros βi del modelo: ( ) = == ∑ ∑ ∑ ∑∑∑ ∑∑∑ ∑∑ = = = − === === == − k o n i iki n i ii n i i n t ki n t iki t n t kii n t i n t i n t ki n t i YX YX Y XXX XXXX XXn YXXX β β β β ˆ ... ˆ ˆ .... ...X .................. ... ... ''ˆ 1 1 1 1 1 1 1 2 1 1 n 1 ki 1 1 1 2 1 1 1 11 1 1 Cada uno de los coeficientes estimados, iβ̂ , son una estimación insesgada del verdadero parámetro del modelo y representa la variación que experimenta la variable dependiente Y cuando una variable independiente Xi varía en una unidad y todas las demás permanecen constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadísticas muy interesantes ya que. si se verifican los supuestos antes comentados, son insesgados, eficientes y óptimos. Ejemplo 2.2. Un investigador estudia el empleo en el sector turístico en España. Para ello dispone de información relativa al empleo en los hoteles (Y), número de turistas medido en miles (X1), y la estancia media de los turistas (X2) medida en días. Los datos disponibles son de corte transversal y pertenecen a cada una de las 17 Comunidades Autónomas. Provincias Empleo (miles) Número de viajeros (miles) Estancia media Andalucía 28.4 11902.5 3.1 Aragón 3.6 1848.0 2.1 Asturias 2.4 1088.2 2.3 Baleares 25.9 6716.0 7.2 Canarias 27.2 4875.7 7.8 Cantabria 2.0 933.8 2.4 Castilla y León 6.2 3647.6 1.7 Castilla-La Mancha 2.8 1805.1 1.7 Cataluña 23.5 10771.7 3.4 Comunidad Valenciana 13.4 5579.7 3.9 Extremadura 2.2 1000.7 1.7 Galicia 6.3 3040.5 2.1 Madrid 10.7 5748.9 2.1 Murcia 2.0 882.5 3.0 Navarra 1.1 557.7 2.0 País Vasco 3.2 1540.6 1.9 Rioja (La) 0.7 446.2 1.8 El modelo teórico a estimar con la información disponible es el siguiente: Yi = β0+β1 X1i + β2 X2i + ei Para proceder a estimar es modelo lo más conveniente es calcular la matriz de productos cruzados: Y X1 X2 Y 3193 1101921 709 X1 426702792 227645 X2 203 en donde 17 2 1 3193i i Y = =∑ , 17 1 1 1101921i i i Y X = =∑ , 17 2 1 709i i i Y X = =∑ , 17 2 1 1 426702792i i X = =∑ , 17 1 2 1 227645i i i X X = =∑ y 17 2 2 1 203i i X = =∑ Teniendo presente que: 17 1 17 1 1 17 2 1 17 161.8 62385.5 50.3 i i i i i i N Y X X = = = = = = = ∑ ∑ ∑ del que se conocen los siguientes resultados: ( ) 17 62386 50 ' 62386 426702792 227645 50 227645 203 X X = ( ) 162 ' 1101921 709 X Y = Vamos a estimar el modelo propuesto por Mínimos Cuadrados Ordinarios. Para ello, basta con multiplicar las matrices tal que: ( ) 1 0.231 0.00001 0.048 162 5.702 ˆ ' ' 0.00001 0.00000001 0.000005 1101921 0.006 0.048 0.000005 0.022 709 2.679 X X X Yβ − − − − = = − − = − − Por lo que el modelo queda como sigue: iŶ = -5.702+0.006 X1i + 2.679 X2i donde 1̂ 0.006β = indica el efecto de las variaciones unitarias del número medio de turistas sobre el empleo del sector, y 679.2ˆ 2 =β mide la variación que se produciría en empleo si la estancia media aumentara en una unidad. 2.4. PROPIEDADES ESTADISTICAS DEl ESTIMADOR MÍNIMO CUADRADO. El estimador YXXX ')'(ˆ 1−=β puede escribirse como: eXXXeXXXX ')'()(')'(ˆ 11 −− +=+= βββ Si se cumplen las hipótesis de comportamiento sobre el término error, la distribución de probabilidad del estimador MCO β̂ será uno distribución normal multivariante con vector de mediasβ y matriz de varianzas y covarianzas 12 )'( −XXσ . La esperanza matemática del estimador MCO se demuestra a partir de: [ ] ββββ =+=+= −− )(')'(')'()ˆ( 11 eEXXXeXXXEE . De la definición de matriz de varianzas y covarianzas, se tiene que: ( )( ) −−= ' )ˆ(ˆ)ˆ(ˆ)ˆvar( βββββ EEE Teniendo presente que ( ) eXXXeXXXE ')'(')'()ˆ(ˆ 11 −− =−+=− ββββ Entonces [ ] ( ) 121111 )'()'('')'()'('')'()ˆvar( −−−−− === XXXXXeeEXXXXXXeeXXXE σβ El estimador jβ̂ del parámetro jβ es insesgado porque su esperanza matemática coincide con el verdadero valor del parámetro jjE ββ =)ˆ( . Se dice que un estimador insesgado jβ̂ es mas eficiente que otro estimador insesgado jβ~ , si la varianza muestral de j β̂ es menor que la varianza muestral de jβ~ . El teorema de Gauss-Markov demuestra que el estimador MCO j β̂ es el más eficiente de la clase de estimadores lineales e insesgados de jβ . Según el Teorema de Gauss-Markov, cualquier estimador lineal de puede expresarse como: [ ] [ ]( ) DeeXXXDXeXDXXXYDXXX +++=++=+= −−− ')'(')'(')'( 111 βββ donde D es una matriz (k×n) arbitraria, que establece la diferencia entre el estimador MCO y el estimador alternativo. La esperanza de dicho estimador es: ( ) DXE += ββ~ Si β~ es insesgado, entonces 0=DX . En otras palabras el estimador alternativo sólo será insesgado si la matriz de distancia es ortogonal a las variables explicativas. A continuación obtenemos la matriz de covarianzas de este estimador ( )( )[ ]') ~ ( ~ ) ~ ( ~ ) ~ var( βββββ EEE −−= Teniendo presente que : ( ) [ ]eDXXXDeeXXXDXE +=−+++=− −− ')'(')'() ~ ( ~ 11 ββββ entonces, ( ) ( )( ) [ ]DDXXXXXDeeEDXXX ')'()'(''')'() ~ var( 1211 +=++= −−− σβ y como DD' es una matriz semidefinida positiva, se demuestra que la )ˆvar() ~ var( ββ > con independencia de la normalidad o no de las distribución β ~ . 2.5. COEFICIENTES DE DETERMINACIÓN Y CORRELACIÓN PARCIAL 2.5.1. Coeficiente de determinación Una vez estimada la ecuación de regresión lineal tiene interés determinar la exactitud del ajuste realizado. Para ello hay que analizar la variación que experimenta esta variable dependiente y, dentro de esta variación, se estudia qué parte está siendo explicada por el modelo de regresión y qué parte es debida a los errores o residuos. La forma de realizar dicho análisis es a partir de la siguiente expresión: SCRSCESCT += donde: − SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la variable dependiente. − SCE es la Suma de Cuadrados Explicados por el modelo de regresión. − SCR es la Suma de Cuadradosde los Errores Cuando el modelo tiene término independiente, cada una de estas sumas viene dada por: 2 2 2 1 ' n i i SCT Y Y nY Y nY = = − = −∑ 2 2 2 1 ˆ ˆ ˆ' ' n i i SCE X Y nY Y nYβ β = = − = −∑ 2 2 2 1 1 1 ˆ ˆ' ' ' n n n i i i i i i SCR e Y Y X Y Y Y SCT SCEβ = = = = = − = − = −∑ ∑ ∑ A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación (R2). que se define como: SCT SCR R −= 12 , 10 2 ≤≤ R y en el caso particular de modelo con término independiente. como: SCT SCE R =2 , 10 2 ≤≤ R Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el mismo número de variables exógenas. ya que la capacidad explicativa de un modelo es mayor cuanto más elevado sea el valor que tome este coeficiente. Sin embargo. hay que tener cierto cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque podría parecer que estamos ante el modelo “perfecto”, en realidad podría encubrir ciertos problemas de índole estadística como la multicolinealidad que veremos en el capítulo 3. Por otra parte. el valor del coeficiente de determinación aumenta con el número de variables exógenas del modelo por lo que. si los modelos que se comparan tienen distinto número de variables exógenas, no puede establecerse comparación entre sus R2. En este caso debe emplearse el coeficiente de determinación corregido 2R , el cual depura el incremento que experimenta el coeficiente de determinación cuando el número de variables exógenas es mayor. La expresión analítica de la versión corregida es: ( )22 1 1 1 1 1 R kn n nSCT knSCR R − − −−= − −−= cuyo valor también oscila entre 0 y 1 Ejemplo 2.3. En el modelo del empleo en el sector hotelero los errores ei se calculan a partir de: ei=Yi – 5.702+0.002 X1i + 2.679 X2i El error correspondiente a cada región es: ei Andalucía 2.193 Aragón -0.003 Asturias -0.146 Baleares -1.108 Canarias 2.195 Cantabria -0.508 Castilla y León 0.044 Castilla-La Mancha 0.424 Cataluña -1.325 Comunidad Valenciana -2.406 Extremadura 1.315 Galicia 0.290 Madrid -0.687 Murcia -2.034 Navarra 0.432 País Vasco 0.703 Rioja (La) 0.622 Las expresiones SCT, SCE y SCR son: 654,117' 2 17 1 22 =−=−= ∑ = YYYnYYSCT i i 17 2 2 2 1 ˆ ˆ ˆ' ' 17 1,627i i SCE X Y nY Y Yβ β = = − = − =∑ 2 1 ˆ' ' ' 1,654 1,627 27 n i i SCR e Y Y X Y SCT SCEβ = = = − = − = − =∑ Con ellas calculamos el coeficiente de determinación y el coeficiente de determinación corregido: 984.0 654,1 627,12 ==R 982.0 117654,1 31727 12 = − −−=R El coeficiente de determinación y el coeficiente de determinación ajustado está cercano a uno lo que constituye una prueba de que el ajuste realizado es aceptable. El modelo estaría explicando el 98% de la variación del grado de ocupación que se da en las Comunidades Autónomas. 2.5.2. Coeficiente de correlación parcial El coeficiente de correlación parcial entre dos variables del modelo, Xi y Xj (ó Xi e Y) describe la relación lineal existente entre dos variables sin tener en cuenta los efectos o influencias de una o más variables adicionales, con el objeto de identificar la existencia de posibles variables interpuestas, o de detectar correlaciones neutralizadas por el efecto de estas variables. Así, supongamos el caso de un modelo lineal que incluye dos variables independientes (X1 y X2) y una variable dependiente (Y). Si deseamos obtener el coeficiente de correlación parcial entre Y y X1, tomando como dados los efectos de X2 debemos seguir los siguientes pasos: 1. Realizamos una regresión de Y sobre X2 y obtenemos los residuos, que denominaremos ei. 2. Del mismo modo, para suprimir el efecto de la variable X2 sobre X1, realizamos una regresión de X1 sobre X2 y obtenemos los residuos de esta regresión, que denominaremos ui. 3. Calculamos las varianzas residuales, Se 2 y Su 2, y la covarianza entre ambos, Seu. 4. El coeficiente de correlación parcial entre Y y X1 es: 12,3 · eu e u S r S S = De forma análoga, podemos obtener mediante sucesivas regresiones los distintos coeficientes de correlación parcial entre el resto de variables. 2.6. INFERENCIA ACERCA DE LOS ESTIMADORES Hasta el momento hemos visto como la estimación por MCO permite obtener estimaciones puntuales de los parámetros del modelo. La inferencia acerca de los mismos permite completar dicha estimación puntual, mediante la estimación por intervalos y los contrastes de hipótesis. Los primeros posibilitan la obtención de un intervalo dentro del cual, con un determinado nivel de confianza, oscilará el verdadero valor de un parámetro, mientras que los segundos nos permitirán extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de una serie de conjeturas que pueden plantearse sobre sus parámetros. La inferencia estadística consiste en la estimación de los parámetros poblacionales a partir de la información extraída de una muestra de dicha población. El número de estimaciones que podemos realizar de una población, a través de la extracción de diferentes muestras de un mismo tamaño, es generalmente muy grande porque cada una de las muestras posibles que se pueden sacar de la población arrojaría una estimación. Por esta razón, a la estimación que obtenemos en una investigación por muestreo la acompañamos con un intervalo de valores posibles. La amplitud de dicho intervalo dependerá del grado de confianza que establezcamos. El grado o nivel de confianza nos expresa el número de veces que la media verdadera de la población está incluida en cien intervalos de cien muestras extraídas de una población dada. El nivel de confianza más utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos construidos contendrán el verdadero valor de la media. El intervalo de confianza para la media de una población normalmente distribuida se construye en base a la probabilidad de que dicha media esté comprendida entre dos valores. Xa y Xb equidistantes a ella: [ ] 1a bXP X Xµ α≤ ≤ = − siendo 1- α el nivel o grado de confianza asociado a dicho intervalo. En términos generales, los intervalos de confianza para los estadísticos muestrales se expresan como: Estimador ± (Factor de Fiabilidad)*(Error Típico del Estimador) 2.6.1. Intervalos De Confianza Presentamos a continuación cómo se construyen los intervalos de confianza para los distintos términos que hayamos estimado en el modelo: a) Intervalo de confianza para el parámetro iβ Para construir los intervalos de confianza de las estimaciones iβ , se parte de que la estimación MCO proporciona el valor medio de los posibles valores que pudiera tener dicho parámetro, y que la distribución de dichos valores sigue una distribución derivada de la Normal que se conoce como t de Student. Dicha distribución es simétrica presentando mayor dispersión que la curva Normal estándar para un tamaño muestral n pequeño. A medida que n aumenta (n > 100) es prácticamente igual que la distribución Normal. El cálculo del intervalo de confianza para iβ se realiza mediante la siguiente expresión: ˆ: ( ) i i i n kIC S tβ ββ −± donde î Sβ es la desviación típica estimada para el coeficiente iβ̂ , que se obtiene de la matriz de varianzas y covarianzas de los estimadores expresada como: 1 1 2 1 2 1 2 2 1 2 2 2 2 ˆ ˆ 2 ... ... ... ... ... ... ... K K K K K β β β β β β β β β β ββ β β β β β σ σ σ σ σ σ σ σ σ Σ = cuyos estimadores serán: = 2 ˆˆˆˆˆ 2 ˆˆ 2 ˆˆˆ ˆˆˆˆ 2 ˆ ˆˆ ... ............ ... ... 21 2212 1211 KKK KK SSS SSS SSS S βββββ βββββ βββββ ββ obtenidos a partir de la expresión ( ) 12 ˆˆ ' −= XXSS eββ . donde 2 eS es la estimación de la varianza del término de error. Destacar por último que tn-k es el valor teórico de la distribución t de Student que aparece tabulada en el Anexo II, tabla II.2. Ejemplo 2.4 Utilizando los resultados de la estimación del modelo del empleo en hoteles, tenemos que la varianza de los errores al cuadrado es: 84.1 14 272 == − = kn SCR Se . Entonces, la matriz de varianzas y covarianzas de los estimadores será: ( ) −− −− −− = − − −− == − 042.000001.0091.0 00001.000000001.000001.0 091.000001.0435.0 022.0000005.0048.0 000005.000000001.000001.0 048.000001.0231.0 84.1' 12 ˆˆ XXSS eββ Teniendo presente que el estadístico t-Student tiene un valor en las tablas de t17-3=2.145 para α=0.025 para cada cola (el 95% de probabilidad) podemos afirmar que el valor de los parámetros de la ecuación estarán entre: )936.5702.5()145.2435.0702.5(: ±−=⋅±− o ICβ )0002.0002.0()145.200000001.0002.0(: 1 ±=⋅±βIC )440.0679.2()145,2042.0679.2(: ±=⋅± o ICβ Los intervalos de confianza calculados nos dicen que lo más probable es que, por ejemplo, el parámetro βo este entre los valores –4.287 y –7.117. b) Intervalo de confianza para la varianza del término de error La expresión del intervalo de confianza para la varianza del término de error es: ≡ −− −− 2 22 2 1 22 1 2 ; )( ; )( : 2222 αααα χχχχσ SCRSCRknSknS IC ee e donde α representa el nivel de significación del contraste y generalmente se utiliza un 5% de significación, que corresponde a un intervalo de confianza del 95 %. En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen según una distribución también derivada de la Normal que se conoce como 2χ de Pearson. La distribución χ2 de Pearson es asimétrica. Su propiedad fundamental es que si sumamos dos χ2 independientes de grados de libertad n1 y n2 , se obtiene una nueva variable χ2 con grados de libertad igual a la suma de n1 y n2 . Los grados de libertad que hay que considerar en el cálculo de los intervalos de confianza del término error son de n-k. En el Anexo II, tabla II.3. también figuran los valores teóricos de la distribución 2χ de Pearson. Ejemplo 2.5. Utilizando los datos del modelo del grado de ocupación hotelera. calculamos el intervalo de confianza para el error con un nivel de significación de α=0.05 y 14 grados de libertad, calculamos el intervalo para el término de error: )78,4;04,1( 628,5 27 ; 119,26 27 ; 2 025.0 975.0 22 = = ≡ χχσ SCRSCR IC e Es decir, se puede afirma con un 95% de probabilidad que el verdadero valor de la varianza estará entre 1,04 y 4,78. 2.6.2. Contrastes de Hipótesis Una buena parte de las investigaciones estadísticas están orientadas al desarrollo de procesos encaminados a la contrastación de hipótesis que previamente se han establecido. Una hipótesis es una afirmación que está sujeta a verificación o comprobación. Hay que tener presente que una hipótesis no es un hecho establecido o firme, las hipótesis están basadas en la experiencia, en la observación, en la experimentación o en la intuición del sujeto que las formula. Cuando las hipótesis se plantean de tal modo que se pueden comprobar por medio de métodos estadísticos reciben el nombre de hipótesis estadísticas. Estas hipótesis son afirmaciones que se efectúan sobre uno o más parámetros de una o más poblaciones. Las hipótesis estadísticas son de dos tipos: hipótesis nula e hipótesis alternativa. La hipótesis nula, o que no se verifique dicha afirmación, simbolizada por H0, es la hipótesis que se debe comprobar. Para contrastar una hipótesis nula examinamos los datos de la muestra tomados de la población y determinamos si son o no compatibles con dicha hipótesis. Si son compatibles entonces H0 se acepta, en caso contrario se rechaza. Si se acepta la hipótesis nula afirmamos que los datos de esa muestra en concreto no dan suficiente evidencia para que concluyamos que la hipótesis nula sea falsa; si se rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la hipótesis nula es falsa, entonces la hipótesis alternativa. H1, es verdadera. El criterio que permite decidir si rechazamos o no la hipótesis nula es siempre el mismo. Definimos un estadístico de prueba, y unos límites que dividen el espacio muestral en una región en donde se rechaza la hipótesis establecida, y otra región en la que no se rechaza, llamada región de aceptación. A la región donde se rechaza la hipótesis nula se le llama región crítica. Esta región es un subconjunto del espacio muestral, y si el valor del estadístico de prueba pertenece a él se rechaza la hipótesis nula. El límite entre la región crítica y la región de aceptación viene determinado por la información previa relativa a la distribución del estadístico de prueba. Señalar que un estadístico de prueba es una fórmula que nos dice como confrontar la hipótesis nula con la información de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de muestra a muestra. Otra de las consideraciones a realizar en la contrastación de hipótesis es fijar la probabilidad del error de rechazar la prueba siendo cierta, a este error se le denomina nivel de significación. Por ejemplo, si se utiliza un nivel de significación de 0.05, equivale a decir que si para realizar un contraste tomáramos infinitas muestras de la población, rechazaríamos la hipótesis nula de forma incorrecta un 5 % de las veces. En la formalización del procedimiento de contrastación podemos distinguir siete pasos principales: 1.- Planteamiento de las hipótesis. 2.- Selección del nivel de significación. 3.- Descripción de la población y tamaño de la muestra. 4.- Selección del estadístico de prueba y su distribución. 5.- Especificación de las regiones de aceptación y de rechazo. 6.- Recolección de datos y cálculo del estadístico. 7.- Decisión estadística. Los contrastes de hipótesis que normalmente se realizan en la estimación MCO son los siguientes: a) Contraste individual sobre un parámetro Formulación de la hipótesis: * 0 : jjH ββ = * 1 : jjH ββ ≠ Estadístico experimental: j S t jj β ββ ˆ * exp ˆ − = Estadístico teórico: )2/(αkntco tt −= Regla de decisión: Si tcott >exp se rechaza la hipótesis H0 b) Contraste de significación individual Formulación de la hipótesis: 0:0 =jH β 0:1 ≠jH β Estadístico experimental: j S t j β β ˆ exp ˆ = Estadístico teórico: )2/(αkntco tt −= Regla de decisión: Si tcott >exp se rechaza la hipótesis H0 c) Contraste de significación global Formulación de la hipótesis: 0...: 210 ==== kH βββ Estadístico experimental: ( ) kn R k R kn SCR k SCE F − − −= − −= 2 2 exp 1 11 Estadístico teórico: ( )α, ,1 knkFFtco −−= Regla de decisión: Si tcoFF >exp se rechaza la hipótesis H0 Ejemplo 2.6. Utilizando los resultados del modelo del grado de ocupación hotelera vamos a plantear la hipótesis de que el parámetro β2 sea cero, y en consecuencia que el efecto de la estancia media de cada turista sobre el grado de ocupación hotelera no sea significativo. 1º.- Planteamiento de la hipótesis Se contrasta la hipótesis de que 0: 20 =βH , frente a la alternativa de que dicho valor sea diferente de cero 1 2: 0H β ≠ . 2º.- Nivel de significación o error de tipo I. Sea α=0.05. 3º.- Descripción de la población y tamaño de la muestra. La población son las Comunidades
Compartir