Logo Studenta

parra-econometria-aplicada-i

¡Este material tiene más páginas!

Vista previa del material en texto

FRANCISCO PARRA RODRÍGUEZ 
(Doctor en Economía. Universidad Nacional de Educación a Distancia) 
 
 
 
 
 
ECONOMETRÍA APLICADA I 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Econometria Aplicada I by Francisco Parra Rodríguez is licensed under a Creative Commons 
Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional License. 
 
 
 
 
ÍNDICE 
Parte I 
PRESENTACIÓN ........................................................................................................................................ 4 
1. LA ECONOMETRÍA: HISTORIA Y METODOLOGÍA .................................................................... 6 
1.1. LOS ORÍGENES DE LA ECONOMETRIA ............................................................................... 6 
1.2. LOS MODELOS ECONOMÉTRICOS...................................................................................... 12 
1.3. LA METODOLOGÍA ECONOMÉTRICA ................................................................................ 14 
2. EL MODELO LINEAL GENERAL .................................................................................................. 18 
2.1. INTRODUCCIÓN ...................................................................................................................... 18 
2.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS MÍNIMOS CUADRADOS 
ORDINARIOS. ...................................................................................................................................... 18 
2.3. REGRESIÓN LINEAL MÚLTIPLE .......................................................................................... 25 
2.4. PROPIEDADES ESTADISTICAS DEl ESTIMADOR MÍNIMO CUADRADO. .................... 30 
2.5. COEFICIENTES DE DETERMINACIÓN Y CORRELACIÓN PARCIAL ............................. 31 
2.5.1. Coeficiente de determinación ............................................................................................. 31 
2.5.2. Coeficiente de correlación parcial ...................................................................................... 35 
2.6. INFERENCIA ACERCA DE LOS ESTIMADORES ................................................................ 35 
2.6.1. Intervalos De Confianza ..................................................................................................... 36 
2.6.2. Contrastes de Hipótesis ...................................................................................................... 39 
2.7. TABLA DE ANALIS DE LA VARIANZA (ANOVA) ............................................................. 43 
2.8. PREDICCIÓN EN EL MODELO DE REGRESIÓN ................................................................ 44 
2.9. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON EXCEL ........................ 46 
2.10. ESTIMACIÓN DE UN MODELO DE REGRESIÓN LINEAL CON R ........................... 54 
2.11. PROBLEMAS .................................................................................................................... 59 
3. EXTENSIONES AL MODELO DE REGRESIÓN LINEAL ............................................................ 62 
3.1. INTRODUCCIÓN ...................................................................................................................... 62 
3.2. HETEROSCEDASTICIDAD ..................................................................................................... 65 
3.2.1. Test de Bartlett ................................................................................................................... 65 
3.2.2. Contraste de Goldfeld-Quant .............................................................................................. 66 
3.2.3. Contraste de White ............................................................................................................. 69 
3.3 AUTOCORRELACIÓN ................................................................................................................... 71 
3.3.1. Contraste de Durbin-Watson .................................................................................................... 71 
3.3.1. Contraste de Breush-Godfrey ................................................................................................... 75 
3.4. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD ................................................. 76 
3.5. ERRORES DE ESPECIFICACIÓN ........................................................................................... 79 
3.5.1. Omisión de una variable relevante...................................................................................... 80 
3.5.2. Inclusión de una variable innecesaria ................................................................................. 81 
3.5.3. Especificación funcional incorrecta .................................................................................... 82 
3.5.4. Contraste de errores de especificación ................................................................................ 83 
3.6. MINIMOS CUADRADOS GENERALIZADOS....................................................................... 84 
3.7. PROBLEMAS ............................................................................................................................ 91 
4. MODELOS CON ERRORES EN LAS VARIABLES ...................................................................... 95 
4.1. INTRODUCCIÓN ...................................................................................................................... 95 
4.2. TIPOS DE ERRORES DE MEDIDA ......................................................................................... 96 
4.2.1. Errores de medida en la variable endógena ........................................................................ 96 
4.2.2. Errores de medida en la variable exógena .......................................................................... 97 
4.3. ESTIMACIÓN DE MODELOS CON ERRORES EN LAS VARIABLES ............................. 100 
4.4. APLICACIÓN PRÁCTICA ..................................................................................................... 102 
4.5. PROBLEMAS .......................................................................................................................... 104 
5. MODELOS CON VARIABLES CUALITATIVAS ........................................................................ 107 
5.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO 
REGRESORES. ................................................................................................................................... 107 
5.1.1. Modelos ANOVA ............................................................................................................. 108 
5.1.2. Modelos ANCOVA .......................................................................................................... 113 
5.2. EL EMPLEO DE VARIABLES CUALITATIVAS PARA EL TRATAMIENTO DE LA 
ESTACIONALIDAD ........................................................................................................................... 122 
5.3. APLICACIONES DE LAS VARIABLES CUALITATIVAS A LA REGRESIÓN POR 
TRAMOS. ............................................................................................................................................ 129 
5.4. EL MODELO PROBABILÍSTICO LINEAL .......................................................................... 130 
5.5. EL MODELO LOGIT .............................................................................................................. 132 
5.6. EL MODELO PROBIT ............................................................................................................ 137 
5.7. PROBLEMAS .......................................................................................................................... 142 
6. MODELOS CON DATOS DE PANEL ........................................................................................... 145 
6.1. INTRODUCCIÓN ....................................................................................................................145 
6.2. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL ....................... 146 
6.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL .................. 149 
6.4. MODELO DE EFECTOS FIJOS ............................................................................................. 151 
6.5. MODELO DE EFECTOS ALEATORIOS ............................................................................... 154 
6.6. ELECCIÓN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS .............................. 156 
6.7. PROBLEMAS .......................................................................................................................... 163 
7. MODELOS DE ECUACIONES SIMULTÁNEAS ......................................................................... 165 
7.1. INTRODUCCIÓN .................................................................................................................... 165 
7.2. FORMA ESTRUCTURAL Y REDUCIDA ............................................................................. 167 
7.3. DETECCIÓN DE LA SIMULTANEIDAD. PRUEBA DE HAUSMAN ................................ 172 
7.4. IDENTIFICACIÓN DEL SISTEMA ....................................................................................... 177 
7.4.1. Condiciones de Orden y Rango en la Identificación ........................................................ 179 
7.5. PROBLEMAS .......................................................................................................................... 183 
8. MÉTODOS DE ESTIMACIÓN DE MODELOS DE ECUACIONES SIMULTÁNEAS ............... 185 
8.1. INTRODUCCIÓN .................................................................................................................... 185 
8.2. MÍNIMOS CUADRADOS INDIRECTOS (MCI) ................................................................... 185 
8.2.1. Estimación de curvas de oferta y demanda por MCI ........................................................ 188 
8.2.2. Estimación de Haavelmo de la propensión marginal al consumo por MCI ...................... 191 
8.3. VARIABLES INSTRUMENTALES (VI) ............................................................................... 194 
8.3.1. Estimación una función keynesiana de consumo por VI .................................................. 198 
8.4. MÍNIMOS CUADRADOS EN DOS ETAPAS (MC2E) ......................................................... 201 
8.4.1. Estimación de un modelo de gastos e ingresos por MC2E ............................................... 204 
8.5. MODELOS RECURSIVOS ..................................................................................................... 210 
8.5.1. Estimación de un Modelo Recursivo de Determinación de Precios y Salarios................. 213 
8.6. EJEMPLO PRÁCTICO: ESTIMACIÓN DE UN MODELO EXACTAMENTE 
IDENTIFICADO POR MCI, VI Y MC2E ........................................................................................... 216 
8.7. PROBLEMAS .......................................................................................................................... 223 
9. MÉTODOS DE ESTIMACIÓN NO LINEALES ............................................................................ 226 
9.1. INTRODUCCIÓN .................................................................................................................... 226 
9.2. ESTIMACIÓN DE UN MODELO DE MODELOS NO LINEALES POR MINIMOS 
CUADRADOS ORDINARIOS. ........................................................................................................... 227 
9.3. MÍNIMOS CUADRADOS NO LINEALES ............................................................................ 229 
9.3.1. Algoritmo de Newton-Raphson ........................................................................................ 231 
9.4. EL ESTIMADOR DE MÁXIMA VEROSIMILITUD ............................................................. 234 
9.5. APROXIMACIÓN LINEAL DE TAYLOR ............................................................................ 236 
9.6. PROBLEMAS .......................................................................................................................... 240 
10. MÉTODOS DE ESTIMACIÓN NO PARAMÉTRICOS ............................................................. 242 
10.1. INTRODUCCIÓN ............................................................................................................ 242 
10.2. FUNCIÓN NUCLEO ....................................................................................................... 244 
10.3. ESTIMADORES DE FUNCIÓN NUCLEO Y POLINOMIOS LOCALES .................... 249 
10.4. REGRESIÓN POR SPLINES .......................................................................................... 259 
10.5. APROXIMACIÓN POR SERIES DE FOURIER ............................................................ 268 
10.6. PROBLEMAS .................................................................................................................. 274 
ANEXO I. NOCIONES DE ALGEBRA MATRICIAL .......................................................................... 277 
ANEXO II. TABLAS ESTADÍSTICAS .................................................................................................. 293 
BIBLIOGRAFÍA ...................................................................................................................................... 302 
 
PRESENTACIÓN 
En el año 2004 el Departamento de Economía Aplicada y Estadística de la Universidad Nacional 
de Educación a Distancia (UNED) encargó a los entonces profesores de la asignatura econometría 
I de Administración y Dirección de Empresas y Económicas, elaborar un texto de econometría 
que sirviera de bibliografía básica para la misma, dicho texto que se publicó en Ediciones 
Académicas bajo el título de econometría, fue revisado y actualizado en 2007 y editado de nuevo 
por Ediciones Académicas pero con un nuevo título: Econometría Aplicada. En lo que sé, el 
manual sigue utilizándose como bibliografía en la UNED, ya que en septiembre del 2006 deje de 
ser profesor de dicha asignatura. No obstante, durante el tiempo de docencia en la UNED también 
participe en otros cursos de posgrado para los cuales también elaboré diferente material docente: 
Curso de Contabilidad Nacional y Tablas Input-Output y Curso de Eficiencia y Productividad, 
dentro del Programa de Doctorado del Departamento de Economía Aplicada y Estadística, y 
Máster en Economía Aplicada y Programa Modular Economía Aplicada. 
La parte que redacté de manual de Econometría y Econometría Aplicada se había basado a su vez 
en los apuntes de otro curso de estadística y econometría para empleados públicos que impartí 
junto a Mauricio Beltrán Pascual dentro de los programas de formación de funcionarios de la 
Junta de Castilla y León. El curso se denominaba: Estadística Aplicada a la Administración 
Pública, y los materiales del curso acabaron editándose por la Junta de Castilla y León, sin ISBN, 
en una serie de Metodologías Estadísticas, bajo el título: Apuntes de Análisis Estadístico 
Aplicados a la Administración Pública. La serie tuvo corta vida, ta solo dos números, y con el 
tiempo el curso pasó a denominarse Aplicaciones Estadísticas en las Hojas de Cálculo, y Curso 
de Estadística Descriptiva y Análisis de Datos con la Hoja de Calculo Excel, cuando se incluyó 
en el año 2007 en los programas de formación del Centro de Estudios de la Administración 
Regional del Gobierno de Cantabria. En el 2011 se programó el último de aquellos cursos, ya que 
en el 2012 pase a impartir la asignatura de Econometría dentro de la licenciatura y grado de 
Administración y Dirección de Empresas de la Universidad de Cantabria y andaba escaso de 
tiempo. 
Dado que había reunido un amplio material de recursos docentes tanto de la asignatura de 
econometría I UNED, los cursos de postgrado en los que participe, como en los cursos impartidos 
para las administraciones públicas, en 2007 abrí un blog en wordpress:Http://econometria.wordpress.com/ en el que reuní una parte de aquellos documentos, que 
posteriormente fui ampliando bien con el material de otros cursos que me fueron encargados 
(Curso de Contabilidad Trimestral) y análisis estadísticos propios basados en Series de Fourier. 
Del blog, los recurso más descargados fueros un curso de econometría básica, y otro de 
econometría avanzado, que ha sido sucesivamente actualizado con los análisis estadísticos 
basados en series de Fourier. 
Dado que ha sido ya suficiente el tiempo que ha pasado desde la aparición del primer manual de 
econometría editado por ediciones académicas, me propuse actualizar este con los contenidos que 
se difunden a través del blog, ampliando los capítulos ya publicados, redactando nuevos capítulos 
sobre econometría no parámetrica, cointegración, regresión en dinámica de la frecuencia y el uso 
de filtros desestacionalizadores, e incorporando junto a los ejemplos desarrollados en Excel otros 
desarrollados en R, software que está ganando mucho terreno en la docencia de la econometría. 
Entre dichos materiales se incluye la base teórica de librería en R “descomponer” que elaboré 
para extraer tendencias y estacionalidades en series de tiempo en base al periodograma de la serie 
temporal. Dado que uno de los contenidos de los cursos de formación para las Administraciones 
Públicas era la elaboración de números índices de precios y cantidades, se ha incluido otro 
capitulo con estos contenidos, a pesar de que los números indices no es materia de las enseñanzas 
de econometría. Al haber aumentado de forma notable el indice de capítulos, se ha dividido este 
en dos partes, en la primera se incluyen los capítulos más generales sobre la técnica econométrica 
y en una segunda parte los más específicos relativos a las series temporales. 
Desde que cree el blog de econometría aplicada, he comprobado que la mayor parte de las 
descargas proceden de América Latina, supongo que estos materiales están facilitando de alguna 
u otra manera que los jóvenes latinoamericanos puedan disponer de materiales de econometría en 
Castellano para completar sus estudios. Este es en definitiva el objetivo último de este manual 
facilitar el estudio y la aplicación de la econometría a la comunidad de hispana de la manera más 
abierta posible. 
 
 
 
 
 
 
1. LA ECONOMETRÍA: HISTORIA Y METODOLOGÍA 
1.1. LOS ORÍGENES DE LA ECONOMETRIA 
La Econometría es una disciplina independiente de la Estadística mediante la que se trata de 
contrastar la validez empírica de la teoría económica mediante modelos matemáticos y 
estadísticos. Para lograr este objetivo se utiliza como instrumento básico el modelo econométrico, 
el cual trata de ser una representación simplificada del mundo real mediante la que es posible 
reproducir el comportamiento y las interrelaciones que se dan entre diversas variables 
económicas. 
El término 'econometría' fue utilizado por primera vez por Pawel Ciompa en 1910, siendo 
rescatado por Frisch en su artículo de 1936 titulado “Note on term ‘Econometrics’”; este autor, 
socio fundador de la Econometric Society, le asigna el significado que atribuimos en la actualidad 
a este término. Dicho significado queda recogido en el primer artículo de los estatutos de la 
mencionada sociedad, y en el mismo se menciona la necesidad del progreso de la teoría 
económica mediante la utilización del análisis estadístico y matemático. 
En un sentido más formal, se han propuesto a lo largo de la historia diferentes definiciones que 
apuntan en la misma dirección e integran los mismos elementos (matemáticas, estadística y datos 
económicos). Samuelson, Koopmans y Stone (1954) definen la Econometría como “el análisis 
cuantitativo de fenómenos económicos actuales, basado en el desarrollo congruente de teoría y 
observaciones, y relacionado por métodos apropiados de inferencia”; Intriligator (1978) señala 
que es “la rama de la economía relacionada con la estimación empírica de las relaciones 
económicas”. Chow (1983) la define como el “arte y ciencia de usar métodos para la medida de 
relaciones económicas”. Stewart y Wallis (1984) consideran que la Econometría es aquella 
ciencia que “se ocupa de la medición de las relaciones entre las variables económicas y de la 
confrontación de la teoría con la evidencia empírica” . Finalmente, Greene (1993) señala que “es 
el campo de la Economía que se refiere a ésta como aplicación de la Estadística Matemática y 
los instrumentos de la Estadística Inferencial a la medición empírica de las relaciones postuladas 
por la Teoría Económica”. 
Si bien el término ‘econometría’ fue reconocido en 1936, se considera a Henry Moore (1914, 
1917) el primer autor en efectuar una estimación de relaciones económicas de demanda a partir 
de estadísticas económicas. Las regresiones lineales de Moore crearon escuela y entre sus 
seguidores cabe destacar a Henry Schultz, Holbrook Working y Paul Douglas, entre otros. 
Working (1927) planteó la estimación de mercados en equilibrio, descubrió en sus trabajos los 
problemas asociados a los errores en las variables y planteó inicialmente la importancia de las 
expectativas. Schultz (1938) publicó un libro íntegramente dedicado a la teoría y análisis de la 
demanda en Estados Unidos, demostrando una preocupación permanente por la unión entre teoría 
y medida. 
La otra área de estudio con interés para los pioneros del análisis estadístico económico, la 
constituían los ciclos económicos. Si bien en los trabajos iniciales de Sir William Petty se dejaba 
constancia de los ciclos, no será hasta el siglo XIX cuando renacerá la curiosidad por su estudio. 
Así, el físico francés Clement Juglar (1819-1905) es el primero en utilizar las series históricas 
para el estudio del ciclo en los negocios, descubriendo un ciclo para la inversión de 7 a 11 años 
de duración. A este trabajo le siguen los de Kitchin, Kuznets y Kondratieff, identificando un ciclo 
de los inventarios de 3 a 5 años, un ciclo de la construcción de 15 a 25 años y un ciclo de 
actividades a largo de 45 a 60 años. 
 
En general estos estudios de los ciclos y los emprendidos posteriormente por Mitchell (1927) y 
Burns y Mitchell (1947) en el National Bureau of Economic Research, fueron de tipo morfológico 
y descriptivo, por lo que las relaciones entre variables constituían un segundo plano de interés. 
No servirán, por tanto, de ayuda para el empuje del análisis econométrico ya que sus objetivos y 
metodología son diferentes. 
 
Por el contrario, los trabajos de Wright (1915, 1928), Working (1927), Tinbergen (1930) y Frisch 
(1933) sobre análisis de la demanda, planteando el problema de la identificación en las relaciones 
estructurales entre variables económicas, sientan las bases para el desarrollo econométrico que 
culminaría en la creación de la Econometric Society en 1930, de la mano de Fisher, Frisch y Roos. 
Dicha sociedad, junto con los trabajos de la Cowles Commission, sentaran las bases de la 
Econometría actual. 
 
La importancia asignada a la creación de la Econometric Society se debe a la obtención de una 
agrupación de economistas con preocupaciones de tipo cuantitativo, creando un instrumento de 
expresión de los mismos mediante la revista Econométrica. En ese momento la Econometría deja 
de ser una actividad dispersa, facilitándose el intercambio de información entre investigadores, 
convirtiéndose así en un movimiento organizado con un medio para el intercambio de ideas y 
resultados. 
 
 
 
Una vez creada la Econometric Society era importante disponer de una institución donde localizar 
y centralizar las investigaciones sobre la nueva disciplina; éste será el papel a desempeñar por la 
Cowles Commission. La Cowles Commission for Research in Economics, era una institución sin 
fines lucrativos fundada por Alfred Cowles III, presidente de una sociedad de inversores. Su 
objetivo era la aplicación de las matemáticasa la economía con el fin de obtener buenas 
predicciones de las cotizaciones en Bolsa. 
 
Sin embargo, no tardarán en aparecer las primeras críticas a los métodos utilizados por los 
primeros económetras, Así, podemos encontrar la del propio Keynes juzgando a la econometría 
como próxima a la alquimia y sin resultados fiables al considerar el contexto económico 
difícilmente modelizable por relaciones matemáticas, o la de Milton Friedman dudando del 
método de Tinbergen para seleccionar una teoría económica entre varias estimadas 
empíricamente. Asimismo, un alumno de Frisch, Trygve Haavelmo (1943,1944) demuestra la 
inconsistencia de la estimación por Mínimos Cuadrados Ordinarios (MCO) y la simultaneidad en 
los sistemas macroeconómicos, poniendo de manifiesto la necesidad de cuestionar los 
procedimientos basados en MCO. Haavelmo propone la introducción del modelo probabilístico 
para sustentar la base de la metodología econométrica, modelo que será adoptado inicialmente 
por la Cowles Commission para realizar estimación e inferencia. 
 
En 1950 la Cowles Commission publicó la obra "Statistical Inference in Dynamic Economic 
Models", obra elaborada por un equipo de prestigiosos investigadores del que formaron parte 
Marschak, Tjalling, Koopmans, Hurwicz, Rubin, Klein y Anderson, que recogía todos los trabajos 
y avances realizados en años anteriores y establece las normas básicas de la investigación 
econométrica. 
 
Todo el conocimiento acumulado en los años treinta y cuarenta conduce un espectacular 
desarrollo de la Econometría durante los años cincuenta; de entre los avances que se producen en 
la época cabe destacar los siguientes: 
− A mediados de los años cincuenta aparece el método de estimación por Mínimos 
Cuadrados en 2 Etapas (MC2E), desarrollado por Theil (1954, 1958) y Bassmann (1957), 
el cual debido a su sencillez y facilidad de cálculo gozará de una gran aceptación como 
método de estimación de modelos de ecuaciones simultáneas frente a los métodos de 
Máxima Verosimilitud con Información Completa (MVIC), propuesto por Koopmans 
(1950), y con Información Limitada (MVIL), propuesto por Anderson y Rubin (1949); 
posteriormente, a finales de esta década, aparecerá el método de las Variables 
Instrumentales (VI) propuesto por Sargan (1958). 
− Klein y Goldberger (1955) desarrollan y perfeccionan su trabajo anterior, dando lugar a 
uno de los modelos más populares entre los económetras: el modelo Klein-Goldberger, 
el cual incorpora novedades a las especificaciones de los modelos macroeconómicos 
precedentes, determinando el consumo no solamente a través de la renta, sino también a 
través de los efectos riqueza e impuestos, e incorporando por primera vez funciones de 
producción. 
− Otro acontecimiento de importancia capital en el desarrollo de la econometría y los 
grandes modelos estructurales se produce en 1958, cuando los editores de Econometrica 
promueven un Congreso bajo el título de “Estimación de ecuaciones simultáneas: 
¿Alguna sentencia?” y con el que se pretendía establecer un debate sobre el método 
propuesto por la Cowles Commission. Como era de esperar, en dicho Congreso hubo 
diferentes posiciones, destacando las de Liu (1960), Hildreth (1960), Christ (1960) y 
Klein (1960). 
 
Sin embargo, el esplendor de que gozó la Econometría en los años cincuenta pronto se vería 
eclipsado por la crisis que se produjo a comienzos de los años setenta a causa de la elevación de 
los precios energéticos, hecho que no pudo ser previsto por ningún modelo econométrico. Ello 
afectó directamente al pensamiento económico general y al desarrollo posterior de la 
Econometría. 
Una de las primeras críticas que se lanzó en contra de los modelos econométricos era que se 
habían dejado de lado los planteamientos microeconómicos, por lo que los modelos 
econométricos que sólo utilizaban agregados macroeconómicos no podían representar de forma 
consistente la conducta racional y optimizadora de los agentes económicos. Esta crítica propició 
la incorporación de datos y relaciones microeconómicas, dando lugar a la rama conocida como 
Microeconometría. Entre los principales desarrollos alcanzados en esta área cabe destacar los 
siguientes: 
 
− Por un lado, los Modelos con Variable Dependiente Cualitativa, en los que se considera 
que la variable dependiente admite un conjunto acotado de valores discretos, 
generalmente 0 ó 1, mediante los que es posible representar cualidades de los individuos. 
Entre los trabajos pioneros en este campo están los de McFadden (1974, 1976) y 
Amemiya (1978), en los que se considera una aproximación logística en la estimación de 
estos modelos (modelo Logit), mientras que en Albright, Lerman y Manski (1977) se 
estudia la aproximación mediante una distribución Normal (modelo Probit). 
 
− Por otro lado, los Modelos de Datos de Panel en los que se incluye información de una 
muestra de agentes económicos (individuos, empresas, bancos, ciudades, países, etc.) 
durante un determinado período de tiempo, combinando así la dimensión temporal y la 
dimensión estructural de los datos. Entre los trabajos más notables de esta línea, cabe 
mencionar a Kuh (1959), Balestra y Nerlove (1966), Rosenberg (1973) y Swamy y 
Mentha (1977). 
 
Mención aparte merece el espectacular desarrollo que se produce en esta década del análisis 
econométrico de series temporales, tanto de tipo multivariante como, especialmente, univariante. 
 
Los modelos univariantes de series temporales giran, de forma mayoritaria, en torno a la 
metodología desarrollada por Box y Jenkins (1970). Dichos autores proponen la construcción de 
modelos sobre una variable temporal, tratándola como un mecanismo autónomo, cuya gran 
ventaja es la mejora de las predicciones a corto plazo. La metodología Box-Jenkins supone la 
ruptura con la econometría clásica y con el pensamiento económico en general al no existir una 
relación con la teoría económica, por lo que no pueden ser considerados como una alternativa a 
los modelos estructurales multiecuacionales. 
 
Sin embargo, la principal crítica realizada durante los años setenta de los métodos econométricos 
se centra en la identificación y estimación de modelos multiecuacionales. Partiendo del trabajo 
de Muth (1961), Lucas (1972, 1973), Sargent (1973) y Sargent y Wallace (1975), abanderados de 
la escuela de las expectativas racionales, plantean la duda sobre la permanencia a lo largo del 
tiempo de los parámetros estructurales incluidos en los modelos macroeconómicos, ante cambios 
en la política económica del gobierno. Es decir, no existe nada que nos garantice que la estructura 
de las reglas de decisión de los agentes económicos quedará inalterada al modificar las reglas de 
política económica; y dado que esta estructura es la que representa el modelo, no hay razón para 
pensar que los parámetros del mismo sean fijos. Por tanto, si no separamos los parámetros de las 
decisiones políticas de los de las relaciones económicas, los modelos que estimemos no podrán 
ser utilizados en la toma de decisiones. 
 
 
 
La solución adoptada para resolver este problema ha sido la inclusión del proceso de formación 
de las expectativas racionales en los modelos econométricos, asegurando la coexistencia entre 
expectativas y simulaciones mediante la imposición de restricciones paramétricas entre 
ecuaciones. 
 
Finalmente, otra crítica importante a la econometría clásica es la planteada por Sims (1980, 1982) 
a comienzos de los años ochenta. La idea central de Sims es que no es necesaria la existencia de 
una teoría económica a priori para establecer las restricciones que hagan posible la identificación 
de modelos estructurales, ya que no es necesario para la previsión y simulación. Sims propone 
una nueva clase de modelos como alternativa a los modelos de ecuaciones simultáneas, los 
Vectores Autorregresivos (VAR), en los que no es necesario clasificarlas variables en endógenas 
y exógenas. 
 
Sin embargo, el desconocimiento que los modelos VAR conllevan sobre las relaciones de tipo 
estructural (variables endógenas, exógenas, forma estructural) no permite realizar una 
aproximación a los efectos producidos por cambios en la política económica, con lo que su campo 
de aplicación se limita a la simple previsión. 
 
A finales de la década pasada. Granger y Newbold (1974) advirtieron sobre el peligro que supone 
especificar relaciones espúreas, es decir, relaciones no de causalidad sino de casualidad. Sus 
estudios aumentaron el interés por la modelización dinámica y las propiedades a largo plazo de 
los modelos econométricos. Su contribución ha dado lugar a los conceptos de cointegración 
(Granger, 1981), el test de raiz unitaria (Dickey y Fuller, 1979) y los modelos de corrección de 
error (Sargent, 1984). 
 
En los últimos años, en paralelo al avance de las nuevas tecnologías de la información y al 
desarrollo de las grandes bases de datos, asistimos a un nuevo cambio conceptual de la teoría 
econométrica, poniendose en cuestión los supuestos sobre la normalidad de la distribución de 
probabilidad de las variables sujetas al análisis. Otros problemas que enfrentan los investigadores 
hoy día son la existencia de datos imperfectos con poca correspondencia con las variables 
definidas en los modelos económicos y el poco entendimiento del verdadero significado de 
algunas pruebas de hipótesis. En consecuencia, se estan produciendo desarrollos teóricos que 
permiten un mayor acercamiento a los procesos económicos tal y como se presentan y que no 
exigen el supuesto de normalidad de las variables bajo estudio (o del término de error). Entre los 
avances teóricos más recientes que merecen ser mencionados se encuentran el desarrollo de la 
econometría no paramétrica y la econometría de series de tiempo no lineales. 
1.2. LOS MODELOS ECONOMÉTRICOS 
El método científico en las Ciencias Sociales se basa tanto en la deducción como en el 
conocimiento empírico. La deducción es el proceso de razonamiento lógico que conduce a unas 
conclusiones partiendo de unas premisas o informaciones iniciales. El conocimiento empírico 
objetiva el conocimiento a través de la experiencia, de los hechos y de la Historia. 
El punto de partida del investigador es la realidad, los hechos económicos tal y como se producen 
en la sociedad. La lectura de esos datos y el conocimiento general de la realidad sugerirán al 
investigador alguna hipótesis explicativa de las razones por las que los datos ofrecen una 
determinada magnitud o evolución. Esas hipótesis son las que permiten organizar los datos y dan 
lugar a la formulación de leyes, teorías y modelos. 
Las leyes expresan las regularidades encontradas en las series de datos. Las teorías son una forma 
de organizar las hipotéticas leyes y facilitan la comprensión del funcionamiento de la economía. 
Finalmente, los modelos son construcciones intelectuales basadas en las teorías que permiten 
realizar estimaciones de los efectos que pueden derivarse de cambios en los datos reales. Los 
modelos constituyen por tanto un puente entre la teoría pura y el mundo real, pudiendo 
contrastarse si una determinada teoría es una buena representación de los hechos que trata de 
explicar o no. 
En el caso de la ciencia económica, los modelos están basados generalmente en supuestos 
simplificadores de la realidad y están formados generalmente por ecuaciones matemáticas que 
relacionan distintas variables. Dichas variables pueden dividirse en variables exógenas, que son 
aquellas cuyos valores deben ser tomados de la realidad; y variables endógenas, que son aquellas 
cuyo valor es deducido al operar con las ecuaciones del modelo. Ambos tipos de variables se 
relacionan mediante un conjunto de parámetros, los cuales deben ser estimados. 
Los modelos permiten realizar predicciones económicas susceptibles de ser contrastadas con la 
realidad. Dichas predicciones son probabilísticas y no deterministas; es decir, que con los modelos 
económicos no es posible predecir con precisión cuál será, por ejemplo, el consumo exacto que 
realizará un determinado individuo, pero sí se puede prever el comportamiento de grandes 
agregados de consumidores estableciendo unos márgenes de error entre los que estará 
comprendido, o lo que es lo mismo, estimando la probabilidad de que esa predicción se cumpla. 
Según el objeto de análisis, podemos distinguir diversos tipos de modelos económicos: 
− Modelos Macroeconómicos, cuando los modelos representan la economía en su totalidad; 
se trata de modelos en los que generalmente existe poco detalle sectorial con los que se 
pretende cuantificar los resultados de las políticas macroeconómicas, como puede ser un 
aumento del gasto público o de la imposición directa. La mayoría de los economistas que 
realizan predicciones utilizan tales modelos. 
− Modelos Microeconómicos, los cuales analizan la situación de una cierta industria, 
mercado o institución. 
Asimismo, atendiendo al tipo de relaciones que se establecen entre las variables del modelo 
podemos distinguir entre: 
− Modelos Deterministas, en los que las relaciones exactas entre las variables del modelo 
son exactas. Se trata generalmente de modelos en los que se parte de una o varias 
variables, denominadas inputs, a partir de las cuales se intenta conocer el comportamiento 
de otras variables, denominadas output, mediante diversas transformaciones 
matemáticas. Un ejemplo de este tipo de modelos son las tablas input-output de Leontief. 
− Modelos Estocásticos, en los que las relaciones entre las variables no son exactas, ya que 
existe un componente de carácter aleatorio, denominado término de error o perturbación 
aleatoria, que forma parte de las ecuaciones del modelo. Dicho componente aleatorio 
recoge todos aquellos aspectos que no quedan especificados en la relación causal 
establecida en el modelo tales como determinadas circunstancias acontecidas de carácter 
impredecible (shocks) que influyen en la relación estudiada y los errores en la medición, 
documentación y computación de las variables observables que aproximan las variables 
teóricas del modelo. En la literatura económica, la mayor parte de los modelos 
econométricos son de este tipo estocástico. 
 
Según el tipo de datos de las variables utilizadas en el modelo, podemos distinguir entre: 
− Modelos de Series Temporales, en los que se utilizan datos recogidos a lo largo de un 
determinado periodo de tiempo: días, semanas, meses, trimestres o años. Ejemplos de 
este tipo de variables son las cotizaciones diarias de las acciones, el Índice de Precios al 
Consumo, la Encuesta de Población Activa, los datos anuales y trimestrales del Producto 
Interior Bruto, etc. 
− Modelos de Series de Corte Transversal, en los que se utilizan datos referidos a diferentes 
individuos en un mismo momento del tiempo. Ejemplos de datos transversales serían los 
productos consumidos por diferentes familias en un determinado año, las ventas que 
realizan diversas empresas que forman una determinada industria en un determinado 
trimestre, el paro registrado en los municipios españoles en un determinado semestre, etc. 
− Modelos de Datos de Panel, en los que se combinan datos de diversos individuos 
recogidos a lo largo del tiempo. 
Considerando la existencia o no de retardos de las variables incluidas en el modelo podemos 
diferenciar entre: 
− Modelos Estáticos, cuando las relaciones entre las variables del modelo tienen lugar en 
el mismo instante del tiempo tanto para la variable endógena como para todas las 
variables explicativas del modelo. 
− Modelos Dinámicos, cuando las relaciones entre las variables del modelo están referidas 
a diferentes momentos en el tiempo, de forma que un modelo dinámico se construye con 
variables retardadas. 
Finalmente, según el número de variables endógenasque deseemos explicar podemos distinguir 
entre: 
− Modelos Uniecuacionales, que constan de una única variable endógena. 
− Modelos Multiecuacionales, que poseen varias variables endógenas, algunas de las cuales 
pueden ser a su vez variables explicativas en otras ecuaciones. 
 
1.3. LA METODOLOGÍA ECONOMÉTRICA 
En términos generales, la metodología econométrica tradicional considera los siguientes pasos en 
lo referente a la elaboración de modelos: 
1. Planteamiento de la teoría o hipótesis: generalmente se utiliza una construcción teórica 
de la Macroeconomía y/o Microeconomía, como por ejemplo la función keynesiana de 
consumo, la curva de Phillips, la teoría de la demanda del consumidor, etc. 
2. Especificación: el siguiente paso es establecer la relación formal entre las variables a que 
da lugar la teoría. Dicha relación se establece en forma matemática funcional, mediante 
una ecuación o un sistema de ecuaciones. Las variables que reciben los efectos son las 
variables endógenas, las cuales figuraran a la izquierda de las igualdades, mientras que 
las que producen los efectos, son las denominadas variables exógenas, las cuales aparecen 
en el lado derecho de las ecuaciones. Los efectos de cada variable exógena se cuantifican 
a través de una serie de parámetros que debemos estimar. Asimismo, en cada ecuación 
del modelo existirá un término de error o perturbación que recoge los efectos aleatorios 
y que tendrá unas propiedades probabilísticas definidas. 
Una vez establecida la relación funcional matemática, deberemos seleccionar datos de los 
que dispongamos nos servirán para representar los valores de las variables teóricas. Por 
ejemplo, si incluimos en el modelo como variable teórica la renta tendremos que elegir 
los datos que utilizaremos para representar dicha variable de entre las encuestas de que 
dispongamos: la renta familiar disponible, la renta interior, la renta nacional, etc. En 
algunas ocasiones, puede ocurrir que no exista una variable estadística que responda a los 
requisitos que exijamos, por lo que deberemos considerar la existencia de un posible error 
de observación. 
En definitiva, para la especificación de un modelo completo habrá que especificar 
claramente lo siguiente: 
− variables endógenas teóricas (y sus respectivos valores observados) 
− variables exógenas teóricas (y sus respectivos valores observados) 
− perturbaciones aleatorias (no observables) 
− errores de observación en las variables endógenas 
− errores de observación en las variables exógenas. 
3. Selección de datos: una vez hemos especificado el modelo procederemos a la obtención 
de un número de suficiente de datos que tengan las siguientes características: 
− Suficientes: como mínimo para poder realizar la estimación, el número de 
observaciones debe ser igual al número de parámetros que queremos estimar; 
de lo contrario, la estimación obtenida no resultará fiable. 
− Homogéneos: los datos deben estar expresados de una forma homogénea; 
esto quiere decir que todos deben estar expresados en las mismas magnitudes 
o valores y tienen que haber sido obtenidos por procedimientos estadísticos 
semejantes. Asimismo, si fuera necesario, todas las variables deberán estar 
corregidas de la misma manera de determinados efectos que se dan en las 
variables económicas como la tendencia o la estacionalidad. 
− Actuales: la falta de actualidad en los datos es un problema grave, en 
particular si el modelo que construimos tiene como finalidad predecir los 
valores futuros o realizar simulaciones de política económica. 
4. Estimación: se trata del procedimiento utilizado para obtener el valor de los parámetros 
del modelo. Habitualmente la técnica utilizada es el análisis de regresión que incluye 
diferentes técnicas: Mínimos Cuadrados Ordinarios (MCO), Mínimos Cuadrados 
Indirectos (MCI), Variables Instrumentales (VI), Mínimos Cuadrados en 2 Etapas 
(MC2E), Mínimos Cuadrados Generalizados (MCG), etc. 
Las técnicas econométricas requieren realizar cálculos a veces muy complejos, por ello 
es de gran utilidad el auxiliarnos de herramientas como hojas de cálculo (Excel, Lotus 
123, etc.) y programas estadísticos y econométricos (EViews, SPSS, SAS, etc.) 
5. Validación: una vez que se han estimado los parámetros del modelo, habrá que verificar 
que los valores obtenidos concuerdan con los postulados de la teoría que se ha utilizado 
para la construcción del modelo. 
La validación del modelo se realiza mediante la técnica estadística de inferencia o 
contraste de hipótesis, que consiste en analizar mediante pruebas estadísticas la bondad 
del ajuste y la significatividad estadística de los valores estimados, de tal forma que si el 
modelo no ha dado los resultados esperados deberá perfeccionarse mediante: 
− Un cambio en la forma matemática funcional del modelo. 
− Incluyendo en el modelo alguna variable explicativa que haya sido omitida. 
− Reemplazando las observaciones utilizadas para representar las variables 
endógenas y explicativas por otras que posean un menor error de observación. 
6. Utilización: una vez validado, el modelo econométrico puede ser utilizado para diversas 
tareas tales como: 
− Análisis estructural: cuantificar las relaciones que entre las variables endógenas 
y exógenas. 
− Predicción: dados unos valores de las variables explicativas, podemos obtener 
mediante el modelo estimado el valor futuro que tomará la variable endógena. 
− Simulación o evaluación de políticas: efectos que tienen sobre la variable 
endógena (variable objetivo) las diferentes estrategias que se planteen sobre las 
variables explicativas (variables de control). 
 
 
2. EL MODELO LINEAL GENERAL 
2.1. INTRODUCCIÓN 
La regresión lineal es la técnica básica del análisis econométrico. Mediante dicha técnica tratamos 
de determinar relaciones de dependencia de tipo lineal entre una variable dependiente o endógena, 
respecto de una o varias variables explicativas o exógenas. Gujarati (1975), define el análisis de 
regresión como el estudio de la dependencia de la variable dependiente, sobre una o más variables 
explicativas, con el objeto de estimar o predecir el valor promedio poblacional de la primera en 
términos de los valores conocidos o fijos (en medias muestrales repetidas) de las últimas. 
 
En este capitulo abordaremos el estudio del caso de una única ecuación de tipo lineal con una 
variable dependiente y una independiente, y la generalización del modelo al caso de múltiples 
variables exógenas. Las extensiones del modelo lineal general se analizaran en capítulos 
siguientes. 
 
 
2.2. REGRESIÓN LINEAL SIMPLE. EL MÉTODO DE LOS 
MÍNIMOS CUADRADOS ORDINARIOS. 
 
Partimos de la existencia de una relación lineal entre una variable endógena (Y) y k variables 
exógenas (Xi): 
 
ikikiii eXXXY +++++= ββββ ...22110 
 
Nuestro objetivo consiste en estimar los parámetros βi de la ecuación anterior a partir de los datos 
muestrales de los que disponemos. Para ello utilizaremos el método de los Mínimos Cuadrados 
Ordinarios (MCO), pero antes de ver en que consiste este método debemos plantear ciertas 
hipótesis sobre el comportamiento de las variables que integran el modelo. 
 
 
 
La variable et la denominamos término de perturbación o error, y en ella recogemos todos aquellos 
factores que pueden influir a la hora de explicar el comportamiento de la variable Y y que, sin 
embargo, no están reflejados en las variables explicativas, Xi. Estos factores deberían ser poco 
importantes, ya que no debería existir ninguna variable explicativa relevante omitida en el modelo 
de regresión. En caso contrario estaríamos incurriendo en lo que se conoce como un error de 
especificación del modelo. El término de perturbación también recogería los posibles errores de 
medida de la variable dependiente, Y. 
 
De lo anterior se desprende que, a la hora de estimar los parámetros del modelo, resultará de vitalimportancia que dicho término de error no ejerza ninguna influencia determinante en la 
explicación del comportamiento de la variable dependiente. Por ello, si el modelo esta bien 
especificado, cuando se aplica el método de Mínimos Cuadrados Ordinarios, cabe realizar las 
siguientes hipótesis de comportamiento sobre el término de error: 
 
1. La esperanza matemática de et es cero, tal que E(ei) = 0. Es decir, el comportamiento del 
término de error no presenta un sesgo sistemático en ninguna dirección determinada. Por 
ejemplo, si estamos realizando un experimento en el cual tenemos que medir la longitud 
de un determinado objeto, a veces al medir dicha longitud cometeremos un error de 
medida por exceso y otras por defecto, pero en media los errores estarán compensados. 
 
2. La covarianza entre ei y ej es nula para ji ≠ tal que E(ei·ej) = 0. Ello quiere decir que el 
error cometido en un momento determinado, i, no debe estar correlacionado con el error 
cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen 
influencia unos sobre otros. En caso de existir este tipo de influencia o correlación, nos 
encontraríamos ante el problema de la autocorrelación en los residuos, el cual impide 
realizar una estimación por Mínimos Cuadrados válida. 
 
3. La matriz de varianzas y covarianzas del término de error debe ser escalar tal que Var(ei) 
= σ2I, i=1,…,n, donde I es la matriz unidad. Dado que siempre que medimos una 
variable, se produce un cierto error, resulta deseable que los errores que cometamos en 
momentos diferentes del tiempo sean similares en cuantía. Esta condición es lo que se 
conoce como supuesto de homocedasticidad que, en caso de no verificarse, impediría un 
uso correcto de la estimación lineal por Mínimos Cuadrados. 
 
Estas hipótesis implican que los errores siguen una distribución Normal de media cero y varianza 
constante por lo que, dado su carácter aleatorio, hace que los errores sean por naturaleza 
impredecibles. 
 
Asimismo, las variables incluidas en el modelo deben verificar que: 
 
1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante todo 
el periodo muestral, es decir, no se produce un cambio importante en la estructura de 
comportamiento de Y a lo largo de la muestra considerada. 
 
2. Las variables explicativas, Xi, son no estocásticas, es decir, son consideradas fijas en 
muestreos repetidos. 
 
3. El número de variables explicativas, k, siempre debe ser menor que el tamaño muestral, 
n. Es decir, siempre debemos disponer de más observaciones que parámetros haya en el 
modelo (coeficientes β). 
 
Partiendo de la relación lineal más sencilla: 
 
iii eXY ++= 110 ββ 
 
Si suponemos que se verifican los supuestos anteriores, la estimación mínimo cuadrática de los 
parámetros β0 y β1, dará como resultado gráfico una recta que se ajuste lo máximo posible a la 
nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede 
apreciar en el Figura 2.1. 
 
 
 
Fig. 2.1. Nube de puntos o gráfico de dispersión con variables relacionadas linealmente 
 
El término de error, ei, puede ser entendido, a la vista del gráfico anterior, como la distancia que 
existe entre el valor observado, Yi, y el correspondiente valor estimado, que sería la imagen de 
Xi en el eje de ordenadas. El objetivo de la estimación por Mínimos Cuadrados Ordinarios es, 
precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es decir1: 
 
 ∑ ∑∑
= ==
−−=−=
n
i
n
i
iii
n
i
ii XYYYeMin
1 1
2
10
2
1
2 )ˆˆ()ˆ( ββ 
 
Derivando esta expresión respecto a los coeficientes 0β̂ y 1β̂ e igualando a cero obtenemos el 
sistema de ecuaciones normales: 
 
 
XYXnY o
n
i
i
n
i
i 1
1
10
1
ˆˆˆˆ ββββ +=⇒+= ∑∑
==
 
∑∑∑
===
+=
n
i
i
n
i
i
n
i
ii XXXY
1
2
1
1
0
1
ˆˆ ββ 
 
 
1
 
 
 Los parámetros y variables que llevan encima un símbolo de acento circunflejo (^) indican que 
son estimadas por lo que no se corresponden con el valor real del parámetro sino con el calculado por 
nosotros. 
 
donde n representa el tamaño muestral y X e Y representan las medias de dichas variables. 
Resolviendo dicho sistema de ecuaciones obtenemos la solución para los parámetros a y b: 
( )( )
( )
XY
XX
YYXX
o
n
i
i
n
i
ii
1
1
2
1
1
ˆˆ
ˆ
ββ
β
−=
−
−−
=
∑
∑
=
=
 
 
 
 
Ejemplo 2.1. 
Supongamos que el director de una empresa piensa que la demanda de un producto que él 
comercializa depende únicamente del precio de venta al público. Para estudiar la demanda de 
este producto pretende estimar el siguiente modelo: 
 
ttt eXY ++= 10 ββ 
 
donde Yt es la cantidad vendida anualmente del bien Y en el año t, y Xt es el precio medio al cual 
se vendió el bien Y durante el año t. Se dispone de los siguientes datos muestrales: 
 
Año Yt Xt 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
10 
12 
13 
14 
15 
17 
20 
21 
22 
20 
19 
18 
16 
15 
15 
14 
14 
13 
12 
13 
 
 
 A partir de estos datos iniciales podemos calcular la siguiente tabla: 
 Yt Xt ( )tY Y− )( XX t − ( )·( )t tY Y X X− − 
2)( XX t − 
2)( YYt − 
 10 19 -6.4 4.1 -26.24 16.81 40.96 
 12 18 -4.4 3.1 -13.64 9.61 19.36 
 13 16 -3.4 1.1 -3.74 1.21 11.56 
 14 15 -2.4 0.1 -0.24 0.01 5.76 
 15 15 -1.4 0.1 -0.14 0.01 1.96 
 17 14 0.6 -0.9 -0.54 0.81 0.36 
 20 14 3.6 -0.9 -3.24 0.81 12.96 
 21 13 4.6 -1.9 -8.74 3.61 21.16 
 22 12 5.6 -2.9 -16.24 8.41 31.36 
 20 13 3.6 -1.9 -6.84 3.61 12.96 
Total 164 149 0 0 -79.6 44.9 158.4 
Media 16.4 14.9 
 
Aplicando las formulas vistas anteriormente: 
1
1
2
1
0 1
( )( )
79.6ˆ 1.7728
44.9( )
ˆ ˆ 16.4 ( 1.7728·14.9) 42.82
n
t t
t
n
t
i
X X Y Y
X X
Y X
β
β β
=
=
− −
−= = = −
−
= − = − − =
∑
∑ 
 
 
de donde la ecuación de la recta estimada será: ttt eXY +−= 7728.182.42 
 
 
 
 
 
 
 
 
Finalmente, sustituyendo en la expresión anterior los valores de Xt podemos obtener los valores 
de tŶ y el valor de los términos de error et: 
 
tŶ ttt YYe ˆ−= 
9.13140312 0.86859688 
10.9042316 1.09576837 
14.4498886 -1.44988864 
16.2227171 -2.22271715 
16.2227171 -1.22271715 
17.9955457 -0.99554566 
17.9955457 2.00445434 
19.7683742 1.23162584 
21.5412027 0.45879733 
19.7683742 0.23162584 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2.3. REGRESIÓN LINEAL MÚLTIPLE 
Pasamos a continuación a generalizar el modelo anterior al caso de un modelo con varias variables 
exógenas, de tal forma que se trata de determinar la relación que existe entre la variable endógena 
Y y variables exógenas: X1, X2.…, Xk. Dicho modelo se puede formular matricialmente de la 
siguiente manera: 
 
 ikikii eXXXeXY ++++=+= ββββ ...· 2211 , i=1,2,…, n 
 
 
donde: 
 












=
nY
Y
Y
Y
...
2
1
 es el vector de observaciones de la variable endógena 
[ ]k21
21
22221
11211
X ...X X
...
............
...
...
=












=
nknn
k
k
XXX
XXX
XXX
X es la matriz de observaciones de las variables 
exógenas 












=
Kβ
β
β
β
...
2
1
 es el vector de coeficientes que pretendemos estimar 












=
ne
e
e
e
...
2
1
 es el vector de términos de error 
 
Si en la expresión anterior se considerara que existe término independiente, β0, la matriz X 
quedaría como: 
11 1
21 2
1 3 k
1
1 ...
1 ...
 X X ... X
... ... ... ...
1 ...
1
k
k
n nk
X X
X X
X
X X
 
 
 = =    
  
 
 
 
 
 
 
Y el modelo quedaría así: 
 
ikikiioi eXXXY +++++= ββββ ...2211 , i=1,2,…, n 
 
Suponiendo que se verifican las hipótesis que veíamos antes, el problema a resolver nuevamente 
es la minimizaciónde la suma de los cuadrados de los términos de error tal que: 
( ) ( )∑ ∑ ∑
= = =
−=−=
n
i
n
i
n
i
iii XYYYeMin
1 1 1
222 ˆˆ β 
 
 
Desarrollando dicho cuadrado y derivando respecto a cada βi obtenemos el siguiente sistema de 
ecuaciones normales expresado en notación matricial: 
 
ˆ' · 'X X X Yβ = 
 
en donde basta con despejar β premultiplicando ambos miembros por la inversa de la matriz 
)'( XX para obtener la estimación de los parámetros del modelo tal que: 
 
YXXX ')'(ˆ 1−=β 
 
donde: 
 




















=
∑∑∑
∑∑∑
∑∑∑
===
===
===
n
t
ki
n
t
iki
t
i
n
t
kii
n
t
i
n
t
ii
n
t
kii
n
t
ii
n
t
i
XXXX
XXXXX
XXXXX
XX
1
2
1
2
n
1
1ki
1
2
1
2
2
1
12
1
1
1
21
1
2
1
...X
..................
... 
... 
' 




















=
∑
∑
∑
=
=
=
n
t
iki
n
t
ii
n
t
ii
YX
YX
YX
YX
1
1
2
1
1
....
` 
 
 
 
 
 
 
 
Si en el modelo existiera término independiente, β0, las matrices anteriores serían: 
 




















=
∑∑∑
∑∑∑
∑∑
===
===
==
n
t
ki
n
t
iki
t
n
t
kii
n
t
i
n
t
i
n
t
ki
n
t
i
XXX
XXXX
XXn
XX
1
2
1
1
n
1
ki
1
1
1
2
1
1
1
11
1
...X
..................
... 
...
'




















=
∑
∑
∑
=
=
=
n
t
iki
n
t
ii
n
t
i
YX
YX
Y
YX
1
1
1
1
....
` 
 
 
El resultado de multiplicar dichas matrices conduce a la obtención de la estimación de los 
parámetros βi del modelo: 
( )














=








































==
∑
∑
∑
∑∑∑
∑∑∑
∑∑
=
=
=
−
===
===
==
−
k
o
n
i
iki
n
i
ii
n
i
i
n
t
ki
n
t
iki
t
n
t
kii
n
t
i
n
t
i
n
t
ki
n
t
i
YX
YX
Y
XXX
XXXX
XXn
YXXX
β
β
β
β
ˆ
...
ˆ
ˆ
....
...X
..................
... 
...
''ˆ 1
1
1
1
1
1
1
2
1
1
n
1
ki
1
1
1
2
1
1
1
11
1
1
 
 
 
 
Cada uno de los coeficientes estimados, iβ̂ , son una estimación insesgada del verdadero 
parámetro del modelo y representa la variación que experimenta la variable dependiente Y cuando 
una variable independiente Xi varía en una unidad y todas las demás permanecen constantes 
(supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadísticas muy interesantes 
ya que. si se verifican los supuestos antes comentados, son insesgados, eficientes y óptimos. 
 
Ejemplo 2.2. 
Un investigador estudia el empleo en el sector turístico en España. Para ello dispone de 
información relativa al empleo en los hoteles (Y), número de turistas medido en miles (X1), y la 
estancia media de los turistas (X2) medida en días. Los datos disponibles son de corte transversal 
y pertenecen a cada una de las 17 Comunidades Autónomas. 
 
 
 
 
 
Provincias Empleo 
(miles) 
Número de viajeros 
(miles) 
Estancia media 
Andalucía 28.4 11902.5 3.1 
Aragón 3.6 1848.0 2.1 
Asturias 2.4 1088.2 2.3 
Baleares 25.9 6716.0 7.2 
Canarias 27.2 4875.7 7.8 
Cantabria 2.0 933.8 2.4 
Castilla y León 6.2 3647.6 1.7 
Castilla-La Mancha 2.8 1805.1 1.7 
Cataluña 23.5 10771.7 3.4 
Comunidad Valenciana 13.4 5579.7 3.9 
Extremadura 2.2 1000.7 1.7 
Galicia 6.3 3040.5 2.1 
Madrid 10.7 5748.9 2.1 
Murcia 2.0 882.5 3.0 
Navarra 1.1 557.7 2.0 
País Vasco 3.2 1540.6 1.9 
Rioja (La) 0.7 446.2 1.8 
 
El modelo teórico a estimar con la información disponible es el siguiente: 
 
Yi = β0+β1 X1i + β2 X2i + ei 
 
Para proceder a estimar es modelo lo más conveniente es calcular la matriz de productos cruzados: 
 
 Y X1 X2 
Y 3193 1101921 709 
X1 426702792 227645 
X2 203 
 
en donde 
17
2
1
3193i
i
Y
=
=∑ , 
17
1
1
1101921i i
i
Y X
=
=∑ , 
17
2
1
709i i
i
Y X
=
=∑ , 
17
2
1
1
426702792i
i
X
=
=∑ , 
17
1 2
1
227645i i
i
X X
=
=∑ y 
17
2
2
1
203i
i
X
=
=∑ 
 
 
 
 
 
 
 
 
Teniendo presente que: 
 
17
1
17
1
1
17
2
1
17
161.8
62385.5
50.3
i
i
i
i
i
i
N
Y
X
X
=
=
=
=
=
=
=
∑
∑
∑
 
 
del que se conocen los siguientes resultados: 
 
( )
17 62386 50
' 62386 426702792 227645
50 227645 203
X X
 
 =  
 
 
 ( )
162
' 1101921
709
X Y
 
 =  
 
 
 
 
Vamos a estimar el modelo propuesto por Mínimos Cuadrados Ordinarios. Para ello, basta con 
multiplicar las matrices tal que: 
 
( ) 1
0.231 0.00001 0.048 162 5.702
ˆ ' ' 0.00001 0.00000001 0.000005 1101921 0.006
0.048 0.000005 0.022 709 2.679
X X X Yβ −
− − −    
    = = − − =    
    − −    
 
 
Por lo que el modelo queda como sigue: 
 
iŶ = -5.702+0.006 X1i + 2.679 X2i 
 
donde 1̂ 0.006β = indica el efecto de las variaciones unitarias del número medio de turistas sobre 
el empleo del sector, y 679.2ˆ
2 =β mide la variación que se produciría en empleo si la estancia 
media aumentara en una unidad. 
 
 
2.4. PROPIEDADES ESTADISTICAS DEl ESTIMADOR MÍNIMO 
CUADRADO. 
 
El estimador YXXX ')'(ˆ 1−=β puede escribirse como: 
eXXXeXXXX ')'()(')'(ˆ 11 −− +=+= βββ 
 
Si se cumplen las hipótesis de comportamiento sobre el término error, la distribución de 
probabilidad del estimador MCO β̂ será uno distribución normal multivariante con vector de 
mediasβ y matriz de varianzas y covarianzas 
12 )'( −XXσ
. 
 
La esperanza matemática del estimador MCO se demuestra a partir de: 
 
[ ] ββββ =+=+= −− )(')'(')'()ˆ( 11 eEXXXeXXXEE . 
 
De la definición de matriz de varianzas y covarianzas, se tiene que: 
( )( )



 −−=
'
)ˆ(ˆ)ˆ(ˆ)ˆvar( βββββ EEE
 
Teniendo presente que 
( ) eXXXeXXXE ')'(')'()ˆ(ˆ 11 −− =−+=− ββββ 
Entonces 
[ ] ( ) 121111 )'()'('')'()'('')'()ˆvar( −−−−− === XXXXXeeEXXXXXXeeXXXE σβ
 
El estimador jβ̂
del parámetro jβ
es insesgado porque su esperanza matemática coincide con el 
verdadero valor del parámetro jjE ββ =)ˆ(
. 
Se dice que un estimador insesgado jβ̂
 es mas eficiente que otro estimador insesgado jβ~
, si la 
varianza muestral de j
β̂
 es menor que la varianza muestral de jβ~
. El teorema de Gauss-Markov 
demuestra que el estimador MCO j
β̂
 es el más eficiente de la clase de estimadores lineales e 
insesgados de jβ
. 
 
Según el Teorema de Gauss-Markov, cualquier estimador lineal de puede expresarse como: 
[ ] [ ]( ) DeeXXXDXeXDXXXYDXXX +++=++=+= −−− ')'(')'(')'( 111 βββ 
donde D es una matriz (k×n) arbitraria, que establece la diferencia entre el estimador MCO y el 
estimador alternativo. 
 
La esperanza de dicho estimador es: 
( ) DXE += ββ~ 
Si β~ es insesgado, entonces 0=DX . En otras palabras el estimador alternativo sólo será 
insesgado si la matriz de distancia es ortogonal a las variables explicativas. 
 
A continuación obtenemos la matriz de covarianzas de este estimador 
( )( )[ ]')
~
(
~
)
~
(
~
)
~
var( βββββ EEE −−= 
 
Teniendo presente que : 
( ) [ ]eDXXXDeeXXXDXE +=−+++=− −− ')'(')'()
~
(
~ 11 ββββ 
entonces, 
( ) ( )( ) [ ]DDXXXXXDeeEDXXX ')'()'(''')'()
~
var( 1211 +=++= −−− σβ
 
 
y como DD' es una matriz semidefinida positiva, se demuestra que la )ˆvar()
~
var( ββ > con 
independencia de la normalidad o no de las distribución β
~
 . 
2.5. COEFICIENTES DE DETERMINACIÓN Y CORRELACIÓN 
PARCIAL 
2.5.1. Coeficiente de determinación 
Una vez estimada la ecuación de regresión lineal tiene interés determinar la exactitud del ajuste 
realizado. Para ello hay que analizar la variación que experimenta esta variable dependiente y, 
dentro de esta variación, se estudia qué parte está siendo explicada por el modelo de regresión y 
qué parte es debida a los errores o residuos. 
 
La forma de realizar dicho análisis es a partir de la siguiente expresión: 
 
SCRSCESCT += 
 
donde: 
 
− SCT: es la Suma de Cuadrados Totales y representa una medida de la variación de la 
variable dependiente. 
− SCE es la Suma de Cuadrados Explicados por el modelo de regresión. 
− SCR es la Suma de Cuadradosde los Errores 
 
Cuando el modelo tiene término independiente, cada una de estas sumas viene dada por: 
 
2 2 2
1
'
n
i
i
SCT Y Y nY Y nY
=
= − = −∑ 
 
2 2 2
1
ˆ ˆ ˆ' '
n
i
i
SCE X Y nY Y nYβ β
=
= − = −∑ 
 
2 2 2
1 1 1
ˆ ˆ' ' '
n n n
i i i
i i i
SCR e Y Y X Y Y Y SCT SCEβ
= = =
= = − = − = −∑ ∑ ∑ 
 
 
 
 
 
 
A partir de las expresiones anteriores es posible obtener una medida estadística acerca de la 
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinación (R2). 
que se define como: 
 
SCT
SCR
R −= 12
 , 10 2 ≤≤ R 
 
y en el caso particular de modelo con término independiente. como: 
 
SCT
SCE
R =2
, 10 2 ≤≤ R 
 
Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el 
mismo número de variables exógenas. ya que la capacidad explicativa de un modelo es mayor 
cuanto más elevado sea el valor que tome este coeficiente. Sin embargo. hay que tener cierto 
cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque 
podría parecer que estamos ante el modelo “perfecto”, en realidad podría encubrir ciertos 
problemas de índole estadística como la multicolinealidad que veremos en el capítulo 3. 
 
Por otra parte. el valor del coeficiente de determinación aumenta con el número de variables 
exógenas del modelo por lo que. si los modelos que se comparan tienen distinto número de 
variables exógenas, no puede establecerse comparación entre sus R2. En este caso debe emplearse 
el coeficiente de determinación corregido 2R , el cual depura el incremento que experimenta el 
coeficiente de determinación cuando el número de variables exógenas es mayor. 
 
La expresión analítica de la versión corregida es: 
 
( )22 1
1
1
1
1 R
kn
n
nSCT
knSCR
R −
−
−−=
−
−−= 
 
cuyo valor también oscila entre 0 y 1 
 
Ejemplo 2.3. 
En el modelo del empleo en el sector hotelero los errores ei se calculan a partir de: 
 
ei=Yi – 5.702+0.002 X1i + 2.679 X2i 
 
El error correspondiente a cada región es: 
 ei 
Andalucía 2.193 
Aragón -0.003 
Asturias -0.146 
Baleares -1.108 
Canarias 2.195 
Cantabria -0.508 
Castilla y León 0.044 
Castilla-La Mancha 0.424 
Cataluña -1.325 
Comunidad Valenciana -2.406 
Extremadura 1.315 
Galicia 0.290 
Madrid -0.687 
Murcia -2.034 
Navarra 0.432 
País Vasco 0.703 
Rioja (La) 0.622 
 
Las expresiones SCT, SCE y SCR son: 
 
654,117' 2
17
1
22 =−=−= ∑
=
YYYnYYSCT
i
i 
17
2 2 2
1
ˆ ˆ ˆ' ' 17 1,627i
i
SCE X Y nY Y Yβ β
=
= − = − =∑ 
2
1
ˆ' ' ' 1,654 1,627 27
n
i
i
SCR e Y Y X Y SCT SCEβ
=
= = − = − = − =∑ 
Con ellas calculamos el coeficiente de determinación y el coeficiente de determinación corregido: 
 
984.0
654,1
627,12 ==R 
982.0
117654,1
31727
12 =
−
−−=R 
 
El coeficiente de determinación y el coeficiente de determinación ajustado está cercano a uno lo 
que constituye una prueba de que el ajuste realizado es aceptable. El modelo estaría explicando 
el 98% de la variación del grado de ocupación que se da en las Comunidades Autónomas. 
 
2.5.2. Coeficiente de correlación parcial 
El coeficiente de correlación parcial entre dos variables del modelo, Xi y Xj (ó Xi e Y) describe la 
relación lineal existente entre dos variables sin tener en cuenta los efectos o influencias de una o 
más variables adicionales, con el objeto de identificar la existencia de posibles variables 
interpuestas, o de detectar correlaciones neutralizadas por el efecto de estas variables. 
 
Así, supongamos el caso de un modelo lineal que incluye dos variables independientes (X1 y X2) 
y una variable dependiente (Y). Si deseamos obtener el coeficiente de correlación parcial entre Y 
y X1, tomando como dados los efectos de X2 debemos seguir los siguientes pasos: 
 
1. Realizamos una regresión de Y sobre X2 y obtenemos los residuos, que denominaremos 
ei. 
 
2. Del mismo modo, para suprimir el efecto de la variable X2 sobre X1, realizamos una 
regresión de X1 sobre X2 y obtenemos los residuos de esta regresión, que denominaremos 
ui. 
 
3. Calculamos las varianzas residuales, Se
2 y Su
2, y la covarianza entre ambos, Seu. 
 
4. El coeficiente de correlación parcial entre Y y X1 es: 
 
12,3 ·
eu
e u
S
r
S S
= 
 
De forma análoga, podemos obtener mediante sucesivas regresiones los distintos coeficientes de 
correlación parcial entre el resto de variables. 
 
 
 
 
 
2.6. INFERENCIA ACERCA DE LOS ESTIMADORES 
Hasta el momento hemos visto como la estimación por MCO permite obtener estimaciones 
puntuales de los parámetros del modelo. La inferencia acerca de los mismos permite completar 
dicha estimación puntual, mediante la estimación por intervalos y los contrastes de hipótesis. Los 
primeros posibilitan la obtención de un intervalo dentro del cual, con un determinado nivel de 
confianza, oscilará el verdadero valor de un parámetro, mientras que los segundos nos permitirán 
extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de una serie de 
conjeturas que pueden plantearse sobre sus parámetros. 
 
La inferencia estadística consiste en la estimación de los parámetros poblacionales a partir de la 
información extraída de una muestra de dicha población. El número de estimaciones que podemos 
realizar de una población, a través de la extracción de diferentes muestras de un mismo tamaño, es 
generalmente muy grande porque cada una de las muestras posibles que se pueden sacar de la 
población arrojaría una estimación. 
 
Por esta razón, a la estimación que obtenemos en una investigación por muestreo la acompañamos 
con un intervalo de valores posibles. La amplitud de dicho intervalo dependerá del grado de confianza 
que establezcamos. 
 
El grado o nivel de confianza nos expresa el número de veces que la media verdadera de la población 
está incluida en cien intervalos de cien muestras extraídas de una población dada. El nivel de 
confianza más utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos construidos 
contendrán el verdadero valor de la media. 
 
El intervalo de confianza para la media de una población normalmente distribuida se construye en 
base a la probabilidad de que dicha media esté comprendida entre dos valores. Xa y Xb equidistantes 
a ella: 
[ ] 1a bXP X Xµ α≤ ≤ = − 
 
siendo 1- α el nivel o grado de confianza asociado a dicho intervalo. 
En términos generales, los intervalos de confianza para los estadísticos muestrales se expresan como: 
 
Estimador ± (Factor de Fiabilidad)*(Error Típico del Estimador) 
 
2.6.1. Intervalos De Confianza 
Presentamos a continuación cómo se construyen los intervalos de confianza para los distintos 
términos que hayamos estimado en el modelo: 
 
a) Intervalo de confianza para el parámetro iβ 
Para construir los intervalos de confianza de las estimaciones iβ , se parte de que la estimación 
MCO proporciona el valor medio de los posibles valores que pudiera tener dicho parámetro, y 
que la distribución de dichos valores sigue una distribución derivada de la Normal que se conoce 
como t de Student. Dicha distribución es simétrica presentando mayor dispersión que la curva 
Normal estándar para un tamaño muestral n pequeño. A medida que n aumenta (n > 100) es 
prácticamente igual que la distribución Normal. 
 
El cálculo del intervalo de confianza para iβ se realiza mediante la siguiente expresión: 
 
ˆ: ( )
i i
i n kIC S tβ ββ −± 
 
donde î
Sβ es la desviación típica estimada para el coeficiente iβ̂ , que se obtiene de la matriz de 
varianzas y covarianzas de los estimadores expresada como: 
 
1 1 2 1
2 1 2 2
1 2
2
2 2
ˆ ˆ
2
...
...
... ... ... ...
...
K
K
K K K
β β β β β
β β β β β
ββ
β β β β β
σ σ σ
σ σ σ
σ σ σ
 
 
 Σ =  
 
 
 
 
 
cuyos estimadores serán: 














=
2
ˆˆˆˆˆ
2
ˆˆ
2
ˆˆˆ
ˆˆˆˆ
2
ˆ
ˆˆ
...
............
...
...
21
2212
1211
KKK
KK
SSS
SSS
SSS
S
βββββ
βββββ
βββββ
ββ 
 
obtenidos a partir de la expresión ( ) 12
ˆˆ ' −= XXSS eββ . donde 
2
eS es la estimación de la varianza del 
término de error. 
 
Destacar por último que tn-k es el valor teórico de la distribución t de Student que aparece tabulada 
en el Anexo II, tabla II.2. 
 
Ejemplo 2.4 
Utilizando los resultados de la estimación del modelo del empleo en hoteles, tenemos que la 
varianza de los errores al cuadrado es: 
 
84.1
14
272 ==
−
=
kn
SCR
Se . 
 
Entonces, la matriz de varianzas y covarianzas de los estimadores será: 
 
( )










−−
−−
−−
=










−
−
−−
== −
042.000001.0091.0
00001.000000001.000001.0
091.000001.0435.0
022.0000005.0048.0
000005.000000001.000001.0
048.000001.0231.0
84.1' 12
ˆˆ XXSS eββ 
 
Teniendo presente que el estadístico t-Student tiene un valor en las tablas de t17-3=2.145 para 
α=0.025 para cada cola (el 95% de probabilidad) podemos afirmar que el valor de los parámetros 
de la ecuación estarán entre: 
 
 )936.5702.5()145.2435.0702.5(: ±−=⋅±−
o
ICβ 
)0002.0002.0()145.200000001.0002.0(:
1
±=⋅±βIC 
)440.0679.2()145,2042.0679.2(: ±=⋅±
o
ICβ 
 
Los intervalos de confianza calculados nos dicen que lo más probable es que, por ejemplo, el 
parámetro βo este entre los valores –4.287 y –7.117. 
 
 
b) Intervalo de confianza para la varianza del término de error 
La expresión del intervalo de confianza para la varianza del término de error es: 
 










≡










−−
−−
2
22
2
1
22
1
2
;
)(
;
)(
:
2222 αααα χχχχσ
SCRSCRknSknS
IC ee
e
 
 
donde α representa el nivel de significación del contraste y generalmente se utiliza un 5% de 
significación, que corresponde a un intervalo de confianza del 95 %. 
 
En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen según una 
distribución también derivada de la Normal que se conoce como 
2χ de Pearson. La distribución 
χ2 de Pearson es asimétrica. Su propiedad fundamental es que si sumamos dos χ2 independientes 
de grados de libertad n1 y n2 , se obtiene una nueva variable χ2 con grados de libertad igual a la 
suma de n1 y n2 . Los grados de libertad que hay que considerar en el cálculo de los intervalos 
de confianza del término error son de n-k. 
 
En el Anexo II, tabla II.3. también figuran los valores teóricos de la distribución 
2χ de Pearson. 
 
Ejemplo 2.5. 
Utilizando los datos del modelo del grado de ocupación hotelera. calculamos el intervalo de 
confianza para el error con un nivel de significación de α=0.05 y 14 grados de libertad, calculamos 
el intervalo para el término de error: 
 
)78,4;04,1(
628,5
27
;
119,26
27
;
2
025.0 975.0
22
=




=








≡
χχσ
SCRSCR
IC
e
 
 
Es decir, se puede afirma con un 95% de probabilidad que el verdadero valor de la varianza estará 
entre 1,04 y 4,78. 
 
2.6.2. Contrastes de Hipótesis 
Una buena parte de las investigaciones estadísticas están orientadas al desarrollo de procesos 
encaminados a la contrastación de hipótesis que previamente se han establecido. 
 
Una hipótesis es una afirmación que está sujeta a verificación o comprobación. Hay que tener 
presente que una hipótesis no es un hecho establecido o firme, las hipótesis están basadas en la 
experiencia, en la observación, en la experimentación o en la intuición del sujeto que las formula. 
 
Cuando las hipótesis se plantean de tal modo que se pueden comprobar por medio de métodos 
estadísticos reciben el nombre de hipótesis estadísticas. Estas hipótesis son afirmaciones que se 
efectúan sobre uno o más parámetros de una o más poblaciones. Las hipótesis estadísticas son de dos 
tipos: hipótesis nula e hipótesis alternativa. La hipótesis nula, o que no se verifique dicha afirmación, 
simbolizada por H0, es la hipótesis que se debe comprobar. 
 
Para contrastar una hipótesis nula examinamos los datos de la muestra tomados de la población y 
determinamos si son o no compatibles con dicha hipótesis. Si son compatibles entonces H0 se acepta, 
en caso contrario se rechaza. Si se acepta la hipótesis nula afirmamos que los datos de esa muestra 
en concreto no dan suficiente evidencia para que concluyamos que la hipótesis nula sea falsa; si se 
rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la hipótesis nula 
es falsa, entonces la hipótesis alternativa. H1, es verdadera. 
 
El criterio que permite decidir si rechazamos o no la hipótesis nula es siempre el mismo. Definimos 
un estadístico de prueba, y unos límites que dividen el espacio muestral en una región en donde se 
rechaza la hipótesis establecida, y otra región en la que no se rechaza, llamada región de aceptación. 
A la región donde se rechaza la hipótesis nula se le llama región crítica. Esta región es un subconjunto 
del espacio muestral, y si el valor del estadístico de prueba pertenece a él se rechaza la hipótesis nula. 
 
El límite entre la región crítica y la región de aceptación viene determinado por la información previa 
relativa a la distribución del estadístico de prueba. 
 
Señalar que un estadístico de prueba es una fórmula que nos dice como confrontar la hipótesis nula 
con la información de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de muestra 
a muestra. 
 
 
Otra de las consideraciones a realizar en la contrastación de hipótesis es fijar la probabilidad del error 
de rechazar la prueba siendo cierta, a este error se le denomina nivel de significación. Por ejemplo, si 
se utiliza un nivel de significación de 0.05, equivale a decir que si para realizar un contraste 
tomáramos infinitas muestras de la población, rechazaríamos la hipótesis nula de forma incorrecta 
un 5 % de las veces. 
 
En la formalización del procedimiento de contrastación podemos distinguir siete pasos principales: 
 
1.- Planteamiento de las hipótesis. 
2.- Selección del nivel de significación. 
3.- Descripción de la población y tamaño de la muestra. 
4.- Selección del estadístico de prueba y su distribución. 
5.- Especificación de las regiones de aceptación y de rechazo. 
6.- Recolección de datos y cálculo del estadístico. 
7.- Decisión estadística. 
 
Los contrastes de hipótesis que normalmente se realizan en la estimación MCO son los siguientes: 
 
a) Contraste individual sobre un parámetro 
 
Formulación de la hipótesis: 
*
0 : jjH ββ = 
*
1 : jjH ββ ≠ 
 
Estadístico experimental: 
j
S
t jj
β
ββ
ˆ
*
exp
ˆ −
= 
Estadístico teórico: )2/(αkntco tt −= 
 
Regla de decisión: Si tcott >exp se rechaza la hipótesis H0 
 
 
b) Contraste de significación individual 
 
Formulación de la hipótesis: 0:0 =jH β 
0:1 ≠jH β 
Estadístico experimental: 
j
S
t j
β
β
ˆ
exp
ˆ
= 
Estadístico teórico: )2/(αkntco tt −= 
 
Regla de decisión: Si tcott >exp se rechaza la hipótesis H0 
 
 
c) Contraste de significación global 
 
Formulación de la hipótesis: 0...: 210 ==== kH βββ 
 
Estadístico experimental: ( )
kn
R
k
R
kn
SCR
k
SCE
F
−
−
−=
−
−=
2
2
exp
1
11
 
 
Estadístico teórico: ( )α, ,1 knkFFtco −−= 
 
Regla de decisión: Si tcoFF >exp se rechaza la hipótesis H0 
 
Ejemplo 2.6. 
 
Utilizando los resultados del modelo del grado de ocupación hotelera vamos a plantear la hipótesis 
de que el parámetro β2 sea cero, y en consecuencia que el efecto de la estancia media de cada 
turista sobre el grado de ocupación hotelera no sea significativo. 
 
1º.- Planteamiento de la hipótesis 
 Se contrasta la hipótesis de que 0: 20 =βH , frente a la alternativa de que dicho valor sea 
diferente de cero 1 2: 0H β ≠ . 
 
2º.- Nivel de significación o error de tipo I. 
Sea α=0.05. 
 
3º.- Descripción de la población y tamaño de la muestra. 
La población son las Comunidades

Continuar navegando

Materiales relacionados

61 pag.
446 pag.
Econometría Aplicada Utilizando R

San Marcos

User badge image

Lolita Lopez

1 pag.