Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Econometría I Autores:1 Jose Miguel Benavente Andrés Otero Javiera Vásquez Agosto 2007 1Cualquier error es responsabilidad exclusiva de los autores. Índice general 1. Introducción 5 2. Modelo de Regresión Lineal 8 2.1. Análisis de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.1. ¾Qué es una regresión? . . . . . . . . . . . . . . . . . . . . 8 2.1.2. Relaciones estadísticas versus relaciones determinísticas . . 9 2.1.3. Regresión versus Causalidad . . . . . . . . . . . . . . . . . 10 2.1.4. Regresión versus Correlación . . . . . . . . . . . . . . . . . 10 2.2. Análisis de regresión con dos variables . . . . . . . . . . . . . . . 14 2.2.1. Función de regresión poblacional (FRP) . . . . . . . . . . 16 2.2.2. Especi�cación estocástica de la función de regresión pobla- cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.3. Función de regresión muestral . . . . . . . . . . . . . . . . 18 2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 21 2.3. Modelo de regresión con dos variables . . . . . . . . . . . . . . . . 24 2.3.1. Método de Mínimos Cuadrados Ordinarios . . . . . . . . . 24 2.3.2. Supuestos detrás del método MCO . . . . . . . . . . . . . 31 2.3.3. Errores estándar de los Estimadores Mínimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 1 2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2 . . . . . . . 36 2.4. Modelo de Regresión con k variables . . . . . . . . . . . . . . . . 38 2.4.1. Representación Matricial del Modelo de Regresión Lineal . 38 2.4.2. Estimador Mínimo Cuadrados Ordinarios . . . . . . . . . . 39 2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 41 2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 42 2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 42 2.6. Geometría del Estimador MCO . . . . . . . . . . . . . . . . . . . 44 2.7. Bondad de Ajuste y Análisis de Varianza . . . . . . . . . . . . . . 45 2.7.1. Modelo de Regresión Lineal en Desvíos . . . . . . . . . . . 45 2.7.2. Análisis de Varianza . . . . . . . . . . . . . . . . . . . . . 47 2.7.3. Bondad de Ajuste: R2 y R̃2 . . . . . . . . . . . . . . . . . 48 2.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.8.1. Test t (Una hipótesis lineal) . . . . . . . . . . . . . . . . . 53 2.8.2. Test F (Conjunto de hipótesis lineales) . . . . . . . . . . . 61 2.8.3. Intervalos de Con�anza . . . . . . . . . . . . . . . . . . . . 61 2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . . 63 2.9. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 2.9.1. Medición de la precisión de la predicción . . . . . . . . . . 67 2.10. Estimación Máximo Verosímil (EMV) . . . . . . . . . . . . . . . . 74 2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . . 75 2.10.2. Estimación MV . . . . . . . . . . . . . . . . . . . . . . . . 76 2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . . 80 2.11.1. Test de Razón de Verosimilitud (LR) . . . . . . . . . . . . 80 2 2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . . 81 2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 81 2.12. Algunas acotaciones respecto a la estimación y la inferencia MV . 85 3. Forma Funcional y Especi�cación 87 3.1. Regresores Estocásticos en el Modelo de Regresión Lineal . . . . . 87 3.2. Incorporación de No Linealidades . . . . . . . . . . . . . . . . . . 89 3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . . 90 3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . . 92 3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . . 97 3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101 3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor . . . . . . . . . . . . . . . . . . . . 103 3.5. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.5.1. Ejemplo: Retornos a la educación, diferencias entre hom- bres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109 3.7. Omisión de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110 3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110 3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111 3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3.8. Inclusión de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114 3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114 3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114 3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3 3.9. Perturbaciones no Esféricas . . . . . . . . . . . . . . . . . . . . . 117 3.9.1. Consecuencias de estimación por MCO . . . . . . . . . . . 118 3.9.2. Estimación E�ciente: Mínimos Cuadrados Generalizados . 118 3.9.3. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 119 3.9.4. Estimación cuando Ω es desconocida: Mínimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120 3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121 3.9.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . 130 4. Problemas con los datos 149 4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada 151 4.1.2. Detección de Multicolinealidad . . . . . . . . . . . . . . . 151 4.1.3. Otros métodos de detección de multicolinealidad . . . . . . 153 4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155 4.2. Error de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.2.1. Estimación por Variables Instrumentales . . . . . . . . . . 159 4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160 4 Capítulo 1 Introducción Econometría es la ciencia que aplica métodos matemáticos y estadísticos al análi- sis de datos económicos, con el objetivo de dotar de una base empírica a una teoría económica, para así refutarla o veri�carla. Aunque la econometría parece ser tan antigua como la misma ciencia económica, sólo en 1930 se crea la Sociedad Econométrica, la cual sistematizó su estudio y práctica. En 1933 se lanza el primer número de Econometrica en el que Ragnan Frish (uno de los fundadores de la Sociedad Econométrica, a quién de hecho, se le acredita el haber acuñado el término .Econometría") destaca: "La experiencia ha mostrado que cada uno de estos tres puntos de vista, el de la estadística, la teoría económica y las matemáticas, es necesario, pero por si mismo no su�ciente para una comprensión real de las relaciones cuantitativas de la vida económica modera. Es la unión de los tres aspectos lo que constituye una herramienta de análisis potente. Es la unión lo que constituye la econometría". Sin embargo, las metodologías aplicadas en econometría (los tres puntos de vista de Frish), no han sido utilizados exclusivamente por la ciencia económica. Otras ciencias naturales también han aprovechado sus ventajas. Sin embargo, en el campo del comportamiento económico adquieren especial particularidad y rele- vancia, en tanto el ambiente y el comportamiento económicos, son esencialmente no-experimentales, colocándonos en situaciones donde todas las variables rele- vantes parecen moverse constantemente y donde existen factores impredecibles que pueden alterar los resultados. Es por esto que la econometría es esencial- mente una ciencia no determinística, donde se reconoce la existencia de factores esencialmente impredecibles que determinan nuestras conclusiones. 5 Capitulo 1: Introducción Econometría I FEN, Universidad de Chile La metodología econométrica se puede detallar (a grandes rasgos) según lo enun- cia laFigura 1. En primer lugar contamos con una teoría económica que busca validez. Para ella, es necesario encontrar su equivalente modelo econométrico (relaciones matemáticas que describan el comportamiento de los agentes involu- crados). Para estimar entonces dicho modelo, se necesita de la ecuación resultante del modelo, los datos que ella implica y los supuestos bajo los cuales se construye. Sólo una vez que contamos con dichos ingredientes se procede a estimar cuan- titativamente las predicciones o implicancias expuestas por la teoría económica inicial. Luego, se debe realizar inferencia o pruebas de hipótesis, las cuales nos in- dicarán si nuestros resultados son estadísticamente signi�cativos. Si la respuesta es si, entonces sólo queda realizar las predicciones pertinentes y las recomenda- ciones de política asociadas. Si la respuestas es no, entonces, debemos revisar los posibles errores que existan a nivel de teoría o metodología. TEORIA ECONOMICA MODELO ECONOMETRICO ECUACION DATOS SUPUESTOS ESTIMACION INFERENCIA Y PRUEBA DE HIPOTESIS PREDICCIONES Y RECOMENDACIONES DE POLITICA SI NO TEORIA VERIFICADA 6 Capitulo 1: Introducción Econometría I FEN, Universidad de Chile Esta breve descripción no es más que una somera vista a lo que realmente implica hacer econometría. El camino no está exento de di�cultades (en términos de la calidad de los datos, de la di�cultad de medir las variables que la teoría indica, de los supuestos que realizamos, etc), sin embargo, esto, más que una di�cultad, implica un desafío. 7 Capítulo 2 Modelo de Regresión Lineal 2.1. Análisis de Regresión 2.1.1. ¾Qué es una regresión? La regresión es un elemento fundamental en la Econometría, corresponde a un estudio de dependencia entre una variable dependiente y una o más variables explicativas. El análisis de regresión tiene como objeto estimar y/o predecir el promedio poblacional de la variable dependiente para valores �jos de la(s) vari- able(s) explicativa(s). Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestra variable explicativa (X): notas controles, y en el eje de las ordenadas tenemos nuestra variable dependiente (Y): nota examen. Notas de los controles Figura 1: Distribución de las Notas del Examen vs. Promedio Notas de Controles 8 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Podemos observar dos cosas: primero, para cada nota posible en los controles (3.0, 4.0,..) tenemos un rango o distribución de notas en el examen y segundo, el promedio de notas en el examen es mayor mientras mayores son notas de los controles. Esto último se puede apreciar al trazar una recta que una los valores promedios de notas en examen para cada nota en los controles (linea negra del la Figura 1), la que corresponde a la recta de regresión. Esta nos permite, para cada nivel de edad, predecir la estatura promedio correspondiente. 2.1.2. Relaciones estadísticas versus relaciones determinís- ticas La calidad de un producto, por ejemplo el vino, dependerá de como fue su cosecha y por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, la cantidad de lluvia, sol y los fertilizantes. La relación entre estas variables explica- tivas y la calidad del vino tiene una naturaleza estadística, ya que si bien estas variables ayudan al productor de vino a saber más o menos como será la cosecha, no podrá predecir en forma exacta la calidad del producto debido a los errores involucrados en estas variables y porque pueden haber otros factores difíciles de medir que estén afectando la calidad del vino. La variable dependiente, en este caso la calidad del vino, tiene una variabilidad aleatoria, ya que no puede ser explicada en su totalidad por las variables explica- tivas. En la econometría nos interesa la dependencia estadística entre variables, donde tratamos con variables aleatorias, es decir, variables que tienen una distribución de probabilidad. La dependencia determinística, por el contrario, trata relaciones como la ley de gravedad de Newton1, las que son exactas (no tienen naturaleza aleatoria). 1La ley de gravedad de Newton plantea que toda partícula en el universo atrae a cualquier otra partícula con una fuerza directamente proporcional al producto de sus masas e inversamente proporcional al cuadrado de la distancia entre ellas: F=k(m1m2r2 ), donde F=fuerza, m1 y m2 son la masa de las dos partículas, r es la distancia y k una constante de proporcionalidad. Esta es una relación determinística, ya que para valores de masas, distancia y constante sabemos exactamente a la fuerza que se atraen estas partículas. Si alguna de las variables estuviera medida con error, la ley de Newton pasa a ser una relación estadística, y F se convierte en una variable aleatoria. 9 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.1.3. Regresión versus Causalidad Es importante tener claro que la regresión es una relación estadística, que no implica causalidad apriori. En el ejemplo del vino, no hay una razón estadística para suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentido común nos hace considerar como variable dependiente la calidad del vino y no la lluvia. Es importante recordar de aquí en adelante que una relación estadística no puede por sí misma implicar en forma lógica una causalidad. 2.1.4. Regresión versus Correlación El Análisis de Correlación está estrechamente relacionado con el de regresión aunque conceptualmente son dos cosas muy diferentes. El análisis de correlación tiene como objetivo medir el grado de asociación lineal entre dos variables, medida a través del coe�ciente de correlación. Por ejemplo, se puede estar interesado en medir el grado de correlación entre años de educación y salario. En cambio, el análisis de regresión trata de estimar o predecir el valor promedio de salario para un nivel dado de educación. Las diferencias fundamentales son que, en el análisis de regresión, tenemos una variable dependiente y una o más explicativas, la que son tratadas en forma asimétrica: la variable dependiente es aleatoria, tiene una distribución de proba- bilidad, en cambio las variables explicativas toman valores �jos. En el análisis de correlación las variables son tratadas de forma simétrica: la correlación entre edu- cación y salario es igual a la correlación entre salario y educación. Además ambas variables son aleatorias. Así, si x e y son dos variables aleatorias, el coe�ciente de correlación se de�ne de la siguiente manera: ρyx = E {[x− E(x)] [y − E(y)]}√ var(x)var(y) = σxy√ σ2xσ 2 y Lo que se calcula para una muestra de la siguiente forma: ρ̂yx = ∑n i=1 [ xi −X ] [ yi − Y ] √∑n i=1 [ xi −X ]2√∑n i=1 [ yi − Y ]2 con X = 1 n ∑n i=1 xi e Y = 1n ∑n i=1 yi. De ahora en adelante denotaremos con un ˆ a los estimadores de un estadísti- co obtenidos a partir de información muestral. 10 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ejemplo 1: Portales de Internet, correlación entre número de visitas y valor de la empresa: Ejemplo 2: Correlación entre Empleo y Producto (serie de tiempo): 11 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ejemplo 3: Correlación entre Producto per-capita y ranking fútbol: Ejemplo 4: Correlación entre temperatura media del día y estudiantes ausentes a clases: 12 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Algunas precauciones con el coe�ciente de correlación: Cuidado cuando el grado de correlación muestral depende de solo unas pocas observaciones. El coe�ciente de correlación mide una relación lineal. Por lo tanto, una variable puede depender de otra aún cuando la correlación sea cero si la relación es no lineal. Correlación no implica causalidad económica, es sólo una relación estadís- tica. Correlación puede indicar relación espuria. No olvidar que la correlación muestral es una variable aleatoriay que por lo tanto, el coe�ciente por si sólo no garantiza la existencia de una relación estadística entre las series. 13 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.2. Análisis de regresión con dos variables Para esta sección asumiremos que existe una variable dependiente (Y) que es explicada por sólo una variable (X). Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salarios y nivel de educación para una población de 60 individuos 2 Tabla 1: Salarios y Años de Educación Años de Educación (X) Salario (Y) 8 9 10 11 12 13 14 15 16 17 16000 18260 15000 15000 20000 20000 21912 35000 40000 60000 32868 36520 40000 40000 50000 54780 60000 73040 90000 120000 50000 54780 58000 60000 73040 80000 89000 100000 105000 165784 80000 82170 90000 90000 100000 100500 120000 140000 180000 250000 100000 109560 120000 120000 140000 160000 200000 230000 280000 365200 150000 170000 182600 188973 219120 257880 300000 400000 434686 600000 219120 273900 280000 328680 365200 400000 500000 600000 730400 1095600 300000 365200 380000 434120 500000 550000 650000 883085 1000000 1643400 547800 730400 913000 821700 1064558 1460800 1500000 1826000 2487041 4000000 E(Y|X) 166199 204532 230956 233164 281324 342662 382324 476347 594125 922220 La población tiene 10 niveles distintos de educación, que van desde 8 a 17. Para cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la variabilidad en los salarios para cada nivel educacional considerado, en promedio el salario se incrementa a medida que los años de educación aumentan. Esto último se puede veri�car al calcular el promedio para cada nivel de educación, lo que se presenta en la última linea de la Tabla 1, estos corresponden a los valores esperados condicionales, ya que dependen de los valores dados de la variable X. En la Figura 2, los valores medios condicionales están marcados con una cruz. La unión de estos valores representa la Recta de regresión poblacional, donde el término poblacional se re�ere a que estamos trabajando con el total de la población. 0 1 0 0 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 0 0 4 0 0 0 0 0 0 s a la ri o 8 10 12 14 16 18 x x x x x x x x x x Figura 2: Distribución de los salarios para distintos niveles de educación. Recta de regesión poblacional (RRP) Escolaridad 2Una población de 60 individuos puede parecer un poco pequeña, pero por el momento consideremos que estas familias son el total existente 14 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile De�nición: La curva de regresión poblacional es simplemente el lugar geométri- co de las medias condicionales de la variable dependiente para los valores �jos de la(s) variable(s) explicativa(s). En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma simétrica en torno al valor promedio para cada valor X, desde ahora asumiremos que esto si se cumple, tal como lo podemos apreciar en la Figura 3. Figura 3: Ingreso semanal y Gasto semanal. Distribución simétrica En este ejemplo, se ve la relación entre ingreso semanal y gasto en consumo semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye en forma simétrica entorno al valor promedio condicional de gasto. 15 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.2.1. Función de regresión poblacional (FRP) De lo anterior es claro que la media condicional E(Y|Xi) es función de Xi, donde Xi es un valor dado de X: E(Y |Xi) = f(Xi) (2.1) donde f(·) es una función cualquiera, en el ejemplo anterior era una función lineal. La ecuación (2.1) se denomina Regresión Poblacional. Que forma tiene f(·) es una pregunta empírica, aunque muchas veces la teoría nos puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario esta relacionado linealmente con la educación, así podemos suponer que la función de regresión poblacional E(Y|Xi) es una función lineal de Xi, es decir: E(Y |Xi) = β1 + β2Xi (2.2) donde β1 y β2 se denominan coe�cientes de regresión. Así el objetivo es estimar β1 y β2 a partir de datos de X e Y. 2.2.2. Especi�cación estocástica de la función de regresión poblacional En los dos ejemplos anteriores veíamos que a medida que se incrementa la vari- able explicativa (educación o ingreso), el valor promedio de la variable dependi- ente (salario o gasto) también se incrementaba. Sin embargo, este patrón se da solo a nivel de promedios. A nivel individual esto no es necesariamente cierto. En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 años de educación, gana menos que el individuo con 8 años de educación con mayor salario. Existe una dispersion de los valores individuales de Yi en torno al promedio condicional de esta variable. De esta forma, podemos de�nir: ui = Yi − E(Y |Xi) o Yi = E(Y |Xi) + ui (2.3) donde ui es una variable aleatoria no observable que toma valores positivos o neg- ativos. Este término surge pues no se puede esperar que todas las observaciones 16 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Yi sean igual al promedio condicional a Xi. Recordemos que la regresión es una relación estadística, a pesar de conocer los valores de Xi, esto no nos permite predecir en forma exacta Yi. Lo que no pode- mos explicar debido a que tiene naturaleza aleatoria se representa a través de ui, denominado término de error estocástico. Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de una familia individual (Yi) corresponde a la suma de dos componentes: E(Y|Xi), que corresponde a la media de gasto de todas las familias con el mismo nivel de ingresos → Componente Determinístico ui → Componente Aleatorio Si E(Y|Xi) es lineal en Xi, podemos escribir la ecuación (2.3) de la siguiente forma: Yi = E(Y |Xi) + ui = β1 + β2Xi + ui (2.4) Tomando el valor esperado condicional en Xi a la ecuación (2.4): E(Yi|Xi) = E[E(Y |Xi)|Xi] + E(ui|Xi) = E(Y |Xi) + E(ui|Xi) (2.5) Debido a que E(Yi|Xi) = E(Y |Xi), implica que: E(ui|Xi) = 0 (2.6) Así, el supuesto de que la recta de regresión pasa a través de las medias condi- cionales de Y, implica que la media condicional de ui es cero. 17 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.2.3. Función de regresión muestral En la mayoría de los fenómenos económicos a estudiar, no disponemos de las observaciones totales de la población, como hemos supuesto hasta ahora. En la práctica se tiene alcance nada más que a una muestra de los valores de Y que corresponden a unos valores �jos de X. En este caso tenemos que estimar la fun- ción de regresión poblacional en base a información muestral. Los datos poblacionales asociados a la Figura 3 son los siguientes: Tabla 2. Ingreso familiar (X) y Gasto en consumo (Y). Y|X 80 100 120 140 160 180 200 220 240 260 Gasto en 55 65 79 80 102 110 120 135 137 150 consumo 60 70 84 93 107 115 136 137 145 152 familiar 65 74 90 95 110 120 140 140 155 175 semanal 70 80 94 103 116 130 144 152 165 178 (Y) 75 85 98 108 118 135 145 157 175 180 - 88 - 113 125 140 - 160 189 185 - - - 115 - - - 162 - 191 Media Condicional 65 77 89 101 113 125 137 149 161 173 Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso a las observaciones correspondientes a la población total. Tenemos a nuestra dis- posición sólo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria de la población. Es importante notar que a partir de una población podemos sacar una gran can- tidad de muestras en forma aleatoria y en la realidad nosotros observamos solo una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP pero no de manera precisa. Para ejempli�car esto supongamos que además de la muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la información poblacional. Tabla 3. Muestra aleatoria de la población en tabla 2. Y X 70 80 65 100 90 120 95 140 110 160 115 180120 200 140 220 155 240 150 260 Tabla 4. Muestra aleatoria de la población en tabla 2. Y X 55 80 88 100 90 120 80 140 118 160 120 180 145 200 135 220 145 240 175 260 18 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Al gra�car los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en la Figura 4. En este diagrama se han trazado dos rectas de regresión mues- tral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda. Como vemos, no es posible asegurar cual de las dos rectas muestrales representa mejor la recta de regresión poblacional. Entonces es importante tener en mente que las rectas de regresión muestral rep- resentan la recta de regresión poblacional, pero debido a �uctuaciones muestrales pueden ser consideradas sólo como una aproximación. Como contraparte muestral la función de regresión muestral puede escribirse como: Ŷi = β̂1 + β̂2Xi (2.7) donde Ŷi es el estimador de E(Y|Xi), β̂1 es el estimador de β1 y β̂2 es el estimador de β2. Figura 4: Rectas de Regresión basadas en dos muestras distintas De�nición: Un estimador es una regla, fórmula o método que dice cómo deter- minar el parámetro poblacional a partir de la información suministrada por la muestra disponible. De igual manera que para el caso poblacional la función de regresión muestral 19 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile también tiene una representación estocástica: Yi = β̂1 + β̂2Xi + ûi (2.8) Entonces, el objetivo del Análisis de Regresión es estimar la Función de regresión poblacional: Yi = β1 + β2Xi + ui (2.9) con base en la Función de regresión muestral: Yi = β̂1 + β̂2Xi + ûi (2.10) Esta aproximación se puede ver en la Figura 5: Figura 5: Rectas de Regresión muestral y poblacional En términos de la función de regresión muestral, la Yi observada puede ser ex- presada como: Yi = Ŷi + ûi (2.11) y en términos de la función de regresión poblacional puede ser expresada como: Yi = E(Y |Xi) + ui (2.12) 20 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile En la �gura 5 podemos notar que para todo Xi a la derecha del punto A, Ŷi sobreestima E(Y |Xi). De igual manera, para cualquier punto a la izquierda de A, Ŷi subestima E(Y |Xi). Esta sobreestimación y subestimación del modelo pobla- cional es inevitable debido a las �uctuaciones muestrales. ¾Cómo se puede construir la función de regresión muestral para β̂1 y β̂2 que este lo más cerca de los valores verdaderos (poblacionales) de β1 y β2? 2.2.4. Propiedades de un Estimador Un estimador, siendo función de la muestra, es una variable aleatoria y tiene su propia distribución de probabilidad. Las propiedades de los estimadores son las siguientes: 1. Se denomina sesgo a la diferencia entre el valor esperado del estimador y su verdadero valor: E(β̂)− β. De esta forma, se dice que β̂ es un estimador insesgado si E(β̂) = β. 2. El estimador es e�ciente o de mínima varianza si no hay ningún otro esti- mador insesgado que tenga una varianza menor que β̂. En general se trata de utilizar estimadores de varianza pequeña, pues de este modo la estimación es más precisa. 3. El Error Cuadrático Medio (ECM) es una propiedad de los estimadores que mezcla los conceptos de e�ciencia e insesgamiento. El ECM de β̂ se de�ne como: ECM(β̂) = E[(β̂ − β)2] Lo que se puede expresar equivalentemente de la siguiente manera: ECM(β̂) = V ar(β̂) + [Sesgo(β̂)]2 4. La última propiedad de un estimador es la consistencia. El estimador β̂ es consistente si converge (en el limite) al verdadero valor del parámetro. Se dice que la sucesión de variables aleatorias X1, X2,...,Xn converge en probabilidad a la variable aleatoria (o constante) X si: ∀ε > 0, ĺım n→∞ Pr[|Xn −X| < ε] = 1 Esto se denota plim Xn = X. Dos reglas útiles al respecto son: 21 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile plim ( X Y ) =plimX plimY plim (X · Y )=plimX · plimY Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un com- ponente �jo o determinístico (c) y un componente aleatorio(ui): yi = c︸︷︷︸ componente fijo + ui︸︷︷︸ componente aleatorio Si ui ∼ N(0, σ2u), entonces: µ = E(yi) = c V (yi) = E[(yi − E(yi))2] = E[u2i ] = σ2u 22 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ahora consideremos el siguiente estimador de la esperanza de yi, la media mues- tral: µ̂ = Y = 1 n (y1 + y2 + ... + yn) = 1 n n∑ i=1 yi Veamos que propiedades tiene este estimador: Insesgamiento: E(µ̂) = µ E(µ̂) = E ( Y ) = E ( 1 n (y1 + y2 + ... + yn) ) = 1 n (E(y1) + E(y2) + ... + E(yn)) dado que E(yi) = E(c) + E(ui)︸ ︷︷ ︸ 0 = c, E(µ̂) = c = µ E�ciencia: V ar(µ̂)<V ar(µ̂1) Comparemos el estimador promedio muestral con un estimador que es sim- plemente cualquier valor de yi: µ̂ = Y E(Y ) = c V ar(Y )=σ2u n µ̂1 = yi E(yi) = c V ar(yi) = σ 2 u Entonces para n>1 siempre se cumple que µ̂ es más e�ciente (menor vari- anza) que µ̂1. Error Cuadrático Medio: Como µ̂ es un estimador insesgado de µ al igual que µ̂1, el error cuadrático medio de ambos estimadores es igual a la varianza del estimador, de esta forma µ̂ tiene menor error cuadrático medio que µ̂1. Consistencia: µ̂ es un estimador consistente dado que: plim(µ̂) = plim(Y ) = c Ya que si ĺımn→∞ V ar(Y ) = 0 ⇒ plim(Y ) = c. 23 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.3. Modelo de regresión con dos variables 2.3.1. Método de Mínimos Cuadrados Ordinarios De la sección anterior teníamos que el error estimado era: ûi = Yi − Ŷi = Yi − β̂1 − β̂2Xi (2.13) es decir, los residuos son simplemente la diferencia entre los valores verdaderos y estimados de Y. Si queremos que la función de regresión muestral sea lo más cercana posible a la poblacional, debemos tratar de escoger los coe�cientes de regresión (los β's) de forma tal que los errores sean lo más pequeños posible. De acuerdo a esto un criterio para escoger la función de regresión muestral podría ser minimizar la suma de los los errores: ∑ ûi = ∑ (Yi − Ŷi), sin embargo este criterio no es muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud de los errores, sin embargo en la suma de los errores todos reciben el mismo peso. Debido a esto es posible que la suma de los errores sea muy pequeña cercana a cero, incluso cuando la dispersion de los errores en torno a la función de regresión muestral es alta. Figura 6: Mínimos Cuadrados Ordinarios 24 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Este problema puede ser solucionado al considerar la suma de los errores al cuadrado como criterio a minimizar, en este caso los errores más lejos reciben un mayor peso: ∑ û2i = ∑ (Yi − Ŷi)2 = ∑ (Yi − β̂1 − β̂2Xi)2 (2.14) El Método de Mínimos Cuadrados Ordinarios (MCO) escoge β̂1 y β̂2 de forma tal que para una muestra dada, ∑ û2i sea lo más pequeño posible. Entonces el problema que este método propone resolver es el siguiente: mı́n β̂1,β̂2 ∑ (Yi − β̂1 − β̂2Xi)2 (2.15) las condiciones de primer orden de este problema son: ∂ ∑ û2i ∂β̂1 = −2 ∑ (Yi − β̂1 − β̂2Xi) = −2 ∑ ûi = 0 (2.16) ∂ ∑ û2i ∂β̂2 = −2 ∑ (Yi − β̂1 − β̂2Xi)Xi = −2 ∑ ûiXi = 0 (2.17) Simpli�cando (2.16) y (2.17) obtenemos las ecuaciones normales: ∑ Yi = nβ̂1 + β̂2 ∑ Xi (2.18)∑ YiXi = β̂1 ∑ Xi + β̂2 ∑ X2i (2.19) Debemos resolver un sistema con dos ecuaciones y dos incógnitas. De la ecuación (2.18) podemos despejar β̂1: β̂1 = ∑ Yi − β̂2 ∑ Xi n (2.20) reemplazando (2.20) en (2.19): ∑ YiXi = (∑ Yi − β̂2 ∑ Xi n ) · ∑ Xi + β̂2 ∑ X2i (2.21) De esta forma, el estimador de β2 es: β̂2 = n ·∑ YiXi − ∑ Xi ∑ Yi n ·∑X2i − ( ∑ Xi)2 (2.22) 25 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile El que puede ser escrito de la siguiente forma (hacerlo): β̂2 = ∑ xiyi∑ x2i (2.23) donde xi = Xi −X e yi = Yi − Y , con X = 1n ∑n i=1Xi e Y = 1n ∑n i=1 Yi Reemplazando (2.22) en (2.20): β̂1 = ∑ X2i ∑ Yi − ∑ Xi ∑ XiYi n ·∑X2i − ( ∑ Xi)2 (2.24) = Y − β̂2X (2.25) Los resultados (2.23) y (2.25) podrían haber sido obtenidos de igual forma, expre- sando inicialmente el modelo de regresión en desviaciones con respecto a la media. El modelo de regresión original es: Yi = β̂1 + β̂2Xi + ûi si le restamos el promedio de esta: Y = β̂1 + β̂2X + ûi (2.26) y recordando que el valor esperado del término de error es 0, tenemos el siguiente modelo de regresión lineal expresado en desviaciones con respecto a la media: (Yi − Y ) = β̂2(Xi −X) + ûi yi = β̂2xi + ûi Así el problema de Mínimos Cuadrados Ordinarios es: mı́n β̂2 ∑ (yi − β̂2xi)2 La condición de primer orden de este problema es: ∂ ∑ û2i ∂β̂2 = −2 ∑ (yi − β̂2xi)xi = 0 Así obtenemos el mismo estimador de β2, encontrado en (2.23), y β1 se obtiene simplemente despejando la ecuación (2.26): β̂1 = Y − β̂2X 26 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile que corresponde a lo mismo en la ecuación (2.25). Una vez estimados los coe�cientes de regresión mediante MCO y utilizando la información muestral, la recta de regresión muestral (Ŷi = β̂1 + β̂2Xi) puede ser obtenida fácilmente. Ejemplo 1: Disponemos datos de una empresa química sobre el gasto que el- la realiza en Investigación y Desarrollo (I+D) y las ganancias anuales de esta compañía: Año Gasto en I+D Ganancia Anual (Millones de dólares) (Millones de dólares) 1990 2 20 1991 3 25 1992 5 34 1993 4 30 1994 11 40 1995 5 31 Ahora debemos debemos determinar de que forma como cambia el promedio condicional de la variable dependiente (Ganancias) cuando cambia el valor �jo de la variable explicativa (Gasto en I+D). La forma muestral de la recta de regresión: ̂E(Yi|Xi) = β̂1 + β̂2Xi requiere deter- minar el valor estimado de estos parámetros, para lo cual utilizaremos el método 27 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile de mínimos cuadrados ordinarios: β̂2 = n ·∑ YiXi − ∑ Xi ∑ Yi n ·∑ X2i − ( ∑ Xi)2 β̂2 = ∑ YiXi − nXY∑ X2i − n(X)2 Utilicemos los datos para obtener los cálculos necesarios para computar el esti- mador de β2: Año Gasto en I+D (X) Ganancia Anual (Y ) (n=6) (Millones de dólares) (Millones de dólares) XY X2 1990 2 20 40 4 1991 3 25 75 9 1992 5 34 170 25 1993 4 30 120 16 1994 11 40 440 121 1995 5 31 155 25 Suma ∑ X=30 ∑ Y =180 ∑ XY =1000 ∑ X2=200 X = ∑ X n X = 30 6 X = 5 ← Media de los valores de la variable dependiente Y = ∑ Y n Y = 180 6 Y = 30 ← Media de los valores de la variable independiente De esta forma, β̂2 = 1000− 6 · 5 · 30 200− 6 · (5)2 = 1000− 900 200− 150 = 100 50 β̂2 = 2 β̂1 = Y − β̂2X = 30− 2 · 5 = 30− 10 β̂1 = 20 De esta forma, la recta de regresión muestral estimada es: Ŷ = 20 + 2 ·X 28 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Con esta ecuación en mano, el gerente de I+D de esta compañía puede predecir el promedio en ganancias futuras anuales a partir de la cantidad presupuestada de gasto en Investigación y Desarrollo. Por ejemplo, si la compañía presupuesta gastar 8 millones de dólares en I+D el próximo año, entonces debe ganar aprox- imadamente 36 millones de dólares durante este año. Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales queremos ver el impacto promedio del número de visitas en el valor de la empresa: vempresa visitas y-ybar x-xbar (y-ybar)*(x-xbar) (x-xbar)^2 ygorro ugorro AOL 134844 50 108787.6 30.6 3331621.0 937.9 98976.5 35867.5 Yahoo 55526 38 29469.6 18.6 548871.8 346.9 70403.7 -14877.7 Lycos 5533 28 -20523.4 8.6 -177014.1 74.4 46593.1 -41060.1 Cnet 4067 8 -21989.4 -11.4 250129.1 129.4 -1028.3 5095.3 Juno Web 611 8 -25445.4 -11.4 289441.1 129.4 -1028.3 1639.3 NBC Internet 4450 16 -21606.4 -3.4 72921.5 11.4 18020.3 -13570.3 Earthlink 2195 5 -23861.4 -14.4 343007.3 206.6 -8171.5 10366.5 El sitio 1225 2 -24831.4 -17.4 431445.1 301.9 -15314.7 16539.7 Promedio 26056.4 19.4 26056.4 0 Suma 5090422.9 2137.9 β1 2381.1 β2 -20076.8 29 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Utilizando estos datos tenemos: n∑ i=1 (Xi −X)2 = 2137,9 n∑ i=1 (Yi − Y )(Xi −X) = 5090422,9 β̂2 = 5090422,9 2137,9 = 2381,1 β̂1 = 26056,4− 2381,1 ∗ 19,4 = −20076,8 30 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.3.2. Supuestos detrás del método MCO En el análisis de regresión nuestro objetivo no es sólo obtener los valores de β̂1 y β̂2 sino también hacer inferencia sobre los verdaderos β1 y β2. Nos interesa saber que tan cerca están β̂1 y β̂2 de sus contraparte poblacional o que tan cerca esta Ŷi de la verdadera E(Y|Xi). La Función de regresión poblacional: Yi = β1+β2Xi+ui, nos muestra que Yi depende de Xi y ui. Así, los supuestos hechos para estas dos variables son fundamentales para lograr una interpretación válida de los valores estimados de la regresión. Mientras no se especi�que la forma como se generan Xi y ui, no hay forma de hacer inferencia estadística sobre Yi ni sobre β1 y β2. Supuesto 1: Modelo de regresión lineal, el modelo de regresión es lineal en parámetros: Yi = β1 + β2Xi + ui Supuesto 2: Los valores de X son �jos, X se supone no estocástica. Esto im- plica que el análisis de regresión es un análisis de regresión condicional, condicionado a los valores dados del regresor X. Supuesto 3: El valor medio del error ui es igual a cero. Dado el valor de X, el valor esperado del término de error ui es cero: E(ui|Xi) = 0 Lo que nos dice este supuesto es que los factores que no están considerados en el modelo y que están representados a través de ui, no afectan sistemáti- camente el valor de la media de Y. Es decir, los valores positivos de ui se cancelan con los valores negativos de ui. De esta forma, el efecto promedio de ui sobre Y es cero. Ver Figura 7. 31 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Figura 7: Distribución condicional del término de error ui Supuesto 4: Homocedasticidad o igual varianza de ui. Dado el valor de X, la varianza de ui es la misma para todas las observaciones: var(ui|Xi) = E[ui − E(ui)|Xi]2 = E(u2i |Xi) por supuesto 3 = σ2 En la Figura 8 podemos apreciar el signi�cado del supuesto de homocedas- ticidad, la variación alrededor de la recta de regresión es la misma para todos los valores de X. Esto implica que la función de densidad del término de error ui es la misma. Figura 8: Homocedasticidad 32 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Por el contrario, el la Figura 9 observamos el caso cuando la varianza del término de error varia para cada Xi, en este caso particular la varianza del error aumenta en la medida que Xi crece. Figura 9: Heterocedasticidad Esto se conoce como Heterocedasticidad o varianza desigual, lo que se expresa de la siguiente manera: var(ui|Xi) = σ2i (2.27) Supuesto 5: No existe autocorrelación entre los errores. Dado dos valores de X, Xi y Xj, con i 6= j, la correlación entre ui y uj es cero: cov(ui, uj|Xi, Xj) = E{[ui − E(ui)]|Xi}{[uj − E(uj)]|Xj} = E(ui|Xi)(uj|Xj) = 0 Si en la Función de regresión poblacional Yi = β1 + β2Xi + ui, ui esta correlacionado con uj, entonces Yi no depende solamente de Xi sino también de uj. Al imponer le supuesto 5 estamos diciendo que solo se considerará el efecto sistemático de Xi sobre Yi sin preocuparse de otros factores que pueden estar afectando a Y, como la correlación entre los u's. Supuesto 6: La covarianza entre ui y Xi es cero E(uiXi) = 0: cov(ui, Xi) = E[ui − E(ui)][Xi − E(Xi)] = E[ui(Xi − E(Xi)] por supuesto E(ui) = 0 = E(uiXi)− E(ui)E(Xi) por supuesto E(Xi) no estocastica = E(uiXi) por supuesto E(ui) = 0 = 0 33 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Como mencionamos en la sección 2.2.2 se supone que X y u tienen una in- �uencia separada sobre Y (determinísticay estocástica, respectivamente), ahora si X y u están correlacionadas, no es posible determinar los efectos individuales sobre Y. Este supuesto se cumple automáticamente si X es no estocástica y el supuesto 3 se cumple. Supuesto 7: El número de observaciones n debe ser mayor que el número de parámetros por estimar. El número de observaciones tiene que ser mayor que el número de variables explicativas, de otra forma no se puede resolver el sistema de ecuaciones. Supongamos que tenemos una sola obser- vación para nuestra variable dependiente y nuestra variable explicativa (Y1 y X1), el modelo de regresión es tal que tiene intercepto, es decir: Y1 = β1 + β2X1 + u1 el estimador MCO de β2 es : β2 = ∑ xiyi∑ x2i donde xi = Xi−X e yi = Yi−Y , sin embargo con una observación X1 = X e Y1 = Y , así β2 no esta determinado y así tampoco podemos determinar β1. Supuesto 8: Variabilidad en los valores de X. No todos los valores de X en una muestra deben ser iguales, var(X) debe ser un número �nito positivo. Si las X son las mismas ⇒ Xi = X, de esta forma ni β2 ni β1 pueden ser estimados. Supuesto 9: El modelo de regresión esta correctamente especi�cado. Esto es muy importante, ya que por ejemplo la omisión de variables impor- tantes en el modelo, o la elección de la forma funcional inadecuada, o la consideración de supuestos estocásticos equivocados sobre las variables del modelo, harán cuestionable la validez de la interpretación de la regresión estimada. (Aspectos que veremos más adelante). 34 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.3.3. Errores estándar de los Estimadores Mínimos Cuadra- dos Ordinarios Como vimos en la sección 2.3.1, los valores estimados para β1 y β2 dependen de los datos muestrales, sin embargo, los datos cambian de una muestra a otra y así los valores estimados también, por eso es necesario tener una medida que nos per- mita decir que tan cercano son los valores estimados a los valores poblacionales de los parámetros. La medida que utilizaremos para medir la precisión del estimador es el error es- tándar, que es la desviación estándar de la distribución muestral del estimador, la que a su vez es la distribución del conjunto de valores del estimador obtenidos de todas las muestras posibles de igual tamaño de una población dada. Recordemos el estimador MCO de β2: β̂2 = ∑ xiyi∑ x2i donde yi = β2xi+ui (modelo poblacional en desviaciones con respecto a la media). De esta forma reemplazando yi en el estimador de β2: β̂2 = ∑ xi(β2xi + ui)∑ x2i = β2 ∑ x2i∑ x2i + ∑ uixi∑ x2i = β2 + ∑ uixi∑ x2i Aplicando valor esperado a la expresión anterior: E(β̂2) = β2 + E (∑ uixi∑ x2i ) = β2 + (∑ E(ui)xi∑ x2i ) por supuesto 2 = β2 por supuesto 3 (2.28) La ecuación (2.28) nos dice que en valor esperado el estimador MCO de β̂2 es igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como insesgamiento. 35 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ahora procedamos a calcular la varianza de el estimador MCO de β2: var(β̂2) = E[β̂2 − E(β̂2)]2 = E(β̂2 − β2)2 = E ( [ ∑ xiui] 2 [ ∑ x2i ] 2 ) Por supuesto 4 E(u2i ) = σ2 y por supuesto 6 E(uiuj) = 0, esto implica que: var(β̂2) = σ2∑ x2i (2.29) 2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2 Ahora debemos estimar el parámetro poblacional σ2, como este corresponde al valor esperado de u2i y ûi es una estimación de ui, por analogía: σ̂2 = ∑n i=1 û 2 i n pareciera ser un estimador razonable. Pero los errores de MCO, están estimados imperfectamente si los comparamos con los errores poblacionales, ya que depen- den de una estimación de β1 y β2. Veamos esto con más detalle: Partiendo del Regresión poblacional expresado en desviaciones con respecto a la media: yi = β2xi + (ui − u) (2.30) y recordando también que: ûi = yi − β̂2xi (2.31) Al sustituir (2.30) en (2.31), se obtiene: ûi = β2xi + (ui − u)− β̂2xi Elevando al cuadrado la expresión anterior, aplicando sumatoria y tomando valor esperado: E (∑ û2i ) = E(β̂2 − β2)2 ∑ x2i + E [∑ (ui − u)2 ] ︸ ︷︷ ︸ (i) −2 E [ (β̂2 − β2) ∑ xi(ui − u) ] ︸ ︷︷ ︸ (ii) = var(β̂2) ∑ x2i + (n− 1)var(ui)− 2E [∑ xiui∑ x2i ∑ xi(ui − u) ] = σ2 + (n− 1)σ2 − 2σ2 = (n− 2)σ2 36 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile (i) E [∑ (ui − u)2 ] = E [∑ (u2i − 2uiu + u2) ] = E [∑ u2i − 2u ∑ ui + nu 2 ] = E [∑ u2i − 2u n n ∑ ui + nu 2 ] = E [∑ u2i − 2nu2 + nu2 ] = E [∑ u2i − nu2 ] = E [∑ u2i − n (∑ ui n )2] = nσ2 − n n σ2 = (n− 1)σ2 (ii) E [ (β̂2 − β2) ∑ xi(ui − u) ] = E [ (β̂2 − β2) ∑ xi(ui − u) ] = E [∑ xiui∑ x2i ∑ xi(ui − u) ] = E [ ( ∑ xiui) 2 ∑ x2i − u ∑ xiui ∑ xi∑ x2i ] = σ2 Por lo tanto se de�ne el estimador de la varianza σ̃2 como: σ̃2 = ∑ û2i n− 2 (2.32) De forma tal que, σ̃2 es un estimador insesgado de σ2: σ̃2 = 1 n− 2E (∑ û2i ) = σ2 37 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.4. Modelo de Regresión con k variables Ahora abandonemos la simpli�cación de solo usar dos variables, de ahora en ade- lante generalizaremos el modelo de regresión lineal para que pueda tener hasta k variables explicativas. Aclaración: haremos un cambio de notación, cada observación i de la variable dependiente será denotada por yi y cada observación i de una variable explicati- va, por ejemplo X1, será denotada por x1i. Ahora las variables en minúscula no signi�ca que estén en desvíos. El Modelo de Regresión Poblacional en este caso es: yi = β1 + β2x2i + β3x3i + ... + βkxki + ui i = 1, ..., n 2.4.1. Representación Matricial del Modelo de Regresión Lineal El modelo con k variables explicativas puede ser expresado en notación matricial. En efecto, cada variable explicativa xj, con j=1,..., k, es un vector columna de dimensión n, al igual que la variable dependiente y el término de error. De este modo, el modelo puede ser reescrito de la siguiente forma: y1 y2 ... yn = 1 1 ... 1 β1 + x21 x22 ... x2n β2 + x31 x32 ... x3n β3 + ... + xk1 xk2 ... xkn βk + u1 u2 ... un Donde las variables explicativas se pueden agrupar en una sola matriz de dimen- sión n×k, que denotaremos simplemente como X, de esta manera el modelo se expresa de la siguiente forma: y1 y2 ... yn = 1 x21 x31 · · · xk1 1 x22 x32 · · · xk2 ... ... ... . . . ... 1 x2n x3n · · · xkn · β1 β2 ... βk + u1 u2 ... un ⇒ Y = Xβ + u(2.33) donde Y es un vector de dimensión n×1, X es la matriz de variables explicativas de dimensión n×k y u es un vector correspondiente al término de error con di- mensión n×1. 38 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ahora debemos expresar la distribución del término de error en términos ma- triciales: E(u) = E(u1) E(u2) ... E(un) = 0n×1 E(uu′) = E(u21) E(u1u2) · · · E(u1un) E(u2u1) E(u 2 2) · · · E(u2un)... ... . . . ... E(unu1) E(unu2) · · · E(u2n) = σ2 0 · · · 0 0 σ2 · · · 0 ... ... . . . ... 0 0 · · · σ2 = σ 2 I n×n De los supuestos 3, 4 y 5, tenemos entonces que el término de error tiene la siguiente distribución: u ∼ ( 0 n×1 , σ2 I n×n ) (2.34) 2.4.2. Estimador Mínimo Cuadrados Ordinarios El método de MCO, plantea que los parámetros del modelo pueden ser estimados minimizando la suma de los errores al cuadrado (SE(β̂)), la que en términos matriciales equivale a: SE(β̂) = n∑ i=1 û2i = û ′û donde û = Y −Xβ̂. Entonces el problema de minimizar la suma de los errores al cuadrado se expresa de la siguiente forma: mı́n β̂ SE(β̂) = mı́n β̂ [ (Y −Xβ̂)′(Y −Xβ̂) ] = mı́n β̂ [ Y ′Y − 2β̂′X ′Y + β̂′X ′Xβ̂ ] ∂SE(β̂) ∂β̂′ = −2X ′Y + 2X ′Xβ̂ = 0 ⇒ β̂ = (X ′X)−1X ′Y (2.35) 39 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile De (2.35) tenemos:X ′(Y −Xβ̂) = 0 ⇒ X ′û = 0 (2.36) (2.36) es la condición de ortogonalidad. De esta forma, el vector de parámetros estimados β̂ se obtiene de resolver el siguiente sistema de ecuaciones normales: X ′Xβ̂ = X ′Y ⇔ 1 1 1 · · · 1 x2,1 x2,2 x2,3 · · · x2,n x3,1 x3,2 x3,3 · · · x3,n ... ... ... . . . ... xk,1 xk,2 xk,3 · · · xk,n 1 x2,1 x3,1 · · · xk,1 1 x2,2 x3,2 · · · xk,2 1 x2,3 x3,3 · · · xk,3 ... ... ... . . . ... 1 x2,n x3,n · · · xk,n β̂1 β̂2 β̂3 ... β̂k = 1 1 1 · · · 1 x2,1 x2,2 x2,3 · · · x2,n x3,1 x3,2 x3,3 · · · x3,n ... ... ... . . . ... xk,1 xk,2 xk,3 · · · xk,n y1 y2 y3 ... yn ⇔ n ∑n i=1 x2,i ∑n i=1 x3,i · · · ∑n i=1 xk,i∑n i=1 x2,i ∑n i=1 x 2 2,i ∑n i=1 x2,ix3,i · · · ∑n i=1 x2,ixk,i∑n i=1 x3,i ∑n i=1 x3,ix2,i ∑n i=1 x 2 3,i · · · ∑n i=1 x3,ixk,i... ... ... . . . ...∑n i=1 xk,i ∑n i=1 xk,ix2,i ∑n i=1 xk,ix3,i · · · ∑n i=1 x 2 k,i β̂1 β̂2 β̂3 ... β̂k = ∑n i=1 yi∑n i=1 yix2,i∑n i=1 yix3,i...∑n i=1 yixk,i Es importante recordar que el estimador MCO esta de�nido solo cuando la matriz (X'X) es invertible, lo que ocurre siempre y cuando: 1. Las k columnas de la matriz X sean linealmente independientes. 2. Se disponga al menos de tantas observaciones como variables explicativas, es decir: n≥ k.(Supuesto 7) Pongamos atención en el segundo supuesto, cuando n=k la matriz X tiene dimen- sión k×k, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de esta forma (X ′X)−1 = X−1(X ′)−1 y por lo tanto: β̂ = (X ′X)−1X ′Y = X−1(X ′)−1X ′Y = X−1Y (2.37) 40 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile el vector de residuos û = Y −Xβ̂ = Y −X(X−1Y ) = Y − Y = 0n, de esta forma el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual forma toma el mínimo valor posible, cero. Sin embargo, esta no es una característica deseable, el ajuste perfecto ocurre porque tenemos una muestra muy reducida. Esto trae como consecuencia poco robustez e imprecisión en las estimaciones. Si escogemos una nueva muestra, del mismo tamaño que la anterior, obtendremos otro estimador β̂ con suma residual 0, que puede diferir en forma arbitraria del anterior. Para lograr estimaciones precisas de los parámetros, es necesario tener un número de observaciones notablemente superior al de las variables explicativas. La difer- encia n-k se conoce como el número de grados de libertad de la estimación. 2.5. Propiedades del estimador MCO Notemos que el vector β̂ es un vector aleatorio, ya que depende del vector de errores: β̂ = (X ′X)−1X ′Y = (X ′X)−1X ′(Xβ + u) = β + (X ′X)−1X ′u (2.38) E(β̂) = E(β) + E[(X ′X)−1X ′u] = β + (X ′X)−1X ′E(u) La esperanza de β es el mismo parámetro, ya que este es un constante (valor poblacional), y por supuestos 2 y 3 el segundo término de la expresión anterior es cero, ⇒ E(β̂) = β (2.39) Es decir, el estimador MCO es insesgado, tal como lo habíamos mostrado en la ecuación (2.28). De (2.38) podemos de�nir el error de estimación o sesgo como: β̂ − β = (X ′X)−1X ′u 41 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Ahora calculemos la varianza de β̂: var(β̂) = E[(β̂ − E(β̂)) · (β̂ − E(β̂))′] = E[(β̂ − β) · (β̂ − β)′] = E[(X ′X)−1X ′uu′X(X ′X)−1] = (X ′X)−1X ′E(uu′)X(X ′X)−1 = (X ′X)−1X ′(σ2In)X(X ′X)−1 = σ2(X ′X)−1 (2.40) Para poder estimar la varianza de β̂ necesitamos reemplazar σ2 en (2.40) por su estimador insesgado: σ̃2 = u′u n− k 2.5.1. Propiedad de mejor estimador lineal insesgado Se dice que β̂, es el mejor estimador lineal insesgado (MELI) de β si se cumple lo siguiente: 1. El lineal, es decir, es una función lineal de una variable aleatoria, como la variable y en el modelo de regresión. 2. Es insesgado, es decir, su valor esperado, E(β̂), es igual a el verdadero valor, β. 3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un estimador insesgado como varianza mínima es conocido como un estimador e�ciente. 2.5.2. Teorema de Gauss-Markov Proposición: El estimador MCO es el estimador lineal insesgado óptimo, en el sentido de que cualquier otro estimador lineal e insesgado tiene una matriz de co- varianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI. Demostración: Sea β̃ = Ãy un estimador lineal de β, donde à es una matriz 42 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile k×n. Denotemos A = Ã− (X ′X)−1X ′, de modo que: β̃ = [A + (X ′X)−1X ′]Y = [A + (X ′X)−1X ′](Xβ + u) = AXβ + β + [A + (X ′X)−1X ′]u Aplicando esperanza a la expresión anterior: E(β̃) = AXβ + β + [A + (X ′X)−1X ′]E(u) = AXβ + β El estimador β̃ será insesgado solo si la matriz A es tal que AX=0k×k. De esta forma: β̃ = β + [A + (X ′X)−1X ′]u y su matriz de covarianza será: cov(β̃) = E[(β̃ − β)(β̃ − β)′] = E{([A + (X ′X)−1X ′]u)([A + (X ′X)−1X ′]u)′} = σ2AA′ + σ2(X ′X)−1︸ ︷︷ ︸ cov(β̂) Como la matriz AA′ es semide�nida positiva, se concluye la diferencia entre la covarianza de β̃ y β̂ es una matriz semide�nida positiva, con lo que la covarianza de β̃ es mayor o igual a la covarianza de β̂ 43 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.6. Geometría del Estimador MCO Recordemos que el modelo de regresión muestral tiene la siguiente expresión: Y = Xβ̂ + û la que puede ser reescrita de la siguiente forma: Y = PY + MY (2.41) donde P se denomina matriz de proyección y se de�ne de la siguiente manera: P = X(X ′X)−1X ′ Además se tiene que M=I-P. De acuerdo a la ecuación (2.36) el estimador MCO es tal que los errores son ortogonales a las X, es decir se deben escoger los parámet- ros β de forma tal que el vector de errores sea ortogonal al espacio formados por las variables explicativas. Así, el estimador MCO nos permite descomponer Y en dos términos ortogonales entre si: el primer componente puede ser escrito como una combinación lineal de las columnas x y el segundo es un componente ortogonal a X (el término de error), tal como lo muestra (2.41). Esto se representa grá�camente en la Figura 10. Col X Y MY PY 0 Figura 10: Descomposición Ortogonal de Y x1 x2 El término PY alternativamente se puede ver como la proyección de Y en el espacio barrido por las X's y MY como la proyección de Y es el espacio ortogonal a las X's. 44 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.7. Bondad de Ajuste y Análisis de Varianza El objetivo de esta sección es introducir un criterio de ajuste de nuestra regre- sión, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo a la muestra. En principio, podríamos pensar que la suma de los residuos cuadrados, es de- cir, nuestro criterio original de ajuste, es una buena opción: a menor sea éste, mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puede ser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el fac- tor de escala deseado, lo cual invalida su uso como criterio de ajuste. Por ello, se ha desarrollado un criterio que elimine el problema anterior. Di- cho estadístico ya no se basará en la magnitud de un valor (como la suma de los cuadrados de los residuos), sino que intentará preguntarse si la variación de las variables independientes (X) explica la variación de la variable independi- ente, como veremos más adelante. Para ello analizaremos con un poco más de profundidad el modelo de regresión lineal en desvíos con respecto a la media y presentaremos la llamada descomposición de varianza (o análisis de varianza), ambos, insumos fundamentales para obtener nuestro estadístico de bondad de ajuste. 2.7.1. Modelo de Regresión Lineal en Desvíos Sea el modelo poblacional usual con k variables: yi = β1 + β2x2i + β3x3i + · · ·+ βkxki + ui (2.42) donde i = 1 . . . n y cuya contraparte estimada es: yi =β̂1 + β̂2x2i + β̂3x3i + · · ·+ β̂kxki + ûi (2.43) Luego, si sumamos para todas las observaciones y dividimos a ambos lados por el tamaño muestral n, tenemos: Ȳ = β̂1 + β̂2x̄2 + β̂3x̄3 + · · ·+ β̂kx̄k (2.44) por lo cual: β̂1 = Ȳ − β̂2x̄2 + β̂3x̄3 + · · ·+ β̂kx̄k (2.45) 45 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile La ecuación (2.45) muestra que el término independiente de una regresión queda determinado por el resto de los k-1 coe�cientes involucrados. Finalmente, note que restando las ecuaciones (2.43) y (2.44) obtenemos: yi − Ȳ = β̂2(x2i − x̄2) + β̂3(x3i − x̄3) + · · ·+ β̂k(xki − x̄k) + ûi (2.46) la cual es una expresión similar a (2.43), excepto por dos importantes diferencias. Primero, el modelo no posee constante y segundo, las variables se encuentran expresadas en desvíos con respecto a la media. A pesar de ello, note que los coe- �cientes y los residuos son los mismos en ambos modelos. De lo anterior surge un importante corolario respecto del término constante de nuestro modelo. En general, el interés del investigador se centra en el impacto de los regresores sobre la variable dependiente, por lo cual, el término constante no es más que una corrección que garantiza que los promedios muestrales de ambos miembros del modelo econométrico coincidan. Para transformar en desvíos con respecto a la media un modelo en términos ma- triciales, introduciremos una matriz fundamental para el análisis de esta sección. Denotaremos por M0 una matriz de n× n, de�nida como: M0 = I n×n −ii ′ n = 1 0 · · · 0 0 1 · · · 0 ... ... . . . ... 0 0 · · · 1 − 1 n 1 1 · · · 1 1 1 · · · 1 ... ... . . . ... 1 1 · · · 1 = 1− 1 n − 1 n · · · − 1 n − 1 n 1− 1 n · · · − 1 n... ... . . . ... − 1 n − 1 n · · · 1− 1 n donde I es la identidad (n×n) e i corresponde al vector unitario de dimensión n. Dicha matriz es singular, simétrica (M0'=M0) e idempotente (M0M0=M0). En general, M0 es conocida como matriz de desvíos, ya que resta a cada columna de la matriz involucrada, su media aritmética. Por ejemplo, es fácil comprobar que: M0Y = Y − 1 n ii′Y = y1 y2 ... yn − 1 n ∑n i=1 yi∑n i=1 yi...∑n i=1 yi = y1 − Ȳ y2 − Ȳ ... yn − Ȳ Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en tér- minos de desvío con respecto a la media como: M0Y = M0Xβ + M0u (2.47) 46 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.7.2. Análisis de Varianza Suponga entonces el siguiente modelo poblacional: Y = Xβ + u donde Y corresponde a una vector n× 1, X corresponde a nuestra matriz de re- gresores que incluye un término constante, tal que X es de n× k y u corresponde a nuestro vector de errores de n× 1. Buscamos entonces de�nir la variación de la variable dependiente (Suma de los cuadrados totales = TSS) como3: TSS = n∑ i=1 (Yi − Ȳ )2 (2.48) Para encontrar entonces una expresión para (2.48), de la ecuación (2.47) tenemos que nuestro modelo estimado en desvíos con respecto a la media es: M0Y = M0Xβ̂ + M0û con lo cual, al particionar nuestra matriz X en X = [i X2], nuestro vector de parámetros en β′ = [β1 β2] y considerando que M0i = 0 y que M0û = û, tenemos que: M0Y = M0iβ̂1 + M 0X2β̂2 + M 0û = M0X2β̂2 + û (2.49) Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadra- dos de las desviaciones de Y con respecto a su media), de la ecuación (2.48), multiplicamos por Y' la ecuación (2.49): Y ′M0Y = Y ′(M0X2β̂2 + û) = (Xβ̂ + û)′(M0X2β̂2 + û) = β̂′X ′M0X2β̂2 + β̂′X ′û + û′M0X2β̂2 + û′û Y ′M0Y = β̂2X ′2M 0X2β̂2 + û ′û (2.50) TSS = ESS + RSS (2.51) donde el segundo y el tercer término desaparecen gracias a que los residuos estima- dos son, por construcción, ortogonales a las variables explicativas 4. La igualdad 3Note que para dicha de�nición utilizamos los cuadrados de la desviaciones, ya que la suma de las desviaciones es siempre cero. 4Ya que X ′û = X ′(Y −Xβ̂) = X ′Y −X ′Y = 0. 47 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile anterior es conocida como la descomposición de varianza. El término de la izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se encuentra la variabilidad de las variables independientes o regresores y la variabil- idad de los errores. ¾Cuál es entonces el objetivo?: descomponer la varianza de la variable dependiente aquella parte que es explicada por la regresión (ESS) de aquella parte explicada por los residuos (RSS). ¾Por qué?: porque intuitivamente, la regresión se ajusta mejor si las desviaciones de Y se explican en su mayor parte por desviaciones de X y no por desviaciones de los residuos. 2.7.3. Bondad de Ajuste: R2 y R̃2 De�nimos entonces la bondad de ajuste del modelo a través del siguiente estadí- grafo llamado también coe�ciente de determinación: R2 = ESS TSS (2.52) es decir, como la proporción de la varianza de Y que es explicada por la varianza de la regresión. Alternativamente: R2 = 1− RSS TSS (2.53) Note que: 1. El coe�ciente de determinación es siempre menor a 1. Ello porque RSS ≤ TSS y por lo tanto RSS TSS ≤ 1. 2. El análisis de varianza anterior fue derivado bajo el supuesto que el modelo incluía una constante (por ello utilizábamos la matriz M0). En dicho caso, necesariamente R2 ≥ 0. En caso de que el modelo no incluya una constante, se debe utilizar la fórmula (2.5.2) utilizando TSS=Y'Y (sin desvíos). 3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá con- stante o aumentará) 4. No es claro cuan bueno sea como predictor de ajuste. Para ver este último punto, suponga que usted posee el siguiente modelo pobla- cional: Y = β1 + β2X + u 48 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile donde X es un vector (n× 1). Suponga ahora que restamos X a ambos lados de nuestro modelo. Obtenemos entonces: Y −X = β1 + γX + u Si β2 ≈ 1, entonces es fácil veri�car que el R2 del primer modelo será cercano a 1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos son matemáticamente equivalentes. A pesar de lo anterior, en trabajos aplicados, el R2 es ampliamente utilizado, por lo cual se recomienda su publicación. Retrocedamos ahora al punto tres. El nos dice que el coe�ciente de determinación probablemente crecerá al incluir regresores. Ello plantea incentivos a incluir re- gresores no relevantes para nuestro modelo, con el �n de obtener un mejor ajuste. ¾Porqué sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece (o en el mejor de los casos se mantiene), mientras que la TSS permanece constante. Por esta razón se creó el coe�ciente de determinación ajustado, el cual corrige el R2 original por los grados de libertad del numerador y el denominador. Entonces, de�nimos el R2 ajustado (R̃2) como: R̃2 = 1− û ′û/(n− k) Y ′MY/(n− 1) (2.54) o equivalentemente: R̃2 = 1− (1−R2) (n− 1) (n− k) (2.55) 49 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.8. Inferencia Una vez que hemos estimado nuestra regresión muestral, es necesario preguntarse cuan buena aproximación es dicha regresión de la poblacional. Para que la aprox- imación sea cercana, es condición necesaria que los parámetros incluidos en la regresión muestral sea estadísticamente distintos de cero (en caso contrario, no pertenecen a la regresión poblacional). Así, uno de nuestros objetivos puede ser el testear la signi�cancia individual de los parámetros. Pero lo anterior es sólo una de las preguntas que como investigadores podemos estar interesados en responder. Por ejemplo, en la estimación de la función de producción de una �rma, que asumimos Cobb Douglas (Y = AKαLβeu o en loga- ritmo ln Y = ln A+α ln K +β ln L+u), podemos estar interesados en descubrir si la �rma presenta rendimientosconstantes, crecientes o decrecientes a la escala, lo cual se re�ejará en que α + β > o ≤ 1. Por lo tanto, ello podría ser otra hipótesis interesante de plantearse. También podría ser interesante descubrir si todos los parámetros a la vez son distintos de cero, o de algún valor determinado. La gama de preguntas posibles respecto del valor de los parámetros es sólo aco- tada por la pregunta que el investigador desee responder. Nuestro objetivo es, por lo tanto, desarrollar los métodos de inferencia y contraste de hipótesis que nos permitan responder, en el contexto de una regresión muestral particular, las preguntas anteriores. Dos notas precautorias. En esta sección nos ocuparemos de restricciones o hipóte- sis lineales sobre los coe�cientes. Restricciones no lineales son más escasas en econometría aplicada y se desarrollan en contexto de un modelo particular. Se- gundo, en todo lo que se re�ere a este apartado, asumiremos que los errores de nuestra regresión muestral siguen una distribución normal (ya veremos porqué). Entonces, sea nuestro modelo poblacional Y = Xβ + u donde X es una matriz de (n × k),u e Y son vectores (n × 1) y β es vector de (k × 1). Sean entonces las siguientes hipótesis: 1. H0: βi = 0 ⇒ Plantea que el regresor Xi no posee in�uencia alguna sobre Y. Este es el test más común y nos referiremos a él como test de signi�cancia. 50 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2. H0: βi = βi0 ⇒ Plantea que el regresor Xi posee un impacto determinado por βi0 sobre Y. 3. H0: βi + βj=1 ⇒ Plantea que la suma de los regresores Xi y Xj poseen un impacto conjunto de magnitud 1. 4. H0: βi = βj ⇒ Plantea que los regresores Xi y Xj poseen el mismo impacto sobre Y. 5. H0: βi=0 ∀ i=2. . . k ⇒ Plantea que todos los regresores conjuntamente, excepto la constante, son cero. 6. H0: βl=0 donde el vector β ha sido particionado en dos (βl y βp) con di- mensiones (kl × 1) y (kp × 1) respectivamente, tal que kl + kp = k. Plantea entonces que un subconjunto de parámetros son estadísticamente no signi- �cativos. Todas las hipótesis anteriores pueden ser resumidas en la siguiente expresión: Rβ = r donde R es una matriz de (q× k) constantes conocidas (ceros o unos), cuyo obje- tivo será seleccionar los parámetros a testear, cuyo número de �las, q, representa el número de restricciones. A su vez, r es un vector de dimensión q y contiene el real al cual es restringido cada parámetro. Veamos como serán las matrices R y r en cada una de nuestras hipótesis: 1. R=[0. . . 010 . . . 0]; r=0; q=1 donde 1 se encuentra en la i-ésima posición 2. R=[0. . . 010 . . . 0]; r=βi0; q=1 donde 1 se encuentra en la i-ésima posición 3. R=[0. . . 010 . . . 010 . . . 0]; r=1; q=1 donde 1 se encuentra en la i-ésima posición y en la j-ésima posición. 4. R=[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1 donde 1 se encuentra en la i-ésima posición y en la j-ésima posición. 5. R=[0q×1 Ik−1]; r=0; q=k − 1 6. R=[0ki×kj Iki ]; r=0; q=ki 51 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Entonces, nuestra hipótesis nula corresponde a: H0 : Rβ = r (2.56) con lo cual, sólo nos resta derivar el test que nos permita rechazar o no rechazar nuestra nula. La construcción del estadígrafo es como sigue. Dado que MCO (bajo los supuestos relevantes) es insesgado, tenemos que E(β̂) = β, por lo tanto, E(Rβ̂) = Rβ, mientras que la varianza de Rβ̂ corresponde a V [Rβ̂] = E[R(β̂ − β)(β̂ − β)′R′] = RV ar(β̂)R′ = σ2R(X ′X)−1R′ Necesitamos aún un supuesto más para determinar la distribución muestral de nuestra nula. Dado que β̂ es función de u y u ∼ N(0, σ2), entonces β̂ ∼ N(β, σ2(X ′X)−1) y por lo tanto Rβ̂ ∼ N(r, σ2R(X ′X)−1R′), entonces: β̂ ∼ N [β, σ2(X ′X)−1] (2.57) y Rβ̂ ∼ N [Rβ, σ2R(X ′X)−1R′] (2.58) y si la nula Rβ = r es cierta: ∴ (Rβ̂ − r) ∼ N [0, σ2R(X ′X)−1R′] (2.59) luego estandarizamos, con lo cual: (Rβ̂ − r)√ σ2R(X ′X)−1R′ ∼ N [0, 1] (2.60) Además, se puede demostrar que (hacerlo)5: û′û σ2 ∼ χ2(n−k) (2.61) Luego, se puede demostrar que (hacerlo)6: (Rβ̂ − r)′[σ2R(X ′X)−1R′]−1(Rβ̂ − r) ∼ χ2q (2.62) 5Basta con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo cual x ∼ N(0, σ2I) y A corresponde a una matriz simétrica e idempotente de rango n, entonces 1 σ2 x ′Ax ∼ χ2n . Finalmente, recuerde que û = MY = Mu y que el rango de una matriz simétrica e idempotente es su traza. 6Basta con recorder que si el vector x, de dimensión n, es tal que x ∼ N(0, Σ), entonces, x′Σ−1x ∼ χ2n. 52 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile luego, combinando los dos resultados anteriores, se puede demostrar que (hacer- lo)7: [(Rβ̂ − r)′[R(X ′X)−1R′]−1(Rβ̂ − r)]/q û′û/(n− k) ∼ F(q,n−k) (2.63) El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test es de utilidad para testear cualquier hipótesis de la forma expuesta en (2.56). A continuación veremos subcasos de dicho test general. 2.8.1. Test t (Una hipótesis lineal) Reescribiendo el test F como: [(Rβ̂ − r)′[RV̂ ar(β̂)R′]−1(Rβ̂ − r)] ∼ F(q,n−k) y haciendo el reemplazo respectivo de R y r correspondientes a las hipótesis 1 o 2 (H0: βi = 0 = βi0), llegaremos a: F = (β̂ − βi0)2 V̂ ar(βi) ∼ F (1, n− k) (2.64) Recordando que t2 es una caso particular de una F con un grado de libertad en el numerador, tenemos que: t = β̂ − βi0√ V̂ ar(βi) ∼ tn−k (2.65) Lo anterior es conocido como el test t (test de signi�cancia) y en su versión más utilizada corresponde a t = β̂√ V̂ ar(βi) , donde se busca testear la hipótesis nula de que el parámetro es cero. El test t también cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0: βi+βj=1), el estadígrafo corresponderá a: t = β̂i + β̂j − 1√ V̂ ar(β̂i) + 2Ĉov(β̂i, β̂j) + V̂ ar(β̂j) ∼ tn−k (2.66) La distribución t es simétrica y se aproxima a la normal para tamaños de muestras 7Sólo un poquito de álgebra y recordar como se construye una distribución F(q, n-k) a partir de la división de dos χ2 con grados de libertad q en el numerador y n-k en el denominador. 53 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile grandes, sin embargo, la t posee colas más gruesas que la normal (lo cual es más pronunciado en muestras pequeñas: n≤30). La siguiente �gura expone la relación entre la distribución t y la normal: Distribución Normal Distribución t Probabilidad 0 Nota precautoria: Toda la derivación anterior se basa en el estricto supuesto de normalidad de los errores. En caso de que los mismos no distribuyan normal, la distribución del test F (y por lo tanto el del t) es desconocida en muestras �nitas. Sin em- bargo, es posible demostrar que t a∼ N(0, 1), es decir, que el test t distribuye asintóticamente normal. Luego, los valores críticos de t y Φ (normal estándar) se encuentran sumamente cerca si n-k≥30, por lo cual, en términos prácticos no importa mucho cual de ellas escojamos para los valores críticos (a menos que la muestra sea especialmente pequeña). Finalmente, nos queda examinar los criterios de rechazo del test y los niveles de con�anza. Como usted recordará de sus clases de estadística, lo anterior de- pende de como especi�quemos la hipótesis alternativa. A continuación, pasamos a revisar este punto. 54 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Criterio de Rechazo y Nivel de Con�anza Una vez que hemos calculado el valor del test para nuestra nula particular (o valor calculado), resta calcular el valor crítico o el valor que nos indica la tabla t. Dicho valor crítico nos dirá si nuestra nula es falsa o si no podemos a�rmar que lo es. La elección de dicho valor crítico se toma desde la tabla de distribución t y el número debe ser escogido tomado en cuenta el nivel de signi�cancia escogido (1%, 5% o 10%), el cual a su vez determina el nivel de con�anza del test (99%, 95% o 90%, respectivamente). El nivel de con�anza posee una explicación intuitiva: Nuestro estadígrafo esfunción de la muestra con lo que estamos traba- jando, por lo cual, si contáramos con una gran número de ellas y con cada una pudiésemos calcular nuestro estadígrafo, el nivel de con�anza indica el porcenta- je de veces que calculamos nuestro estadígrafo en que realmente no rechazamos lo cierto o rechazamos correctamente lo falso. La forma en que se distribuya la probabilidad de rechazo, es decir, el nivel de signi�cancia, depende de nuestra hipótesis alternativa. A continuación revisamos dicho asunto. Test de una cola Supongamos que nuestra hipótesis es: H0 : βi = βio H1 : βi > βio donde βi0 ∈ R. En dicho caso, el estadígrafo es calculado según lo propuesto en la sección anterior. El punto está en como acumulamos la probabilidad de rechazo. En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha de la distribución, como lo muestra la siguiente �gura8: 8¾Por qué en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de sig- ni�cancia, nos indica hasta donde puedo tolerar un valor mayor a βio, por lo cual, carecería de sentido que la zona de rechazo se encuentre en la cola izquierda de la distribución. Por ejemplo, si βio=0, la distribución de nuestro estadígrafo se centra en cero (vea la fórmula), por lo cual la hipótesis alternativa correspondería a que el parámetro es positivo. el punto es ¾cuán positivo puedo aceptar que sea?. 55 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Probabilidad No se Rechaza Se Rechaza (5%) por lo tanto, rechazaremos nuestra hipótesis nula de que el coe�ciente es cero contra la hipótesis alternativa que el parámetro es mayor que βio, si el valor cal- culado del test es mayor al valor crítico de la tabla t. En el caso que H1 sea que el parámetro es menor a βio, entonces la probabilidad de rechazo se concentra en la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor que el valor crítico de la tabla t. Test de dos colas Supongamos que nuestra hipótesis es: H0 : βi = βio H1 : βi 6= βio En este caso estamos repartiendo uniformemente la probabilidad de rechazo en ambas colas de la distribución como lo muestra la siguiente �gura (al 95% de con�anza): 56 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Probabilidad No se Rechaza Se Rechaza (2,5%) Se Rechaza (2,5%)) Por lo tanto, rechazaremos la nula si el valor calculado es en módulo mayor que el valor crítico de tabla. Note que en este caso, la probabilidad de rechazo se reparte un partes iguales en ambas colas. Ello se justi�ca en que la distribución t corresponde a una distribución simétrica. Error de Tipo I, Error de Tipo II, Tamaño y Potencia de un test Antes de continuar, veremos cuatro conceptos estadísticos importantes que nos indican características de nuestro test. 1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar la nula cuando es cierta. 2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar la nula cuando es falsa. 3. Tamaño del Test: Corresponde la probabilidad de cometer ETI. Se de�ne como el nivel de signi�cancia del test (α). 4. Potencia del Test: Corresponde a la probabilidad de rechazar la nula cuando es falsa. Se de�ne como Potencia =1-ETII. El óptimo para el investigador sería minimizar ambos tipos de errores y tener un test con un menor tamaño y mayor potencia posibles, sin embargo, note que el 57 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile tamaño del test y por lo tanto, el ETI, es una variable endógena al investigador, en tanto que él decide con que nivel de con�anza trabajar. Luego, el objetivo se transforma en, dado un nivel de con�anza, minimizar la ocurrencia de ETII. Intuitivamente, si usted escoge un nivel de signi�cancia pequeño (1%, por ejemp- lo), sus zonas de rechazo serán pequeñas, con lo cual, inevitablemente, la zona de no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII. P-value Otra forma alternativa al valor crítico de tabla para rechazar o no rechazar nues- tra nula, corresponde al uso de los llamados p-values, los cuales son reportados en cualquier paquete estadístico. El p-value (p) se de�ne como: p = p(tcalculado) = P (|Z| ≥ |tcalculado|) = 2(1− Φ(|tcalculado|)) (2.67) es decir, el p-value representa la probabilidad de que el valor crítico (t de tabla, en nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de signif- icancia exacto asociado a un resultado econométrico en particular. Por ejemplo, un p-value de 0.07 indica que un coe�ciente es estadisticamente signi�cativo en un nivel de 0.07 (o con un 93% de con�anza). Ejemplo: Suponga el siguiente Modelo de Regresión Lineal Simple: Yi = β1 + β2Xi + ui para i = 1, ..., N Además posee la siguiente información muestral de X e Y: Y 2 5 6 7 X 0 10 18 20 El estimador MCO de β1 y β2 es el siguiente: β̂ = [ β̂1 β̂2 ] = [ 4 48 48 824 ]−1 [ 20 298 ] = [ 2,1935 0,2338 ] La matriz de varianzas y covarianzas de β̂ es: V̂ (β̂) = σ̂2u(X ′X)−1 = 0,436 2 [ 4 48 48 824 ]−1 = [ 0,180866 −0,010536 −0,010536 0,000878 ] 58 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile Primero veamos el ajuste de este modelo, es decir, en que grado la variable x explica a la variable y, para lo cual calculemos el R2 y R2: R2 = 1− RSS TSS = 1− ∑4 i=1 û 2 i∑4 i=1(Yi − Y )2 = 1− 0,436 14 = 0,969 R 2 = 1− RSS/2 TSS/3 = 1− ∑4 i=1 û 2 i /2∑4 i=1(Yi − Y )2/3 = 0,953 Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el modelo incluye constante, el R2 se puede interpretar como la proporción de la variabilidad de la variable independiente que es explicada por la variabilidad de la variable dependiente, la que en este caso alcanza un 97%. Ahora veamos si estos parámetros estimados son signi�cativos a un 95% de con- �anza, para lo cual realizaremos un test t de signi�cancia a cada uno de ellos: 1. Test de signi�cancia de β̂1: H0 : β̂1 = 0 H1 : β̂1 6= 0 t = β̂1 V ar(β̂1) ∼ t2 De esta forma, el valor calculado para el estadístico t es: tc = 2,193548387√ 0,180866 = 5,157850523 El valor de tabla del estadístico t a un 95% de con�anza y con dos grados de libertad es 4,303. Probabilidad No se Rechaza Se Rechaza (2,5%) Se Rechaza (2,5%)) t(2)=4,303 t(2)=4,303 tc=5,158 59 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile De esta forma, se rechaza la hipótesis nula de que β̂1=0, y por lo tanto el parámetro estimado resulta ser estadísticamente signi�cativo. 2. Test de signi�cancia de β̂2: H0 : β̂2 = 0 H1 : β̂2 6= 0 t = β̂2 V ar(β̂2) ∼ t2 De esta forma, el valor calculado para el estadístico t es: tc = 0,233870968√ 0,000878 = 7,892762865 El valor de tabla del estadístico t a un 95% de con�anza y con dos grados de libertad es 4,303. Probabilidad No se Rechaza Se Rechaza (2,5%) Se Rechaza (2,5%)) t(2)=4,303 t(2)=4,303 tc=7,893 De esta forma, se rechaza la hipótesis nula de que β̂2=0, y por lo tanto el parámetro estimado resulta ser estadísticamente signi�cativo. 3. TAREA: Testee la siguiente hipótesis nula: H0 : β̂1 − β̂2 = 2 H1 : β̂1 − β̂2 6= 2 60 Capitulo 2: Modelo de Regresión Lineal Econometría I FACEA, Universidad de Chile 2.8.2. Test F (Conjunto de hipótesis lineales) Los casos 6. y 5. corresponden a un conjunto de hipótesis a testear. En el caso 5. correspondía a un subconjunto particular de parámetros, mientras que el caso 6. correspondía a la nula de que todos ellos eran cero, menos la constante. En dichos casos se aplica la fórmula del test F según la ecuación (2.63) y los criterios de rechazo siguen lo expuesto en la sección anterior. Sin embargo, en ambos casos podemos derivar expresiones alternativas para nue- stro test. Todas las pendientes del modelo son cero: En este caso, se puede demostrar que el test F puede expresarse como: F = ESS/(k − 1) RSS/(n− k) ∼ F(k−1,n−k) (2.68) o alternativamente,
Compartir