Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 4 Modelo Clásico de Regresión Lineal En las secciones anteriores hemos definido el modelo estadístico como aquel que incluye: ● un modelo probabilístico, ={ f x; ,∈} ● un modelo muestral, x= X 1, X 2, ... X n de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el problema consiste en sustituir la ignorancia sobre la función de probabilidad por la ignorancia respecto de los parámetros de la función de densidad f · que se escoge para describir el fenómeno de interés. En general, los datos recolectables no corresponden de manera precisa con la noción de la muestra observada de variables aleatorias independientes que está implícita en el uso del modelo muestral por varias razones. Primero, porque no necesariamente las muestras tienen las características que se requieren para hacer la inferencia. Por ejemplo, datos agrupados –que son muy comunes– corresponden típicamente al resultados de un muestreo estratificado. En series de tiempo no puede pensarse en que los datos correspondan a una muestra aleatoria simple porque hay dependencia temporal. Segundo, porque en muchos casos existen parámetros incidentales que complican la inferencia. Por ejemplo, cuando hay heterogeneidad en el tiempo o espacio y se debe incluir parámetros adicionales para capturar esa dimensión (p.e., datos nominales en presencia de inflación) Formalmente, se postula la existencia de un modelo adicional que da origen a los datos estadísticos (MGE) que aproxima, a veces de manera gruesa, el MGD que dió origen a los datos. La existencia de este modelo suplementario permite incluir no sólo la información de la muestra, sino otra que sea a-priori sobre el fenómeno. Exigiremos que para una variable aleatoria de interés y definida en S ,ℱ , P . el modelo MGE quede definido por y i=ii (4.1) donde i=E y i |℘ y es cualquier σ-álgebra que cumpla . Definido de esta℘ ℘ ⊆ ℱ manera, llamaremos parte sistemática a i y parte asistemática a i , donde se cumple que ambas partes son ortogonales entre sí, i⊥i . Analíticamente es importante que ambas partes sean ortogonales, porque de otro modo invalidaría la elección de . Note que al℘ definir el problema de este modo, el concepto de “error” es mucho más amplio que el que se le da en la interpretación clásica como el resultado de error de medición o en variables. 4.2 4.01 Lógica del modelo de regresión1 El modelo de regresión lineal será nuestra principal herramienta en este curso, aunque no la única. Una definición apropiada de regresión econométrica es: Regresión es una relación funcional entre dos o más variables correlacionadas que se obtiene de los datos y se usa para predecir una dada la(s) otra(s).2 y i= f x1 i , x2 i , ... , xk i ;i (4.2) Lo que estudiaremos es una técnica que nos permite seleccionar los parámetros que relacionan los condicionantes o “regresores” x con la variable de interés y . Existen otras herramientas para parametrizar la ecuación (4.2), algunas de amplia utilización en economía, que nosostros no vamos a estudiar en este curso por razones de tiempo. Por ejemplo, los métodos Bayesianos, no paramétricos, o semi no-paramétricos. Estudiaremos varias dimensiones del modelo de regresión lineal, incluyendo problemas de especificación, problemas de estimación de parámetros, testeo de hipótesis sobre los parámetros, y uso del modelo estimado para hacer predicciones condicionales. El modelo clásico de regresión lineal se basa en seis supuestos que vamos a revisar a fondo antes de derivar estimadores y distribuciones. 1. Forma funcional lineal 2. Rango completo de los regresores 3. Media condicional de los residuos cero 4. Residuos esféricos 5. Regresores no estocásticos 6. Residuos normales. Como veremos a lo largo de este capítulo, los primeros tres supuestos nos permiten obtener los estimadores de los parámetros, en tanto que los segundos tres supuestos nos permiten hacer inferencias, tests y proyecciones. 4.02 Análisis de los supuestos del modelo de regresión lineal 1 El primo de Charles Darwin, Francis Galton fue el primero en desarrollar y utilizar regresiones en el sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el que descubrió que las distintas generaciones tienden a parecerse más a sus ancestros lejanos que a sus padres (“Typical Laws of Heredity”, Nature, 15 (1877)). Galton llamó a la regresión reversión, lo que sugiere de mejor forma sus resultados. Su modelo fue extendido y mejorado por Karl Pearson y G. Udny Yule, sobre la base de la distribución normal multivariada. R.A. Fischer reformuló el modelo de regresión sobre la base del trabajo de Gauss que se refiere al método de método de mínimos cuadrados. 2 Websters Ninth New Collegiate Dictionary, Merriam-Webster Publishers, Spriengfield, MA. Pag 922. 4.3 Modelo lineal Un modelo es lineal si podemos escribir la relación entre x e y como: y i= x ii (4.3) donde α y β son parámetros constantes. Si el modelo analítico no es lineal, hay que linealizarlo (si es posible). Por ejemplo: Y i=AK i Li log Y i=logA log K i log Li (4.4) Note, sin embargo, que el modelo debe ser lineal en los parámetros, no en las variables. Por ejemplo, los siguientes modelos no lineales en las variables son lineales en los parámetros y pueden ser estimados mediante transformaciones simples de las variables. y i= 1 x i i y i= log xii (4.5) De esta manera, podemos escribir el modelo general como: y i=x i i (4.6) donde y es un vector con la variable de interés, x es una matriz con las variables que describen el fenómeno y es un vector de perturbaciones aleatorias que denota la distancia entre MGD y MGE. Escribimos la ecuación (4.6) de manera explícita: [ y1y2⋮yn]=[ x1 1 x1 2 ⋯ x1 j x2 1 x2 2 ⋯ x2 j ⋮ ⋮ ⋱ ⋮ xn 1 xn 2 ⋯ xn j][12⋮ j][ 1 2 ⋮ n ] (4.7) Para considerar la posibilidad que las variables aleatorias tengan media distinta de cero, incluimos un vector de 1 en la primera columna. 4.4 [ y1y2⋮yn]=[ 1 x1 1 x1 2 ⋯ x1 j 1 x2 1 x2 2 ⋯ x2 j ⋮ ⋮ ⋮ ⋱ ⋮ 1 xn 1 xn 2 ⋯ xn j][01⋮ j][ 1 2 ⋮ n ] (4.8) Regresores de rango completo El supuesto necesario es que el rango de x sea completo, x =k . Este supuesto es también llamado condición de identificación, ya que: y i=1 xi 12 x i 23 x i 3i x i 3= x i 2i ⇒ y i=1 xi 12 x i 23[ x i 2i]i y i=3 1 x i 1[23] x i 23ii (4.9) es decir, aunque es posible obtener un estimador de 23 no es posible identificar por separado los parámetros 2 y 3 . Evidentemente las variables económicas suelen tener bastante correlación entre sí, por lo que este problema se presenta con frecuencia en el trabajo empírico. Más adelante, cuando se discutan problemas de multicolinealidad, se abordará formalmente este tipo de fenómeno, su detección y su eventual corrección. Resulta evidente que rango completo requiere que xʹ =nx =k . No obstante, puede haber correlación imperfecta entre los regresores, lo que dificulta pero no impide la estimación de un modelo de regresión lineal y su uso para hacer proyecciones (este problema lo volveremos a estudiar en el Capítulo 5). Media condicional de los errores cero El supuesto de media cero de los errores es condicional en x . Es decir, E [i | x ]=0 . La intuición se relaciona directamente con la descripción del MGE discutido más arriba. Del supuesto anterior se derivan varios elementos que son importantes para entender qué hace y no hace el modelo de regresión lineal. • El supuesto no es E [i | x i]=0 . 4.5 • Si E [i | x ]=0 entonces E []=0 . Para probarlo, use la definición de densidadmarginal. • La presencia de la constante entre los regresores asegura que E [ | x ]=0 . • Si E [ | x ]=0 , entonces el modelo de regresión es una media condicional. Si, por el contrario, E [i | x ]≠ 0 , la regresión no es una media condicional, como se ve en la siguiente derivación. E [ y | x ]=E [ x | x ] = E [ x | x ]E [ | x ] = x (4.10) • Se cumple que cov [ x i ,i]=0 . Errores esféricos3 Para estudiar este supuesto es conveniente descomponerlo en dos partes. (a) Var [i | x ]= 2 es constante y, en particular, no depende de x . A esto se le llama homocedasticidad.4 La función cedástica es la que describe la incertidumbre asociada a los shocks o perturbaciones, . Homocedasticidad señala que dicha incertidumbre no depende de haber observado una realización particular de x . (b) Cov i , j | x =0 . A esto se le llama ausencia de correlación entre errores. Señala que observar una determinada perturbación o error no contiene información respecto del posible tamaño de otra perturbación. La matriz de covarianzas condicional de los errores es: E [ ' | x ]=[E [11 | x ] E [12 | x ] ⋯ E [1 n | x ]E [21 | x] E [2 2 | x ] ⋯ E [2 n | x ]⋮ ⋮ ⋱ ⋯E [n1 | x ] E [n 2 | x ] ... E [n n | x ]]=[ 2 0 ⋯ 0 0 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 2] (4.11) 3 "Like other occult techniques of divination, the statistical method has a private jargon deliberately contrived to obscure its methods from non-practitioners." - G. O. Ashley 4 Los términos hetero y homocedástico fueron acuñados por Karl Pearson en 1905 ("On the general theory of skew correlation and non-linear regression," Drapers' Company Res. Mem. Biometric Series). El término se deriva del griego skedastos , que significa “capaz de ser repartido de manera irregular”. 4.6 De manera sintética podemos escribir E [ ' | x ]= 2 I . Aplicando la descomposición de varianza se puede derivar la siguiente identidad: V []=E x [V [ | x ] ]V x [E [ | x ]] (4.12) es decir, la incertidumbre de la predicción hecha sobre la base de un modelo econométrico V x [ E [ | x ]] es menor que la incertidumbre de los datos V [ ] . Regresores no estocásticos Este supuesto señala que la única fuente de incertidumbre en el modelo estadístico está en la variable que se modela, y . Más precisamente, en los parámetros que describen la distribución f y , condicional en x . Otra manera intuitiva de entender este supuesto es observar que no se está haciendo un modelo de los regresores. En ese sentido, los regresores son variables “controlables” por el científico. Por ello, usualmente se dice que “los regresores son fijos en muestras repetidas”, queriendo decir que si el científico quisiera repetir el experimento –sacar otra muestra, en nuestro caso– la única fuente de incertidumbre sería el resultado del experimento, pero no la variación de los condicionantes. Si los regresores son controlables, entonces los supuestos anteriores son incondicionales. Este supuesto no es demasiado costoso, como se deducirá al estudiar las distribuciones asintóticas de los estimadores más adelante. Errores “normales” Esto quiere decir que los errores, condicionales en x, se distribuyen con distribución normal. En particular, i | x↝ N [0,2 I ] (4.13) ¿Por qué “normales”? La manera de entender esto es que el modelo no pretende ser una descripción 100% fiel del fenómeno, sino sólo una aproximación conveniente. Por ello, hay un “error”. Si las causas de este error no son sistemáticas, una normal es una buena descripción. Si son sistemáticas, el modelo está mal especificado, pues debería incluir dichas sistematicidades. 4.7 4.03 Representación gráfica de la regresión lineal Una manera simple de entender la relación entre la muestra, los supuestos y la regresión lineal se encuentra en las siguientes tres figuras. Para que resulte fácil de entender se ha reducido el problema a un modelo univariado y una muestra de dos observaciones, pero el principio es general y el mismo para cualquier tipo de modelo. En la Figura 4.1 se presenta una muestra de dos observaciones (los pares {y1, x1} y {y2, x2}). Figura 4.1 Las observaciones Pero recordemos que, respecto de y , el problema de observar determinados valores es esencialmente estocástico y, más específicamente, que hemos supuesto que las perturbaciones aleatorias siguen una distribución normal (supuesto 6). Por otro lado, estamos suponiendo que los condicionantes x son determinísticos (supuesto 5). La Figura 4.2 describe el rol que juegan ambos supuestos. Figura 4.2 La estocasticidad P(u) x1 x2 y1 y2 P(u) x1 x2 y1 y2 4.8 Nóte varios elementos importantes. Primero, la “forma” de la distribución en términos de dispersión es idéntica para cualquier observación de la variable aleatoria x (supuesto 4). Segundo, las observaciones de y no tienen por qué coincidir con el valor esperado de y condicional en x, basta con que estén en el rango de la distribución. Tercero, no hay incertidumbre respecto de cada observación de x. Finalmente, la regresión lineal describe la media condicional de y dado x , lo que gráficamente se ve como una recta (supuesto 1) que pasa por cada E [ y i | x ] , como se ver en la Figura 4.3. Figura 4.3 La regresión 4.04 Derivación del estimador de mínimos cuadrados5 En términos generales la idea subyacente en el método de mínimos cuadrados es extremadamente simple y consiste en tratar de aproximar la curva de regresión E [ y i ∣ x ] usando las observaciones contenidas en la muestra cometiendo el menor error posible. Es usual referirse a: • Modelo verdadero (poblacional) y i= x ii • Modelo muestral y i= x i i La idea del método de mínimos cuadrados es buscar el que minimiza el error cometido. Si el procedimiento está bien, convergerá a . No tiene sentido minimizar 5 El término Método de Cuadrados Mínimos fue acuñado por Adrien Marie Legendre (1752-1833), presentado en el apéndice de su libro Nouvelles méthods pour la determination des orbite des cométes (1803). Un tratamiento más completo del método apareció posteriormente en el libro de Gauss Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium de 1809. La disputa por la paternidad del método surgió porque Gauss afirmó que venía usándolo desde 1795. P(u) X1 X2 y1 y2 yi=xi E y1|x1 E y2|x2 4.9 un error particular, por lo que es conveniente usar la suma de errores. Como hay puntos por arriba y abajo de la recta poblacional, entonces es necesario minimizar la suma de errores al cuadrado. Estimador de mínimos cuadrados Definimos la suma de residuos al cuadrado de un modelo lineal –para algún 0 – como: ∑ i=1 n i |0 2 =∑ i=1 n y i−0 ' x i 2=|0 ' |0 (4.14) note que hemos usado el supuesto 1. En adelante omitimos el subíndice i salvo que sea confuso. El objetivo es minimizar la ecuación (4.14) escogiendo adecuadamente , es decir: min0 S 0=0 ' 0= y−0 ' x ' y−0 ' x = y ' y−0 ' x ' y− y ' x 00 ' x ' x 0 (4.15) Note que se ha usado el supuesto (3). Como sabemos de cálculo, minimizar la ecuación (4.15) requiere hacer que su derivada sea igual a cero: ∂ S 0 ∂ 0 =−2 x ' y2 x ' x 0=0 (4.16) La ecuación (4.16) –que en realidad es un sistema de ecuaciones– es llamada ecuación normal. Tomando la segunda derivada: ∂2 S 0 ∂0 ∂ 0 ' =2 x ' x (4.17) por lo tanto cualquiera sea el valor de , si x ' x es positiva definida el problema es una minimización. Si x es de rango completo (supuesto 2), su inversa existe y se puede obtener el estimador de mínimos cuadrados (ordinarios). =x ' x−1 x ' y (4.18) 4.10 Note que sólo hemos usado los primeros tres supuestos, pero no los segundos tres. Es decir, es posible obtenerun estimador del parámetro aún si no se cumplen estos últimos, porque ellos se refieren a la distribución del estimador. Propiedades interesantes de la solución De la ecuación (4.16) obtenemos 0=x ' x − x ' y=x ' x − y =−x ' . Si la matriz de regresores contiene una columna de unos se deduce 1. cada columna de x es ortogonal a los residuos. 2. la suma de los residuos es cero. 3. la regresión pasa por la media. 4. la predicción de y hecha sobre la base de fijar xP es insesgada, y=x p Vamos a usar repetidamente la siguiente matriz idempotente y simétrica: M = I− x x ' x −1 x ' (4.19) la que aplicada a y produce “los residuos de una regresión de y en x”, es decir: My= I −x x ' x−1 x ' y= y− x x ' x −1 x ' y= y−x = (4.20) Regresión particionada Supongamos que la regresión tiene dos grupos de variables, x1 y x2 . Entonces, las ecuaciones normales son: [ x1 ' x1 x1 ' x2x2 ' x1 x2 ' x2] [12]=[ x1 ' yx2 ' y] (4.21) de lo cual obtenemos: 4.11 1=x1 ' x1 −1 x1 ' y−x1 ' x1 −1 x1 ' x2 2 (4.22) De la ecuación (4.22) se desprenden varios resultados importantes: (1) Si x1 ' x2=0 , es decir si x1 y x2 son ortogonales, los estimadores pueden ser obtenidos de regresiones independientes. (2) Si x1 y x2 no son ortogonales, la omisión de x1 y x2 llevará a obtener estimadores sesgados. Usando las ecuaciones (4.21) y (4.22) y definiendo M1 como los residuos de la regresión hecha sólo con x1 obtenemos: x2 ' x1 x1 ' x1 −1 x1 ' y− x2 ' x1x1 ' x1 −1 x1 ' x2 2 x2 ' x2 2= x2 ' y x2 ' [ I −x1x1 ' x1 −1 x1 ' ] x2 2=x2 ' [I −x1x1 ' x1 −1 x1 ' ] y x2 ' M 1 x22=x2 ' M 1 y (4.23) Este es otro resultado importante, llamado el Teorema de Frisch-Waugh6: el estimador 2 describe la contribución marginal de x2 para explicar las variaciones de y , es decir neta de la contribución de x1 . Bondad de ajuste7 El objetivo del análisis de regresión es dar cuenta (explicar) de las variaciones de y . Es decir, la variación total de y : ∑ i y i−y 2 . Sea M 0=[ I− 1 n ii ' ] . Aplicada a y computa desviaciones con respecto a y . Entonces, la suma de cuadrados totales se puede escribir como y ʹ M 0 y . Así: y ' M 0 y= ' x ' M 0 x ' M 0 ' M 0 = ' x ' M 0 x ' (4.24) el lado izquierdo de la ecuación (4.24) corresponde a la suma total de cuadrados (SCT) en tanto que el primer término de lado derecho es la suma de cuadrados “explicados” 6 Frisch, R. and Waugh, F., 1933, “Partial time regressions as compared with individual trends”, Econometrica, 45, 939-53. 7 El término bondad de ajuste proviene de un artículo de Karl Pearson donde ya se expresan dudas respecto de su utilidad: "The 'percentage error' in ordinate is, of course, only a rough test of the goodness of fit, but I have used it in default of a better." “Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material”, Philosophical Transactions of the Royal Society of London (1895) Series A, 186, 343-414 4.12 por la regresión (SCE). El último término corresponde a la suma de residuos al cuadrado (SCR). Por ello, se define la bondad de ajuste como: R2= SCE SCT =1− SCR SCT =1− ' y ' M 0 y (4.25) El problema de R 2 es que si se añaden variables a la regresión, éste no puede reducirse. Por ello, se necesita una medida de ajuste que penalice el exceso de regresores. El R 2 ajustado es dicha medida: R2=1− ' /n−k y ' M 0 y/ n−1 (4.26) 4.05 Propiedades del estimador de mínimos cuadrados en muestra finita Las propiedades del estimador de mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el papel de los supuestos del modelo y su aplicabilidad en circunstancias prácticas. Adicionalmente, estudiaremos tanto el caso en que los regresores son estocásticos como determinísticos. Esto nos da cuatro casos de interés. En esta parte estudiaremos las propiedades del estimador de mínimos cuadrados en muestra finita, dejando el caso de muestra grande para la sección 4.08. El estimador de mínimos cuadrados de puede ser escrito como: =x ' x −1 x ' y =x ' x −1 x ' [ x ] = x ' x −1 x ' x x ' x −1 x ' = x ' x −1 x ' (4.27) Si los regresores son no estocásticos, entonces x ʹ x −1 x ʹ es una constante. Así, E [ ]= . El estimador es insesgado, independientemente de la distribución de los residuos. La matriz de varianzas y covarianzas de se puede obtener usando la ecuación (4.27) directamente: 4.13 V [ ]=E [ −E [ ] −E [ ] ' ] =E [ x ' x −1 x ' ' x x ' x −1] =x ' x −1 x ' E [ ' ] x x ' x−1 = 2x ' x −1 (4.28) La ecuación (4.28) señala que la varianza (incertidumbre con respecto) del estimador proviene tanto de la estocasticidad del problema –medido por la varianza de los errores– como de la variabilidad de los regresores. A mayor varianza de los residuos –es decir la parte no explicada— mayor es la imprecisión del estimador. A menor varianza de los regresores, mayor es la imprecisión del estimador. Una vez obtenida la varianza del estimador resulta directo demostrar que ésta es, además, mínima. La demostración es llamada teorema de Gauss-Markov. El procedimiento consiste en comparar la varianza del estimador de mínimos cuadrados con la de un estimador rival. Supongamos que existe otro estimador insesgado que es cualquier combinación lineal de las observaciones de la variable de interés: =cy . Como este estimador rival es insesgado, se debe cumplir E [ ]=E [cy ]= . Entonces: E [cy ]=⇒ E [cx c]=⇒ cx=I (4.29) es decir, cualquier combinación lineal es válida (lo que le da generalidad al teorema). Obtenemos ahora la varianza del rival: V [ ]=2 cc ' (4.30) Definimos la “distancia” entre ambos estimadores como Dy= − . Naturalmente se cumple que D=c− x ʹ x−1 x ʹ . Despejamos c y lo introducimos en la ecuación (4.30) para obtener: V [ ]=2 cc ' = 2[Dx ' x −1 x ' ][ Dx ' x−1 x ' ] ' = 2x ' x −12 DD' (4.31) 4.14 ya que Dx=0 y cx= I . Entonces, V [ ]=V [ ]DD' . Si D≠ 0 , la varianza del rival es mayor y, por lo tanto, el estimador de mínimos cuadrados es de mínima varianza. Así, cada estimador k es insesgado y de varianza mínima. Veamos ahora el caso en que los regresores son estocásticos, es decir, x no es fijo entre muestras. El truco para obtener las propiedades del estimador es primero obtener las propiedades condicionales en x y luego las propiedades no condicionales. Obtengamos el estimador de mínimos cuadrados condicional en x usando la ecuación (4.27): E [ | x]=x ' x−1 x ' E [ | x ]= (4.32) esta es la esperanza condicional. Usamos la ley de expectativas iteradas para obtener la esperanza incondicional del estimador: E [ ]=E x [E [ | x] ]=E x[ x ' x −1 x ' E [ | x ]]= (4.33) este resultado no depende de supuestos sobre la distribución de x sino sólo del supuesto 3 (no correlación entre regresores y errores). Computamos, también, la varianza incondicional. Sabemos que la varianza condicional es V [ | x ]= 2x ʹ x −1 . Por lo tanto, V [ ]=E x [V [ | x ]]V x [E [ | x ]] =E x [V [ | x ]] =E x [ 2x ' x−1] (4.34) Como resulta evidente, la varianza del estimador depende de la realización de la muestra. Pero, para una realización particular de la muestra, el estimador de mínimos cuadrados es el mejor estimador lineal insesgado (MELI). Luego la conclusión principal de Gauss-Markov no se altera. Caractericemos ahora la distribución del estimador de mínimos cuadrados. Debido a que hemos supuesto que los errores se distribuyen normales, entonces: | x N [ ,2 x ' x−1] (4.35) esta es unadistribución normal multivariada. Es decir, cada k se distribuye normal. 4.15 Este resultado proviene del supuesto 6. Sin éste, no podríamos hacer inferencia alguna en este contexto. Cuando los regresores no son estocásticos, ésa es exactamente la distribución del estimador. Cuando los regresores son estocásticos, esa es la distribución condicional del estimador. Como se ha supuesto que la distribución de los residuos es normal, la densidad conjunta queda descrita por la siguiente función de verosimilitud: ∏ i f x i ;=∏ i [2 2]−1 /2 e− i 2/ 22=2 2 −n 2 e [−' / 2 2] ⇒ log L ,2 ; xi= −n 2 log 2 2− 1 2 2 y i−x i ' y i−x i (4.36) Es evidente que maximizar la función de verosimilitud en este caso es equivalente a minimizar el segundo término que, a su vez, es una función de la suma de residuos al cuadrado. Entonces, el estimador de mínimos cuadrados es el de máxima verosimilitud y, por consiguiente, es MELI. Estimador de la varianza de los errores, 2 Para calcular la varianza del estimador de mínimos cuadrados de los parámetros de la ecuación (4.28) requiere conocer 2 . Ello no es usual. Un estimador natural usaría los residuos muestrales: 2= 1 n ∑i=1 n i 2 (4.37) Este no es el estimador adecuado, sin embargo. Consideremos: =My=M x =M (4.38) Así, la suma de residuos al cuadrado es ' = ' M , cuyo valor esperado es E [ ' | x ]=E [ ' M | x ] . Debido a que ' y ' M son matrices cuadradas, obtener el valor esperado anterior es equivalente a la esperanza de su traza. Pero, E [ tr ' | x]=E [ tr ' M | x ]=E [tr M ' | x ] (4.39) 4.16 como M es una función de x para un x dado, entonces E [ tr M ' | x ]= tr ME [ ' | x] =tr M 2 I = 2tr M = 2tr I n− x x ' x −1 x ' = 2[ tr I n−tr x x ' x −1 x ' ] = 2[n−k ] (4.40) Por ello, el estimador insesgado de la varianza de los errores es: 2= 1 n−k ∑i=1 n i 2 (4.41) En el Apéndice B se presenta un procedimiento en Gauss que hace estimaciones por mínimos cuadrados ordinarios, computando los estimadores y los estadígrafos asociados que hemos descrito en estas secciones. 4.06 Tests de hipótesis en el modelo multivariado Sea y i=x i i el modelo estimado. Buscamos un método de hacer cualquier tipo de hipótesis e inferencia sobre el conjunto de parámetros estimados. Una manera general de hacer tests para hipótesis lineales es expresar dichas hipótesis de la siguiente manera: R =q (4.42) donde R es una matriz de orden jxk y q es un vector de orden jx1 (prejuicios). El truco consiste en escoger de manera inteligente las matrices R y q. En términos generales, escribiremos: 4.17 r 1,1 1r1,2 2⋯r1,k k=q1 r 2,1 1r 2,2 2⋯r 2,k k=q2 ⋮ r j ,1 1r j ,2 2⋯r j , k k=q j (4.43) donde los r son los elementos de R. Note que hay k parámetros y j ecuaciones (j<k). Usaremos la estructura de la ecuación (4.43) para derivar los distintos tipos de tests y, posteriormente, sus distribuciones. Test de una hipótesis simple Supongamos que queremos testear j=2 . Usamos: R=[0,0,⋯ ,1, 0,⋯ ,0 ] q=2 (4.44) de esa forma, R escoge el parámetro j-ésimo. Test de una hipótesis de igualdad de parámetros Supongamos que queremos testear j= k . Es decir, j− k=0 . Escogemos: R=[0,0 ,⋯,1 ,−1,⋯,0] q=0 (4.45) Test de varias hipótesis sobre parámetros Supongamos que queremos testear si las siguientes hipótesis se cumplen j=1 y k=−4 . Escogemos: R=[0,0,⋯,1,0,⋯00,0,⋯,0,1,⋯0] q =[1−4] (4.46) Note que ahora hay dos filas en q (j=2). Test de varias hipótesis sobre varios parámetros 4.18 Supongamos que queremos testear si las siguientes hipótesis se cumplen j=1− i y k= . Escogemos: R=[0,0,⋯,1,1,0,⋯00,0,⋯, 0,0,1,⋯0] q =[1] (4.47) Note que también hay dos filas en q (j=2). Ya sabemos cómo escribir cualquier grupo de hipótesis lineales en términos de R =q . ¿Cómo hacemos un test estadístico? ● La intuición es que si n→∞ , entonces sería fácil comparar directamente R =q ● Pero, n es finito. Por ello, aún si R ≠q en términos numéricos, estadísticamente podrían ser iguales. Hagamos el clásico test para la hipótesis nula H 0 : R −q=0 : R −q Var R −q (4.48) La intuición del test es directa. Si la distancia R −q es “grande” entonces R ≠q y se rechaza Ho. En la ecuación (4.48) hay dos cosas que no conocemos: (1) Var R −q y (2) la distribución del test. Estudiamos primero la varianza. Aplicando las propiedades de este operador al test: Var R −q=Var R =RVar R ' =R 2 x ' x −1R ' =2 R x ' x −1R ' (4.49) 4.19 Estudiemos ahora la distribución del test en la ecuación (4.48). Note que R y q son constantes. Por ello, el numerador es una función de los errores normales ( es una combinación lineal de errores) y por lo tanto es N 0,2 R x ' x −1R ' . Pero, estamos dividiendo por 2 R x ' x −1R ' , es decir, la distribución es N(0,1). Como usualmente la varianza de los errores es desconocida, usamos el estimador de ésta y, por lo tanto, estamos dividiendo por algo que es estocástico. Pareciera que obtener la distribución es algo directo. El problema es que queremos la distribución de la razón y no la distribución del numerador y del denominador por separado. Excepto que éstos sean “independientes”. ● Note que es una combinación lineal de del tipo L . Ello, porque − =x ' x −1 x ' . ● Note que 2 es una combinación lineal de del tipo xAx . Ello, porque i ' i=i ' M i . Para que ambos términos sean independientes, la combinación lineal de ellos debe ser ortogonal. Es decir, LA=0 . Es decir, x ' x −1 x ' M=0 , que obviamente se cumple. Así, debido a que k se distribuye normal, el test de la hipótesis nula de un único parámetro es directamente: z k= k−k 2 Skk ↝N 0,1 (4.50) Cuando la varianza de los residuos es desconocida demostraremos que tenemos una normal estándar dividida por una χ² ajustada por grados de libertad. Usamos el estimador de la varianza de la ecuación (4.41). Entonces, dividimos la ecuación (4.50) por la raíz del estimador para obtener: t k= k−k/ 2 Skk n−k 2/ 2 /n−k = k−k Skk 2 ↝ t n−k (4.51) Así, el reemplazo de la verdadera varianza por su estimador produce una distribución t. La demostración es la siguiente. Conocemos la distribución de 4.20 k−k/2 Skk pero queremos k−k/ 2 Skk . Luego tenemos que multiplicar y dividir por 2 . Reacomodando los términos queda: k−k/ 2S kk 2 / 2 (4.52) De acuerdo a la ecuación (4.50), el numerador es normal estándar. El denominador es “algo”. 2= ' n−k ⇒ n−k 2= ' = ' M (4.53) Ahora, dividimos por 2 convenientemente n−k 2 2 = ' M 2 ⇒ [ ]' M [ ] (4.54) Note que se distribuye normal con media cero, por lo que / es N(0,1) y la ecuación (4.54) es el “cuadrado” de una normal estándar, por lo que se distribuye χ². Los grados de libertad son el rango de M que es (n-k). Así es que tenemos una N(0,1) dividido por una χ². Si queremos el test t debemos ajustar el denominador por los grados de libertad. Cuando se trata de una hipótesis compleja, usamos directamente el test de Wald de la siguiente forma: [R −q ]' 2R x ' x −1R ' −1[R −q ]↝ J 2 (4.55) la distribución es más bien obvia. Obtener los grados de libertad del test (J) se deja de ejercicio. Nuevamente, tenemos el problema que 2 es desconocida. Se usa el estimador de la ecuación (4.41) por lo que seobtiene el siguiente test que tiene la distribución de Fischer. [R −q ] ' R x ' x −1 R ' −1[R −q ] / J ' /n−k ↝ F J ,n−k (4.56) 4.21 La intuición es de nuevo directa. Si R −q es “grande” entonces R ≠q y se rechaza Ho. 4.07 Tests de hipótesis y modelo restringido Otra manera de pensar un test de hipótesis es en términos de “restricciones impuestas”. Supongamos que en vez de hacer el test, imponemos directamente la hipótesis nula y hacemos la regresión. Habrán dos resultados posibles: (1) la restricción que hemos impuesto si afecta la estimación, cambiando los parámetros estimados y (2) la restricción que hemos impuesto no afecta la estimación. ¿Dónde se reflejaría más fácilmente el efecto? Obviamente en los parámetros que no hemos restringido, pero sería dificil de evaluar. Más fácil de evaluar es el efecto sobre la suma de residuos al cuadrado, ' . Si ponemos una restricción y afectamos la estimación, tendremos que estar cometiendo “más errores” que sin dicha restricción, porque la estimación sin restricción es la óptima min ' . Por otro lado, si ponemos una restricción y no afectamos la estimación, entonces la restricción ya se cumplía y no estaremos cometiendo “más errores” que sin dicha restricción. Si llamamos * ' * a los errores de la regresión con la restricción impuesta, entonces: • ' =* ' * señala que la estimación con y sin restricciones son iguales. • ' * ' * señala que la estimación con y sin restricciones son distintas. ¿Qué son ' y * ' * ? = y−x *= y−x * (4.57) Por lo tanto: *=x −x *=−x *− (4.58) de lo que se desprende * ' *= ' − ' x *− − *− ' x ' *− ' x ' x *− = ' *− ' x ' x *− (4.59) 4.22 Si queremos entender la ecuación anterior tenemos que estudiar − * . Para ello, vamos a pensar de nuevo en el problema de optimización. Vamos a buscar * tal que sea óptimo bajo H 0 . Es decir, min y−x ' y−x sujeto a H 0 :R =q (4.60) formamos el Lagrangeano, ℒ = y−x ' y−x −2R −q (4.61) derivando, obtenemos ∂ℒ ∂ =−2x ' y2x ' x −2R ' =0 ∂ℒ ∂ =−2R −q =0 (4.62) de la primera ecuación normal obtenemos * . Premultiplicamos por R x ' x −1 y obtenemos: −2R x ' x −1x ' y2Rx ' x −1x ' x *−2R x ' x −1 R ' =0 (4.63) Note que el primer término es −2R y el segundo es −2R * . Entonces, =[R x ' x −1 R ' ]−1 R *−q (4.64) De vuelta en la ecuación (4.62) despejamos: *= x ' x −1 R ' [R x ' x −1 R ' ]−1R −q (4.65) pero *=Rβ−q . Usando la ecuación (4.62) en la ecuación (4.58), obtenemos * ' *= ' *− ' x ' x *− = ' R −q ' x ' x R −q (4.66) 4.23 pero esto ya lo conocemos. Así, * ' *− ' =R −q ' x ' x R −q (4.67) Por ello, el test F que usamos para evaluar hipótesis complejas puede ser escrito como: [ * ' *− ' ] / J ' / n−k ↝ F [ Jn−k] (4.68) La ecuación (4.68) tiene una interpretación de gran importancia para la manera como entendemos el análisis cuantitativo en economía. Hemos demostrado que hacer un test respecto de uno o más parámetros es exactamente equivalente a hacer una comparación de dos modelos, uno restringido y uno sin restringir. Si las restricciones son válidas, el modelo restringido es una mejor descripción del fenómeno, en el sentido que es más eficiente en la descripción de éste. Note que dividiendo el denominador y numerador por ∑ i=1 n y i−y 2 obtenemos: [ R2−R2* ] / J 1−R2/ n−k ↝ F [ Jn−k ] (4.69) lo que no es de extrañar por cuanto existe una relación directa entre estimadores de parámetros y bondad de ajuste. Recuerde que el estimador minimiza la SRC y la bondad de ajuste se define como R2=1−SRCSCT . 4.08 Propiedades del estimador de mínimos cuadrados en muestra grande Ahora vamos a obtener las propiedades asintóticas de los estimadores mínimos cuadrados. Hay dos razones para ello: primero, saber cuándo las propiedades de muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores no convencionales. 4.24 Vamos a suponer que limn →∞ 1 n x ' x=Q pos.def. ● Cuando x es no estocástico el supuesto es obvio. ● Cuando x es estocástico, el supuesto se va a referir al tipo de muestra (volveremos a esto más adelante). El estimador de mínimos cuadrados puede ser escrito como: =[ 1n x ' x] −1 [ 1n x ' ] (4.70) Tomando plim y suponiendo que Q−1 existe: plim = Q−1 plim[ 1n x ' ] (4.71) Para encontrar plim del segundo término, definimos una variable auxiliar w: 1 n x ' = 1 n∑i x i i= 1 n ∑i w i=w (4.72) Tomemos E[ w ]= 1 n ∑i E [w i ]= 1 n ∑i x i E[i ]=0 . Tomemos V [w ]=E [w w ' ]= 1 n x ' E [ ' ] x 1 n = 2 n x ' x n . Así, limn→∞ V [ w ]=0⋅Q=0 Por lo tanto, w converge medio cuadráticamente a cero, plim w=0 , plim1/n x ' =0 , y plim = . Es decir, el estimador de mínimos cuadrados es consistente. El supuesto plim 1 /n x ʹ x=Q es, en realidad, demasiado restrictivo. Las siguientes condiciones –llamadas condiciones de Grenander– son menos restrictivas pero suficientes. 4.25 1. Para cada columna de x , limn→∞ x k ' x k=∞ (no degenera a una secuencia de ceros o cada observación añade información útil para la estimación de los parámetros) 2. limn→∞ x ik 2 x k ' x k =0 (ninguna observación domina la varianza promedio y, por lo tanto, no hay dominancia de un valor extremo). 3. La matriz x es de rango completo. Distribución del estimador cuando los regresores son no estocásticos Hemos visto que existe si se cumplen las condiciones de Grenander pero ¿cómo se distribuye el estimador? Tomemos de nuevo la ecuación (4.70), la que podemos re-escribir como: n − =[ 1n x ' x ] −1 [ 1 n x ' ] (4.73) Recordemos nuestros rudimentos de teoría asintótica de las clases anteriores: el lado izquierdo es conocido (Teorema de Límite Central). Estudiamos el lado derecho. • Como la inversa es una función continua de Q, limn →∞ [ x ' xn ] −1 =Q−1 . • Estudiar la distribución límite de la ecuación (4.73) es equivalente a estudiar la distribución límite de ( 1 / n x ʹ ), es decir: 1 n x ' =n w−E w (4.74) pero ya sabemos que E [ w ]=0 , sólo interesa la distribución límite de n w . Pero de la ecuación (4.72) sabemos que w es el promedio de n vectores aleatorios del tipo x i i con media cero y varianza: V [ x i i]= 2 xi ' x i= 2Qi (4.75) 4.26 por lo que V [n w ]= 2 Q=2 1n [ Q1Qn ] = 2 1n∑i x i ' x i= 2x ' xn (4.76) en el límite de muestra grande se obtiene limn→∞ 2 Qn= 2 Q (de nuevo, no hay dominancia). Finalmente, podemos usar el Teorema de Lindeberg-Feller para obtener: 1 n x ' d N [0, 2 Q ] (4.77) naturalmente, Q−1 1 n x ' d N [0, Q−1 2 Q Q−1] (4.78) Entonces, n − d N [0, Q−1 2 Q Q−1 ] (4.79) Finalmente, d N [ , 2n Q−1] (4.80) El resultado es más importante de lo que se ve a simple vista. Note que no se ha supuesto ninguna distribución para los residuos y aún así el estimador es asintóticamente normal. Esto es consecuencia del teorema central del límite y del supuesto que se cumplen las condiciones de Grenander. 4.27 El estimador de la varianza de los errores La ecuación (4.79) depende de 2 que es típicamente desconocido. Necesitamos el estimador asintótico de la varianza de los residuos (EVA). La contrapartida asintótica del estimador de 2 se obtiene de: 2= 1 n−k ' M = 1 n−k [ ' − ' x x ' x −1x ' ] = nn−k [ ' n − ' xn x ' x −1n x ' n ] (4.81) Obviamente, • cuando n→∞ el primertérmino tiende a 1. • El segundo término del paréntesis converge a cero. • El primer término es el promedio de 2. Si la varianza de este promedio es finita (es decir, el cuarto momento de es finito), entonces la ecuación (4.81) converge a 2 . Por ello, plim 2 x ' xn −1 =2 Q−1 . Distribución de los tests de hipótesis. Cuando los errores no se distribuyen normal, los tests t, F y χ² no se pueden aplicar directamente. Test t. Asintóticamente se tiene que distribuir normal (obvio). Test F. El test para la hipótesis R −q=0 es F= * ' *− ' / J ' /n−k = R −q ' [R 2 x ' x −1R ' ]−1 R −q J (4.82) 4.28 Pero, =x ' x −1 x ' . Por lo tanto, F= ' x x ' x −1 R ' [R x ' x −1R ' ]−1R x ' x −1 x ' / J ' M /n−k (4.83) Sea L=x x ' x −1 R ' [R x ' x −1R ' ]−1 R x ' x −1x ' , entonces la ecuación (4.83) es: F= ' L / J ' M /n−k = / ' L / / J [ ' M /n−k ]/2 (4.84) La ecuación (4.84) no tiene distribución conocida. Pero JF si la tiene: JF = / ' L / [ ' M /n−k ] / 2 d 2 tr L = J (4.85) La razón es que el denominador converge a 1, en tanto que el numerador es –otra vez– una forma cuadrática. La traza de L –que se obtiene fácilmente– depende de Rx que es de rango J. Distribución límite del test de Wald Si n − d N [0,2 Q−1 ] y H 0 : R −q=0 es cierta, entonces: W =R −q ' [R 2 x ' x −1R ' ]−1 R −q = JF d J 2 (4.86) Distribución del estimador de mínimos cuadrados cuando los regresores son estocásticos Reemplazamos el supuesto que x es no-estocástico por [x i ,i ] secuencias de variables aleatorias i.i.d., con cov x i ,i =0 y donde x tiene matriz de covarianzas positiva definida y cuartos momentos finitos de . Gráficamente, el modelo de regresión corresponde a la Figura 4.5. 4.29 Figura 4.5 Regresión con regresores estocásticos El supuesto clave para obtener la distribución asintótica de los estimadores es plim 1n x ' x= Q (4.87) y la no covarianza entre x y . Nuevamente, la distribución asintótica será Normal (ecuación 4.80) y si los cuartos momentos de son finitos, 2 es un estimador consistente de 2 y la varianza asintótica estimada de los parámetros queda dada por la ecuación (4.81). Cuando hay correlación entre x y los resultados anteriores no son válidos y se debe usar variables instrumentales (lo veremos en la sección 5). Distribución del test “t” con regresores estocásticos ¿Qué sucede cuando los regresores son estocásticos? Acabamos de obtener la distribución condicional del test t en x t |x . Deberíamos integrar por x para obtener la distribución marginal del test t (es decir, la distribución no condicional en x ). t k |x= k−k x ' x kk−1 2 (4.88) El estimador es normal condicional en x . Su distribución marginal no tiene por qué ser normal porque depende de x . Cuando x es estocástico, el denominador no tiene por qué ser la raíz de una χ² ajustada por (n-k) grados de libertad. No obstante, el test sigue siendo “t” a pesar de que x contenga variables estocásticas y determinísticas. Ello, porque f t | x –la integración para obtener la marginal– no es función de x . P(u) X1 X2 y1 y2 yi=xi E y1|x1 E y2|x2 4.30 4.09 Transformaciones de estimadores: el método Delta Frecuentemente, tenemos interés en usar funciones de los estimadores, f . Calcular las distribuciones asintóticas podría ser una pesadilla, excepto que: C= ∂ f ∂ ' (4.89) es decir, C es una matriz de tamaño jxk . Usando el teorema de Slutzky plim f = f obtenemos: plim C= ∂ f ∂ = (4.90) y podemos obtener la transformación del estimador: f →N [ f , 2n Q−1 ' ] (4.91) con EVA f =C 2x ' x −1 C ' . 4.10 Predicción8 Una vez parametrizado un modelo resulta natural preguntarse por las propiedades de las proyecciones hechas con éste. Hay dos alternativas de proyecciones: dentro y fuera de la muestra. A las segundas se les llama usualmente, predicciones. El valor efectivo para la observación “o” del modelo es y 0=x 00 , en tanto que el valor proyectado es y= x p . Note que la proyección es lineal, insesgada, y de mínima varianza. Por ello el error de predicción es simplemente: e f = y 0− y=x 0 − 0 (4.92) lo que pone de manifiesto las tres fuentes de error de una proyección. 8 "Those who have knowledge, don't predict. Those who predict, don't have knowledge." Lao Tzu. 4.31 ● La estocasticidad de los regresores. ● La distancia que hay entre el parámetro y su estimador, aún si E[ ]= . ● La presencia del error aleatorio. Resulta conveniente computar la varianza del error de pronóstico y deducir la expresión: Var [ f ]=Var [x 0 −0 ] = 2Var [ x0 −] = 2 [11 n ∑ j=2 k ∑ b=2 k x j 0−x j xb 0−x bx ' M 0 x jb ] (4.93) de donde se desprende que la incertidumbre de la proyección depende de (1) la presencia de shocks aleatorios, 2 , (2) el tamaño muestral, n, y (3) la distancia entre la proyección de los regresores y su media, x −x . Medidas de calidad de la predicción La principal medida de calidad de una regresión debiese ser con respecto del experimento que se está haciendo. No obstante, se usan frecuentemente medidas resumidas basadas en los errores de predicción dentro de la muestra. El más popular es el error cuadrático medio (ECM) que se define como: ECM= 1n0 ∑ y i− y i 2 (4.94) el que es una variación es el error absoluto medio (EAM) EAM= 1n0 ∑∣ y i− y i∣ (4.95) El problema del ECM y EAM es que dependen de la unidad de medida de las variables. Por ello, Theil propone el siguiente estadístico normalizado: U= 1n0 ∑ y i− y i 2 / 1n0 ∑ y i2 (4.96) 4.32 El error cuadrático medio puede ser descompuesto en tres componentes que resultan interesantes: 1 n0 ∑ y i− y i 2=∑ y i n0 − y 2 s y−s y 221−r s y s y (4.97) donde s y , s y y r son las desviaciones estándares de cada variable aleatoria y la correlación entre predicción y valor verdadero. De esta descomposición se pueden obtener tres proporciones: ∑ y in0 − y 2 1 n0 ∑ y i− y i 2 Esta es una medida de sesgo, porque nos dice que tan lejos está la media de la predicción de la verdadera media de la variable s y−s y 2 1 n0 ∑ y i− y i 2 Esta es una medida de variación, porque indica qué tan lejos está la variación de la predicción respecto de la verdadera variabilidad de la variable. 2 1−r s y s y 1 n0 ∑ y i− y i 2 Esta es una medida de covariación residual que refleja los componentes no sistemáticos que separan la predicción del verdadero valor de la variable. Una mejor predicción es aquella donde el sesgo sistemático y la impresición de las predicciónes son menores.9 4.11 Método generalizado de momentos La estimación por mínimos cuadrados no es la única forma de parametrizar un modelo. Una alternativa interesante es el llamado método general de momentos (MGM), el que explota dos elementos: las propiedades de convergencia de los estadígrafos que se pueden construir a partir de una muestra y el hecho que los valores límites de dichos 9 “Prediction is very difficult, especially about the future”. Mark Twain. 4.33 estadígrafos dependen de los parámetros que caracterizan la distribución de probabilidades del fenómeno. Por ejemplo, si tenemos una muestra de una distribución , sabemos que la esperanza y varianza están relacionadas a los parámetros de la distribución p ,q de la siguiente manera: E [x t ]= p q E [x t−E [x t ] 2 ]= p q2 (4.98) entonces las condiciones sobre los momentos serían una función de tipo E [ f x ,]=0 , es decir, E [x t ]− p q=0 E [x t−E[ x t ]2 ]− pq2 =0 (4.99) así,buscaríamos p* y q* tal que se cumplan las condiciones de la ecuación (4.99) usando la información de la muestra. Para el modelo clásico de regresión lineal podemos derivar condiciones similares. Dado el modelo básico (ecuación 4.6) e imponiendo la condición de ortogonalidad entre regresor y residuo E[ x ,]=0 tenemos: E[ y i |x ]=E [x i i |x ]=x i E [i |x ]=x i (4.100) Usando la ley de expectativas iteradas10 tenemos: E [x i i ]=Ex [E [x i i |x i ]]=Ex [x i E [i |x i ]]=0 (4.101) entonces, las condiciones son: E[x i y i−x i * ]=0 (4.102) Naturalmente, cuando el modelo es multivariado, habrá l ecuaciones en la ecuación (4.102) que deben ser optimizadas para recuperar los parámetros. Si el número de ecuaciones linealmente independientes en la ecuación (4.102) es igual o mayor a los 10 Esta ley no parece ser de fácil comprensión para algunos políticos. Dan Quayle, vicepresidente de Estados Unidos, señaló: The future will be better tomorrow. 4.34 parámetros que se quiere estimar el problema tiene solución (el último caso se llama sobreidentificado). Una manera alternativa de entender este tema de la sobreidentificación es considerar el modelo de regresión: y i=x i 11x i 2 2i E[ x i , i ]=0 (4.103) donde x 1=k , x 2=r y l =kr . Suponga ahora que se le informa que 2=0 . ¿Cómo estimaría 1 ? Una alternativa es usar el estimador mínimos cuadrados en el modelo restringido y i=x i 11i . Pero ello sería ineficiente, pues no hace uso de toda la información. Note que hay l restricciones en la ecuación (4.103) y solo habría k restricciones en el modelo restringido. Si se usa toda la información habría l −k=r restricciones sobre los momentos adicionales que son de utilidad; estas se llaman restricciones de sobreidentificación (overidentifying restrictions). Generalicemos la estructura y notación del ejemplo anterior. Sea g y ,z ,x , una función de dimensión l ×1 de un vector de parámetros de dimensión k×1 con l ≥k tal que: E [ g y ,z , x ,0]=0 (4.104) La restricción l ≥k señala que z corresponde a un conjunto de variables más amplio que el conjunto x , pudiendo incluir componentes o funciones de este último. En econometría a la ecuación (4.104) se le llama modelo de condiciones de momentos, en tanto que en estadística se le llama ecuación de estimación. Note que se ha impuesto muy poca estructura sobre las innovaciones i , al menos en comparación con el método de mínimos cuadrados o el de máxima verosimilitud. No obstante, no hemos discutido dos elementos: (1) cómo se obtienen los parámetros y (2) cuáles son las propiedades asintóticas de este estimador. Estimación de parámetros por método de momentos Suponga que el modelo está exactamente identificado, es decir hay tantos parámetros desconocidos (l) en la ecuación (4.104) como ecuaciones disponibles, k. El problema radica en que desconocemos E[.]. Pero contamos con una muestra de la cual podemos derivar el estimador muestral de la condición de ortogonalidad, E [ f x ,]=0 : 4.35 f n = 1 n∑i=1 n f x i , (4.105) En el caso de la regresión lineal obtenemos: 1 N ∑i =1 N [x i y i−x i * ]=0 (4.106) de donde se desprende: *=∑i =1 N x i ' x i −1 ∑ i=1 N x i ' y i (4.107) es decir, el estimador de mínimos cuadrados es un estimador de momentos. El estimador del método de momentos se aplica cuando hay más condiciones para los momentos que parámetros por estimar, es decir, cuando el sistema está sobreidentificado. En tal caso, en general no habrá un * que haga f n =0 , pero se puede buscar aquel que haga que f n esté arbitrariamente cerca de 0, es decir aquel que minimiza la ecuación (4.104). Consideremos la contraparte muestral de la ecuación (4.107): g n = 1 n∑i=1 n z i y i−x i = 1 n ∑i =1 n z ' y−z ' x (4.108) Para una matriz arbitraria W n0 definimos: J n =n g n 'W n gn (4.109) esta es una medida de “distancia” del vector g n . Lo que hace el estimador MGM es minimizar la ecuación (4.109). Definimos: GMM=argmin J n (4.110) Considere la derivada de la ecuación (4.110) tal que: 4.36 0= ∂ J n ∂ =2 ∂ g n 'W n g n ∂ =2 1n z ' xW n 1 n x ' y−z (4.111) de donde se desprende: 2z ' x W n x ' y=2 z ' xW n x ' z (4.112) y por lo tanto: GMM=z ' xW n x ' z −1z ' x W nx ' y (4.113) Note que el estimador MGM depende de W n pero sólo como factor de escala, es decir, si usamos cW n para c0 , el estimador no cambia. Teoría asintótica para el estimador de método de momentos11 Para desarrollar la teoría asintótica aplicable en este contexto, tenemos que hacer los siguientes supuestos: 1. Los momentos poblacionales g n =E[ f x i ,] existen12 y son finitos para todo y para todo i. Además, existe un único * que hace g n *=0 . 2. f x i , obedece la ley débil de los grandes números. Es decir, f n x i ,− g n p 0 ∀ ∈ 3. Existe una secuencia de matrices no-estocásticas W n tales que W n− W n p 0. Estos supuestos permiten demostrar que el estimador MGM es (débilmente) consistente. En términos esquemáticos, la prueba de consistencia del estimador consiste en usar los supuestos 2 y 3 para deducir que existe una secuencia no aleatoria Qn = g n ' W n g n tal que 11 Una demostración formal de estos supuestos está desarrollada en L. Mátyás, Generalized Methods of Moments, Cambridge University Press, 1999. 12 La existencia de los momentos poblacionales requiere de supuestos más primitivos sobre la naturaleza del proceso estocástico de x . Este tema se discute in extenso en el curso de Teoría Econométrica III. 4.37 Qn − Qn p 0 (4.114) converge uniformemente para todo ∈ . Además, se usa el supuesto 1 para demostrar que Qn=0 si y sólo si =* . Entonces, se deduce que si =argminQn , si *=argmin Qn , y Qn − Qn p 0 entonces necesariamente p . La derivación de la normalidad asintótica del estimador MGM requiere algunos supuestos adicionales: 1. f x i , debe ser continuamente diferenciable con respecto a ∈ . 2. Para toda secuencia donde se cumple que p , se cumple que F n − F n p 0 3. f x i , satisface el teorema del límite central, es decir, V n −½ n f n 0 d N 0, I donde V n=n Var f n 0 . Con estos seis supuestos es posible demostrar que el estimador MGM tiene distribución asintótica normal: [F n n' W n V nW n F n n ] −½ [F n n ' W n F n n] n n−* d N 0, I (4.115) La matriz de ponderación W n óptima es aquella que minimiza la varianza del estimador MGM. Lamentablemente, ésta no es usualmente conocida. Por ello, dada cualquier matriz de ponderación, el estimador MGM es consistente, pero no necesariamente eficiente. Una alternativa en el modelo lineal sería fijar W n=I . Una alternativa mejor –recuerde MCG– es usar W n=x ’ x −1 . Dada dicha matriz como estimador de primer paso es posible computar los residuos del modelo como: i= y i−z i y las ecuaciones de momentos: g i=x i i= g w i , z i . Computemos g n= g n = 1 n∑i=1 n g i y g n *= g i− g n (4.116) Entonces se define: W n=1n ∑i =1 n g i * g i * −1 = 1n∑i=1 n g i g i '− gn g n ' −1 (4.117) 4.38 en probabilidad esta matriz W n converge a W n=E [ g i g i ʹ ] −1 que es la matriz eficiente. Por ello, el estimador MGM será asintóticamente eficiente.13 Hay una alternativa al estimador MGM de dos etapas que hemos desarrollado que posiblemente tiene mejores propiedades estadísticas. Considere que la matriz de ponderadores sea una función de tal que el estimadorMGM sea aquel que minimiza el criterio: J n =n g n ' 1n ∑i =1 n g i * g i * 'W n g n (4.118) donde g i *= g i − g n . El que minimiza la ecuación (4.118) es llamado estimador MGM de actualización contínua14. Test de restricciones de sobreidentificación Los modelos que están sobreidentificados tiene la facilidad de proveer espacio para testear las restricciones impuestas sobre la estructura del modelo. Note que g n p E[ g i ] y que, por lo tanto, g n puede ser usado para hacer un test sobre si E[ g i ]=0 . Note que J n =n g n 'W n gn es una forma cuadrática en g n por lo que es un test natural de H 0 : E [ g i ]=0 . Si el modelo está correctamente especificado y si la matriz W n es asintóticamente eficiente: J d → l −k 2 (4.119) este es llamado el test de Sargan-Hansen. Los grados de libertad del test corresponden al número de restricciones impuestas en la sobreidentificación. Tests de hipótesis 13 En ocasiones se usa el estimador alternativo W n= 1n ∑i=1 n g i g i ' −1 . El problema es que este estimador de momentos no centrados no garantiza que E [x ’ ε ]=0 , lo que produce un estimador sesgado y reduce el poder de los tests. Verifique que tipo de estimador usa su programa econométrico. 14 Ver Hansen, L.P., Heaton, J. and Yaron, A. (1996), “Finite Sample Properties of Some Alternative GMM Estimators,” Journal of Business and Economic Statistics, 14:262-280. 4.39 Como se puede ver el test anterior testea la estructura completa del modelo. Para hacer tests de hipótesis ocupamos directamente la lógica de testear un modelo restringido versus uno que no lo está. El procedimiento es directo: ● Supongamos que hay un conjunto de hipótesis sobre los parámetros H 0 : h =0 ● Supongamos que W n está dada, el criterio del estimador MGM no restringido es es J n =n g n ʹ W n g n . Por otro lado, el criterio del estimador MGM restringido es es J n | h=0=n g n ʹ W n g n . ● Entonces el test de distancia es D= J − J . Si se usa la misma matriz W n para ambos J entonces el test se distribuye asintóticamente χ² r . Un punto importante de hacer notar que h no tiene por qué ser lineal, lo que es una ventaja desde el punto de vista de la flexibilidad del análisis. Por otro lado, si las hipótesis fuesen lineales, el test de restricciones de identificación corresponde al test de Wald. 4.40 Apéndice A: Ejercicios 1. En una regresión lineal las variables del lado derecho son independientes, las columnas de la matriz x son independientes y los errores se distribuyen independientementes." En la frase anterior se usó la palabra "independiente" en tres distintos sentidos. Explique cada uno de los usos de ella y discuta que papel juegan dichos conceptos en la teoria clásica de estimación de modelos lineales. 2. En el modelo lineal y=x , un elemento central del análisis econométrico clásico es que el estimador de es independiente de los residuos, . Demuestre. 3. ¿Cómo se entiende el supuesto de rango completo si x contiene sólo una variable? 4. ¿Qué restricción debe cumplir la matriz de momentos de los regresores para que sea posible obtener estimadores mínimos cuadrados con propiedades estándares si x es determinístico? ¿Qué pasa cuando se levanta el supuesto que los regresores son no-estocásticos? 5. Suponga que tiene una muestra de n datos de { y n , xn }. Derive el estimador de mínimos cuadrados de la regresión de y n en x n. Suponga ahora que a la muestra se le añade un dato. Demuestre que el nuevo estimador del parámetro es: n1= n 1 1x s ' x n ' x n −1 x s xn ' x n −1x s ' [ y s−x n ' s ] Note que el último término es es , es decir el residuo de la predicción de ys usando los coeficientes obtenidos con la muestra x n . 6. Si nos fijamos en la fórmula de la varianza estimada del estimador de mínimos cuadrados, resulta obvio que mientras más observaciones tengamos ésta se reduce y más preciso es el estimador (demuestre). Por ello, es conveniente tener más datos. Si eso es así, ¿para qué buscar más datos? ¿No bastaría con poner los mismos datos dos veces? Con ello tendríamos 2n datos, en vez de n. (considere x no estocástico). 7. Considere el caso de la regresión y=x y el de la regresión “inversa”, x = y* ¿bajo qué condiciones es posible recuperar el estimador de a partir del estimador de γ? No olvide referirse a la desviación estándar del estimador. 8. Demuestre que el estimador de mínimos cuadrados ordinarios es de varianza mínima. 4.41 9. ¿En qué caso los coeficientes de una regresión de Y en x 1 y x 2 son idénticos a los de dos regresiones independientes, una de Y en x 1 y otra de Y en x 2 ? ¿Por qué? ¿es necesario poner una constante en cada una de estas últimas dos regresiones o basta ponerla en una sola? 10. Su jefe juntó datos de precios y ventas de vino de los últimos 25 años en Chile y concluyó: “cada vez que subo el precio 10% las ventas caen 5%, por lo que la elasticidad es -0.5". Explíquele –con delicadeza pero con absoluto detalle– por qué su estimación es inconsistente. 11. Considere la función de producción con elasticidad de sustitucion constante (CES): Y i , t= [ K i , t−1−L i , t−] − e i , t Donde los subindices i y t, son firmas y tiempo respectivamente, Y es el producto, K es el capital, y L es el trabajo, y donde los parámetros γ, δ, ν, y se denominan parámetros de eficiencia, distribución, rendimientos de escala, y sustitución, respectivamente. Como la función CES no es lineal en los parámetros no pueden estimarse por mínimos cuadrados ordinarios. Demuestre que la función puede linealizarse utilizando la técnica de Taylor de la siguiente manera: LnY i , t=i1 LnK i , t2 LnL i , t3[ ln K i , tL i , t ] 2 i , t y encuentre las expresiones de equivalencia entre los estimadores y los parámetros de la ecuación. 12. Demuestre que en una muestra finita, el estimador de la varianza de los residuos 2=n−k −1∑ i2 se distribuye χ². 13. Demuestre que en una muestra infinita se requiere que los cuartos momentos de la distribución de los residuos sean finitos para que el estimador asintótico exista. 14. Demuestre que testear un conjunto de restricciones lineales es equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo está. 15. Suponga que el verdadero modelo es y=xu (no tiene constante) pero que Ud. usó uno de esos softwares de econometría de segunda clase y tuvo que estimar su modelo con la constante. ¿La omisión de esta variable causa sesgo? Compare la varianza del estimador de del modelo verdadero con la del estimado. 16. Considere el siguiente modelo y i=x ii f i =1/e −i / i0 . Note que los errores tienen la característica que siempre son positivos. 4.42 (a) calcule la E[] . (b) demuestre que el estimador de mínimos cuadrados de la pendiente es consistente pero el del intercepto es inconsistente. 17. Demuestre que R 2 puede ser negativo. 18. Demuestre que el R 2 ajustado ( R 2 ) se puede escribir en función de R 2 como: R 2=1− n−1n−k 1−R 2 19. Pruebe que R 2 no puede reducirse si se añade una variable en la regresión. Dé la intuición. 20. Suponga que una regresión lineal es adecuada y el modelo está bien especificado. ¿Tiene el R 2 computado alguna distribución? 21. Considere la regresión de y en K variables (incluida la constante) representadas por X . Considere un conjunto de regresores alternativos Z=XP , donde P es una matriz no singular. Así, cada columna es una mezcla de algunas columnas de X . Pruebe que los vectoresde residuos de la regresión de y en X y de y en Z son idénticos. ¿Qué importancia tiene esto respecto de la posibilidad de cambiar el ajuste de una regresión mediante la transformación de los datos? 22. El problema de un productor es cómo predecir la demanda de su producto de exportación (yuca). Ud hace un modelo econométrico tipo x t=α 0α 1Y t *−α 2 Px t (log demanda yuca, log ingreso externo y log precio yuca, respectivamente). Ud estima los parámetros por mínimos cuadrados. Su jefe no cree en la econometría y tiene sus propias elasticidades, , calculadas al ojo. Pruebe que la diferencia entre su R 2 y el R 2 de su jefe, es proporcional a: − ́ZZ − donde Z = {Y,Px} y { , } los vectores de parámetros. 23. Considere el siguiente modelo y t= ' x tt , con x =[ c ,z ] y donde c es una constante y z un conjunto de variables. Suponga que la varianza de es constante, 2 . Encuentre la varianza de la predicción fuera de muestra de y. Demuestre que ésta se reduce cuando aumenta el tamaño de muestra y mientras más cerca estamos de E[ x ] . 24. ¿Cuáles son las fuentes de incertidumbre en una predicción ( y ) hecha con un modelo lineal del tipo y=x u ? Calcule analíticamente la V y . 25. Demuestre que testear un conjunto de restricciones lineales del tipo R =q es equivalente a hacer un test tipo F entre una ecuación restringida y una que no lo está. 4.43 26. Suponga que Ud es un monopolista con costo marginal = 10. Encuentre un intervalo de confianza al 95% para el producto que hace que su beneficio esperado máximo. Ud tiene la siguiente información. (use una demanda lineal). Q 3 3 7 6 10 15 16 13 9 15 9 15 12 18 21 P 18 16 17 12 15 15 4 13 11 6 8 10 7 7 7 27. Suponga que tiene una muestra de n datos de { y n , x n }. Suponga ahora que a la muestra se le añade un dato. Demuestre que el estimador de mínimos cuadrados de la regresión usando n+1 datos es proporcional al residuo de la predicción de y basada en los coeficientes obtenidos con la muestra de n datos. 28. Para una muestra de datos del periodo [1, t ] , considere el siguiente modelo y t= x tt donde t=t−1t y t es ruido blanco Gaussiano. 1. Compute el error de predicción de y tn y su intervalo de confianza del 90%. 2. Demuestre que el intervalo de confianza converge en distribución. 29. Demuestre que si es el estimador MICO, E[ ' ]= ' 2∑ k=1 K 1 k , donde λ es uno de los valores propios de x ' x . 30. Considere el modelo y i=1x ii , que no incluye la constante, y donde el error cumple las condiciones Gauss-Markov. I. Derive el estimador de mínimos cuadrados ordinarios de 1 y llámelo 1 . ¿Es este estimador insesgado? Demuestre que es de varianza mínima. II. Considere el modelo y i=01 x ii , donde el error cumple las condiciones Gauss-Markov. Demuestre que, para este modelo, el estimador 1 es sesgado. ¿es posible determinar la dirección del sesgo?. Naturalmente, si β0=0 no hay sesgo, pero ¿es la varianza del estimador 1 mayor o menor que la varianza del estimador mínimos cuadrados de 1 ? Demuestre que si E[ x i ]=0 , el estimador 1 es insesgado. 4.44 Apéndice A: Algebra de Matrices y Gauss Operaciones elementales (ver programa de Gauss asociado) 1. Suma de matrices. Sean A=[aij] y B=[bij] dos matrices de orden m×n. La suma de matrices corresponde a la matriz C=[cij] cuyos elementos genericos son cij=aij +bij. Ejemplo: A=[1 2 34 5 67 8 9] y B=[0 1 11 0 10 1 0] entonces AB=C=[1 3 45 5 77 9 9] . Note que A y B son conformables para la suma. Note que la suma es conmutativa (A+B=B+A) y asociativa (A+(B+C)=(A+B)+C). 2. Multiplicación por escalar. Sea λ un escalar, entonces λA =[λaij]. Ejemplo, si λ es 2. A=[ 2 4 68 10 1214 16 18] 3. Multiplicación de matrices. El producto de las matrices A y B debe ser conformable respecto de la multiplicación, es decir, el numero de filas de B debe ser igual al número de columnas de A. Los elementos de C=A*B corresponden a: c ij=∑ j a ij∗b jk C=[102130 11203 1 112 13 04 05160 41506 1 4 15 16 0708 19 0 71809 1 7 18190 ]=[2 4 35 10 98 16 15] La multiplicación de matrices en general no es conmutativa. 4.45 B∗A=[ 9 9 123 0 3−4 −11 −9] 4. Transposición. La transpuesta de la matriz A=[aij] de orden m×n es una matriz A'=[aji] que tiene por filas las columnas de A y por columnas las filas de A. A '=[1 4 72 5 83 6 9] Las reglas básicas de la transposición son: 1. La transpuesta de A' es A. 2. Si C=A+B entonces C' = A' + B' 3. Si C = AB then C'=B'A'. 5. Inversión. Si A=[aij] de orden n×n, entonces su inversa, si existe, es una matriz definida de manera única A-1 de orden n×n que satisface la condicion AA-1=I, donde I es la matriz identidad (tiene 1 en la diagonal y 0 fuera de la diagional). B−1=[−1 1 10 0 11 0 −1] La inversa existe sólo si el determinante de la matrix no es cero. Las reglas básicas de la inversion son: 1. La inversa de A-1 es A. 2. La inversa de la transpuesta es la transpuesta de la inversa, (A')-1=(A-1)'. 3. If C=AB, then C-1=B-1A-1. 6. Operaciones elementales. Las siguientes operaciones elementales se usan para, entre otros fines, para obtener inversas: 4.46 1. Multiplicación de una fila por un escalar, λ. [ 0 00 1 00 0 1][1 2 34 5 67 8 9]=[1 2 34 5 67 8 9 ] 2. Resta de una fila por otra. [ 1 0 0−1 1 00 0 1 ][1 2 34 5 67 8 9]=[1 2 33 3 37 8 9] 3. Intercambio de filas [0 1 01 0 00 0 1][1 2 34 5 67 8 9]=[4 5 61 2 37 8 9] Para obtener una inversa se usa una secuencia de estas operaciones elementales. Consideremos el caso de una matriz de 2x2: U =[2 54 3] computamos [1/2 00 1][2 54 3]=[1 2.54 3 ] computamos [ 1 0−4 1][1 2.54 3 ]=[1 2.50 3 ] computamos [1 00 1/3][1 2.50 3 ]=[1 2.50 1 ] computamos [1 −2.50 1 ][1 2.50 1 ]=[1 00 1 ] Capítulo 4 Modelo Clásico de Regresión Lineal 4.01 Lógica del modelo de regresión1 4.02 Análisis de los supuestos del modelo de regresión lineal 4.03 Representación gráfica de la regresión lineal 4.04 Derivación del estimador de mínimos cuadrados5 4.05 Propiedades del estimador de mínimos cuadrados en muestra finita 4.06 Tests de hipótesis en el modelo multivariado 4.07 Tests de hipótesis y modelo restringido 4.08 Propiedades del estimador de mínimos cuadrados en muestra grande 4.09 Transformaciones de estimadores: el método Delta 4.10 Predicción8 4.11 Método generalizado de momentos Apéndice A: Ejercicios Apéndice A: Algebra de Matrices y Gauss
Compartir