Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Versión impresa ISSN: 0716-7334 Versión electrónica ISSN: 0717-7593 PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE INSTITUTO DE ECONOMÍA Oficina de Publicaciones Casilla 76, Correo 17, Santiago www.economia.puc.cl NOTAS DE CLASES TEORÍA ECONOMÉTRICA Raimundo Soto* Trabajo Docente Nº 78 Santiago, Mayo 2010 * rsoto@faceapuc.cl Indice 1. Introducción.....................................................................................................................................1.1 2. Teoría de Probabilidades................................................................................................................2.1 2.01 Noción de Probabilidad.................................................................................................2.2 2.02 Axiomatización de las Probabilidades.........................................................................2.3 2.03 Variables Aleatorias........................................................................................................2.8 2.04 Momentos de una Distribución.................................................................................2.14 2.05 Distribuciones Discretas de Uso Común.................................................................2.17 2.06 Distribuciones Continuas de Uso Común...............................................................2.19 2.07 Distribuciones Conjuntas............................................................................................2.22 2.08 Distribuciones Marginales...........................................................................................2.22 2.09 Distribuciones Condicionales.....................................................................................2.24 Apéndice A: Ejercicios..........................................................................................................2.26 3. Elementos de Inferencia Estadística...........................................................................................3.1 3.01 Modelo probabilístico, modelo muestral y modelo estadístico ...............................3.1 3.02 Estadísticos muestrales...................................................................................................3.5 3.03 Distribución de la media muestral................................................................................3.5 3.04 Características deseables de los estimadores en muestra finita................................3.6 3.05 Límite de Cramer-Rao.....................................................................................................3.8 3.06 Elementos de teoría asintótica: convergencia.............................................................3.9 3.07 Elementos de teoría asintótica: leyes débiles de grandes números.......................3.14 3.08 Elementos de teoría asintótica: leyes fuertes de grandes números........................3.18 3.09 Propiedades de los distintos tipos de convergencia.................................................3.20 3.10 Teoremas del límite central..........................................................................................3.21 3.11 Distribución asintótica..................................................................................................3.26 3.12 Estimación asintóticamente eficiente (máximo verosímil).....................................3.27 3.13 Tests de hipótesis...........................................................................................................3.32 3.14 Tres tests de hipótesis asintóticamente equivalentes...............................................3.34 3.15 Test de hipótesis no anidadas......................................................................................3.35 3.16 Criterios informacionales..............................................................................................3.37 Apéndice A: Ejercicios..........................................................................................................3.41 4. Modelo Clásico de Regresión Lineal...........................................................................................4.1 4.01 Lógica del modelo de regresión.....................................................................................4.2 4.02 Análisis de los supuestos del modelo de regresión lineal..........................................4.2 4.03 Representación gráfica de la regresión lineal...............................................................4.7 4.04 Derivación del estimador de mínimos cuadrados......................................................4.8 4.05 Propiedades del estimador de mínimos cuadrados en muestra finita...................4.12 4.06 Tests de hipótesis en el modelo multivariado...........................................................4.16 4.07 Tests de hipótesis y modelo restringido.....................................................................4.21 4.08 Propiedades del estimador de mínimos cuadrados en muestra grande................4.23 4.09 Transformaciones de estimadores: el método Delta...............................................4.30 4.10 Predicción........................................................................................................................4.30 4.11 Método generalizado de momentos...........................................................................4.32 Apéndice A: Ejercicios.........................................................................................................4.40 Capítulo 5 Violación de los Supuestos del Modelo de Regresión Lineal 5.01 Problemas de Especificación I: Regresores Inadecuados.........................................5.2 5.02 Problemas de Especificación II: Cambio de Régimen..............................................5.6 5.03 Problemas de Especificación III: Datos erróneos..................................................5.13 5.04 Problemas de Especificación IV: Colinealidad........................................................5.20 5.05 Modelos de Varianza No Constante..........................................................................5.27 5.06 Heterocedasticidad........................................................................................................5.28 5.07 Correlación de residuos................................................................................................5.39 5.08 Variables instrumentales..............................................................................................5.45 Apéndice A: Ejercicios.........................................................................................................5.54 Capítulo 6: Modelos no lineales 6.01 Elementos de cálculo numérico....................................................................................6.1 6.02 Optimización no lineal....................................................................................................6.5 6.03 Estimación de mínimos cuadrados no lineales...........................................................6.9 6.04 Estimación de variables instrumentales no lineales.................................................6.12 6.05 No linealidad de la variable dependiente...................................................................6.13 6.06 Interpretación de los parámetros de un modelo no lineal......................................6.14 6.07 Tests de hipótesis...........................................................................................................6.14 Capítulo 7: Modelos con Datos de Panel.......................................................................................7.1 7.1 Modelo canónico de datos de panel...............................................................................7.3 7.2 Modelación con datos de panel....................................................................................7.167.3 Modelos de panel dinámicos.........................................................................................7.18 7.4 Tests de raíces unitarias en panel..................................................................................7.22 Capítulo 1 Introducción “Without data all you are is just another person with an opinion” (Anónimo) “Facts are stupid things” (Ronald Reagan, 1978). Con frecuencia en el estudio de la economía -y de la econometría en particular– se comete el error de empezar con el análisis de “modelos económicos” sin definir previamente lo que se entiende por modelo y sin explicar por qué es importante construir dichos modelos. Sims (1996)1 señala que los avances en ciencias naturales –y en gran medida en economía— se refieren usualmente a descubrimientos sobre nuevos modos de comprimir datos con respecto a algún fenómeno con una mínima pérdida de información. Considere el siguiente ejemplo de la astronomía: Tycho Brahe (1546-1601) acumuló durante muchos años datos confiables sobre los movimientos de los planetas. Su asistente, Johannes Kepler (1571-1630), sin embargo, observó que podían ser modelados como elipses con el sol en uno de sus focos, logrando una notable compresión de información.2 Los modelos en economía, y en econometría en particular, buscan el mismo objetivo: transmitir información sobre las regularidades que caracterizan a la economía de modo eficiente (máxima compresión) y seguro (menor pérdida). Dichas regularidades –al igual que en las ciencias naturales– tienen nombres más bien pintorescos (p.e., “ley de oferta y demanda”, “propensión marginal a consumir”) pero poseen el atributo de generalidad que les hace particularmente útiles: cuando se menciona que un fenómeno queda razonablemente descrito por una ecuación de recta (es decir un modelo), el auditor instruido inmediatamente deduce las propiedades de dicho modelo y, a la vez, sabe que para cada situación específica en la que dicho fenómeno se verifique habrá una recta particular que le describe. Uno de los primeros y más famosos econometristas Francis Galton señaló que “The object of statistical science is to discover methods of condensing information concerning large groups of allied facts into brief and compendious expressions suitable for discussion” (Inquiries into Human Faculty and its Development, Macmillan: London,1883, pp.55). Otra manera de ver el rol de un modelo o teoría es provisto por S. Hawking “A theory is a good theory if it satisfies two requirements: it must accurately describe a large class of observations on the basis of a model that contains only a few arbitrary elements, and it must make definite predictions about the results of future observations” (A Brief History of Time, New York, 1988). Debiera añadirse que los modelos deben cumplir una restricción adicional, derivada de la célebre sentencia de William de Occam (1285-1349) “Essentia 1 C. Sims, “Macroeconomics and Methodology”, Journal of Economic Perspectives, 10 (Winter): 105-120, 1996. 2 Desilusionado con la incapacidad del modelo de Ptolomeo (85-165) para describir la trayectoria de los planetas, Copernico enunció su teoría heliocéntrica en 1543 pero sin proveer soporte empírico alguno. La contribución de Brahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posible a Kepler la modelación del fenómeno. La superioridad del modelo de Kepler produjo fuerte agitación social pues la Iglesia la consideró «contraria a las Sagradas Escrituras». El 26 de febrero de 1615, el cardenal jesuita Bellarmino inició el juicio contra Galileo e incluyó los libros de Copernico De revolutionibus, Kepler Mysterium cosmographicum, y Galileo Discorsi en el Indice de Libros Prohibidos donde permanecieron hasta 1835. 1.2 non sunt multiplicanda praeter necessitatem”, es decir, que los elementos de un modelo no deben ser aumentados más allá de lo necesario. La simplicidad es un objetivo de la modelación. Objetivamente, los economistas aún no somos capaces de desarrollar teorías que sean capaces de describir la enorme heterogeneidad de los fenómenos económicos. Recientemente, se ha desarrollado una línea de investigación sobre la pregunta de cuáles son las formas, causas, y consecuencias de las complejidad de los sistemas económicos. Rosser (2004)3 clasifica la complejidad que enfrenta un agente económico en tres áreas fundamentales. Primero, complejidad en la estructura dinámica –y posiblemente no lineal– de los fenómenos económicos, es decir, el hecho frecuente que una pequeña perturbación en un sistema económico tenga repercusiones y ramificaciones dinámicas en la economía de gran impacto (p.e., un cambio en un precio clave de la economía como la tasa de interés). Segundo, la complejidad lógica y computacional que enfrenta un agente económico al tomar una decisión cuando existe un gran número de mercados, oferentes y demandantes. En particular la noción de equilibrio de los modelos económicos es muy compleja: por ejemplo, un equilibrio Walrasiano le exige al agente económico la computación de un número enorme de precios relativos, el equilibrio de Nash exige una gran capacidad de análisis lógico para anticipar las reacciones de los otros jugadores frente a diferentes alternativas de decisión. Tercero, la complejidad en la aprehensión del fenómeno económico, es decir, el problema adicional al que el proceso de aprehender la realidad económica es, en sí, también muy complejo y no puede ser llevado a cabo sin costos excesivamente altos. Al problema de la complejidad se le suman las restricciones que enfrenta el análisis económico en términos de información sobre los fenómenos de interés y sus causas. Tradicionalmente las ciencias naturales le han otorgado poco valor al análisis probabilístico de los fenómenos. Ello se debe a que muchos de dichos fenómenos pueden ser replicados en laboratorios bajo condiciones experimentales controladas. En la mayoría de los problemas económicos no resulta factible realizar un análisis experimental en circunstancias absolutamente controladas. Por ejemplo, no es posible pedirle a un grupo de individuos que vuelva a estudiar una carrera profesional para estimar cómo habría sido su perfil de ingreso en estas nuevas circunstancias. En este sentido, los economistas usamos los datos disponibles para inferir probabilísticamente la capacidad de una teoría para comprimir información pertinente sobre un determinado más fenómeno o la congruencia con la que lo hace. Algunas de las ramas de la física o la química han adoptado recientemente el esquema metodológico de la economía: por ejemplo, la astronomía no cuenta –salvo honrosas excepciones– con “muestras” de fenómenos de gravitación universal, sino con un fenómeno único.4 La física subatómica 3 J. Barkley Rosser, Jr. (2004) “Epistemological Implications Of Economic Complexity”, mimeo, Department of Economics, James Madison University. 4 S. G. Djorgovski reporta que el volumen de observaciones disponibles en astronomía se dobla en aproximadamente cada año y medio. En cada noche, se produce aproximadamente 1 Terabyte de datos adicionales (equivalente a la colección completa de la biblioteca PUC). Ello exige una modelación probabilística de los datos. “Virtual Astronomy, Information Technology, and the New Scientific 1.3 no puede observar directamente un fenómeno sino sus efectos, de los cuales debe inferir la validez de una hipótesis teórica. En ambos casos el análisis es frecuentemente probabilístico. Es por estas razones –complejidad del fenómeno y restricciones de información– que la economía se basa en el desarrolloy análisis de modelos de comportamiento validados empíricamente mediante métodos cuantitativos, en especial, los métodos econométricos que se discuten en lo siguientes capítulos.5 La modelación econométrica propiamente tal comienza de manera significativa a principios del siglo XX con los trabajos de los fundadores de la disciplina (Galton, Pearson, Neyman, Fischer, Frisch, etc.) que desarrollaron la base estadística de gran parte de los tests básicos que se usan en la actualidad. Pero no fue si no hasta los años 1950 que se masificó el uso de modelos econométricos como base del análisis de políticas económicas y para la verificación de diversos postulados teóricos. El gran empuje de mediados del siglo XX proviene principalmente del desarrollo de un fundamento teórico sólido para la econometría en general y para los modelos econométricos de gran escala en particular. Estos últimos se beneficiaron de la aparición de bases de datos adecuadas (p.e., cuentas nacionales) y de una creciente capacidad de computación. El éxito de la econometría como base del análisis empírico es indudable. Ciertamente los modelos empíricos cometerán errores en la descripción de los fenómenos que nos interesa modelar; sin embargo, en este contexto se aplica la célebre frase del padre de la computación Charles Babbage (1791-1871) “Errors using inadequate data are much less than those using no data at all”. El diseño de modelos analíticos y sus contrapartidas empíricas son, en realidad, dos caras de una más moneda: el modo como avanza nuestro conocimiento es mediante la continua contrastación de teoría y evidencia. En términos pedagógicos, sin embargo, en este libro nos ocuparemos principalmente de los modelos econométricos, los cuales serán desarrollados sobre la base de una serie de supuestos que nos permitirán derivar estimadores que cumplen con requisitos de calidad y los tests estadísticos asociados a dichos estimadores. Luego invalidaremos de manera paulatina dichos supuestos para estudiar qué efectos tiene una violación de uno o más supuestos sobre las características de dichos estimadores. El capítulo 2 realiza una revisión de distintos elementos de probabilidades y desarrolla con algún detalle el enfoque axiomático de Kolmogorov (1933)6 que es la base de la estadística moderna. Este enfoque ofrece una formalización axiomática de la noción de probabilidad, cuyas ventajas radican en proveer una teoría completa (todas las Methodology”, en Computer Architectures for Machine Perception, eds. V. Di Gesu & D. Tegolo, IEEE press (2005). 5 The sciences do not try to explain, they hardly even try to interpret, they mainly make models. By a model is meant a mathematical construct which, with the addition of certain verbal interpretations, describes observed phenomena. The justification of such a mathematical construct is solely and precisely that it is expected to work . John von Neumann. 6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer eds. 1933. 1.4 proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de otros), y congruente. El objetivo es que el alumno tenga una sólida base de análisis probabilístico y, más importante aún, que pueda conectar los distintos componentes de la teoría de probabilidades con los componentes básicos del análisis econométrico: entre ellos, el experimento aleatorio, las funciones de distribución conjunta, condicional y marginal, y la noción de la independencia entre variables aleatorias. En particular, esta sección busca que el estudiante entienda cómo los econometristas enfrentan el problema de la complejidad del fenómeno que se desea modelar. El capítulo 3 usa la estructura anterior para enfrentar el segundo problema del análisis econométrico: la limitación de información. La principal adición al modelo de probabilidades desarrollado en el capítulo 2 es la restricción derivada del uso de muestras estadísticas y la inevitable necesidad de usar métodos de inferencia estadística para emitir juicios informados respecto de alguna hipótesis. El capítulo busca que el alumno entienda cómo se transforma la incertidumbre respecto de más los resultados de un experimento aleatorio en incertidumbre sobre los parámetros que caracterizan dicho experimento, y cuáles son las ventajas y limitaciones de dicha transformación. Adicionalmente, se presenta la maquinaria de teoría asintótica que será fundamental en el análisis del modelo de regresión lineal del siguiente capítulo. El capítulo 4 desarrolla el modelo de regresión lineal, que ha sido una de las principales herramientas de análisis empírico de los economistas en los últimos 100 años. Este modelo, al que usualmente se le acopla el método de mínimos cuadrados como técnica de parametrización, permite enfrentar un número muy grande de preguntas en economía. A la vez, es suficientemente flexible como para permitir que, en caso que no se cumplan alguno de los supuestos que le sustentan, se desarrollen estimadores alternativos simples y poderosos. Las propiedades de los estimadores de la familia de mínimos cuadrados deben ser estudiadas tanto en muestra pequeña (finita) como grande (infinita) para entender a cabalidad el papel de los supuestos del modelo. Igualmente, se debe estudiar las propiedades de los tests que se construyen a partir de dichos estimadores de mínimos cuadrados, para determinar más su aplicabilidad en circunstancias prácticas. Finalmente, la técnica de mínimos cuadrados no es la única forma de parametrizar un modelo. En el capítulo se estudian dos alternativas adicionales de gran aplicación práctica: el estimador de máxima verosimilitud y el método generalizado de momentos. En el capítulo 5 se estudian los problemas derivados de la violación de los seis supuestos sobre los cuales se desarrolló el modelo de regresión lineal en el capítulo anterior. La lógica de operar es directa: en primer lugar se estudia el efecto de la violación sobre los estimadores de mínimos cuadrados y los diferentes tipos de tests. En segundo lugar, propondremos, si es posible, alguna solución, examinando el contexto en el que dicha solución es válida. En tercer lugar, se discuten los síntomas que delatan la violación de un supuesto y se desarrollan test formales de detección. Por razones 1.5 pedagógicas, en este capítulo se estudian los problemas de manera aislada, es decir, afectando un supuesto a la vez. El capítulo 6 extiende la tecnología anterior al área de los modelos no lineales. Esta es una literatura muy extensa y, posiblemente, aquella que se ha desarrollado con mayor interés en los últimos años como resultado del veloz desarrollo de la computación. La gran mayoría de los modelos no lineales se resuelven por medio de métodos de cálculo numérico debido a que no existen formas cerradas que permitan derivar expresiones matriciales simples para obtener los estimadores. En la primera parte de este capítulo se desarrolla el instrumental necesario para entender los métodos de optimización no lineal que se usan para la estimación de modelos no lineales. En la segunda parte se aplica dicho instrumental para derivar el estimador de mínimos cuadrados no lineales y los tests asociados. El capítulo 7 presenta una introducción a los modelos de datos de panel. Estos métodos combinan observaciones de corte transversal con observaciones de series de tiempo. Así, nos permiten responder preguntas que no pueden ser respondidas por modelos de corte transversal o series de tiempo por separado, porque usan información sobre una cohorte donde hay N individuos heterogéneos a los que seles observa repetidamente durante un periodo de tiempo T. La literatura de la econometría se expande de manera vertiginosa. Por ello, no tiene sentido intentar incluir un gran número de modelos, tests, estimadores y algoritmos de solución. Inevitablemente aparecerán mejores modelos, tests más precisos y estimadores más atractivos. El objetivo del libro es proveer al estudiante de una base sólida para entender las nuevas contribuciones que la econometría nos ofrece. Capítulo 2 Teoría de Probabilidades1 ¿Por qué necesitamos estudiar teoría de probabilidades para analizar observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas de los datos y derivar información útil. Figura 2.1 Inflación mensual en Chile, 1960-2005 Aunque el gráfico anterior describe adecuadamente la distribución de una muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya información es limitada. La teoría de probabilidades provee un modelo matemático para la inferencia estadística que, al realizarse sobre una muestra de observaciones, permite estudiar fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades, en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica. 1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa “que puede ser probado”. 2.2 2.01 Noción de Probabilidad El desarrollo de la noción de probabilidad procedió de manera intuitiva y asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que como veremos más adelante es insuficiente– fue utilizada primero por Abraham De Moivre en 1718 2 y formalizada por Pierre-Simón de Laplace en 1812 3 : Def. 2.1: Si un experimento puede resultar en N resultados mutuamente excluyentes y equiprobables y si NA es uno de dichos resultados, entonces la probabilidad de A es: P A = N A N (2.1) Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el número de posibles resultados sea finito. Segundo, y más importante, al usarse el concepto de “equiprobable” la definición de Laplace adolece de circularidad. Por ello se necesita una definición formal del concepto de probabilidad. Richard von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se requeriría: limN → ∞ N A N =P A (2.2) Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½ porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetir el experimento un número grande de veces se observa que cara sucede un 50% de los casos. Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué significa “límite cuando N tiende a infinito”? ¿Cómo generamos secuencias infinitas de eventos? ¿Qué hacemos cuando no es posible generar secuencias arbitrarias de datos de un experimento? 2 "The probability of an Event is greater or less, according to the number of chances by which it may happen, compared with the whole number of chances by which it may either happen or fail." The Doctrine of Chances. 3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números". 4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik, 5:52-99. 2.3 Lo que se necesita es una teoría de probabilidades con una sólida base matemática. Ella no estuvo disponible sino hasta los años 1930. 2.02 Axiomatización de las Probabilidades El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de otros), y congruente. 5 El trabajo fundacional para la econometría clásica en esta área es el de Andrei Kolmogorov (1933). 6 Existen otros trabajos fundacionales para la econometría Bayesiana. 7 El punto de partida es definir el experimento aleatorio,8 que describe de manera idealizada y simplista el mecanismo que genera los datos (usualmente llamado proceso generador de los datos, PGD). En particular: Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ I. Todos los posibles eventos resultantes son conocidos a-priori. II. En cada realización particular, el resultado no es conocido a-priori. III. Se puede repetir en idénticas condiciones. Un problema con la condición I es que es difícil de formalizar. Kolmogorov sugiere utilizar el conjunto S que contiene todos los posibles resultados de un experimento definidos antes de empezar el experimento. Así, 5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto es congruencia (del Latín, coincidir), aunque el uso popular es inexacto como pasa con otras palabras (p.e., sofisticado). 6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer eds. 1933. 7 R. T. Cox, The Algebra of Probable Inference, Johns Hopkins University Press, Baltimore, MD, (1961). 8 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano (Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de probabilidades. Huygens fue además un famoso astrónomo: descubrió la luna más grande de Saturno – Titán– y sus anillos (en 1655) y la nebulosa de Orión (en 1656). 2.4 Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles resultados del experimento . Los elementos de ℰ S se llaman “eventos elementales”. Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces tiene como espacio muestral: {CC ,CS , SC , SS } . Los elementos CC, CS, SC, SS son los eventos elementales. Por otro lado, al examinar la condición II notamos que el evento de interés no tiene por qué ser únicamente referido a eventos elementales y podría ser una función de ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC } , que no es un evento elemental. En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en este contexto el evento imposible (denotado por ∅ ), en tanto que el mismo conjunto S es llamado el evento seguro. Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería problema usar dicha asociación. La existencia de eventos no elementales complica el problemaporque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1 también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces, habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el modelo matemático sea congruente. Una alternativa sería usar el conjunto de todos los posibles Ai y todas sus combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de lanzar la moneda dos veces éste incluiría, aparte de los eventos elementales, eventos tales como “que salga al menos una cara”, “que no salgan dos sellos”, etc. Así, el conjunto potencia de este experimento es: ℱ ={S ,∅ ,CS ,CC ,SC ,SS , SC ,CS , SC , CC ,SC , SS , CS ,CC ,CS ,SS ,CC ,SS , CS , SC , CC ,CS ,SC , SS ,CC ,SS , SC , CC ,SS ,CS } (2.3) De esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ obtenemos un elemento de .ℱ 2.5 No obstante, cuando S es infinito es posible observar incongruencias (p.e., suma de probabilidades mayor que 1). 9 Así, debemos definir independientemente de ℱ S o, lo que es lo mismo, debemos dotarlo de estructura matemática. Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 10 si • dado A∈ℱ entonces A∈ℱ (cerrado para el complemento) • dado Ai i=1, 2, entonces Ui Ai ∈ ℱ (cerrado para uniones contables o enumerables) Ambas propiedades juntas implican que: • S∈ℱ (porque A∪A=S ) • ∈ℱ (porque S=∈ℱ ) • Ai∈ℱ entonces Ui Ai∈ℱ Dicho de manera más simple, cualquier operación (unión o intersección) de elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ- álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para uniones finitas solamente. Hasta aquí hemos resuelto el problema de incongruencias al postular la existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de Constantin Caratheodory y la noción de medida de Henri Lebesgue 11 . Empezamos primero con el caso más simple, en el cual S es finito. 9 Ejemplo, S={A1 , A2 ,} tal que A1∩ A2=∅ ∀ i ≠ j y P Ai=a0 , entonces P S =∑ i=1 ∞ P Ai =∑ i=1 ∞ a1 . 10 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al- Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una ecuación y resolverla. 11 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes #7, American Mathematical Society, 2001. 2.6 Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ axiomas: • Axioma 1: P A ≥ 0 para todo A∈ℱ . • Axioma 2: P S =1 . • Axioma 3: P U Ai = P Ai si {Ai} es una secuencia de eventos mutuamente excluyentes en (excluyentes significa que ℱ Ai∩A j= ∀ i ≠ j ). Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ intervalo [0, 1]: P · : ℱ [0, 1 ] (2.4) La probabilidad es una medida en el sentido de Lebesgue. Medida es una función definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos disjuntos, la medida total es la suma de las medidas individuales. Es conveniente notar que el axioma 2 opera simplemente como una normalización. Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad de la unión de eventos no relacionados es la suma de las probabilidades individuales. Debido a su importancia, el trío S ,ℱ , P · tiene un nombre particular: Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ una función de probabilidades que satisface los axiomas 1 a 3 se llama espacio de probabilidades. Algunas propiedades interesantes de esta teoría de probabilidades son: • P A=1−P A A∈ℱ • P =0 • Si A1⊂A2 ⇒ P A1≤ P A2 A1, A2∈ℱ • P A1∪A2=P A1P A2−P A1∩A2 2.7 • Si {An }n=1 ∞ es una secuencia de eventos monótona (ordenada) en , entoncesℱ P limn →∞ An= limn →∞ P An .12 Un problema evidente de la construcción de probabilidades hecha de esta manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función que cumpla con las características que se le exige a la función de probabilidades cuando hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel. Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado J . Este es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] , todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta álgebra es llamada álgebra de Borel, B, y permite incluir cualquier tipo de eventos, sean o no elementales, en .ℝ 13 El teorema de extensión de Constantin Carathéodory prueba que para cualquier medida de probabilidad P(.) en el álgebra puede extenderse de manera única al σ-ℱ álgebra generado por los reales. Note que esta medida extendida es única. La prueba de este teorema excede los objetivos del curso. Si aplicamos el teorema de extensión de Carathéodory al álgebra de Borel, entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida es la medida de probabilidad definida más arriba, podemos dotar de estructura de probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras verdaderamente complejas. 12 Usaremos esta propiedad frecuentemente más adelante. 13 Los conjuntos de Borel también se denominan conjuntos de Baire (1874-1932). 2.8 2.03 Variables Aleatorias En la sección anterior hemos construido el enfoque axiomático de probabilidades sobre la base del trío S ,ℱ , P · . Ahorausaremos este enfoque para estudiar variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio de probabilidades fue sugerido como una formalización –un tanto rígida– de un experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ Figura 2.2. Evidentemente, es difícil pensar en funciones de probabilidades a partir de la Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ congruente de P · . Figura 2.2 Si los resultados del experimento fuesen descritos directamente por medio de atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que S ,ℱ , P · . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el papel que juegan las variables aleatorias. La variable aleatoria es una función X que mapea el conjunto S directamente en los reales, , es decir:ℝ X · : S ℝ + (2.5) (CC) (CS) (SC) (SS) (CC) (CS) (SC) (SS) (CS,SC,CC) (CS,SC,SS) (SS,CC) Ф S S F P(· ) 0 1¼ ½ ¾ 2.9 y asigna a cada elemento de S un valor en los reales positivos, xi . Gráficamente, el conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a: Figura 2.3 La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz de mantener la congruencia del análisis de probabilidades al haber eliminado . Laℱ respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a eventos en , en tanto que X asigna valores a elementos de S.ℱ Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra de Borel, B Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que mapea de S a ℝ y que satisface la condición que para cada conjunto de Borel B∈ B en ℝ, el conjunto X −1B={ s : X s ∈ B ,s ∈ S } es un evento en .ℱ (CC) (CS) (SC) (SS) S 0 1 2 ℝX(· ) 2.10 Algunas implicaciones importantes de la definición anterior son: • Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ • Al decidir si alguna función Y · : S →ℝ es una variable aleatoria procedemos siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ viceversa. • Una variable aleatoria no es “variable” ni “aleatoria”. Note que la pregunta “¿es Z · :S ℝ una variable aleatoria?” no tiene ningún sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z que es una variable aleatoria para algunos y no para otros.ℱ 14 Para estos últimos siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué calzar con , pero que frecuentemente son subconjuntos de éste.ℱ Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos ordenados de :ℱ X 1⊂ Z ⊂ℱ En términos prácticos, este último argumento sugiere que al estudiar una variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del experimento completo .ℱ Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de probabilidad no entra en su definición sino que se le asigna para completar el modelo del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor real. Como vemos, la definición “popular” de variable aleatoria (p.e., Greene 15 usa Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex- post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el concepto de función incluido en la definición y enfatiza el de variable. Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto de la línea de los reales. El espacio de Borel B en ℝ juega el papel que antes ocupaba .ℱ 14 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria. 15 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62. 2.11 Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir una función: P x · :B[0,1] tal que P x B =P X −1B ≡ P s : X s ∈B , s∈S para todo B en B. Note que no es necesario definir todos los elementos de B, porque cada uno de sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así, eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito en el Cuadro 2.1. Cuadro 2.1 S X 1 X 2 X {C,C} 1 1 2 {C,S} 1 0 1 {S,C} 0 1 1 {S,S} 0 0 0 las probabilidades son simplemente: Px({0})=¼ Px({1})=½ Px({2})=¼ Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪ Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0 Note que no es necesario asignarle a cada elemento de la recta real una probabilidad sino que definimos el problema por intervalos: P x (−∞ , x ]=[ 0 x0 ¼ 0 ≤ x1 ¾ 1≤ x2 1 2≤ x ] (2.6) 2.12 Recapitulando, empezamos con un experimento 16 definido en el espacio deℰ probabilidades S ,ℱ ,P · y luego hemos definido la variable aleatoria X definida en un espacio de probabilidades equivalente ( , ℝ B , P x · ). La ventaja de este último es que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos arbitrarios”. Gráficamente: Figura 2.4 Lo último que falta es definir apropiadamente P x · . Hasta el momento esta función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que permite definir la función F :ℝ[0,1 ] de la siguiente manera: P x (−∞ ,x ]=F x −F −∞=F x (2.7) 16 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una contundente visión de la importancia del diseño del experimento “To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say what the experiment died of (Indian Statistical Congress, Sankhya, 1938). (CC) (CS) (SC) (SS) (CC) (CS) (SC) (SS) (CS,SC,CC) (CS,SC,SS) (SS,CC) Ф S S F P(· ) 0 1¼ ½ ¾ 0 1 2 0 1 2 0 1 P x (· )ℝ B 2.13 y como los intervalos son ordenados, debemos exigir que F · sea no decreciente, continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que llamamos función de distribución: Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P · . La función punto F: →[0,1] definida por:ℝ F x =P x ( − ∞ , x ]=Pr X ≤ x ∀ x ∈ X se llama Función de Distribución de x y cumple: • F · es no-decreciente • F −∞= lim x−∞ F x =0 F ∞=limx ∞ F x =1 • F · es continua por la derecha ¿Por qué preferimos F · a P · o a P x · ? La principal ventaja de F · es que ésta es una función punto que se puede representar de manera algebraica, que es el manejo habitual que le damos a las funciones de distribución. Habrádos tipos de variables aleatorias: • Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por convención, algún subconjunto del conjunto de los enteros. • Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su función de distribución F x es continua para todo x y existe una función∈ ℝ no-negativa f · en la recta real tal que: F x =∫ −∞ x f x dx donde f · es llamada la Función de Densidad de x. 2.14 2.04 Momentos de una Distribución El valor esperado de una variable aleatoria se define como el promedio de las realizaciones de X ponderado por su probabilidad de ocurrencia. 17 E[ x ]=∑ x f x =x para toda función X discreta (2.8) E[ x ]=∫ x x x f x dx=x para toda función X continua Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor esperado del juego es, naturalmente, $3.5. Otros descriptores comunes del “valor central” de una distribución son la mediana que es el valor “del medio” del rango de valores de la distribución y se usa principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve tan influida por éstos. Cuando se trata de variables discretas ocasionalmente se usa la moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación interesante en variables continuas pues su definición es arbitraria. Más allá del valor esperado, se utiliza frecuentemente: • Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor esperado de la dispersión de la variable aleatoria. • Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado de la asimetría de la variable aleatoria. • Kurtosis18 de una distribución K x =E [x−E x ]4 es decir, es el valor esperado de las colas de la distribución de la variable aleatoria. 17 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del contexto que se trate. 18 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en 1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica (platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales). 2.15 Para describir la distribución de una variable aleatoria resulta más efectivo usar los llamados momentos 19 de la distribución (esperanza, mediana, moda, varianza, skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un momento centrado es de la forma E[∣x−x∣ m ] . Resulta natural preguntarse si existe alguna forma de generar estos momentos de la distribución. La función generatriz de momentos provee una manera elegante de obtener los momentos de una distribución: Def. 2.9: La función generatriz de momentos de una variable aleatoria – posiblemente vectorial– X se define como: m t =E [ e t ' x ]=∫ e t ' x dF x (2.9) donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para −hth existe E[ e t ’ x ] . La función generatriz de momentos provee, como su nombre indica, una manera simple de generar todos los momentos de una distribución. En el caso univariado, se puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el resultado es general): m t =E [ e t ' x ]=E [1tx tx 2 2 ! tx 3 3 ! ... ] =1tE [x ] t 2 2 ! E [x 2 ] t 3 3 ! E [x 3 ]... (2.10) es decir, el término que acompaña a t i i ! es un momento no-centrado de la distribución de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en t=0 tenemos: 19 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893). 2.16 ∂m t=0 ∂ t = E [x ] ∂2 m t =0 ∂ t 2 =E [x 2 ] etc. (2.11) De esta manera podemos generar los momentos de la distribución de una variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son • m x−=E[ e x−]=e− t m x t si μ es constante. • m x y=E [ e x y ]=m x t m y t si x y y son variables aleatorias independientes. Si las variables son acotadas la función generatriz de momentos siempre existe y es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se distribuye: f x = 1 1x 2 (2.12) la función generatriz de momentos es: m t =∫ −∞ ∞ e tx f x dx =[∞ si t ≠ 01 si t=0 ] (2.13) Una solución a este problema consiste en modificar la función generatriz de momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función generatriz de momentos. Así, t =E [ e it ' x ] (2.14) Se puede demostrar que dos variables aleatorias son idénticas si tienen igual t . Para ilustrar el uso que se le da a este tipo de función, consideremos la distribución Normal: 2.17 f x = 1 2 2 e −x− 2 22 (2.15) Aplicando la transformación de la ecuación (2.14), tenemos t = 1 2 2 ∫ −∞ ∞ e it ' x− x− 2 22 dx =e it −1/2 2 t 2 1 2 2 ∫ −∞ ∞ e −x−−i 2 t 22 dx (2.16) Es posible, aunque tedioso 20 , demostrar que ∫ −∞ ∞ e −x−−i 2 t 22 dx= 22 , por lo que se deduce que la función característica de la normal es simplemente: t =e it −1 /2 2 t 2 (2.17) La función característica describe completamente la distribución que, en este caso, depende de la media y la varianza 2 . La función es simétrica alrededor de y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular, si =0 , la función característica de la normal es t =e−1 /2 2 t 2 . 2.05 Distribuciones Discretas de Uso Común Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito, fracaso} y que tienen probabilidades p y 1-p, respectivamente: Exito x=1 P(x=1) = p Fracaso x=0 P(x=0) = (1-p) En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre 20 Para demostrar este resultado recuerde que e itx=costx i sin tx . 2.18 las cuales se encuentra la distribución (o descripción) de los datos del experimento anterior: f x = px 1− p 1−x ∀ x=0,1 =0 en cualquier otro caso (2.18) Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n veces se obtiene la distribución “binomial” 21 f y = ny p y 1− p n− y (2.19) donde ny= n ! n− y ! y ! . Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta por Poisson en 1837 como el límite de la binomialcuando n → ∞ y p → 0 , tal que np es constante. 22 f x i ;= e −i x x i ! (2.20) 21 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of Statistics (1911, p. 305). 22 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar matemáticas”. 2.19 2.06 Distribuciones Continuas de Uso Común En muchos experimentos en economía no puede suponerse que las variables aleatorias de interés sean discretas, por lo que se utilizan funciones continuas. La distribución normal. Si n →∞ , la expresión de la binomial es poco práctica. De Moivre 23 encuentra la función de densidad que resulta en este caso: f z = 1 2 1 e −z−Ez 2 2 2 (2.21) es decir, la distribución normal 24 . Esta distribución es la base de muchos tests y procedimientos de estimación que usaremos en este curso. La distribución normal estándar. La distribución normal se estandariza fácilmente: si z↝N ,2 ⇒ x= z− ↝ N 0,1 (2.22) La distribución Chi cuadrado. Esta distribución deriva de la distribución normal. si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23) Una propiedad de esta función es que sumas de variables que se distribuyen χ² también se distribuyen χ²: si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24) 23 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755. Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el resultado se conoce como Teorema de De Moivre y Laplace. 24 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence (1889). 2.20 La distribución F25 si y↝ χ² m y w ↝ χ² n ⇒ x= y /m w /n ↝ F m , n (2.25) La distribucion “t” de Student26 si z↝N 0,1 y w↝ χ² n ⇒ x= z w /n ↝ t n (2.26) La distribución de Cauchy estándar27 si X 1 y X 2↝ N 0,1 independientes , z= X 1 X 2 ↝ f z = 1 1 1z 2 (2.27) La distribución logística28 F z =[1e z−a b ] −1 (2.28) La Figura 2.5 señala la relación que hay entre las distintas funciones de distribución. 25 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z. 26 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy of Student's Tables as you are the only man that's ever likely to use them!". 27 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que Poisson ya había estudiado la distribución en 1824. 28 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissement de la Population”, Nouveaux Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59. 2.21 Figura 2.5 2.22 2.07 Distribuciones Conjuntas Es posible que dos (o más) variables puedan ser descritas por una función de probabilidades conjunta P a≤x≤b ; c≤ y≤d = ∑ a≤x≤b ∑ c≤ y≤d f x , y =∫ a b ∫ c d f x , y dxdy (2.29) El objetivo principal de las ciencias sociales y la economía en particular es describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis económico. Es importante notar que de la existencia de una distribución conjunta no se deriva que exista una relación causal o de dependencia entre las variables. Simplemente verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no pueda existir alguna relación entre ellos. 2.08 Distribuciones Marginales Suponiendo que existe la densidad conjunta de dos o más variables, resulta natural preguntarse: ¿qué probabilidad tiene x (o y) de ocurrir, independientemente de los valores que tome la o las otras variables y (o x)? Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles valores de “la o las otras variables”. En un caso de dos variables: f x x =∑ y f x , y =∫ y f x , y dy (2.30) Asociadas a la distribución marginal habrá, naturalmente, una esperanza marginal, varianza marginal, etc. 2.23 De la existencia de las distribuciones marginales se deriva el concepto de independencia estadística: “Si la densidad conjunta es el producto de las marginales, las variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia estadística de un modo interesante. Usando variables independientes resulta directo demostrar la utilidad de la función generatriz de momentos. Suponga que x e y son variables aleatorias independientes normales, entonces el proceso z = x+y cumple la siguiente propiedad: m x t =e x t x 2 t 2 2 m y t =e y t y 2 t 2 2 m x y t =e x t x 2 t 2 2 ⋅e y t y 2 t 2 2 =e x y t x 2 y 2 t 2 2 es decir, z se distribuye como una normal con media x y y varianza x 2 y 2 . Paradoja del Chevalier de Mere En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema propuesto por el Sr. de Méré, un noble francés que se apasionó por los juegos de azar. Empíricamente, de Méré observó que la probabilidad de sacar al menos un 6 en 4 lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en 24 lanzamientos es menor que ½. En su razonamiento, de Méré concluyó que ambas debian ser iguales: 6 es a 4 como 36 es a 24. Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es 1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n lanzamientos es (1/6) n . Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es (5/6) n , por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1- (5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de dos dados es (1/36) n , por lo que la probabilidad de no obtener 1 doble seis en n lanzamientos es (35/36) n . Finalmente, la probabilidad de obtener al menos 1 doble seis en 24 lanzamientos es 1-(35/36) 24 =0.4914. De Méré estaba en lo correcto desde el punto de vista empírico pero su razonamiento era erróneo. 2.24 2.09 Distribuciones Condicionales Para ciencias sociales, la distribución más interesante es la condicional, es decir aquella que describe cuál es la probabilidad que ocurra y condicionalen que x tome algún cierto valor y que denotamos por f y | x . Se puede demostrar que f y | x = f x , y f x x , y . Para ello, definiremos primero la noción de probabilidad condicional. Supongamos que en el experimento de tirar dos monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={{CC}, {CS}}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A={∅ ,{S },{CC },{SS }} . Entonces, tienen que cambiar las probabilidades P · , siendo ahora: PA({ ∅ })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½ El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de probabilidad S ,ℱ , P · al espacio de probabilidad condicional S A ,ℱ A ,P A · . Definiremos la probabilidad condicional como: P A A1=P A1| A= P A1∩A P A (2.31) si y sólo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1 –de forma análoga a como definimos la función de densidad– obtenemos la Función de Densidad Condicional que describimos más arriba. Resulta clave entender que la media condicional de y en x, E[ y |x ] , es exactamente el concepto de una regresión lineal en econometría. Suponga que el experimento puede ser descrito por la siguiente relación: y i=x ii con i una variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y cov [i , j ]= 2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]=x . Un segunda propiedad interesante se deriva al aplicar el operador varianza condicional al modelo anterior. Un poco de álgebra permite obtener: V [ y |x ]=E [ y 2 | x ]−E [ y |x ] 2 (2.32) Esta es la función cedástica. 2.25 De la ecuación (2.32) y usando la ley de las esperanzas iteradas E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada descomposición de varianza) V [ y ]=V x [E y | x ]Ex [V y |x ] . Esta expresión indica que la variación total de los datos puede ser entendida –o descompuesta— como la variación de la media condicional más la variación de las realizaciones alrededor de la media condicional. De esta descomposición se desprende que: Ex [V y |x ]=V [ y ]−V x [E y |x ] (2.33) es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión es menor que aquella de los datos. 29 También se define la bondad de ajuste de una regresión como la relación entre la varianza de la media condicional (es decir, modelada) respecto de la varianza total del fenómeno: R 2= V x [E y |x ] V [ y ] (2.34) Note que la bondad de ajuste depende de la media condicional, es decir, depende como se modele la media condicional. Ello pone límites al uso de la bondad de ajuste como instrumento de selección de modelos econométricos. Más adelante volveremos a revisar conceptos tales como función cedástica, bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal. Es importante, a estas alturas, comprender que dichos conceptos no se restringen al método de mínimos cuadrados, sino que son de aplicación general. 29 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage). 2.26 Apéndice A: Ejercicios 1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una distribución normal, para las cuales usted estimó su media y varianza. Justifique cuidadosamente cada uno de sus pasos. 2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y el evento imposible pertenecen al σ-álgebra asociado. 3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-post. 4. Identifique las principales limitaciones de las definiciones de probabilidad clásica (de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas limitaciones. 5. En el ejemplo 2.3 del texto, ¿es A={SC ,CS } un σ-álgebra? 6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓ 7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un índice de precios. La distribución marginal del dinero es normal con media x y varianza unitaria, en tanto que la distribución marginal del índice de precios es también normal con media y y varianza igual a . Use la función característica para encontrar la distribución de Z, suponiendo que ambas variables son independientes. 8. Sea una muestra de n observaciones con distribución f y =[1 y 2] −1 . Demuestre que el valor esperado no existe. ¿Existe su varianza? 9. Demuestre que el coeficiente de correlación es invariante ante transformaciones lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de correlación de los datos { yn , x n} para las transformaciones abx i ; cdyi , i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que r 1=r 2 . 10. Considere una variable aleatoria {x} con distribución normal de media μ y desviación estándar σ. Encuentre c –en función de la esperanza y la varianza– tal que P xc =2P x ≥c 2.27 11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión para estimar μ y σ². 12. Si la función de densidad de y es y21− y 3 para y definido entre 0 y 1: ¿qué número es α y cuál es la probabilidad de que y esté entre 0 y ½? 13. Considere el sorteo Kino 30 (que excluye el super número) como un experimento aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escoger 7ℰ números, que se eligen ambos de entre 30 alternativas. Si acierta a los 7 números, ya ganó el pozo Kino. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin reemplazo.) • Describa el espacio muestral, S. • Describa el σ-álgebra asociado a S. • Compute la probabilidad de ganar si el experimento es sin reemplazo. • ¿Es la probabilidad que Usted computó congruente con la información que entrega la Lotería en la misma página web? Información adicional: Sorteos realizados a la fecha: 922, Ganadores con 7 aciertos: 40. 14. Suponga que usted debe reorganizar el poder judicial creando un sistema de incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces (honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos jueces cada día, los que permanecen incógnitos (muestra con reemplazo). • Construya el modelo probabilístico que describe el fenómeno. Defina claramente el experimento aleatorio y el espacio de probabilidades. • Construya el modelo muestral asociado. • Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos jueces hay que remover? 15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales. En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción puede ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el mayor número de días enlos que dicha proporción es más que 60%? (a) el hospital grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted decir por qué la gente se equivoca tanto al responder? 30 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought that's what the lottery was!” Gallagher Capítulo 3 Elementos de Inferencia Estadística Es muy cierto que cuando no está en nuestro poder determinar lo que es verdadero, debemos actuar de acuerdo a lo que es más probable. R. Descartes, Discurso del Método, 1637 En el capítulo anterior hemos discutido la estructura axiomática de las probabilidades que será la base del análisis de inferencia estadística. Resulta natural preguntarse por qué es necesario “inferir”.1 Después de todo, si tenemos un conjunto de observaciones podemos describirlas usando alguna función de probabilidad o, en el peor de los casos, usando un histograma. 3.01 Modelo probabilístico, modelo muestral y modelo estadístico La lógica de razonar hasta ahora ha sido la siguiente. Utilizamos el enfoque axiomático de probabilidades para formalizar el concepto de experimento aleatorio ( )ℰ definido en el espacio de probabilidades S ,ℱ , P · . La incertidumbre respecto del resultado particular del experimento se resume en P · . Para evitar la rigidez de esta formalización utilizamos un espacio equivalente ( , ℝ B , P x · ), en el que definimos variables aleatorias, x. Escogiendo apropiadamente los eventos asociados a x de la forma (−∞ , x ] podemos construir una función punto que describa congruentemente la probabilidad de ocurrencia de los eventos en x y que llamamos la función de distribución, F ⋅ : P s : X s∈(−∞ , x ] , s∈S =Px (−∞ , x ]=F x (3.1) Esta función puede ser simplificada y hecha aún más flexible con la ayuda de la función de densidad, la que cumple F x =∫ −∞ x f u du . La ventaja de usar f u es que ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre asociada al experimento por incertidumbre respecto de los parámetros ℰ que, dentro de una familia de formas funcionales, identifican una función de densidad específica a la que denominamos f x , . 1 Inferir viende del latín “inferre” que significa “causar o llevar en sí”. El sentido popular de “extraer una conclusión” es probablemente del siglo 16. 3.2 Finalmente, definimos el modelo probabilístico ={ f x; ,∈} a la familia de funciones paramétricas de probabilidad (p.e., normal, Poisson, etc.) que se usa para describir las observaciones, x. Se presume que el vector de parámetros pertenece al espacio de los parámetros (típicamente un múltiplo de la recta real). La intuición es directa: dado un conjunto de observaciones, x, cuando se postula un modelo probabilístico que las describa basado en una distribución f x , , se ha eliminado la incertidumbre respecto del verdadero mecanismo que genera los datos (PGD), reemplazándola por incertidumbre respecto de la parametrización adecuada de la función f x , . El objetivo de la inferencia estadística es precisamente identificar y hacer tests de hipótesis sobre aquel * que, con algún criterio, sea elegido para que f x ,* describa adecuadamente los datos. Para la inferencia se usarán datos de corte transversal, de series de tiempo, o una combinación de ambos tipos de datos que llamamos datos de panel. Note la importante diferencia entre la descripción de datos y la inferencia estadística. La descripción de las observaciones puede ser hecha por medio de funciones de distribución escogidas a su vez mediante el análisis de la frecuencia de los datos. Por su lado, la inferencia estadística pretende identificar (aproximarse) el mecanismo que genera los datos (y no los datos mismos). Es decir, el objetivo de la inferencia es hacer un modelo general. La inferencia estadística parte de la base que existe un modelo probabilístico ={ f x; ,∈} al que se le añade un segundo modelo, llamado modelo muestral, que es el que provee la conexión entre el modelo probabilístico y las observaciones. Para ello definiremos primero algunos conceptos necesarios: Def. 3.1 Una muestra es un conjunto de variables aleatorias x1 , x2 , cuyas funciones de densidad coinciden con la función de densidad f x , postulada por el modelo probabilístico. Note que este significado está lejos del uso cotidiano de la palabra muestra, en particular porque no se refiere a datos observados. De la definición se deduce que una muestra en el sentido coloquial –una colección de números– en realidad corresponde a una de las muchas posibles realizaciones del conjunto de variables aleatorias que componen la muestra. La muestra es, entonces, un segundo experimento, diseñado para complementar el experimento descrito por el modelo probabilístico. Así, dado que la muestra es un conjunto de variables aleatorias, ella deberá tener una distribución: 3.3 Def. 3.2 La distribución de la muestra x=x1 , x2 , , xn se define como la distribución conjunta de la variables aleatorias {x1 , x2 , , xn} denominada por: f {x1 , x2 , , xn};≡ f x ; (3.2) Note que la distribución muestral incluye dos elementos: la información respecto de la probabilidad y aquella sobre la muestra. Habrá, por tanto, dos fuentes de incertidumbre. Así, la forma que tome f x ; depende crucialmente del muestreo. La manera más intuititiva de pensar en el muestreo se deriva del mismo experimento aleatorio, .ℰ Resulta conveniente discutir la naturaleza de las muestras para identificar algunas de sus características y, más importante aún, para saber el tipo de información contenida en ellas. Def. 3.3 Un conjunto de variables aleatorias {x1 , x2 , , xn} es llamado una muestra aleatoria de tamaño n de f x ; si dichas variables aleatorias provienen de una misma distribución (población) y son independientes, i.i.d. En este caso, la muestra queda descrita por: f x1 , x2 , , xn ;=∏ i=1 n f xi ;=[ f xi ;] n (3.3) La primera igualdad proviene de la noción de independencia estadística que ya vimos y la segunda de la condición que las variables están distribuidas idénticamente. Cuando las variables aleatorias no se distribuyen idénticamente, la muestra es llamada muestra independiente y su distribución es f x 1 , x 2 , ... , x n ; =∏ i=1 n f x i ; . Si las variables aleatorias tampoco son independientes, la muestra es llamada muestra no aleatoria y la única descripción posible de la función de probabilidad que dió origen a las observaciones es la distribución condicional f x i | x 1 ,x 2 , ... , x n ;=∏ i=1 n f x i | x 1 , x 2 , ... ; . La combinación de los modelos probabilístico y muestral permite definir el modelo estadístico, que será la base de todo el análisis econométrico que se desarrolla posteriormente: 3.4 Def. 3.4 Un modelo estadístico se define como aquel que incluye: ● un modelo probabilístico, ={ f x ; ,∈} ● un modelo muestral, x=x1 , x2 , , xn Obviamente, los dos modelos están interrelacionados, pues no resulta razonable suponer un modelo del tipo ={ f x; ,∈} si la muestra no es aleatoria. En tal caso, habría que proponer un modelo para la distribución conjunta ={ f x1 , x2 , , x n ; ,∈} . El modelo estadístico y los datos observados nos permiten responder varios tipos de preguntas: 1. ¿Es el modelo estadístico postulado congruente con los datos? Este tipo de pregunta es también conocido como análisis de especificación del modelo2. 2. Suponiendo que el modelo estadístico es congruente con los datos, ¿qué podemos inferir de los parámetros? a) ¿Podemos reducir la incertidumbre
Compartir