Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Capítulo 2 Teoría de Probabilidades1 ¿Por qué necesitamos estudiar teoría de probabilidades para analizar observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas de los datos y derivar información útil. Figura 2.1 Inflación mensual en Chile, 1960-2005 Aunque el gráfico anterior describe adecuadamente la distribución de una muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya información es limitada. La teoría de probabilidades provee un modelo matemático para la inferencia estadística que, al realizarse sobre una muestra de observaciones, permite estudiar fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades, en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica. 1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa “que puede ser probado”. 2.2 2.01 Noción de Probabilidad El desarrollo de la noción de probabilidad procedió de manera intuitiva y asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que como veremos más adelante es insuficiente– fue utilizada primero por Abraham de Moivre en 17182 y formalizada por Pierre-Simon de Laplace en 18123: Def. 2.1: Si un experimento puede resultar en N resultados mutuamente excluyentes y equiprobables y si NA es uno de dichos resultados, entonces la probabilidad de A es: P A = N A N (2.1) Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el número de posibles resultados sea finito. Segundo, y más importante, al usarse el concepto de “equiprobable” la definición de Laplace adolece de circularidad. Por ello se necesita una definición formal del concepto de probabilidad. Richard von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se requeriría: limN → ∞ N A N =P A (2.2) Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½ porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetirse el experimento un número grande de veces se observa que cara sucede un 50% de los casos. 2 "The probability of an Event is greater or less, according to the number of chances by which it may happen, compared with the whole number of chances by which it may either happen or fail." The Doctrine of Chances. 3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con números". 4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik, 5:52-99. 2.3 Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué significa “límite cuando N tiende a infinito”? ¿cómo generamos secuencias infinitas de eventos? ¿qué hacemos cuando no es posible generar secuencias de datos de un experimento? 2.02 Axiomatización de las Probabilidades El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de otros), y congruente.5 El trabajo fundacional en esta área es el de Kolmogorov (1933).6 El punto de partida es definir el experimento aleatorio,7 que describe de manera idealizada y simplista el mecanismo que genera los datos (usualmente llamado DGP). En particular: Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ I. Todos los posibles eventos resultantes son conocidos a-priori. II. En cada realización particular, el resultado no es conocido a-priori. III. Se puede repetir en idénticas condiciones. Un problema con la condición I es que es difícil de formalizar. Kolmogorov sugiere utilizar el conjunto S que contiene todos los posibles resultados de un experimento definidos antes de empezar el experimento. Así, Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles resultados del experimento . Los elementos de ℰ S se llaman “eventos elementales”. 5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto es congruencia (del Latin, coincidir), aunque el uso popular es inexacto como pasa con otras palabras (p.e., sofisticado). 6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer eds. 1933. 7 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano (Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de probabilidades. Huygens fue además un famoso astrónomo y descubrió la nebulosa de Orión (en 1656), y la luna de Saturno –Titán– y sus anillos (en 1656). 2.4 Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces tiene como espacio muestral: {CC ,CS ,SC , SS } . Los elementos CC, CS, SC, SS son los eventos elementales. Por otro lado, al examinar la condición II notamos que el evento de interés no tiene por qué ser únicamente referido a eventos elementales y podría ser una función de ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC } que no es un evento elemental. En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en este contexto el evento imposible (denotado por ), en tanto que el mismo conjunto S es llamado el evento seguro. Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería problema usar dicha asociación. La existencia de eventos no elementales complica el problema porque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1 también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces, habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el modelo matemático sea congruente. Una alternativa sería usar el conjunto de todos los posibles A i y todas sus combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de lanzar la moneda dos veces éste sería: ℱ ={S ,∅ ,CS ,CC ,SC ,SS , SC ,CS , SC , CC ,SC , SS , CS ,CC ,CS ,SS ,CC ,SS , CS , SC , CC ,CS ,SC , SS ,CC ,SS , SC , CC ,SS ,CS } (2.3) de esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ obtenemos un elementode .ℱ No obstante, cuando S es infinito o no contable, es posible observar incongruencias (p.e., suma de probabilidades mayor que 1).8 Así, debemos definir ℱ independientemente de S o, lo que es lo mismo, debemos dotarlo de estructura matemática. 8 Ejemplo, S={A1 , A2 ,…} tal que A1∩ A2= ∀ i ≠ j y P A i=a0 , entonces P (S)=∑ i=1 ∞ P (A i)=∑ i=1 ∞ a>1 . 2.5 Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 9 si • dado A∈ℱ entonces A∈ℱ (cerrado para el complemento) • dado A i i=1, 2, entonces U i A i ∈ ℱ (cerrado para uniones contables o enumerables) Ambas propiedades juntas implican que: • S∈ℱ (porque A∪A=S ) • ∈ℱ (porque S=∈ℱ ) • A i∈ℱ entonces U i A i∈ℱ Dicho de manera más simple, cualquier operación (unión o intersección) de elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ- álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para uniones finitas. Hasta aquí hemos resuelto el problema de incongruencias al postular la existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de Constantin Caratheodory y la noción de medida de Lebesgue10. Empezamos primero con el caso más simple, en el cual S es finito. Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ axiomas: • Axioma 1: P A ≥ 0 para todo A∈ℱ . • Axioma 2: P S =1 . • Axioma 3: P U A i = P A i si {A i} es una secuencia de eventos mutuamente excluyentes en (excluyentes significa que ℱ A i∩A j= ∀ i ≠ j ). 9 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al- Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una ecuación y resolverla. 10 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes # 7, American Mathematical Society, 2001. 2.6 Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ intervalo [0, 1]: P · : ℱ [0, 1 ] (2.4) La probabilidad es una medida en el sentido de Lebesgue. Medida es una función definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos disjuntos, la medida total es la suma de las medidas individuales. Es conveniente notar que el axioma 2 opera simplemente como una normalización. Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad de la unión de eventos no relacionados es la suma de las probabilidades individuales. Debido a su importancia, la tríada S ,ℱ , P · tiene un nombre particular: Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ una función de probabilidades que satisface los axiomas 1 a 3 se llama espacio de probabilidades. Algunas propiedades interesantes de esta teoría de probabilidades son: • P A=1−P A A∈ℱ • P =0 • Si A1⊂A2 ⇒ P A1≤ P A2 A1, A2∈ℱ • P A1∪A2=P A1P A2−P A1∩A2 • Si {An }n=1 ∞ es una secuencia de eventos monótona (ordenada) en , entoncesℱ P limn →∞ An= limn →∞ P An .11 Un problema evidente de la construcción de probabilidades hecha de esta manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un 11 Usaremos esta propiedad frecuentemente más adelante. 2.7 número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función que cumpla con las características que se le exige a la función de probabilidades cuando hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel. Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado J . Este es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] , todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta álgebra es llamada álgebra de Borel, B , y permite incluir cualquier tipo de eventos, sean o no elementales, en . ℝ El teorema de extensión de Carathéodory prueba que para cualquier medida de probabilidad P(.) en el álgebra puede extenderse de manera única al σ-álgebraℱ generado por los reales. Note que esta medida extendida es única. La prueba de este teorema excede los objetivos del curso. Si aplicamos el teorema de extensión de Caratheodory al álgebra de Borel, entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida es la medida de probabilidad definida más arriba, podemos dotar de estructura de probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras verdaderamente complejas. 2.03 Variables Aleatorias En la sección anterior hemos construido el enfoque axiomático de probabilidades sobre la base de la tríada S ,ℱ , P · . Ahora usaremos este enfoque para estudiar variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio de probabilidades fue sugerido como una fomalización –un tanto rígida– de un experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ Figura 2.2. Evidentemente, es difícil pensar en funciones de probabilidades a partir de la Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ congruente de P · . 2.8 Figura 2.2 Si los resultados del experimento fuesen descritos directamente por medio de atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que S ,ℱ , P · . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el papel que juegan las variables aleatorias. La variable aleatoria es una función X que mapea el conjunto S directamente en los reales, , es decir:ℝ X · : Sℝ + (2.5) y asigna a cada elemento de S un valor en los reales positivos, x i . Gráficamente, el conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a: (CC) (CS) (SC) (SS) (CC) (CS) (SC) (SS) (CS,SC,CC) (CS,SC,SS) (SS,CC) Ф S S F P(· ) 0 1¼ ½ ¾ 2.9 Figura 2.3 La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz de mantener la congruenciadel análisis de probabilidades al haber eliminado . Laℱ respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a eventos en , en tanto que X asigna valores a elementos de S.ℱ Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra de Borel, B Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que mapea de S a y que satisface la condición que para cada conjunto deℝ Borel B∈B en , el conjunto ℝ X−1B={ s : X s ∈ B ,s ∈ S } es un evento en .ℱ Algunas implicaciones importantes de la definición anterior son: • Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ • Al decidir si alguna función Y · : S →ℝ es una variable aleatoria procedemos siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ viceversa. • Una variable aleatoria no es “variable” ni “aleatoria”. (CC) (CS) (SC) (SS) S 0 1 2 ℝX(· ) 2.10 Note que la pregunta “¿es Z · :Sℝ una variable aleatoria?” no tiene ningún sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z que es una variable aleatoria para algunos y no para otros.ℱ 12 Para estos últimos siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué calzar con , pero que frecuentemente son subconjuntos de éste.ℱ Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos ordenados de :ℱ X 1⊂ Z ⊂ℱ En términos prácticos, este último argumento sugiere que al estudiar una variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del experimento completo .ℱ Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de probabilidad no entra en su definición sino que se le asigna para completar el modelo del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor real. Como vemos, la definición “popular” de variable aleatoria (p.e., Greene13 usa Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex- post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el concepto de función incluido en la definición y enfatiza el de variable. Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto de la línea de los reales. El espacio de Borel B en juega el papel que antes ocupaba .ℝ ℱ Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir una función: P x · :B[0,1] tal que P x B =P X −1 B ≡ P s : X s ∈B , s∈S para todo B en B. Note que no es necesario definir todos los elementos de B, porque cada uno de sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así, eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función 12 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria. 13 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62. 2.11 de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito en el Cuadro 2.1. Cuadro 2.1 S X 1 X 2 X {C,C} 1 1 2 {C,S} 1 0 1 {S,C} 0 1 1 {S,S} 0 0 0 las probabilidades son simplemente: Px({0})=¼ Px({1})=½ Px({2})=¼ Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪ Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0 Note que no es necesario asignarle a cada elemento de la recta real una probabilidad sino que definimos el problema por intervalos: P x (−∞ , x ]=[ 0 x0 ¼ 0 ≤ x1 ¾ 1≤ x2 1 2≤ x ] (2.6) 2.12 Recapitulando, empezamos con un experimento14 definido en el espacio deℰ probabilidades S ,ℱ ,P · y luego hemos definido la variable aleatoria X definida en un espacio de probabilidades equivalente ( , ℝ B , P x · ). La ventaja de este último es que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos arbitrarios”. Gráficamente: Figura 2.4 Lo último que falta es definir apropiadamente P x · . Hasta el momento esta función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que permite definir la función F :ℝ[0,1 ] de la siguiente manera: 14 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una contundente visión de la importancia del diseño del experimento “To call in the statistician after the experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say what the experiment died of (Indian Statistical Congress, Sankhya, 1938). (CC) (CS) (SC) (SS) (CC) (CS) (SC) (SS) (CS,SC,CC) (CS,SC,SS) (SS,CC) Ф S S F P(· ) 0 1¼ ½ ¾ 0 1 2 0 1 2 0 1 P x (· )ℝ B 2.13 P x (−∞ ,x ]=F x −F −∞=F x (2.7) y como los intervalos son ordenados, debemos exigir que F · sea no decreciente, continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que llamamos función de distribución: Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P · . La función punto F: →[0,1] definida por:ℝ F x =P x ( − ∞ , x ]=Pr X ≤ x ∀ x ∈ X se llama Función de Distribución de x y cumple: • F · es no-decreciente • F −∞= lim x−∞ F x =0 F ∞=lim x ∞ F x =1 • F · es contínua por la derecha ¿Por qué preferimos F · a P · o a P x · ? La principal ventaja de F · es que ésta es una función punto que se puede representar de manera algebraica, que es el manejo habitual que le damos a las funciones de distribución. Habrá dos tipos de variables aleatorias: • Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por convención, algún subconjunto del conjunto de los enteros. • Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su función de distribución F x es continua para todo x y existe una función∈ ℝ no-negativa f · en la recta real tal que: F x =∫ −∞ x f x dx donde f · es llamada la Función de Densidad de x. 2.14 2.04 Momentos de una Distribución El valor esperado de una variable aleatoria se define como el promedio de las realizaciones de X ponderado por su probabilidad de ocurrencia.15 E[ x ]=∑ x f x =x para toda función X discreta (2.8) E[ x ]=∫ x x x f x dx=x para toda función X continua Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor esperado del juego es, naturalmente, $3.5. Otros descriptores comunes del “valor central” de una distribución son la mediana que es el valor “del medio” del rango de valores de la distribución y se usa principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve tan influida por éstos.Cuando se trata de variables discretas ocasionalmente se usa la moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación interesante en variables continuas pues su definición es arbitraria. Más allá del valor esperado, se utiliza frecuentemente: • Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor esperado de la dispersión de la variable aleatoria. • Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado de la asimetría de la variable aleatoria. • Kurtosis16 de una distribución K x =E [x−E x ]4 es decir, es el valor esperado de las colas de la distribución de la variable aleatoria. 15 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del contexto que se trate. 16 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en 1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica (platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales). 2.15 Para describir la distribución de una variable aleatoria resulta más efectivo usar los llamados momentos17 de la distribución (esperanza, mediana, moda, varianza, skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un momento centrado es de la forma E[∣x− x∣ m ] . Resulta natural preguntarse si existe alguna forma de generar estos momentos de la distribución. La función generatriz de momentos provee una manera elegante de obtener los momentos de una distribución: Def. 2.9: La función generatriz de momentos de una variable aleatoria – posiblemente vectorial– X se define como: m t =E [ e t ' x ]=∫ e t ' x dF x (2.9) donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para −hth existe E[ e t ’ x ] . La función generatriz de momentos provee, como su nombre indica, una manera simple de generar todos los momentos de una distribución. En el caso univariado, se puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el resultado es general): m t =E [ e t ' x ]=E [1tx tx 2 2 ! tx3 3 ! ... ] =1tE [x ] t 2 2 ! E [x 2 ] t 3 3 ! E [x 3 ]... (2.10) es decir, el término que acompaña a t i i ! es un momento no-centrado de la distribución de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en t=0 tenemos: ∂m t=0 ∂ t = E [x ] ∂ 2 m t=0 ∂ t 2 =E [x 2 ] etc. (2.11) 17 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893). 2.16 De esta manera podemos generar los momentos de la distribución de una variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son • m x−=E[ e x− ]=e− t m x t si μ es constante. • m x y=E [ e x y ]=m x t m y t si x y y son variables aleatorias independientes. Si las variables son acotadas la función generatriz de momentos siempre existe y es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se distribuye: f x = 1 1x 2 (2.12) la función generatriz de momentos es: m t =∫ −∞ ∞ e tx f x dx =[∞ si t ≠ 01 si t=0 ] (2.13) Una solución a este problema consiste en modificar la función generatriz de momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función generatriz de momentos. Así, t =E [ e it ' x ] (2.14) Se puede demostrar que dos variables aleatorias son idénticas si tienen igual t . Para ilustrar el uso que se le da a este tipo de función, consideremos la distribución Normal: f x = 1 2 2 e −x−2 2 2 (2.15) Aplicando la transformación de la ecuación (2.14), tenemos t = 1 2 2 ∫ −∞ ∞ e it ' x− x− 2 2 2 dx =e it −1/2 2 t 2 1 2 2 ∫ −∞ ∞ e −x−−i 2 t 2 2 dx (2.16) 2.17 Es posible, aunque tedioso18, demostrar que ∫ −∞ ∞ e −x−−i 2 t 2 2 dx=22 , por lo que se deduce que la función característica de la normal es simplemente: t =e it −1 /2 2 t2 (2.17) La función característica describe completamente la distribución que, en este caso, depende de la media y la varianza 2 . La función es simétrica alrededor de y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular, si =0 , la función característica de la normal es t =e−1 /2 2 t2 . Cuadro 2.1 Distribuciones, funciones generatrices de momentos y funciones características de uso común Distribución Función Generatriz de Momentos Mx(t) Función Característica φ(t) Bernoulli: Bi(p) 1− p+ pe t 1− p+ pe it Geométrica: G(k,p) pe t 1−(1− p)et ∀t<−ln(1−p) pe it 1−(1−p)e it Binomial: B(n,p) (1− p+ pe t)n (1− p+ pe it )n Poisson: P( λ ) eλ(e t −1) eλ(e it −1) Uniforme (continua) U(a,b) e tb−e ta t(b−a ) e itb−e ita it (b−a) Uniforme (discreta) U(a,b) e ta−e t (b+1) (b−a+1)(1−e t) eita−eit (b+1) (b−a+1)(1−e it ) Normal univariada: N (μ ,σ2) e tμ+1 2 σ 2 t 2 e itμ−1 2 σ 2 t2 Chi-cuadrada χk 2 (1−2t) −k 2 (1−2it) −k 2 Gamma Γ(k ,θ) (1−θ t )−k (1−i θ t)−k Exponencial exp(λ) (1−t λ−1)−1 for all t<λ (1−it λ−1)−1 18 Para demostrar este resultado recuerde que e itx=costx i sin tx . 2.18 2.05 Distribuciones Discretas de Uso Común Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito, fracaso} y que tienen probabilidades p y 1-p, respectivamente: Exito x=1 P(x=1) = p Fracaso x=0 P(x=0) = 1-p En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre las cuales se encuentra la distribución (o descripción) de los datos del experimento anterior: f x = px 1− p 1−x ∀ x=0,1 =0 en cualquier otro caso (2.18) Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n veces se obtiene la distribución “binomial”19 f y =ny p y 1− p n− y (2.19) donde ny= n ! n− y ! y ! . Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta por Poisson en 1837 como el límite de la binomial cuando n → ∞ y p → 0 , tal que np es constante.20 f x i ;= e−i x x i ! (2.20) 19 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of Statistics (1911, p. 305). 20 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar matemáticas”. 2.19 2.06 Distribuciones Continuas de Uso Común En muchos experimentos en economía no puede suponerse que las variables aleatorias de interés sean discretas, por lo que se utilizan funciones continuas. La distribución normal. Si n →∞ , la expresión de la binomial es pocopráctica. De Moivre21 encuentra la función de densidad que resulta en este caso: f z = 1 2 1 e −z−Ez 2 22 (2.21) es decir, la distribución normal22. Esta distribución es la base de muchos tests y procedimientos de estimación que usaremos en este curso. La distribución normal estándar. La distribución normal se estandariza fácilmente: si z↝N ,2 ⇒ x=z− ↝ N 0,1 (2.22) La distribución Chi cuadrado Esta distribución deriva de la distribución normal. si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23) Una propiedad de esta función es que sumas de variables que se distribuyen χ² también se distribuyen χ²: si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24) 21 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755. Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el resultado se conoce como Teorema de De Moivre y Laplace. 22 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence (1889). 2.20 La distribución F23 si y↝ χ² m y w ↝ χ² n ⇒ x= y /m w /n ↝ F m , n (2.25) La distribucion “t” de Student24 si z↝N 0,1 y w↝ χ² n ⇒ x= z w /n ↝ t n (2.26) La distribución de Cauchy25 si X 1 y X 2↝ N 0,1 independientes , z= X 1 X 2 ↝ f z = 1 1 1z 2 (2.27) La distribución logística26 f z =[1e z−a b ] −1 (2.28) La Figura 2.5 señala la relación que hay entre las distintas funciones de distribución. 23 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z. 24 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy of Student's Tables as you are the only man that's ever likely to use them!". 25 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que Poisson ya había estudiado la distribución en 1824. 26 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissemnt de la Population”, Nouveaux Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59. 2.21 Figura 2.5 2.22 2.07 Distribuciones Conjuntas Es posible que dos (o más) variables puedan ser descritas por una función de probabilidades conjunta P a≤x≤b ; c≤ y≤d = ∑ a≤x≤b ∑ c≤ y≤d f x , y =∫ a b ∫ c d f x , y dxdy (2.29) El objetivo principal de las ciencias sociales y la economía en particular es describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis económico. Es importante notar que de la existencia de una distribución conjunta no se deriva que exista una relación causal o de dependencia entre las variables. Simplemente verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no pueda existir alguna relación entre ellos. 2.08 Distribuciones Marginales Suponiendo que existe la densidad conjunta de dos o más variables, resulta natural preguntarse ¿que probabilidad tiene x (o y) de ocurrir, independientemente de los valores que tome la o las otras variables y (o x)? Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles valores de “la o las otras variables”. En un caso de dos variables: f x x =∑ y f x , y =∫ y f x , y dy (2.30) Asociadas a la distribución marginal habrá, naturalmente, una esperanza marginal, varianza marginal, etc. De la existencia de las distribuciones marginales se deriva el concepto de independencia estadística: “Si la densidad conjunta es el producto de las marginales, las 2.23 variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia estadística de un modo interesante. Usando variables independientes resulta directo demostrar la utilidad de la función generatriz de momentos. Suponga que x e y son variables aleatorias independientes normales, entonces el proceso z=x+y cumple la siguiente propiedad: m x t =e x t x 2 t 2 2 m y t =e y t y 2 t 2 2 m x y t =e x t x 2 t 2 2 ⋅e y t y 2 t 2 2 =e x y t x 2 y 2 t2 2 es decir, z se distribuye como una normal con media x y y varianza x 2 y 2 . Paradoja del Chevalier de Mere En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema propuesto por el Sr. de Mere, un noble francés que se apasionó por los juegos de azar. Empíricamente, de Mere observó que la probabilidad de sacar al menos un 6 en 4 lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en 24 lanzamientos es menor que ½. En su razonamiento, de Mere concluyó que ambas debian ser iguales: 6 es a 4 como 36 es a 24. Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es 1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n lanzamientos es (1/6)n. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es (5/6)n, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1- (5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de dos dados es (1/36)n, por lo que la probabilidad de no obtener 1 doble seis en n lanzamientos es (35/36)n. Finalmente, la probabilidad de obtener al menos 1 doble seis en 24 lanzamientos es 1-(35/36)24=0.4914. Monsieur de Mere estaba en lo correcto desde el punto de vista empírico pero su razonamiento era erróneo. 2.24 2.09 Distribuciones Condicionales Para ciencias sociales, la distribución más interesante es la condicional, es decir aquella que describe cuál es la probabilidad que ocurra y condicional en que x tome algún cierto valor y que denotamos por f y | x . Se puede demostrar que f y | x = f x , y f x x , y . Para ello, definiremos primero la noción de probabilidad condicional. Supongamos que en el experimento de tirar dos monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={CC, CS}. Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A= , S ,CC ,SS . Entonces, tienen que cambiar las probabilidades P · , siendo ahora: PA({ })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½ El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de probabilidad S ,ℱ , P · al espacio de probabilidad condicional S A ,ℱ A ,P A · . Definiremos la probabilidad condicional como: P A A1=P A1| A= P A1∩A P A (2.31) si y solo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1–de forma análoga a como definimos la función de densidad– obtenemos la Función de Densidad Condicional que describimos más arriba. Resulta clave entender que la media condicional de y en x, E[ y |x ] , es exactamente el concepto de una regresión lineal en econometría. Suponga que el experimento puede ser descrito por la siguiente relación: y i= x ii con i una variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y cov [i , j ]= 2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]= x . Un segunda propiedad interesante se deriva al aplicar el operador varianza condicional al modelo anterior. Un poco de álgebra permite obtener: V [ y |x ]=E [ y 2 | x ]−E [ y |x ] 2 (2.32) Esta es la función cedástica. 2.25 De la ecuación (2.32) y usando la ley de las esperanzas iteradas E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada descomposición de varianza) V [ y ]=V x [E y | x ]Ex [V y |x ] . Esta expresión indica que la variación total de los datos puede ser entendida –o descompuesta— como la variación de la media condicional más la variación de las realizaciones alrededor de la media condicional. De esta descomposición se desprende que: Ex [V y |x ]=V [ y ]−V x [E y |x ] (2.33) es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión es menor que aquella de los datos.27 También se define la bondad de ajuste de una regresión como la relación entre la varianza de la media condicional (es decir, modelada) respecto de la varianza total del fenómeno: R 2= V x [E y |x ] V [ y ] (2.34) Note que la bondad de ajuste depende de la media condicional, es decir, depende como se modele la media condicional. Ello pone límites al uso de la bondad de ajuste como instrumento de selección de modelos econométricos. Más adelante volveremos a revisar conceptos tales como función cedástica, bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal. Es importante, a estas alturas, comprender que dichos conceptos no se restringen al método de mínimos cuadrados, sino que son de aplicación general. 27 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage). 2.26 Apéndice A: Ejercicios 1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una distribución normal, para las cuales usted estimó su media y varianza. Justifique cuidadosamente cada uno de sus pasos. 2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y el evento imposible pertenecen al σ-álgebra asociado. 3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-post. 4. Identifique las principales limitaciones de las definiciones de probabilidad clásica (de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas limitaciones. 5. En el ejemplo 2.3 del texto, ¿es C={SC,CS} un σ-álgebra? 6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓ 7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un índice de precios. La distribución marginal del dinero es normal con media x y varianza unitaria, en tanto que la distribución marginal del índice de precios es también normal con media y y varianza igual a . Use la función característica para encontrar la distribución de Z, suponiendo que ambas variables son independientes. 8. Sea una muestra de n observaciones con distribución f y =[1 y 2 ] −1 . Demuestre que el valor esperado no existe. ¿Existe su varianza? 9. Demuestre que el coeficiente de correlación es invariante ante transformaciones lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de correlación de los datos { yn , x n} para las transformaciones abx i ; cdy i , i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que r 1=r 2 . 10. Considere una variable aleatoria {x} con distribución normal. Encuentre c –en función de la esperanza y la varianza– tal que P xc =2 P x ≥c 2.27 11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión para estimar μ y σ². 12. Si la función de densidad de y es y2 1− y 3 para y definido entre 0 y 1: ¿qué es α y cuál es la probabilidad de que y esté entre 0 y ½? 13. Considere el sorteo Kino28 (que excluye el super número) como un experimento aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escogerℰ 7 números, que se eligen ambos de entre 30 posibilidades. Si acierta a los 7 números, ya ganó el pozo Imán. (Note que en cada sorteo se sacan 7 números de 1 a 30 sin reemplazo.) • Describa el espacio muestral, S. • Describa el σ-álgebra asociado a S. • Compute la probabilidad de ganar si el experimento es sin reemplazo • ¿Es la probabilidad que Usted computó congruente con la información que entrega la Lotería en la misma página web? Información adicional: Sorteos realizados a la fecha: 922, Ganadores con 7 aciertos: 40. 14. Suponga que usted debe reorganizar el poder judicial creando un sistema de incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces (honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos jueces cada día, los que permanecen incógnitos (muestra con reemplazo). • Construya el modelo probabilístico que describe el fenómeno. Defina claramente el experimento aleatorio y el espacio de probabilidades. • Construya el modelo muestral asociado. • Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos jueces hay que remover? 15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales. En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción haber ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el mayor número de días en los que dicha proporción es más que 60%? (a) el hospital grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted decir por qué la gente se equivoca tanto al responder? 28 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought that's what the lottery was!” Gallagher 2.28 Apéndice B: Códigos Gauss de Utilidad /* Grafica Figura 2.1 */ new; cls; library pgraph; load data[182,3]=precios.txt; var=ln(data[.,2]); dvar=trimr(var-lagn(var,1),1,0)*100; graphset; /* resetea opciones */ fonts("simplex simgrma"); /* define letras */ _pnumht={0.2}; /* tamano de numeros */ _pnum=2; /* tipo de numeros */ _pdate=""; /* omite fecha en el gráfico */ _ptitlht={0.22}; /* tamaño titulo */ ylabel("Frecuencia"); /* define etiqueta del eje y */ xlabel("Porcentaje"); /* define etiqueta del eje X */ __pbarwid=0.65; /* define ancho de barras */ _pbartyp={6 1}; /* define tipode barras */ hist(dvar,50); /* produce histograma */ end; 2.29 Indice Capítulo 2...............................................................................................................................................................1 Teoría de Probabilidades.....................................................................................................................................1 2.01 Noción de Probabilidad.................................................................................................................2 2.02 Axiomatización de las Probabilidades..........................................................................................3 2.03 Variables Aleatorias.........................................................................................................................7 2.04 Momentos de una Distribución..................................................................................................14 2.05 Distribuciones Discretas de Uso Común..................................................................................18 2.06 Distribuciones Continuas de Uso Común................................................................................19 2.07 Distribuciones Conjuntas............................................................................................................22 2.08 Distribuciones Marginales...........................................................................................................22 2.09 Distribuciones Condicionales......................................................................................................24 Apéndice A: Ejercicios...........................................................................................................................26 Apéndice B: Códigos Gauss de Utilidad............................................................................................28 Ultima revisión: 17/03/16 Capítulo 2 Teoría de Probabilidades1 2.01 Noción de Probabilidad 2.02 Axiomatización de las Probabilidades 2.03 Variables Aleatorias 2.04 Momentos de una Distribución 2.05 Distribuciones Discretas de Uso Común 2.06 Distribuciones Continuas de Uso Común 2.07 Distribuciones Conjuntas 2.08 Distribuciones Marginales 2.09 Distribuciones Condicionales Apéndice A: Ejercicios Apéndice B: Códigos Gauss de Utilidad
Compartir