Capitulo2Final - Gustavo Perales Vivar

•
Outros

Desafio PASSEI DIRETO
28/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

102.135 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Capítulo 2
Teoría de Probabilidades1
¿Por qué necesitamos estudiar teoría de probabilidades para analizar
observaciones o datos de la realidad? ¿Por qué no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenómeno de interés. Podemos hacer un gráfico de frecuencias empíricas
de los datos y derivar información útil.
Figura 2.1
Inflación mensual en Chile, 1960-2005
Aunque el gráfico anterior describe adecuadamente la distribución de una
muestra para la inflación mensual en Chile en el periodo 1960-2005, los estadísticos
descriptivos están confinados a dicha muestra. Cualquier pregunta respecto de la
población de la cual se derivó la muestra no puede ser discutida. La esencia del trabajo
econométrico es, en este sentido, proveer resultados generales a partir de muestras cuya
información es limitada.
La teoría de probabilidades provee un modelo matemático para la inferencia
estadística que, al realizarse sobre una muestra de observaciones, permite estudiar
fenómenos generales. Por eso, este capítulo repasa la principal teoría de probabilidades,
en tanto que el siguiente revisa los fundamentos de la inferencia estadística clásica.
1 Probabilidad –documentado por primera vez en francés en 1387– viene del latín probabilis y significa
“que puede ser probado”.
2.2
2.01 Noción de Probabilidad
El desarrollo de la noción de probabilidad procedió de manera intuitiva y
asistemática hasta mediados del siglo 16. La siguiente definición de probabilidad –que
como veremos más adelante es insuficiente– fue utilizada primero por Abraham de
Moivre en 17182 y formalizada por Pierre-Simon de Laplace en 18123:
Def. 2.1: Si un experimento puede resultar en N resultados mutuamente
excluyentes y equiprobables y si NA es uno de dichos resultados, entonces
la probabilidad de A es:
P A =
N A
N
(2.1)
Esta definición tiene dos problemas bastante obvios. Primero, se requiere que el
número de posibles resultados sea finito. Segundo, y más importante, al usarse el
concepto de “equiprobable” la definición de Laplace adolece de circularidad.
Por ello se necesita una definición formal del concepto de probabilidad. Richard
von Mises (1919) sintetiza una primera solución a los problemas anteriores, señalando
que la noción de equiprobabilidad puede ser eliminada y, en su reemplazo, se puede
hablar de frecuencia empírica de los datos.4 Para que ésta sea de aplicación general, se
requeriría:
limN → ∞
N A
N
=P A (2.2)
Así, por ejemplo, la probabilidad que al lanzar una moneda salga cara no es ½
porque “de dos posibles eventos, cara es uno de ellos” sino porque al repetirse el
experimento un número grande de veces se observa que cara sucede un 50% de los
casos.
2 "The probability of an Event is greater or less, according to the number of chances by which it may
happen, compared with the whole number of chances by which it may either happen or fail." The
Doctrine of Chances. 
3 Théorie Analytique de Probabilités. Laplace expresa de forma sencilla el significado del cálculo de
probabilidades: "En el fondo, la teoría de probabilidades es sólo sentido común expresado con
números".
4 “Grundlagen der Wahrscheinlichkeitsrechnung”, Zeitschrift für Angewandte Mathematik und Mechanik,
5:52-99.
2.3
Las limitaciones del enfoque frecuentista son también obvias. Entre ellas, ¿qué
significa “límite cuando N tiende a infinito”? ¿cómo generamos secuencias infinitas de
eventos? ¿qué hacemos cuando no es posible generar secuencias de datos de un
experimento?
2.02 Axiomatización de las Probabilidades
El enfoque axiomático de probabilidades procede, naturalmente, de un conjunto
de axiomas (verdades a priori) y ofrece una formalización matemática de la noción de
probabilidad, cuyas ventajas radican en ser completo (todas las proposiciones de la
teoría se derivan de los axiomas), no-redundante (ningún axioma puede ser derivado de
otros), y congruente.5 El trabajo fundacional en esta área es el de Kolmogorov (1933).6
El punto de partida es definir el experimento aleatorio,7 que describe de manera
idealizada y simplista el mecanismo que genera los datos (usualmente llamado DGP).
En particular:
Def. 2.2: Un experimento aleatorio, llamado , es un experimento que satisface:ℰ
I. Todos los posibles eventos resultantes son conocidos a-priori.
II. En cada realización particular, el resultado no es conocido a-priori.
III. Se puede repetir en idénticas condiciones.
Un problema con la condición I es que es difícil de formalizar. Kolmogorov
sugiere utilizar el conjunto S que contiene todos los posibles resultados de un
experimento definidos antes de empezar el experimento. Así,
Def. 2.3: El espacio muestral, llamado S, es el conjunto de todos los posibles
resultados del experimento . Los elementos de ℰ S se llaman “eventos
elementales”.
5 Con frecuencia se traduce erróneamente la palabra “consistency” por “consistencia”. El término correcto
es congruencia (del Latin, coincidir), aunque el uso popular es inexacto como pasa con otras palabras
(p.e., sofisticado).
6 Grundbegriffe der Wahrscheinlichkeitsrechnung, Ergebnisse der Mathematik und ihrer Grenzgebiete, J. Springer
eds. 1933.
7 El término “aleatorio” se popularizó a raíz del trabajo de Christiaan Huygens (De Ratiociniis in Ludo
Aleae, 1657) sobre el cálculo de probabilidades en juegos de dados (aleae en latín). Aunque se considera
que este es el primer libro de probabilidades de la historia, hay un libro anterior de Girolamo Cardano
(Liber de Ludo Aleae, 1564) que está a mitad de camino entre manual de cómo apostar y libro de
probabilidades. Huygens fue además un famoso astrónomo y descubrió la nebulosa de Orión (en 1656),
y la luna de Saturno –Titán– y sus anillos (en 1656). 
2.4
Por ejemplo, el experimento que consiste en lanzar una moneda al aire dos veces
tiene como espacio muestral: {CC ,CS ,SC , SS } . Los elementos CC, CS, SC, SS son los
eventos elementales.
Por otro lado, al examinar la condición II notamos que el evento de interés no
tiene por qué ser únicamente referido a eventos elementales y podría ser una función de
ellos. Por ejemplo, el evento “al menos una cara” define el conjunto A1={CC ,CS ,SC }
que no es un evento elemental.
En esta lógica de definir conjuntos ( A1 , los eventos elementales, etc.), resulta
natural incorporar los dos elementos clásicos de los conjuntos: el elemento vacío es en
este contexto el evento imposible (denotado por  ), en tanto que el mismo conjunto S es
llamado el evento seguro.
Un tercer problema es la noción de incertidumbre implícita en la definición de .ℰ
Es directo asociar probabilidad con evento elemental y, si sólo existieran éstos, no sería
problema usar dicha asociación. La existencia de eventos no elementales complica el
problema porque si A1 es un evento que ocurre con P A1 , entonces A1=S−A1
también ocurre con alguna probabilidad cuando ocurre A1 . De hecho si existen dos
eventos, A1 y A2 , se deduce que A1∪A2 y A1∩A2 también ocurren. Entonces,
habrá que imponer alguna estructura sobre dichas probabilidades con el fin que el
modelo matemático sea congruente. 
Una alternativa sería usar el conjunto de todos los posibles A i y todas sus
combinaciones y relaciones (es decir, el conjunto potencia de S). En el experimento de
lanzar la moneda dos veces éste sería:
ℱ ={S ,∅ ,CS ,CC ,SC ,SS ,
 SC ,CS  , SC , CC  ,SC , SS  ,
 CS ,CC  ,CS ,SS  ,CC ,SS  ,
 CS , SC , CC  ,CS ,SC , SS ,CC ,SS , SC  , CC ,SS ,CS }
(2.3)
de esta manera incluiríamos en el espacio de los eventos, , todas las posiblesℱ
alternativas. De hecho, no importa cómo combinemos los elementos de siempreℱ
obtenemos un elementode .ℱ
No obstante, cuando S es infinito o no contable, es posible observar
incongruencias (p.e., suma de probabilidades mayor que 1).8 Así, debemos definir ℱ
independientemente de S o, lo que es lo mismo, debemos dotarlo de estructura
matemática.
8 Ejemplo, S={A1 , A2 ,…} tal que A1∩ A2= ∀ i ≠ j y P A i=a0 , entonces
P (S)=∑
i=1
∞
P (A i)=∑
i=1
∞
a>1 .
2.5
Def. 2.4: Sea un conjunto de sub-conjuntos de ℱ S. es un σ-álgebraℱ 9 si
• dado A∈ℱ entonces A∈ℱ (cerrado para el complemento)
• dado A i i=1, 2, entonces U i A i ∈ ℱ (cerrado para uniones contables o
enumerables)
Ambas propiedades juntas implican que: 
• S∈ℱ (porque A∪A=S )
• ∈ℱ (porque S=∈ℱ )
• A i∈ℱ entonces U i A i∈ℱ 
Dicho de manera más simple, cualquier operación (unión o intersección) de
elementos de produce un elemento de . Obviamente el conjunto potencia de ℱ ℱ S es un
σ-álgebra. Un resultado fundamental para nuestro análisis posterior de convergencia es
que un σ-álgebra contiene todos los límites de secuencias de eventos, en tanto que un
álgebra no necesariamente los contiene. Esta propiedad se deriva del hecho que el σ-
álgebra es cerrado para uniones contables, en tanto que un álgebra es cerrado para
uniones finitas.
Hasta aquí hemos resuelto el problema de incongruencias al postular la
existencia de un σ-álgebra asociado con un espacio muestral ℱ S (este par constituye un
espacio medible). El último paso en la estrategia de Kolmogorov consiste en definir el
concepto de probabilidad formalmente, para lo cual se usa el Teorema de Extensión de
Constantin Caratheodory y la noción de medida de Lebesgue10. Empezamos primero con
el caso más simple, en el cual S es finito.
Def. 2.5: Probabilidad es una función conjunto en que satisface los siguientesℱ
axiomas:
• Axioma 1: P A ≥ 0 para todo A∈ℱ .
• Axioma 2: P S =1 .
• Axioma 3: P U A i = P A i  si {A i} es una secuencia de eventos
mutuamente excluyentes en (excluyentes significa que ℱ A i∩A j= ∀ i ≠ j ).
9 Algebra viene del título de un libro árabe –Hisab al jabr w‘al muqâbalah– escrito en 825 por Abu Ja'far
Muhammad ibn Musa Al-Khwarizmi (de donde se deriva “algoritmo”). De acuerdo a In Khoálsat al-
Hisáh (Esencia de la Aritmética) escrito por Behá Eddin en 1600. Al-Jabr significa posiblemente “reunión
de partes quebradas” (es decir, completación), en tanto que al-Muqâbalah significa “reducción o
balanceo”. El título se refiere a las operaciones de suma y resta necesarias para mantener balanceada una
ecuación y resolverla.
10 Ver Probability Theory, S.R.S. Varadhan, Courant Lecture Notes # 7, American Mathematical Society,
2001.
2.6
Es decir, probabilidad es una “función conjunto” con dominio en y rango en elℱ
intervalo [0, 1]: 
P · : ℱ [0, 1 ] (2.4)
La probabilidad es una medida en el sentido de Lebesgue. Medida es una función
definida para un σ-álgebra del conjunto X y que toma valores en el intervalo [0, ∞] tal
que se cumplen dos propiedades: (1) la medida del vacío es cero y (2) se cumple la
aditividad contable (σ-aditividad), es decir, si tenemos una secuencia de conjuntos
disjuntos, la medida total es la suma de las medidas individuales.
Es conveniente notar que el axioma 2 opera simplemente como una
normalización.
Los dos primeros axiomas calzan tanto con la definición clásica de Laplace como
con la frecuentista. El tercero es menos intuitivo, pero se resume en que la probabilidad
de la unión de eventos no relacionados es la suma de las probabilidades individuales.
Debido a su importancia, la tríada S ,ℱ , P ·  tiene un nombre particular:
Def 2.6: Un espacio muestral S dotado de un espacio de eventos o σ-álgebra yℱ
una función de probabilidades que satisface los axiomas 1 a 3 se llama
espacio de probabilidades.
Algunas propiedades interesantes de esta teoría de probabilidades son:
• P  A=1−P A A∈ℱ
• P =0
• Si A1⊂A2 ⇒ P A1≤ P A2 A1, A2∈ℱ
• P A1∪A2=P A1P A2−P A1∩A2
• Si {An }n=1
∞ es una secuencia de eventos monótona (ordenada) en , entoncesℱ
P limn →∞ An= limn →∞ P An .11
Un problema evidente de la construcción de probabilidades hecha de esta
manera es que no puede usarse para enfrentar fenómenos con “infinitos eventos”. Por
ejemplo, ¿cómo le asignamos probabilidades al caso en que se tiran dos dados un
11 Usaremos esta propiedad frecuentemente más adelante.
2.7
número infinito de veces? Naturalmente, no podemos escribir el conjunto potencia como
en la ecuación (2.3). De hecho, una pregunta crucial es si es posible construir una función
que cumpla con las características que se le exige a la función de probabilidades cuando
hay infinitos eventos. Usaremos dos elementos para extender el análisis al caso en
cuestión: el teorema de extensión de Carathéodory y los álgebras de Borel.
Un álgebra de Borel corresponde al siguiente conjunto. Supongamos que S es la
recta de los reales ℝ={x : −∞x∞} y que el conjunto de eventos de interés es
J=Bx : x∈ℝ donde Bx={z : z ≤ x }=(−∞ ,x ] . Es decir, el conjunto J incluye todos los
intervalos de reales menores o iguales a x. ¿Podemos construir un σ-álgebra en ?ℝ
Usando la definición de σ-álgebra debiésemos partir de Bx , luego añadir su
complemento Bx , e incluir todas las uniones enumerables de Bx y Bx . Con ello
tendríamos el mínimo σ-álgebra generado por los eventos en Bx , llamado  J  . Este
es un conjunto verdaderamente grande, pues incluye todos los x, todos los (−∞ , x ] ,
todos los (−∞ , x ) , todos los x ,∞ , y todos los (x,z) tal que están ordenados, x<z. Esta
álgebra es llamada álgebra de Borel, B , y permite incluir cualquier tipo de eventos, sean
o no elementales, en . ℝ
El teorema de extensión de Carathéodory prueba que para cualquier medida de
probabilidad P(.) en el álgebra puede extenderse de manera única al σ-álgebraℱ
generado por los reales. Note que esta medida extendida es única. La prueba de este
teorema excede los objetivos del curso.
Si aplicamos el teorema de extensión de Caratheodory al álgebra de Borel,
entonces podemos dotar de una medida a cualquier conjunto de eventos. Si esta medida
es la medida de probabilidad definida más arriba, podemos dotar de estructura de
probabilidades a cualquier conjunto de eventos, pero al costo de generar álgebras
verdaderamente complejas. 
2.03 Variables Aleatorias
En la sección anterior hemos construido el enfoque axiomático de probabilidades
sobre la base de la tríada S ,ℱ , P ·  . Ahora usaremos este enfoque para estudiar
variables, probabilidades de eventos y, al final, modelación de incertidumbre. El espacio
de probabilidades fue sugerido como una fomalización –un tanto rígida– de un
experimento . Intuitivamente la conexión entre los tres elementos queda descrita en laℰ
Figura 2.2.
Evidentemente, es difícil pensar en funciones de probabilidades a partir de la
Figura 2.2. Habría que tabular todos los elementos de y luego construir un sistemaℱ
congruente de P ·  .
2.8
Figura 2.2
Si los resultados del experimento fuesen descritos directamente por medio de
atributos cuantificables, entonces tendríamos un enfoque mucho más flexible que
S ,ℱ , P ·   . Eso es, por lo demás, lo que sucede usualmente en economía. Ese es el
papel que juegan las variables aleatorias.
La variable aleatoria es una función X que mapea el conjunto S directamente en
los reales, , es decir:ℝ
X ·  : Sℝ + (2.5)
y asigna a cada elemento de S un valor en los reales positivos, x i . Gráficamente, el
conjunto de eventos “obtener sellos al lanzar dos monedas” corresponde a:
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
2.9
Figura 2.3
La pregunta que nos preocupa es, obviamente, si esta variable aleatoria es capaz
de mantener la congruenciadel análisis de probabilidades al haber eliminado . Laℱ
respuesta, no muy sorprendentemente, es no. Las probabilidades fueron asignadas a
eventos en , en tanto que X asigna valores a elementos de S.ℱ
Así el problema radica en cómo escoger X tal que al asignar valores de S en seℝ
preserve el orden impuesto en , es decir, que preserve uniones, intersecciones yℱ
complementos. Ello es equivalente a pensar en que la (imagen) inversa de X debe ser un
evento en . De esta manera, una variable aleatoria será cualquier función que preserveℱ
el ordenamiento de los eventos para un σ-álgebra determinado, usualmente el álgebra
de Borel, B
Def. 2.7: Una variable aleatoria X es una función que toma valores reales y que
mapea de S a y que satisface la condición que para cada conjunto deℝ
Borel B∈B en , el conjunto ℝ X−1B={ s : X s ∈ B ,s ∈ S } es un evento
en .ℱ
Algunas implicaciones importantes de la definición anterior son:
• Una variable aleatoria está siempre definida relativa a un espacio de eventos, .ℱ
• Al decidir si alguna función Y ·  : S →ℝ es una variable aleatoria procedemos
siempre de los elementos del espacio de Borel B al espacio de eventos, y noℱ
viceversa.
• Una variable aleatoria no es “variable” ni “aleatoria”.
(CC)
(CS)
(SC)
(SS)
S
0 1 2
ℝX(· )
2.10
Note que la pregunta “¿es Z ·  :Sℝ una variable aleatoria?” no tiene ningún
sentido si no se especifica el espacio de eventos asociado. En algunos casos habrá ℱ Z
que es una variable aleatoria para algunos y no para otros.ℱ 12 Para estos últimos
siempre se puede general el mínimo σ-álgebra, tomando uniones, intersecciones y
complementos. Es directo demostrar que estos mínimos σ-álgebras no tienen por qué
calzar con , pero que frecuentemente son subconjuntos de éste.ℱ
Adicionalmente, si X 1 y X 2 están definidos para un mismo espacio de
probabilidades y definimos operaciones con ellos, por ejemplo, Z=X 1X 2, entonces
los mínimos σ-álgebras generados por estas variables aleatorias son subconjuntos
ordenados de :ℱ
X 1⊂ Z ⊂ℱ
En términos prácticos, este último argumento sugiere que al estudiar una
variable aleatoria nos estamos concentrando en una parte (el σ-álgebra asociado) del
experimento completo .ℱ
Note que la variable aleatoria no es ‘aleatoria’ en el sentido que la noción de
probabilidad no entra en su definición sino que se le asigna para completar el modelo
del experimento aleatorio. Y tampoco es una variable, sino que es una función de valor
real. 
Como vemos, la definición “popular” de variable aleatoria (p.e., Greene13 usa
Función cuyo rango de valores es conocido ex-ante pero el valor que toma es sólo conocido ex-
post) esconde la verdadera naturaleza de la variable aleatoria, porque menoscaba el
concepto de función incluido en la definición y enfatiza el de variable.
Recapitulando, una variable aleatoria X relativa a mapea ℱ S en un subconjunto
de la línea de los reales. El espacio de Borel B en juega el papel que antes ocupaba .ℝ ℱ
Falta, por lo tanto, asignarle probabilidades a los elementos B de B , es decir, definir
una función: 
P x ·  :B[0,1]
tal que P x B =P X
−1
B ≡ P s : X s ∈B , s∈S  para todo B en B.
Note que no es necesario definir todos los elementos de B, porque cada uno de
sus elementos puede ser escrito como un intervalo semi-cerrado del tipo (-∞,x]. Así,
eligiendo los intervalos de manera adecuada, podemos construir fácilmente la función
12 Esto no es tan extraño: en un experimento en el que hay hombres y mujeres, el género es una variable
aleatoria. Pero si sólo seleccionamos hombres o mujeres, el género ya no es una variable aleatoria.
13 Econometric Analysis, Prentice Hall, Tercera Edición, 1997, p. 62.
2.11
de probabilidad de X. Por ejemplo, en el caso del lanzamiento de dos monedas descrito
en el Cuadro 2.1.
Cuadro 2.1
S X 1 X 2 X
{C,C} 1 1 2
{C,S} 1 0 1
{S,C} 0 1 1
{S,S} 0 0 0
las probabilidades son simplemente: 
Px({0})=¼ Px({1})=½ Px({2})=¼
Px({0} {1})=¾∪ Px({0} {2})=½∪ Px({1} {2})=¾ ∪ Px({0} {1} {2})=1∪ ∪
Px({0}∩{1})=0 Px({0}∩{2})=0 Px({1}∩{2})=0 Px({0}∩{1}∩{2})=0
Note que no es necesario asignarle a cada elemento de la recta real una
probabilidad sino que definimos el problema por intervalos:
P x  (−∞ , x ]=[
0 x0
¼ 0 ≤ x1
¾ 1≤ x2
1 2≤ x ] (2.6)
2.12
Recapitulando, empezamos con un experimento14 definido en el espacio deℰ
probabilidades S ,ℱ ,P ·   y luego hemos definido la variable aleatoria X definida en
un espacio de probabilidades equivalente ( , ℝ B , P x ·  ). La ventaja de este último es
que es más fácil manejar “elementos en la recta real” que “elementos en conjuntos
arbitrarios”. Gráficamente:
Figura 2.4
Lo último que falta es definir apropiadamente P x ·  . Hasta el momento esta
función sigue siendo arbitraria en un subconjunto de los ℝ+, pero lo que se requiere es
una “función punto” (es decir, que mapee punto a punto). Recordemos que todos los
elementos del espacio de Borel pueden ser descritos como intervalos (−∞, x] lo que
permite definir la función F :ℝ[0,1 ] de la siguiente manera:
14 Tal vez el énfasis en la noción de experimento pueda parecer exagerada. R.A. Fisher nos ofrece una
contundente visión de la importancia del diseño del experimento “To call in the statistician after the
experiment is done may be no more than asking him to perform a postmortem examination: he may be able to say
what the experiment died of (Indian Statistical Congress, Sankhya, 1938).
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)
Ф
S
S F P(· )
0 1¼ ½ ¾
0 1 2 0 1 2 0 1
P
x
(· )ℝ B
2.13
P x (−∞ ,x ]=F x −F −∞=F x  (2.7)
y como los intervalos son ordenados, debemos exigir que F ·  sea no decreciente,
continua y con máximo igual a 1. Es decir, limx ∞ F x =1 . Esta función es la que
llamamos función de distribución:
Def. 2.8: Sea X una variable aleatoria definida en S ,ℱ , P ·  . La función punto
F: →[0,1] definida por:ℝ
F x =P x ( − ∞ , x ]=Pr X ≤ x  ∀ x ∈ X
se llama Función de Distribución de x y cumple:
• F ·  es no-decreciente
• F −∞= lim x−∞ F x =0 F ∞=lim x ∞ F x =1
• F ·  es contínua por la derecha
¿Por qué preferimos F ·  a P ·  o a P x ·  ? La principal ventaja de F · 
es que ésta es una función punto que se puede representar de manera algebraica, que es
el manejo habitual que le damos a las funciones de distribución.
Habrá dos tipos de variables aleatorias:
• Variables aleatorias discretas (ej: robos): aquella cuyo rango ℝ+ es, por
convención, algún subconjunto del conjunto de los enteros.
• Variables aleatorias continuas (ej: ingresos familiares): aquella para la cual su
función de distribución F x  es continua para todo x y existe una función∈ ℝ
no-negativa f ·  en la recta real tal que: 
F x =∫
−∞
x
f x dx
donde f ·  es llamada la Función de Densidad de x.
2.14
2.04 Momentos de una Distribución
El valor esperado de una variable aleatoria se define como el promedio de las
realizaciones de X ponderado por su probabilidad de ocurrencia.15
E[ x ]=∑ x f x =x para toda función X discreta (2.8)
E[ x ]=∫
x
x
x f x dx=x para toda función X continua 
Note que la esperanza (media) no tiene que ser un valor que la variable aleatoria
puede tomar cuando ésta es discreta. Por ejemplo considere el siguiente problema: usted
recibe $1 por cada punto que salga al tirar un dado numerado de 1 a 6 ($1 si sale 1, $2 si
sale 2, etc). ¿cuánto es lo más que está dispuesto a pagar por jugar una vez? El valor
esperado del juego es, naturalmente, $3.5.
Otros descriptores comunes del “valor central” de una distribución son la
mediana que es el valor “del medio” del rango de valores de la distribución y se usa
principalmente cuando hay valores extremos, pues a diferencia de la esperanza no se ve
tan influida por éstos.Cuando se trata de variables discretas ocasionalmente se usa la
moda, que es el valor que ocurre con mayor probabilidad. No tiene una aplicación
interesante en variables continuas pues su definición es arbitraria.
Más allá del valor esperado, se utiliza frecuentemente:
• Varianza de una distribución V x =E [x−E x ]2 es decir, es el valor
esperado de la dispersión de la variable aleatoria.
• Skewness de una distribución S x =E [x−E x ]3 es decir, es el valor esperado
de la asimetría de la variable aleatoria.
• Kurtosis16 de una distribución K x =E [x−E x ]4 es decir, es el valor
esperado de las colas de la distribución de la variable aleatoria.
15 En estricto rigor debiésemos usar f(x) para variables aleatorias continuas y p(x) para discretas. Para evitar
un exceso de notación, usaremos sólo f(x) entendiendo la naturaleza de cada una dependiendo del
contexto que se trate.
16 Kurtosis, del griego kurtos, encorvado, curvo. Kurtosis fue usado por primera vez por Karl Pearson en
1905 en su trabajo "Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. A
Rejoinder," Biometrika, 4, 169-212. En ese trabajo se acuñó además los términos leptokurtica (lepto
significa flaco) para distribuciones concentradas alrededor de la media y con colas largas), platykurtica
(platy significa gordo), para distribuciones con colas flacas, y mesokurtica (colas normales).
2.15
Para describir la distribución de una variable aleatoria resulta más efectivo usar
los llamados momentos17 de la distribución (esperanza, mediana, moda, varianza,
skewness, Kurtosis, etc.), los cuales pueden ser “brutos” o “centrados”. Un momento no
centrado de la distribución de x tendrá la forma genérica E[ x m] en tanto que un
momento centrado es de la forma E[∣x− x∣
m
] . Resulta natural preguntarse si existe
alguna forma de generar estos momentos de la distribución. La función generatriz de
momentos provee una manera elegante de obtener los momentos de una distribución:
Def. 2.9: La función generatriz de momentos de una variable aleatoria –
posiblemente vectorial– X se define como:
m t =E [ e t ' x ]=∫ e t ' x dF x  (2.9)
donde t es el conjunto de vectores no aleatorios para los cuales la función generatriz de
momentos existe y es finita en la vecindad de t=0 (es decir, existe h0 tal que para
−hth existe E[ e t ’ x ] .
La función generatriz de momentos provee, como su nombre indica, una manera
simple de generar todos los momentos de una distribución. En el caso univariado, se
puede expandir la ecuación (2.9) usando una expansión de McLaurin para obtener (el
resultado es general):
m t =E [ e t ' x ]=E [1tx
tx 2
2 !

tx3
3 !
... ]
 =1tE [x ]
t 2
2 !
E [x 2 ]
t 3
3 !
E [x 3 ]...
(2.10)
es decir, el término que acompaña a 
t i
i !
 es un momento no-centrado de la distribución
de x. Ahora, tomando derivadas con respecto a t de la expresión (2.10) evaluadas en
t=0 tenemos:
∂m t=0
∂ t
= E [x ]
∂
2 m t=0
∂ t 2
=E [x 2 ] etc.
(2.11)
17 Momento –que fue utilizado inicialmente por Newton para designar el “cambio infinitesimal de una
variable” (De Quadraturaa Curvarum, 1704)– fue introducido en estadística por Pearson en 1893, en su
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el eje
horizontal (“Asymmetrical Frequency Curves”, Nature, October 26th, 1893). 
2.16
De esta manera podemos generar los momentos de la distribución de una
variable aleatoria si ésta existe. Algunas propiedades interesantes de esta función son
• m x−=E[ e
x−
]=e− t m x t  si μ es constante.
• m x y=E [ e
x y
]=m x t m y t  si x y y son variables aleatorias independientes.
Si las variables son acotadas la función generatriz de momentos siempre existe y
es finita. Sin embargo, para una distribución como la Cauchy esto no se cumple. Si x se
distribuye:
f x =
1
1x 2 
(2.12)
la función generatriz de momentos es:
m t =∫
−∞
∞
e tx f x  dx =[∞ si t ≠ 01 si t=0 ] (2.13)
Una solución a este problema consiste en modificar la función generatriz de
momentos para obtener la función característica, reemplazando t en la ecuación (2.9) por
it donde i=−1 . Naturalmente, esta es la transformación de Fourier de la función
generatriz de momentos. Así,
t =E [ e it ' x ] (2.14)
Se puede demostrar que dos variables aleatorias son idénticas si tienen igual
t  . Para ilustrar el uso que se le da a este tipo de función, consideremos la
distribución Normal:
f x =
1
2 2
e
−x−2
2 2 (2.15)
Aplicando la transformación de la ecuación (2.14), tenemos
t =
1
 2 2
∫
−∞
∞
e
it ' x−
x− 2
2 2 dx =e it −1/2
2 t 2 1
2 2
∫
−∞
∞
e
−x−−i 2 t 
2 2 dx (2.16)
2.17
Es posible, aunque tedioso18, demostrar que ∫
−∞
∞
e
−x−−i 2 t 
2 2 dx=22 , por lo
que se deduce que la función característica de la normal es simplemente:
t =e  it −1 /2
2 t2  (2.17)
La función característica describe completamente la distribución que, en este
caso, depende de la media  y la varianza 2 . La función es simétrica alrededor de 
y si =0 su valor es real (de otro modo tiene componentes imaginarios). En particular,
si =0 , la función característica de la normal es t =e−1 /2
2 t2 .
Cuadro 2.1
Distribuciones, funciones generatrices de momentos 
y funciones características de uso común
Distribución Función Generatriz de Momentos
Mx(t)
Función Característica
φ(t)
Bernoulli: Bi(p) 1− p+ pe t 1− p+ pe it
Geométrica: G(k,p) pe t
1−(1− p)et
∀t<−ln(1−p)
pe it
1−(1−p)e it
Binomial: B(n,p) (1− p+ pe t)n (1− p+ pe it )n
Poisson: P( λ ) eλ(e
t
−1) eλ(e
it
−1)
Uniforme (continua) U(a,b) e tb−e ta
t(b−a )
e itb−e ita
it (b−a)
Uniforme (discreta) U(a,b) e ta−e t (b+1)
(b−a+1)(1−e t)
eita−eit (b+1)
(b−a+1)(1−e it )
Normal univariada:
N (μ ,σ2) e
tμ+1
2
σ
2 t 2
e
itμ−1
2
σ
2 t2
Chi-cuadrada χk
2
(1−2t)
−k
2 (1−2it)
−k
2
Gamma Γ(k ,θ) (1−θ t )−k (1−i θ t)−k
Exponencial exp(λ) (1−t λ−1)−1 for all t<λ (1−it λ−1)−1
18 Para demostrar este resultado recuerde que e itx=costx i sin tx  .
2.18
2.05 Distribuciones Discretas de Uso Común
Supongamos que el experimento tiene dos posibles resultados ℰ S={éxito,
fracaso} y que tienen probabilidades p y 1-p, respectivamente:
Exito x=1 P(x=1) = p
Fracaso x=0 P(x=0) = 1-p
En 1713 se publicó el libro Ars Conjenctandi que sintetiza los descubrimientos de
Jacques Bernoulli (1654-1705) sobre matemáticas –en particular, probabilidades– entre
las cuales se encuentra la distribución (o descripción) de los datos del experimento
anterior:
f x = px 1− p 1−x  ∀ x=0,1
 =0 en cualquier otro caso
(2.18)
Como el mismo Bernoulli se encargó de demostrar, si el experimento se repite n
veces se obtiene la distribución “binomial”19
f  y =ny p y 1− p n− y (2.19)
donde ny=
n !
n− y  ! y ! .
Hay muchas otras distribuciones discretas útiles. Entre ellas está la descubierta
por Poisson en 1837 como el límite de la binomial cuando n → ∞ y p → 0 , tal que np es
constante.20
f x i ;=
e−i
x
x i !
(2.20)
19 Bernoulli gratuitamente asigna el descubrimiento de la binomial con exponente entero a Pascal. Newton
provee la descripción para exponente racional pero no la prueba, que fue provista tiempo después por
Euler. El nombre “distribución binomial” fue acuñado por G.U. Yule en An Introduction to the Theory of
Statistics (1911, p. 305).
20 S.D. Poisson (1781-1840) dijo: “La vida es buena para sólo dos cosas: descubrir matemáticas y enseñar
matemáticas”.
2.19
2.06 Distribuciones Continuas de Uso Común
En muchos experimentos en economía no puede suponerse que las variables
aleatorias de interés sean discretas, por lo que se utilizan funciones continuas.
La distribución normal. Si n →∞ , la expresión de la binomial es pocopráctica. De
Moivre21 encuentra la función de densidad que resulta en este caso:
f z =
1
2
1

e
−z−Ez 2
22 (2.21)
es decir, la distribución normal22. Esta distribución es la base de muchos tests y
procedimientos de estimación que usaremos en este curso.
La distribución normal estándar. La distribución normal se estandariza fácilmente:
si z↝N  ,2  ⇒ x=z−

↝ N 0,1 (2.22)
La distribución Chi cuadrado Esta distribución deriva de la distribución normal. 
si x ↝N 0,1⇒ y=x 2↝ χ² 1 (2.23)
Una propiedad de esta función es que sumas de variables que se distribuyen χ²
también se distribuyen χ²:
si x 1↝ χ² 1 y x 2↝ χ² 1 entonces y=x 1x 2↝ χ² 2 (2.24)
21 De Moivre descubrió en 1733 esta distribución y la incluyó en su libro The Doctrine of Chance de 1755.
Laplace extendió y generalizó este resultado en 1812 (Theorie Analytique de Probabilités), por lo que el
resultado se conoce como Teorema de De Moivre y Laplace.
22 El nombre de la distribución normal parece haber sido acuñado en los años 1870 independientemente
por Charles S. Peirce (Report to the US Coast Guard, 1873), Wilhelm Lexis (Theorie der Massenerscheinungen
in der menschlichen Gesellschaft, 1877) y Francis Galton (Typical Laws of Heredity, 1877). De los tres, Galton
fue el más influyente y popularizó el nombre de curva normal a partir de su libro Natural Inheritence
(1889).
2.20
La distribución F23
si y↝ χ² m  y w ↝ χ² n ⇒ x= y /m
w /n
↝ F m , n (2.25)
La distribucion “t” de Student24
si z↝N 0,1 y w↝ χ² n ⇒ x= z
w /n
↝ t n  (2.26)
La distribución de Cauchy25
si X 1 y X 2↝ N 0,1 independientes , z=
X 1
X 2
↝ f z = 1

1
1z 2 
(2.27)
La distribución logística26
f z =[1e
z−a
b ]
−1
(2.28)
La Figura 2.5 señala la relación que hay entre las distintas funciones de
distribución. 
23 La distribución F fue tabulada en 1934 por G. W. Snedecor en “Calculation and Interpretation of
Analysis of Variance and Covariance”. Aunque a veces se le llama distribución F de Snedecor, la letra F
que la designa fue escogida en homenaje a Fischer que usó una distribución muy similar llamada z.
24 "Student" fue el seudónimo que usó William Sealy Gosset (1876-1937) en su trabajo de 1908 "The
Probable Error of a Mean", Biometrika, 6:1-25. Gosset le escribió a R. A. Fisher, "I am sending you a copy
of Student's Tables as you are the only man that's ever likely to use them!". 
25 La paternidad de la distribución de Cauchy es discutible. Algunos se la atribuyen sobre la base de una
notas presentadas a la Académie de Sciences en 1853, pero no publicadas. S. M. Stigler señala que
Poisson ya había estudiado la distribución en 1824.
26 Al parecer, el primero en usar el término “logística” fue Edward Wright (ca. 1558-1615), aunque es
posible que se refiriese a una función logarítmica y no a la distribución logística propiamente tal. La
derivación formal se debe a P.F. Verhulst (1845): “La Loi d' Accroissemnt de la Population”, Nouveaux
Memoirs de lÁcadémie Royale de Sciences et Belles-Lettres de Bruxelles, 18, 1-59.
2.21
Figura 2.5
2.22
2.07 Distribuciones Conjuntas
Es posible que dos (o más) variables puedan ser descritas por una función de
probabilidades conjunta
P a≤x≤b ; c≤ y≤d = ∑
a≤x≤b
∑
c≤ y≤d
f x , y 
=∫
a
b
∫
c
d
f x , y dxdy 
(2.29)
El objetivo principal de las ciencias sociales y la economía en particular es
describir (i.e., modelar) distribuciones conjuntas. La distribución conjunta permite
asignar probabilidades de ocurrencia a fenómenos económicos multidimensionales, es
decir, nos permite modelar la relación entre variables que es lo que caracteriza el análisis
económico. Es importante notar que de la existencia de una distribución conjunta no se
deriva que exista una relación causal o de dependencia entre las variables. Simplemente
verifica la existencia de eventos que suceden simultáneamente, lo que no implica que no
pueda existir alguna relación entre ellos.
2.08 Distribuciones Marginales
Suponiendo que existe la densidad conjunta de dos o más variables, resulta
natural preguntarse ¿que probabilidad tiene x (o y) de ocurrir, independientemente de
los valores que tome la o las otras variables y (o x)?
Es decir, tomamos la distribución conjunta y sumamos sobre todos los posibles
valores de “la o las otras variables”. En un caso de dos variables:
f x x =∑
y
f x , y  
 
=∫
y
f x , y dy
(2.30)
Asociadas a la distribución marginal habrá, naturalmente, una esperanza
marginal, varianza marginal, etc.
De la existencia de las distribuciones marginales se deriva el concepto de
independencia estadística: “Si la densidad conjunta es el producto de las marginales, las
2.23
variables son independientes”. El siguiente ejemplo utiliza el concepto de independencia
estadística de un modo interesante.
Usando variables independientes resulta directo demostrar la utilidad de la
función generatriz de momentos. Suponga que x e y son variables aleatorias
independientes normales, entonces el proceso z=x+y cumple la siguiente propiedad:
m x t =e
 x t
 x
2 t 2
2 m y t =e
 y t
 y
2 t 2
2
m x y t =e
x t
 x
2 t 2
2 ⋅e
 y t
 y
2 t 2
2 =e
x y t
 x
2
 y
2
 t2
2
es decir, z se distribuye como una normal con media x y y varianza x
2
 y
2
 .
Paradoja del Chevalier de Mere
En una carta de Pascal a Fermat (29/07/1654) se presenta el siguiente problema
propuesto por el Sr. de Mere, un noble francés que se apasionó por los juegos de azar.
Empíricamente, de Mere observó que la probabilidad de sacar al menos un 6 en 4
lanzamientos de un dado es más que ½, en tanto que la probabilidad de sacar dos 6 en
24 lanzamientos es menor que ½. En su razonamiento, de Mere concluyó que ambas
debian ser iguales: 6 es a 4 como 36 es a 24. 
Naturalmente, la probabilidad de obtener un 6 en 1 lanzamiento de un dado es
1/6. Debido a que los eventos son independientes, la probabilidad de obtener un 6 en n
lanzamientos es (1/6)n. Así, la probabilidad de no obtener 1 seis en 4 lanzamientos es
(5/6)n, por lo que la probabilidad de obtener al menos 1 seis en 4 lanzamientos es 1-
(5/6)4=0.5177. Por otro lado, y usando un razonamiento similar, la probabilidad de
obtener un doble 6 en 1 lanzamiento de dos dados es 1/36. Nuevamente, por
independencia estadística, la probabilidad de obtener un doble 6 en n lanzamientos de
dos dados es (1/36)n, por lo que la probabilidad de no obtener 1 doble seis en n
lanzamientos es (35/36)n. Finalmente, la probabilidad de obtener al menos 1 doble seis
en 24 lanzamientos es 1-(35/36)24=0.4914. Monsieur de Mere estaba en lo correcto desde
el punto de vista empírico pero su razonamiento era erróneo.
2.24
2.09 Distribuciones Condicionales
Para ciencias sociales, la distribución más interesante es la condicional, es decir
aquella que describe cuál es la probabilidad que ocurra y condicional en que x tome
algún cierto valor y que denotamos por f  y | x  .
Se puede demostrar que f  y | x =
f x , y 
f x x , y 
. Para ello, definiremos primero la
noción de probabilidad condicional. Supongamos que en el experimento de tirar dos
monedas, sabemos que el primer tiro fue cara. ¿Cambia esta información la estructura de
probabilidades? Primero, note que ahora el espacio de eventos se reduce a SA={CC, CS}.
Por lo tanto, el σ-álgebra asociado a SA es ahora ℱ A= , S ,CC ,SS . Entonces, tienen
que cambiar las probabilidades P ·  , siendo ahora:
PA({  })=0 PA({SA})=1 PA({CC})= ½ PA({CS})= ½
El conocimiento a-priori que “ya salió una cara” nos lleva del espacio de
probabilidad S ,ℱ , P ·  al espacio de probabilidad condicional S A ,ℱ A ,P A ·  . 
Definiremos la probabilidad condicional como:
P A A1=P A1| A=
P A1∩A
P A
(2.31)
si y solo si P A 0 . Si ahora escogemos A1=X 1 S ≤ x 1–de forma análoga a como
definimos la función de densidad– obtenemos la Función de Densidad Condicional que
describimos más arriba.
Resulta clave entender que la media condicional de y en x, E[ y |x ] , es
exactamente el concepto de una regresión lineal en econometría. Suponga que el
experimento puede ser descrito por la siguiente relación: y i= x ii con i una
variable aleatoria llamada ruido blanco, cuyas características son E[]=0 y
cov [i ,  j ]=
2 para i=j y 0 en todo otro caso. Entonces E[ y | x ]= x .
Un segunda propiedad interesante se deriva al aplicar el operador varianza
condicional al modelo anterior. Un poco de álgebra permite obtener:
V [ y |x ]=E [ y 2 | x ]−E [ y |x ]
2 (2.32)
Esta es la función cedástica.
2.25
De la ecuación (2.32) y usando la ley de las esperanzas iteradas
E[ y ]=Ex [E [ y | x ]] , se puede obtener la siguiente expresión (denominada
descomposición de varianza) V [ y ]=V x [E  y | x  ]Ex [V  y |x  ] . Esta expresión
indica que la variación total de los datos puede ser entendida –o descompuesta— como
la variación de la media condicional más la variación de las realizaciones alrededor de la
media condicional. De esta descomposición se desprende que:
Ex [V  y |x  ]=V [ y ]−V x [E  y |x  ] (2.33)
es decir, la incertidumbre asociada a la predicción hecha sobre la base de una regresión
es menor que aquella de los datos.27
También se define la bondad de ajuste de una regresión como la relación entre la
varianza de la media condicional (es decir, modelada) respecto de la varianza total del
fenómeno:
R 2=
V x [E  y |x ]
V [ y ]
 (2.34)
Note que la bondad de ajuste depende de la media condicional, es decir,
depende como se modele la media condicional. Ello pone límites al uso de la bondad de
ajuste como instrumento de selección de modelos econométricos.
Más adelante volveremos a revisar conceptos tales como función cedástica,
bondad de ajuste, media condicional, etc. en el contexto del modelo de regresión lineal.
Es importante, a estas alturas, comprender que dichos conceptos no se restringen al
método de mínimos cuadrados, sino que son de aplicación general.
27 Nuevamente, “Errors using inadequate data are much less than those using no data at all” (C. Babbage).
2.26
Apéndice A: Ejercicios
1. Dé un ejemplo de un experimento en economía que pueda ser descrito por una
distribución normal, para las cuales usted estimó su media y varianza. Justifique
cuidadosamente cada uno de sus pasos.
2. Usando la definición de σ-álgebra asociado a S, demuestre que el evento seguro y
el evento imposible pertenecen al σ-álgebra asociado.
3. A la luz de la axiomatización de Kolmogorov de las probabilidades, critique la
siguiente definición de variable aleatoria: Función cuyo rango de valores es conocido
ex-ante pero el valor que toma es sólo conocido ex-post.
4. Identifique las principales limitaciones de las definiciones de probabilidad clásica
(de Moivre, 1718) y frecuentista (von Mises, 1919). Explique cómo el enfoque
axiomático de probabilidades de Kolmogorov (1933) da cuenta de dichas
limitaciones.
5. En el ejemplo 2.3 del texto, ¿es C={SC,CS} un σ-álgebra?
6. Use la siguiente distribución conjunta f(x,y) para demostrar que aunque la
correlación entre x e y es cero, no son independientes: f(-1,1)=f(0,0) = f(1,1) = .⅓
7. Considere la distribución conjunta Z(M1, IPC), donde M1 es el dinero y IPC un
índice de precios. La distribución marginal del dinero es normal con media x y
varianza unitaria, en tanto que la distribución marginal del índice de precios es
también normal con media y y varianza igual a  . Use la función característica
para encontrar la distribución de Z, suponiendo que ambas variables son
independientes.
8. Sea una muestra de n observaciones con distribución f  y =[1 y 2 ]
−1
.
Demuestre que el valor esperado no existe. ¿Existe su varianza?
9. Demuestre que el coeficiente de correlación es invariante ante transformaciones
lineales (afines) de los datos. Es decir, si r 1 y r 2 son los coeficientes de
correlación de los datos { yn , x n} para las transformaciones abx i ; cdy i  ,
i=1 ... n, con a, b, c, y d constantes no-negativas conocidas, entonces es cierto que
r 1=r 2 .
10. Considere una variable aleatoria {x} con distribución normal. Encuentre c –en
función de la esperanza y la varianza– tal que P xc =2 P x ≥c 
2.27
11. Suponga que tiene una muestra con 1.000 datos que provienen de una normal
con media y varianzas desconocidas (μ y σ²). Suponga que un cuarto de los datos
es menos de 2 y que tres cuartos de ellos son menores a 4. Obtenga una expresión
para estimar μ y σ².
12. Si la función de densidad de y es  y2 1− y 3 para y definido entre 0 y 1: ¿qué
es α y cuál es la probabilidad de que y esté entre 0 y ½?
13. Considere el sorteo Kino28 (que excluye el super número) como un experimento
aleatorio sujeto a la siguiente regla: En la cartilla de juego, usted debe escogerℰ
7 números, que se eligen ambos de entre 30 posibilidades. Si acierta a los 7
números, ya ganó el pozo Imán. (Note que en cada sorteo se sacan 7 números de
1 a 30 sin reemplazo.)
• Describa el espacio muestral, S.
• Describa el σ-álgebra asociado a S.
• Compute la probabilidad de ganar si el experimento es sin reemplazo
• ¿Es la probabilidad que Usted computó congruente con la información que
entrega la Lotería en la misma página web? Información adicional: Sorteos
realizados a la fecha: 922, Ganadores con 7 aciertos: 40.
14. Suponga que usted debe reorganizar el poder judicial creando un sistema de
incentivos que promueva eficiencia y ecuanimidad. Hay seis tipos de jueces
(honestos, deshonestos, ineptos, eficientes, flojos, trabajadores) y cada juez sólo
tiene dos de estos atributos. Se desea estimar cuántos jueces deben ser
removidos. Considere que hay n jueces, pero usted sólo puede estudiar dos
jueces cada día, los que permanecen incógnitos (muestra con reemplazo).
• Construya el modelo probabilístico que describe el fenómeno. Defina
claramente el experimento aleatorio y el espacio de probabilidades.
• Construya el modelo muestral asociado.
• Determine un criterio de remoción razonable. ¿cómo podría estimar cuántos
jueces hay que remover?
15. El psicólogo Tversky y sus colegas observan que cerca de 80% de las personas
preferirán la respuesta (a) a la siguiente pregunta: En un pueblo hay dos hospitales.
En el grande nacen unos 45 niños cada día; en el chico, 15. Aunque a nivel nacional la
proporción de hombres es 50%, en cada hospital y en cualquier día dicha proporción
haber ser más o menos que 50%. Al final del año, ¿cuál de los dos hospitales tendrá el
mayor número de días en los que dicha proporción es más que 60%? (a) el hospital
grande, (b) el hospital chico,y (c) ninguno (el número de días será igual). ¿Puede usted
decir por qué la gente se equivoca tanto al responder?
28 “I've heard that the government wants to put a tax on the mathematically ignorant. Funny, I thought
that's what the lottery was!” Gallagher
2.28
Apéndice B: Códigos Gauss de Utilidad
/* Grafica Figura 2.1 */
new;
cls;
library pgraph;
load data[182,3]=precios.txt;
var=ln(data[.,2]);
dvar=trimr(var-lagn(var,1),1,0)*100;
graphset; /* resetea opciones */
fonts("simplex simgrma"); /* define letras */
_pnumht={0.2}; /* tamano de numeros */
_pnum=2; /* tipo de numeros */
_pdate=""; /* omite fecha en el gráfico */
_ptitlht={0.22}; /* tamaño titulo */
ylabel("Frecuencia"); /* define etiqueta del eje y */
xlabel("Porcentaje"); /* define etiqueta del eje X */
__pbarwid=0.65; /* define ancho de barras */
_pbartyp={6 1}; /* define tipode barras */
hist(dvar,50); /* produce histograma */
end;
2.29
Indice
Capítulo 2...............................................................................................................................................................1
Teoría de Probabilidades.....................................................................................................................................1
2.01 Noción de Probabilidad.................................................................................................................2
2.02 Axiomatización de las Probabilidades..........................................................................................3
2.03 Variables Aleatorias.........................................................................................................................7
2.04 Momentos de una Distribución..................................................................................................14
2.05 Distribuciones Discretas de Uso Común..................................................................................18
2.06 Distribuciones Continuas de Uso Común................................................................................19
2.07 Distribuciones Conjuntas............................................................................................................22
2.08 Distribuciones Marginales...........................................................................................................22
2.09 Distribuciones Condicionales......................................................................................................24
Apéndice A: Ejercicios...........................................................................................................................26
Apéndice B: Códigos Gauss de Utilidad............................................................................................28
Ultima revisión: 17/03/16
	Capítulo 2
	Teoría de Probabilidades1
	2.01 Noción de Probabilidad
	2.02 Axiomatización de las Probabilidades
	2.03 Variables Aleatorias
	2.04 Momentos de una Distribución
	2.05 Distribuciones Discretas de Uso Común
	2.06 Distribuciones Continuas de Uso Común
	2.07 Distribuciones Conjuntas
	2.08 Distribuciones Marginales
	2.09 Distribuciones Condicionales
	Apéndice A: Ejercicios
	Apéndice B: Códigos Gauss de Utilidad