Texto Fundamentos de Probabilidades

Probabilidad y Estadística

•
FACIS

marco
6/4/2019
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Probabilidad y Estadística

29.852 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Escuela de Posgrado
Maestr´ıa en Estad´ıstica
Fundamentos de Probabilidad
Jose´ Flores Delgado
2013 -1
I´ndice
1. Sigma-A´lgebras 5
1.1. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2. Probabilidad 11
2.1. Definicio´n de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
La regla de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . 15
La regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5. Ejercicios Propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3. Variable aleatoria 24
3.1. Definicio´n y ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2. Funcio´n de distribucio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3. Clasificacio´n de las variables aleatorias . . . . . . . . . . . . . . . . . . . . . 27
3.4. Valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4.1. El valor esperado de una funcio´n de una variable aleatoria . . . . . . 36
3.4.2. Propiedades del valor esperado . . . . . . . . . . . . . . . . . . . . . 37
3.5. La varianza y la desviacio´n esta´ndar . . . . . . . . . . . . . . . . . . . . . . 40
3.5.1. Propiedades de la desviacio´n esta´ndar . . . . . . . . . . . . . . . . . . 40
3.6. Funciones de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 41
3.7. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4. Variables aleatorias distribuidas conjuntamente o vector aleatorio 53
4.1. Modelo o distribucio´n de probabilidades conjunto de variables aleatorias . . . 53
4.2. Propiedades de la funcio´n de distribucio´n conjunta . . . . . . . . . . . . . . 54
4.3. Valor esperado de funciones reales de variables aleatorias . . . . . . . . . . . 55
4.4. Propiedades del valor esperado relacionadas con la suma de variables . . . . 56
4.5. Distribuciones o modelos marginales . . . . . . . . . . . . . . . . . . . . . . 57
4.6. Distribuciones o modelos condicionales . . . . . . . . . . . . . . . . . . . . . 58
4.7. La esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.8. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . 64
4.9. Propiedades de independencia, esperanza y varianza . . . . . . . . . . . . . . 65
4.10. Covarianza y correlacio´n de dos variables aleatorias . . . . . . . . . . . . . . 67
4.10.1. Propiedades relacionadas con la suma de variables . . . . . . . . . . . 69
4.11. Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 70
4.12. La funcio´n generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . 71
4.13. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5. Conceptos de convergencia 86
5.1. Convergencia fuerte o casi segura . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2. Convergencia en probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3. Convergencia en distribucio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4. Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
La Ley Fuerte de los Grandes Nu´meros . . . . . . . . . . . . . . . . . . . . . 90
5.5. El Teorema del L´ımite Central . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.6. El Me´todo Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.7. Propiedades de una muestra aleatoria . . . . . . . . . . . . . . . . . . . . . . 94
5.7.1. Conceptos ba´sicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7.2. Propiedades asinto´ticas . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.8. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Bibliograf´ıa 100
1. Sigma-A´lgebras
La definicio´n formal de la probabilidad requiere del concepto de σ-a´lgebra. As´ı,
empezaremos por este tema.
Definicio´n 1.1. Sea un conjunto Ω 6= φ1. Se dice que una familia o coleccio´n de subconjuntos
de Ω, digamos F , es una σ-a´lgebra (o sigma-a´lgebra) de conjuntos de Ω, si satisface las
propiedades siguientes:
A1. Ω ∈ F .
A2. ∀A ∈ F : Ac ∈ F .
(F es cerrada respecto a complementos).
A3. ∀A1, A2 . . . ∈ F :
∞⋃
j=1
Aj ∈ F
(F es cerrada respecto a reuniones infinitas enumerables).
Observacio´n 1.1. Los elementos de F son subconjuntos de Ω y se les llama eventos de F .
Ejemplo 1.1. 2Ω = P(Ω) = {A : A ⊂ Ω } : el conjunto formado por todos los subconjuntos
de Ω (conjunto potencia o de partes de Ω) es una σ−a´lgebra de Ω; claramente esta es
la σ−a´lgebra ma´s grande que tiene Ω, es decir, toda σ−a´lgebra de Ω esta´ incluida en 2Ω
(∀F , σ − a´lgebra de Ω : F ⊂ 2Ω).
Ejemplo 1.2. {Ω, φ } es una σ−a´lgebra de Ω; claramente esta es la σ−a´lgebra ma´s
pequen˜a que tiene Ω, es decir, esta´ contenida en toda σ−a´lgebra de Ω (∀F , σ −
a´lgebra de Ω : {Ω, φ } ⊂ F).
Ejemplo 1.3. Sea Ω = { 0; 1; 2 } y A = { 1; 2 }; entonces, {Ω, φ, { 1; 2 }, { 0 } } =
{Ω, φ, A,Ac} es una σ−a´lgebra de Ω, esta es la ma´s pequen˜a a la que pertenece A.
Observacio´n 1.2. La construccio´n de σ-a´lgebras que no sean triviales es ma´s compleja de
lo que aparenta el ejemplo anterior, para ilustrarlo veamos el ejemplo siguiente en el que se
trata de construir una σ-a´lgebra que contenga a los intervalos cerrados por la derecha2.
1En una situacio´n pra´ctica concerniente con la Teor´ıa de Probabilidades, Ω representa al conjunto de los
resultados posibles de un experimento, mientras que F al conjunto de eventos posibles.
2Este ejemplo aparece en muchos libros de probabilidad. Ve´ase, por ejemplo, Ash (2000), pa´g 4, Resnick
(1999) pa´g. 14.
5
Ejemplo 1.4. Consideremos Ω = R y F la familia formada por R, φ y por uniones finitas
de intervalos disjuntos de la forma ( −∞, b ] ( a, b ] o (a, ∞). Aunque podemos verificar
que F cumple las primeras dos propiedades de la definicio´n de σ−a´lgebra e incluso que esta
familia es cerrada respecto a uniones finitas, F no es una σ-a´lgebra de R, pues, F no es
cerrada respecto a uniones infinitas enumerables, por ejemplo, tenemos que (0, 1− 1
n
] ∈ F ,
para n = 1, . . . , pero
∞⋃
n=1
(0, 1− 1
n
] = (0, 1) /∈ F .
Propiedades. Si F es una σ-a´lgebra de Ω, se cumplen las propiedades siguientes:
P1. φ ∈ F .
P2. F es cerrada respecto a reuniones finitas, es decir,
∀A1, . . . , An ∈ F , n ∈ N+ :
n⋃
j=1
Aj ∈ F
P3. F es cerrada respecto a intersecciones finitas, es decir,
∀A1, . . . , An ∈ F , n ∈ N+ :
n⋂
j=1
Aj ∈ F
P4. F es cerrada respecto a intersecciones infinitas enumerables, es decir,
∀A1, A2 . . . ∈ F :
∞⋂
j=1
Aj ∈ F
Observacio´n 1.3. Por las propiedades anteriores queda claro que si A1, . . . , An son eventos
de F ; entonces, operaciones de estos eventos con uniones, intersecciones y complementos
originan tambie´n eventos.
Ejercicio 1.1. Demuestre que la interseccio´n enumerable de sigma-a´lgebras tambie´n es una
sigma-a´lgebra. Es decir, si F1 ,F2 , . . . son σ-a´lgebras de Ω; entonces,
∞⋂
j=1
Fj es una σ-a´lgebra.
Ejercicio 1.2. Demuestre que la interseccio´n arbitraria de sigma a´lgebras tambie´n es una
sigma a´lgebra. Es decir, si {Fj }j∈J es una familia arbitraria de σ-a´lgebras; entonces,
⋂
j∈J
Fj
es una σ-a´lgebra.
Observacio´n 1.4. En una situacio´n pra´ctica, concerniente con probabilidades,podemos
estar interesados solo en algunos eventos, C que no llega a constituir una σ-a´lgebra; pero,
como ya se dijo, la definicio´n formal de probabilidad requiere de este concepto. As´ı, la
definicio´n siguiente sirve para completar una σ−a´lgebra, a partir de una cierta familia.
Definicio´n 1.2. Sea C una familia de subconjuntos de Ω, entonces, a la σ-a´lgebra ma´s
pequen˜a que la contiene se le llama la σ-a´lgebra generada por C y se le denota por σ(C). Es
decir, σ(C) satisface las condiciones siguientes:
i) C ⊂ σ(C),
ii) ∀F , σ-a´lgebra de Ω : C ⊂ F ⇒ σ(C) ⊂ F .
6
Por el ejercicio 1.2 es claro que esta σ-a´lgebra es la interseccio´n de todas las σ-a´lgebras que
contienen a C, es decir, σ(C) = ⋂
j∈J
Fj, con J la familia de las σ-a´lgebras que contienen a C.
Obse´rvese que, segu´n el ejemplo 1.1, en esta familia J esta´ 2Ω.
Ejemplo 1.5. Como en el ejemplo 1.3, sea A ⊂ Ω, con A 6= φ, entonces: σ({A }) =
{Ω, φ, A,Ac}.
Observacio´n 1.5. Dada una subcoleccio´n enumerable de conjuntos de una familia; entonces,
cualquier operacio´n entre estos conjuntos esta´ en la sigma-a´lgebra generada por la familia.
Ve´ase los ejercicios propuestos 1.4 y 1.5.
Definicio´n 1.3. A la sigma-a´lgebra, de subconjuntos de R, generada por los intervalos
abiertos se le denomina la sigma-a´lgebra de Borel en R, se le denota por B(R) y a sus
elementos se los denomina borelianos.
Es decir, si J = { I ⊂ R : I es un intervalo abierto }, entonces: σ(J ) = B(R). En particular,
son borelianos: todo intervalo abierto y de cualquier otro tipo, toda reunio´n o interseccio´n
enumerable de intervalos, todo conjunto abierto o cerrado (con la topolog´ıa usual3).
Observacio´n 1.6. La σ−a´lgebra de Borel se suele usar cuando los eventos de intere´s son
los intervalos. Tambie´n se puede definir la σ−a´lgebra de Borel generada por los intervalos
contenidos en un subconjunto de R.
3Una topolog´ıa en Ω es una familia de subconjuntos τ que satisface las propiedades siguientes: Ω y φ esta´n
en τ y cualquier unio´n arbitraria o cualquier interseccio´n finita de conjuntos que pertenecen a τ tambie´n
le pertenece. A los elementos de la topolog´ıa se los denominan abiertos y a sus complementos, cerrados. La
topolog´ıa usual de R es la topolog´ıa ma´s pequen˜a que contiene a los intervalos abiertos.
7
1.1. Ejercicios propuestos
Ejercicio 1.1.
Si f : Ω1 → Ω2 y A ∈ Ω2, demuestre las propiedades siguientes:
f−1(Ac) =
(
f−1(A)
)c
; f−1(
⋃
j∈J
Aj) =
⋃
j∈J
f−1(Aj); f−1(
⋂
j∈J
Aj) =
⋂
j∈J
f−1(Aj).
Ejercicio 1.2.
Halle
∞⋃
n=1
An y compruebe formalmente, en cada uno de los casos siguientes:
a) An = ( a, b− b−a2n ], b) An = [ a+ b−a2n , b ), c) An = [a+ b−a2n , b− b−a2n ]; con a < b.
Ejercicio 1.3.
De´ un contraejemplo para ilustrar que no es una propiedad que la reunio´n de sigma-a´lgebras
sea una sigma- a´lgebra.
Ejercicio 1.4.
Si C es una familia de subconjuntos de Ω y A1 ∈ C, A2 ∈ C, . . . , demuestre que
a) A1 ∈ σ(C), A2 ∈ σ(C), . . .
b)
∞⋃
j=1
Aj ∈ σ(C);
c)
∞⋂
j=1
Aj ∈ σ(C).
Ejercicio 1.5.
Si A ∈ C, B ∈ C y C ∈ C, demuestre que (A ∩Bc) ∪ C ∈ σ(C).
Ejercicio 1.6.
Sean A y B dos familias de subconjuntos de Ω tales que A1 ∈ A, B1 ∈ B, A2 ∈ A, B2 ∈ B . . .
Demuestre que
( ∞⋃
j=1
Aj
) ∩ ( ∞⋃
j=1
Bcj
) ∈ σ(A) ∩ σ(B).
Ejercicio 1.7.
Sean C1 y C2 dos familias de subconjuntos de Ω tales que todo conjunto de C1 puede ser
expresado como intersecciones enumerables de conjuntos de C2; es decir, ∀A ∈ C1 : ∃A1 ∈ C2,
∃A2 ∈ C2, . . . tales que A =
∞⋃
j=1
Aj.
a) Demuestre que C1 ⊂ σ(C2), es decir, que ∀A ∈ C1 : A ∈ σ(C2).
b) Demuestre que σ(C1) ⊂ σ(C2).
8
Ejercicio 1.8.
Sean C1 y C2 dos familias de subconjuntos de Ω tales que todo conjunto de cualquiera de
estas familias puede ser expresado como una unio´n o interseccio´n enumerable de conjuntos
de la otra familia. Demuestre que σ(C1) = σ(C2).
Ejercicio 1.9.
Demuestre que cada una de las familias de intervalos en R : I1 = { (−∞, b] : b ∈ R },
I
2
= { (a, b] : a, b ∈ R }, I
3
= { [a, b) : a,b ∈ R } e I
4
= { [a, b] : a, b ∈ R } generan
la sigma-a´lgebra de Borel: B(R). Use el resultado del ejercicio 1.8 y recuerde que dado un
intervalo de cierto tipo este siempre puede expresarse como una reunio´n (o bien interseccio´n)
enumerable de intervalos todos de un mismo tipo y diferente del correspondiente al intervalo
dado.
Ejercicio 1.10.
Dadas las familias de intervalos del ejercicio 1.9, conside´rense los conjuntos:
A1 ∈ I1 , A2 ∈ I2 A3 ∈ I3 y A4 ∈ I4 . Demuestre que
Ac1 ∪ (A2 ∩ Ac3) ∩ Ac4 ∈ B(R).
Ejercicio 1.11.
Para cualquier secuencia de conjuntos de Ω, A1, A2 . . . , se definen su l´ımite superior e inferior
como siguen: i) l´ım sup
n→∞
An =
∞⋂
n=1
∞⋃
k=n
Ak, ii) l´ım inf
n→∞
An =
∞⋃
n=1
∞⋂
k=n
Ak.
Adema´s, si el l´ımite inferior y el superior coinciden, es decir, si l´ım sup
n→∞
An = l´ım inf
n→∞
An, se
define el l´ımite de la secuencia mediante l´ım
n→∞
An = l´ım sup
n→∞
An = l´ım inf
n→∞
An.
a) Si An ⊂ An+1, ∀n ∈ N, demuestre que l´ım sup
n→∞
An =
∞⋃
n=1
An.
b) Si An ⊃ An+1, ∀n ∈ N, demuestre que l´ım sup
n→∞
An =
∞⋂
n=1
An.
c) Si cada uno de estos conjuntos pertenecen a una σ−a´lgebra, tambie´n pertenecen a esta
los l´ımites inferior y superior.
Ejercicio 1.12.
Sea C una familia de subconjuntos de Ω. Si todo conjunto de C satisface cierta propiedad
y la familia F de todos los conjuntos que satisfacen esta propiedad es una sigma-a´lgebra;
demuestre que todos los eventos de la σ-a´lgebra generada por C satisfacen la propiedad.
Ejercicio 1.13.
Sea g : Ω→ R. Sea C una familia de subconjuntos de Ω tal que ∀A ∈ C : g(A) ∈ B(R). Si,
adema´s, la familia F = {A ⊂ Ω : g(A) ∈ B(R) } es una sigma-a´lgebra de Ω; demuestre que
A ∈ σ(C)⇒ g(A) ∈ B(R).
9
Ejercicio 1.14.
Sean F , una σ-a´lgebra de Ω, y g : Ω → R. Si C una familia de subconjuntos de R, tal que
∀A ∈ C : g−1(A) ∈ F , demuestre que
A ∈ σ(C) : g−1(A) ∈ F .
Sugerencia. Demuestre que G = {A ⊂ R : g−1(A) ∈ F } es una σ-a´lgebra de R
Ejercicio 1.15.
Sean una funcio´n f : Ω1 → Ω2 y F una sigma-a´lgebra de Ω2. Demuestre que f−1(F) es una
sigma-a´lgebra de Ω1
4.
Ejercicio 1.16.
Sean una funcio´n f : Ω1 → Ω2 y C una familia de conjuntos de Ω2. Demuestre que
σ({ f−1(A) : A ∈ C }) = { f−1(A) : A ∈ σ(C) }. Use el resultado del ejercicio 1.15.
4Recue´rdese que si f : Ω1 → Ω2 y A ∈ Ω2, entonces f−1(A) = {ω ∈ Ω1 : f(ω) ∈ A }. Adema´s, si C es
una familia de subconjuntos de Ω2, se define f
−1(C) como el conjunto { f−1(A) : A ∈ C }
10
2. Probabilidad
Hoy en d´ıa incluso las disciplinas humanas tratan de cuantificar las cosas, claro esta´ que
esta cuantificacio´n depende de la naturaleza de lo que se pretende medir; por ejemplo, no es
lo mismo cuantificar la estatura de un estudiante que su rendimiento en un curso. En este
sentido, podemos decir que la probabilidad es una medida de la incertidumbre.
2.1. Definicio´n de probabilidad
Definicio´n 2.1. Sean Ω 6= φ y F una σ-a´lgebra de Ω. Una probabilidad definida en F es
una funcio´n: P : F → R,
A 7→ P (A)
que a cada evento A ∈ F le hace corresponder un nu´mero real P (A) (denominado la
probabilidad de que ocurra A), y que satisface las propiedades siguientes:
A1. ∀A ∈ F : P (A) ≥ 0.
A2. P (Ω) = 1.
A3. ∀A1, A2 . . . ∈ F , tales que Ai ∩Aj = φ para i 6= j : P
( ∞⋃
j=1
Aj
)
=
∞∑
j=1
P (Aj) .
Observacio´n 2.1. A la terna
(
Ω,F , P ) se la denomina un espacio de probabilidad.
Ejemplo 2.1. Sea Ω un conjunto finito, consideremos como σ−a´lgebra al conjunto potencia,
2Ω, y definamos P de modo que
P (A) =
#(A)
#(Ω)
, ∀A ∈ Ω.
No es dif´ıcil verificar que P satisface las tres propiedades que exige la definicio´n, por lo tanto
es una probabilidad. A esta reglade asignacio´n se la denomina la Probabilidad Cla´sica.
Ejemplo 2.2. Sea F una sigma-a´lgebra de Ω y ω0 ∈ Ω. Sea P : F → R tal que
∀A ∈ F : P (A) = 1A(ω0) 1; entonces, P es una probabilidad. Obse´rvese que, si {w0 } ∈ F ,
entonces, P ({w0 }) = 1.
Ejemplo 2.3. Sea Ω un conjunto finito, digamos Ω = {ω1, . . . , ωn }, consideremos como
σ−a´lgebra a 2Ω. Sean a1, . . . , an (no necesariamente todos diferentes) tales que ai ≥ 0 y
n∑
i=1
ai = 1. Definamos P tal que para todo evento A : P (A) =
∑
i:ωi∈A
ai =
n∑
i=1
ai1A(ωi). Se
puede verificar que P es una probabilidad; adema´s, P ({ωi }) = ai.
1Es comu´n usar la notacio´n siguiente: 1A(ω) =
{
1, si ω ∈ A
0, si ω 6∈ A. .
11
Observacio´n 2.2. Sea Ω un conjunto finito, digamos Ω = {ω1, . . . , ωn }, consideremos
como σ−a´lgebra a 2Ω. Sea P una probabilidad, entonces, para todo evento A se tiene que
P (A) = P
( ⋃
i:ωi∈A
{ωi }
)
=
∑
i:ωi∈A
P ({ωi }) =
n∑
i=1
P ({ωi })1A(ωi) . Por lo tanto, para definir
una probabilidad P (para este tipo de espacio Ω) basta asignar probabilidades a {ωi }
(los conjuntos unitarios formados por los elementos de Ω), es decir, determinar nu´meros
a1, . . . , an (no necesariamente todos diferentes) tales que ai ≥ 0 y
n∑
i=1
ai = 1 y hacer que
P ({ωi }) = ai.
Ejercicio 2.1. Generalizar el ejemplo y la observacio´n anteriores para un espacio Ω infinito
enumerable, digamos Ω = {ω1, ω2, . . . }.
2.2. Propiedades de la probabilidad
Si P es una probabilidad, definida en F , satisface, entre otras, las propiedades siguientes:
P1. P (φ) = 0.
P2. ∀A1, A2 . . . An ∈ F , n ∈ N, tales que Ai ∩ Aj = φ para i 6= j : se tiene que
P
( n⋃
j=1
Aj
)
=
n∑
j=1
P (Aj) .
P3. ∀A ∈ F : P (A) + P (Ac) = 1.
P4. ∀A ∈ F : 0 ≤ P (A) ≤ 1.
P5. ∀A y B ∈ F tales que A ⊂ B : P (A) ≤ P (B).
P6. ∀A y B ∈ F : P (B) = P (B ∩A) + P (B ∩ Ac).
O, en general, ∀A1, . . . , Ak ∈ F , k ∈ N, particio´n de Ω (es decir, tales que Ai ∩ Aj =
φ, i 6= j, y
k⋃
i=1
Ai = Ω); entonces, ∀B ∈ F : P (B) =
k∑
i=1
P (B ∩ Ai).
Esta propiedad es una de las ma´s importantes en las aplicaciones, se puede ilustrar
como sigue:
⊎ ⊎ ⊎ ⊎Ω : A1 . . . . . . . .Ai Ak
B : B ∩ A1 . . . . . . . .B ∩ Ai B ∩Ak
Bc :
O, incluso, ∀A1, A1 · · · ∈ F particio´n de Ω; entonces, ∀B ∈ F : P (B) =
∞∑
i=1
P (B ∩Ai).
12
P7. ∀A y B ∈ F : P (A ∪B) = P (A) + P (B)− P (A ∩B).
O, en general, ∀A1, . . . An ∈ F , n ∈ N :
P (A1 ∪ . . . ∪ An)
=
n∑
i=1
P (Ai)−
∑∑
i<j
P (Ai∩Aj)+
∑∑
i<j<k
P (Ai∩Aj∩Ak)+ . . . +(−1)n+1P (A1∩ . . . ∩An).
En particular, si n = 3, se tiene:
P (A1 ∪A2 ∪A3)
= P (A1)+P (A2)+P (A3)−P (A1∩A2)−P (A1∩A3)−P (A2∩A3)+P (A1∩A2∩A3).
P8. ∀A1, A2 . . . ∈ F : P
( ∞⋃
j=1
Aj
) ≤ ∞∑
j=1
P (Aj) .
P9. ∀A1, A2 . . . ∈ F tales que An ⊂ An+1, ∀n ∈ N :
P
( ∞⋃
n=1
An
)
= l´ım
n→∞
P (An) .
O, puesto que en este caso
∞⋃
n=1
An = l´ım
n→∞
An
2, tenemos que P ( l´ım
n→∞
An) = l´ım
n→∞
P (An).
Por esto, esta propiedad se conoce como propiedad de continuidad de la probabilidad.
P10. ∀A1, A2 . . . ∈ F tales que An ⊃ An+1, ∀n ∈ N :
P
( ∞⋂
n=1
An
)
= l´ım
n→∞
P (An) .
O, ya que en este caso
∞⋂
n=1
An = l´ım
n→∞
An
3, P ( l´ım
n→∞
An) = l´ım
n→∞
P (An).
Ejemplo 2.4. Para producir cierto bien debe usarse solo uno de tres procedimientos
principales existentes (1, 2 y 3) y, opcionalmente, uno secundario (4). La probabilidad de
usar el procedimiento 1 es de 0,6; la probabilidad de usar el procedimiento 1 con el secundario
es igual a 0,24. La probabilidad de usar el procedimiento 2 sin el procedimiento secundario
es de 0,06. La probabilidad de usar el procedimiento 3 es de 0,25; y la probabilidad de usar
el procedimiento secundario con este procedimiento es de 0,16.
Obtengamos la probabilidad de usar el procedimiento secundario. Para esto consideremos los
eventos: Ai, usar el procedimiento i; para i = 1, . . . , 4. Estos eventos nos permiten expresar
los datos dados con las notaciones necesarias para usar las propiedades de la probabilidad:
A1 ⊎ A2 ⊎ A3 = Ω4, es decir, los eventos A1, A2 y A3 constituyen una particio´n de Ω (es
decir, son mutuamente excluyentes y exhaustivos). Tenemos las probabilidades siguientes:
P (A1) = 0,6, P (A1 ∩ A4) = 0,24, P (A2 ∩Ac4) = 0,06, P (A3) = 0,25 y P (A3 ∩A4) = 0,16.
2Ve´ase el ejercicio propuesto 1.11.
3Ve´ase el ejercicio propuesto 1.11.
4Si A y B son disjuntos, se puede escribir A ⊎B en lugar de A ∪B.
13
Para obtener la probabilidad del evento que interesa, es decir de A4, la descomposicio´n
A1⊎A2⊎A3 = Ω nos permite expresar A4 = (A4 ∩A1)⊎ (A4∩A2)⊎ (A4∩A3); por lo tanto,
la probabilidad pedida es
P (A4) = P
(
(A4 ∩A1) ⊎ (A4 ∩ A2) ⊎ (A4 ∩ A3)
)
= P (A4 ∩ A1) + P (A4 ∩A2) + P (A4 ∩ A3)
= 0,24 + P (A4 ∩ A2) + 0,16
Luego, basta obtener la probabilidad P (A4 ∩ A2). Para esto, puesto que A1 ⊎ A2 ⊎A3 = Ω,
podemos deducir inmediatamente que P (A1) + P (A2) + P (A3) = 1 y as´ı P (A2) =
1 − 0,6 − 0,25 = 0,15. Adema´s, ya que P (A2) = P (A4 ∩ A2) + P (Ac4 ∩ A2), tenemos que
P (Ac4 ∩ A2) = P (A2)− 0,06 = 0,15− 0,06. As´ı, P (A4) = 0,24 + 0,09 + 0,16 = 0,49.
2.3. Probabilidad condicional
Definicio´n 2.2. Sea (Ω,F , P ) un espacio de probabilidad y B un evento de F con P (B) > 0.
La probabilidad condicional dado B, que se denota por P ( · /B), es la probabilidad definida
en F : P ( · /B) : F → R, tal que ∀A ∈ F : P (A/B) = P (A∩B)
P (B)
.
Obse´rvese que si P es la probabilidad cla´sica; entonces,
P (A/B) =
P (A ∩ B)
P (B)
=
#(A∩B)
#(Ω)
#(B)
#(Ω)
=
#(A ∩B)
#(B)
.
Por lo que P (A/B) se interpreta como la probabilidad de que ocurra A, cuando se sabe que
ocurrio´ el evento B. En las aplicaciones pra´cticas, la probabilidad condicional se usa para
actualizar las probabilidades luego de recibir informacio´n adicional que pueda modificar las
posibilidades de los eventos.
Observacio´n 2.3. La probabilidad condicional es, en efecto, una probabilidad:
A1. ∀A ∈ F : P (A/ B) ≥ 0.
A2. P (Ω/ B) = 1.
A3. ∀A1, A2 . . . ∈ F , tales que Ai ∩ Aj = φ, para i 6= j : P
( ∞⋃
j=1
Aj/B
)
=
∞∑
j=1
P (Aj/B) .
En particular satisface tambie´n cualquier otra propiedad de la probabilidad, como las
siguientes:
P1. P (φ/B) = 0.
P2. ∀A1, A2 . . . An ∈ F , n ∈ N, tales que Ai ∩Aj = φ para i 6= j :
P
( n⋃
j=1
Aj/B
)
=
n∑
j=1
P (Aj/B) .
14
P3. ∀A ∈ F : P (A/B) + P (Ac/B) = 1.
P4. ∀A ∈ F : 0 ≤ P (A/B) ≤ 1.
P5. ∀C y D ∈ F tales que C ⊂ D : P (C/B) ≤ P (D/B).
P6. ∀C y D ∈ F : P (C/B) = P (C ∩D/B) + P (C ∩Dc/B).
P7. ∀C y D ∈ F : P (C ∪D/B) = P (C/B) + P (D/B)− P (C ∩D/B).
Propiedad (regla del producto): Sea (Ω,F , P ) un espacio de probabilidad para
cualesquiera A y B eventos de F , se tiene que:
P (A ∩ B) = P (B)P (A/B) = P (A)P (B/A).
Observacio´n 2.4. Esta regla es importante, pues, permite obtener la probabilidad que
tienen de ocurrir conjuntamente dos eventos, a partir de la probabilidad de uno de ellos y la
del otro condicional a la ocurrencia del primero.
En general:
P (A1 ∩ . . . ∩ Ak) = P (A1)P (A2/A1)P (A3/A1 ∩ A2) . . . P (Ak/A1 ∩ . . . ∩Ak−1).
Ejemplo 2.5. Al realizar tres proyectos, c1, c2 y c3, se estiman las probabilidades siguientes:
0,3 de que el desarrollo de c3 no sea exitoso, 0,8 para el desarrollo exitoso de c1, cuando c3
resulta exitoso, y 0,1 de que el desarrollo de c2 no sea exitoso, si resultaran exitosos c1 y c3.
As´ı, si definimos los eventos Aj : el desarrollo de cj sea exitoso, para j = 1, 2, 3, tenemos las
probabilidades siguientes: P (Ac3) = 0,3, P (A1/A3) = 0,8, P (A
c
2/A1 ∩ A3) = 0,1.
Podemos usar la Regla del Producto para obtener, entre otras, las probabilidades siguientes:
de que resulten exitosos c1 y c3
= P (A1 ∩ A3) = P (A3)P (A1/A3) = [ 1− P (A3) ]P (A1/A3) = 0,7× 0,8;
de que los tres proyectosresulten exitosos
P (A1 ∩ A3 ∩A2) = P (A3) P (A1/A3) P (A2/A3 ∩ A1)
= [ 1− P (A3) ]P (A1/A3)[ 1− P (Ac2/A3 ∩ A2) ]
= 0,7 × 0,8 × 0,9.
Propiedad (reglas de la probabilidad total y de Bayes) Sea (Ω,F , P ) un espacio de
probabilidad y sean A1, . . . , Ak, eventos mutuamente excluyentes (esto es, Ai∩Aj = φ, para
cualesquiera i 6= j) y exhaustivos (es decir,
k⋃
i=1
Ai = Ω), y B otro evento.
Entonces, tenemos las propiedades siguientes:
a) La regla de la probabilidad total: la probabilidad de B puede obtenerse mediante
una suma, como se muestra a continuacio´n:
P (B) =
k∑
i=1
P (B ∩Ai) =
k∑
i=1
P (Ai)P (B/ Ai).
15
b) La regla de Bayes: luego de saber de la ocurrencia del evento B, la probabilidad
que se le hab´ıa asignado a Aj (para j = 1, . . . , k) se actualiza como:
P (Aj/ B) =
P (Aj ∩B)
P (B)
=
P (Aj)P (B/ Aj)
P (B)
=
P (Aj)P (B/ Aj)
k∑
i=1
P (Ai)P (B/ Ai)
.
Ejemplo 2.6. (Reconocimiento de patrones5) En el procesamiento de una imagen
recibida, la imagen transmitida puede haber sido bien I1, bien I2 o bien I3. Para ayudar
a la identificacio´n de esta se registra el valor de cierta variable distintiva. Toda imagen
recibida sera´ clasificada como una de estas tres ima´genes posibles, de modo que se tenga
la mayor probabilidad de acertar, dada la informacio´n registrada de la variable distintiva.
Antes de registrar la variable distintiva la imagen I1 tiene una probabilidad de 0,5, I2 de
0,3 e I3, 0,2. Si la imagen transmitida es I1, la probabilidad de que la variable distintiva
este´ entre 14 y 15 es de 0,1; si la imagen transmitida es I2, la probabilidad de que la variable
distintiva este´ entre 14 y 15 es de 0,25; pero si la imagen transmitida es I3, la probabilidad
de que la variable distintiva este´ entre 14 y 15 es de 0,35. Si para cierta imagen recibida fue
registrado un valor de la variable distintiva entre 14 y 15, ¿co´mo debe ser clasificada dicha
imagen?
Para responder podemos considerar los eventos Aj : la imagen transmitida es Ij , para
j = 1, 2, 3, y B : el valor de la variable distintiva entre 14 y 15.
Estos eventos nos permiten expresar los datos dados con las notaciones necesarias para usar
las propiedades de la probabilidad:
A1 ⊎ A2 ⊎ A3 = Ω (condicio´n para aplicar las reglas de la propiedad anterior), P (A1) =
0,5,P (A2) = 0,3,P (A3) = 0,2, P (B/A1) = 0,1, P (B/A2) = 0,25, P (B/A3) = 0,35.
Si usamos las reglas dadas en la propiedad anterior obtenemos las probabilidades siguientes:
P (B) =
3∑
i=1
P (B ∩ Ai) =
3∑
i=1
P (Ai)P (B/Ai) = 0,5× 0,1 + 0,3× 0,25 + 0,2× 0,35 = 0,195;
P (A1/B) =
P (A1 ∩B)
P (B)
=
P (A1)P (B/A1)
P (B)
=
0,05
0,195
= 0,25641;
P (A2/B) =
P (A2 ∩B)
P (B)
=
P (A2)P (B/A2)
P (B)
=
0,075
0,195
= 0,38462;
P (A3/B) =
P (A3 ∩B)
P (B)
=
P (A3)P (B/A3)
P (B)
=
0,07
0,195
= 0,35897 6.
Por lo tanto, la imagen recibida debe clasificarse como I2.
Las tres u´ltimas probabilidades actualizadas, de cada tipo de imagen, se actualizara´n cuando
se clasifique la pro´xima imagen que se reciba (segu´n la variable distintiva).
5Este ejemplo es una simplificacio´n de un problema de reconocimiento de patrones estad´ıstico. Ve´ase
Bishop (1995) cap´ıtulo 1, ejemplo 1.
6Esta u´ltima probabilidad tambie´n se puede obtener por complemento, pues P (A1)+P (A2)+P (A3) = 1.
16
Observacio´n 2.5. En las propiedades anteriores la particio´n de Ω puede ser infinita
enumerable, es decir, si A1, A2, · · · ∈ F es una particio´n de Ω (Ai∩Aj = φ, para cualesquiera
i 6= j y
∞⋃
i=1
Ai = Ω), entonces, ∀B ∈ F :
P (B) =
∞∑
i=1
P (B ∩ Ai)
Ejemplo 2.7. La probabilidad de que cierto sistema, con una estructura en serie, tenga n
componentes esta´ dada por 2−n, ∀n ∈ N+. Si el sistema tiene n componentes, la probabilidad
de que funcione todo un an˜o esta´ dada por e−
n
2
7.
Entonces, para calcular la probabilidad de que el sistema funcione todo un an˜o, basta
considerar los eventos siguientes:
An : el sistema tiene n componentes, con n = 1; 2; . . . y B : el sistema funciona todo un an˜o.
Tenemos que
∞⋃
i=1
Ai = Ω, P (An) = 2
−n y P (B ∩ An) = e−n2 , n = 1; 2; . . . Entonces, por la
observacio´n anterior resulta:
P (B) =
∞∑
n=1
P (B ∩An) =
∞∑
n=1
P (An)P (B/An) =
∞∑
n=1
2−ne−
n
2 =
∞∑
n=1
( 1
2e1/2
)n =
1
2e1/2
1− 1
2e1/2
8.
2.4. Independencia
Definicio´n 2.3. Sea (Ω,F , P ) un espacio de probabilidad. Se dice que dos eventos A y B
son independientes si:
P (A ∩B) = P (A)P (B)
Observacio´n 2.6. Cuando dos eventos son independientes, la probabilidad de que ocurra
uno de ellos sigue siendo la misma aun cuando se sepa que ha ocurrido el otro, es decir:
P (A/B) = P (A) y P (B/A) = P (B)
La definicio´n anterior se generaliza a continuacio´n.
Definicio´n 2.4. Sea (Ω,F , P ) un espacio de probabilidad. La coleccio´n de eventos
{A1, A2, . . . } son independientes, si la probabilidad de que ocurran simulta´neamente
cualquier nu´mero finito de estos eventos es igual al producto de las probabilidades de cada
uno.
As´ı, por ejemplo, si se consideran n cualesquiera de tales eventos, digamos Ai1 , Ai2 , . . . Ain ,
entonces:
P (Ai1 ∩ Ai2 ∩ . . . ∩ Ain) = P (Ai1)P (Ai2) . . . P (Ain)
7Esto ocurre si los componentes tienen tiempos de vida independientes y con distribucio´n exponencial de
media dos an˜os.
8Recue´rdese la serie geome´trica: 0 < |r| < 1,m ∈ N :⇒
∞∑
j=1
rj = m
j
1−r
.
17
Ejemplo 2.8. Los eventos A, B y C son independientes si se cumplen las igualdades
siguientes:
P (A∩B) = P (A)P (B), P (A∩C) = P (A)P (C), P (B ∩C) = P (B)P (C) y P (A∩B ∩C) =
P (A)P (B)P (C).
Propiedad Si en una coleccio´n de eventos independientes, digamos {A1, A2, . . . }, se
sustituye cualquiera de estos por su complemento; entonces, la coleccio´n que resulta tambie´n
es de eventos independientes.
Observacio´n 2.7. Por la propiedad anterior, podemos decir que dos eventos son
independientes si la probabilidad de que ocurra uno de ellos no se altera aun sabiendo si
ocurrio´, o si no ocurrio´, el otro.
Ejemplo 2.9. Se conformara´ un sistema con tres componentes, cualquiera de estos puede
funcionar, durante un an˜o, con una probabilidad igual a 0,99 e independientemente de si los
otros lo hagan. Obtengamos la probabilidad de que el sistema funcione, durante un an˜o, en
cada uno de los casos siguientes:
a) el sistema tiene una estructura en serie;
b) el sistema tiene una estructura en paralelo;
c) el sistema tiene una estructura “ 2 de 3 ”.
Para obtener las probabilidades usaremos los eventos siguientes:
Ai : el componente i funcione durante un an˜o, i = 1, 2, 3.
a) Interesa el evento A1 ∩ A2 ∩A3. Por la independencia tenemos que:
P (A1 ∩ A2 ∩ A3) = P (A1)P (A2)P (A3)
= (0,99)(0,99)(0,99)
= (0,99)3
b) En este caso el evento de intere´s es A1 ∪A2 ∪ A3, cuyo complemento es Ac1 ∩ Ac2 ∩ Ac3.
Por la independencia, resulta ma´s simple obtener la probabilidad del complemento, en efecto:
P (Ac1 ∩Ac2 ∩Ac3) = P (Ac1)P (Ac2)P (Ac3)
= (1− 0,99)(1− 0,99)(1− 0,99)
= (1− 0,99)3
As´ı, P (A1 ∪A2 ∪A3) = 1− P (Ac1 ∩Ac2 ∩Ac3) = 1− (1− 0,99)3.
c) Ahora el evento que interesa puede expresarse como:
(A1 ∩A2 ∩Ac3) ⊎ (A1 ∩ Ac2 ∩A3) ⊎ (Ac1 ∩ A2 ∩ A3) ⊎ (A1 ∩A2 ∩A3)
Cuya probabilidad se puede obtener sumando las probabilidades de cada uno de los eventos
excluyentes anteriores, es decir,
P (A1 ∩ A2 ∩ Ac3) + P (A1 ∩Ac2 ∩A3) + P (Ac1 ∩ A2 ∩ A3) + P (A1 ∩A2 ∩A3)
18
Nuevamente por la independencia, tenemos que:
P (A1 ∩ A2 ∩Ac3) = P (A1)P (A2)P (Ac3) = (0,99)(0,99)(1− 0,99) = (0,99)2(1− 0,99)
P (A1 ∩ Ac2 ∩A3) = P (A1)P (Ac2)P (A3) = (0,99)(1− 0,99)(0,99) = (0,99)2(1− 0,99)
P (Ac1 ∩ A2 ∩A3) = P (Ac1)P (A2)P (A3) = (1− 0,99)(0,99)(0,99) = (0,99)2(1− 0,99)
P (A1 ∩ A2 ∩A3) = P (A1)P (A2)P (A3)= (0,99)(0,99)(0,99) = (0,99)3
Por lo tanto, la probabilidad que interesa es 3(0,99)2(1− 0,99) + (0,99)3.
Propiedad. Si en una coleccio´n de eventos independientes se escogen subcolecciones
disjuntas (de este modo ningu´n evento estara´ en ma´s de una subcoleccio´n) y en cada
subcoleccio´n se efectu´an operaciones (de reunio´n, interseccio´n o complemento) con los
eventos que la integran; entonces, los eventos que resultan de estas operaciones tambie´n
son independientes.
Ejemplo 2.10. Si A, B, C y D son eventos independientes; entonces, tambie´n lo son, entre
otros
a) A ∩ (B ∪ C) y D, b) Ac, Bc ∪ C y Dc, c) Ac ∩ B y C ∪Dc.
En particular
P (A ∩ (B ∪ C) ∩D) = P (A)P (B ∪ C)P (D),
P (Ac ∩ (Bc ∪ C) ∩Dc) = P (Ac)P (Bc ∪ C)P (Dc),
P ( (Ac ∩B) ∩ (C ∪Dc) ) = P (Ac ∩ B)P (C ∪Dc).
19
2.5. Ejercicios Propuestos
Ejercicio 2.1.
Sean F , una σ-a´lgebra de Ω, y dos probabilidades P1 y P2 (definidas en F). Para cada A ∈ F ,
se define P (A) de la manera siguiente: P (A) = 1
4
P1(A) +
3
4
P2(A) .
Demuestre que P tambie´n es una probabilidad.
Ejercicio 2.2.
Sea (Ω,F , P ) un espacio de probabilidad y C ∈ F , con P (C) > 0. Se define, ∀A ∈ F , Q(A)
de la manera siguiente: Q(A) =
P (A ∩ C)
P (C)
.
Demuestre que Q tambie´n es una probabilidad.
Ejercicio 2.3.
Sean F1 una sigma-a´lgebra en Ω1, F2 una sigma-a´lgebra en Ω2, P una probabilidad definida
en F1 y una funcio´n g : Ω1 → Ω2 tal que ∀A ∈ F2 : g−1(A) ∈ F1. Sea Pg : F2 → R, tal
que ∀A ∈ F2 : Pg(A) = P (g−1(A)). Demuestre que Pg es una probabilidad definida en F2.
Ejercicio 2.4.
Sea (Ω,F , P ) un espacio probabil´ıstico y {A1, A2, . . . } una familia de eventos de F .
a) Demuestre que P (Lim inf An) = l´ım
n→∞
P (
∞⋂
k=n
Ak).
No´tese que: Bn =
∞⋂
k=n
Ak, ∀n ∈ N+ ⇒ Bn ⊂ Bn+1,∀n ∈ N+; luego use la propiedad 9
de la probabilidad.
b) Demuestre que: P (LimsupAn) = l´ım
n→∞
P (
∞⋃
k=n
Ak)
No´tese que: Bn =
∞⋃
k=n
Ak, ∀n ∈ N+ ⇒ Bn ⊃ Bn+1,∀n ∈ N+; luego use la propiedad 10
de la probabilidad.
c) Si LimsupAn = Lim inf An, demuestre que l´ım
n→∞
P (An) = P (LimAn).
No´tese que:
∞⋂
k=n
Ak ⊂ An ⊂
∞⋃
k=n
Ak; luego use la propiedad 5 de la probabilidad.
d) Demuestre que:
∞∑
n=1
P (An) <∞⇒ P (LimsupAn) = 0.
Recue´rdese que:
∞∑
n=1
an <∞⇒ l´ım
n→∞
∞∑
k=n
ak = 0.
20
Ejercicio 2.5.
Sea f : R→ R, tal que
∞∫
−∞
f = 1. Para cadaA ∈ B(R), se define P (A),mediante P (A) = ∫
A
f.
Demuestre que P es una probabilidad en el espacio (R, B(R)).
Ejercicio 2.6.
Sea (Ω,F , P ) un espacio de probabilidad. Demuestre que
∀A,B ∈ F : A ⊂ B y P (A) = 1 ⇒ P (B) = 1.
Ejercicio 2.7.
Sea (Ω,F , P ) un espacio de probabilidad. Demuestre que
∀A,B ∈ F : A ⊂ B y P (B) = 0 ⇒ P (A) = 0.
Ejercicio 2.8.
Sea (Ω,F , P ) un espacio de probabilidad. Demuestre que
∀A,B ∈ F : P (A ∩B) ≥ P (A) + P (B)− 1.
Ejercicio 2.9.
Sea (Ω,F , P ) un espacio de probabilidad. ∀A1, . . . , Am ∈ F tales que Ai ∩ Aj = φ, para
i 6= j, demuestre que ∃i ∈ { 1, . . . m } : P (Ai) ≤ 1m .
Ejercicio 2.10.
Una tarea se realiza con un solo operario de tres disponibles (1, 2 y 3). Se sabe que la
probabilidad de realizar la tarea con el operario 1 y obtener el resultado esperado es de 0,01.
La probabilidad de realizar la tarea con el operario 2 es de 0,08. La probabilidad de realizar
la tarea 2 y no obtener el resultado esperado es de 0,05. Adema´s, la probabilidad de realizar
la tarea con el operario 3 y obtener el resultado esperado es de 0,02. Hallar la probabilidad
de obtener el resultado esperado.
Ejercicio 2.11.
Dados los tres eventos siguientes: A1, A2 y A3, se sabe que
P (A1 ∩ A2 ∩ Ac3) = P (A1 ∩Ac2 ∩ A3) = P (Ac1 ∩ A2 ∩A3) = P (A1 ∩A2 ∩ A3) = 18 .
a) ¿Cua´l es la probabilidad de que los tres eventos ocurran?
b) Halle la probabilidad de que solo dos de los tres eventos ocurran.
c) Halle la probabilidad de que por lo menos dos de los tres eventos ocurran.
d) Halle la probabilidad de que por lo menos uno de los tres eventos no ocurra.
21
Ejercicio 2.12.
Si P (A ∩Bc ∩ C) = 0,8 y P (A ∩Bc ∩ C ∩Dc) = 0,5.
a) Halle P (A ∩Bc ∩ C ∩D).
b) Halle P (Ac ∪ B ∪ Cc ∪Dc).
Ejercicio 2.13.
Demostrar la propiedad enunciada en la observacio´n 2.5.
Ejercicio 2.14.
Demuestre que si en la Regla de la Probabilidad Total la condicio´n
k⋃
i=1
Ai = Ω es reemplazada
por P (
k⋃
i=1
Ai) = 1 (es decir, ahora los eventos A1, . . . , Ak son mutuamente excluyentes [ esto
es, Ai ∩Aj = φ, para cualesquiera i 6= j ], pero no necesariamente exhaustivos); entonces, el
resultado todav´ıa es va´lido:
P (B) =
k∑
i=1
P (B ∩Ai) =
k∑
i=1
P (Ai)P (B/ Ai), ∀B ∈ F .
Tenga en cuenta la sugerencia siguiente:
si se define Ak+1 = (
k⋃
i=1
Ai)
c
, puede aplicar la Regla de la Probabilidad Total con la particio´n
A1, . . . , Ak+1. Tambie´n tenga en cuenta el ejercicio propuesto 2.7.
Ejercicio 2.15.
Sean P, Q y R probabilidades, definidas en F (σ-a´lgebra de Ω), tales que
∀A ∈ F : Q(A) = P (A/B) y R(A) = Q(A/C).
Demuestre que ∀A ∈ F : R(A) = P (A/B ∩ C).
Ejercicio 2.16.
Sean P, Q R y S probabilidades, definidas en F (σ-a´lgebra de Ω), tales que
∀A ∈ F : Q(A) = P (A/B), R(A) = Q(A/C) y S(A) = R(A/D).
Demuestre que ∀A ∈ F : S(A) = P (A/B ∩ C ∩D).
Ejercicio 2.2.
Si P (A ∩ C/B) = 0,1, P (A ∩ Cc/B) = 0,2, halle P (A/B).
Ejercicio 2.17.
Halle la probabilidad P (A ∪ B ∪ C ∪D), si se conocen las probabilidades siguientes:
P (A) = 0,1, P (Bc/Ac) = 0,8, P (C/Ac ∩Bc) = 0,3 y P (D/Ac ∩ Bc ∩ Cc) = 0,4.
22
Ejercicio 2.18.
Al realizar tres proyectos, c
1
, c
2
y c
3
, un economista estima las probabilidades siguientes:
i) 0,7, para el desarrollo exitoso de c1;
ii) 0,8, para el desarrollo exitoso de c2, si es que c1 resultara exitoso;
iii) 0,6, para el desarrollo exitoso de c2, si es que c1 no resultara exitoso;
iv) 0,9, para el desarrollo exitoso de c3, si es que resultaran exitosos c1 y c2 ;
v) 0,75, para el desarrollo exitoso de c3 , si es que resultara exitoso c1 pero no c2 ;
vi) 0,65, para el desarrollo exitoso de c3 , si es que resultara exitoso c2 pero no c1 ;
vii) 0,5, para el desarrollo exitoso de c3, si es que no resultaran exitosos c1 ni c2 .
El economista obtendra´ un beneficio si, y solo si, por lo menos dos de los tres proyectos
resultaran exitosos. Cuantifique el riesgo que correra´ al realizar los proyectos.
Ejercicio 2.19.
Si A,B y C son eventos independientes, use la definicio´n de independencia para demostrar
que tambie´n lo son i) A y Bc; ii) Ac y Bc; iii) A ∪B y C.
Ejercicio 2.20.
Sea (Ω,F , P ) un espacio de probabilidad y A1, . . . , A5 eventos independientes, cada uno con
probabilidad 0,9, halle las probabilidades de los eventos siguientes:
a) A1 ∪ Ac2, b) (A1 ∪Ac2) ∩A3, c) A4 ∪
(
(A1 ∪ Ac2) ∩ A3
) ∪A5.
Ejercicio 2.21.
Los eventos A1, . . . , A5 son independientes y P (Ai) =
i
10
, i = 1, . . . , 5.
a) Halle P (A1 ∪ · · · ∪A5).
b) Calcule la probabilidad de que por lo menos dos de estos eventos ocurra.
c) Calcule la probabilidad de A1∪(A2∩Ac3∩A4)∪Ac5. Emplee propiedades que simplifiquen.
23
3. Variable aleatoria
3.1. Definicio´n y ejemplos
Definicio´n 3.1. Sea (Ω,F , P ) un espacio de probabilidad. Una variable aleatoria es una
funcio´n X : Ω→ R, tal que ∀x ∈ R : X−1( ] −∞, x ] ) ∈ F .
ω 7→ X(ω)
ω
Ω
·
x = X(ω) R
X
Observacio´n 3.1. ¿Que´ interpretacio´n podemos dar a esta definicio´n formal? Para
averiguarlo ponga´monos en el papel de una persona que recibe u observa los valores de la
variable, para ella estos valores tendra´n una naturaleza aleatoria, puesto que estos se originan
al transformar los resultados de un experimento aleatorio en nu´meros. Ese experimento
resulta, para dicha persona, como una “caja negra”, pues ella solo recibe los valores y no
observael experimento mismo, por lo tanto, para tener una descripcio´n de ella tendra´ que
hacerlo de manera indirecta y no a trave´s del experimento aleatorio mismo. La condicio´n
∀x ∈ R : X−1( ] − ∞, x ] ) ∈ F , garantiza que cualquier intervalo en R, originado por la
variable aleatoria, provenga de un evento que es medible en el espacio (Ω,F ,P) y, en general,
cualquier boreliano (como se menciona en la observacio´n 3.3), por ejemplo:
2 ≤ X ≤ 4 = X−1( [ 2, 4 ] ) = {ω ∈ Ω : 2 ≤ X(ω) ≤ 4 } ∈ F ,
X < 5 = X−1( ] −∞, 5 ] ) = {ω ∈ Ω : X(ω) < 5 } ∈ F ,
X = 3 = X−1( { 3 } ) = {ω ∈ Ω : X(ω) = 3 } ∈ F .
Ejemplo 3.1. Sea Ω = { (0; 0),(0; 1),(1; 0),(1; 1) } y F = 2Ω. Definimos X : Ω→ R, tal que
X( (ω1, ω2) ) = ω1 + ω2
1; entonces, X es una variable aleatoria. Para justificarlo podemos
empezar por notar que el rango de X es { 0; 1; 2 } y luego que
x < 0⇒ X−1( ] −∞, x ] ) = φ,
0 ≤ x < 1⇒ X−1( ] −∞, x ] ) = X−1( { 0 } ) = { (0; 0) },
1 ≤ x < 2⇒ X−1( ] −∞, x ] ) = X−1( { 0; 1 } ) = { (0; 0),(0; 1), (1; 0) },
2 ≤ x⇒ X−1( ] −∞, x ] ) = X−1( { 0; 1; 2 } ) = { (0; 0),(0; 1), (1; 0) (1; 1) }.
1Ω puede representar al espacio muestral del experimento de lanzar dos veces una moneda; entonces, si
1 representa a sello y 0 a cara, X sera´ el nu´mero de sellos obtenidos.
24
Ejemplo 3.2. Si F = 2Ω, entonces, toda funcio´n X : Ω → R es una variable aleatoria,
pues, ∀x ∈ R : X−1( ] −∞, x ] ) ⊂ Ω, es decir, X−1( ] −∞, x ] ) ∈ 2Ω.
Observacio´n 3.2. Como X−1(A) = {ω ∈ Ω : X(ω) ∈ A }, es usual denotar estos conjuntos
simplemente por X ∈ A, es decir, X ∈ A = {ω ∈ Ω : X(ω) ∈ A } = X−1(A).
Similarmente, como fue escrito en la observacio´n anterior, X ≤ x = {ω ∈ Ω : X(ω) ≤ x },
X = x = {ω ∈ Ω : X(ω) = x }, etc.
Ejemplo 3.3. Sea (Ω,F , P ) un espacio de probabilidad y A ∈ F . Si consideramos X = 1A,
entonces, X es una variable aleatoria. En efecto, como 1A(ω) =
{
1, si ω ∈ A
0, si ω 6∈ A; entonces,
tenemos que
x < 0⇒ X−1( ] −∞, x ] ) = X ≤ x = φ ∈ F ,
0 ≤ x < 1⇒ X−1( ] −∞, x ] ) = X ≤ x = X = 0 = X−1( { 0 } ) = Ac ∈ F ,
1 ≤ x⇒ X−1( ] −∞, x ] ) = X ≤ x = X ≤ 1 = X−1( { 0; 1 } ) = Ac ∪ A = Ω ∈ F .
Observacio´n 3.3. Sean (Ω,F , P ) un espacio de probabilidad y una funcio´n X : Ω → R.
Entonces, X es una variable aleatoria ⇔ ∀B ∈ B(R) : X−1(B) ∈ F .
Propiedad Si X e Y son variables aleatorias tambie´n lo son: cX,∀c ∈ R, X + Y y X/Y, si
Y 6= 0.
Propiedad Si X es una variable aleatoria y g : R→ R es una funcio´n continua2, entonces
g(X) tambie´n es una variable aleatoria. En realidad basta que g este´ definida en el rango de
la variable X.
Observacio´n 3.4. La propiedad anterior es ma´s general, se puede considerar que g sea una
variable aleatoria en (R,B(R)), es decir, g : R→ R tal que ∀x ∈ R : g−1( ] −∞, x ] ) ∈ B(R).
Ejemplo 3.4. Si X es una variable aleatoria, entonces, tambie´n lo son:
eX , ln(|X|), 5 + 4X, 1
]−∞, 2[
(X) , X 1
]−∞, 2[
(X) + 2 1
[2,∞[
(X).
Ejemplo 3.5. Si X es una variable aleatoria positiva, entonces, tambie´n lo es ln(X).
3.2. Funcio´n de distribucio´n
Definicio´n 3.2. Sea (Ω,F , P ), un espacio de probabilidad y X una variable aleatoria. La
funcio´n de distribucio´n acumulada de X es la funcio´n F : R→ R, tal que ∀x ∈ R : F (x) =
P (X ≤ x), es decir, F (x) = P (X−1( ]−∞, x] )).
2Recue´rdese que una funcio´n es continua si, y solo si, l´ım
x→y
f(x) = f(y); sin embargo, una definicio´n ma´s
formal es que la imagen abierta de cualquier conjunto abierto tambie´n es un conjunto abierto.
25
Ejemplo 3.6. Como en el ejemplo 3.1, sean Ω = { (0; 0),(0; 1),(1; 0),(1; 1) }, F = 2Ω,
X : Ω→ R, tal que X( (ω1, ω2) ) = ω1+ω2. Consideremos que P sea la probabilidad cla´sica.
Entonces, recordando lo visto en ese ejemplo:
x < 0⇒ X ≤ x = φ⇒ F (x) = P (φ) = 0,
0 ≤ x < 1⇒ X ≤ x = X = 0 = { (0; 0) } ⇒ F (x) = P ({ (0; 0) }) = 1
4
,
1 ≤ x < 2⇒ X ≤ x = X ≤ 1 = { (0; 0),(0; 1), (1; 0) }
⇒ F (x) = F (1) = P ({ (0; 0),(0; 1), (1; 0) }) = 3
4
,
2 ≤ x⇒ X ≤ x = X ≤ 2 = { (0; 0),(0; 1), (1; 0), (1; 1) }
⇒ F (x) = F (2) = P ({ (0; 0),(0; 1), (1; 0), (1; 1) }) = 1 .
Ejercicio 3.1. Como en el ejemplo 3.3, sea (Ω,F , P ) un espacio de probabilidad, A ∈ F y
conside´rese que X = 1A. Supo´ngase tambie´n que se conoce el valor de la probabilidad de A
y que este sea 0,25, es decir, P (A) = 0,25. Halle y grafique la distribucio´n acumulada de X.
Propiedades ba´sicas
F1) F es creciente, es decir, ∀x,y ∈ R : x < y ⇒ F (x) ≤ F (y);
F2) l´ım
x→∞
F (x) = 1 y l´ım
x→−∞
F (x) = 0;
F3) F es continua por la derecha. Es decir, ∀y ∈ R : l´ım
x→y+
F (x) = F (y).
Observacio´n 3.5. En matema´ticas, si una funcio´n tiene las propiedades anteriores se llama
funcio´n de distribucio´n.
Otras propiedades
F5) ∀x ∈ R : 0 ≤ F (x) ≤ 1;
F6) l´ım
x→y−
F (x) = P (X < y); l´ım
x→y+
F (x)− l´ım
x→y−
F (x) = P (X = x);
F7) F es discontinua solo en los puntos con probabilidad mayor que cero, es decir,
F es discontinua en x ⇔ P (X = x) > 0;
F8) El conjunto de puntos donde F no es continua es finito o enumerable, es decir,
{ x ∈ R : P (X = x) > 0 } es finito o enumerable.
Observacio´n 3.6. Dos variables aleatorias diferentes pueden tener la misma funcio´n de
distribucio´n acumulada, como lo ilustra el ejercicio siguiente.
Ejercicio 3.2. Sea (Ω,F , P ) un espacio de probabilidad tales que para cierto A ∈ F ,
P (A) = 0,5. Conside´rese, como en el ejemplo 3.3 y el ejercicio 3.1, la variable aleatoria
X = 1A; conside´rese tambie´n la variable aleatoria Y = 1Ac. Verifique que X 6= Y y F
X
= F
Y
(estas son las correspondientes funciones de distribucio´n acumuladas).
26
Teorema 3.1. Sea F : R→ R+ ∪ {0}, que satisface las propiedades ba´sicas (F1, F2 y F3,);
entonces, existe una variable aleatoria X, definida en algu´n espacio (Ω,F), tal que su funcio´n
de distribucio´n es F.
Observacio´n 3.7. El Teorema anterior da el sustento teo´rico para tratar una variable
estad´ıstica, por medio de un modelo probabil´ıstico. Por ejemplo, si los datos registrados
de una variable hacen inferir que sigue un patro´n como el del modelo normal, es decir,
F (x) =
x∫
−∞
1√
2π
e−
1
2σ2
(y−µ)2dy; entonces, como esta es una funcio´n de distribucio´n (satisface
las propiedades ba´sicas: F1, F2 y F3) sigue, por este teorema, que existe una variable aleatoria
X, definida en algu´n espacio (Ω,F), tal que la funcio´n de distribucio´n acumulada de X es
igual a la del modelo normal.
Demostracio´n Sea Ω = (0; 1), F = B( (0; 1) ) (la sigma-a´lgebra de los borelianos en (0; 1))
y P la probabilidad tal que todo intervalo de (0; 1) tenga como probabilidad a su longitud,
por ejemplo si (a; b] ⊂ (0; 1) : P ((a; b]) = b− a 3. Conside´rese, ∀ω ∈ (0; 1) :
X(ω) = inf{ x : F (x) ≥ ω }.
Se puede verificar que ∀ω ∈ (0; 1),∀x ∈ R : X(ω) ≤ x⇔ ω ≤ F (x)4.
Esto u´ltimo significa que X ≤ x = {ω ∈ (0; 1) : ω ≤ F (x) } =] 0; F (x) ]. Por lo tanto,
∀x ∈ R : F
X
(x) = P (X ≤ x) = P ( ] 0; F (x) ] ) = F (x)− 0 = F (x). Es decir, F
X
= F.
3.3. Clasificacio´n de las variables aleatorias
Definicio´n 3.3. Probabilidad inducida por una variable aleatoria.
Sea X : (Ω : F , P )→ (R,B(R)) una variable aleatoria. ∀B ∈ B(R) definimos
P
X
(B) = P (X ∈ B).
Se puede verificar que esta funcio´n P
X
: B(R) → R es una probabilidad (ve´ase el ejercicio
2.3) y se le denomina la Probabilidad Inducida por X.
Observacio´n 3.8. La probabilidad inducida de una variable aleatoria proporciona la
probabilidad de que la variable tome valores en cualquier evento de R (es decir, en cualquier
boreliano).
Ejemplo 3.7. ∀x ∈ R : P
X
( ] − ∞, x ] ) = P (X−1( ] − ∞, x ] ) ) = P (X ≤ x) = F (x). En
realidad, podemos obtener la probabilidad de X ∈ B, para cualquier B intervalo, a partir
de la funcio´n de distribucio´n de X :
P
X
( ]a, b] ) = P (a < X ≤ b) = P (X ≤ b)− P (X ≤ a) = F (b)− F (a),
3En teor´ıa de la medida aesta probabilidad se le llama la medida de Lebesgue.
4Por esta propiedad a la funcio´n que define X se le conoce como la inversa generalizada de F.
27
P
X
( [a, b] ) = P (a ≤ X ≤ b) = P (X ≤ b)− P (X < a) = F (b)− l´ım
x→a−
F (x),
P
X
( ]a, b[ ) = P (a < X < b) = P (X < b)− P (X ≤ a) = l´ım
x→b−
F (x)− F (a),
P
X
( [a, b[ ) = P (a ≤ X < b) = P (X < b)− P (X < a) = l´ım
x→b−
F (x)− l´ım
x→a−
F (x),
P
X
( ]−∞, b[ ) = P (X < b) = l´ım
x→b−
F (x),
P
X
( ]a,∞[ ) = P (X > a) = 1− P (X ≤ a) = 1− F (a),
P
X
( [a,∞[ ) = P (X ≥ a) = 1− P (X < a) = 1− l´ım
x→a−
F (x).
Observacio´n 3.9. Como se ha visto en el ejemplo anterior, la probabilidad inducida de
una variable aleatoria determina la funcio´n de distribucio´n de la variable aleatoria, es
decir, P
X
determina F
X
; adema´s, la probabilidad inducida de cualquier intervalo (es decir,
la probabilidad de que la variable tome valores en cualquier intervalo) queda determinada
por la funcio´n de distribucio´n de la variable; pero en realidad se puede demostrar que la
probabilidad de que la variable tome valores en cualquier boreliano queda determinada por
la funcio´n de distribucio´n de la variable; entonces, F
X
tambie´n determina P
X
. El teorema
siguiente esta´ en armon´ıa con las conclusiones anteriores:
Teorema 3.2. Dos variables aleatorias tienen la misma probabilidad inducida si, y solo si,
tienen la misma funcio´n de distribucio´n. Es decir, si X e Y son dos variables aleatorias:
P
X
= P
Y
⇔ F
X
= F
Y
o, equivalentemente: ∀B ∈ B(R) : P
X
(B) = P
Y
(B) ⇔ ∀x ∈ R : F
X
(x) = F
Y
(x)
Definicio´n 3.4. Una variable aleatoria, X, es discreta si su rango es un conjunto finito o
enumerable.
Ejemplo 3.8. Como en el ejemplo 3.1, sean Ω = { (0; 0),(0; 1),(1; 0),(1; 1) }, F = 2Ω,
X : Ω → R, tal que X( (ω1, ω2) ) = ω1 + ω2. Entonces, R
X
= { 0; 1; 2 }, por lo tanto, X es
una variable aleatoria discreta.
Teorema 3.3. Si X es una variable aleatoria discreta, en el espacio (Ω,F , P ), entonces
∀B ∈ B(R) : P
X
(B) =
∑
x∈B∩R
X
P (X = x).
Demostracio´n. En este caso, ∀B ∈ B(R) :
P
X
(B) = P (X ∈ B) = P (X ∈ B ∩ R
X
)
= P
(
X ∈ ⊎
x∈B∩R
X
{ x } ) = P ( ⊎
x∈B∩R
X
{X = x } ) = ∑
x∈B∩R
X
P (X = x)
Entonces, si una variable, X, es discreta, su probabilidad inducida queda determinada por
los valores de P (X = x), para todo x ∈ R
X
. Esto motiva la definicio´n siguiente.
28
Definicio´n 3.5. Si X es una variable aleatoria discreta, se define su funcio´n de probabilidad
como la funcio´n f tal que
∀x ∈ R
X
: f(x) = P (X = x).
Teorema 3.4. si X es una variable aleatoria discreta, con funcio´n de probabilidad f ;
entonces,
∀B ∈ B(R) : P
X
(B) =
∑
x∈B∩R
X
f(x)
Demostracio´n: resulta del teorema anterior.
Observacio´n 3.10. La funcio´n de probabilidad f de una variable aleatoria discreta, X, se
puede extender a todo R si definimos f(x) = 0,∀x 6∈ R
X
. En este caso,
∀B ∈ B(R) : P
X
(B) =
∑
x∈B
f(x)
Ejemplo 3.9. Como en el ejemplo 3.1, sean Ω = { (0; 0),(0; 1),(1; 0),(1; 1) }, F = 2Ω,
X : Ω → R, tal que X( (ω1, ω2) ) = ω1 + ω2. Ya vimos que X es discreta y su rango es
R
X
= { 0; 1; 2 }. Consideremos que P sea la probabilidad cla´sica; entonces, la funcio´n de
probabilidad de X esta´ dada por:
f(0) = P (X = 0) = P ({ (0; 0) }) = 1
4
, f(1) = P (X = 1) = P ({ (0; 1), (1; 0) }) = 2
4
= 1
2
,
f(2) = P (X = 2) = P ({ (1; 1) }) = 1
4
.
Su funcio´n de distribucio´n acumulada es
F (x) =


0, si x < 0
1
4
, si 0 ≤ x < 1
3
4
, si 1 ≤ x < 2
1, si x ≥ 2.
su gra´fica es, como la de cualquier variable aleatoria discreta, es decir, de forma escalonada
con saltos en los puntos del rango con probabilidad mayor que cero:
F
X0 1 2
1
4
3
4
1
Ejercicio 3.3. Sea X una variable aleatoria discreta con rango { 1; 2; . . . } y funcio´n de
probabilidad f(x) = (0,2)x−10,8, x = 1; 2; . . .
a) Hallar las probabilidades siguientes: P (2 ≤ X ≤ 12), P (2 < X ≤ 12) y P (X > 12).
b) Hallar la funcio´n de distribucio´n acumulada de X, luego u´sela para calcular las
probabilidades anteriores.
29
Definicio´n 3.6. Una variable aleatoria, X, con funcio´n de distribucio´n acumulada F, es
continua (absolutamente continua) si existe una funcio´n f tal que ∀x ∈ R :
F (x) =
x∫
−∞
f(t)dt.
A esta funcio´n f se le llama la funcio´n de densidad de X.
Ejemplo 3.10. Sea X una variable aleatoria con distribucio´n uniforme en (0, 1), esto es, su
funcio´n de distribucio´n acumulada esta´ dada por:
F (x) =


0, si x ≤ 0,
x, si 0 < x < 1,
1, si x ≥ 1;
entonces, X es continua pues, en este caso, ∀x ∈ R : F (x) =
x∫
−∞
f(t)dt, si
f(x) =


0, si x ≤ 0,
1, si 0 < x < 1,
0, si x ≥ 1.
Observacio´n 3.11. En una teor´ıa ma´s general, a estas variables se les denomina
absolutamente continuas y se exige que la funcio´n de densidad sea una variable aleatoria
en el espacio (R,B(R)). Adema´s, en este caso,
∀B ∈ B(R) : P
X
(B) = P (X ∈ B) =
∫
B
f(x) dx.
Propiedad Si X es una variable aleatoria continua con densidad f, entonces, F es
diferenciable con F ′(x) = f(x) (salvo en un conjunto de medida de Lebesgue5 igual a cero)
y, en particular, F es continua.
Observacio´n 3.12. Una variable aleatoria no puede ser discreta y continua (para justificar
esta afirmacio´n, tengamos presente la propiedad anterior y recordemos que, en el caso
discreto, F no es continua en los valores del rango de la variable con probabilidad mayor que
cero, por lo tanto, tampoco es diferenciable). Sin embargo, existen variables aleatorias que
no son ni discretas ni continuas, como se puede apreciar en el ejemplo siguiente.
Ejemplo 3.11. Sea X una variable aleatoria con distribucio´n uniforme en (0; 1) (como en
el ejmplo 3.10). Consideremos la variable aleatoria Y = X 1
] −∞, 1/4]
(X) + 2 1
]1/4, 7/8[
(X) + 3 1
[7/8,∞[
(X).
Obse´rvese que si X ≤ 1
4
: Y = X, entonces, Y parece ser continua; pero si 1
4
< X < 7
8
:
Y = 2 o´ si X ≥ 7
8
: Y = 3, entonces Y parece ser discreta. As´ı, Y es una mezcla de la
5λ es la medida de Lebesgue: la medida que a cada intervalo le asigna su longitud.
30
variable aleatoria continua X con una variable aleatoria discreta que solo toma los valores 2
y 3. Esto lo podemos formalizar con la funcio´n de distribucio´n acumulada de Y :
F
Y
(y) = P (Y ≤ y) = P (Y ≤ y ∩X ≤ 1
4
) + P (Y ≤ y ∩ 1
4
< X < 7
8
) + P (Y ≤ y ∩X ≥ 7
8
)
= P (X ≤ y ∩X ≤ 1
4
) + P (2 ≤ y ∩ 1
4
< X < 7
8
) + P (3 ≤ y ∩X ≥ 7
8
)
=


P (X ≤ y) + P (φ) + P (φ), si y ≤ 1
4
,
P (X ≤ 1
4
) + P (φ) + P (φ), si 1
4
< y < 2 ,
P (X ≤ 1
4
) + P (1
4
< X < 7
8
) + P (φ), si 2 ≤ y < 3 ,
P (X ≤ 1
4
) + P (1
4
< X < 7
8
) + P (X ≥ 7
8
), si y ≥ 3 .
=


F
X
(y), si y ≤ 1
4
,
F
X
(1
4
), si 1
4
< y < 2 ,
F
X
(7
8
), si 2 ≤ y < 3 ,
1, si y ≥ 3 .
Entonces, recordando F
X
(dada en el ejemplo 3.10), se tiene
F
Y
(y) =


0, si y ≤ 0 ,
y, si 0 < y ≤ 1
4
,
1
4
, si 1
4
< y < 2 ,
7
8
, si 2 ≤ y < 3 ,
1, si y ≥ 3 .
cuya gra´fica es la siguiente:
F
X0 14 2 3
1
4
7
8
1
Entonces, F
Y
no es continua en 2 ni en 3, por lo tanto, Y no es continua (pues su acumulada
no es continua), P (Y = 2) = 7
8
− 1
4
= 5
8
> 0 y P (Y = 3) = 1 − 7
8
= 1
8
> 0 (solo
para estos valores la probabilidad es positiva, recue´rdese cua´ndo la distribucio´n acumulada
no es continua), pero Y no es discreta (su rango no es enumerable, obse´rvese tambie´n
que
∑
x∈R
Y
P (Y = y) = P (Y = 2) + P (Y = 3) = 3
4
6= 1).
Observacio´n 3.13. Existenvariables que no son discretas, ni continuas, ni una mezcla de
estos dos tipos, aunque estos casos son inusuales.
31
Definicio´n 3.7. Una variable aleatoria X es singular, si su funcio´n de distribucio´n
acumulada F
X
es continua y adema´s ∃B ∈ B(R) con λ(B) = 0 6 tal que ∀x 6∈ B : F ′
X
(x) = 0.
Teorema 3.5. Descomposicio´n de la funcio´n de distribucio´n acumulada
Sea X una variable aleatoria con funcio´n de distribucio´n acumulada F.
Consideremos el conjunto de discontinuidades de F : D = {x ∈ R : P (X = x) > 0} (si
F es continua: D = φ), como ya se ha visto, D es enumerable; as´ı, podemos enumerar sus
elementos y ponerles un sub´ındice (que variara´ en, D, un conjunto enumerable). Sea f
d
, tal
que ∀xj ∈ D : f
d
(xj) = P (X = xj) y ∀x 6∈ D : f
d
(x) = 0. Definimos F
d
como sigue:
∀x ∈ R : F
d
(x) =
∑
j:xj≤x
P (X = xj) =
∑
j:xj≤x
f
d
(xj)
F
d
es una funcio´n creciente, continua por la derecha y del tipo escalonada, como la funcio´n
de distribucio´n de una variable aleatoria discreta, por lo que se le denomina la parte discreta
de F.
Sea f
c
tal que f
c
(x) = F ′(x), si F es diferenciable en x, y f
c
(x) = 0, si F no es diferenciable
en x. Definimos F
c
como sigue:
∀x ∈ R : F
c
(x) =
x∫
−∞
f
c
(t)dt.
F
c
es una funcio´n creciente, F ′
c
= f
c
(salvo en un conjunto de medida de Lebesgue cero)
como la funcio´n de distribucio´n de una variable aleatoria continua, por lo que se le denomina
la parte continua (absolutamente continua) de F.
Finalmente, sea F
s
definida como sigue:
∀x ∈ R : F
s
(x) = F (x)− F
d
(x)− F
c
(x)
Entonces, F
s
: es creciente, continua (obse´rvese que F − F
d
es continua y tambie´n F
c
) y
F ′
d
(x) = 0 (salvo un conjunto de medida de Lebesgue igual a cero), como la funcio´n de
distribucio´n de una variable aleatoria singular, por lo que a Fs se le denomina la parte
singular de F .
Entonces, ∀x ∈ R : F (x) = F
d
(x)+F
c
(x)+F
s
(x) y podemos decir que toda variable aleatoria
es una mezcla de los tres tipos descritos: discreta, continua (absolutamente) y singular.
Ejercicio 3.4. Determinar la descomposicio´n de la funcio´n de distribucio´n acumulada de la
variable aleatoria X del ejemplo 3.11.
Observacio´n 3.14. A partir de ahora solo trataremos con las variables aleatorias discretas y
con las continuas (aunque que para las mezclas de estos dos tipos los resultados son ana´logos).
Definicio´n 3.8. Si X es una variable aleatoria, diremos que su modelo probabil´ıstico7 (o su
6λ es la medida de Lebesgue: la medida que a cada intervalo le asigna su longitud.
7El te´rmino usual en los textos cla´sicos es el de distribucio´n de probabilidades, pero el autor ha preferido
el de modelo probabil´ıstico para enfatizar su aplicacio´n como modelo. Coincidimos, por ejemplo, con Del
Pino (2000).
32
distribucio´n de probabilidad) es la funcio´n f tal que
∀B ∈ B(R) : P
X
(B) = P (X ∈ B) =


∑
x∈B
f(x), si X es discreta,
∫
B
f(x) dx, si X es continua.
Es decir, si X es discreta f es su funcio´n de probabilidad; y si X es continua, f es su funcio´n
de densidad.
Observacio´n 3.15. Entonces, la probabilidad inducida por X tambie´n queda determinada
por su modelo probabil´ıstico.
Observacio´n 3.16. En el caso de que X sea una mezcla de los tipos discreto y continuo,
entonces,
∀B ∈ B(R) : P
X
(B) = P (X ∈ B) =
∑
x∈B
f
d
(x) +
∫
B
f
c
(x) dx,
con f
d
y f
c
como en el teorema de la descomposicio´n de la funcio´n de distribucio´n acumulada.
Teorema 3.6. Si X es una variable aleatoria su modelo probabil´ıstico, f, esta´ determinado
por su funcio´n de distribucio´n acumulada, F, y, rec´ıprocamente, su funcio´n de distribucio´n
acumulada esta´ determinada por su modelo probabil´ıstico.
En efecto:
f(x) =


F (x)− l´ım
x→y−
F (x), si X es discreta;
F ′(x), si X es continua.
F (x) =


∑
y: y≤x
f(y), si X es discreta,
x∫
f(y) dy, si X es continua.
Propiedades ba´sicas del modelo probabil´ıstico de una variable aleatoria:
Si X es una variable aleatoria discreta: f(x) ≥ 0 y
∑
x
f(x) = 1.
Si X es continua: f(x) ≥ 0 y
∫
f(x) dx = 1.
Si X es discreta, entonces, ∀x ∈ R : f(x) = P (X = x).
Si X es continua, entonces, ∀x ∈ R : P (X = x) = 0.
Teorema 3.7.
Si una funcio´n satisface las condiciones f(x) ≥ 0 y
∑
x
f(x) = 1, entonces, existe una variable
aleatoria tal que su modelo probabil´ıstico es esta funcio´n.
33
Si una funcio´n satisface las condiciones f(x) ≥ 0 y
∫
f(x) dx = 1, entonces, existe una
variable aleatoria continua tal que su modelo probabil´ıstico es esta funcio´n.
Para justificar esto definamos la funcio´n F a partir de f, como en el teorema anterior. Se
verifica que esta F satisface las propiedades ba´sicas de una funcio´n de distribucio´n, por
lo tanto, existe una variable aleatoria con funcio´n de distribucio´n F y, as´ı, con modelo
probabil´ıstico f.
Ejemplo 3.12. El modelo exponencial esta´ identificado por la funcio´n de densidad siguiente:
f(x) =
{
β e−β x, si x > 0,
0, si x ≤ 0,
con β > 0. Como f satisface las condiciones f(x) ≥ 0 y ∫ f(x) dx = 1, entonces, existe una
variable aleatoria cuyo modelo probabil´ıstico (densidad) es f.
Supongamos que la duracio´n de cierto tipo de componentes (en an˜os) sea una variable
aleatoria, X, cuyo modelo es exponencial con para´metro β = 1. Hallemos la probabilidad de
que X ≤ 1 :
P (X ≤ 1) =
1∫
−∞
f(x)dx =
1∫
0
0,1e−0,1xdx = −e−0,1x
/x=1
x=0
= 1− e−0,1 = 0,095.
Entonces, podemos decir que solo el 9,5% de los componentes durara´ ma´ximo un an˜o.
Ejemplo 3.13. El modelo geome´trico: sea 0 < p < 1 y
f(x) =
{
(1− p)x−1p, si x = 1, 2 . . .
0, en otro caso.
Como f satisface las condiciones f(x) ≥ 0 y
∑
x
f(x) = 1, entonces, existe una variable
aleatoria cuyo modelo probabil´ıstico (funcio´n de probabilidad) es f.
Supongamos que X sea una variable aleatoria con este modelo, as´ı, por ejemplo,
P (X ≥ 10) =
∞∑
x=10
f(x) =
∞∑
x=10
(1− p)x−1p = (1− p)−1p
∞∑
x=10
(1− p)x = (1− p)9.
3.4. Valor esperado
Definicio´n 3.9. La esperanza o media de una variable aleatoriaX, con modelo probabil´ıstico
f
X
, se denota por E(X) o µ
X
y se define, segu´n sea la variable discreta o continua, mediante:
E(X) =


∞∑
x=−∞
xf
X
(x); si X es discreta.
∞∫
−∞
xf
X
(x)dx; si X es continua.
34
Observacio´n 3.17. Resulta, entonces, que en el caso discreto:
E(X) =
∑
x∈RX
xP (X = x)
As´ı, la esperanza o media es el promedio de los valores posibles de la variable ponderados con
sus respectivas probabilidades. Extendemos esta definicio´n al caso continuo con la integral,
en este caso la fo´rmula nos recuerda la forma de obtener la abscisa del centro de masa de un
cuerpo con densidad f, esto explica el nombre de densidad que se le da al modelo.
Ejemplo 3.14. Sea la variable X del ejemplo 3.12, es decir, su modelo probabil´ıstico
esta´ dado por f(x) = 0,1e−0,1x, x > 0, entonces,
E(X) =
∞∫
−∞
x f(x)dx =
∞∫
0
x 0,1e−0,1xdx = −xe−0,1x − 10e−0,1x
/x→∞
x=0
= 10.
Observacio´n 3.18. Interpretacio´n del valor esperado. Cuando se registra una gran
cantidad de valores de una variable aleatoria, la media de todos estos es aproximadamente
igual a la esperanza de la variable. Ma´s formalmente, si para cada n ∈ N+, X1, . . . , Xn es
una muestra aleatoria de X y X¯ = 1
n
n∑
j=1
Xj (la media de la muestra); entonces, un resultado
conocido por la Ley Fuerte de los Grandes Nu´meros establece que, con probabilidad 1,
l´ım
n→∞
X¯ = E(X). De all´ı el nombre e importancia del valor esperado o media, pues, con este
valor —que se calcula con el modeloprobabil´ıstico de la variable— podemos anticipar lo que
ocurrira´ en promedio.
Ejemplo 3.15. En el ejemplo anterior, podemos decir que si tenemos una gran cantidad de
componentes (con las caracter´ısticas dadas), entonces, la duracio´n promedio de estos sera´ de
10 an˜os aproximadamente.
Ejemplo 3.16. Para el acceso a la memoria de una computadora, si el nu´mero de pa´gina
esta´ en un registro asociativo, se obtiene de inmediato su nu´mero de marco y este se usa para
acceder a la memoria; en cambio, si el nu´mero de pa´gina no esta´ en los registros asociativos,
sera´ preciso previamente hacer una referencia a la tabla de pa´ginas (que tambie´n esta´ en
memoria) para acceder8. Para cierta CPU, cuatro de cada cinco veces se encuentra el nu´mero
de pa´gina deseado en los registros asociativos. Adema´s, si el nu´mero de pa´gina esta´ en los
registros asociativos, un acceso a la memoria tarda 120 nanosegundos; en caso contrario un
acceso a la memoria tarda 220 nanosegundos.
Es claro que el acceso a la memoria se realizara´ un gran nu´mero de veces, por lo tanto,
si se quiere comparar cua´l de dos CPU es ma´s ra´pida, el tiempo promedio necesario para
acceder a la memoria nos permite hacer la comparacio´n, pero este promedio es el valor
8En el ejercicio propuesto 4.14 del cap´ıtulo siguiente haremos una generalizacio´n. Contextos similares de
este ejercicio se encuentran en textos de sistemas operativos, como por ejemplo, en A. Silberschatz et al.
Operating System Concepts (2002), cap´ıtulo 9.
35
esperado o media de la variable aleatoria X, el tiempo de acceso a la memoria, con rango
R
X
= {120; 220}, f
X
(120) = P (X = 120) = 4
5
y f
X
(220) = P (X = 220) = 1
5
.
De este modo, E(X) =
∑
x∈RX
xf
X
(x) = 120× 4
5
+ 220× 1
5
= 140 nanosegundos.
Observacio´n 3.19. No todas las variables aleatorias tienen valor esperado, como se ilustra
en el ejemplo siguiente.
Ejemplo 3.17. El modelo probabil´ıstico de Cauchy corresponde a la funcio´n de densidad:
f(x) =
1
π(1 + x2)
, −∞ < x <∞ .
Como f satisface las condiciones f(x) ≥ 0 y
∞∫
−∞
f(x) dx = 1, existe una variable aleatoria
cuyo modelo probabil´ıstico (densidad) es f. Sin embargo, si una variable tiene este modelo
no tiene valor esperado, pues,
∞∫
−∞
x
1
π(1 + x2)
dx no esta´ definida ya que
0∫
−∞
x
1
π(1 + x2)
dx =
−∞ y
∞∫
0
x
1
π(1 + x2)
dx =∞.
Ejemplo 3.18. Sea X una variable aleatoria. Hallemos E(1
A
(X)) : como 1
A
(X) es una
variable aleatoria discreta con valores posibles 1 y 0, con P ( 1
A
(X) = 1 ) = P (X ∈ A) y
P ( 1
A
(X) = 0 ) = P (X ∈ Ac); entonces, E(1
A
(X)) = 1 × P (X ∈ A) + 0 × P (X ∈ Ac) =
P (X ∈ A).
3.4.1. El valor esperado de una funcio´n de una variable aleatoria
Teorema sea X una variable aleatoria y g : RX → R una funcio´n tal que g(X) tambie´n sea
una variable aleatoria9. Entonces, la esperanza de la variable aleatoria g(X) puede obtenerse
con el modelo probabil´ıstico de X, f
X
, segu´n sea esta discreta o continua, como se indica a
continuacio´n:
E(g(X)) =


∑
x∈RX
g(x)f
X
(x); si X es discreta.
∫
RX
g(x)f
X
(x)dx; si X es continua.
Observacio´n 3.20. Esta propiedad es muy importante, desde el punto de vista pra´ctico,
pues establece que con el modelo probabil´ıstico de una variable aleatoria se puede determinar
el valor esperado de cualquier funcio´n de esta, es decir, no se requiere otro modelo. Desde el
punto de vista teo´rico, esta propiedad es importante pues permite deducir otras propiedades
del valor esperado relacionadas con funciones de una variable aleatoria, como las que se
dara´n ma´s adelante.
9Ve´ase la observacio´n 3.4.
36
Ejemplo 3.19. Sea X una variable aleatoria continua con modelo exponencial de para´metro
β, es decir, su modelo probabil´ıstico esta´ dado por f(x) = βe−βx, x > 0. Hallemos E(Xn),
para n ∈ N. Puesto que Xn = g(X), con g(x) = xn, entonces, por la propiedad anterior:
E(Xn) =
∫
g(x) f
X
(x) dx =
∫ ∞
0
xn βe−βx dx =
1
βn
∫ ∞
0
yn e−y dy =
1
βn
Γ(n+ 1) 10 =
n!
βn
.
Ejemplo 3.20. El voltaje suministrado por una fuente generadora en el instante t es dado
por Xt = a cos(wt + Θ), con a y w constantes y Θ una variable aleatoria con distribucio´n
uniforme en el intervalo [−π, π] 11. Para ilustrar el uso de la propiedad anterior obtengamos el
valor esperado de este voltaje. En este caso, se conoce el modelo probabil´ıstico de la variable
Θ : f
Θ
(θ) =
1
2 π
,−π ≤ θ ≤ π. Xt es una funcio´n de Θ : Xt = g(Θ), con g(θ) = a cos(wt+θ);
entonces, por la propiedad anterior,
E
(
a cos(wt+Θ)
)
=
∫
R
Θ
g(θ) f
Θ
(θ) dθ =
∫ π
−π
a cos(wt+ θ)
1
2 π
dθ = 0.
Ejemplo 3.21. Actualmente en finanzas se ha hecho bastante conocido el modelo de precios
de Black-Scholes12. Por ejemplo, segu´n este modelo, la ecuacio´n que describe la evolucio´n
del precio de un stock en el tiempo es de la forma:
St = S0 e
(µ− 1
2
σ2)t+σXt , t > 0,
con S0 > 0 el precio inicial del stock; µ el valor esperado de la tasa instanta´nea de
rentabilidad; σ > 0 la volatilidad del stock (estos u´ltimos no se consideran aleatorios sino
constantes) y Xt es una variable aleatoria con distribucio´n normal, de media cero y varianza
t, es decir, f
Xt
(x) = 1√
2π t
e−
x2
2t , − ∞ < x < ∞. Como St es una funcio´n de Xt, podemos
usar este modelo para hallar el valor esperado de St :
E(St) =
∞∫
−∞
S0e
(µ− 1
2
σ2)t+σxf
Xt
(x) dx =
∞∫
−∞
S0e
(µ− 1
2
σ2)t+σx 1√
2π t
e−
x2
2t dx= S0e
µt
∞∫
−∞
1√
2π t
e−
(x−σt)2
2t dx
= S0e
µt.
3.4.2. Propiedades del valor esperado
a) El valor esperado de una constante es la propia constante: E(a) = a, ∀a ∈ R.
b) Si a ≤ X ≤ b, entonces, a ≤ E(X) ≤ b.
10La funcio´n gamma, se denota por Γ, se define como Γ(x) =
∞∫
0
tx−1e−tdt, x > 0; tiene, entre otras, las
propiedades siguientes: Γ(x+ 1) = xΓ(x), x > 0, Γ(n) = (n− 1) ! , para n ∈ N+, y Γ(1,5) = √pi/2.
11Esta es la forma usual de modelar el voltaje en el ana´lisis y transmisio´n de sen˜ales: a es la amplitud, w
la frecuencia y Θ, el a´ngulo de desfase; en los libros de procesos estoca´sticos, algunos de estos componentes
son variables aleatorias. Ve´ase, por ejemplo, Papoulis (2002), cap. 9, o Lathi (1986), caps. 2 y 5.
12Vea´se Lars Tyge Nielsen (1999), ejemplo 1.7, pa´g. 13.
37
c) Si la variable se transforma de modo lineal, de igual modo se transforma su valor
esperado: E(a + bX) = a + bE(X), para cualesquiera que sean las constantes a y b.
d) Si g1, . . . , gn son funciones, tales que gi(X) tambie´n sea una variable aleatoria, y
a0 , a1 , . . . ,an constantes, entonces,
E
(
a0 + a1g1(X) + . . . + angn(X)
)
= a0 + a1E
(
g1(X)
)
+ . . . + anE
(
gn(X)
)
donde se supone que cada valor esperado esta´ definido.
e) Sea X una variable aleatoria. Si g1 y g2 son funciones, tales que g1(X) y g2(X) sean
variables aleatorias con valores esperados definidos y g1 ≤ g2; entonces,
E(g1(X)) ≤ E(g2(X)).
f) X tiene valor esperado finito ⇔ |X| tiene valor esperado finito.
g) Desigualdad de Jensen: si g es una funcio´n convexa, entonces, E(g(X)) ≥ g(E(X)).
h) Sea X una variable aleatoria y 0 < s < t : X t tiene valor esperado finito ⇒ Xs tiene
valor esperado finito.
i) Desigualdad de Markov: si X ≥ 0 y c > 0, entonces, P (X > c) ≤ E(X)
c
.
Ejemplo 3.22. Sean ǫ, una variable aleatoria con media cero, α, β y x constantes. Hallemos
el valor esperado de Y = α + βx+ ǫ :
E(Y ) = E(α + βx+ ǫ) = α + βx+ E(ǫ) = α+ βx.
Ejemplo 3.23. Sea X una variable aleatoria con modelo probabil´ıstico exponencial de
para´metro β = 1. La ganancia generada con la operacio´n n esta´ dada por Xn =
1
n
X Xn−1,
para n = 1, 2, . . . , y la gananciainicial es X0 = 1; as´ı, Xn =
1
n!
Xn. Por lo tanto, la ganancia
acumulada hasta la operacio´n n esta´ dada por: Yn = 1+
X1
1!
+ · · · + X
n
n!
, para n = 1, 2, . . .
Empleemos las propiedades anteriores para obtener el valor de Yn :
E(Yn) = E(1 +
X1
1!
+ · · · + X
n
n!
) = 1 +
1
1!
E(X1) + · · · + 1
n!
E(Xn)
= 1 +
1
1!
1 ! + · · · + 1
n!
n !
= 1 + n,
aqu´ı se ha usado el resultado del ejemplo 3.19: E(Xn) = n!
Ejemplo 3.24. Si X es una variable aleatoria: E(X2) ≥ [E(X)]2.
Ejemplo 3.25. Si X es una variable aleatoria con E(X2) finito, entonces, E(X) es finito.
38
Ejemplo 3.26. Como en el ejemplo 3.11, sea X una variable aleatoria con distribucio´n
uniforme en (0; 1) e Y = X 1
] −∞, 1/4]
(X) + 2 1
]1/4, 7/8[
(X) + 3 1
[7/8,∞[
(X) . Hallemos E(Y ) :
E(Y ) = E(X 1
]−∞, 1/4]
(X) + 2 1
]1/4, 7/8[
(X) + 3 1
[7/8,∞[
(X))
= E(X 1
]−∞, 1/4]
(X)) + 2E(1
]1/4, 7/8[
(X)) + 3E(1
[7/8,∞[
(X))
=
1
4∫
0
xf
X
(x) dx+ 2
7
8∫
1
4
1f
X
(x) dx+ 3
1∫
7
8
1f
X
(x) dx
= 13
8
.
Observacio´n 3.21. Si X es una variable aleatoria mixta (de los tipos discreta y continua):
E(X) =
∫
xf
c
(x)dx+
∑
xf
d
(x),
con f
c
y f
d
como en el teorema 3.5 de la descomposicio´n de la funcio´n de distribucio´n
acumulada.
Ejemplo 3.27. Como en el ejemplo 3.11, sea X una variable aleatoria con distribucio´n
uniforme en (0; 1) e Y = X 1
] −∞, 1/4]
(X) + 2 1
]1/4, 7/8[
(X) + 3 1
[7/8,∞[
(X) .
f
c
(y) = 1, 0 < x < 1
4
(0, en otro caso), f
d
(2) = 5
8
y f
d
(3) = 1
8
(0, en otro caso), entonces
E(Y ) =
∫
yf
c
(y)dy +
∑
yf
d
(y) =
∫ 1
4
0
ydy + 2(
5
8
) + 3(
1
8
) =
13
8
.
Otras propiedades del valor esperado
a) Si X es una variable aleatoria continua, con valor esperado finito, entonces
E(X) =
∞∫
0
[ 1− F (x) ]dx−
0∫
−∞
[ 1− F (x) ]dx,
en particular, si X ≥ 0 : E(X) =
∞∫
0
[ 1− F (x) ]dx.
Si X es una variable aleatoria discreta cuyos valores solo pueden ser nu´meros naturales:
E(X) =
∞∑
n=0
[ 1− F (x) ]
b) X ≥ 0 y E(X) = 0⇒ P (X = 0) = 1.
c) Si E(X) es finito, entonces: ∀c : E( (X −E(X))2 ) ≤ E( (X − c)2).
d) Si m es tal que F
X
(m) ≥ 1
2
y P (X < m) ≤ 1
2
, entonces: ∀c : E( |X−m| ) ≤ E( |X−c|).
As´ı, esto es va´lido para el percentil 50 o mediana: me = inf{x ∈ R : F (x) ≥ 0,5}.
39
Ejemplo 3.28. Si X ∼ exp(β) : F (x) = 1 − e−βx, ∀x > 0 ⇒ 1 − F (x) = e−βx, entonces,
E(X) =
∞∫
0
[ 1− F (x) ]dx =
∞∫
0
e−βxdx =
1
β
.
Ejemplo 3.29. Si X ∼ geom(p) : F (x) = 1 − (1 − p)x, ∀x = 1, 2, . . . , as´ı, E(X) =
∞∑
n=0
[ 1− F (n) ] =
∞∑
n=0
(1− p)n = 1
p
.
3.5. La varianza y la desviacio´n esta´ndar
Sea X, cuya media o esperanza es µ
X
, se define como: E(X − µ
X
)2 y se la denota por
V (X) o σ2
X
. As´ı, σ2
X
= V (X) = E(X − µ
X
)2 = E(X −E(X))2.
A la ra´ız cuadrada de la varianza, σ
X
, se le llama desviacio´n esta´ndar.
Observacio´n 3.22. La desviacio´n esta´ndar mide la variabilidad promedio, espec´ıficamente,
respecto de la media. Adema´s, puede verificarse que σ2
X
= E(X2)− µ2
X
.
Ejemplo 3.30. Para la duracio´n de los componentes de los ejemplos 3.12 y 3.14:
E(X2) =
∫
RX
x2f(x)dx =
∫ ∞
0
x2 0,1e−0,1xdx = 200.
As´ı, σ2
X
= E(X2)− µ2
X
= 200− 102 = 100, por lo tanto, σ
X
= 10.
Luego, si se pone a funcionar un nu´mero grande de componentes de este tipo, la duracio´n
promedio de estos ser´ıa, como ya se vio, de aproximadamente 10 an˜os (µ
X
), con una diferencia
promedio, respecto de este valor, cercana a 10 an˜os (σ
X
).
Ejemplo 3.31. En el contexto del ejemplo 3.16:
E(X2) =
∑
RX
x2f(x)dx = 1202f(120) + 2202f(220) = 21 200.
Luego, σ2
X
= E(X2)− µ2
X
= 21 200− 1402 = 1 600, as´ı σ
X
= 40 nanosegundos.
Por lo tanto, en una gran cantidad de accesos a la memoria, la duracio´n promedio del tiempo
necesario, como ya se vio, es de aproximadamente 140 nanosegundos (µ
X
), con una diferencia
promedio, respecto a este valor, cercana a 40 nanosegundos (σ
X
).
3.5.1. Propiedades de la desviacio´n esta´ndar
a) Si a es una constante, entonces, V (a) = 0.
b) Si V (X) = 0, entonces, P (X = µ
X
) = 1.
c) Si a y b son constantes, entonces, V (a+ bX) = b2V (X).
40
d) Desigualdad de Chebyshev. Para cualquier k > 0 : P (| X − µ
X
| ≤ kσ
X
) ≥ 1− 1
k2
o, equivalentemente, P (| X − µ
X
| > kσ
X
) <
1
k2
.
Observacio´n 3.23. De la desigualdad anterior se deduce que la proporcio´n de veces en las
cuales la variable asume valores que disten de la media en ma´s de tres veces la desviacio´n
esta´ndar es menor que un noveno. Por tal razo´n, a los valores que distan de la media, en ma´s
de tres veces la desviacio´n esta´ndar, se les puede llamar valores poco frecuentes o inusuales.
Ejercicio 3.5. Sea X una variable aleatoria con media µ y desviacio´n esta´ndar σ. Sea
Y = a + bX ; halle a y b > 0 tales que E(Y ) = 0 y σ
Y
= 1. Generalice el ejercicio para
obtener E(Y ) = µ
Y
y σ
Y
, valores arbitrarios.
Ejercicio 3.6. Sea X una variable aleatoria con media µ = 14 y desviacio´n esta´ndar σ = 2
a) Halle la media y la varianza de Y = 1
2
X − 6.
b) Use la desigualdad de Chebychev para tener una idea de co´mo son los valores de las
probabilidades siguientes: P (6 ≤ X ≤ 22), P (6 ≤ X ≤ 20) y P (8 ≤ X ≤ 22).
Ejercicio 3.7. Sea X una variable aleatoria con rango R
X
= R, media 3,5 y desviacio´n
esta´ndar 0,25. La utilidad que genera una inversio´n, en funcio´n de X, esta´ dada por:
100 1
[2,4]
(X) − 160 1
[2,4]c
(X). Si alguien desea invertir, en muchas oportunidades, de modo que
gane un promedio de por lo menos 35, ¿alcanzara´ este objetivo?
3.6. Funciones de una variable aleatoria
Si X e Y son variables aleatorias, con Y una funcio´n de X ; entonces, en algunos casos, se
puede deducir el modelo probabil´ıstico de Y a partir del modelo de X, una te´cnica para
hacerlo se detalla a continuacio´n:
a) Si Y es discreta: f
Y
(y) = P (Y = y); y para hallar esta probabilidad se expresa el evento
Y = y en te´rminos de X ; hecho esto se obtiene la probabilidad con el modelo de X.
b) Cuando Y es continua f
Y
(y) = P (Y = y) = 0, lo explicado en la parte anterior no es u´til;
pero se puede aplicar para determinar primero la funcio´n de distribucio´n acumulada
de Y, pues F
Y
(y) = P (Y ≤ y). Es decir, se expresa el evento Y ≤ y en te´rminos de
X, hecho esto se expresa la probabilidad P (Y ≤ y) en te´rminos de la distribucio´n
acumulada de X. Obtenida F
Y
se la deriva para obtener f
Y
.
Ejemplo 3.32. Si la funcio´n de distribucio´n (o modelo probabil´ıstico) de la variable aleatoria
positiva X esta´ dada por f
X
(x) = 2 e−2x, x > 0, determinemos la funcio´n de la variable
Y = 4X. Segu´n la te´cnica descrita, y como Y es continua, primero debemos determinar F
Y
a partir de F
X
:
41
F
Y
(y) = P (Y ≤ y) = P (4X ≤ y) = P (X ≤ y/4) = F
X
(y/4).
Es decir, F
Y
(y) = F
X
(y/4), luego se obtiene la derivada respecto de y :
f
Y
(y) = DyF
Y
(y) = [F ′
X
(y/4) ]Dy(y/4) = [ f
X
(y/4) ] 1
4
= 2 e−2y/4 1
4
= 1
2
e−y/2, y > 0.
Ejemplo 3.33. Sea X una variable aleatoria positiva, cuya funcio´n de probabilidad (o
modelo probabil´ıstico) esta´ dada por f
X
(x) = x/210, para x = 1, . . . , 20. Sigamos la te´cnica
antes descrita, para determinar la funcio´n de la variable Y = 2X.
Como Y es discreta: f
Y
(y) = P (Y = y).
Adema´s, P (Y = y) = P (2X = y) = P (X = y/2) = f
X
(y/2). As´ı, f
Y
(y) = f
X
(y/2) = y/420,
para y = 2, 4, . . . , 40.
Teorema 3.8. Sea X una variable aleatoria continua e Y = g(X), con g una funcio´n
diferenciable y mono´tona. Entonces