Logo Studenta

Notas Teoria Estadistica - ANETTE RACHEL PINACHO MATIAS

¡Este material tiene más páginas!

Vista previa del material en texto

Teoŕıa Estad́ıstica
Notas del curso (en proceso)
Licenciatura en Matemáticas
Depto. de Matemáticas
Cs. Básicas, CUCEI.
Rubén Sánchez Gómez
Variables aleatorias
Cuando escribı́a mi libro de Procesos estocasticos tuve una discusión con
William Feller. Él aseguraba que todo el mundo decı́a “variable aleatoria”
(random variable), mientras que yo sostenı́a que se usaba “variable al azar”
(chance variable). Obviamente, debı́amos usar el mismo nombre en todos los
libros, ası́ que optamos por tomar la decisión mediante un procedimiento
aleatorio: lanzamos una moneda y el ganó.
J. L. Doob, [1]
Stochastic Processes, 1953
Variable Aleatoria1
Hasta ahora hemos definido medidas de probabilidad sobre un espacio muestral ⌦ arbitrario,
sin embargo, dado que en algunos casos ⌦ son contable o finito contable con objetos espećıficos
al fenómeno aleatorio, se hace necesario establecer un mapeo que permita generalizar el
concepto de función de probabilidad.
Retomando la función indicadora de una evento A es la función que toma 1 en todos los
puntos de A y 0 para los puntos de Ac. Se puede denotar con IA o 1A de modo que 1A(x) = 1
si x 2 A, 1A(x) = 0 si x 2 Ac y además, dado que para cualquier evento A existe una función
indicadora, para una función f arbitraria, el producto IAf es la función f definida en A, que
se desvanece en cualquier otro punto.
Consideremos ahora la intersección de dos conjuntos C = A\B, su indicadora IC será 0 si
IA o IB es cero, i.e., IC = ı́nf(IA, IB) y corresponde al valor más pequeño de las dos funciones.
De modo que, para dos funciones f y g, f \ g = ı́nf(f, g) y similarmente, f [ g = sup(f, g).
Def. 3 (Mapeo medible). Sean (⌦,A) y (⇤,F) dos espacios medibles. El mapeo f : ⌦ ! ⇤
es (A,F)�medible siempre que
f�1(B) = {! 2 ⌦ : f(!) 2 B} 2 A 8B 2 F
para f�1 preimagen de B.
1Por notación, se utilizan mayúsculas X,Y, Z para referirse a variables aleatorias y minúsculas
x, y, z para referirse a un valor espećıfico.
30
31 2
Además, el comportamiento de una preimagen bajo uniones, intersecciones y complemen-
tos satisfacen:
i) f�1(Bc) =
⇣
f�1(B)
⌘c
ii) f�1
 
[
k2IN
Bk
!
=
[
k2IN
f�1(Bk)
iii) f�1
 
\
k2IN
Bk
!
=
\
k2IN
f�1(Bk)
Ejem. 1. A manera de ejemplo, se pueden considerar tres casos:
(a) El mapeo constante X(!) = c es un mapeo medible, ya que para un B arbitrario
de B, la preimagen de la función constante X�1B = ⌦ si c 2 B y X�1B = ; si
c /2 B. Dado que en ambos casos X�1B ⇢ A se tiene que el mapeo constante es
medible.
(b) La función indicadora es un mapeo medible. Dado que la función indicadora está
dada por
IA(!) =
⇢
1, ! 2 A
0, ! /2 A
Para cualquier B 2 B, boreliano; se tiene que I�1A B = A si 1 2 B y I
�1
A B = A
c si
0 2 B y dado que A,Ac 2 A se concluye que la función indicadora es una función
medible.
(c) Para W , ⌦ conjuntos no vaćıos, una ��álgebra W de W y una función medible
f : ⌦ ! W . La colección de preimágenes F = {f�1(A) : A 2 W} forma una
��álgebra de ⌦.
Cerradura bajo complementos 8f�1(A) 2 F , se sabe que A 2 W , pero como W
es un ��álgebra, se tiene que Ac 2 W y aśı f�1(Ac) =
�
f�1(A)
�c 2 F , es
decir, 8f�1(A) 2 F ,
�
f�1(A)
�c 2 F .
Cerradura bajo uniones Para cualquier colección {f�1(An)}n2IN 2 F , con An 2
W se tiene que
[
n2IN
An 2 W, ya que W es un ��álgebra y aśı,
f�1
 
[
n2IN
An
!
=
S
n2IN
�
f�1(An)
�
2 F , es decir,
para {f�1(An)}n2IN 2 F , se tiene que
[
n2IN
�
f�1(An)
�
2 F .
32 2
Proposición 1. Sean (⌦,A) un espacio medible y f : ⌦ ! IR entonces, los siguientes incisos
son equivalentes:
i) f�1(t,1) = {! 2 ⌦ : f(!) > t} 2 A 8t 2 IR.
ii) f�1[t,1) = {! 2 ⌦ : f(!) � t} 2 A 8t 2 IR.
iii) f�1(�1, t) = {! 2 ⌦ : f(!) < t} 2 A 8t 2 IR.
iv) f�1(�1, t] = {! 2 ⌦ : f(!)  t} 2 A 8t 2 IR.
Demostración.
i) ) ii) f�1[t,1) = f�1
 1\
n=1
(t� 1/n,1)
!
=
1\
n=1
f�1(t� 1/n,1).
ii) ) iii) f�1(�1, t) = f�1 ([t,1)c) =
�
f�1[t,1)
�c
.
iii) ) iv) f�1(�1, t] = f�1
 1\
n=1
(�1, t+ 1/n)
!
=
1\
n=1
f�1(�1, t+ 1/n).
iv) ) i) f�1(t,1) = f�1 ((�1, t]c) =
�
f�1(�1, t]
�c
.
⌅
Def. 4 (Variable aleatoria). Dado el espacio probabiĺıstico (⌦,A, P ), una variable aleatoria
(v.a.) real es cualquier mapeo medible
X : (⌦,A, P ) ! (IR,B, PX),
es decir, para cualquier Boreliano B 2 IR satisface que X�1B 2 A.
Ejem. 2. Se puede ver que:
(a) el mapeo constante X(!) = c es una v.a., ya que si B un elemento arbitrario de B;
para la función constante X�1B = ⌦ si c 2 B y X�1B = ; si c /2 B y dado que en
ambos casos X�1B ⇢ A se concluye que X es una v.a.
(b) La función indicadora es una v.a., ya que si B 2 B es cualquier boreliano, entonces
I
�1
A B = A si 1 2 B y I
�1
A B = A
c si 0 2 B. Nuevamente, dado que A,Ac 2 A se concluye
que la función indicadora es una v.a.
Además:
a ) La medida de probabilidad P definida sobre A, puede ser inducida al espacio medible
(IR,B) de modo que si B es un Boreliano entonces PX(B) = P (X�1B) y en tal caso, la
medida de probabilidad
PX : B ! [0, 1]
se conoce como medida de probabilidad inducida por la v.a..
33 2
b ) En general, para el espacio métrico (⌦,A, µ) un mapeo aśı definido se conocen como
mapeo A-B-medible; por lo que una v.a. es en realidad un mapeo medible sobre medidas
de probabilidad.
c ) Si (⌦, E), (⇤,F), (⇥,G) son espacios medibles y si f : ⇤ ! ⇥, g : ⌦ ! ⇤ son mapeos
medibles, entonces la composición de funciones f � g : ⌦ ! ⇥ es medible.
d ) Si f1, f2 : ⌦ ! IR son v.a., entonces cf1, f1 + f2, f1 � f2, f1f2, mı́n(f1, f2) y máx(f1, f2)
también lo son y en general, para cualquier función Borel medible g : IRn ! IR (n < 1)
con X1, . . . , Xn v.a., entonces g(X1, . . . , Xn) también es una v.a.
Demostración. Revisando cada caso, se tiene que:
[cf1]: si se tiene que c = 0 es evidente que se satisface que cf1 es una v.a., ya que se cae
en el caso de una función constante.
Por otro lado, suponiendo que c 6= 0, notemos que {! 2 ⌦ : f1(!) > y} 2 A, para
un número real y (ya que f1 es v.a.). Sea y =
x
c , entonces
{! 2 ⌦ : f1(!) > y} =
n
! 2 ⌦ : f1(!) >
x
c
o
= {! 2 ⌦ : cf1(!) > x}
luego, {! 2 ⌦ : cf1(!) > x} 2 A y por definición, cf1 es una v.a.
[f1 + f2]: dado que f1 y f2 son v.a.’s, se puede ver que para el conjunto f1 + f2 > x, con
x 2 IR, se tiene que
f1 + f2 > x =
1\
n=1
✓
f1 >
1
n
◆
\
✓
f2 > x�
1
n
◆
.
Por tanto, dado que f1 y f2 son v.a.’s, se tiene que
{! 2 ⌦ : f1 + f2(!) > x} =
1\
n=1
⇢
! 2 ⌦ : f1(!) >
1
n
�
\
⇢
! 2 ⌦ : f2(!) > x�
1
n
�
2 A
y aśı, f1 + f2 es una v.a.
[f1 � f2]: De forma análoga, se puede ver que para el conjunto f1 � f2 < x, con x 2 IR,
se tiene que
f1 � f2 < x =
1\
n=1
✓
f1 <
1
n
◆
\
✓
f2 >
1
n
� x
◆
y nuevamente, dado que f1 y f2 son v.a., se tiene que
{! 2 ⌦ : f1 � f2(!) < x} 2 A.
[f1f2]: considerando primero el caso en que f1 = f2, se puede ver que f1f2 = f21 y en tal
caso, el conjunto (f2
1
 x) es un elemento de A ya que si x < 0 entonces (f2
1
 x) = ;
o bien si x � 0 entonces (f2
1
 x) = (�
p
x  f1 
p
x).
Por otro lado, si f1 6= f2 se puede ver que f1f2 =
(f1 + f2)2 � (f1 � f2)2
4
y dado
que la suma, resta y potencia cuadrada de v.a. son v.a.’s, se tiene que f1f2 es una
v.a.
34 2
[mı́n(f1, f2)]: en este caso, se puede verificar que para cualquier x 2 IR, se tiene que
�
mı́n(f1, f2) � x)
�
=
�
f1 � x, f2 � x
�
= (f1 � x) \ (f2 � x).
[máx(f1, f2)]: de forma análoga, para cualquier x 2 IR, se tiene que
�
máx(f1, f2)  x)
�
=
�
f1  x, f2  x
�
= (f1  x) \ (f2  x).
⌅
e ) Por otro lado, se dice que X,Y : ⌦ ! IR son, casi seguramente la misma v.a., (y se
denota por X
a.s.
= Y ) si P
⇣
{A 2 A : X(A) 6= Y (A)}
⌘
= 0.
Proposición 2. Sea (⌦,A) un espacio medible y sean fn : ⌦ ! IR, n 2 IN, una secuencia
de v.a.’s tal que
ĺım
n!1
fn(!) = f(!)
existe 8! 2 ⌦. Entonces, f : ⌦ ! IR también es una v.a.
Demostración. Sea B = {(a, b) : �1 < a < b < 1} entonces dado que fn son v.a.’s, se tiene
que
f�1n (a, b) = {! 2 ⌦ : a < fn(!) < b} 2 A, 8a, b 2 IR,
entonces, como f(!) = ĺım
n!1
fn(!), se tiene que
f�1(a,b) =
n
! 2 ⌦ : a < ĺım
n!1
fn(!) < b
o
=
1[
m=1
1\
n=1
⇢
! 2 ⌦ : a� 1
m
< fn(!) < b+
1
m
�
2 A.
⌅
Def. 5. Sea X(!) =
kP
n=1
cnIAn(!) para cualquier k finito, cn 2 IR no aleatorio y An 2 A. X
se conocen como mapeos simples y se denotan por X 2 MS.
Def. 6 (Función de distribución). Dada una v.a. f : ⌦ ! IR sobre un espacio de probabilidad
(⌦,A, P ), la función
Ff (x) = P (! 2 ⌦ : f(!)  x)
se conoce como función de distribución de probabilidad de f .
Proposición 3 (Propiedades de la función de distribución). Una función Ff : IR ! [0, 1] no
decreciente, continua por la derecha y que satisface
ĺım
x!�1
Ff (x) = 0 y ĺım
x!1
Ff (x) = 1
es una función de distribución probabilidad.
Demostración. En este caso:
35 2
Se puede ver que no es decreciente, porque para x1  x2 se tiene que
{! 2 ⌦ : f(!)  x2} = {! 2 ⌦ : f(!)  x1}
[
{! 2 ⌦ : x1 < f(!)  x2}
de donde se puede afirmar que
{! 2 ⌦ : f(!)  x1} ✓ {! 2 ⌦ : f(!)  x2}
y por lo tanto (por ser una medida monótona)
Ff (x1) = P
⇣
{! 2 ⌦ : f(!)  x1}
⌘
 Ff (x2) = P
⇣
{! 2 ⌦ : f(!)  x2}
⌘
Es continua por la derecha porque para cualquier secuencia xn # x se tiene que
Ff (x) = P
⇣
{! 2 ⌦ : f(!)  x}
⌘
= P
✓ 1\
n=1
{! 2 ⌦ : f(!)  xn}
◆
= ĺım
n!1
P
⇣
{! 2 ⌦ : f(!)  xn}
⌘
= ĺım
n!1
Ff (xn)
Para comprobar el comportamiento de Ff (x) en los extremos, se puede partir de una
sucesión creciente como An = (f  xn) con xn = x+ n, x 2 IR, n 2 IN de modo que
ĺım
x!1
Ff (x) = ĺım
n!1
Ff (xn) = ĺım
n!1
P (An) = P (⌦) = 1
y de forma análoga, para An = (f  xn) con xn = x� n, x 2 IR, n 2 IN de modo que
ĺım
x!�1
Ff (x) = ĺım
n!1
Ff (xn) = ĺım
n!1
P (An) = P (;) = 0
⌅
Def. 7. Partiendo del concepto de medida Lebesgue-Stieltjes sobre el espacio métrico (IR, 2IR)
se conoce como función de distribución (ver inciso l de la definición 1. F : IR ! IR no
decreciente y continua por la derecha). Entonces, bajo una medida de probabilidad P , en
el caso particular de una v.a. X, FX(x) = P (X  x) es una función de distribución de
probabilidad (función de probabilidad acumulada o función de acumulación de probabilidad)
Además (ver inciso m, definición 1.) dado que se puede generar sobre B(IR) con funciones
f : IR ! IR no negativas e integrables (al menos Riemann integrable), de modo que
FX(x) =
xZ
�1
fX(t)dt.
En en caso particular de v.a., fX(·) se conocen como función de densidad de probabilidad (o
función masa de probabilidad) y se denotan por fX(x) en donde el sub́ındiceX hace referencia
a la v.a.
36 2
a ) Si F es la distribución de probabilidad de soporte contable, la integral se reduce a la
suma
bZ
a
dFX(x) =
X
i[axib]
P (X = xi)
en donde la notación i[axib] representa los ı́ndice i tales que a  xi  b.
b ) Cuando F es una función de distribución de una v.a. continua con función de densidad
f , por el teorema fundamental del cálculo, f es la derivada (primitiva) de F en todos los
puntos en los que F sea derivable y
bZ
a
dFX(x) =
bZ
a
fX(x)dx
c ) Para una función de distribución de probabilidad arbitraria F , se tiene que
F = a1Fd + a2Fac + a3Fs
en donde Fd es la parte discreta de F , Fac es la parte absolutamente continua de F , Fs
es la parte singular de F , ak � 0, k = 1, 2, 3 y a1 + a2 + a3 = 1.
d ) Para dos v.a.’s X,Y , se dice que son iguales en distribución si FX(x) = FY (x) para
todo x 2 IR y se escribe X d= Y . En tal caso, se dice que X y Y están idénticamente
distribuidas (id).
e ) Para una sucesión de v.a. Xn : n 2 IN, se dice que Xn converge en distribución, si 8x se
tiene que ĺım
n!1
FXn(x) = FX(x) y se escribe Xn
d! X, FXn
d! FX , o bien Xn
d! FX
Def. 8. Para una v.a. X con función de distribución de probabilidad FX(x), la función
cuantil de F se denota por QF : [0, 1] ! IR y asigna a cada valor 0  p  1 una x para el
cual FX(x) = p, es decir
QF (p) = ı́nf {x 2 Rg(F ) : P (X  x) � p} ,
en donde Rg(F ) representa el rango de F y en el caso particular en que FX(x) es estrictamente
monótona, se satisface que QF = F�1.
En general, la función inversa de una distribución de probabilidad no siempre existe; entonces,
posiblemente la forma más práctica de observar la inversa en forma geométrica se reduce a
obtener su imagen simétrica a partir de un eje a 45� o en forma equivalente, la simetŕıa
respecto a la recta x = y que pasa por el origen, como se puede ver en la figura 2.1.
En donde, por definición de función, se puede observar que las ĺıneas punteadas en la
distribución corresponde un linea continua en la función cuantil y viceversa; sobresaliendo
además que la función cuantil es continua por la izquierda
37 2
Figura 2.1: Representación gráfica de una distribución y su función cuantil.
Proposición 4. Algunas de las propiedades de la función cuantil son:
. QF (p) es no decreciente.
. QF (F (x))  x
. QF (p)  x sii p  F (x)
. F (QF (p)) � p
38 2
v.a.’s y medidas de probabilidad
Def. 9. Extendiendo el concepto de probabilidad condicional, cuando se escribe
P (A|B) = P (AB)
P (B)
, A,B 2 A
se lee como probabilidad de A dado B y corresponde a la medida de probabilidad de que
ocurra A dado que B está dado, es decir, se puede plantear como el caso en que se mide A
cuando B ha ocurrido. Se mide la probabilidad de que ocurra AB 2 A AB = A \B.
Para v.a.’s, este concepto se extiende como sigue.
a ) Para los eventos X = x y Y = y, la probabilidad de que ocurran ambos en forma
simultánea se llama función densidad de probabilidad conjunta y se representa mediante
P (X = x, Y = y) (en un escenario más general, es el mismo caso para n v.a., la medida
de probabilidad conjunta de (X1, . . . , Xn) se denota por P
�
X1 = x1, . . . , Xn = xn
�
.
En este contexto, las densidades individuales P (X = x), P (Y = y), se conocen como
densidades marginales.
b ) La probabilidad condicional P (X = x|Y = y) se define como
P (X = x|Y = y) = P (X = x, Y = y)
P (Y = y)
mientras que para n v.a. se pueden presentar dos escenarios:
i) P
0
@

Xi = xi
�n
n
i=1
i 6=j
o
����Xj
1
A = P (X1 = x1, . . . , Xn = xn)
P (Xj = xj)
, (dada una v.a. Xj)
ii) P
0
@

Xi = xi
�n
n
i=1
j<i<j+k
o
����

Xj+i = xj+i
�k
i=0
1
A = P (X1 = x1, . . . , Xn = xn)
P (Xj = xj , . . . , Xj+k = xj+k)
,
que corresponde al caso en que se tienen k v.a.’s conocidas, en donde
h
Xi = xi
in
n
i=1
i 6=j
o ⌘ [X1 = x1, . . . , Xj�1 = xj�1, Xj+1 = xj+1, . . . , Xn = xn]
h
Xi = xi
in
n
i=1
j<i<j+k
o ⌘ [X1 = x1, . . . , Xj�1 = xj�1, Xj+1 = xj+1, . . . , Xn = xn]
c ) Además, se dice que X es independiente de Y sii
P (X = x, Y = y) = P (X = x)P (Y = y)
y en tal caso, 8x, y se tiene que
P (X = x|Y = y) = P (X = x), o bien P (Y = y|X = x) = P (Y = y).
39 2
d ) Note que si X1, X2, . . . , Xn son independientes e idénticamente distribuidas (iid),
entonces se tiene que
FX1,X2,...,Xn(x1, x2, . . . , xn) =
nY
i=1
FXi(xi).
Esperanza Matemática
Def. 10. Sea X una v.a. con función de distribución FX(x) y sea g(·) una función arbitraria
definida sobre X. La esperanza matemática de g (o simplemente la esperanza de g), se define
como la integral
Eg(X) =
Z
IR
g(x)dFX(x)
y se representa mediante Eg(X) (o en forma alternativa: g(X), Eg(X) o solo E[g(X)]),
siempre y cuando la integral Z
IR
|g(x)|dFX(x) < 1
exista y sea absolutamente convergente. En tal caso, se dice que X es integrable o que tiene
esperanza finita.
Por otro lado, se puede ver que en el caso de un MS,
g =
kX
n=1
↵nIAn(!), ↵n 2 IR, An 2 F
se tiene que
Eg =
Z
⌦
gdFX =
Z
⌦
g(!)dPX(! 2 ⌦) =
kX
n=1
↵nPX(! 2 ⌦)
a ) Para las v.a.’s g1(X), g2(X); la esperanza satisface:
Es un operador lineal: E[ag1(X) + bg2(X) + c ] = aEg1(X) + bEg2(X) + c
Si X � 0, entonces E[X] � 0
Es monótona.
b ) Si g(X) = Xr para r = 1, 2, . . ., si existe, µr = E[Xr] se define como el r�ésimo momento
de X.
E[(X � EX)r] se conoce como el r�ésimo momento central de X.
E[|X � EX|r] se conoce como el r�ésimo momento central absoluto de X y
E[X(X � 1)(X� 2) · · · (X � n+ 1)] es el n�ésimo momento factorial de X.
c ) El caso particular en que g(X) = X (r = 1 o primer momento), EX se conoce como la
esperanza matemática de X, el valor esperado de X o simplemente el promedio de X.
40 2
d ) Si g(X) = (X � EX)2, el valor esperado de E(X � EX)2, si existe, se conoce como la
varianza de X y se denota por �2 o Var(X). Satisface:
Var(X) � 0,
Var(c) = 0,
Var(cX) = c2Var(X),
Var(X + c) = Var(X),
Var(X) = E[X2]� E[X]2
Var(X + Y ) 6= Var(X) + Var(Y ),
Nota: La igualdad se satisface siempre y cuando X ? Y , ya que sólo en tal caso
Cov(X,Y ) = 0.
e ) En este caso a � =
p
V ar(X) se le conoce como la desviación de la v.a. X alrededor de
su media µ = EX.
f ) Si g(X) =
✓
X � µ
�
◆
3
, Eg(X) se conoce como el sesgo de una densidad de probabilidad
alrededor de su media µ, mientras que g(X) =
✓
X � µ
�
◆
4
, Eg(X) se conoce como
curtosis, se simboliza con .
g ) Generalizando, un vector aleatorio es un objeto ordenado
X = (X1, X2, . . . , Xn)
en donde cada una de sus entradas (coordenadas) X’s son v.a. definidas sobre el mismo
espacio probabiĺıstico y en tal caso,
�ij = cov(Xi, Xj) = E[(Xi � EXi)(Xj � EXj)]
representa varianzas (i = j) o covarianza (i 6= j) de dos v.a.’s Xi, Xj ; mientras que, en el
caso vectorial, X
= E[(X� EX)(X� EX)t]
representa la matriz de todas las varianzas–covarianzas del vector aleatorio X, en donde
los elementos de la diagonal principal corresponden a las varianzas de las v.a.’s Xi y
X
=
0
BBB@
E[(X1 � EX1)(X1 � EX1)] · · · E[(X1 � EX1)(Xn � EXn)]
E[(X2 � EX2)(X1 � EX1)] · · · E[(X2 � EX2)(Xn � EXn)]
...
. . .
...
E[(Xn � EXn)(X1 � EX1)] · · · E[(Xn � EXn)(Xn � EXn)]
1
CCCA
o bien
X
=
0
BBB@
�11 �12 · · · �1n
�21 �22 · · · �2n
...
...
. . .
...
�n1 �n2 · · · �nn
1
CCCA
41 2
h ) Para una sucesión de v.a.’s Xn, n 2 IN,
se dice que Xn converge en media a X si ĺım
n!1
E|Xn�X| = 0 y se escribe Xn
m! X,
también se llama convergencia en L1 por lo que suele denotarse por Xn
L1! X
Xn converge en media cuadrática a X si ĺım
n!1
E|Xn�X|2 = 0 y se escribe Xn
m.s.! X
o, similarmente, Xn
L2! X
Algunas desigualdades relacionadas a la esperanza matemática
Proposición 5 (Desigualdad de Markov). Sea X una v.a. integrable no negativa definida
sobre un espacio de probabilidad (⌦,F , P ). Entonces, para todo � > 0,
P ({! : X(!) � �})  EX
�
Demostración. Es claro que
�P (X � �) = �
Z
X��
dFX(x) 
Z
X��
xdFX(x) 
Z
IR
xdFX(x) = EX
⌅
Def. 11 (Convexidad). Una función g : IR ! IR es convexa sii
g(↵x+ (1� ↵)y)  ↵g(x) + (1� ↵)g(y)
para toda 0  ↵  1 y toda x, y 2 IR.
Proposición 6 (Desigualdad de Jensen). Si g : IR ! IR es convexa y X : ⌦ 2 IR es una v.a.
con E|X| < 1, entonces
g(EX)  Eg(X)
en donde Eg(X) puede no ser finito.
Demostración. Directamente se puede ver que
g(EX) = g
✓ Z
IR
xdFX(x)
◆
= g
 
ĺım
�!0
X
k
x
⇥
�FX(x)
⇤
k
!
= ĺım
�!0
g
 
X
k
x
⇥
�FX(x)
⇤
k
!
 ĺım
�!0
X
k
g(x)
⇥
�FX(x)
⇤
k
=
Z
IR
g(x)dFX(x) = Eg(X)
⌅
42 2
Proposición 7 (Desigualdad de Chebyshev). Sea X una v.a. integrable no negativa definida
sobre un espacio de probabilidad (⌦,F , P ), con EX = µ y V ar(X) = �2. Entonces, para
cualquier número real ↵ > 0,
P (|X � µ| � ↵�)  1
↵2
.
Demostración. Por definición, la varianza de una v.a. se escribe como
�2 =
Z
IR
(x� µ)2dFX(x) =
µ��Z
�1
(x� µ)2dFX(x) +
µ+�Z
µ��
(x� µ)2dFX(x) +
1Z
µ+�
(x� µ)2dFX(x)
�
µ��Z
�1
(x� µ)2dFX(x) +
1Z
µ+�
(x� µ)2dFX(x)
2
64por retirar
µ+�Z
µ��
(x� µ)2dFX(x) � 0
3
75
Además, para x en la región de integración, si x  µ�� entonces �  |x�µ| y �2  (x�µ)2
de modo que
µ��Z
�1
(x� µ)2dFX(x) +
1Z
µ+�
(x� µ)2dFX(x) �
µ��Z
�1
�2dFX(x) +
1Z
µ+�
�2dFX(x),
pero factorizando �2 en ambas integrales y utilizando la definición de la función de densidad,
resulta que
�2 � �2
0
B@
µ��Z
�1
dFX(x) +
1Z
µ+�
dFX(x)
1
CA = �2P (µ� � � X � µ+ �)
= �2P (�� � X � µ � �) = �2P (|X � µ| � �),
de donde se concluye que
�2
�2
� P (|X�µ| � �) o bien, sustituyendo � = �↵ queda demostrada
la proposición
P (|X � µ| � ↵�)  1
↵2
.
⌅
Transformación de una v.a.
⇥
'X(t),MX(t), GX(z)
⇤
Diferentes situaciones implican la necesidad de transformar variables aleatorias; desde
problemas complejos que requieren llevar a un espacio más accesible (transformada de Fourier,
Laplace o Z) hasta simples cambios de variable. A manera de ejemplo, considérese el caso en
que se quiere analizar el ingreso de familias de una metrópoli, en el caso en que dos o más
integrantes trabajan; de modo que, si n representa el número de integrantes en una familia
arbitraria, se puede esperar que n � 2 ya que puede colaborar económicamente cualquier
43 2
miembro de la familia. De tal forma que, si Z representa el ingreso total, se tendrá que
Z = X1+X2+ · · ·+Xn, en donde Xi representa el aporte económico del i�ésimo miembro y
dicha cantidad tendrá un comportamiento impredecible para una familia seleccionada al azar
en la metrópoli. Aśı, la v.a. Z resulta de sumar n v.a. X1, X2, . . . , Xn en donde n también es
una v.a..
Ante éste escenario,
a ) Si X es una v.a. continua en (a, b) ⇢ IR, con densidad fX(x); para : (a, b) ! IR una
función continua estrictamente monótona y con inversa diferenciable.
⌦
X
$$
Y= (X)
// IR
(a, b) ⇢ IR
 
99
En este caso Y = (X) toma valores en (a, b) sus medidas de probabilidad están
asociadas mediante
P (Y 2 A) = P ( (X) 2 A) = P
�
X 2 �1(A)
�
en donde A 2 IR y �1(A) = {x 2 (a, b) : (x) = A} y su función de distribución se
escribe como
FY (y) = P (Y  y) = P
�
 (X)  y
�
= P
�
X  �1(y)
�
= FX
�
 �1(y)
�
si g(x) es una función creciente o bien, si es decreciente se tiene que
FY (y) = P (Y  y) = P
�
 (X)  y
�
= P
�
X � �1(y)
�
= 1� FX
�
 �1(y)
�
.
Además, su función de densidad tiene la forma
fY (y) = fX
�
 �1(y)
�����
d
dy
 �1(y)
����I (a,b)(y) (2.1)
ya que
FY (y) = P (Y  y)
= P ( (X)  y)
= P (X  �1(y))
= FX( �1(y))
y diferenciando (utilizando la regla de la cadena) se obtiene 2.1.
Ejem. 3. Sea X una v.a. no negativa con distribución de probabilidad FX(x) =
P (X  x) = 1� e�x y sea Y = 4
p
X. Por tanto,
FY (Y ) = P (Y  y) = P (
4
p
X  y) = P (X  y4) = 1� e�y4
44 2
es la distribución de probabilidad de la v.a. Y y diferenciando,
fY (y) =
d
dy
h
1� e�y4
i
= 4y3e�y
4
,
con Y no negativa.
Por otro lado, se puede ver que �1(y) = y4 y fX(x) = e�x, de modo que, de la
ecuación 2.1 se tiene
fY (y) =
����
d
dy
 �1(y)
����fX
�
 �1(y)
�
I (a,b)(y) =
����
d
dy
y4
����fX
�
y4
�
Iy>0 = 4y
3e�y
4
Iy>0.
b ) Para dos (o más) v.a., sea (X,Y ) un vector continuo con valores en I 2 IR2 y con función
de densidad fX,Y (x, y). Sea (x, y) : I ! IR continua con inversa �1(u, v) diferenciable.
⌦
(X,Y )
##
(U,V )= (X,Y )
// IR2
I ⇢ IR2
 (I)
::
El vector (U, V ) = (X,Y ) toma valores en (I) y tiene función de densidad
fU,V (u, v) = fX,Y
�
 �1(u, v)
�����J(u, v)
���� I (I)(u, v)
en donde J es el determinante de la matriz (Jacobiano)
J(u, v) =
���������
@
@u
 �1
1
@
@v
 �1
1
@
@u
 �1
2
@
@v
 �1
2
���������
Def. 12. En el contexto de valor esperado, para casos espećıficos de la función g(X), se han
definido las funciones generadoras, con base en la expresión de g(X) (también conocida como
kernel de la función generadora) y los casos más relevantes son:
a ) Función generadora de probabilidad (fgp) para una v.a. X ⇠ fX y un kernel g(X) = tX ,
GX(t) = E
�
tX
�
se conoce como fgp sobre el espacio de probabilidad (⌦,A), t 2 IR y satisface
i.– Si X y Y son v.a. con valores en {0, 1, . . .} tales que GX(t) y GY (t) existen y
coinciden en algún intervalo alrededor de t = 0, entonces X
d
= Y .
ii.– Si el n�ésimo momento factorial existe, entonces
ĺım
t!1
dn
dtn
GX(t) = E[X(X � 1) · · · (X � n+ 1)].
45 2
iii.– Si X y Y son v.a. independientes con fgp GX(t) y GY (t) respectivamente, entonces
GX+Y (t) = GX(t)GY (t).
b ) La función generadora de momentos se representacomúnmente por MX(t) y corresponde
a la transformada positiva de Laplace, definida como el valor esperado de etX , es decir,
M(t) = MX(t) = Ee
tX
para t 2 IR, siempre que la esperanza sea absolutamente convergente y satisface:
i.– Si M(t) tiene derivadas continuas de cualquier orden en (�s, s) (s > 0), entonces
dn
dtn
M(t)
����
t=0
= EXn.
ii.– Si X,Y son v.a.’s independientes y si MX(t),MY (t) existen para cualquier vecindad
alrededor del cero, entonces
MX+Y (t) = MX(t)MY (t)
para t 2 (�s, s) (s > 0).
iii.– Si X,Y son tales que MX(t) = MY (t) para todo t 2 IR, entonces X
d
= Y .
iv.– Si X1, X2, . . . es una sucesión de v.a.’s cuyas funciones generadoras de momentos
existen en algún intervalo no trivial, alrededor del cero, y si la v.a. X tiene función
generadora de momentos MX(t), entonces Xn
d! X si, y solo si MXn(t) ! MX(t).
c ) La función caracteŕıstica se denota por �X(t) y se define como el valor esperado de eitX
(corresponde a transformada positiva de Fourier), es decir,
�(t) = �X(t) = Ee
itX
para valores t 2 IR, i =
p
�1 y es tal que, la esperanza es absolutamente convergente.
Satisface:
i.– Si �(t) tiene derivadas continuas de cualquier orden, entonces
dn
dtn
�(t)
����
t=0
= inEXn.
ii.– Si X,Y son v.a.’s independientes y si �X(t),�Y (t) existen, entonces
�X+Y (t) = �X(t)�Y (t).
iii.– Si X,Y son tales que �X(t) = �Y (t) para todo t 2 IR, entonces X
d
= Y .
iv.– Si X,X1, X2, . . . son v.a.’s, entonces Xn
d! X si, y solo si �Xn(t) ! �X(t).
46 2
Algunas familias de probabilidad
Es claro que cualquier función acotada no decreciente puede transformarse en función de
distribución de probabilidad; no obstante, algunas familias de probabilidad han destacado
por su uso y aplicación en distintos campos de estudio. De éstos modelos sobresalientes se
puede mencionar:
Distribución de Bernoullli con parámetro 0 < p < 1
(1) ⌦ := {0, 1}, (2) A := {;, {0} , {1} ,⌦},
(3) P (B) =
1X
x=0
px(1� p)1�xIB(x), para B 2 A,
P (X = x) = fX(x; p) = px(1� p)1�xI⌦(x),
P (X  x) = FX(x) =
xX
x=0
pk(1� p)1�kI⌦(k).
En donde la distribución Bernoulli corresponde a un ensayo binario (dos posibles resultados)
y se interpreta como la medida de probabilidad de que ocurra uno de ellos.Sin perdida
de generalidad se puede llamar éxito–fracaso a los posibles resultados y en tal caso, si la
probabilidad de lograr un éxito es p, entonces 1� p es la probabilidad de que no ocurra.
Figura 2.2: Representación gráfica de una distribución y una densidad Bernoulli.
Ejem. 4. Considerando el caso en que p = 0.3, se tiene que f(X = 1) = 0.3 y
f(X = 0) = 0.7, de modo que, una representación gráfica de su densidad (o masa)
y distribución probabilidad se pueden ver en la figura 2.2.
Se puede ver que
EX =
1X
k=0
xf(x) =
1X
k=0
xpx(1� p)1�x = (0)p0(1� p)1�0 + (1)p1(1� p)1�1 = p
47 2
y en el ejemplo se tiene que EX = 0.3.
Además, en el caso de varianza,
Var(X) = E
⇥
(X � p)2
⇤
=
1X
k=0
(x� p)2f(x) = (0� p)2p0(1�p)1�0+(1� p)2p1(1�p)1�1
es decir, simplificando y factorizando p(1� p) en ambos sumandos se tiene que
Var(X) = p2(1� p) + (1� p)2p = p(1� p)[p+ (1� p)] = p(1� p)
y nuevamente para el ejemplo resulta que Var(X) = 0.3(0.7) = 0.21.
A manera de ejemplo, y por si es de utilidad, en la siguiente imagen se puede observar la
toma de una ventana del RStudio (R + RStudio) en donde se pueden observar los comandos
necesarios para generar las representaciones gráficas de la figura 2.2.
Vale la pena revisar en detalle los comandos utilizados para generar las representaciones
gráficas y ya sea googlear las funciones o bien entrar en la ayuda del R + RStudio para tener
claro el procedimiento.
48 2
Distribución binomial con parámetro 0 < p < 1
(1) ⌦ := {0, 1, . . . , n}, (2) A := 2⌦, (3) P (B) =
nX
x=0
✓
n
x
◆
px(1� p)n�xIB(k) para B 2 A,
P (X = x) = fX(x;n, p) =
✓
n
x
◆
px(1� p)n�xI⌦(x)
P (X  x) = FX(x) =
xX
k=0
✓
n
k
◆
pk(1� p)n�kI⌦(k)
Se interpreta como la medida de probabilidad de que en n ensayos Bernoulli se presente
exactamente x veces un resultado posible con probabilidad p (puede interpretarse como la
presencia de x éxitos en n intentos), en donde 1� p es la probabilidad de que no ocurra.En
este caso sobresale el binomio de Newton, en donde se tiene que
(x+ y)n =
nX
k=0
✓
n
k
◆
xkyn�k,
de modo que, si se quiere mostrar que efectivamente se trata de una densidad de probabilidad
(también conocida como masa de probabilidad cuando se quiere diferenciar entre v.a. discreta
y continua) se tendŕıa que
P (⌦) =
nX
k=0
P (X = x) =
nX
k=0
✓
n
x
◆
px(1� p)n�xI⌦(x) =
⇣
p+ (1� p)
⌘n
= 1.
Más aún, para calcular la esperanza matemática de X se tendŕıa que
EX =
nX
k=0
x
✓
n
x
◆
px(1� p)n�xI⌦(x) =
nX
k=0
x
n!
(n� x)!x!p
x(1� p)n�xI⌦(x)
=
nX
k=0
n!
(n� x)!(x� 1)!p
x(1� p)n�xI⌦(x) = np
n�1X
k=1
(n� 1)!
(n� x)!(x� 1)!p
x�1(1� p)n�xI⌦(x)
= np
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠:1
mX
k=0
m!
(m� y)!y!p
y(1� p)m�yI⌦(y), cambiando m = n� 1, y = x� 1,
de donde se concluye que EX = np y en el caso de la varianza, como V ar(X) = EX2�(EX)2,
se puede calcular primero EX2 mediante
EX2 =
nX
k=0
x2
✓
n
x
◆
px(1� p)n�xI⌦(x) = np
nX
k=1
x
✓
n� 1
x� 1
◆
px�1(1� p)n�xI⌦(x) (2.2)
y haciendo el cambio de variable m = n� 1, y = x� 1 de la expresión anterior (ecuación 2.2)
49 2
se tiene que
EX2 = np
mX
k=0
(y + 1)
✓
m
y
◆
py(1� p)m�yI⌦(y)
= np
2
64
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠:
mp
mX
k=0
y
✓
m
y
◆
py(1� p)m�yI⌦(x) +
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠:1mX
k=0
✓
m
y
◆
py(1� p)m�yI⌦(x)
3
75
es decir, EX2 = np
⇣
(n� 1)p+ 1
⌘
y aśı,
V ar(X) = np
⇣
(n� 1)p+ 1
⌘
� (np)2 = np
⇣
(n� 1)p+ 1� np
⌘
= np(1� p).
Por otro lado, su función generadora de probabilidad se escribe como
GX(t) = E[t
X ] =
nX
k=0
tx
✓
n
x
◆
px(1� p)n�x =
nX
k=0
✓
n
x
◆
(pt)x (1� p)n�x = (pt+ (1� p))n
y la función generadora de momentos está dada por
MX(t) = E[etX ] =
nX
k=0
etx
✓
n
x
◆
px(1� p)n�x =
nX
k=0
✓
n
x
◆�
pet
�x
(1� p)n�x
=
�
pet + (1� p)
�n
.
La representación gráfica correspon-
de a una binomial con n = 15 y
p = 0.3, utilizando las funciones de-
finidas en R + RStudio (masa.plot y
dist.plot) (en este caso dbinom genera
las probabilidades correspondientes a
x )
Distribución geométrica con parámetro 0 < p < 1
(1) ⌦ := {1, 2, . . .}, (2) A := 2⌦,
50 2
(3) P (B) =
1X
x=1
p(1� p)x�1IB(x),
P (X = x) = fX(x; p) = p(1� p)x�1I⌦(x),
P (X  x) = FX(x) =
xX
k=1
p(1� p)k�1I⌦(k).
Se interpreta como la medida de probabilidad de un evento que acumula x ensayos Bernoulli
y tal que, se presente por primera vez, uno de los dos posibles resultados en el x�ésimo
intento, con p la probabilidad de que ocurra el resultado de interés y 1� p la probabilidad de
que no ocurra.En este caso, la expresión básica es la serie de potencias de un valor 0 < q < 1
dada por
nX
k=1
qk =
qm+1 � q
q � 1 o bien
1X
k=1
qk =
q
1� q
de modo que, para demostrar si se trata de una medida de probabilidad, se puede verificar
que P (X = x) > 0 8x y además
P (⌦) =
1X
x=1
p(1� p)x�1 = p
1� p
1X
x=1
(1� p)x = p
1� p
✓
(1� p)
1� (1� p)
◆
= 1;
en tanto que, para calcular la esperanza matemática se tiene
EX =
1X
x=1
xp(1� p)x�1 = p
1X
x=1
x(1� p)x�1 = p
1X
x=1
d
dp
[�(1� p)x]
= �p d
dp
 1P
x=1
(1� p)x
�
= �p d
dp
✓
1� p
p
◆
= �p
✓
� 1
p2
◆
=
1
p
.
De forma análoga al caso anterior, para calcular la varianza primero se obtiene EX2 mediante
EX2 =
1X
x=1
x2p(1� p)x�1 = p
1X
x=1
x2(1� p)x�1 = p
1X
x=1
x
d
dp
[�(1� p)x] ,
en donde se puede agregar el cero
✓
± d
dp
[�(1� p)x]
◆
para obtener
1X
x=1
⇢
(x+ 1)
d
dp
[�(1� p)x]� d
dp
[�(1� p)x]
�
=
1X
x=1
⇢
d2
dp2
⇥
(1� p)x+1
⇤
+
d
dp
[(1� p)x]
�
ya que
d2
dp2
(1 � p)x+1 = {(x + 1) d
dp
[�(1� p)x]; y por linealidad del operador diferencial se
51 2
tiene que
EX2 = p
"
d2
dp2
( 1X
x=1
(1� p)x+1
)
+
d
dp
( 1X
x=1
(1� p)x
)#
= p
"
d2
dp2
(
(1� p)
1X
x=1
(1� p)x
)
+
d
dp
( 1X
x=1
(1� p)x
)#
= p

d2
dp2
⇢
(1� p)1� pp
�
+
d
dp
⇢
1� p
p
��
= p

2
p3
� 1
p2
�
=
2� p
p2
,
y aśı, se concluye que
V ar(X) = EX2 � (EX)2 = 2� p
p2
� 1
p2
=
1� p
p2
Distribución binomial negativa con parámetro 0 < p < 1
(1) ⌦ := {0, 1, 2, . . .}, (2) A := 2⌦,
(3) P (B) =
nX
k=0
✓
k + x� 1
k � 1
◆
pk(1� p)xIB(k), para k = 1, 2, . . . y
P (X = x) = fX(x; k, p) =
✓
k + x� 1
k � 1
◆
pk(1� p)xI⌦(x),
P (X  x) = FX(x) =
xX
m=0
✓
k +m� 1
k � 1
◆
pk(1� p)mI⌦(m).
Está asociada al cálculo de la medida de probabilidad de un experimento con X + k ensayos
independientes Bernoulli, en donde exactamente al (X + k)�ésimo ensayo se presente el
k�ésimo éxito.
Se le llama binomial negativa debido a que las probabilidades dadas por su función de
densidad corresponden a los términos sucesivos de la expansión binomial de
✓
1
p
� 1� p
p
◆�k
.
Además, en este caso k no necesariamente debe ser entero, de hecho, para k > 0 se tiene que
fX(x) =
�(k + x)
x!�(k)
pk(1� p)x
es la expresión análoga a la binomial negativa y se conoce como distribución de Pascal.
52 2
Distribución hipergeométrica con parámetros N, n, k
(1) ⌦ := {0, 1, 2, . . . , n}, (2) A := 2⌦,
(3) P (B) =
1P
x=0
✓
k
x
◆✓
N � k
n� x
◆
✓
N
n
◆ IB(x),
P (X = x) = fX(x; p) =
✓
k
x
◆✓
N � k
n� x
◆
�N
n
� I⌦(x), N, n, k 2 IN, n  N, k  N,
P (X  x) = FX(x) =
xX
m=0
✓
k
m
◆✓
N � k
n�m
◆
�N
n
� I⌦(m).
En un contexto binario (análogo al caso Bernoulli exito-fracaso), se parte de una población
finita con N elementos, de los cuales k cumplen una propiedad de interés y N � k no la
cumplen. Aśı, la distribución hipergeométrica proporciona la medida de probabilidad de que
en un subconjunto de tamaño n de la población, x  n satisfacen la propiedad de interés.
Distribución polinomial con parámetro 0 < p1, p2, . . . , pk < 1
(1) ⌦ := ⇤k�1 = ⇤⇥ · · ·⇥ ⇤ con ⇤ = {0, 1, . . . , n}, (2) A := 2⌦,
(3) P (B) =
X
x2⌦
n!
kQ
i=1
xi!
kY
i=1
pxii IB(x), en donde xi 2 ⇤,
kP
i=1
xi = n,
kP
i=1
pi = 1,
fX(x1, x2, . . . , xk�1;n, p) =
n!
kQ
i=1
xi!
kY
i=1
pxii I⌦(x),
FX(x) =
xX
m2⌦
n!
kQ
i=1
mi!
kY
i=1
pmii I⌦(m),
x = (x1, . . . , xk�1)
m = (m1, . . . ,mk�1)
.
También conocida como distribución multinomial, corresponde a la medida de probabilidad
de un evento en el que después de n pruebas repetidas de un experimento, con k > 2 posibles
resultados, cada uno con probabilidades constantes e iguales a p1, p2, . . . , pk y los x1, x2, . . . , xk
representan el número de veces que se observa uno de los k resultados en las n pruebas.
Distribución uniforme finita contable
(1) ⌦ := {1, . . . , n}, (2) A := 2⌦,
53 2
(3) P (B) =
nX
k=0
1
n
IB(k),
P (X = x) = fX(x;n) =
1
n
I⌦(x), P (X  x) = FX(x) =
xX
k=0
1
n
I⌦(k),
Se interpreta sobre un experimento con n posibles resultados, en donde todos son igualmente
probables (espacio equiprobable).
Distribución de Poisson con parámetro � > 0
(1) ⌦ := {0, 1, . . .},
(2) A := 2⌦,
(3) P (B) =
1X
x=0
e��
�x
x!
IB(x),
P (X = x) = fX(x;�) = e
���
x
x!
I⌦(x), P (X  x) = FX(x) =
xX
k=0
e��
�k
k!
I⌦(k)
Corresponde a la medida de probabilidad de que en un momento dado se presente
exactamente x sucesos en forma simultánea en un lapso de tiempo espećıfico.
Distribución Gaussiana con parámetros µ, �
(1) En este caso ⌦ := IR,
(2) B = B(IR),
(3) Además, bajo la medida Lebesgue-Stieltjes, para B := (a1, b1] [ (a2, b2] [ · · · [ (an, bn],
considerando la integral Riemann se tiene que
P (B) =
nX
k=1
biZ
ai
dtp
2⇡�2
e�
(t�µ)2
2�2
Más aún, la medida N(µ,�2)(B) se conoce como distribución Gaussiana (o distribución
normal) con parámetro de localidad µ, parámetro de forma �2 y tal que, para B 2 B se
tiene que
N(µ,�2)(B) =
Z
B
f(x;µ,�2)dx, con f(x;µ,�2) :=
1p
2⇡�2
e�
(x�µ)2
2�2 .
La función f(x;µ,�2) se conoce como función densidad de probabilidad Gaussiana o
simplemente densidad Gaussiana, mientras que en el caso de la v.a., se dice que x está
normalmente distribuida.
54 2
Asimismo, en el caso de la función densidad de probabilidad de Z = (X � µ)/� se tiene
que
fZ(z) =
⇣p
2⇡
⌘�1
exp
⇣
� 1
2
z2
⌘
que no depende de los parámetros µ y �2 por lo que usualmente se dice que es la forma
estándar de la distribución normal (o forma estandarizada) y para cualquier v.a. X se
tiene que
P (X  x) = P
✓
Z  x� µ
�
◆
.
Esta distribución de probabilidad comúnmente se escribe como
�(z) = P (Z  z) =
⇣p
2⇡
⌘�1 Z z
�1
exp
⇣
� 1
2
z2
⌘
dz
en donde la notación �(z) es ampliamente utilizada al caso incluso de escribir �(z↵) = ↵
para referirse al valor z↵ tal que
⇣p
2⇡
⌘�1 Z z↵
�1
exp
⇣
� 1
2
z2
⌘
dz = ↵.
Distribución exponencial con parámetro � > 0
(1) ⌦ = IR+ en donde IR+ := {x 2 IR : x > 0}, (2) A = 2⌦,
(3) De forma análoga, bajo medida Lebesgue-Stieltjes, para B 2 A se tiene que
P (B) =
Z
B
�e��tIB(t)dt
P (X = x) = fX(x) = �e
��t
I⌦(t), P (X  x) = FX(x) =
xZ
0
�e��tI⌦(t)dt = 1� e��xI⌦(x)
Asociada comúnmente a lapsos de tiempo para que se presente un fenómeno espećıfico. Por
ejemplo, es el tiempo entre dos eventos independiente Poisson o bien, en el contexto de análisis
de tiempos de vida o confiabilidad, es el tiempo en que se presenta una falla.
Además, en el contexto de modelo temporal, se puede ver que carece de memoria, en
sentido de que para a, b � 0, la probabilidad condicional satisface P
⇣
[a + b,1)
��[a,1)
⌘
=
P
�
[b,1
�
, ya que
P
⇣
[a+ b,1)
��[a,1)
⌘
=
P
�
[a+ b,1) \ [a,1)
�
P
�
[a,1)
�
=
�
Z 1
a+b
e��xdx
�
Z 1
a
e��xdx
=
e��(a+b)
e��a
= P
�
[b,1)
�
55 2
Distribución gamma con parámetros ↵,� > 0
(1) ⌦ = IR+ en donde IR+ := {x 2 IR : x > 0}, (2) A = 2⌦,
(3) Similarmente, para B 2 A
P (B) =
�↵
�(↵)
Z
B
x↵�1e��tIB(t)dt
en donde �(·) representa la función gamma definida como
�(↵) =
1Z
0
t↵�1e�tdt.
Además,
P (X = x) = fX(x) =
�↵
�(↵)
x↵�1e��tI⌦(t),
P (X  x) = FX(x) =
�↵
�(↵)
xZ
0
t↵�1e��tI⌦(t)dt
Es un caso generalizado del modelo exponencial en algunos escenarios de análisis de
confiabilidad y tiempos de falla, comúnmente asociada a modelos temporales de fenómeno en
los que la familia paramétrica exponencial no presenta un buen desempeño.
Distribución beta con parámetros ↵, �
(1) ⌦ := (0, 1),
(2) A = �
⇣
(0, 1)
⌘
:= {B = A \ (0, 1) : A 2 B},
(3) Bajo medida Lebesgue-Stieltjes
P (B) =
�(↵+ �)
�(↵)�(�)
Z
IR
t↵�1(1� t)��1IB(t)dt, B 2 A,
P (X = x) = fX(x;↵,�) =
�(↵+ �)
�(↵)�(�)
x↵�1(1� x)��1I(0,1)(x),
P (X  x) = FX(x) =
�(↵+ �)
�(↵)�(�)
xZ
0
t↵�1(1� t)��1IB(t)dt, B 2 A,
Considerando una de las definiciones de la función beta, se sabe que
B(↵,�) =
1Z
0
t↵�1(1� t)��1dt = �(↵)�(�)
�(↵+ �)
56 2
y en tal caso, la función beta incompleta se denota como
Bx(↵,�) =
xZ
0
t↵�1(1� t)��1dt
de modo que, la función de distribución de probabilidad de la familia paramétrica beta
se puede escribir como
FX(x) =
Bx(↵,�)
B(↵,�)
, 0 < x < 1
Tabla 2.1: Lista de algunas familias de probabilidad de variable aleatoria continua
Familia Función de probabilidad Esp. Param.
Uniforme X ⇠ U(a, b) fX(x; a, b) =
1
b� aI(a  x  b),
a, b 2 IR,
a < b
Weibull X ⇠ Wei(↵,�) fX(x;↵,�) = ↵�x��1e�↵x
�
I(x > 0), ↵,� > 0
Gamma X ⇠ �(↵,�) fX(x;↵,�) =
�↵
�(↵)
x↵�1e��xI(x > 0), ↵,� > 0
�2 X ⇠ �2(�) fX(x; �) =
x�/2�1e�x/2
�(�/2)2�/2
I(x > 0), � = 1, 2, . . .
Exponencial X ⇠ Exp(�) fX(x;�) = �e��xI(x > 0), � > 0
Log-normal X ⇠ LN(µ,�2) fX(x;µ,�) =
e�(log x�µ)
2/(2�2)
p
2⇡�
I(x > 0),
µ 2 IR
� > 0
de potencia X ⇠ Pot(a,↵) fX(x; a,↵) =
↵a↵
x�(↵+1)
I(x > a), ↵ > 0, a 2 IR
Normal
Gaussiana
X ⇠ N(µ,�2) fX(x;µ,�) =
1p
2⇡�
e�(x�µ)
2/(2�2),
µ 2 IR
� > 0
Distribución uniforme
(1) ⌦ := [a, b], para a, b 2 IR, �1 < a < b < 1,
(2) A = �([a, b]) := {B = A \ [a, b] : A 2 B},
(3) Para B 2 A,
P (B) =
Z
IR
dt
b� aIB(t),
P (X = x) =
1
b� aI[a,b](x), P (X  x) = FX(x) =
xZ
a
dt
b� a =
x� a
b� a
y se interpreta como la medida de probabilidad sobre los puntos x 2 [a, b] equiprobables.
———————————————————————————————————
57 2Ejercicios
Variables aleatorias:
1.– Considere ⌦ = {�1, 0, 1}, A = {;, {0} , {�1, 1} ,⌦}
a ) Genere una medida µ sobre (⌦,A).
b ) Sea X : ⌦ ! IR la función identidad. ¿Es X una v.a.?
c ) Defina una v.a. para este ejemplo.
d ) Obtenga una representación gráfica de una función de distribución de su v.a.
e ) Escriba una medida de probabilidad P para (⌦,A).
f ) Obtenga una representación gráfica de la función de densidad de probabilidad de P .
2.– Considere las v.a.’s X,M con distribuciones de probabilidad
FX(x) =
⇢
1� e��x, x > 0
0, x  0 , FM (x) =
⇢
1, x > M
0, x  M ,M > 0.
a ) Grafique FX(x) y FM (x) para distintos valores de � y M .
b ) ¿Es FX(x) una distribución de probabilidad?
c ) ¿Es FM (x) una distribución de probabilidad?
d ) Calcule las densidades de probabilidad fX(x) y fM (x)
e ) Usando � = 1 y M = 3 verifique si Y = mı́n {X,M} es una v.a.
f ) Calcule y grafique FY (x) y fY (x).
3.– Verifique si dadas f1(x) y f2(x), ambas funciones de densidad de probabilidad, y si
✓1+✓2 = 1, entonces f(x) = ✓1f1(x)+✓2f2(x) es una función de densidad de probabilidad.
4.– Encuentre la función generadora de probabilidad, si existe, de f(x) =
1
x(x+ 1)
, para
x = 1, 2, . . .
Funciones generadoras:
1.– Para X ⇠ Poi(�), calcule GX(t), MX(t) y �X(t).
2.– Sea (X,Y ) un vector aleatorio con función de densidad f(x, y) = [1+xy(x2�y2)]/4 para
�1 < x, y < 1.
a ) ¿X y Y son independientes?
b ) Verifique si �X,Y (x, y) = �X(x)�Y (y) (¿Tiene sentido?).
3.– Calcule la función caracteŕıstica de una densidad binomial.
4.– Use la función generadora de momentos para verificar que si X1, X2 . . . , Xn ⇠ Ber(p),
entonces
nP
i=1
Xi ⇠ Bin(n, p).
58 2
5.– Sean X ⇠ Poi(�1) y Y ⇠ Poi(�2). Muestre que X + Y ⇠ Poi(�1 + �2) usan la función
caracteŕıstica.
6.– Si X,Y i.i.d. �(↵,�). Use MX(t) para obtener la función de densidad de v.a. Z = 2X.
Esperanza matemática:
1.– Para X ⇠ Poi(�), verifique si EX = Var(X) (la densidad de Poisson es la única función
de distribución de probabilidad con esta caracteŕıstica).
2.– Obtenga el r�ésimo momento para la densidad de Bernoulli.
3.– Sea (X,Y ) un vector aleatorio con función de densidad f(x, y) = [1+xy(x2�y2)]/4 para
�1 < x, y < 1. Calcule EX, EY y E[X + Y ].
Transformación de v.a.’s:
1.– Si {Xk}nk=1 son v.a.’s iid Poi(�). ¿cómo se distribuye una v.a. Z =
nX
k=1
Xk?.
2.– Sea X ⇠ Poi(�). Diga si es falso o verdadero y argumente su respuesta.
a) M(t) = exp[�(et � 1)],
b) M 00(t) = M 0(t) + �etM 0(t),
c) E[(X � �)3] = �.
3.– Sea X ⇠ N(µ,�2). Diga si es falso o verdadero y argumente su respuesta.
a) M(t) = exp[µt+ �2t2/2],
b) EX = µ,
c) Var(X) = �.
4.– Sean X ⇠ N(µ1,�21) y Y ⇠ N(µ2,�22). Use la función generadora de momentos para
verificar si X + Y ⇠ N(µ1 + µ2,�21 + �22).
Bibliograf́ıa
[1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369-
7, pp 654.
[2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd
Edition, Springer-Verlag.
[3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw-
Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México.
[4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury
Thomson Learning. ISBN 0-534-24312-6.
[5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I,
John Wiley & Sons, Inc., New York · London · Sydney.
[6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical
statistics. Upper Saddle River, N.J: Pearson Education.
[7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms,
second edition, Prentice Hall.
[8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc.,
Caṕıtulo 9.
[9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing
Company, English translation which appeared in Russian, 1936. Para los interesados,
está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/
kolmogorov_foundations.pdf
[10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar,
España.
[11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic
Processes, McGraw�Hill, Inc.
[12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp.
984.
[13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585.
59

Otros materiales