TESTADISTICA3 - ANETTE RACHEL PINACHO MATIAS

•
Outros

Desafío México Veintitrés
15/5/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

102.135 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Teoŕıa Estad́ıstica
Notas del curso (en proceso)
Licenciatura en Matemáticas
Depto. de Matemáticas
Cs. Básicas, CUCEI.
Rubén Sánchez Gómez
Vectores aleatorios
De forma análoga a los conceptos revisados en el caso univariado, dado el espacio de
probabilidad (Ω,A, P ), un vector aleatorio es una función X : Ω −→ IRn tal que, la pre-
imagen X−1B de cualquier B ∈ B(IRn), n > 1 (espacio Euclideano), es un elemento de la
σ−álgebra A. En donde X representa el arreglo ordenado (X1, . . . , Xn) y cada coordenada
Xi de X es una v.a.
Def. 13 (Vector Aleatorio). Sea X ≡ (X1, . . . , Xn) tal que X : Ω −→ IRn es B-A-medible,
entonces a X se le conoce como vector aleatorio ({vec.al.} para abreviar y diferenciarlo de
variable aleatoria {v.a.}), y en consecuencia la función de distribución conjunta de X está
dada por
FX(x) = P
�
X ≤ x
�
≡ FX1,...,Xn(x1, . . . , xn) = P
 
n\
i=1
[Xi ≤ xi]
!
.
en donde x ≤ y denota que xi ≤ yi para i = 1, 2,≤, n y además, la región definida por (x,y]
representa el rectángulo base, dado por (x1, y1]× · · · × (xn, yn] siempre que x ≤ y.
Proposición 8 (Medibilidad). Para X : Ω −→ IRn,
X es B(IRn)-A-medible si y solo si, cada Xi (i− ésima coordenada) es B(IR)-A-medible
Dos comentarios antes de buscar demostrar el resultado: (i) el hecho de ser medible, por
definición implica que su pre-imagen bajo X es elemento del σ−álgebra sobre el cual está
definido y en forma equivalente, (ii) si su pre-imagen es elemento del σ−álgebra, entonces
será una v.a..
Def. 14 (Vector aleatorio discreto/continuo). Se dice que un vec.al. es (X1, . . . , Xn) es
discreto si cada una de sus coordenadas es una v.a. contable o finito contable y en caso
contrario, será continuo.
Distribución de probabilidad de un vec.al.
De forma análoga, cada vector aleatorio induce una medida de probabilidad P : IRn −→ [0, 1]
y es tal que,
FX(x) = FX
�
x1, . . . , xn
�
= P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X ≤ x)
71
72 3
Dicha medida e conoce como función de distribución conjunta del vec.al. X y satisface: (i) ser
continua por la “derecha”, (ii) ser monótona no decreciente, FX(∞, . . . ,∞) = 1 y además,
para i = 1, . . . , n se tiene que
FX(x1, . . . , xi−1,−∞, xi+1, . . . , xn) = 0
y
FX(x1, . . . , xi−1,∞, xi+1, . . . , xn) = FX(x1, . . . , xi−1, xi+1, . . . , xn),
de donde se concluye que
FX1(x1) = FX(x1,∞, . . . ,∞), · · · , FXn(xn) = FX(∞, . . . ,∞, xn)
son las distribuciones marginales de las v.a.’s coordenadas Xi y además, para un vector
aleatorio continuo x ∈ IRn,
FX(x) = FX
�
x1, . . . , xn
�
=
x1Z
−∞
· · ·
xnZ
−∞
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
dx1 · · · dxn
y en cualquier región rectangular R ⊆ IRn se tiene que
P (u ≤ R ≤ v) =
v1Z
u1
· · ·
vnZ
un
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
dx1 · · · dxn
Más aún, se tiene que la densidad conjunta fX
�
x1, . . . , xn
�
= P (X1 = x1, . . . , Xn = xn)
satisface la no negatividad, fX
�
x1, . . . , xn
�
≥ 0, para todo (x1, . . . , xn) ∈ IRn y
∞Z
−∞
· · ·
∞Z
−∞
fX(x1, . . . , xn)dx1 · · · dxn = 1.
En donde, de igual modo, densidad y distribución están asociadas con
FX
�
x1, . . . , xn
�
=
x1Z
−∞
· · ·
xnZ
−∞
fX
�
x1, . . . , xn
�
dx1 · · · dxn y fX
�
x1, . . . , xn
�
=
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
,
mientras que en el caso discreto se tiene que
a) fX(x1, . . . , xn) ≥ 0 c) FX(x1, . . . , xn) =
X
u1≤x1
· · ·
X
un≤xn
fX(u1, . . . , un)
b)
X
x1
· · ·
X
xn
fX(x1, . . . , xn) = 1 d) fX1(x1) =
X
x2
· · ·
X
xn
fX(x1, . . . , xn)
Ejem. 5. A manera de ejemplo, sea f(x, y) una masa de probabilidad uniforme conjunta
para x, y = 1, 2. Entonces, una forma de representar a f(x, y) puede ser mediante un
73 3
arreglo tabular (i) de la densidad conjunta f(x, y); con un arreglo tabular (ii) de las
densidades conjunta f(x, y) y marginales f(x), f(y) o bien mediante una representación
gráfica (iii).
(i) x
1 2
y 1 14
1
4
2 14
1
4
(ii) x
1 2 fY (y)
y 1 14
1
4
1
2
2 14
1
4
1
2
fX(x)
1
2
1
2 1
(iii)
Densidad uniforme conjunta f(x, y) = 14 , x, y = 1, 2.
Además, su función de distribución (acumu-
lada) se puede obtener a partir de la expre-
sión (ii) (tabla con marginales) en donde se
puede observar que toda la región se puede
subdividir en nueve subregiones.
x < 1 1 ≤ x < 2 x ≥ 2
y < 1 0 0 0
1 ≤ y < 2 0 1/4 1/2
2 ≤ y 0 1/2 1
y una representación gráfica de la distribución de probabilidad (acumulada) tiene la
forma
74 3
Ejem. 6. (Ejemplo de Casella – Berger, 2002) Revisando un segundo ejemplo, se
puede considerar un experimento en el que se lanzan dos dados “justos” (un ambiente
imaginario) con espacio muestral de 36 resultados igualmente probables y sobre él, definir
las v.a.’s X como la suma de los puntos de sus caras resultantes y Y como la distancia
entre los puntos de sus caras, es decir, si d1 es el número de puntos de la cara del dado
1 y d2 del dado 2, entonces
X = d1 + d2, y Y = |d1 − d2|
de modo que X = 2, . . . , 12, Y = 0, . . . , 5 y su función masa de probabilidad queda
definida por
X
2 3 4 5 6 7 8 9 10 11 12 fY (y)
0 136
1
36
1
36
1
36
1
36
1
36
1
6
1 118
1
18
1
18
1
18
1
18
5
18
2 118
1
18
1
18
1
18
2
9
Y 3 118
1
18
1
18
1
6
4 118
1
18
1
9
5 118
1
18
fX(x)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36 1
En tanto que, su distribución de probabilidad (acumulada) tiene la forma
x
<
2
2
≤
x
<
3
3
≤
x
<
4
4
≤
x
<
5
5
≤
x
<
6
6
≤
x
<
7
7
≤
x
<
8
8
≤
x
<
9
9
≤
x
<
10
10
≤
x
<
11
11
≤
x
<
12
12
≤
x
y < 0 0 0 0 0 0 0 0 0 0 0 0 0
0 ≤ y < 1 0 136 136 118 118 112 112 19 19 536 536 16
1 ≤ y < 2 0 136 112 19 16 736 14 518 13 1336 512 49
2 ≤ y < 3 0 136 112 16 29 1136 1336 49 12 712 2336 23
3 ≤ y < 4 0 136 112 16 518 1336 1736 59 23 34 2936 56
4 ≤ y < 5 0 136 112 16 518 512 1936 23 79 3136 1112 1718
5 ≤ y 0 136 112 16 518 512 712 1318 56 1112 3536 1
75 3
Ejem. 7. Para
fX,Y (x, y) =



e−y si 0 < x < y < ∞
0 en otro caso
(i) Verifique si se trata de una función densidad de probabilidad.
Resp. En este caso se puede ver que
∞Z
0
∞Z
x
e−ydydx =
∞Z
0
�
− e−y
���
y =∞
y = x
dy =
∞Z
0
e−xdx =
�
− e−x
���
∞
0
= 1,
por lo que, f(x, y) es una densidad conjunta de probabilidad.
(ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10.
Resp. Dado que
FX,Y (x, y) =
xZ
0
yZ
x
e−ydydx =
xZ
0
�
− e−y
���
y = y
y = x
dx =
xZ
0
�
− e−y + e−x
�
dx
=
h
− xe−y − e−x
ix=x
x=0
,
y aśı, FX,Y (x, y) = 1 − e−x − xe−y, 0 < x < y < ∞, cuya representación gráfica
tiene la forma
(iii) Calcule las funciones de densidad marginal fX(x) y fY (y).
76 3
Resp. De la densidad conjunta se obtiene directamente que
fX(x) =
Z
IR
fX,Y (x, y)dy =
∞Z
x
e−ydy =
�
− e−y
���
∞
x
= e−x, para x > 0.
fY (y) =
Z
IR
fX,Y (x, y)dx =
yZ
0
e−ydx =
�
xe−y
���
x=y
x=0
= ye−y, para y > 0.
(iv) Obtenga EX, EXY y Cov(x, y).
Resp. Por definición resulta que
EX =
∞Z
0
xe−xdx =
�
− (x+ 1)e−x
���
x→∞
x=0
= 1,
EXY =
∞Z
0
∞Z
x
xye−ydydx =
∞Z
0
�
− x(y + 1)e−y
���
y →∞
y=x
dx
=
∞Z
0
x(x+ 1)e−xdx =
�
− (x2 + 3x+ 3)e−x
���
x→∞
x=0
= 3
y para obtener Cov(X,Y ) primero se calcula EY mediante
EY =
∞Z
0
y(ye−y)dy =
�
− (y2 + 2y + 2)e−y
���
x→∞
x=0
= 2
Cov(X,Y ) = E(X − EX)(Y − EY ) = E(X − 1)(Y − 2)
= E(XY − 2X − Y + 2) = EXY − 2EX − EY + 2 = 1.
(v) ¿X y Y son independientes?
Resp. ¡No! Ya que para que X,Y sean independientes, se debe tener que
fX,Y (x, y) = fX(x)fY (y), pero
e−y = fX,Y (x, y) ̸= fX(x)fY (y) = ye−(x+y),
o bien, con funciones de distribución conjunta, se tiene que FX,Y (x, y) =
FX(x)FY (y), pero
1− e−x − xe−y = FX,Y (x, y) ̸= FX(x)FY (y) = (1− e−x)(1− (y + 1)e−y).
De esta forma, se podŕıa diferenciar entre vectores aleatorios de soporte discreto cuando sus
77 3
coordenadas son v.a. finito o infinito contables (ejemplos 5 y 6) y en caso contrario, se tendŕıan
vectores aleatorios de soporte continuo (ejemplo 7).
Distribuciones condicionales
Retomando el concepto de probabilidadcondicional, de la definición (??), para un vector
(X1, . . . , Xn) se puede tener el caso en que se busca la probabilidad de que ocurra el evento
(X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn) dado que la v.a. Xj tiene el valor xj ,
con
f
��
Xi = xi
�nn
i=1
i̸=j
o��Xj = xj
�
=
f(X1 = x1, . . . , Xn = xn)
f(Xj = xj)
;
Por otro lado, para obtener la medida de probabilidad del evento (X1 = x1, . . . , Xj = xj)
dado que, las variables Xj+1, Xj+2, . . . , Xn toman los valores xj+1, xj+2, . . . , xn se obtiene
mediante
f
�
(X1 = x1, . . . , Xj = xj)
���(Xj+1 = xj+1, . . . , Xn = xn)
�
=
f(X1 = x1, . . . , Xn = xn)
f(Xj+1 = xj+1, . . . , Xx = xn)
,
o bien, probabilidad de que ocurra Xj = xj dado que las v.a.’s (X1, . . . , Xj−1, Xj+1, . . . , Xn)
tomaron los valores (x1, . . . , xj−1, xj+1, . . . , xn) con
f
�
Xj = xj
���
�
Xi = xi
�nn
i=1
i̸=j
o
�
=
f(X1 = x1, . . . , Xn = xn)
f(X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn)
.
Ejem. 8. Para fX,Y (x, y) =
3(x2 + y2)
16
I0<x<y<2(x, y),
(i) Compruebe que se trata de una función de densidad de probabilidad.
Resp. Śımplemente se debe comprobar si integra a uno, es decir, se debe tener
que
2Z
0
2Z
x
3(x2 + y2)
16
dydx =
2Z
0
�y3 + 3x2y
16
����
y=2
y=x
dx =
2Z
0
�−2x3 + 3x2 + 4
8
�
dx
=
�−x4 + 2x3 + 8x
16
����
x=2
x=0
= 1.
y dado que fX,Y (x, y) ≥ 0 para toda 0 < x < y < 2, se concluye que fX,Y (x, y) es
una densidad de probabilidad.
(ii) Obtenga una representación gráfica de fX,Y (x, y) en el rango −1 < x, y < 3.
Resp.
78 3
Representación gráfica de fX,Y (x, y) en −1 < x, y < 3.
(iii) Escriba su función de distribución conjunta FX,Y (x, y).
Resp. En este caso, se puede ver que en la región 0 < x < y < 2
F (x, y) =
xZ
0
yZ
x
3(x2 + y2)
16
dydx =
xZ
0
hy3 + 3x2y
16
����
y=y
y=x
dx =
xZ
0
y3 + 3x2y − 4x3
16
dx
=
hxy3 + x3y − x4
16
����
x=x
x=0
=
xy3 + x3y − x4
16
.
Comprobando el resultado, se puede ver que FX,Y (2, 2) = 1 y que sus marginales
seŕıan
FX,Y (x, 2) = FX(x) =
8x+ 2x3 − x4
16
y FX,Y (2, y) = FY (y) =
2y3 + 8y − 16
16
,
que también satisfacen FX(2) = 1 y FY (2) = 1.
Finalmente se tiene que
FX,Y (x, y) =



0 si x < 0 ó y < 0
xy3 + x3y − x4
16
si 0 < x < y < 2
2y3 + 8y − 16
16
si x ≥ 2 y 0 ≤ y < 2
8x+ 2x3 − x4
16
si 0 ≤ x < 2 y y ≥ 2
1 si x ≥ 2 y y ≥ 2
(iv) Calcule sus funciones de densidad marginales.
79 3
Resp. Por definición, se pueden diferenciar las distribuciones y en este caso, por
el inciso previo se tiene que
fX(x) =
d
dx
�
8x+ 2x3 − x4
16
�
=
4 + 3x2 − 2x3
8
, para 0 < x < 2,
fY (y) =
d
dy
�
2y3 + 8y − 16
16
�
=
3y2 + 4
8
, para 0 < y < 2,
e integrando (para verificar que realmente es una densidad de probabilidad se tiene
que
Z
IR
fX(x)dx =
2Z
0
4 + 3x2 − 2x3
8
dx =
1
8
�−x4
2
+ x3 + 4x
����
2
0
= 1
pero en el caso de fY (y) se resulta que
Z
IR
fY (y)dy =
2Z
0
3y2 + 4
8
dy =
1
8
�
y3 + 4y
���
2
0
= 2 [no es densidad de prob.]
Por otro lado, calculando las marginales con la densidad conjunta se tendŕıa que
fX(x) =
Z
IR
fX,Y (x, y)dy =
Z
IR
3(x2 + y2) I0<x<y<2(x, y)
16
dy =
3
16
2Z
x
(x2 + y2)dy
por lo que, fX(x) =
3
16
�
y3
3
+ x2y
����
y=2
y=x
o bien fX(x) =
4 + 3x2 − 2x3
8
, 0 < x < 2
que coincide con la fX(x) calculada diferenciando la distribución de prob. FX(x)
y en el caso de fY (y) resulta
fY (y) =
Z
IR
fX,Y (x, y)dx =
Z
IR
3(x2 + y2) I0<x<y<2(x, y)
16
dx =
3
16
yZ
0
(x2 + y2)dx
es decir, fY (y) =
3
16
�
x3
3
+ xy2
����
x=y
x=0
o bien fY (y) =
y3
4
, 0 < y < 2 y en este caso
Z
IR
fY (y)dy =
2Z
0
y3
4
dy =
�
y4
16
����
2
0
= 1
(v) Obtenga EX, EXY y Cov(x, y).
80 3
Resp. Por definición se tiene que
EX =
2Z
0
x
�−2x3 + 3x2 + 4
8
�
dx =
�
−8x
5 − 15x4 − 40x2
160
����
2
0
=
9
10
,
EXY =
2Z
0
2Z
x
xy
3(x2 + y2)
16
dydx =
2Z
0
�
3x(x2 + y2)2
64
����
y=2
y=x
dx
=
2Z
0
−9x
5 − 24x3 − 48x
64
dx =
�
− 3x
6 − 12x4 − 48x2
128
����
2
0
=
3
2
.
Calculando EY se obtiene
EY =
2Z
0
y
�
y3
4
���� dy =
�
y5
20
����
2
0
=
8
5
,
y finalmente,
Cov(X,Y ) = E(X − EX)(Y − EY ) = E
�
X − 9
10
��
Y − 8
5
�
= E
�
XY − 8X
5
− 9Y
10
+
36
25
�
= EXY − 8
5
EX − 9
10
EY +
36
25
=
3
2
− 2
�
8
5
�
9
10
+
36
25
=
3
50
.
(vi) ¿X y Y son independientes?
Resp. ¡No! Ya que para X,Y independientes, se satisface que fX,Y (x, y) =
fX(x)fY (y), pero
3(x2 + y2)
16
= fX,Y (x, y) ̸= fX(x)fY (y) =
−2x3 + 3x2 + 4
8
�
y3
4
�
.
(vii) Calcule E(X|Y ) y V ar(X|Y ).
Resp. En este caso, por sustitución se puede ver que para un y dado resulta que
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
=
3(x2 + y2)
16
y3
4
=
3(x2 + y2)
4y3
81 3
y aśı
E(X|Y ) =
yZ
0
xfX|Y (x|y)dx =
yZ
0
x
3(x2 + y2)
4y3
dx =
3
4y3
�
x4
4
+
x2y2
2
����
x=y
x=0
=
9
16
y
y como
E(X2|Y ) =
yZ
0
x2fX|Y (x|y)dx =
yZ
0
x2
3(x2 + y2)
4y3
dx =
3
4y3
�
x5
5
+
x3y2
3
����
x=y
x=0
=
2
5
y2
se obtiene que V ar(X|Y ) = E(X2|Y )−E(X|Y )2 = 2
5
y2−
�
9
16
y
�2
=
107
1280
y2 para
un y dado (0 < y < 2).
Independencia de variables aleatorias
Como se ha mencionado, si las v.a. Xi, coordenadas del vec.al. X, son independientes entre
śı, entonces
FX1,...,Xn(x1, . . . , xn) = FX1(x1)FX2(x2) · · ·FXn(xn) =
nY
k=1
FXk(xk)
y aśı, en el caso en que X = (X,Y ) ∈ IR2, por ejemplo, si X es independiente de Y se tiene
que
Cov(X,Y ) = E(X − EX)(Y − EX) =
Z
IR2
(X − EX)(Y − EX)∂
2FX,Y (x, y)
∂x∂y
dxdy
y dado que X ⊥ Y , se obtiene
Cov(X,Y ) =
Z
IR2
(X − EX)(Y − EX)∂
2FX(x)FY (y)
∂x∂y
dxdy
=
Z
IR2
(X − EX)(Y − EX)
�
dFX(x)
dx
� �
dFY (y)
dy
�
dxdy
de modo que,
Cov(X,Y ) =
Z
IR
(X − EX)dFX(x)
Z
IR
(Y − EX)dFY (y) = 0.
Por lo tanto, si X ⊥ Y entonces Cov(X,Y ) = 0, pero el rećıproco no necesariamente se
cumple y como evidencia, en el siguiente ejemplo se puede observar que las variables X y Y
no son independientes pero Cov(X,Y ) = 0.
82 3
Ejem. 9. Sean X,Y v.a.’s discretas con densidad conjunta
X
−1 0 1
−1 15 0 15
Y 0 0 15 0
1 15 0
1
5
i.– Verifique si X y Y son independientes.
Resp. Por definición, si X ⊥ Y se debe cumplir que fX,Y (x, y) = fX(x)fY (y),
∀x, y pero en este caso se tiene que fX(0) = fY (0) = 15 pero fX,Y (0, 0) = 15 ̸= 125
y ∴ X ⊥/ Y
ii.– Obtenga Cov(X,Y )
Resp. Escribiendo las densidades marginales para X y Y , se puede ver que
EX = EY =
1
5
− 1
5
= 0 y además,
EXY =
1X
x=−1
1X
y=−1
xyfX,Y (x, y) =
1
5
− 1
5
+
1
5
− 1
5
= 0,
luego, Cov(X,Y ) = 0 y ∴ si X ⊥ Y =⇒ Cov(X,Y ) = 0, pero si Cov(X,Y ) = 0
no necesariamente X ⊥ Y .
Matriz de varianza-covarianza de vectores aleatorios
En general, el concepto de esperanza matemática para una variable se puede extender al
caso de vectores aleatorios, en donde por ejemplo, para el vec.al. X = (X1, . . . , Xn), si cada
coordenada del vector tiene esperanza finita, el vector numérico
EX = (EX1, . . . , EXn)
se conoce como vector esperado de X. Además, retomando el concepto de covarianza, por
definición se tiene que
Cov(X,Y ) = E(X − EX)(Y − EY ),
proporciona una medida de asociación entre las variables X,Y y satisface
1. Cov(X,Y ) = E[XY ]− E[X]E[Y ]
2. Cov(X,Y ) = Cov(Y,X)
3. Cov(X,X) = V ar(X)
4. Cov(a, Y ) = 0
83 3
5. Cov(aX, Y ) = aCov(X,Y )
6. Cov(X1 +X2, Y ) = Cov(X1, Y ) + Cov(X2, Y )
7. si X,Y son independientes, entonces Cov(X,Y ) = 0
8. si Cov(X,Y ) = 0 no necesariamente X y Y son independientes,
para una constante arbitraria a ∈ IR. Además, si se denota a la covarianza con σij , para un
vec.al. X ∈ IRn se puede escribir el arreglo matricial (con todas las covarianzas)
X
(X,Y ) =


σ11 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
. . .
...
σn1 σn2 · · · σnn

 = E[(X− EX)
t(X− EX)],
que se conoce como matriz de varianzas–covarianzas del vectorX, ya que σii son las varianzas
de las coordenadas de X y es evidente que la matriz
P
es simétrica.
Por otro lado, el cociente
ρij =
σij√
σii
√
σjj
se conocecomo el coeficiente de correlación, de las coordenadas Xi, Xj y de forma análoga,
se puede definir la matriz de correlación mediante
ρX,Y =


ρ11 ρ12 · · · ρ1n
ρ21 ρ22 · · · ρ2n
...
...
. . .
...
ρn1 ρn2 · · · ρnn


en donde −1 ≤ ρij ≤ 1 ∀i, j. Para verificar ésta afirmación, notemos que
Demostración. Si se define X =
Xi − EXi√
σii
y Y =
Xj − EXj√
σjj
entonces EX = EY = 0,
V ar(X) = V ar(Y ) = 1 (variables estandarizadas). Entonces, se tiene que
0 ≤ V ar(X + λY ) = E(X + λY )2 − E2(X + λY ) = 1 + 2λEXY + λ2
y luego, si λ = 1, 0 ≤ 1 + EXY y aśı −1 ≤ EXY .
Por otro lado, si λ = −1, se tiene que 0 ≤ 1 − EXY y entonces EXY ≤ 1; por lo que
−1 ≤ EXY ≤ 1 y retornando a las variables Xi, Xj se puede ver que
−1 ≤ EXY ≤ 1 ⇐⇒ −1 ≤ E
�
Xi − EXi√
σii
Xj − EXj√
σjj
�
≤ 1 ⇐⇒ −1 ≤ σij√
σii
√
σjj
≤ 1
y por lo tanto, −1 ≤ ρij ≤ 1. ■
Cabe señalar que tanto la covarianza como el coeficiente de correlación proporcionan una
medida de asociación entre las variables Xi, Xj y como tal, cuando no hay asociación σij = 0
84 3
ó ρij = 0 y en éste último, se dice que las variables son no correlacionadas y además, en el
caso en que ρij = ±1 se dice que la correlación es perfecta.
Función generadora de momentos de un vector
aleatorio
Retomando el concepto de la función generadora de momentos, por definición se tiene que
MX(s) = E[exp(sX)] =
Z
IR
esxfX(x)dx
en donde s ∈ lC, de modo que, extendiendo a dimensiones mayores, para una n−tupla
X = (X1, . . . , Xn) ∈ IRn
se puede declarar el vector s = (s1, . . . , sn), tal que
X · s =
nX
k=1
xksk
para definir la función generadora de momentos de un vec.al. como
MX(s) = E[exp(s ·X)] =
Z
IRn
es·xfX(x)dx1 · · · dxn
de modo que, se puede tener la posibilidad de que s = s1 = · · · = sn.
Algunas técnicas para obtener la distribución con-
junta de transformación de variables
Desde un enfoque más general, la transformación (o álgebra) de v.a.’s es un tema de gran
importancia en teoŕıa estad́ıstica, ya que es la base para determinar la función de probabilidad
de cualquier función algebraica de un conjunto de variables aleatorias. Por ejemplo, una
pregunta natural seŕıa ¿cuál es la densidad de probabilidad de una función fXk(xk), para el
vec.al. (X1, . . . , Xn), en donde cada coordenada Xk se distribuye exponencial con parámetro
λk. Aśı, en este apartado se revisan algunos métodos propuestos en la literatura.
Como se revisó en la sección ?? (página ??) si ψ : (a, b) → IR una función continua
estrictamente monótona y con inversa diferenciable, para Y = ψ(X) se tiene que
fY (y) = fX
�
ψ−1(y)
�����
d
dy
ψ−1(y)
����Iψ(a,b)(y)
85 3
o bien, extendiendo al caso a una función estrictamente decreciente se tendŕıa que
fY (y) = fX
�
ψ−1(y)
�����−
d
dy
ψ−1(y)
����Iψ(a,b)(y)
Genralizando, para un vec.al. X ∈ IRn con función de densidad fX(x) y una función
ψ(x) : I ⊆ IRn → IR continua, inversa ψ−1(U) diferenciable.
Ω
X
##
U=ψ(X) // IRn
I ⊂ IRn
ψ(I)
::
El vector U = ψ(X) toma valores en ψ(I) y tiene función de densidad
fU(u) = fX
�
ψ−1(U)
�����J(U)
���� Iψ(I)(U) (3.4)
en donde J es el determinante de la matriz (Jacobiano)
J(U) =
����
∂
∂jU
ψ−1i
���� i− ésimo renglón, j − ésima columna.
El problema de obtener la densidad exacta de sumas de variables aleatorias usualmente se
conoce como convolución de densidades y se define como la convolución de funciones. A
manera de ejemplo, el ejemplo t́ıpico de convolución de funciones corresponde a la suma de
variables aleatorias.
Ejem. 10. Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y);
muestre que la densidad de X + Y está dada por
fX+Y (u) =
Z
IR
fX,Y (u− v, v)dv
En este caso, de la ecuación 3.1 se tiene que
fU(u) = fX
�
ψ−1(U)
�����J(U)
���� Iψ(I)(U)
y como,
u = X + Y
v = Y
=⇒ X = u− v
Y = v
,
����J(U)
���� =
����
1 −1
0 1
���� = 1
se tiene que
fU,V (u, v) = fX,Y
�
u− v, v
�
Iψ(I)(U, V )
y por tanto, integrando respecto a v, la marginal de U está dada por
fX+Y (u) =
Z
IR
fX,Y (u− v, v)dv
86 3
Ejem. 11. Revisando ahora un ejemplo, supongamos que se quiere obtenga la densidad
de z =
2P
i=1
ti con ti
iid∼ f(ti;α,β) para
f(t;α,β) =
tα−1e−t/β
βαΓ(α)
para α,β, x > 0.
Resolviendo, se tiene que f(t1, t2) = f(t1)f(t2) y entonces, por convolución se debe
integrar
f(z) =
∞Z
0
f(t1)f(z − t1)dt1,
es decir
f(z) =
∞Z
0
 
tα−11 e
−t1/β
βαΓ(α)
! 
(z − t1)α−1e−(z−t1)/β
βαΓ(α)
!
dt1
y por tanto,
f(z) = z2α−2e−z/β
�
1
βαΓ(α)
�2 ∞Z
0
�
t1
z
�α−1�
1− t1
z
�α−1
dt1
pero, dado que t2 > 0, se tiene que 0 <
t1
z
< 1, luego
∞Z
0
�
t1
z
�α−1�
1− t1
z
�α−1
dt1 = z
1Z
0
uα−1(1− u)α−1du
lo que se reduce a una densidad beta, en donde
1Z
0
uα−1(1− u)α−1du = Γ(α)
2
Γ(2α)
,
por lo que
f(z) =
z2α−1e−z/β
β2αΓ(2α)
es decir, z se distribuye gamma con parámetros (2α,β).
a.– Considerando el caso en que z =
nP
i=1
ti con ti
iid∼ f(ti;α,β), ¿cómo se distribuye z?
b.– En un caso más general, ¿cómo se distribuye z =
2P
i=1
ti con ti ∼ f(ti;αi,βi) con
α1 ̸= α2 y β1 ̸= β2?
De éste ejemplo, vale la pena enfatizar que la suma de dos v.a.’s distribuidas gamma, sigue
87 3
también un modelo de probabilidad gamma.
Ejem. 12. Como se puede ver, otra opción para obtener la densidad de z =
2P
i=1
ti con
ti ∼ f(ti;αi,βi),
f(t;αi,βi) =
tαi−1e−t/βi
βαii Γ(αi)
para αi,βi, x > 0; i = 1, 2;
α1 ̸= α2 y β1 ̸= β2, es la función generadora de momentos (al igual que la función
caracteŕıstica o la generadora de probabilidad) en virtud de que, para X ⊥ Y se tiene
que MX+Y = MXMY , y en este caso
MX(s) =
Z
IR+
estf(t;α,β)dt =
Z
IR+
est
tα−1e−t/β
βαΓ(α)
dt =
Z
IR+
tα−1e−t
�
1/β−s
�
βαΓ(α)
dt
en donde puede observar el kernel de una densidad gamma, es decir,
MX(s) =
1�
1/β − s
�α
βα
���
���
���
���
���
�:1Z
IR+
�
1/β − s
�α
tα−1e−t
�
1/β−s
�
Γ(α)
dt, 1/β > s.
Distribuciones de funciones de muestras aleatorias:
en especial del modelo normal
Partiendo del objeto de estudio, una muestra aleatoria (m.a.) o simplemente muestra es una
colección de v.a.’s X1, . . . , Xn
iid∼ fX(x), en donde n se conoce como el tamaño de la muestra.
En general, es evidente que una muestra provee información de cualquier experimento
aleatorio y por ello, es de suma importancia disponer de una muestra “adecuada”. Usualmente
se busca obtener información de una población a partir de la muestra y los parámetros más
comunes son el promedio y la varianza.
Def. 15. Para una muestra de tamaño n, X1, . . . , Xn, la media y varianza muestrales se
definen como
X̄ =
1
n
nX
k=1
Xk y S
2 =
1
n− 1
nX
k=1
(Xk − X̄)2
respectivamente.
En la práctica, quien investiga conjuntos de datos (ya sean numéricos o no) se plantea
diferentes preguntas sobre una población, entre las cuales pueden ser el promedio o la varianza,
sin embargo no son los únicos. Por ejemplo, se puede tener interés en el valor máximo para
saber si una presa se desbordará en algún momento, o bien en el valor que más se repite
(la moda) para conocer la lectura más común en la población. El asunto es que, cualquier
información sobre la población se tendrá que obtener a partir de una muestra.
88 3
Def. 16. (Estad́ıstico) Para una m.a. X1, . . . , Xn, un estad́ıstico es cualquier v.a. (función
de la muestra) θ(X1, . . . , Xn).
En el caṕıtulo anterior se demostró que cualquier mapeo de variables aleatorias (operadas
con suma algebraica, producto, potencias) también es una variable aleatoria; de modo que,
en un momento dado se puede conocer el modelo de probabilidad del estad́ıstico θ, a partir
de la distribución de las Xk. Por ello, en esta sección se revisan algunos modelos disponibles
en la literatura.
Ejem. 13. Como primer aproximación, se puede ver que si X ∼ N(0, 1) entonces
X2 ∼ χ21 (con un grado de libertad ν = 1)
Partiendo del concepto de fgm, notemos que
MX2(t) = E
�
exp(tX2)
�
=
∞Z
−∞
exp(tx2)
�
1√
2π
exp(−x2/2)
�
dx
=
∞Z
−∞
1√
2π
exp
�
− (1− 2t)x2/2
�
dx
=1
(1− 2t)1/2
���
���
���
���
���
���
�:1∞Z
−∞
1
√
2π
q
1
1−2t
exp
"
−1
2
 
x2
1
1−2t
!#
dx
que corresponde a la fgm de una v.a. χ21 (un grado de libertad).
Valorando éste resultado, se puede ver que por definición, la varianza muestral es la suma de
cuadrados de la v.a., de modo que si es necesario conocer el modelo de probabilidad que le
corresponde, si Xk ∼ N(0, 1) entonces X2k ∼ χ2 con un grado de libertad.
Ejem. 14. Generalizando el ejemplo anterior a una muestra de tamaño n, para
X1, . . . , Xn i.i.d. normal estándar, si θ es el estad́ıstico dado por
θ = Θ(x1, x2, . . . , xn) =
nX
k=1
x2k,
entonces θ se distribuye χ2ν con ν = n grados de libertad.
Resolviendo la integral
GΘ(θ0) =
Z
· · ·
Z
dFX(x1)dFX(x2) · · · dFX(xn)
para θ ≤ θ0, se puede ver que en este caso se tiene que la densidad conjunta está dada
por
GΘ(θ0) =
Z
· · ·
Z
1
(2π)
1
2
n
exp
�
−1
2
X
x2i
�
dx1dx2 · · · dxn
para θ ≤ θ0 y xi ∈ IR, ∀i.
89 3
Integrando, la transformación natural en un caso como este son las coordenadas
polares, dada por (x1, x2, . . . , xn) 7→ (θ,α1, . . . ,αn−1) por
x1 = θ
1
2 cosα1 cosα2 · · · cosαn−1
...
xj = θ
1
2 cosα1 cosα2 · · · cosαn−j senαn−j+1
... ( j = 2, 3, . . . , n− 1;n > 2 )
xn = θ
1
2 senα1
en donde el Jacobiano
∂(x1, . . . , xn)
∂(θ,α1, . . . ,αn−1)
está dado por
1
2
θ
1
2
n−1
�����������
cosα1 cosα2 · · · cosαn−1 cosα1 cosα2 · · · cosαn−2 senαn−1 · · · senα1
− senα1 cosα2 · · · cosαn−1 − senα1 cosα2 · · · cosαn−2 senαn−1 · · · cosα1
− cosα1 senα2 · · · cosαn−1 − cosα1 senα2 · · · cosαn−2 senαn−1 · · · 0
...
...
. . .
...
− cosα1 cosα2 · · · senαn−1 cosα1 cosα2 · · · cosαn−2 cosαn−1 · · · 0
�����������
en donde, agrupando cosenos y senos en todas las columnas, se tiene que el determinante
anterior se simplifica en
�����������
1 1 1 · · · 1
− tanα1 − tanα1 − tanα1 · · · cotα1
− tanα2 − tanα2 − tanα2 · · · 0
...
...
...
. . .
...
− tanαn−1 − cotαn−1 0 · · · 0
�����������
por el factor cosn−1 α1 cosn−2 α2 · · · cosαn−1 senα1 senα2 · · · senαn−1.
Aśı, calculando el determinante se puede restar a cada columna su columna
precedente desde la dos hasta la n−ésima, simplificando el cálculo al producto de la
diagonal principal del cofactor M1,1 obteniendo que
∂(x1, x2, . . . , xn)
∂(θ,α1,α2, . . . ,αn−1)
=
1
2
θ
1
2
n−1 cosn−2 α1 cosn−3 α2 · · · cosαn−2.
Por tanto, se tiene que
GΘ(θ0) =
Z
· · ·
Z
1
(2π)
1
2
n
exp
�
−1
2
θ
��
1
2
θ
1
2
n−1 cosn−2 α1 · · · cosαn−2
�
dθdα1 · · · dαn−2
para θ ≥ 0 y −π ≤ αi ≤ π, i = 1, 2, . . . , n− 2.
90 3
Integrando las funciones trigonométricas, se tiene que
GΘ(θ0) = k
θ0Z
0
θ
1
2
n−1e(−
1
2
θ)dθ
en donde la constante k puede calcularse integrando en todo el soporte de θ y aśı se
concluye que
dG(θ) =
1
2
1
2
nΓ
�
1
2n
�θ
1
2
n−1e(−
1
2
θ)dθ
que usualmente se conoce como distribución χ2 y al parámetro n usualmente se le conoce
como grados de libertad.
En una versión alternativa para probar que la suma de n v.a.’s se distribuye χ2 con n grados
de libertad, notemos que:
Ejem. 15. Sean X1, . . . , Xm v.a.’s independientes, distribuidas Xk ∼ χ2nk . Muestre que
mX
k=1
Xk ∼ χ2(n1+···+nk).
En este caso, por definición, se sabe que para Xk la fgm está dada por
MXk(t) = E[e
tX ] =
∞Z
0
etxk
x
nk/2−1
k e
−xk/2
Γ(nk/2)2nk/2
dx =
∞Z
0
x
nk/2−1
k e
−(1−2t)xk/2
Γ(nk/2)2nk/2
dx,
pero con el cambio de variable y = (1− 2t)xk,
�
con dy = (1− 2t) dxk, t < 1/2
�
resulta
que
MXk(t) = E[e
tX ] =
∞Z
0
x
nk/2−1
k e
−(1−2t)xk/2
Γ(nk/2)2nk/2
dx =
1
(1− 2t)nk/2
��
��
��
��
��*
1
∞Z
0
ynk/2−1e−y
Γ(nk/2)2nk/2
dy
de modo que, si Xk
iid∼ χ2nk entonces
M mP
k=1
Xk
(t) =
mY
k=1
MXk(t) =
mY
k=1
1
(1− 2t)nk/2 =
1
(1− 2t)
1
2
mP
k=1
nk
y por unicidad de la transformada inversa, se concluye que
mX
k=1
Xk ∼ χ2(n1+···+nk)
De modo que, del ejemplo 9, si X ∼ N(0, 1) entonces X2 ∼ χ21 y del ejemplo previo la suma
de n v.a.’s χ2nk se distribuye χ
2
(n1+···+nk). Por lo tanto, la suma de n v.a.’s χ
2
1 se distribuye
χ2n.
91 3
Ejem. 16. Aterrizando el uso de la densidad χ2 para la varianza muestral, notemos que
si X1, . . . , Xn son v.a.’s i.i.d. N(µ,σ
2), entonces
n− 1
σ2
s2 ∼ χ2n−1.
Por definición de varianza muestral, se sabe que
s2 =
1
n− 1
nX
k=1
(xk − x̄)2 o bien (n− 1)s2 =
nX
k=1
(xk − x̄)2,
entonces, sumando y restando µ resulta
(n− 1)s2 =
nX
k=1
(xk − µ+ µ− x̄)2 =
nX
k=1
(xk − µ)2 − n(x̄− µ)2,
es decir,
nX
k=1
(xk − µ)2 = (n− 1)s2 + n(x̄− µ)2 o bien
nX
k=1
�
xk − µ
σ
�2
=
n− 1
σ2
s2 +
�
x̄− µ
σ2/n
�2
.
Pero, si X1, . . . , Xn
iid∼ N(µ,σ2), entonces xk − µ
σ
iid∼ N(0, 1) y X̄ ∼ N(µ,σ2/n),
de modo que
x̄− µ
σ/
√
n
∼ N(0, 1) y aśı, del ejemplo 10 y del ejercicio 9 se tiene que
nX
k=1
�
xk − µ
σ
�2
∼ χ2n y
nX
k=1
�
x̄− µ
σ/
√
n
�2
∼ χ21, concluyéndose que
n− 1
σ2
s2 ∼ χ2n−1.
De igual forma, otro modelo destacado en el caso de muestras de v.a.’s de una población
Gaussiana es distribución F definida como:
Def. 17. (Distribución F de Fisher–Snedecor) La v.a. X se distribuye F de Fisher–Snedecor
con parámetros n,m > 0 si
fX(x) =
Γ((n+m)/2)
Γ(n/2)Γ(m/2)
� n
m
�n/2
xn/2−1
�
1 +
n
m
x
�−(n+m)/2
Ix∈IR+
y usualmente se escribe X ∼ F (n,m).
La importancia de la familia de distribuciones F se puede observar en el siguiente
ejemplo.
Ejem. 17. Si X ∼ χ2n y Y ∼ χ2m, con X ⊥ Y , entonces
X/n
Y/m
∼ F (n,m)
92 3
Por convolución, con el cambio de variables (X,Y ) por
�
X/n
Y/m
, Y
�
, se tiene que
|J | = nmY y
fZ(z) =
∞Z
0
n
m
Y fX
� n
m
yz
�
fY (y) dy
=
∞Z
0
n
m
y
( nmyz)
n/2−1 exp(− n2myz)
Γ(n/2)2n/2
"
ym/2−1 exp(−y/2)
Γ(m/2)2m/2
#
dy
y reagrupando,
fZ(z) =
�
n
m
�n/2
zn/2−1
Γ(n/2)Γ(m/2)2(n+m)/2
∞Z
0
y(n+m)/2−1 exp
h
−
�
1 +
n
m
z
� y
2
i
dy
=
Γ
�
n+m
2
� �
n
m
�n/2
zn/2−1
Γ(n/2)Γ(m/2)
�
1 + nmz
�n+m
2
���
���
���
���
���
���
���
���
�:1
∞Z
0
�
1 + nmz
2
�n+m
2
y
n+m
2
−1 exp
�
−
�
1 + nmz
2
�
y
�
Γ((n+m)/2)
dy
Contextualizando, supongamos que se tienen dos muestras {Xk}nk=1, {Yk}mk=1 de una
población normal y se busca evidencia de igualdad de varianzas, es decir, si hay evidencia de
que la suma de cuadrados de las Xk y las Yk son iguales. . . o de forma equivalente, si
�
nP
k=1
X2k
�
/n
�
mP
k=1
Y 2k
�
/m
≈ 1
y en este caso, la distribución F de Fisher-Snedecor es una buena herramienta.
Por otro lado, la familia de densidades t−Student también es uno de los modelos relevantes
analizando muestras de distribución normal. En particular,
Def. 18. (Distribución t−Student) La v.a. X se distribuye t−Student con n > 0 grados de
libertad si
fX(x) =
Γ((n+ 1)/2)√
nπ Γ(n/2)
�
1 +
x2
n
�−(n+1)/2
, x ∈ IR
y usualmente se escribe X ∼ t(n) o X ∼ tn.
Ejem. 18. Si X ∼ N(0, 1) y Y ∼ χ2n son independientes, entonces
Xp
Y/n
∼ tn.
93 3
Por convolución, con el cambio de variables (X,Y ) por
�
X√
Y/n
, Y
�
, se tiene que
|J | =
p
Y/n y
fZ(z) =
∞Z
0
p
y/n fX
�
z
p
y/n
�
fY (y) dy
=
∞Z
0
p
y/n
exp
�
−z2y/(2n)
�
√
2π
"
yn/2−1 exp(−y/2)
Γ(n/2)2n/2
#
dy
y reagrupando,
fZ(z) =
1√
nπ Γ(n/2)2(n+1)/2
∞Z
0
y(n+1)/2−1 exp
"
−
 
1 + z
2
n
2
!
y
#
dy
=
Γ
�
n+1
2
� �
1 + z
2
n
�−n+1
2
√
nπ Γ
�
n
2
�
���
���
���
���
���
���
���
���:1
∞Z
0
 
1 + z
2
n
2
!n+1
2
y
n+1
2
−1 exp
"
−
 
1 + z
2
n
2
!
y
#
Γ((n+ 1)/2)
dy
Modos de convergencia
Al igual que los conceptos de convergencia revisados en el apartado de esperanza matemática
(página ??), en donde por ejemplo una sucesión de v.a.’s Xn : n ∈ IN converge a X en:
a.– media si ĺım
n→∞
E|Xn −X| = 0 y se escribe Xn L
1
→ X),
b.– media cuadrática si ĺım
n→∞
E|Xn −X|2 = 0 y se escribe como Xn L
2
→ X y además,
c.– distribución sii ϕXn(t) → ϕX(t) y se escribe como Xn
d→ X,
en la literatura sobresalen otros modos de convergencia, bajo el contexto de muestras de
v.a.’s, tales como:
Ley débil de grandes números
Para X1, . . . , Xn v.a.’s i.i.d., si EXk = µ y V ar(Xk) = σ
2 existen para k = 1, . . . , n, entonces
X̄n =
1
n
nX
k=1Xk converge a µ cuando n → ∞.
Demostración. Se puede ver que si X̄n → µ cuando n → ∞, en forma equivalente se debe
tener que
ĺım
n→∞
P (|X̄n − µ| ≤ ξ) = 1.
94 3
Aśı, por la deigualdad de Chebyshev (??), se tiene que para X con EX = µ y V ar(X) = σ2,
P (|X̄n − µ| ≥ ασ) ≤
1
α2
⇐⇒ P (|X̄n − µ| ≤ α) ≥ 1−
σ2
α2
y dado que EX̄n = µ y V ar(X̄n) =
σ2
n
, por la deigualdad de Chebyshev resulta que
P (|X̄n − µ| ≤ ξ) = 1−
σ2/n
ξ2
∴ ĺım
n→∞
P (|X̄n − µ| ≤ ξ) = 1.
■
Ejem. 19. Considere el caso en el que los datos del experimento bajo estudio se
distribuyen normal con media desconocida y varianza σ2 = 5. Cuál debe ser el tamaño
de muestra que se debe recoger para evidenciar que X̄n se encuentre a una distancia de
dos unidades con una probabilidad de por lo menos 0.9
Dado que se busca una distancia de dos unidades, se debe tener que ξ = 10−2 y por
tal, se busca un valor n tal que
P (|X̄n − µ| ≤ ξ) = 1−
σ2/n
ξ2
⇐⇒ 0.9 = 1− σ
2/n
ξ2
= 1− 5/n
(10−2)2
o bien n =
5
0.1(10−4)
= 5× 105
Estad́ısticos de orden
Def. 19 (Estad́ısticos de Orden). Sea X1, . . . , Xn una m.a. observadas en un punto
muestral arbitrario ω de modo tal que, se defina una colección de m.a.’s de números reales
X1(ω), . . . , Xn(ω). A las v.a.’s ordenadas en forma creciente
X[1] = mı́n{X1, . . . , Xn} ≤ X[2] ≤ · · · ≤ X[n−1] ≤ X[n] = máx{X1, . . . , Xn}
se les conoce como estad́ısticos de orden (X[k] es el k−ésimo estad́ıstico de orden).
Proposición 9. Para n ≥ 1 se tiene que
1. fX[1](x) = nfX(x)[1− F (x)]n−1
2. fX[n](x) = nfX(x)[F (x)]
n−1
95 3
Demostración. Para el 1er estad́ıstico de orden se tiene que
FX[1](x) = P (X[1] ≤ x)
= P (mı́n{X1, . . . , Xn} ≤ x)
= 1− P (mı́n{X1, . . . , Xn} > x)
= 1− P (X1 > x, . . . , Xn > x)
= 1− P (X1 > x) . . . P (Xn > x)
= 1− [1− FX(x)]n
y por tanto, diferenciando se tiene que fX[1](x) = nfX(x)[1− F (x)]n−1.
De forma similar,
FX[n](x) = P (X[n] ≤ x)
= P (máx{X1, . . . , Xn} ≤ x)
= P (X1 ≤ x, . . . ,Xn ≤ x)
= P (X1 ≤ x) . . . P (Xn ≤ x)
= [FX(x)]
n
y por tanto, diferenciando se tiene que fX[n](x) = nfX(x)[F (x)]
n−1. ■
Ejem. 20. Obtenga fX[1](x) y fX[n](x) para una muestra de tamaño n = 15, de una
población exponencial con parámetro λ = 3.
En este caso, por definición de distribución exponencial, se tiene que
fX(x) = λe
−λx = 3e−3x, FX(x) = 1− e−λx = 1− e−3x
y por tanto,
fX[1](x) = nfX(x)[1− FX(x)]n−1
fX[1](x) = 15(3e
−3x)[1− (1− e−3x)]15−1
= 45e−45x
fX[n](x) = nfX(x)[FX(x)]
n−1
fX[15](x) = 15
�
3e−3x
�
[1− e−3x]15−1
= 45e−3x[1− e−3x]14
Por otro lado, para una muestra arbitraria {Xk}nk=1, para cada k se puede definir la v.a.
Yk = I(−∞,x](Xk) =
�
1 si Xk ≤ x
0 si Xk > x
en donde las Yk resultantes serán una colección de v.a.’s i.i.d. Bernoulli, tales que la suma
Y1+· · ·+Yn corresponde al número de v.a.’s Xk que satisfacen la condición Xk ≤ x. Entonces,
se debe tener que la suma Y1 + · · ·+ Yn ∼ bin(n, p), para p = FX(x) y aśı,
FX[k](x) = P (X[k] ≤ x)
= P (Y1 + · · ·+ Yn ≥ k)
=
nX
j=k
�
n
j
�
[FX(x)]
j [1− FX(x)]n−j .
96 3
y aśı, diferenciando respecto a x se obtiene
fX[k](x) =
nX
j=k
�
n
j
��
jfX(x)[FX(x)]
j−1[1− FX(x)]n−j − (n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1
�
= k
�
n
k
�
fX(x)[FX(x)]
k−1[1− FX(x)]n−k +
nX
j=k+1
�
n
j
�
jfX(x)[FX(x)]
j−1[1− FX(x)]n−j+
−
nX
j=k
�
n
j
�
(n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1
pero cambiando j − 1 por m se puede ver que
nX
j=k+1
�
n
j
�
jfX(x)[FX(x)]
j−1[1−FX(x)]n−j =
nX
m=k
�
n
m+ 1
�
(m+1)fX(x)[FX(x)]
m[1−FX(x)]n−m−1
y dado que
�
n
m+ 1
�
(m+ 1) =
n!
(n−m− 1)!(m+ 1)(m+ 1) =
n!
(n−m− 1)!m! =
�
n
m
�
(n−m)
resulta finalmente que fX[k](x) = k
�
n
k
�
fX(x)[FX(x)]
k−1[1− FX(x)]n−k.
Ejem. 21. Obtenga fX[k](x) para k = 8, con una muestra de tamaño n = 15, tomada
de una población exponencial de parámetro λ = 3.
En este caso,
fX[15](x) = 8
�
15
8
� �
3e−3x
� �
1− e−3x
�8−1 �
1− (1− e−3x)
�15−8
= 154440 e−24x
�
1− e−3x
�7
Finalmente, esta unidad temática concluye con el concepto de función de distribución
emṕırica, que se describe como: Para una v.a. X, la fda se define como FX(x) = P (X ≤ x);
aśı, a partir de una m.a., se pude estimar la fda mediante
Gn(x) =
1
n
nX
k=1
IXk≤x(x),
conocida como distribución emṕırica de probabilidades y es una estimación de muestral de
distribución poblacional FX(x).
Simulación en R e ilustración de algunos resultados
En este apartado, se revisará mediante estudios de simulación la veracidad de todas las
afirmaciones que se han revisado hasta esta sección, y a manera de ejemplo se revisan algunos
casos.
97 3
Ley débil de grandes números: En este caso, se demostró que para una muestra
X1, . . . , Xn de v.a.’s i.i.d. con media EXk = µ y varianza σ
2, el promedio muestral
converge a la media poblacional; es decir, X̄ → µ si n → ∞.
Por tanto, basta con establecer una secuencia de muestras aleatorias de una misma
población, con distintos tamaños de muestra y verificar cómo se comporta la diferencia
d = X̄−µ. Una representación gráfica de ésta diferencia debe seguir un comportamiento
decreciente (tal vez oscilando alrededor del eje horizontal) pero que se debe estabilizar
para valores grandes de n.
Si X1, . . . , Xn ∼ N(µ,σ2) entonce
nX
k=1
X2k ∼ χ2n−1.
En este caso, se deben generar muestras de tamaño n de la familia Gaussiana con
media µ y varianza σ2, para verificar si efectivamente la distribución de las sumas se
distribuyen χ2 con n− 1 grados de libertad.
Para una muestra de tamaño n = 15 de una v.a.distribuida FX(x) = 1 − e−3x, el
estad́ıstico de orden X[1] sigue un modelo de probabilidad
fX[1](x) = 45 e
−45x
En este caso, es necesario generar m muestras de una familia exponencial, de tamaño
n = 15 y de ellas, seleccionar el octavo punto muestral de la muestra ordenada, para
verificar si la densidad fX[1](x) se ajusta a la densidad emṕırica de los X[1].
98 3
———————————————————————————————————
Ejercicios
1.– Sea (X,Y ) un vec.al. con función masa de probabilidad conjunta
fX,Y (x, y) =



1/24 si (x, y) ∈ {(−2,−2), (−2, 2), (2,−2), (2, 2)}
1/12 si (x, y) ∈ {(−1,−1), (−1, 1), (1,−1), (1, 1)}
1/2 si (x, y) = (0, 0)
0 en otro caso
(i) ¿Es una densidad de probabilidad?
(ii) Obtenga sus funciones masa de probabilidad marginales.
(iii) Obtenga su función de distribución conjunta.
2.– Para
FX,Y (x, y) =



(1− e−x)(1− e−y) si x, y > 0
0 en otro caso
(i) Verifique si se trata de una función distribución de probabilidad.
(ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10.
(iii) Calcule su función de densidad conjunta fX,Y (x, y) y sus marginales.
(iv) Obtenga EX, EXY y Cov(x, y).
(v) ¿X y Y son independientes?
3.– Para
fX,Y (x, y) =
�
6xy2 si 0 < x, y < 1
0 en otro caso
(i) Verifique si se trata de una función densidad de probabilidad.
(ii) Obtenga una representación gráfica de f en el rango −1 < x, y < 2.
(iii) Calcule sus funciones de densidad marginales.
(iv) Calcule su función de distribución conjunta FX,Y (x, y).
(v) Obtenga EX, EXY y Cov(x, y).
(vi) ¿Son X,Y independientes?.
4.– Muestre que:
(a) V ar(X|Y ) = EX2 − E(E2(X|Y )) (b) V ar(X|Y ) = E(X − E(X|Y ))2
5.– Sea X discreta distribuida uniforme en {−2,−1, 1, 2} y sea Y = X2.
i.– Construya la masa de probabilidad conjunta de (X,Y ) y verifique si X y Y son
independientes.
99 3
ii.– Calcule ρX,Y
6.– Verifique si:
i.– para una constante arbitraria c se tiene que ρ(cX, Y ) = cρ(X,Y )
ii.– ρ(X1 +X2, Y ) = ρ(X1, Y ) + ρ(X2, Y )
iii.– para Y = aX + b, con a ̸= 0 se tiene que ρ(X,Y ) = a|a|
7.– Para fX,Y (x, y) = e
−y, con 0 < x < y . Calcule Σ(X,Y ) y ρ(X,Y ).
8.– Sean X,Y i.i.d. Verifique si ρ(X + Y,X − Y ) = 0
9.– Para la densidad conjunta fX,Y (x, y) = abe
−(x+y), x, y > 0, calcule la función generadora
de momentos bivariada MX,Y (s1, s2).
10.– Para X ∼ N(µ,σ2), obtenga la densidad de probabilidad de la v.a. Y = eX .
11.– Para X ∼ Γ(n,β), obtenga la densidad de probabilidad de la v.a. Y = ln(X).
12.– Obtenga la densidad de X +Y para
(X,Y ) ∼ fX,Y (x, y) =
3(x2 + y2)
16
I(0<x<y<2)(x, y).
13.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de XY está dada por
fXY =
Z
IR
fX,Y (u/v, v)|1/v|dv
14.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de X − Y está dada por
fX−Y (u) =
Z
IR
fX,Y (u+ v, v)dv
15.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de X/Y está dada por
fX/Y (u) =
Z
IR
fX,Y (uv, v)|v|dv
16.– Sean X,Y v.a. i.i.d. normal estándar (µ = 0,σ2 = 1); muestre que la densidad de X/Y
está dada por
fX/Y (u) =
1
π(1 + u2)
, u ∈ IR densidad de Cauchy.
17.– Sea X1, . . . , Xn una m.a. de la distribución N(µ,σ
2). Muestre que los estad́ısticos X̄ y
S2 son independientes.
100 3
18.– Si X ∼ t(n), entonces X2 ∼ F (1, n).
19.– Si X,Y son independientes y distribuidas χ2, tales que X ∼ χ2n y X + Y ∼ χ2n+m.
Entonces Y ∼ χ2m.
20.– Sean X1, . . . , Xn
iid∼ N(µ,σ2), muestre que
nX
k=1
(Xk − µ)2
σ2
∼ χ2n.
21.– Si X1, . . . , Xn es una m.a. de una familia N(µ,σ
2), entonces
X̄ − µ
S/
√
n
∼ tn−1.
22.– Para una m.a. X1, . . . , Xn, el rango se define como la diferencia entre el máximo y el
mı́nimo. Obtenga la densidad de probabilidad del rango para una colección de m.a.’s
i.i.d. exponencial(3) con n = 15.
Bibliograf́ıa
[1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369-
7, pp 654.
[2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd
Edition, Springer-Verlag.
[3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw-
Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México.
[4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury
Thomson Learning. ISBN 0-534-24312-6.
[5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I,
John Wiley & Sons, Inc., New York · London · Sydney.
[6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical
statistics. Upper Saddle River, N.J: Pearson Education.
[7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Differential Forms,
second edition, Prentice Hall.
[8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc.,
Caṕıtulo 9.
[9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing
Company, English translation which appeared in Russian, 1936. Para los interesados,
está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/
kolmogorov_foundations.pdf
[10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar,
España.
[11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic
Processes, McGraw−Hill, Inc.
[12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp.
984.
[13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585.
101