Logo Studenta

TESTADISTICA3 - ANETTE RACHEL PINACHO MATIAS

¡Este material tiene más páginas!

Vista previa del material en texto

Teoŕıa Estad́ıstica
Notas del curso (en proceso)
Licenciatura en Matemáticas
Depto. de Matemáticas
Cs. Básicas, CUCEI.
Rubén Sánchez Gómez
Vectores aleatorios
De forma análoga a los conceptos revisados en el caso univariado, dado el espacio de
probabilidad (Ω,A, P ), un vector aleatorio es una función X : Ω −→ IRn tal que, la pre-
imagen X−1B de cualquier B ∈ B(IRn), n > 1 (espacio Euclideano), es un elemento de la
σ−álgebra A. En donde X representa el arreglo ordenado (X1, . . . , Xn) y cada coordenada
Xi de X es una v.a.
Def. 13 (Vector Aleatorio). Sea X ≡ (X1, . . . , Xn) tal que X : Ω −→ IRn es B-A-medible,
entonces a X se le conoce como vector aleatorio ({vec.al.} para abreviar y diferenciarlo de
variable aleatoria {v.a.}), y en consecuencia la función de distribución conjunta de X está
dada por
FX(x) = P
�
X ≤ x
�
≡ FX1,...,Xn(x1, . . . , xn) = P
 
n\
i=1
[Xi ≤ xi]
!
.
en donde x ≤ y denota que xi ≤ yi para i = 1, 2,≤, n y además, la región definida por (x,y]
representa el rectángulo base, dado por (x1, y1]× · · · × (xn, yn] siempre que x ≤ y.
Proposición 8 (Medibilidad). Para X : Ω −→ IRn,
X es B(IRn)-A-medible si y solo si, cada Xi (i− ésima coordenada) es B(IR)-A-medible
Dos comentarios antes de buscar demostrar el resultado: (i) el hecho de ser medible, por
definición implica que su pre-imagen bajo X es elemento del σ−álgebra sobre el cual está
definido y en forma equivalente, (ii) si su pre-imagen es elemento del σ−álgebra, entonces
será una v.a..
Def. 14 (Vector aleatorio discreto/continuo). Se dice que un vec.al. es (X1, . . . , Xn) es
discreto si cada una de sus coordenadas es una v.a. contable o finito contable y en caso
contrario, será continuo.
Distribución de probabilidad de un vec.al.
De forma análoga, cada vector aleatorio induce una medida de probabilidad P : IRn −→ [0, 1]
y es tal que,
FX(x) = FX
�
x1, . . . , xn
�
= P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X ≤ x)
71
72 3
Dicha medida e conoce como función de distribución conjunta del vec.al. X y satisface: (i) ser
continua por la “derecha”, (ii) ser monótona no decreciente, FX(∞, . . . ,∞) = 1 y además,
para i = 1, . . . , n se tiene que
FX(x1, . . . , xi−1,−∞, xi+1, . . . , xn) = 0
y
FX(x1, . . . , xi−1,∞, xi+1, . . . , xn) = FX(x1, . . . , xi−1, xi+1, . . . , xn),
de donde se concluye que
FX1(x1) = FX(x1,∞, . . . ,∞), · · · , FXn(xn) = FX(∞, . . . ,∞, xn)
son las distribuciones marginales de las v.a.’s coordenadas Xi y además, para un vector
aleatorio continuo x ∈ IRn,
FX(x) = FX
�
x1, . . . , xn
�
=
x1Z
−∞
· · ·
xnZ
−∞
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
dx1 · · · dxn
y en cualquier región rectangular R ⊆ IRn se tiene que
P (u ≤ R ≤ v) =
v1Z
u1
· · ·
vnZ
un
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
dx1 · · · dxn
Más aún, se tiene que la densidad conjunta fX
�
x1, . . . , xn
�
= P (X1 = x1, . . . , Xn = xn)
satisface la no negatividad, fX
�
x1, . . . , xn
�
≥ 0, para todo (x1, . . . , xn) ∈ IRn y
∞Z
−∞
· · ·
∞Z
−∞
fX(x1, . . . , xn)dx1 · · · dxn = 1.
En donde, de igual modo, densidad y distribución están asociadas con
FX
�
x1, . . . , xn
�
=
x1Z
−∞
· · ·
xnZ
−∞
fX
�
x1, . . . , xn
�
dx1 · · · dxn y fX
�
x1, . . . , xn
�
=
∂nFX
�
x1, . . . , xn
�
∂x1 · · · ∂xn
,
mientras que en el caso discreto se tiene que
a) fX(x1, . . . , xn) ≥ 0 c) FX(x1, . . . , xn) =
X
u1≤x1
· · ·
X
un≤xn
fX(u1, . . . , un)
b)
X
x1
· · ·
X
xn
fX(x1, . . . , xn) = 1 d) fX1(x1) =
X
x2
· · ·
X
xn
fX(x1, . . . , xn)
Ejem. 5. A manera de ejemplo, sea f(x, y) una masa de probabilidad uniforme conjunta
para x, y = 1, 2. Entonces, una forma de representar a f(x, y) puede ser mediante un
73 3
arreglo tabular (i) de la densidad conjunta f(x, y); con un arreglo tabular (ii) de las
densidades conjunta f(x, y) y marginales f(x), f(y) o bien mediante una representación
gráfica (iii).
(i) x
1 2
y 1 14
1
4
2 14
1
4
(ii) x
1 2 fY (y)
y 1 14
1
4
1
2
2 14
1
4
1
2
fX(x)
1
2
1
2 1
(iii)
Densidad uniforme conjunta f(x, y) = 14 , x, y = 1, 2.
Además, su función de distribución (acumu-
lada) se puede obtener a partir de la expre-
sión (ii) (tabla con marginales) en donde se
puede observar que toda la región se puede
subdividir en nueve subregiones.
x < 1 1 ≤ x < 2 x ≥ 2
y < 1 0 0 0
1 ≤ y < 2 0 1/4 1/2
2 ≤ y 0 1/2 1
y una representación gráfica de la distribución de probabilidad (acumulada) tiene la
forma
74 3
Ejem. 6. (Ejemplo de Casella – Berger, 2002) Revisando un segundo ejemplo, se
puede considerar un experimento en el que se lanzan dos dados “justos” (un ambiente
imaginario) con espacio muestral de 36 resultados igualmente probables y sobre él, definir
las v.a.’s X como la suma de los puntos de sus caras resultantes y Y como la distancia
entre los puntos de sus caras, es decir, si d1 es el número de puntos de la cara del dado
1 y d2 del dado 2, entonces
X = d1 + d2, y Y = |d1 − d2|
de modo que X = 2, . . . , 12, Y = 0, . . . , 5 y su función masa de probabilidad queda
definida por
X
2 3 4 5 6 7 8 9 10 11 12 fY (y)
0 136
1
36
1
36
1
36
1
36
1
36
1
6
1 118
1
18
1
18
1
18
1
18
5
18
2 118
1
18
1
18
1
18
2
9
Y 3 118
1
18
1
18
1
6
4 118
1
18
1
9
5 118
1
18
fX(x)
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36 1
En tanto que, su distribución de probabilidad (acumulada) tiene la forma
x
<
2
2
≤
x
<
3
3
≤
x
<
4
4
≤
x
<
5
5
≤
x
<
6
6
≤
x
<
7
7
≤
x
<
8
8
≤
x
<
9
9
≤
x
<
10
10
≤
x
<
11
11
≤
x
<
12
12
≤
x
y < 0 0 0 0 0 0 0 0 0 0 0 0 0
0 ≤ y < 1 0 136 136 118 118 112 112 19 19 536 536 16
1 ≤ y < 2 0 136 112 19 16 736 14 518 13 1336 512 49
2 ≤ y < 3 0 136 112 16 29 1136 1336 49 12 712 2336 23
3 ≤ y < 4 0 136 112 16 518 1336 1736 59 23 34 2936 56
4 ≤ y < 5 0 136 112 16 518 512 1936 23 79 3136 1112 1718
5 ≤ y 0 136 112 16 518 512 712 1318 56 1112 3536 1
75 3
Ejem. 7. Para
fX,Y (x, y) =



e−y si 0 < x < y < ∞
0 en otro caso
(i) Verifique si se trata de una función densidad de probabilidad.
Resp. En este caso se puede ver que
∞Z
0
∞Z
x
e−ydydx =
∞Z
0
�
− e−y
���
y =∞
y = x
dy =
∞Z
0
e−xdx =
�
− e−x
���
∞
0
= 1,
por lo que, f(x, y) es una densidad conjunta de probabilidad.
(ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10.
Resp. Dado que
FX,Y (x, y) =
xZ
0
yZ
x
e−ydydx =
xZ
0
�
− e−y
���
y = y
y = x
dx =
xZ
0
�
− e−y + e−x
�
dx
=
h
− xe−y − e−x
ix=x
x=0
,
y aśı, FX,Y (x, y) = 1 − e−x − xe−y, 0 < x < y < ∞, cuya representación gráfica
tiene la forma
(iii) Calcule las funciones de densidad marginal fX(x) y fY (y).
76 3
Resp. De la densidad conjunta se obtiene directamente que
fX(x) =
Z
IR
fX,Y (x, y)dy =
∞Z
x
e−ydy =
�
− e−y
���
∞
x
= e−x, para x > 0.
fY (y) =
Z
IR
fX,Y (x, y)dx =
yZ
0
e−ydx =
�
xe−y
���
x=y
x=0
= ye−y, para y > 0.
(iv) Obtenga EX, EXY y Cov(x, y).
Resp. Por definición resulta que
EX =
∞Z
0
xe−xdx =
�
− (x+ 1)e−x
���
x→∞
x=0
= 1,
EXY =
∞Z
0
∞Z
x
xye−ydydx =
∞Z
0
�
− x(y + 1)e−y
���
y →∞
y=x
dx
=
∞Z
0
x(x+ 1)e−xdx =
�
− (x2 + 3x+ 3)e−x
���
x→∞
x=0
= 3
y para obtener Cov(X,Y ) primero se calcula EY mediante
EY =
∞Z
0
y(ye−y)dy =
�
− (y2 + 2y + 2)e−y
���
x→∞
x=0
= 2
Cov(X,Y ) = E(X − EX)(Y − EY ) = E(X − 1)(Y − 2)
= E(XY − 2X − Y + 2) = EXY − 2EX − EY + 2 = 1.
(v) ¿X y Y son independientes?
Resp. ¡No! Ya que para que X,Y sean independientes, se debe tener que
fX,Y (x, y) = fX(x)fY (y), pero
e−y = fX,Y (x, y) ̸= fX(x)fY (y) = ye−(x+y),
o bien, con funciones de distribución conjunta, se tiene que FX,Y (x, y) =
FX(x)FY (y), pero
1− e−x − xe−y = FX,Y (x, y) ̸= FX(x)FY (y) = (1− e−x)(1− (y + 1)e−y).
De esta forma, se podŕıa diferenciar entre vectores aleatorios de soporte discreto cuando sus
77 3
coordenadas son v.a. finito o infinito contables (ejemplos 5 y 6) y en caso contrario, se tendŕıan
vectores aleatorios de soporte continuo (ejemplo 7).
Distribuciones condicionales
Retomando el concepto de probabilidadcondicional, de la definición (??), para un vector
(X1, . . . , Xn) se puede tener el caso en que se busca la probabilidad de que ocurra el evento
(X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn) dado que la v.a. Xj tiene el valor xj ,
con
f
��
Xi = xi
�nn
i=1
i̸=j
o��Xj = xj
�
=
f(X1 = x1, . . . , Xn = xn)
f(Xj = xj)
;
Por otro lado, para obtener la medida de probabilidad del evento (X1 = x1, . . . , Xj = xj)
dado que, las variables Xj+1, Xj+2, . . . , Xn toman los valores xj+1, xj+2, . . . , xn se obtiene
mediante
f
�
(X1 = x1, . . . , Xj = xj)
���(Xj+1 = xj+1, . . . , Xn = xn)
�
=
f(X1 = x1, . . . , Xn = xn)
f(Xj+1 = xj+1, . . . , Xx = xn)
,
o bien, probabilidad de que ocurra Xj = xj dado que las v.a.’s (X1, . . . , Xj−1, Xj+1, . . . , Xn)
tomaron los valores (x1, . . . , xj−1, xj+1, . . . , xn) con
f
�
Xj = xj
���
�
Xi = xi
�nn
i=1
i̸=j
o
�
=
f(X1 = x1, . . . , Xn = xn)
f(X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn)
.
Ejem. 8. Para fX,Y (x, y) =
3(x2 + y2)
16
I0<x<y<2(x, y),
(i) Compruebe que se trata de una función de densidad de probabilidad.
Resp. Śımplemente se debe comprobar si integra a uno, es decir, se debe tener
que
2Z
0
2Z
x
3(x2 + y2)
16
dydx =
2Z
0
�y3 + 3x2y
16
����
y=2
y=x
dx =
2Z
0
�−2x3 + 3x2 + 4
8
�
dx
=
�−x4 + 2x3 + 8x
16
����
x=2
x=0
= 1.
y dado que fX,Y (x, y) ≥ 0 para toda 0 < x < y < 2, se concluye que fX,Y (x, y) es
una densidad de probabilidad.
(ii) Obtenga una representación gráfica de fX,Y (x, y) en el rango −1 < x, y < 3.
Resp.
78 3
Representación gráfica de fX,Y (x, y) en −1 < x, y < 3.
(iii) Escriba su función de distribución conjunta FX,Y (x, y).
Resp. En este caso, se puede ver que en la región 0 < x < y < 2
F (x, y) =
xZ
0
yZ
x
3(x2 + y2)
16
dydx =
xZ
0
hy3 + 3x2y
16
����
y=y
y=x
dx =
xZ
0
y3 + 3x2y − 4x3
16
dx
=
hxy3 + x3y − x4
16
����
x=x
x=0
=
xy3 + x3y − x4
16
.
Comprobando el resultado, se puede ver que FX,Y (2, 2) = 1 y que sus marginales
seŕıan
FX,Y (x, 2) = FX(x) =
8x+ 2x3 − x4
16
y FX,Y (2, y) = FY (y) =
2y3 + 8y − 16
16
,
que también satisfacen FX(2) = 1 y FY (2) = 1.
Finalmente se tiene que
FX,Y (x, y) =



0 si x < 0 ó y < 0
xy3 + x3y − x4
16
si 0 < x < y < 2
2y3 + 8y − 16
16
si x ≥ 2 y 0 ≤ y < 2
8x+ 2x3 − x4
16
si 0 ≤ x < 2 y y ≥ 2
1 si x ≥ 2 y y ≥ 2
(iv) Calcule sus funciones de densidad marginales.
79 3
Resp. Por definición, se pueden diferenciar las distribuciones y en este caso, por
el inciso previo se tiene que
fX(x) =
d
dx
�
8x+ 2x3 − x4
16
�
=
4 + 3x2 − 2x3
8
, para 0 < x < 2,
fY (y) =
d
dy
�
2y3 + 8y − 16
16
�
=
3y2 + 4
8
, para 0 < y < 2,
e integrando (para verificar que realmente es una densidad de probabilidad se tiene
que
Z
IR
fX(x)dx =
2Z
0
4 + 3x2 − 2x3
8
dx =
1
8
�−x4
2
+ x3 + 4x
����
2
0
= 1
pero en el caso de fY (y) se resulta que
Z
IR
fY (y)dy =
2Z
0
3y2 + 4
8
dy =
1
8
�
y3 + 4y
���
2
0
= 2 [no es densidad de prob.]
Por otro lado, calculando las marginales con la densidad conjunta se tendŕıa que
fX(x) =
Z
IR
fX,Y (x, y)dy =
Z
IR
3(x2 + y2) I0<x<y<2(x, y)
16
dy =
3
16
2Z
x
(x2 + y2)dy
por lo que, fX(x) =
3
16
�
y3
3
+ x2y
����
y=2
y=x
o bien fX(x) =
4 + 3x2 − 2x3
8
, 0 < x < 2
que coincide con la fX(x) calculada diferenciando la distribución de prob. FX(x)
y en el caso de fY (y) resulta
fY (y) =
Z
IR
fX,Y (x, y)dx =
Z
IR
3(x2 + y2) I0<x<y<2(x, y)
16
dx =
3
16
yZ
0
(x2 + y2)dx
es decir, fY (y) =
3
16
�
x3
3
+ xy2
����
x=y
x=0
o bien fY (y) =
y3
4
, 0 < y < 2 y en este caso
Z
IR
fY (y)dy =
2Z
0
y3
4
dy =
�
y4
16
����
2
0
= 1
(v) Obtenga EX, EXY y Cov(x, y).
80 3
Resp. Por definición se tiene que
EX =
2Z
0
x
�−2x3 + 3x2 + 4
8
�
dx =
�
−8x
5 − 15x4 − 40x2
160
����
2
0
=
9
10
,
EXY =
2Z
0
2Z
x
xy
3(x2 + y2)
16
dydx =
2Z
0
�
3x(x2 + y2)2
64
����
y=2
y=x
dx
=
2Z
0
−9x
5 − 24x3 − 48x
64
dx =
�
− 3x
6 − 12x4 − 48x2
128
����
2
0
=
3
2
.
Calculando EY se obtiene
EY =
2Z
0
y
�
y3
4
���� dy =
�
y5
20
����
2
0
=
8
5
,
y finalmente,
Cov(X,Y ) = E(X − EX)(Y − EY ) = E
�
X − 9
10
��
Y − 8
5
�
= E
�
XY − 8X
5
− 9Y
10
+
36
25
�
= EXY − 8
5
EX − 9
10
EY +
36
25
=
3
2
− 2
�
8
5
�
9
10
+
36
25
=
3
50
.
(vi) ¿X y Y son independientes?
Resp. ¡No! Ya que para X,Y independientes, se satisface que fX,Y (x, y) =
fX(x)fY (y), pero
3(x2 + y2)
16
= fX,Y (x, y) ̸= fX(x)fY (y) =
−2x3 + 3x2 + 4
8
�
y3
4
�
.
(vii) Calcule E(X|Y ) y V ar(X|Y ).
Resp. En este caso, por sustitución se puede ver que para un y dado resulta que
fX|Y (x|y) =
fX,Y (x, y)
fY (y)
=
3(x2 + y2)
16
y3
4
=
3(x2 + y2)
4y3
81 3
y aśı
E(X|Y ) =
yZ
0
xfX|Y (x|y)dx =
yZ
0
x
3(x2 + y2)
4y3
dx =
3
4y3
�
x4
4
+
x2y2
2
����
x=y
x=0
=
9
16
y
y como
E(X2|Y ) =
yZ
0
x2fX|Y (x|y)dx =
yZ
0
x2
3(x2 + y2)
4y3
dx =
3
4y3
�
x5
5
+
x3y2
3
����
x=y
x=0
=
2
5
y2
se obtiene que V ar(X|Y ) = E(X2|Y )−E(X|Y )2 = 2
5
y2−
�
9
16
y
�2
=
107
1280
y2 para
un y dado (0 < y < 2).
Independencia de variables aleatorias
Como se ha mencionado, si las v.a. Xi, coordenadas del vec.al. X, son independientes entre
śı, entonces
FX1,...,Xn(x1, . . . , xn) = FX1(x1)FX2(x2) · · ·FXn(xn) =
nY
k=1
FXk(xk)
y aśı, en el caso en que X = (X,Y ) ∈ IR2, por ejemplo, si X es independiente de Y se tiene
que
Cov(X,Y ) = E(X − EX)(Y − EX) =
Z
IR2
(X − EX)(Y − EX)∂
2FX,Y (x, y)
∂x∂y
dxdy
y dado que X ⊥ Y , se obtiene
Cov(X,Y ) =
Z
IR2
(X − EX)(Y − EX)∂
2FX(x)FY (y)
∂x∂y
dxdy
=
Z
IR2
(X − EX)(Y − EX)
�
dFX(x)
dx
� �
dFY (y)
dy
�
dxdy
de modo que,
Cov(X,Y ) =
Z
IR
(X − EX)dFX(x)
Z
IR
(Y − EX)dFY (y) = 0.
Por lo tanto, si X ⊥ Y entonces Cov(X,Y ) = 0, pero el rećıproco no necesariamente se
cumple y como evidencia, en el siguiente ejemplo se puede observar que las variables X y Y
no son independientes pero Cov(X,Y ) = 0.
82 3
Ejem. 9. Sean X,Y v.a.’s discretas con densidad conjunta
X
−1 0 1
−1 15 0 15
Y 0 0 15 0
1 15 0
1
5
i.– Verifique si X y Y son independientes.
Resp. Por definición, si X ⊥ Y se debe cumplir que fX,Y (x, y) = fX(x)fY (y),
∀x, y pero en este caso se tiene que fX(0) = fY (0) = 15 pero fX,Y (0, 0) = 15 ̸= 125
y ∴ X ⊥/ Y
ii.– Obtenga Cov(X,Y )
Resp. Escribiendo las densidades marginales para X y Y , se puede ver que
EX = EY =
1
5
− 1
5
= 0 y además,
EXY =
1X
x=−1
1X
y=−1
xyfX,Y (x, y) =
1
5
− 1
5
+
1
5
− 1
5
= 0,
luego, Cov(X,Y ) = 0 y ∴ si X ⊥ Y =⇒ Cov(X,Y ) = 0, pero si Cov(X,Y ) = 0
no necesariamente X ⊥ Y .
Matriz de varianza-covarianza de vectores aleatorios
En general, el concepto de esperanza matemática para una variable se puede extender al
caso de vectores aleatorios, en donde por ejemplo, para el vec.al. X = (X1, . . . , Xn), si cada
coordenada del vector tiene esperanza finita, el vector numérico
EX = (EX1, . . . , EXn)
se conoce como vector esperado de X. Además, retomando el concepto de covarianza, por
definición se tiene que
Cov(X,Y ) = E(X − EX)(Y − EY ),
proporciona una medida de asociación entre las variables X,Y y satisface
1. Cov(X,Y ) = E[XY ]− E[X]E[Y ]
2. Cov(X,Y ) = Cov(Y,X)
3. Cov(X,X) = V ar(X)
4. Cov(a, Y ) = 0
83 3
5. Cov(aX, Y ) = aCov(X,Y )
6. Cov(X1 +X2, Y ) = Cov(X1, Y ) + Cov(X2, Y )
7. si X,Y son independientes, entonces Cov(X,Y ) = 0
8. si Cov(X,Y ) = 0 no necesariamente X y Y son independientes,
para una constante arbitraria a ∈ IR. Además, si se denota a la covarianza con σij , para un
vec.al. X ∈ IRn se puede escribir el arreglo matricial (con todas las covarianzas)
X
(X,Y ) =


σ11 σ12 · · · σ1n
σ21 σ22 · · · σ2n
...
...
. . .
...
σn1 σn2 · · · σnn

 = E[(X− EX)
t(X− EX)],
que se conoce como matriz de varianzas–covarianzas del vectorX, ya que σii son las varianzas
de las coordenadas de X y es evidente que la matriz
P
es simétrica.
Por otro lado, el cociente
ρij =
σij√
σii
√
σjj
se conocecomo el coeficiente de correlación, de las coordenadas Xi, Xj y de forma análoga,
se puede definir la matriz de correlación mediante
ρX,Y =


ρ11 ρ12 · · · ρ1n
ρ21 ρ22 · · · ρ2n
...
...
. . .
...
ρn1 ρn2 · · · ρnn


en donde −1 ≤ ρij ≤ 1 ∀i, j. Para verificar ésta afirmación, notemos que
Demostración. Si se define X =
Xi − EXi√
σii
y Y =
Xj − EXj√
σjj
entonces EX = EY = 0,
V ar(X) = V ar(Y ) = 1 (variables estandarizadas). Entonces, se tiene que
0 ≤ V ar(X + λY ) = E(X + λY )2 − E2(X + λY ) = 1 + 2λEXY + λ2
y luego, si λ = 1, 0 ≤ 1 + EXY y aśı −1 ≤ EXY .
Por otro lado, si λ = −1, se tiene que 0 ≤ 1 − EXY y entonces EXY ≤ 1; por lo que
−1 ≤ EXY ≤ 1 y retornando a las variables Xi, Xj se puede ver que
−1 ≤ EXY ≤ 1 ⇐⇒ −1 ≤ E
�
Xi − EXi√
σii
Xj − EXj√
σjj
�
≤ 1 ⇐⇒ −1 ≤ σij√
σii
√
σjj
≤ 1
y por lo tanto, −1 ≤ ρij ≤ 1. ■
Cabe señalar que tanto la covarianza como el coeficiente de correlación proporcionan una
medida de asociación entre las variables Xi, Xj y como tal, cuando no hay asociación σij = 0
84 3
ó ρij = 0 y en éste último, se dice que las variables son no correlacionadas y además, en el
caso en que ρij = ±1 se dice que la correlación es perfecta.
Función generadora de momentos de un vector
aleatorio
Retomando el concepto de la función generadora de momentos, por definición se tiene que
MX(s) = E[exp(sX)] =
Z
IR
esxfX(x)dx
en donde s ∈ lC, de modo que, extendiendo a dimensiones mayores, para una n−tupla
X = (X1, . . . , Xn) ∈ IRn
se puede declarar el vector s = (s1, . . . , sn), tal que
X · s =
nX
k=1
xksk
para definir la función generadora de momentos de un vec.al. como
MX(s) = E[exp(s ·X)] =
Z
IRn
es·xfX(x)dx1 · · · dxn
de modo que, se puede tener la posibilidad de que s = s1 = · · · = sn.
Algunas técnicas para obtener la distribución con-
junta de transformación de variables
Desde un enfoque más general, la transformación (o álgebra) de v.a.’s es un tema de gran
importancia en teoŕıa estad́ıstica, ya que es la base para determinar la función de probabilidad
de cualquier función algebraica de un conjunto de variables aleatorias. Por ejemplo, una
pregunta natural seŕıa ¿cuál es la densidad de probabilidad de una función fXk(xk), para el
vec.al. (X1, . . . , Xn), en donde cada coordenada Xk se distribuye exponencial con parámetro
λk. Aśı, en este apartado se revisan algunos métodos propuestos en la literatura.
Como se revisó en la sección ?? (página ??) si ψ : (a, b) → IR una función continua
estrictamente monótona y con inversa diferenciable, para Y = ψ(X) se tiene que
fY (y) = fX
�
ψ−1(y)
�����
d
dy
ψ−1(y)
����Iψ(a,b)(y)
85 3
o bien, extendiendo al caso a una función estrictamente decreciente se tendŕıa que
fY (y) = fX
�
ψ−1(y)
�����−
d
dy
ψ−1(y)
����Iψ(a,b)(y)
Genralizando, para un vec.al. X ∈ IRn con función de densidad fX(x) y una función
ψ(x) : I ⊆ IRn → IR continua, inversa ψ−1(U) diferenciable.
Ω
X
##
U=ψ(X) // IRn
I ⊂ IRn
ψ(I)
::
El vector U = ψ(X) toma valores en ψ(I) y tiene función de densidad
fU(u) = fX
�
ψ−1(U)
�����J(U)
���� Iψ(I)(U) (3.4)
en donde J es el determinante de la matriz (Jacobiano)
J(U) =
����
∂
∂jU
ψ−1i
���� i− ésimo renglón, j − ésima columna.
El problema de obtener la densidad exacta de sumas de variables aleatorias usualmente se
conoce como convolución de densidades y se define como la convolución de funciones. A
manera de ejemplo, el ejemplo t́ıpico de convolución de funciones corresponde a la suma de
variables aleatorias.
Ejem. 10. Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y);
muestre que la densidad de X + Y está dada por
fX+Y (u) =
Z
IR
fX,Y (u− v, v)dv
En este caso, de la ecuación 3.1 se tiene que
fU(u) = fX
�
ψ−1(U)
�����J(U)
���� Iψ(I)(U)
y como,
u = X + Y
v = Y
=⇒ X = u− v
Y = v
,
����J(U)
���� =
����
1 −1
0 1
���� = 1
se tiene que
fU,V (u, v) = fX,Y
�
u− v, v
�
Iψ(I)(U, V )
y por tanto, integrando respecto a v, la marginal de U está dada por
fX+Y (u) =
Z
IR
fX,Y (u− v, v)dv
86 3
Ejem. 11. Revisando ahora un ejemplo, supongamos que se quiere obtenga la densidad
de z =
2P
i=1
ti con ti
iid∼ f(ti;α,β) para
f(t;α,β) =
tα−1e−t/β
βαΓ(α)
para α,β, x > 0.
Resolviendo, se tiene que f(t1, t2) = f(t1)f(t2) y entonces, por convolución se debe
integrar
f(z) =
∞Z
0
f(t1)f(z − t1)dt1,
es decir
f(z) =
∞Z
0
 
tα−11 e
−t1/β
βαΓ(α)
! 
(z − t1)α−1e−(z−t1)/β
βαΓ(α)
!
dt1
y por tanto,
f(z) = z2α−2e−z/β
�
1
βαΓ(α)
�2 ∞Z
0
�
t1
z
�α−1�
1− t1
z
�α−1
dt1
pero, dado que t2 > 0, se tiene que 0 <
t1
z
< 1, luego
∞Z
0
�
t1
z
�α−1�
1− t1
z
�α−1
dt1 = z
1Z
0
uα−1(1− u)α−1du
lo que se reduce a una densidad beta, en donde
1Z
0
uα−1(1− u)α−1du = Γ(α)
2
Γ(2α)
,
por lo que
f(z) =
z2α−1e−z/β
β2αΓ(2α)
es decir, z se distribuye gamma con parámetros (2α,β).
a.– Considerando el caso en que z =
nP
i=1
ti con ti
iid∼ f(ti;α,β), ¿cómo se distribuye z?
b.– En un caso más general, ¿cómo se distribuye z =
2P
i=1
ti con ti ∼ f(ti;αi,βi) con
α1 ̸= α2 y β1 ̸= β2?
De éste ejemplo, vale la pena enfatizar que la suma de dos v.a.’s distribuidas gamma, sigue
87 3
también un modelo de probabilidad gamma.
Ejem. 12. Como se puede ver, otra opción para obtener la densidad de z =
2P
i=1
ti con
ti ∼ f(ti;αi,βi),
f(t;αi,βi) =
tαi−1e−t/βi
βαii Γ(αi)
para αi,βi, x > 0; i = 1, 2;
α1 ̸= α2 y β1 ̸= β2, es la función generadora de momentos (al igual que la función
caracteŕıstica o la generadora de probabilidad) en virtud de que, para X ⊥ Y se tiene
que MX+Y = MXMY , y en este caso
MX(s) =
Z
IR+
estf(t;α,β)dt =
Z
IR+
est
tα−1e−t/β
βαΓ(α)
dt =
Z
IR+
tα−1e−t
�
1/β−s
�
βαΓ(α)
dt
en donde puede observar el kernel de una densidad gamma, es decir,
MX(s) =
1�
1/β − s
�α
βα
���
���
���
���
���
�:1Z
IR+
�
1/β − s
�α
tα−1e−t
�
1/β−s
�
Γ(α)
dt, 1/β > s.
Distribuciones de funciones de muestras aleatorias:
en especial del modelo normal
Partiendo del objeto de estudio, una muestra aleatoria (m.a.) o simplemente muestra es una
colección de v.a.’s X1, . . . , Xn
iid∼ fX(x), en donde n se conoce como el tamaño de la muestra.
En general, es evidente que una muestra provee información de cualquier experimento
aleatorio y por ello, es de suma importancia disponer de una muestra “adecuada”. Usualmente
se busca obtener información de una población a partir de la muestra y los parámetros más
comunes son el promedio y la varianza.
Def. 15. Para una muestra de tamaño n, X1, . . . , Xn, la media y varianza muestrales se
definen como
X̄ =
1
n
nX
k=1
Xk y S
2 =
1
n− 1
nX
k=1
(Xk − X̄)2
respectivamente.
En la práctica, quien investiga conjuntos de datos (ya sean numéricos o no) se plantea
diferentes preguntas sobre una población, entre las cuales pueden ser el promedio o la varianza,
sin embargo no son los únicos. Por ejemplo, se puede tener interés en el valor máximo para
saber si una presa se desbordará en algún momento, o bien en el valor que más se repite
(la moda) para conocer la lectura más común en la población. El asunto es que, cualquier
información sobre la población se tendrá que obtener a partir de una muestra.
88 3
Def. 16. (Estad́ıstico) Para una m.a. X1, . . . , Xn, un estad́ıstico es cualquier v.a. (función
de la muestra) θ(X1, . . . , Xn).
En el caṕıtulo anterior se demostró que cualquier mapeo de variables aleatorias (operadas
con suma algebraica, producto, potencias) también es una variable aleatoria; de modo que,
en un momento dado se puede conocer el modelo de probabilidad del estad́ıstico θ, a partir
de la distribución de las Xk. Por ello, en esta sección se revisan algunos modelos disponibles
en la literatura.
Ejem. 13. Como primer aproximación, se puede ver que si X ∼ N(0, 1) entonces
X2 ∼ χ21 (con un grado de libertad ν = 1)
Partiendo del concepto de fgm, notemos que
MX2(t) = E
�
exp(tX2)
�
=
∞Z
−∞
exp(tx2)
�
1√
2π
exp(−x2/2)
�
dx
=
∞Z
−∞
1√
2π
exp
�
− (1− 2t)x2/2
�
dx
=1
(1− 2t)1/2
���
���
���
���
���
���
�:1∞Z
−∞
1
√
2π
q
1
1−2t
exp
"
−1
2
 
x2
1
1−2t
!#
dx
que corresponde a la fgm de una v.a. χ21 (un grado de libertad).
Valorando éste resultado, se puede ver que por definición, la varianza muestral es la suma de
cuadrados de la v.a., de modo que si es necesario conocer el modelo de probabilidad que le
corresponde, si Xk ∼ N(0, 1) entonces X2k ∼ χ2 con un grado de libertad.
Ejem. 14. Generalizando el ejemplo anterior a una muestra de tamaño n, para
X1, . . . , Xn i.i.d. normal estándar, si θ es el estad́ıstico dado por
θ = Θ(x1, x2, . . . , xn) =
nX
k=1
x2k,
entonces θ se distribuye χ2ν con ν = n grados de libertad.
Resolviendo la integral
GΘ(θ0) =
Z
· · ·
Z
dFX(x1)dFX(x2) · · · dFX(xn)
para θ ≤ θ0, se puede ver que en este caso se tiene que la densidad conjunta está dada
por
GΘ(θ0) =
Z
· · ·
Z
1
(2π)
1
2
n
exp
�
−1
2
X
x2i
�
dx1dx2 · · · dxn
para θ ≤ θ0 y xi ∈ IR, ∀i.
89 3
Integrando, la transformación natural en un caso como este son las coordenadas
polares, dada por (x1, x2, . . . , xn) 7→ (θ,α1, . . . ,αn−1) por
x1 = θ
1
2 cosα1 cosα2 · · · cosαn−1
...
xj = θ
1
2 cosα1 cosα2 · · · cosαn−j senαn−j+1
... ( j = 2, 3, . . . , n− 1;n > 2 )
xn = θ
1
2 senα1
en donde el Jacobiano
∂(x1, . . . , xn)
∂(θ,α1, . . . ,αn−1)
está dado por
1
2
θ
1
2
n−1
�����������
cosα1 cosα2 · · · cosαn−1 cosα1 cosα2 · · · cosαn−2 senαn−1 · · · senα1
− senα1 cosα2 · · · cosαn−1 − senα1 cosα2 · · · cosαn−2 senαn−1 · · · cosα1
− cosα1 senα2 · · · cosαn−1 − cosα1 senα2 · · · cosαn−2 senαn−1 · · · 0
...
...
. . .
...
− cosα1 cosα2 · · · senαn−1 cosα1 cosα2 · · · cosαn−2 cosαn−1 · · · 0
�����������
en donde, agrupando cosenos y senos en todas las columnas, se tiene que el determinante
anterior se simplifica en
�����������
1 1 1 · · · 1
− tanα1 − tanα1 − tanα1 · · · cotα1
− tanα2 − tanα2 − tanα2 · · · 0
...
...
...
. . .
...
− tanαn−1 − cotαn−1 0 · · · 0
�����������
por el factor cosn−1 α1 cosn−2 α2 · · · cosαn−1 senα1 senα2 · · · senαn−1.
Aśı, calculando el determinante se puede restar a cada columna su columna
precedente desde la dos hasta la n−ésima, simplificando el cálculo al producto de la
diagonal principal del cofactor M1,1 obteniendo que
∂(x1, x2, . . . , xn)
∂(θ,α1,α2, . . . ,αn−1)
=
1
2
θ
1
2
n−1 cosn−2 α1 cosn−3 α2 · · · cosαn−2.
Por tanto, se tiene que
GΘ(θ0) =
Z
· · ·
Z
1
(2π)
1
2
n
exp
�
−1
2
θ
��
1
2
θ
1
2
n−1 cosn−2 α1 · · · cosαn−2
�
dθdα1 · · · dαn−2
para θ ≥ 0 y −π ≤ αi ≤ π, i = 1, 2, . . . , n− 2.
90 3
Integrando las funciones trigonométricas, se tiene que
GΘ(θ0) = k
θ0Z
0
θ
1
2
n−1e(−
1
2
θ)dθ
en donde la constante k puede calcularse integrando en todo el soporte de θ y aśı se
concluye que
dG(θ) =
1
2
1
2
nΓ
�
1
2n
�θ
1
2
n−1e(−
1
2
θ)dθ
que usualmente se conoce como distribución χ2 y al parámetro n usualmente se le conoce
como grados de libertad.
En una versión alternativa para probar que la suma de n v.a.’s se distribuye χ2 con n grados
de libertad, notemos que:
Ejem. 15. Sean X1, . . . , Xm v.a.’s independientes, distribuidas Xk ∼ χ2nk . Muestre que
mX
k=1
Xk ∼ χ2(n1+···+nk).
En este caso, por definición, se sabe que para Xk la fgm está dada por
MXk(t) = E[e
tX ] =
∞Z
0
etxk
x
nk/2−1
k e
−xk/2
Γ(nk/2)2nk/2
dx =
∞Z
0
x
nk/2−1
k e
−(1−2t)xk/2
Γ(nk/2)2nk/2
dx,
pero con el cambio de variable y = (1− 2t)xk,
�
con dy = (1− 2t) dxk, t < 1/2
�
resulta
que
MXk(t) = E[e
tX ] =
∞Z
0
x
nk/2−1
k e
−(1−2t)xk/2
Γ(nk/2)2nk/2
dx =
1
(1− 2t)nk/2
��
��
��
��
��*
1
∞Z
0
ynk/2−1e−y
Γ(nk/2)2nk/2
dy
de modo que, si Xk
iid∼ χ2nk entonces
M mP
k=1
Xk
(t) =
mY
k=1
MXk(t) =
mY
k=1
1
(1− 2t)nk/2 =
1
(1− 2t)
1
2
mP
k=1
nk
y por unicidad de la transformada inversa, se concluye que
mX
k=1
Xk ∼ χ2(n1+···+nk)
De modo que, del ejemplo 9, si X ∼ N(0, 1) entonces X2 ∼ χ21 y del ejemplo previo la suma
de n v.a.’s χ2nk se distribuye χ
2
(n1+···+nk). Por lo tanto, la suma de n v.a.’s χ
2
1 se distribuye
χ2n.
91 3
Ejem. 16. Aterrizando el uso de la densidad χ2 para la varianza muestral, notemos que
si X1, . . . , Xn son v.a.’s i.i.d. N(µ,σ
2), entonces
n− 1
σ2
s2 ∼ χ2n−1.
Por definición de varianza muestral, se sabe que
s2 =
1
n− 1
nX
k=1
(xk − x̄)2 o bien (n− 1)s2 =
nX
k=1
(xk − x̄)2,
entonces, sumando y restando µ resulta
(n− 1)s2 =
nX
k=1
(xk − µ+ µ− x̄)2 =
nX
k=1
(xk − µ)2 − n(x̄− µ)2,
es decir,
nX
k=1
(xk − µ)2 = (n− 1)s2 + n(x̄− µ)2 o bien
nX
k=1
�
xk − µ
σ
�2
=
n− 1
σ2
s2 +
�
x̄− µ
σ2/n
�2
.
Pero, si X1, . . . , Xn
iid∼ N(µ,σ2), entonces xk − µ
σ
iid∼ N(0, 1) y X̄ ∼ N(µ,σ2/n),
de modo que
x̄− µ
σ/
√
n
∼ N(0, 1) y aśı, del ejemplo 10 y del ejercicio 9 se tiene que
nX
k=1
�
xk − µ
σ
�2
∼ χ2n y
nX
k=1
�
x̄− µ
σ/
√
n
�2
∼ χ21, concluyéndose que
n− 1
σ2
s2 ∼ χ2n−1.
De igual forma, otro modelo destacado en el caso de muestras de v.a.’s de una población
Gaussiana es distribución F definida como:
Def. 17. (Distribución F de Fisher–Snedecor) La v.a. X se distribuye F de Fisher–Snedecor
con parámetros n,m > 0 si
fX(x) =
Γ((n+m)/2)
Γ(n/2)Γ(m/2)
� n
m
�n/2
xn/2−1
�
1 +
n
m
x
�−(n+m)/2
Ix∈IR+
y usualmente se escribe X ∼ F (n,m).
La importancia de la familia de distribuciones F se puede observar en el siguiente
ejemplo.
Ejem. 17. Si X ∼ χ2n y Y ∼ χ2m, con X ⊥ Y , entonces
X/n
Y/m
∼ F (n,m)
92 3
Por convolución, con el cambio de variables (X,Y ) por
�
X/n
Y/m
, Y
�
, se tiene que
|J | = nmY y
fZ(z) =
∞Z
0
n
m
Y fX
� n
m
yz
�
fY (y) dy
=
∞Z
0
n
m
y
( nmyz)
n/2−1 exp(− n2myz)
Γ(n/2)2n/2
"
ym/2−1 exp(−y/2)
Γ(m/2)2m/2
#
dy
y reagrupando,
fZ(z) =
�
n
m
�n/2
zn/2−1
Γ(n/2)Γ(m/2)2(n+m)/2
∞Z
0
y(n+m)/2−1 exp
h
−
�
1 +
n
m
z
� y
2
i
dy
=
Γ
�
n+m
2
� �
n
m
�n/2
zn/2−1
Γ(n/2)Γ(m/2)
�
1 + nmz
�n+m
2
���
���
���
���
���
���
���
���
�:1
∞Z
0
�
1 + nmz
2
�n+m
2
y
n+m
2
−1 exp
�
−
�
1 + nmz
2
�
y
�
Γ((n+m)/2)
dy
Contextualizando, supongamos que se tienen dos muestras {Xk}nk=1, {Yk}mk=1 de una
población normal y se busca evidencia de igualdad de varianzas, es decir, si hay evidencia de
que la suma de cuadrados de las Xk y las Yk son iguales. . . o de forma equivalente, si
�
nP
k=1
X2k
�
/n
�
mP
k=1
Y 2k
�
/m
≈ 1
y en este caso, la distribución F de Fisher-Snedecor es una buena herramienta.
Por otro lado, la familia de densidades t−Student también es uno de los modelos relevantes
analizando muestras de distribución normal. En particular,
Def. 18. (Distribución t−Student) La v.a. X se distribuye t−Student con n > 0 grados de
libertad si
fX(x) =
Γ((n+ 1)/2)√
nπ Γ(n/2)
�
1 +
x2
n
�−(n+1)/2
, x ∈ IR
y usualmente se escribe X ∼ t(n) o X ∼ tn.
Ejem. 18. Si X ∼ N(0, 1) y Y ∼ χ2n son independientes, entonces
Xp
Y/n
∼ tn.
93 3
Por convolución, con el cambio de variables (X,Y ) por
�
X√
Y/n
, Y
�
, se tiene que
|J | =
p
Y/n y
fZ(z) =
∞Z
0
p
y/n fX
�
z
p
y/n
�
fY (y) dy
=
∞Z
0
p
y/n
exp
�
−z2y/(2n)
�
√
2π
"
yn/2−1 exp(−y/2)
Γ(n/2)2n/2
#
dy
y reagrupando,
fZ(z) =
1√
nπ Γ(n/2)2(n+1)/2
∞Z
0
y(n+1)/2−1 exp
"
−
 
1 + z
2
n
2
!
y
#
dy
=
Γ
�
n+1
2
� �
1 + z
2
n
�−n+1
2
√
nπ Γ
�
n
2
�
���
���
���
���
���
���
���
���:1
∞Z
0
 
1 + z
2
n
2
!n+1
2
y
n+1
2
−1 exp
"
−
 
1 + z
2
n
2
!
y
#
Γ((n+ 1)/2)
dy
Modos de convergencia
Al igual que los conceptos de convergencia revisados en el apartado de esperanza matemática
(página ??), en donde por ejemplo una sucesión de v.a.’s Xn : n ∈ IN converge a X en:
a.– media si ĺım
n→∞
E|Xn −X| = 0 y se escribe Xn L
1
→ X),
b.– media cuadrática si ĺım
n→∞
E|Xn −X|2 = 0 y se escribe como Xn L
2
→ X y además,
c.– distribución sii ϕXn(t) → ϕX(t) y se escribe como Xn
d→ X,
en la literatura sobresalen otros modos de convergencia, bajo el contexto de muestras de
v.a.’s, tales como:
Ley débil de grandes números
Para X1, . . . , Xn v.a.’s i.i.d., si EXk = µ y V ar(Xk) = σ
2 existen para k = 1, . . . , n, entonces
X̄n =
1
n
nX
k=1Xk converge a µ cuando n → ∞.
Demostración. Se puede ver que si X̄n → µ cuando n → ∞, en forma equivalente se debe
tener que
ĺım
n→∞
P (|X̄n − µ| ≤ ξ) = 1.
94 3
Aśı, por la deigualdad de Chebyshev (??), se tiene que para X con EX = µ y V ar(X) = σ2,
P (|X̄n − µ| ≥ ασ) ≤
1
α2
⇐⇒ P (|X̄n − µ| ≤ α) ≥ 1−
σ2
α2
y dado que EX̄n = µ y V ar(X̄n) =
σ2
n
, por la deigualdad de Chebyshev resulta que
P (|X̄n − µ| ≤ ξ) = 1−
σ2/n
ξ2
∴ ĺım
n→∞
P (|X̄n − µ| ≤ ξ) = 1.
■
Ejem. 19. Considere el caso en el que los datos del experimento bajo estudio se
distribuyen normal con media desconocida y varianza σ2 = 5. Cuál debe ser el tamaño
de muestra que se debe recoger para evidenciar que X̄n se encuentre a una distancia de
dos unidades con una probabilidad de por lo menos 0.9
Dado que se busca una distancia de dos unidades, se debe tener que ξ = 10−2 y por
tal, se busca un valor n tal que
P (|X̄n − µ| ≤ ξ) = 1−
σ2/n
ξ2
⇐⇒ 0.9 = 1− σ
2/n
ξ2
= 1− 5/n
(10−2)2
o bien n =
5
0.1(10−4)
= 5× 105
Estad́ısticos de orden
Def. 19 (Estad́ısticos de Orden). Sea X1, . . . , Xn una m.a. observadas en un punto
muestral arbitrario ω de modo tal que, se defina una colección de m.a.’s de números reales
X1(ω), . . . , Xn(ω). A las v.a.’s ordenadas en forma creciente
X[1] = mı́n{X1, . . . , Xn} ≤ X[2] ≤ · · · ≤ X[n−1] ≤ X[n] = máx{X1, . . . , Xn}
se les conoce como estad́ısticos de orden (X[k] es el k−ésimo estad́ıstico de orden).
Proposición 9. Para n ≥ 1 se tiene que
1. fX[1](x) = nfX(x)[1− F (x)]n−1
2. fX[n](x) = nfX(x)[F (x)]
n−1
95 3
Demostración. Para el 1er estad́ıstico de orden se tiene que
FX[1](x) = P (X[1] ≤ x)
= P (mı́n{X1, . . . , Xn} ≤ x)
= 1− P (mı́n{X1, . . . , Xn} > x)
= 1− P (X1 > x, . . . , Xn > x)
= 1− P (X1 > x) . . . P (Xn > x)
= 1− [1− FX(x)]n
y por tanto, diferenciando se tiene que fX[1](x) = nfX(x)[1− F (x)]n−1.
De forma similar,
FX[n](x) = P (X[n] ≤ x)
= P (máx{X1, . . . , Xn} ≤ x)
= P (X1 ≤ x, . . . ,Xn ≤ x)
= P (X1 ≤ x) . . . P (Xn ≤ x)
= [FX(x)]
n
y por tanto, diferenciando se tiene que fX[n](x) = nfX(x)[F (x)]
n−1. ■
Ejem. 20. Obtenga fX[1](x) y fX[n](x) para una muestra de tamaño n = 15, de una
población exponencial con parámetro λ = 3.
En este caso, por definición de distribución exponencial, se tiene que
fX(x) = λe
−λx = 3e−3x, FX(x) = 1− e−λx = 1− e−3x
y por tanto,
fX[1](x) = nfX(x)[1− FX(x)]n−1
fX[1](x) = 15(3e
−3x)[1− (1− e−3x)]15−1
= 45e−45x
fX[n](x) = nfX(x)[FX(x)]
n−1
fX[15](x) = 15
�
3e−3x
�
[1− e−3x]15−1
= 45e−3x[1− e−3x]14
Por otro lado, para una muestra arbitraria {Xk}nk=1, para cada k se puede definir la v.a.
Yk = I(−∞,x](Xk) =
�
1 si Xk ≤ x
0 si Xk > x
en donde las Yk resultantes serán una colección de v.a.’s i.i.d. Bernoulli, tales que la suma
Y1+· · ·+Yn corresponde al número de v.a.’s Xk que satisfacen la condición Xk ≤ x. Entonces,
se debe tener que la suma Y1 + · · ·+ Yn ∼ bin(n, p), para p = FX(x) y aśı,
FX[k](x) = P (X[k] ≤ x)
= P (Y1 + · · ·+ Yn ≥ k)
=
nX
j=k
�
n
j
�
[FX(x)]
j [1− FX(x)]n−j .
96 3
y aśı, diferenciando respecto a x se obtiene
fX[k](x) =
nX
j=k
�
n
j
��
jfX(x)[FX(x)]
j−1[1− FX(x)]n−j − (n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1
�
= k
�
n
k
�
fX(x)[FX(x)]
k−1[1− FX(x)]n−k +
nX
j=k+1
�
n
j
�
jfX(x)[FX(x)]
j−1[1− FX(x)]n−j+
−
nX
j=k
�
n
j
�
(n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1
pero cambiando j − 1 por m se puede ver que
nX
j=k+1
�
n
j
�
jfX(x)[FX(x)]
j−1[1−FX(x)]n−j =
nX
m=k
�
n
m+ 1
�
(m+1)fX(x)[FX(x)]
m[1−FX(x)]n−m−1
y dado que
�
n
m+ 1
�
(m+ 1) =
n!
(n−m− 1)!(m+ 1)(m+ 1) =
n!
(n−m− 1)!m! =
�
n
m
�
(n−m)
resulta finalmente que fX[k](x) = k
�
n
k
�
fX(x)[FX(x)]
k−1[1− FX(x)]n−k.
Ejem. 21. Obtenga fX[k](x) para k = 8, con una muestra de tamaño n = 15, tomada
de una población exponencial de parámetro λ = 3.
En este caso,
fX[15](x) = 8
�
15
8
� �
3e−3x
� �
1− e−3x
�8−1 �
1− (1− e−3x)
�15−8
= 154440 e−24x
�
1− e−3x
�7
Finalmente, esta unidad temática concluye con el concepto de función de distribución
emṕırica, que se describe como: Para una v.a. X, la fda se define como FX(x) = P (X ≤ x);
aśı, a partir de una m.a., se pude estimar la fda mediante
Gn(x) =
1
n
nX
k=1
IXk≤x(x),
conocida como distribución emṕırica de probabilidades y es una estimación de muestral de
distribución poblacional FX(x).
Simulación en R e ilustración de algunos resultados
En este apartado, se revisará mediante estudios de simulación la veracidad de todas las
afirmaciones que se han revisado hasta esta sección, y a manera de ejemplo se revisan algunos
casos.
97 3
Ley débil de grandes números: En este caso, se demostró que para una muestra
X1, . . . , Xn de v.a.’s i.i.d. con media EXk = µ y varianza σ
2, el promedio muestral
converge a la media poblacional; es decir, X̄ → µ si n → ∞.
Por tanto, basta con establecer una secuencia de muestras aleatorias de una misma
población, con distintos tamaños de muestra y verificar cómo se comporta la diferencia
d = X̄−µ. Una representación gráfica de ésta diferencia debe seguir un comportamiento
decreciente (tal vez oscilando alrededor del eje horizontal) pero que se debe estabilizar
para valores grandes de n.
Si X1, . . . , Xn ∼ N(µ,σ2) entonce
nX
k=1
X2k ∼ χ2n−1.
En este caso, se deben generar muestras de tamaño n de la familia Gaussiana con
media µ y varianza σ2, para verificar si efectivamente la distribución de las sumas se
distribuyen χ2 con n− 1 grados de libertad.
Para una muestra de tamaño n = 15 de una v.a.distribuida FX(x) = 1 − e−3x, el
estad́ıstico de orden X[1] sigue un modelo de probabilidad
fX[1](x) = 45 e
−45x
En este caso, es necesario generar m muestras de una familia exponencial, de tamaño
n = 15 y de ellas, seleccionar el octavo punto muestral de la muestra ordenada, para
verificar si la densidad fX[1](x) se ajusta a la densidad emṕırica de los X[1].
98 3
———————————————————————————————————
Ejercicios
1.– Sea (X,Y ) un vec.al. con función masa de probabilidad conjunta
fX,Y (x, y) =



1/24 si (x, y) ∈ {(−2,−2), (−2, 2), (2,−2), (2, 2)}
1/12 si (x, y) ∈ {(−1,−1), (−1, 1), (1,−1), (1, 1)}
1/2 si (x, y) = (0, 0)
0 en otro caso
(i) ¿Es una densidad de probabilidad?
(ii) Obtenga sus funciones masa de probabilidad marginales.
(iii) Obtenga su función de distribución conjunta.
2.– Para
FX,Y (x, y) =



(1− e−x)(1− e−y) si x, y > 0
0 en otro caso
(i) Verifique si se trata de una función distribución de probabilidad.
(ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10.
(iii) Calcule su función de densidad conjunta fX,Y (x, y) y sus marginales.
(iv) Obtenga EX, EXY y Cov(x, y).
(v) ¿X y Y son independientes?
3.– Para
fX,Y (x, y) =
�
6xy2 si 0 < x, y < 1
0 en otro caso
(i) Verifique si se trata de una función densidad de probabilidad.
(ii) Obtenga una representación gráfica de f en el rango −1 < x, y < 2.
(iii) Calcule sus funciones de densidad marginales.
(iv) Calcule su función de distribución conjunta FX,Y (x, y).
(v) Obtenga EX, EXY y Cov(x, y).
(vi) ¿Son X,Y independientes?.
4.– Muestre que:
(a) V ar(X|Y ) = EX2 − E(E2(X|Y )) (b) V ar(X|Y ) = E(X − E(X|Y ))2
5.– Sea X discreta distribuida uniforme en {−2,−1, 1, 2} y sea Y = X2.
i.– Construya la masa de probabilidad conjunta de (X,Y ) y verifique si X y Y son
independientes.
99 3
ii.– Calcule ρX,Y
6.– Verifique si:
i.– para una constante arbitraria c se tiene que ρ(cX, Y ) = cρ(X,Y )
ii.– ρ(X1 +X2, Y ) = ρ(X1, Y ) + ρ(X2, Y )
iii.– para Y = aX + b, con a ̸= 0 se tiene que ρ(X,Y ) = a|a|
7.– Para fX,Y (x, y) = e
−y, con 0 < x < y . Calcule Σ(X,Y ) y ρ(X,Y ).
8.– Sean X,Y i.i.d. Verifique si ρ(X + Y,X − Y ) = 0
9.– Para la densidad conjunta fX,Y (x, y) = abe
−(x+y), x, y > 0, calcule la función generadora
de momentos bivariada MX,Y (s1, s2).
10.– Para X ∼ N(µ,σ2), obtenga la densidad de probabilidad de la v.a. Y = eX .
11.– Para X ∼ Γ(n,β), obtenga la densidad de probabilidad de la v.a. Y = ln(X).
12.– Obtenga la densidad de X +Y para
(X,Y ) ∼ fX,Y (x, y) =
3(x2 + y2)
16
I(0<x<y<2)(x, y).
13.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de XY está dada por
fXY =
Z
IR
fX,Y (u/v, v)|1/v|dv
14.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de X − Y está dada por
fX−Y (u) =
Z
IR
fX,Y (u+ v, v)dv
15.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la
densidad de X/Y está dada por
fX/Y (u) =
Z
IR
fX,Y (uv, v)|v|dv
16.– Sean X,Y v.a. i.i.d. normal estándar (µ = 0,σ2 = 1); muestre que la densidad de X/Y
está dada por
fX/Y (u) =
1
π(1 + u2)
, u ∈ IR densidad de Cauchy.
17.– Sea X1, . . . , Xn una m.a. de la distribución N(µ,σ
2). Muestre que los estad́ısticos X̄ y
S2 son independientes.
100 3
18.– Si X ∼ t(n), entonces X2 ∼ F (1, n).
19.– Si X,Y son independientes y distribuidas χ2, tales que X ∼ χ2n y X + Y ∼ χ2n+m.
Entonces Y ∼ χ2m.
20.– Sean X1, . . . , Xn
iid∼ N(µ,σ2), muestre que
nX
k=1
(Xk − µ)2
σ2
∼ χ2n.
21.– Si X1, . . . , Xn es una m.a. de una familia N(µ,σ
2), entonces
X̄ − µ
S/
√
n
∼ tn−1.
22.– Para una m.a. X1, . . . , Xn, el rango se define como la diferencia entre el máximo y el
mı́nimo. Obtenga la densidad de probabilidad del rango para una colección de m.a.’s
i.i.d. exponencial(3) con n = 15.
Bibliograf́ıa
[1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369-
7, pp 654.
[2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd
Edition, Springer-Verlag.
[3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw-
Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México.
[4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury
Thomson Learning. ISBN 0-534-24312-6.
[5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I,
John Wiley & Sons, Inc., New York · London · Sydney.
[6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical
statistics. Upper Saddle River, N.J: Pearson Education.
[7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Differential Forms,
second edition, Prentice Hall.
[8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc.,
Caṕıtulo 9.
[9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing
Company, English translation which appeared in Russian, 1936. Para los interesados,
está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/
kolmogorov_foundations.pdf
[10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar,
España.
[11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic
Processes, McGraw−Hill, Inc.
[12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp.
984.
[13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585.
101

Continuar navegando

Materiales relacionados

57 pag.
175 pag.
09

SIN SIGLA

User badge image

Matiasestevez35

251 pag.
IyDapuntes

SIN SIGLA

User badge image

Mario Rosa