Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Teoŕıa Estad́ıstica Notas del curso (en proceso) Licenciatura en Matemáticas Depto. de Matemáticas Cs. Básicas, CUCEI. Rubén Sánchez Gómez Vectores aleatorios De forma análoga a los conceptos revisados en el caso univariado, dado el espacio de probabilidad (Ω,A, P ), un vector aleatorio es una función X : Ω −→ IRn tal que, la pre- imagen X−1B de cualquier B ∈ B(IRn), n > 1 (espacio Euclideano), es un elemento de la σ−álgebra A. En donde X representa el arreglo ordenado (X1, . . . , Xn) y cada coordenada Xi de X es una v.a. Def. 13 (Vector Aleatorio). Sea X ≡ (X1, . . . , Xn) tal que X : Ω −→ IRn es B-A-medible, entonces a X se le conoce como vector aleatorio ({vec.al.} para abreviar y diferenciarlo de variable aleatoria {v.a.}), y en consecuencia la función de distribución conjunta de X está dada por FX(x) = P � X ≤ x � ≡ FX1,...,Xn(x1, . . . , xn) = P n\ i=1 [Xi ≤ xi] ! . en donde x ≤ y denota que xi ≤ yi para i = 1, 2,≤, n y además, la región definida por (x,y] representa el rectángulo base, dado por (x1, y1]× · · · × (xn, yn] siempre que x ≤ y. Proposición 8 (Medibilidad). Para X : Ω −→ IRn, X es B(IRn)-A-medible si y solo si, cada Xi (i− ésima coordenada) es B(IR)-A-medible Dos comentarios antes de buscar demostrar el resultado: (i) el hecho de ser medible, por definición implica que su pre-imagen bajo X es elemento del σ−álgebra sobre el cual está definido y en forma equivalente, (ii) si su pre-imagen es elemento del σ−álgebra, entonces será una v.a.. Def. 14 (Vector aleatorio discreto/continuo). Se dice que un vec.al. es (X1, . . . , Xn) es discreto si cada una de sus coordenadas es una v.a. contable o finito contable y en caso contrario, será continuo. Distribución de probabilidad de un vec.al. De forma análoga, cada vector aleatorio induce una medida de probabilidad P : IRn −→ [0, 1] y es tal que, FX(x) = FX � x1, . . . , xn � = P (X1 ≤ x1, . . . , Xn ≤ xn) = P (X ≤ x) 71 72 3 Dicha medida e conoce como función de distribución conjunta del vec.al. X y satisface: (i) ser continua por la “derecha”, (ii) ser monótona no decreciente, FX(∞, . . . ,∞) = 1 y además, para i = 1, . . . , n se tiene que FX(x1, . . . , xi−1,−∞, xi+1, . . . , xn) = 0 y FX(x1, . . . , xi−1,∞, xi+1, . . . , xn) = FX(x1, . . . , xi−1, xi+1, . . . , xn), de donde se concluye que FX1(x1) = FX(x1,∞, . . . ,∞), · · · , FXn(xn) = FX(∞, . . . ,∞, xn) son las distribuciones marginales de las v.a.’s coordenadas Xi y además, para un vector aleatorio continuo x ∈ IRn, FX(x) = FX � x1, . . . , xn � = x1Z −∞ · · · xnZ −∞ ∂nFX � x1, . . . , xn � ∂x1 · · · ∂xn dx1 · · · dxn y en cualquier región rectangular R ⊆ IRn se tiene que P (u ≤ R ≤ v) = v1Z u1 · · · vnZ un ∂nFX � x1, . . . , xn � ∂x1 · · · ∂xn dx1 · · · dxn Más aún, se tiene que la densidad conjunta fX � x1, . . . , xn � = P (X1 = x1, . . . , Xn = xn) satisface la no negatividad, fX � x1, . . . , xn � ≥ 0, para todo (x1, . . . , xn) ∈ IRn y ∞Z −∞ · · · ∞Z −∞ fX(x1, . . . , xn)dx1 · · · dxn = 1. En donde, de igual modo, densidad y distribución están asociadas con FX � x1, . . . , xn � = x1Z −∞ · · · xnZ −∞ fX � x1, . . . , xn � dx1 · · · dxn y fX � x1, . . . , xn � = ∂nFX � x1, . . . , xn � ∂x1 · · · ∂xn , mientras que en el caso discreto se tiene que a) fX(x1, . . . , xn) ≥ 0 c) FX(x1, . . . , xn) = X u1≤x1 · · · X un≤xn fX(u1, . . . , un) b) X x1 · · · X xn fX(x1, . . . , xn) = 1 d) fX1(x1) = X x2 · · · X xn fX(x1, . . . , xn) Ejem. 5. A manera de ejemplo, sea f(x, y) una masa de probabilidad uniforme conjunta para x, y = 1, 2. Entonces, una forma de representar a f(x, y) puede ser mediante un 73 3 arreglo tabular (i) de la densidad conjunta f(x, y); con un arreglo tabular (ii) de las densidades conjunta f(x, y) y marginales f(x), f(y) o bien mediante una representación gráfica (iii). (i) x 1 2 y 1 14 1 4 2 14 1 4 (ii) x 1 2 fY (y) y 1 14 1 4 1 2 2 14 1 4 1 2 fX(x) 1 2 1 2 1 (iii) Densidad uniforme conjunta f(x, y) = 14 , x, y = 1, 2. Además, su función de distribución (acumu- lada) se puede obtener a partir de la expre- sión (ii) (tabla con marginales) en donde se puede observar que toda la región se puede subdividir en nueve subregiones. x < 1 1 ≤ x < 2 x ≥ 2 y < 1 0 0 0 1 ≤ y < 2 0 1/4 1/2 2 ≤ y 0 1/2 1 y una representación gráfica de la distribución de probabilidad (acumulada) tiene la forma 74 3 Ejem. 6. (Ejemplo de Casella – Berger, 2002) Revisando un segundo ejemplo, se puede considerar un experimento en el que se lanzan dos dados “justos” (un ambiente imaginario) con espacio muestral de 36 resultados igualmente probables y sobre él, definir las v.a.’s X como la suma de los puntos de sus caras resultantes y Y como la distancia entre los puntos de sus caras, es decir, si d1 es el número de puntos de la cara del dado 1 y d2 del dado 2, entonces X = d1 + d2, y Y = |d1 − d2| de modo que X = 2, . . . , 12, Y = 0, . . . , 5 y su función masa de probabilidad queda definida por X 2 3 4 5 6 7 8 9 10 11 12 fY (y) 0 136 1 36 1 36 1 36 1 36 1 36 1 6 1 118 1 18 1 18 1 18 1 18 5 18 2 118 1 18 1 18 1 18 2 9 Y 3 118 1 18 1 18 1 6 4 118 1 18 1 9 5 118 1 18 fX(x) 1 36 1 18 1 12 1 9 5 36 1 6 5 36 1 9 1 12 1 18 1 36 1 En tanto que, su distribución de probabilidad (acumulada) tiene la forma x < 2 2 ≤ x < 3 3 ≤ x < 4 4 ≤ x < 5 5 ≤ x < 6 6 ≤ x < 7 7 ≤ x < 8 8 ≤ x < 9 9 ≤ x < 10 10 ≤ x < 11 11 ≤ x < 12 12 ≤ x y < 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ≤ y < 1 0 136 136 118 118 112 112 19 19 536 536 16 1 ≤ y < 2 0 136 112 19 16 736 14 518 13 1336 512 49 2 ≤ y < 3 0 136 112 16 29 1136 1336 49 12 712 2336 23 3 ≤ y < 4 0 136 112 16 518 1336 1736 59 23 34 2936 56 4 ≤ y < 5 0 136 112 16 518 512 1936 23 79 3136 1112 1718 5 ≤ y 0 136 112 16 518 512 712 1318 56 1112 3536 1 75 3 Ejem. 7. Para fX,Y (x, y) = e−y si 0 < x < y < ∞ 0 en otro caso (i) Verifique si se trata de una función densidad de probabilidad. Resp. En este caso se puede ver que ∞Z 0 ∞Z x e−ydydx = ∞Z 0 � − e−y ��� y =∞ y = x dy = ∞Z 0 e−xdx = � − e−x ��� ∞ 0 = 1, por lo que, f(x, y) es una densidad conjunta de probabilidad. (ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10. Resp. Dado que FX,Y (x, y) = xZ 0 yZ x e−ydydx = xZ 0 � − e−y ��� y = y y = x dx = xZ 0 � − e−y + e−x � dx = h − xe−y − e−x ix=x x=0 , y aśı, FX,Y (x, y) = 1 − e−x − xe−y, 0 < x < y < ∞, cuya representación gráfica tiene la forma (iii) Calcule las funciones de densidad marginal fX(x) y fY (y). 76 3 Resp. De la densidad conjunta se obtiene directamente que fX(x) = Z IR fX,Y (x, y)dy = ∞Z x e−ydy = � − e−y ��� ∞ x = e−x, para x > 0. fY (y) = Z IR fX,Y (x, y)dx = yZ 0 e−ydx = � xe−y ��� x=y x=0 = ye−y, para y > 0. (iv) Obtenga EX, EXY y Cov(x, y). Resp. Por definición resulta que EX = ∞Z 0 xe−xdx = � − (x+ 1)e−x ��� x→∞ x=0 = 1, EXY = ∞Z 0 ∞Z x xye−ydydx = ∞Z 0 � − x(y + 1)e−y ��� y →∞ y=x dx = ∞Z 0 x(x+ 1)e−xdx = � − (x2 + 3x+ 3)e−x ��� x→∞ x=0 = 3 y para obtener Cov(X,Y ) primero se calcula EY mediante EY = ∞Z 0 y(ye−y)dy = � − (y2 + 2y + 2)e−y ��� x→∞ x=0 = 2 Cov(X,Y ) = E(X − EX)(Y − EY ) = E(X − 1)(Y − 2) = E(XY − 2X − Y + 2) = EXY − 2EX − EY + 2 = 1. (v) ¿X y Y son independientes? Resp. ¡No! Ya que para que X,Y sean independientes, se debe tener que fX,Y (x, y) = fX(x)fY (y), pero e−y = fX,Y (x, y) ̸= fX(x)fY (y) = ye−(x+y), o bien, con funciones de distribución conjunta, se tiene que FX,Y (x, y) = FX(x)FY (y), pero 1− e−x − xe−y = FX,Y (x, y) ̸= FX(x)FY (y) = (1− e−x)(1− (y + 1)e−y). De esta forma, se podŕıa diferenciar entre vectores aleatorios de soporte discreto cuando sus 77 3 coordenadas son v.a. finito o infinito contables (ejemplos 5 y 6) y en caso contrario, se tendŕıan vectores aleatorios de soporte continuo (ejemplo 7). Distribuciones condicionales Retomando el concepto de probabilidadcondicional, de la definición (??), para un vector (X1, . . . , Xn) se puede tener el caso en que se busca la probabilidad de que ocurra el evento (X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn) dado que la v.a. Xj tiene el valor xj , con f �� Xi = xi �nn i=1 i̸=j o��Xj = xj � = f(X1 = x1, . . . , Xn = xn) f(Xj = xj) ; Por otro lado, para obtener la medida de probabilidad del evento (X1 = x1, . . . , Xj = xj) dado que, las variables Xj+1, Xj+2, . . . , Xn toman los valores xj+1, xj+2, . . . , xn se obtiene mediante f � (X1 = x1, . . . , Xj = xj) ���(Xj+1 = xj+1, . . . , Xn = xn) � = f(X1 = x1, . . . , Xn = xn) f(Xj+1 = xj+1, . . . , Xx = xn) , o bien, probabilidad de que ocurra Xj = xj dado que las v.a.’s (X1, . . . , Xj−1, Xj+1, . . . , Xn) tomaron los valores (x1, . . . , xj−1, xj+1, . . . , xn) con f � Xj = xj ��� � Xi = xi �nn i=1 i̸=j o � = f(X1 = x1, . . . , Xn = xn) f(X1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xn = xn) . Ejem. 8. Para fX,Y (x, y) = 3(x2 + y2) 16 I0<x<y<2(x, y), (i) Compruebe que se trata de una función de densidad de probabilidad. Resp. Śımplemente se debe comprobar si integra a uno, es decir, se debe tener que 2Z 0 2Z x 3(x2 + y2) 16 dydx = 2Z 0 �y3 + 3x2y 16 ���� y=2 y=x dx = 2Z 0 �−2x3 + 3x2 + 4 8 � dx = �−x4 + 2x3 + 8x 16 ���� x=2 x=0 = 1. y dado que fX,Y (x, y) ≥ 0 para toda 0 < x < y < 2, se concluye que fX,Y (x, y) es una densidad de probabilidad. (ii) Obtenga una representación gráfica de fX,Y (x, y) en el rango −1 < x, y < 3. Resp. 78 3 Representación gráfica de fX,Y (x, y) en −1 < x, y < 3. (iii) Escriba su función de distribución conjunta FX,Y (x, y). Resp. En este caso, se puede ver que en la región 0 < x < y < 2 F (x, y) = xZ 0 yZ x 3(x2 + y2) 16 dydx = xZ 0 hy3 + 3x2y 16 ���� y=y y=x dx = xZ 0 y3 + 3x2y − 4x3 16 dx = hxy3 + x3y − x4 16 ���� x=x x=0 = xy3 + x3y − x4 16 . Comprobando el resultado, se puede ver que FX,Y (2, 2) = 1 y que sus marginales seŕıan FX,Y (x, 2) = FX(x) = 8x+ 2x3 − x4 16 y FX,Y (2, y) = FY (y) = 2y3 + 8y − 16 16 , que también satisfacen FX(2) = 1 y FY (2) = 1. Finalmente se tiene que FX,Y (x, y) = 0 si x < 0 ó y < 0 xy3 + x3y − x4 16 si 0 < x < y < 2 2y3 + 8y − 16 16 si x ≥ 2 y 0 ≤ y < 2 8x+ 2x3 − x4 16 si 0 ≤ x < 2 y y ≥ 2 1 si x ≥ 2 y y ≥ 2 (iv) Calcule sus funciones de densidad marginales. 79 3 Resp. Por definición, se pueden diferenciar las distribuciones y en este caso, por el inciso previo se tiene que fX(x) = d dx � 8x+ 2x3 − x4 16 � = 4 + 3x2 − 2x3 8 , para 0 < x < 2, fY (y) = d dy � 2y3 + 8y − 16 16 � = 3y2 + 4 8 , para 0 < y < 2, e integrando (para verificar que realmente es una densidad de probabilidad se tiene que Z IR fX(x)dx = 2Z 0 4 + 3x2 − 2x3 8 dx = 1 8 �−x4 2 + x3 + 4x ���� 2 0 = 1 pero en el caso de fY (y) se resulta que Z IR fY (y)dy = 2Z 0 3y2 + 4 8 dy = 1 8 � y3 + 4y ��� 2 0 = 2 [no es densidad de prob.] Por otro lado, calculando las marginales con la densidad conjunta se tendŕıa que fX(x) = Z IR fX,Y (x, y)dy = Z IR 3(x2 + y2) I0<x<y<2(x, y) 16 dy = 3 16 2Z x (x2 + y2)dy por lo que, fX(x) = 3 16 � y3 3 + x2y ���� y=2 y=x o bien fX(x) = 4 + 3x2 − 2x3 8 , 0 < x < 2 que coincide con la fX(x) calculada diferenciando la distribución de prob. FX(x) y en el caso de fY (y) resulta fY (y) = Z IR fX,Y (x, y)dx = Z IR 3(x2 + y2) I0<x<y<2(x, y) 16 dx = 3 16 yZ 0 (x2 + y2)dx es decir, fY (y) = 3 16 � x3 3 + xy2 ���� x=y x=0 o bien fY (y) = y3 4 , 0 < y < 2 y en este caso Z IR fY (y)dy = 2Z 0 y3 4 dy = � y4 16 ���� 2 0 = 1 (v) Obtenga EX, EXY y Cov(x, y). 80 3 Resp. Por definición se tiene que EX = 2Z 0 x �−2x3 + 3x2 + 4 8 � dx = � −8x 5 − 15x4 − 40x2 160 ���� 2 0 = 9 10 , EXY = 2Z 0 2Z x xy 3(x2 + y2) 16 dydx = 2Z 0 � 3x(x2 + y2)2 64 ���� y=2 y=x dx = 2Z 0 −9x 5 − 24x3 − 48x 64 dx = � − 3x 6 − 12x4 − 48x2 128 ���� 2 0 = 3 2 . Calculando EY se obtiene EY = 2Z 0 y � y3 4 ���� dy = � y5 20 ���� 2 0 = 8 5 , y finalmente, Cov(X,Y ) = E(X − EX)(Y − EY ) = E � X − 9 10 �� Y − 8 5 � = E � XY − 8X 5 − 9Y 10 + 36 25 � = EXY − 8 5 EX − 9 10 EY + 36 25 = 3 2 − 2 � 8 5 � 9 10 + 36 25 = 3 50 . (vi) ¿X y Y son independientes? Resp. ¡No! Ya que para X,Y independientes, se satisface que fX,Y (x, y) = fX(x)fY (y), pero 3(x2 + y2) 16 = fX,Y (x, y) ̸= fX(x)fY (y) = −2x3 + 3x2 + 4 8 � y3 4 � . (vii) Calcule E(X|Y ) y V ar(X|Y ). Resp. En este caso, por sustitución se puede ver que para un y dado resulta que fX|Y (x|y) = fX,Y (x, y) fY (y) = 3(x2 + y2) 16 y3 4 = 3(x2 + y2) 4y3 81 3 y aśı E(X|Y ) = yZ 0 xfX|Y (x|y)dx = yZ 0 x 3(x2 + y2) 4y3 dx = 3 4y3 � x4 4 + x2y2 2 ���� x=y x=0 = 9 16 y y como E(X2|Y ) = yZ 0 x2fX|Y (x|y)dx = yZ 0 x2 3(x2 + y2) 4y3 dx = 3 4y3 � x5 5 + x3y2 3 ���� x=y x=0 = 2 5 y2 se obtiene que V ar(X|Y ) = E(X2|Y )−E(X|Y )2 = 2 5 y2− � 9 16 y �2 = 107 1280 y2 para un y dado (0 < y < 2). Independencia de variables aleatorias Como se ha mencionado, si las v.a. Xi, coordenadas del vec.al. X, son independientes entre śı, entonces FX1,...,Xn(x1, . . . , xn) = FX1(x1)FX2(x2) · · ·FXn(xn) = nY k=1 FXk(xk) y aśı, en el caso en que X = (X,Y ) ∈ IR2, por ejemplo, si X es independiente de Y se tiene que Cov(X,Y ) = E(X − EX)(Y − EX) = Z IR2 (X − EX)(Y − EX)∂ 2FX,Y (x, y) ∂x∂y dxdy y dado que X ⊥ Y , se obtiene Cov(X,Y ) = Z IR2 (X − EX)(Y − EX)∂ 2FX(x)FY (y) ∂x∂y dxdy = Z IR2 (X − EX)(Y − EX) � dFX(x) dx � � dFY (y) dy � dxdy de modo que, Cov(X,Y ) = Z IR (X − EX)dFX(x) Z IR (Y − EX)dFY (y) = 0. Por lo tanto, si X ⊥ Y entonces Cov(X,Y ) = 0, pero el rećıproco no necesariamente se cumple y como evidencia, en el siguiente ejemplo se puede observar que las variables X y Y no son independientes pero Cov(X,Y ) = 0. 82 3 Ejem. 9. Sean X,Y v.a.’s discretas con densidad conjunta X −1 0 1 −1 15 0 15 Y 0 0 15 0 1 15 0 1 5 i.– Verifique si X y Y son independientes. Resp. Por definición, si X ⊥ Y se debe cumplir que fX,Y (x, y) = fX(x)fY (y), ∀x, y pero en este caso se tiene que fX(0) = fY (0) = 15 pero fX,Y (0, 0) = 15 ̸= 125 y ∴ X ⊥/ Y ii.– Obtenga Cov(X,Y ) Resp. Escribiendo las densidades marginales para X y Y , se puede ver que EX = EY = 1 5 − 1 5 = 0 y además, EXY = 1X x=−1 1X y=−1 xyfX,Y (x, y) = 1 5 − 1 5 + 1 5 − 1 5 = 0, luego, Cov(X,Y ) = 0 y ∴ si X ⊥ Y =⇒ Cov(X,Y ) = 0, pero si Cov(X,Y ) = 0 no necesariamente X ⊥ Y . Matriz de varianza-covarianza de vectores aleatorios En general, el concepto de esperanza matemática para una variable se puede extender al caso de vectores aleatorios, en donde por ejemplo, para el vec.al. X = (X1, . . . , Xn), si cada coordenada del vector tiene esperanza finita, el vector numérico EX = (EX1, . . . , EXn) se conoce como vector esperado de X. Además, retomando el concepto de covarianza, por definición se tiene que Cov(X,Y ) = E(X − EX)(Y − EY ), proporciona una medida de asociación entre las variables X,Y y satisface 1. Cov(X,Y ) = E[XY ]− E[X]E[Y ] 2. Cov(X,Y ) = Cov(Y,X) 3. Cov(X,X) = V ar(X) 4. Cov(a, Y ) = 0 83 3 5. Cov(aX, Y ) = aCov(X,Y ) 6. Cov(X1 +X2, Y ) = Cov(X1, Y ) + Cov(X2, Y ) 7. si X,Y son independientes, entonces Cov(X,Y ) = 0 8. si Cov(X,Y ) = 0 no necesariamente X y Y son independientes, para una constante arbitraria a ∈ IR. Además, si se denota a la covarianza con σij , para un vec.al. X ∈ IRn se puede escribir el arreglo matricial (con todas las covarianzas) X (X,Y ) = σ11 σ12 · · · σ1n σ21 σ22 · · · σ2n ... ... . . . ... σn1 σn2 · · · σnn = E[(X− EX) t(X− EX)], que se conoce como matriz de varianzas–covarianzas del vectorX, ya que σii son las varianzas de las coordenadas de X y es evidente que la matriz P es simétrica. Por otro lado, el cociente ρij = σij√ σii √ σjj se conocecomo el coeficiente de correlación, de las coordenadas Xi, Xj y de forma análoga, se puede definir la matriz de correlación mediante ρX,Y = ρ11 ρ12 · · · ρ1n ρ21 ρ22 · · · ρ2n ... ... . . . ... ρn1 ρn2 · · · ρnn en donde −1 ≤ ρij ≤ 1 ∀i, j. Para verificar ésta afirmación, notemos que Demostración. Si se define X = Xi − EXi√ σii y Y = Xj − EXj√ σjj entonces EX = EY = 0, V ar(X) = V ar(Y ) = 1 (variables estandarizadas). Entonces, se tiene que 0 ≤ V ar(X + λY ) = E(X + λY )2 − E2(X + λY ) = 1 + 2λEXY + λ2 y luego, si λ = 1, 0 ≤ 1 + EXY y aśı −1 ≤ EXY . Por otro lado, si λ = −1, se tiene que 0 ≤ 1 − EXY y entonces EXY ≤ 1; por lo que −1 ≤ EXY ≤ 1 y retornando a las variables Xi, Xj se puede ver que −1 ≤ EXY ≤ 1 ⇐⇒ −1 ≤ E � Xi − EXi√ σii Xj − EXj√ σjj � ≤ 1 ⇐⇒ −1 ≤ σij√ σii √ σjj ≤ 1 y por lo tanto, −1 ≤ ρij ≤ 1. ■ Cabe señalar que tanto la covarianza como el coeficiente de correlación proporcionan una medida de asociación entre las variables Xi, Xj y como tal, cuando no hay asociación σij = 0 84 3 ó ρij = 0 y en éste último, se dice que las variables son no correlacionadas y además, en el caso en que ρij = ±1 se dice que la correlación es perfecta. Función generadora de momentos de un vector aleatorio Retomando el concepto de la función generadora de momentos, por definición se tiene que MX(s) = E[exp(sX)] = Z IR esxfX(x)dx en donde s ∈ lC, de modo que, extendiendo a dimensiones mayores, para una n−tupla X = (X1, . . . , Xn) ∈ IRn se puede declarar el vector s = (s1, . . . , sn), tal que X · s = nX k=1 xksk para definir la función generadora de momentos de un vec.al. como MX(s) = E[exp(s ·X)] = Z IRn es·xfX(x)dx1 · · · dxn de modo que, se puede tener la posibilidad de que s = s1 = · · · = sn. Algunas técnicas para obtener la distribución con- junta de transformación de variables Desde un enfoque más general, la transformación (o álgebra) de v.a.’s es un tema de gran importancia en teoŕıa estad́ıstica, ya que es la base para determinar la función de probabilidad de cualquier función algebraica de un conjunto de variables aleatorias. Por ejemplo, una pregunta natural seŕıa ¿cuál es la densidad de probabilidad de una función fXk(xk), para el vec.al. (X1, . . . , Xn), en donde cada coordenada Xk se distribuye exponencial con parámetro λk. Aśı, en este apartado se revisan algunos métodos propuestos en la literatura. Como se revisó en la sección ?? (página ??) si ψ : (a, b) → IR una función continua estrictamente monótona y con inversa diferenciable, para Y = ψ(X) se tiene que fY (y) = fX � ψ−1(y) ����� d dy ψ−1(y) ����Iψ(a,b)(y) 85 3 o bien, extendiendo al caso a una función estrictamente decreciente se tendŕıa que fY (y) = fX � ψ−1(y) �����− d dy ψ−1(y) ����Iψ(a,b)(y) Genralizando, para un vec.al. X ∈ IRn con función de densidad fX(x) y una función ψ(x) : I ⊆ IRn → IR continua, inversa ψ−1(U) diferenciable. Ω X ## U=ψ(X) // IRn I ⊂ IRn ψ(I) :: El vector U = ψ(X) toma valores en ψ(I) y tiene función de densidad fU(u) = fX � ψ−1(U) �����J(U) ���� Iψ(I)(U) (3.4) en donde J es el determinante de la matriz (Jacobiano) J(U) = ���� ∂ ∂jU ψ−1i ���� i− ésimo renglón, j − ésima columna. El problema de obtener la densidad exacta de sumas de variables aleatorias usualmente se conoce como convolución de densidades y se define como la convolución de funciones. A manera de ejemplo, el ejemplo t́ıpico de convolución de funciones corresponde a la suma de variables aleatorias. Ejem. 10. Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la densidad de X + Y está dada por fX+Y (u) = Z IR fX,Y (u− v, v)dv En este caso, de la ecuación 3.1 se tiene que fU(u) = fX � ψ−1(U) �����J(U) ���� Iψ(I)(U) y como, u = X + Y v = Y =⇒ X = u− v Y = v , ����J(U) ���� = ���� 1 −1 0 1 ���� = 1 se tiene que fU,V (u, v) = fX,Y � u− v, v � Iψ(I)(U, V ) y por tanto, integrando respecto a v, la marginal de U está dada por fX+Y (u) = Z IR fX,Y (u− v, v)dv 86 3 Ejem. 11. Revisando ahora un ejemplo, supongamos que se quiere obtenga la densidad de z = 2P i=1 ti con ti iid∼ f(ti;α,β) para f(t;α,β) = tα−1e−t/β βαΓ(α) para α,β, x > 0. Resolviendo, se tiene que f(t1, t2) = f(t1)f(t2) y entonces, por convolución se debe integrar f(z) = ∞Z 0 f(t1)f(z − t1)dt1, es decir f(z) = ∞Z 0 tα−11 e −t1/β βαΓ(α) ! (z − t1)α−1e−(z−t1)/β βαΓ(α) ! dt1 y por tanto, f(z) = z2α−2e−z/β � 1 βαΓ(α) �2 ∞Z 0 � t1 z �α−1� 1− t1 z �α−1 dt1 pero, dado que t2 > 0, se tiene que 0 < t1 z < 1, luego ∞Z 0 � t1 z �α−1� 1− t1 z �α−1 dt1 = z 1Z 0 uα−1(1− u)α−1du lo que se reduce a una densidad beta, en donde 1Z 0 uα−1(1− u)α−1du = Γ(α) 2 Γ(2α) , por lo que f(z) = z2α−1e−z/β β2αΓ(2α) es decir, z se distribuye gamma con parámetros (2α,β). a.– Considerando el caso en que z = nP i=1 ti con ti iid∼ f(ti;α,β), ¿cómo se distribuye z? b.– En un caso más general, ¿cómo se distribuye z = 2P i=1 ti con ti ∼ f(ti;αi,βi) con α1 ̸= α2 y β1 ̸= β2? De éste ejemplo, vale la pena enfatizar que la suma de dos v.a.’s distribuidas gamma, sigue 87 3 también un modelo de probabilidad gamma. Ejem. 12. Como se puede ver, otra opción para obtener la densidad de z = 2P i=1 ti con ti ∼ f(ti;αi,βi), f(t;αi,βi) = tαi−1e−t/βi βαii Γ(αi) para αi,βi, x > 0; i = 1, 2; α1 ̸= α2 y β1 ̸= β2, es la función generadora de momentos (al igual que la función caracteŕıstica o la generadora de probabilidad) en virtud de que, para X ⊥ Y se tiene que MX+Y = MXMY , y en este caso MX(s) = Z IR+ estf(t;α,β)dt = Z IR+ est tα−1e−t/β βαΓ(α) dt = Z IR+ tα−1e−t � 1/β−s � βαΓ(α) dt en donde puede observar el kernel de una densidad gamma, es decir, MX(s) = 1� 1/β − s �α βα ��� ��� ��� ��� ��� �:1Z IR+ � 1/β − s �α tα−1e−t � 1/β−s � Γ(α) dt, 1/β > s. Distribuciones de funciones de muestras aleatorias: en especial del modelo normal Partiendo del objeto de estudio, una muestra aleatoria (m.a.) o simplemente muestra es una colección de v.a.’s X1, . . . , Xn iid∼ fX(x), en donde n se conoce como el tamaño de la muestra. En general, es evidente que una muestra provee información de cualquier experimento aleatorio y por ello, es de suma importancia disponer de una muestra “adecuada”. Usualmente se busca obtener información de una población a partir de la muestra y los parámetros más comunes son el promedio y la varianza. Def. 15. Para una muestra de tamaño n, X1, . . . , Xn, la media y varianza muestrales se definen como X̄ = 1 n nX k=1 Xk y S 2 = 1 n− 1 nX k=1 (Xk − X̄)2 respectivamente. En la práctica, quien investiga conjuntos de datos (ya sean numéricos o no) se plantea diferentes preguntas sobre una población, entre las cuales pueden ser el promedio o la varianza, sin embargo no son los únicos. Por ejemplo, se puede tener interés en el valor máximo para saber si una presa se desbordará en algún momento, o bien en el valor que más se repite (la moda) para conocer la lectura más común en la población. El asunto es que, cualquier información sobre la población se tendrá que obtener a partir de una muestra. 88 3 Def. 16. (Estad́ıstico) Para una m.a. X1, . . . , Xn, un estad́ıstico es cualquier v.a. (función de la muestra) θ(X1, . . . , Xn). En el caṕıtulo anterior se demostró que cualquier mapeo de variables aleatorias (operadas con suma algebraica, producto, potencias) también es una variable aleatoria; de modo que, en un momento dado se puede conocer el modelo de probabilidad del estad́ıstico θ, a partir de la distribución de las Xk. Por ello, en esta sección se revisan algunos modelos disponibles en la literatura. Ejem. 13. Como primer aproximación, se puede ver que si X ∼ N(0, 1) entonces X2 ∼ χ21 (con un grado de libertad ν = 1) Partiendo del concepto de fgm, notemos que MX2(t) = E � exp(tX2) � = ∞Z −∞ exp(tx2) � 1√ 2π exp(−x2/2) � dx = ∞Z −∞ 1√ 2π exp � − (1− 2t)x2/2 � dx =1 (1− 2t)1/2 ��� ��� ��� ��� ��� ��� �:1∞Z −∞ 1 √ 2π q 1 1−2t exp " −1 2 x2 1 1−2t !# dx que corresponde a la fgm de una v.a. χ21 (un grado de libertad). Valorando éste resultado, se puede ver que por definición, la varianza muestral es la suma de cuadrados de la v.a., de modo que si es necesario conocer el modelo de probabilidad que le corresponde, si Xk ∼ N(0, 1) entonces X2k ∼ χ2 con un grado de libertad. Ejem. 14. Generalizando el ejemplo anterior a una muestra de tamaño n, para X1, . . . , Xn i.i.d. normal estándar, si θ es el estad́ıstico dado por θ = Θ(x1, x2, . . . , xn) = nX k=1 x2k, entonces θ se distribuye χ2ν con ν = n grados de libertad. Resolviendo la integral GΘ(θ0) = Z · · · Z dFX(x1)dFX(x2) · · · dFX(xn) para θ ≤ θ0, se puede ver que en este caso se tiene que la densidad conjunta está dada por GΘ(θ0) = Z · · · Z 1 (2π) 1 2 n exp � −1 2 X x2i � dx1dx2 · · · dxn para θ ≤ θ0 y xi ∈ IR, ∀i. 89 3 Integrando, la transformación natural en un caso como este son las coordenadas polares, dada por (x1, x2, . . . , xn) 7→ (θ,α1, . . . ,αn−1) por x1 = θ 1 2 cosα1 cosα2 · · · cosαn−1 ... xj = θ 1 2 cosα1 cosα2 · · · cosαn−j senαn−j+1 ... ( j = 2, 3, . . . , n− 1;n > 2 ) xn = θ 1 2 senα1 en donde el Jacobiano ∂(x1, . . . , xn) ∂(θ,α1, . . . ,αn−1) está dado por 1 2 θ 1 2 n−1 ����������� cosα1 cosα2 · · · cosαn−1 cosα1 cosα2 · · · cosαn−2 senαn−1 · · · senα1 − senα1 cosα2 · · · cosαn−1 − senα1 cosα2 · · · cosαn−2 senαn−1 · · · cosα1 − cosα1 senα2 · · · cosαn−1 − cosα1 senα2 · · · cosαn−2 senαn−1 · · · 0 ... ... . . . ... − cosα1 cosα2 · · · senαn−1 cosα1 cosα2 · · · cosαn−2 cosαn−1 · · · 0 ����������� en donde, agrupando cosenos y senos en todas las columnas, se tiene que el determinante anterior se simplifica en ����������� 1 1 1 · · · 1 − tanα1 − tanα1 − tanα1 · · · cotα1 − tanα2 − tanα2 − tanα2 · · · 0 ... ... ... . . . ... − tanαn−1 − cotαn−1 0 · · · 0 ����������� por el factor cosn−1 α1 cosn−2 α2 · · · cosαn−1 senα1 senα2 · · · senαn−1. Aśı, calculando el determinante se puede restar a cada columna su columna precedente desde la dos hasta la n−ésima, simplificando el cálculo al producto de la diagonal principal del cofactor M1,1 obteniendo que ∂(x1, x2, . . . , xn) ∂(θ,α1,α2, . . . ,αn−1) = 1 2 θ 1 2 n−1 cosn−2 α1 cosn−3 α2 · · · cosαn−2. Por tanto, se tiene que GΘ(θ0) = Z · · · Z 1 (2π) 1 2 n exp � −1 2 θ �� 1 2 θ 1 2 n−1 cosn−2 α1 · · · cosαn−2 � dθdα1 · · · dαn−2 para θ ≥ 0 y −π ≤ αi ≤ π, i = 1, 2, . . . , n− 2. 90 3 Integrando las funciones trigonométricas, se tiene que GΘ(θ0) = k θ0Z 0 θ 1 2 n−1e(− 1 2 θ)dθ en donde la constante k puede calcularse integrando en todo el soporte de θ y aśı se concluye que dG(θ) = 1 2 1 2 nΓ � 1 2n �θ 1 2 n−1e(− 1 2 θ)dθ que usualmente se conoce como distribución χ2 y al parámetro n usualmente se le conoce como grados de libertad. En una versión alternativa para probar que la suma de n v.a.’s se distribuye χ2 con n grados de libertad, notemos que: Ejem. 15. Sean X1, . . . , Xm v.a.’s independientes, distribuidas Xk ∼ χ2nk . Muestre que mX k=1 Xk ∼ χ2(n1+···+nk). En este caso, por definición, se sabe que para Xk la fgm está dada por MXk(t) = E[e tX ] = ∞Z 0 etxk x nk/2−1 k e −xk/2 Γ(nk/2)2nk/2 dx = ∞Z 0 x nk/2−1 k e −(1−2t)xk/2 Γ(nk/2)2nk/2 dx, pero con el cambio de variable y = (1− 2t)xk, � con dy = (1− 2t) dxk, t < 1/2 � resulta que MXk(t) = E[e tX ] = ∞Z 0 x nk/2−1 k e −(1−2t)xk/2 Γ(nk/2)2nk/2 dx = 1 (1− 2t)nk/2 �� �� �� �� ��* 1 ∞Z 0 ynk/2−1e−y Γ(nk/2)2nk/2 dy de modo que, si Xk iid∼ χ2nk entonces M mP k=1 Xk (t) = mY k=1 MXk(t) = mY k=1 1 (1− 2t)nk/2 = 1 (1− 2t) 1 2 mP k=1 nk y por unicidad de la transformada inversa, se concluye que mX k=1 Xk ∼ χ2(n1+···+nk) De modo que, del ejemplo 9, si X ∼ N(0, 1) entonces X2 ∼ χ21 y del ejemplo previo la suma de n v.a.’s χ2nk se distribuye χ 2 (n1+···+nk). Por lo tanto, la suma de n v.a.’s χ 2 1 se distribuye χ2n. 91 3 Ejem. 16. Aterrizando el uso de la densidad χ2 para la varianza muestral, notemos que si X1, . . . , Xn son v.a.’s i.i.d. N(µ,σ 2), entonces n− 1 σ2 s2 ∼ χ2n−1. Por definición de varianza muestral, se sabe que s2 = 1 n− 1 nX k=1 (xk − x̄)2 o bien (n− 1)s2 = nX k=1 (xk − x̄)2, entonces, sumando y restando µ resulta (n− 1)s2 = nX k=1 (xk − µ+ µ− x̄)2 = nX k=1 (xk − µ)2 − n(x̄− µ)2, es decir, nX k=1 (xk − µ)2 = (n− 1)s2 + n(x̄− µ)2 o bien nX k=1 � xk − µ σ �2 = n− 1 σ2 s2 + � x̄− µ σ2/n �2 . Pero, si X1, . . . , Xn iid∼ N(µ,σ2), entonces xk − µ σ iid∼ N(0, 1) y X̄ ∼ N(µ,σ2/n), de modo que x̄− µ σ/ √ n ∼ N(0, 1) y aśı, del ejemplo 10 y del ejercicio 9 se tiene que nX k=1 � xk − µ σ �2 ∼ χ2n y nX k=1 � x̄− µ σ/ √ n �2 ∼ χ21, concluyéndose que n− 1 σ2 s2 ∼ χ2n−1. De igual forma, otro modelo destacado en el caso de muestras de v.a.’s de una población Gaussiana es distribución F definida como: Def. 17. (Distribución F de Fisher–Snedecor) La v.a. X se distribuye F de Fisher–Snedecor con parámetros n,m > 0 si fX(x) = Γ((n+m)/2) Γ(n/2)Γ(m/2) � n m �n/2 xn/2−1 � 1 + n m x �−(n+m)/2 Ix∈IR+ y usualmente se escribe X ∼ F (n,m). La importancia de la familia de distribuciones F se puede observar en el siguiente ejemplo. Ejem. 17. Si X ∼ χ2n y Y ∼ χ2m, con X ⊥ Y , entonces X/n Y/m ∼ F (n,m) 92 3 Por convolución, con el cambio de variables (X,Y ) por � X/n Y/m , Y � , se tiene que |J | = nmY y fZ(z) = ∞Z 0 n m Y fX � n m yz � fY (y) dy = ∞Z 0 n m y ( nmyz) n/2−1 exp(− n2myz) Γ(n/2)2n/2 " ym/2−1 exp(−y/2) Γ(m/2)2m/2 # dy y reagrupando, fZ(z) = � n m �n/2 zn/2−1 Γ(n/2)Γ(m/2)2(n+m)/2 ∞Z 0 y(n+m)/2−1 exp h − � 1 + n m z � y 2 i dy = Γ � n+m 2 � � n m �n/2 zn/2−1 Γ(n/2)Γ(m/2) � 1 + nmz �n+m 2 ��� ��� ��� ��� ��� ��� ��� ��� �:1 ∞Z 0 � 1 + nmz 2 �n+m 2 y n+m 2 −1 exp � − � 1 + nmz 2 � y � Γ((n+m)/2) dy Contextualizando, supongamos que se tienen dos muestras {Xk}nk=1, {Yk}mk=1 de una población normal y se busca evidencia de igualdad de varianzas, es decir, si hay evidencia de que la suma de cuadrados de las Xk y las Yk son iguales. . . o de forma equivalente, si � nP k=1 X2k � /n � mP k=1 Y 2k � /m ≈ 1 y en este caso, la distribución F de Fisher-Snedecor es una buena herramienta. Por otro lado, la familia de densidades t−Student también es uno de los modelos relevantes analizando muestras de distribución normal. En particular, Def. 18. (Distribución t−Student) La v.a. X se distribuye t−Student con n > 0 grados de libertad si fX(x) = Γ((n+ 1)/2)√ nπ Γ(n/2) � 1 + x2 n �−(n+1)/2 , x ∈ IR y usualmente se escribe X ∼ t(n) o X ∼ tn. Ejem. 18. Si X ∼ N(0, 1) y Y ∼ χ2n son independientes, entonces Xp Y/n ∼ tn. 93 3 Por convolución, con el cambio de variables (X,Y ) por � X√ Y/n , Y � , se tiene que |J | = p Y/n y fZ(z) = ∞Z 0 p y/n fX � z p y/n � fY (y) dy = ∞Z 0 p y/n exp � −z2y/(2n) � √ 2π " yn/2−1 exp(−y/2) Γ(n/2)2n/2 # dy y reagrupando, fZ(z) = 1√ nπ Γ(n/2)2(n+1)/2 ∞Z 0 y(n+1)/2−1 exp " − 1 + z 2 n 2 ! y # dy = Γ � n+1 2 � � 1 + z 2 n �−n+1 2 √ nπ Γ � n 2 � ��� ��� ��� ��� ��� ��� ��� ���:1 ∞Z 0 1 + z 2 n 2 !n+1 2 y n+1 2 −1 exp " − 1 + z 2 n 2 ! y # Γ((n+ 1)/2) dy Modos de convergencia Al igual que los conceptos de convergencia revisados en el apartado de esperanza matemática (página ??), en donde por ejemplo una sucesión de v.a.’s Xn : n ∈ IN converge a X en: a.– media si ĺım n→∞ E|Xn −X| = 0 y se escribe Xn L 1 → X), b.– media cuadrática si ĺım n→∞ E|Xn −X|2 = 0 y se escribe como Xn L 2 → X y además, c.– distribución sii ϕXn(t) → ϕX(t) y se escribe como Xn d→ X, en la literatura sobresalen otros modos de convergencia, bajo el contexto de muestras de v.a.’s, tales como: Ley débil de grandes números Para X1, . . . , Xn v.a.’s i.i.d., si EXk = µ y V ar(Xk) = σ 2 existen para k = 1, . . . , n, entonces X̄n = 1 n nX k=1Xk converge a µ cuando n → ∞. Demostración. Se puede ver que si X̄n → µ cuando n → ∞, en forma equivalente se debe tener que ĺım n→∞ P (|X̄n − µ| ≤ ξ) = 1. 94 3 Aśı, por la deigualdad de Chebyshev (??), se tiene que para X con EX = µ y V ar(X) = σ2, P (|X̄n − µ| ≥ ασ) ≤ 1 α2 ⇐⇒ P (|X̄n − µ| ≤ α) ≥ 1− σ2 α2 y dado que EX̄n = µ y V ar(X̄n) = σ2 n , por la deigualdad de Chebyshev resulta que P (|X̄n − µ| ≤ ξ) = 1− σ2/n ξ2 ∴ ĺım n→∞ P (|X̄n − µ| ≤ ξ) = 1. ■ Ejem. 19. Considere el caso en el que los datos del experimento bajo estudio se distribuyen normal con media desconocida y varianza σ2 = 5. Cuál debe ser el tamaño de muestra que se debe recoger para evidenciar que X̄n se encuentre a una distancia de dos unidades con una probabilidad de por lo menos 0.9 Dado que se busca una distancia de dos unidades, se debe tener que ξ = 10−2 y por tal, se busca un valor n tal que P (|X̄n − µ| ≤ ξ) = 1− σ2/n ξ2 ⇐⇒ 0.9 = 1− σ 2/n ξ2 = 1− 5/n (10−2)2 o bien n = 5 0.1(10−4) = 5× 105 Estad́ısticos de orden Def. 19 (Estad́ısticos de Orden). Sea X1, . . . , Xn una m.a. observadas en un punto muestral arbitrario ω de modo tal que, se defina una colección de m.a.’s de números reales X1(ω), . . . , Xn(ω). A las v.a.’s ordenadas en forma creciente X[1] = mı́n{X1, . . . , Xn} ≤ X[2] ≤ · · · ≤ X[n−1] ≤ X[n] = máx{X1, . . . , Xn} se les conoce como estad́ısticos de orden (X[k] es el k−ésimo estad́ıstico de orden). Proposición 9. Para n ≥ 1 se tiene que 1. fX[1](x) = nfX(x)[1− F (x)]n−1 2. fX[n](x) = nfX(x)[F (x)] n−1 95 3 Demostración. Para el 1er estad́ıstico de orden se tiene que FX[1](x) = P (X[1] ≤ x) = P (mı́n{X1, . . . , Xn} ≤ x) = 1− P (mı́n{X1, . . . , Xn} > x) = 1− P (X1 > x, . . . , Xn > x) = 1− P (X1 > x) . . . P (Xn > x) = 1− [1− FX(x)]n y por tanto, diferenciando se tiene que fX[1](x) = nfX(x)[1− F (x)]n−1. De forma similar, FX[n](x) = P (X[n] ≤ x) = P (máx{X1, . . . , Xn} ≤ x) = P (X1 ≤ x, . . . ,Xn ≤ x) = P (X1 ≤ x) . . . P (Xn ≤ x) = [FX(x)] n y por tanto, diferenciando se tiene que fX[n](x) = nfX(x)[F (x)] n−1. ■ Ejem. 20. Obtenga fX[1](x) y fX[n](x) para una muestra de tamaño n = 15, de una población exponencial con parámetro λ = 3. En este caso, por definición de distribución exponencial, se tiene que fX(x) = λe −λx = 3e−3x, FX(x) = 1− e−λx = 1− e−3x y por tanto, fX[1](x) = nfX(x)[1− FX(x)]n−1 fX[1](x) = 15(3e −3x)[1− (1− e−3x)]15−1 = 45e−45x fX[n](x) = nfX(x)[FX(x)] n−1 fX[15](x) = 15 � 3e−3x � [1− e−3x]15−1 = 45e−3x[1− e−3x]14 Por otro lado, para una muestra arbitraria {Xk}nk=1, para cada k se puede definir la v.a. Yk = I(−∞,x](Xk) = � 1 si Xk ≤ x 0 si Xk > x en donde las Yk resultantes serán una colección de v.a.’s i.i.d. Bernoulli, tales que la suma Y1+· · ·+Yn corresponde al número de v.a.’s Xk que satisfacen la condición Xk ≤ x. Entonces, se debe tener que la suma Y1 + · · ·+ Yn ∼ bin(n, p), para p = FX(x) y aśı, FX[k](x) = P (X[k] ≤ x) = P (Y1 + · · ·+ Yn ≥ k) = nX j=k � n j � [FX(x)] j [1− FX(x)]n−j . 96 3 y aśı, diferenciando respecto a x se obtiene fX[k](x) = nX j=k � n j �� jfX(x)[FX(x)] j−1[1− FX(x)]n−j − (n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1 � = k � n k � fX(x)[FX(x)] k−1[1− FX(x)]n−k + nX j=k+1 � n j � jfX(x)[FX(x)] j−1[1− FX(x)]n−j+ − nX j=k � n j � (n− j)fX(x)[FX(x)]j [1− FX(x)]n−j−1 pero cambiando j − 1 por m se puede ver que nX j=k+1 � n j � jfX(x)[FX(x)] j−1[1−FX(x)]n−j = nX m=k � n m+ 1 � (m+1)fX(x)[FX(x)] m[1−FX(x)]n−m−1 y dado que � n m+ 1 � (m+ 1) = n! (n−m− 1)!(m+ 1)(m+ 1) = n! (n−m− 1)!m! = � n m � (n−m) resulta finalmente que fX[k](x) = k � n k � fX(x)[FX(x)] k−1[1− FX(x)]n−k. Ejem. 21. Obtenga fX[k](x) para k = 8, con una muestra de tamaño n = 15, tomada de una población exponencial de parámetro λ = 3. En este caso, fX[15](x) = 8 � 15 8 � � 3e−3x � � 1− e−3x �8−1 � 1− (1− e−3x) �15−8 = 154440 e−24x � 1− e−3x �7 Finalmente, esta unidad temática concluye con el concepto de función de distribución emṕırica, que se describe como: Para una v.a. X, la fda se define como FX(x) = P (X ≤ x); aśı, a partir de una m.a., se pude estimar la fda mediante Gn(x) = 1 n nX k=1 IXk≤x(x), conocida como distribución emṕırica de probabilidades y es una estimación de muestral de distribución poblacional FX(x). Simulación en R e ilustración de algunos resultados En este apartado, se revisará mediante estudios de simulación la veracidad de todas las afirmaciones que se han revisado hasta esta sección, y a manera de ejemplo se revisan algunos casos. 97 3 Ley débil de grandes números: En este caso, se demostró que para una muestra X1, . . . , Xn de v.a.’s i.i.d. con media EXk = µ y varianza σ 2, el promedio muestral converge a la media poblacional; es decir, X̄ → µ si n → ∞. Por tanto, basta con establecer una secuencia de muestras aleatorias de una misma población, con distintos tamaños de muestra y verificar cómo se comporta la diferencia d = X̄−µ. Una representación gráfica de ésta diferencia debe seguir un comportamiento decreciente (tal vez oscilando alrededor del eje horizontal) pero que se debe estabilizar para valores grandes de n. Si X1, . . . , Xn ∼ N(µ,σ2) entonce nX k=1 X2k ∼ χ2n−1. En este caso, se deben generar muestras de tamaño n de la familia Gaussiana con media µ y varianza σ2, para verificar si efectivamente la distribución de las sumas se distribuyen χ2 con n− 1 grados de libertad. Para una muestra de tamaño n = 15 de una v.a.distribuida FX(x) = 1 − e−3x, el estad́ıstico de orden X[1] sigue un modelo de probabilidad fX[1](x) = 45 e −45x En este caso, es necesario generar m muestras de una familia exponencial, de tamaño n = 15 y de ellas, seleccionar el octavo punto muestral de la muestra ordenada, para verificar si la densidad fX[1](x) se ajusta a la densidad emṕırica de los X[1]. 98 3 ——————————————————————————————————— Ejercicios 1.– Sea (X,Y ) un vec.al. con función masa de probabilidad conjunta fX,Y (x, y) = 1/24 si (x, y) ∈ {(−2,−2), (−2, 2), (2,−2), (2, 2)} 1/12 si (x, y) ∈ {(−1,−1), (−1, 1), (1,−1), (1, 1)} 1/2 si (x, y) = (0, 0) 0 en otro caso (i) ¿Es una densidad de probabilidad? (ii) Obtenga sus funciones masa de probabilidad marginales. (iii) Obtenga su función de distribución conjunta. 2.– Para FX,Y (x, y) = (1− e−x)(1− e−y) si x, y > 0 0 en otro caso (i) Verifique si se trata de una función distribución de probabilidad. (ii) Obtenga una representación gráfica de F en el rango −10 < x, y < 10. (iii) Calcule su función de densidad conjunta fX,Y (x, y) y sus marginales. (iv) Obtenga EX, EXY y Cov(x, y). (v) ¿X y Y son independientes? 3.– Para fX,Y (x, y) = � 6xy2 si 0 < x, y < 1 0 en otro caso (i) Verifique si se trata de una función densidad de probabilidad. (ii) Obtenga una representación gráfica de f en el rango −1 < x, y < 2. (iii) Calcule sus funciones de densidad marginales. (iv) Calcule su función de distribución conjunta FX,Y (x, y). (v) Obtenga EX, EXY y Cov(x, y). (vi) ¿Son X,Y independientes?. 4.– Muestre que: (a) V ar(X|Y ) = EX2 − E(E2(X|Y )) (b) V ar(X|Y ) = E(X − E(X|Y ))2 5.– Sea X discreta distribuida uniforme en {−2,−1, 1, 2} y sea Y = X2. i.– Construya la masa de probabilidad conjunta de (X,Y ) y verifique si X y Y son independientes. 99 3 ii.– Calcule ρX,Y 6.– Verifique si: i.– para una constante arbitraria c se tiene que ρ(cX, Y ) = cρ(X,Y ) ii.– ρ(X1 +X2, Y ) = ρ(X1, Y ) + ρ(X2, Y ) iii.– para Y = aX + b, con a ̸= 0 se tiene que ρ(X,Y ) = a|a| 7.– Para fX,Y (x, y) = e −y, con 0 < x < y . Calcule Σ(X,Y ) y ρ(X,Y ). 8.– Sean X,Y i.i.d. Verifique si ρ(X + Y,X − Y ) = 0 9.– Para la densidad conjunta fX,Y (x, y) = abe −(x+y), x, y > 0, calcule la función generadora de momentos bivariada MX,Y (s1, s2). 10.– Para X ∼ N(µ,σ2), obtenga la densidad de probabilidad de la v.a. Y = eX . 11.– Para X ∼ Γ(n,β), obtenga la densidad de probabilidad de la v.a. Y = ln(X). 12.– Obtenga la densidad de X +Y para (X,Y ) ∼ fX,Y (x, y) = 3(x2 + y2) 16 I(0<x<y<2)(x, y). 13.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la densidad de XY está dada por fXY = Z IR fX,Y (u/v, v)|1/v|dv 14.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la densidad de X − Y está dada por fX−Y (u) = Z IR fX,Y (u+ v, v)dv 15.– Sea (X,Y ) un vec.al. absolutamente continuo con densidad fX,Y (x, y); muestre que la densidad de X/Y está dada por fX/Y (u) = Z IR fX,Y (uv, v)|v|dv 16.– Sean X,Y v.a. i.i.d. normal estándar (µ = 0,σ2 = 1); muestre que la densidad de X/Y está dada por fX/Y (u) = 1 π(1 + u2) , u ∈ IR densidad de Cauchy. 17.– Sea X1, . . . , Xn una m.a. de la distribución N(µ,σ 2). Muestre que los estad́ısticos X̄ y S2 son independientes. 100 3 18.– Si X ∼ t(n), entonces X2 ∼ F (1, n). 19.– Si X,Y son independientes y distribuidas χ2, tales que X ∼ χ2n y X + Y ∼ χ2n+m. Entonces Y ∼ χ2m. 20.– Sean X1, . . . , Xn iid∼ N(µ,σ2), muestre que nX k=1 (Xk − µ)2 σ2 ∼ χ2n. 21.– Si X1, . . . , Xn es una m.a. de una familia N(µ,σ 2), entonces X̄ − µ S/ √ n ∼ tn−1. 22.– Para una m.a. X1, . . . , Xn, el rango se define como la diferencia entre el máximo y el mı́nimo. Obtenga la densidad de probabilidad del rango para una colección de m.a.’s i.i.d. exponencial(3) con n = 15. Bibliograf́ıa [1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369- 7, pp 654. [2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd Edition, Springer-Verlag. [3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw- Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México. [4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury Thomson Learning. ISBN 0-534-24312-6. [5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I, John Wiley & Sons, Inc., New York · London · Sydney. [6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical statistics. Upper Saddle River, N.J: Pearson Education. [7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Differential Forms, second edition, Prentice Hall. [8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc., Caṕıtulo 9. [9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing Company, English translation which appeared in Russian, 1936. Para los interesados, está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/ kolmogorov_foundations.pdf [10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar, España. [11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic Processes, McGraw−Hill, Inc. [12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp. 984. [13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585. 101
Compartir