Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Introduccion a la Estad́ıstica (Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) Distribución discreta conjunta Rotnitzky, Ferrari, Cersosimo, Smucler Universidad Torcuato Di Tella Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 1 / 68 Introducción Hasta ahora hemos estudiado las propiedades de variables aleatorias individuales y sus distribuciones. Sin embargo, muchas veces estamos interesados en estudiar como interactuan dos o más variables. Por ejemplo: cómo es la relación entre el salario y los años de educación el precio de venta de un inmueble y la tasa de asaltos del barrio la tasa de inflación y el gasto público el retorno anual de un portafolio de acciones y el retorno anual de un bono soberano En estas filminas estudiaremos los conceptos fundamentales para caracterizar la relación entre varias variables aleatorias. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 2 / 68 Ejemplo Suponé que X e Y son los retornos mensuales por cada 100 dólares, de dos portafolios de inversiones, el primero más conservador y el segundo más agresivo. Suponé que los posibles retornos en dólares son, para el portafolio agresivo -4,-2,2,4, y para el conservador, -2,-1,1 y 2 . estudiando los registros históricos de los últimos 48 meses, construiste la siguiente tabla de probabilidades x -2 -1 1 2 -4 0.06 0.05 0.02 0.01 y -2 0.04 0.17 0.10 0.04 2 0.03 0.09 0.19 0.05 4 0.01 0.02 0.05 0.07 Por ejemplo, P (X = �1,Y = 2) = 0.09 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 3 / 68 Función de probabilidad de masa conjunta Definición: la función de probabilidad de masa conjunta del vector aleatorio (X ,Y ) o función de densidad de (X ,Y ) se define como pXY (x , y) = P (X = x ,Y = y) Resultado: sean X e Y los soportes X e Y . Entonces  x2X  y2Y pXY (x , y) = 1 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 4 / 68 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 5 / 68 Distribución marginal pX (�2) = P (X = �2) = P ((X = �2,Y = �4) ó (X = �2,Y = �2) ó (X = �2,Y = 2) ó (X = �2,Y = 4)) = pXY (�2,�4) + pXY (�2,�2) + pXY (�2, 2) + pXY (�2, 4) = 0.06+ 0.04+ 0.03+ 0.01 = 0.14 En general, pX (x) =  y2Y pXY (x , y) donde Y = {�4,�2, 2, 4} . pX ,Y (x, y ) x pY (y ) -2 -1 1 2 -4 0.06 0.05 0.02 0.01 0.14 y -2 0.04 0.17 0.10 0.04 0.35 2 0.03 0.09 0.19 0.05 0.36 4 0.01 0.02 0.05 0.07 0.15 pX (x) 0.14 0.33 0.36 0.17 1 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 6 / 68 Distribución marginal Proposición: dado un vector aleatorio (X ,Y ) cuyas componentes X e Y son variables aleatorias discretas con soportes X e Y respectivamente, la funciones de probabilidad de masa de X e Y satisfacen pX (x) =  y2Y pXY (x , y ) y pY (y ) =  x2X pXY (x , y ) A pX (x) y pY (y ) se las llama funciones de prob. de masa marginales de X e Y . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 7 / 68 Distribución de una función de dos variables aleatorias. Suponé que invert́ıs 300$ en el portafolio conservador y 200$ en el agresivo. El retorno de tu inversión es Z = 3X + 2Y ¿Cuál es el soporte de Z? ¿Cuál es la fc. de prob. de masa de Z? Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 8 / 68 Distribución de una función de dos variables aleatorias. Los valores en paréntesis son los que toma Z cuando X e Y toman los valores indicados en la respectiva columna y fila. Los valores sin paréntesis son pXY (x, y ) x -2 -1 1 2 -4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2) y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2) 2 0.03(�2) 0.09(1) 0.19(7) 0.05(10) 4 0.01(2) 0.02(5) 0.05(11) 0.07(14) Entonces, por ejemplo pZ (�2) = P (Z = �2) = pXY (2,�4) + pXY (�2, 2) = 0.01+ 0.03 = 0.04 En general, pZ (z) =  (x ,y ):3x+2y=z pXY (x, y ) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 9 / 68 Distribución de una función de dos variables aleatorias. x -2 -1 1 2 -4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2) y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2) 2 0.03(�2) 0.09(1) 0.19(7) 0.05(10) 4 0.01(2) 0.02(5) 0.05(11) 0.07(14) z pZ (z) -14 0.06 -11 0.05 -10 0.04 -7 0.17 -5 0.02 -2 0.04 -1 0.10 1 0.09 2 0.05 5 0.02 7 0.19 10 0.05 11 0.05 14 0.07 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 10 / 68 Distribución de una función de dos variables aleatorias. Proposición: sea (X ,Y ) un vector aleatorio con X e Y discretas, y con función de prob. de masa conjunta pXY (x , y) . Sea Z = g (X ,Y ) para alguna función g dada, entonces la función de prob. de masa de Z satisface pZ (z) =  (x ,y ):g (x ,y )=z pXY (x , y) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 11 / 68 Esperanza de una función de dos variables aleatorias. Proposición: sean X e Y v.a. discretas con soportes X e Y y sea pXY (x , y ) la fc. de prob. de masa conjunta de (X ,Y ) . Si Z = g (X ,Y ) para alguna g dada, entonces E (Z ) =  x2X  y2Y g (x , y )⇥ pXY (x , y ) Demostración: sea Z el soporte de Z . E (Z ) =  z2Z zpZ (z) =  z2Z z 2 4  (x ,y ):g (x ,y )=z pXY (x , y ) 3 5 =  z2Z 2 4  (x ,y ):g (x ,y )=z z ⇥ pXY (x , y ) 3 5 =  z2Z 2 4  (x ,y ):g (x ,y )=z g (x , y )⇥ pXY (x , y ) 3 5 =  x2X  y2Y g (x , y )⇥ pXY (x , y ) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 12 / 68 Corolario: esperanza de una combinación lineal de dos v.a. Proposición: si X y Y son variables aleatorias discretas y a y b son constantes, entonces E (aX + bY ) = aE (X ) + bE (Y ) Demostración: sea g (x , y ) = ax + by . Entonces E (aX + bY ) =  x2X  y2Y g (x , y )⇥ pXY (x , y ) =  x2X  y2Y (ax + by )⇥ pXY (x , y ) =  x2X  y2Y (ax)⇥ pXY (x , y ) +  x2X  y2Y (by )⇥ pXY (x , y ) =  x2X (ax) y pXY (x , y ) | {z } pX (x) +  y2Y (by ) x pXY (x , y ) | {z } pY (y ) =  x2X (ax) pX (x) +  y2Y (by ) pY (y ) = a  x2X xpX (x) + b  y2Y ypY (y ) = aE (X ) + bE (Y ) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 13 / 68 Cálculo de E(Z) en el ejemplo aplicando la proposición Recordá�que�Z�=�3X�+�2Y�.�Para�calcular�E�(Z�)�podŕıamos�DBMDVMBS�la�distribución�de� Z�que�calculamos�anteriormente. Ahora�vamos�a�calcular�E�(Z�)�usando� la�proposición�de� la�filmina�anterior. pX ,Y (x , y ) x pY (y ) -2 -1 1 2 -4 0.06 0.05 0.02 0.01 0.14 y -2 0.04 0.17 0.10 0.04 0.35 2 0.03 0.09 0.19 0.05 0.36 4 0.01 0.02 0.05 0.07 0.15 pX (x) 0.14 0.33 0.36 0.17 1 E (Z ) = 3E (X ) + 2E (Y ) E (X ) = (�2)⇥ 0.14+ (�1)⇥ 0.33+ 1⇥ 0.36+ 2⇥ 0.17 = 0.09 E (Y ) = (�4)⇥ 0.14+ (�2)⇥ 0.35+ 2⇥ 0.36+ 4⇥ 0.15 = 0.06 Luego, 3E (X ) + 2E (Y ) = 3⇥ 0.09+ 2⇥ 0.06 = 0.39 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 14 / 68 Más de dos variables aleatorias Suponéque X1,X2, ...,Xk son k v.a., por ejemplo, los retornos de k portafolios (siendo k � 2). Definición: la función de prob. de masa conjunta de (X1,X2, ...,Xk) es pX1X2...Xk (x1, ..., xk) = P (X1 = x1,X2 = x2, ...,Xk = xk) La distribucion marginal de Xi satisface pXi (x) =  x1 ...  xi�1  xi+1 ... xk pX1X2...Xk (x1, ..., xi�1, x , xi+1, ..., xk) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 15 / 68 Más de dos variables aleatorias Proposición: si (X1,X2, ...,Xk) es un vector aleatorio e Y = g (X1,X2, ...,Xk) , donde g es una función dada, entonces E (Y ) =  x1 ... xk g (x1, x2, ..., xk) pX1X2...Xk (x1, ..., xk) Proposición: si (X1,X2, ...,Xk) es un vector aleatorio y a1, ..., ak son constantes, entonces E (a1X1 + a2X2 + ...+ akXk) = a1E (X1)+ a2E (X2)+ ...+ akE (Xk) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 16 / 68 Condicionar una variable aleatoria en un evento Suponé que te enterás que un evento dado A es cierto, ¿cómo cambia la fc de prob de masa de una v.a. X después de que recibiste esta evidencia? Ejemplo: yo tiro un dado y te cuento que cayó en un número mayor o igual que 4. llamá X a la v.a. que registra el número de la cara en la que cayó el dado, antes de que te informara nada, tu fcn de prob. de masa era pX (x) = 1/6 para todo x = 1, ..., 6, la información que te doy es que el evento A = (X � 4) es cierto, después de que recibiste mi información, calculás pX (x |A) = P ((X = x) \A) P (A) P ((X = x) \A) = ⇢ 0 si x = 1, 2 ó 3 P (X = x) = 1/6 y P (A) = 3/6 Luego pX (x |A) = ( 0 si x = 1, 2 ó 3 (1/6) 3/6 = 1 3 si x = 4, 5, 6 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 17 / 68 Condicionar una variable aleatoria en un evento Definicion: dada una variable aleatoria X y un evento A, la función de probabilidad de masa condicional de X dado el evento A, se define como pX (x |A) = P ((X = x) \ A) P (A) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 18 / 68 Condicionar una v.a. en otra v.a. Volvamos al ejemplo de los dos portafolios. pX ,Y (x, y ) x pY (y ) -2 -1 1 2 -4 0.06 0.05 0.02 0.01 0.14 y -2 0.04 0.17 0.10 0.04 0.35 2 0.03 0.09 0.19 0.05 0.36 4 0.01 0.02 0.05 0.07 0.15 pX (x) 0.14 0.33 0.36 0.17 1 Supongamos que un oráculo me sopla al oido que el retorno del portafolio conservador será 1 dólar. ¿Cuál es mi función de prob. de masa del retorno del portafolio agresivo ahora? Me entero que el evento A = (X = 1) es cierto. Luego, corresponde calcular la función La siguiente tabla realiza el calculo P (X = 1,Y = y ) P (X = 1) P (X = 1,Y = y ) /P (X = 1) -4 0.02 0.36 0.02/0.36 ⇡ 0.06 y -2 0.10 0.36 0.10/0.36 ⇡ 0.27 2 0.19 0.36 0.19/0.36 ⇡ 0.53 4 0.05 0.36 0.05/0.36 ⇡ 0.14 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 19 / 68 Prob. condicional vs prob. marginal Comparemos la probabilidad marginal de Y con la prob. condicional de Y dado X = 1. P (Y = y ) P (Y = y |X = 1) -4 0.14 0.06 y -2 0.35 0.27 2 0.36 0.53 4 0.15 0.14 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 20 / 68 Función de prob. de masa condicional Definición: Dadas dos variables aleatorias discretas X e Y , para cada x en el soporte de X , la fc. de probabilidad de masa condicional de Y dado X = x se define como pY |X (•|x) = pX ,Y (x , •) pX (x) para cada y en el soporte de Y , la fc. de probabilidad de masa condicional de X dado X = x se define como pX |Y (•|y) = pX ,Y (•, y) pY (y) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 21 / 68 Función de probabilidad de masa condicional Observá que si X es el soporte de X e Y es el soporte de Y , para cada valor de x 2 X , pY |X (·|x) es una fc de prob de masa. Luego, pY |X (y |x) � 0 para todo y 2 Y y  y2Y pY |X (y |x) = 1 para cada valor de y 2 Y , pX |Y (·|y) es una fc de prob de masa. Luego, pX |Y (x |y) � 0 para todo x 2 X y  x2X pX |Y (x |y) = 1 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 22 / 68 Fc. de prob. de masa condicional La fc. de prob. de masa de Y dado X = x , pY |X (y |x) , se obtiene re-normalizando, es decir, dividiendo por pX (x) , la columna de la fc. de dist. conjunta pX ,Y (•, •) compatible con el evento (X = x) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 23 / 68 Fc. de prob. de masa condicional dadas varias v.a. Definición: Dadas n variables aleatorias discretas X1, ...,Xn con soportes X1, ...,Xn, la fc. de prob. de masa condicional de Xi dados X1�=�x1,�...,�Xi�1�=�xi�1,�Xi+1�=�xi+1,�...,�Xn�=�xn� se�define,�para�todo�xJ�2�XJ�,�J=�1,�...,�n,�como pXi |X1,...,Xi�1,Xi+1,...,Xn (•|x1, .., xi�1, xi+1, ..., xn) = pX1,...,Xn (x1, .., xi�1, •, xi+1, ..., xn) pX1,...,Xi�1,Xi+1,...,Xn (x1, .., xi�1, xi+1, ..., xn) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 24 / 68 Regla de multiplicación para v.a. Supongamos que X ,Y ,Z son tres v.a. por ejemplo, cada una es el retorno de tres portafolios distintos. Entonces, por la regla de multiplicación para eventos sabemos que P (X = x ,Y = y ,Z = z) = P (X = x)P (Y = y |X = x)P (Z = z |X = x ,Y = y ) Luego, pXYZ (x , y , z) = pX (x) pY |X (y |x) pZ |XY (z |x , y ) Mas generalmente, si tenemos k variables aleatorias X1,X2, ...,Xk , vale que pX1,X2,...,Xk (x1, x2, ..., xk ) = pX1 (x1) pX2 |X1 (x2|x1) pX3 |X1X2 (x3|x1, x2) · · · pXk |X1X2...Xk�1 (xk |x1, x2, ..., xk�1) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 25 / 68 Esperanza condicional Las carreras ofrecidas en cierta universidad duran 4 años. Al finalizar cada año, los alumnos rinden un exámen sobre el contenido de las materias cursadas durante ese año. Las calificaciones posibles, de menor a mayor, son 1,2,3,4. Suponé que al final del año eleǵıs un alumno al azar y registrás: X = año que acaba de finalizar Y = nota que obtuvo en el exámen final Como eleǵıs al alumno completamente al azar, entonces pXY (x, y ) = fracción de alumnos del total que cursaron año x y obtuvieron nota y Suponé que pXY (x , y ) x (año) pY (y ) 1 2 3 4 1 0.10 0.05 0.03 0.03 0.21 y 2 0.08 0.10 0.07 0.05 0.30 (nota) 3 0.07 0.06 0.09 0.06 0.28 4 0.05 0.03 0.05 0.08 0.21 pX (x) 0.30 0.24 0.24 0.22 1 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 26 / 68 Esperanza condicional En la siguiente tabla, cada columna registra la fc de prob. de masa condicional de la nota Y dado cada año x. En la última fila, la tabla registra la esperanza de la nota Y dado cada año x pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) 1 0.33 0.21 0.125 0.14 y 2 0.27 0.42 0.29 0.23 (nota) 3 0.23 0.25 0.375 0.27 4 0.17 0.12 0.21 0.36 E (Y |X = x) 2.24 2.28 2.67 2.85 Observá que pY |X (y |1) es la fracción del total de alumnos de 1er año que se sacó nota y , pues como dijimos anteriormente, en este problema, pXY (x, y ) es la fracción de alumnos del total de la universidad que está en el año x y que se sacó notay . E (Y |X = 1) = 1⇥ 0.33+ 2⇥ 0.27+ 3⇥ 0.23+ 4⇥ 0.17 = 2.24 Luego, E (Y |X = 1) es el promedio de las notas de todos los alumnos de 1er año. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 27 / 68 Esperanza condicional Definición: dadas dos variables aleatorias X e Y discretas con soportes X e Y , la esperanza condicional de Y dado X = x para x 2 X es la esperanza de la distribución pY |X (·|x) , es decir E (Y |X = x) =  y2Y ypY |X (y |x) Observá que E (Y |X = x) puede tomar valores diferentes para cada valor de x por lo que es, en realidad, una función de x . O sea, x ! E (Y |X = x) es la función que a cada x le asigna el valor E (Y |X = x) . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 28 / 68 Ilustrar la relación entre dos v.a. La esperanza condicional es útil para resumir la relación que existe entre dos variables Y y X . Por ejemplo, explorando x (año) 1 2 3 4 E (Y |X = x) 2.24 2.28 2.67 2.85 vemos que la esperanza de la calificación aumenta a medida que avanzan los años de estudio. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 29 / 68 Esperanza condicional para ilustrar la relación entre dos v.a. Pensemos algunas posibles explicaciones de la relación creciente entre año y nota. Algunas que se me ocurren son: Los alumnos mejoran su capacidad de aprendizaje Los alumnos estudian más Los alumnos aprenden a tomar exámenes Los exámenes de los cursos de los años superiores son más fáciles Los alumnos de los años superiores son un grupo ”selecto” conformado por aquellos que ”sobrevivieron” a los años inferiores (observá que, de acuerdo a la distribución de X -año-, hay mas alumnos en los años inferiores que superiores) x (año) 1 2 3 4 pX (x) 0.30 0.24 0.24 0.22 La calidad de la educación secundaria ha ido disminuyendo, por lo que los alumnos de los años superiores llegaron mejor preparados a la universidad. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 30 / 68 Esperanza de una esperanza condicional De la fc. de prob. conjunta pXY (x , y ) x (año) pY (y ) 1 2 3 4 1 0.10 0.05 0.03 0.03 0.21 y 2 0.08 0.10 0.07 0.05 0.30 (nota) 3 0.07 0.06 0.09 0.06 0.28 4 0.05 0.03 0.05 0.08 0.21 pX (x) 0.30 0.24 0.24 0.22 1 podemos calcular la esperanza de la nota de un alumno elegido al azar: E (Y ) = 1⇥ pY (1) + 2⇥ pY (2) + 3⇥ pY (3) + 4⇥ pY (4) = 1⇥ 0.21+ 2⇥ 0.30+ 3⇥ 0.28+ 4⇥ 0.21 = 2.49 Observá que el cálculo de E (Y ) usó los valores de pY (y ) para todo y . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 31 / 68 Esperanza de una esperanza condicional Ahora, suponé que querés calcular E (Y ) y no conocés la función pY , pero en cambio tenés la siguiente información: 1. pX (x) para cada año x , y 2. E (Y |x) para cada año x Es decir, te doy la siguiente información: 1. la fracción del total de alumnos que está en cada año x 2. el promedio de las notas de cada año x por separado. O sea, suponé que conocés la siguiente tabla x 1 2 3 4 E (Y |X = x) 2.24 2.28 2.67 2.85 pX (x) 0.30 0.24 0.24 0.22 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 32 / 68 Esperanza de una esperanza condicional ¿Cómo calculás E (Y ) , el promedio de las notas de todos los alumnos de la universidad conociendo solo la tabla x 1 2 3 4 E (Y |X = x) 2.24 2.28 2.67 2.85 pX (x) 0.30 0.24 0.24 0.22 Respuesta: el cálculo es E (Y ) = E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2) + E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4) Corroboremos que esto es cierto E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2) + E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4) = 2.24⇥ 0.30+ 2.28⇥ 0.24+ 2.67⇥ 0.24+ 2.85⇥ 0.22 = 2.49 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 33 / 68 Esperanza de una esperanza condicional La intuición del cálculo es la siguiente: El promedio global de todas las notas de la universidad es el promedio ponderado de los promedios de las notas de los alumnos de cada año x = 1, 2, 3, 4, donde la ponderación es proporcional al número de alumnos que cursan el año x . Área de cada rectangulo proporcional al numero de alumnos en cada año. Promedio global: cada promedio de los promedios 2.24, 2.28, 2.67 y 2.86 ponderados por el area de cada rectángulo Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 34 / 68 Esperanza de una esperanza condicional Teorema. Sea (X ,Y ) un vector aleatorio de variables discretas y sea X el soporte de X . Entonces E (Y ) =  x2X E (Y |X = x) pX (x) Si ahora recordamos que x ! E (Y |X = x) es una función entonces, recordando la fórmula para la esperanza de una función de una variable aleatoria, concluimos que el teorema establece la siguiente fórmula, conocida como la ley de esperanza total o ley de la doble esperanza E (Y ) = E [E (Y |X )] Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 35 / 68 Esperanza de una esperanza condicional Demostración del teorema: sea Y el soporte de Y . Entonces, E (Y ) =  y2Y ypY (y ) =  y2Y y  x2X pXY (x , y ) =  y2Y y  x2X pX (x) pX |Y (x |y ) =  x2X pX (x)  y2Y ypX |Y (x |y ) | {z } =E (Y |X=x) =  x2X E (Y |X = x) pX (x) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 36 / 68 Varianza condicional Aśı como calculamos la esperanza de la nota Y para cada año x, tambien podemos calcular la varianza de la nota Y para cada año x. pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) 1 0.33 0.21 0.125 0.14 y 2 0.27 0.42 0.29 0.23 (nota) 3 0.23 0.25 0.375 0.27 4 0.17 0.12 0.21 0.36 E (Y |X = x)2 2.242 2.282 2.672 2.852 E � Y 2|X = x � 6.2 6.06 8.02 9.25 Var (Y |X = x) 1.18 0.87 0.89 1. 12 Por ejemplo, E ⇣ Y 2|X = 1 ⌘ = 12 ⇥ 0.33+ 22 ⇥ 0.27+ 32 ⇥ 0.23+ 42 ⇥ 0.17 = 6.2 var (Y |X = 1) = E ⇣ Y 2|X = 1 ⌘ � [E (Y |X = 1)]2 = 6.2� 2.242 = 1.1824 var (Y |X = x) mide el cuadrado de la dispersión de las notas de los alumnos en el año x. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 37 / 68 Varianza condicional Definición: dadas dos variables aleatorias X e Y discretas con soportes X y Y , para cualquier x 2 X la varianza condicional de Y dado X = x es la varianza de la distribución pY |X (·|x) , es decir var (Y |X = x) =  y2Y (y � E (Y |X = x))2 pY |X (y |x) O sea, var (Y |X = x) = E h (Y � E (Y |X = x))2 |X = x i Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 38 / 68 Varianza condicional Recordando la fórmula alternativa para la varianza, obtenemos también la fórmula alternativa var (Y |X = x) = E � Y 2|X = x � � [E (Y |X = x)]2 o sea var (Y |X = x) =  y2Y y2pY |X (y |x)� "  y2Y ypY |X (y |x) #2 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 39 / 68 Varianza condicional Observá que al igual que la esperanza condicional, la varianza condicional es una función x ! var (Y |X= x) que a cada x le asigna el valor var (Y |X = x) . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 40 / 68 Ley de varianza total Aśı como existe una fórmula que relaciona la esperanza marginal de Y con las esperanzas condicionales de Y dado X = x , también existe una relación entre la varianza marginal de Y (es decir la varianza de la distribución pY (y )), con las varianzas condicionales, pero esta relación también involucra las esperanzas condicionales. Teorema (Ley de varianza total): Sea (X ,Y ) un vector aleatorio de variables discretas y sea X el soporte de X . Entonces, var (Y ) =  x2X var (Y |X = x) pX (x) +  x2X [E (Y |X = x)� E (X )]2 pX (x) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 41 / 68 Ley de varianza total Recordando que x ! var (Y |X = x) es una función,  x2X var (Y |X = x) pX (x) = E [var (Y |X )] y recordando que E (Y ) = E [E (Y |X )] ,  x2X [E (Y |X = x)� E (Y )]2 pX (x) = var [E (Y |X )] De modo que la Ley de Varianza Total establece que var (Y ) = E [var (Y |X )] + var [E (Y |X )] Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 42 / 68 Intuición de la ley de var. total en nuestro ejemplo E [var (Y |X )] es el promedio de las varianzas de las notas var (Y |X = x) para los grupos x = 1, 2, 3, 4. Observá que var (Y |X = x) mide la dispersión, al cuadrado, de las notas en el grupo x . Es la varianza dentro de cada grupo x . A las varianzas var (Y |X = x) se las llama varianza-intra-grupo . Entonces, E [var (Y |X )] mide el cuadrado de cuánto, ”en promedio”, se dispersan las notas en cada grupo. var [E (Y |X )] es la varianza de los promedios E (Y |X = x) para los grupos x = 1, 2, 3, 4. Estos promedios, miden la performance promedio de cada grupo. Entonces, intuitivamente var [E (Y |X )] mide cuán dispersas están las performances de los distintos grupos. A var [E (Y |X )] se la llama varianza-entre-grupos Entonces, el teorema descompone a la varianza de la nota en toda la universidad como: varianza total = varianza-intra-grupo + varianza-entre-grupos Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 43 / 68 Explicación gráfica de la ley de varianza total Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 44 / 68 Variables aleatorias dependientes e independientes En nuestro ejemplo, pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y ) 1 0.33 0.21 0.125 0.14 0.21 y 2 0.27 0.42 0.29 0.23 0.30 (nota) 3 0.23 0.25 0.375 0.27 0.28 4 0.17 0.12 0.21 0.36 0.21 Entonces, cualquiera sea el x , pY |X (y |x) 6= pY (y) para al menos un valor de y O sea, la distribución condicional de Y dado X = x no coincide con la distribución de Y De modo que enterarnos en que año está el alumno sorteado cambia nuestro ”pronóstico” sobre la nota que se sacó. Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 45 / 68 Variables aleatorias dependientes e independientes Pero ahora supongamos que la distribución conjunta de (X ,Y ) fuera pXY (x , y ) x (año) pY (y ) 1 2 3 4 1 0.075 0.06 0.06 0.055 0.25 y 2 0.1125 0.09 0.09 0.0825 0.375 (nota) 3 0.075 0.06 0.06 0.055 0.25 4 0.0375 0.03 0.03 0.0275 0.125 pX (x) 0.30 0.24 0.24 0.22 1 En este caso, podemos comprobar que pY |X (y |x) = pY (y) para todo x e y Por ejemplo, pY |X (2|4) = pXY (4, 2) pX (4) = 0.0825 0.22 = 0.375 = pY (2) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 46 / 68 Variables aleatorias dependientes e independientes En este caso, tenemos que pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y ) 1 0.25 0.25 0.25 0.25 0.25 y 2 0.375 0.375 0.375 0.375 0.375 (nota) 3 0.25 0.25 0.25 0.25 0.25 4 0.125 0.125 0.125 0.125 0.125 Todas las columnas son iguales. Cuando esto ocurre, decimos que X e Y son variables aleatorias independientes . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 47 / 68 Variables aleatorias dependientes e independientes Definición: dos variables aleatorias discretas X e Y con soportes X e Y son independientes cuando pX |Y (x |y) = pX (x) para todo x 2 X e y 2 Y o equivalentemente, cuando vale cualquiera de las siguientes afirmaciones 1. pY |X (y |x) = pY (y) para todo x 2 X e y 2 Y 2. pXY (x , y) = pX (x) pY (y) para todo x 2 X e y 2 Y Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 48 / 68 Independencia de más de dos v.a. La noción de independencia se generaliza a mas de dos v.a. de la siguiente forma. Definición: se dice que las variables aleatorias X1,X2, ...,Xk con soportes Xj , j = 1, ..., k , son mutuamente - o simultaneamente - independientes cuando pX1X2...Xk (x1, ..., xk) = k ’ j=1 pXj (xj ) para todo xj 2 Xj , j = 1, ..., k Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 49 / 68 Independencia de más de dos v.a. Es posible probar que si X1,X2, ...,Xk son mutuamente independientes, entonces conocer los valores de cualquier subconjunto de las variables X1,X2, ...,Xk no cambia nuestra probabilidad sobre las restantes variables aleatorias. Formalmente: si {j1, ..., jl} es un subconjunto de {1, ..., k} y {h1, ..., hk�l} es el conjunto de restantes indices, entonces pXj1Xj2 ...Xjl |Xh1Xh2 ...Xhk�l � xj1 , ..., xjl |xh1 , xh2 , ..., xhk�l � = pXj1Xj2 ...Xjl � xj1 , ..., xjl � Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 50 / 68 Independencia de más de dos v.a. El resultado de la filmina anterior tiene la siguiente important́ısima consecuencia, cuya demostración no veremos. Proposición: sean X1,X2, ...,Xk mutuamente independientes . Sean Z = g (Xj1 , ...,Xjl ) y W = q � Xh1 ,Xh2 , ...,Xhk�l � donde�g�y�h�son�dos�funciones�cualesquiera,�y�{j1,�...,�jl�}�y� {h1,�...,�hk�l�}�son�dos�conjuntos�de� ı́ndices�disjuntoT.� Entonces Z y W son independientes Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 51 / 68 Esperanza del producto de funciones de v.a. independientes Antes hemos visto que para cualquier función g (x , y) se verifica que cuando X e Y son variables aleatorias discretas, E [g (X ,Y )] =  x2X  y2Y g (x , y) pXY (x , y) Cuando X e Y son independientes, el siguiente utiĺısimo resultado nos permite evitar calcular sumas dobles para ciertas funciones g (x , y). Teorema: Supongamos que X e Y son variables discretas independientes . Sea Z = h (X ) q (Y ) Entonces E (Z ) = E [h (X ) q (Y )] = E [h (X )]⇥ E [q (Y )] Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 52 / 68 Demostración del teorema. Demostración del teorema: sean X e Y los soportes de X e Y . E [h (X ) q (Y )] =  x2X  y2Y h (x) q (y ) pXY (x , y )| {z } =pX (x)pY (y ) por independ. =  x2X  y2Y h (x) q (y ) pX (x) pY (y ) =  x2X h (x) pX (x) 2 666664  y2Y q (y ) pY (y ) | {z } =E [q(Y )] 3 777775 = E [q (Y )]  x2X h (x) pX (x) | {z } =E [h(X )] = E [h (X )]E [q (Y )]Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 53 / 68 Varianza de la suma de v.a. independientes El teorema anterior nos permite deducir el siguiente important́ısimo resultado Teorema: si X e Y son variables aleatorias discretas independientes , entonces var (X + Y ) = var (X ) + var (Y ) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 54 / 68 Demostración del teorema. Demostración del teorema: var (X +Y ) = E h (X +Y )2 i � [E (X +Y )]2 = E h (X +Y )2 i � [E (X ) + E (Y )]2 = E h⇣ X 2 + 2XY +Y 2 ⌘i � h [E (X )]2 + 2E (X )E (Y ) + [E (Y )]2 i = h E ⇣ X 2 ⌘ + 2E (XY ) + E ⇣ Y 2 ⌘i � h [E (X )]2 + 2E (X )E (Y ) + [E (Y )]2 i = h E ⇣ X 2 ⌘ � [E (X )]2 i | {z } =var(X ) + h E ⇣ Y 2 ⌘ � [E (Y )]2 i | {z } = var(Y ) + [2E (XY )� 2E (X )E (Y )] | {z } =0 por independencia Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 55 / 68 Varianza de la suma de v.a. independientes Corolario 1: si X1,X2, ...,Xk son v.a. discretas mutuamente independientes, entonces var (X1 + X2 + ...+ Xk) = var (X1) + var (X2) + ...+ var (Xk) Corolario 2: si X1,X2, ...,Xk son v.a. discretas mutuamente independientes y var (Xi ) = s2 es la misma para todo i , entonces, var (X1 + X2 + ...+ Xk) = ks 2 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 56 / 68 Demostración del corolario 1. Demostración del corolario 1: sea Z = X1 + X2 + ...+ Xk�1, entonces la independencia mútua de X1, ...,Xk implica la independencia de Z y Xk . Entonces var (X1 + X2 + ...+ Xk ) = var (Z + Xk ) = var (Z ) + var (Xk ) Ahora, sea W = X1 + X2 + ...+ Xk�2. Entonces, Z = W + Xk�1 donde W y Xk�1 son independientes. Entonces var (Z ) = var (W ) + var (Xk�1) por lo tanto var (X1 + X2 + ...+ Xk ) = var (W ) + var (Xk�1) + var (Xk ) y asi continuamos hasta arribar a var (X1 + X2 + ...+ Xk ) = var (X1) + var (X2) + ...+ var (Xk ) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 57 / 68 Ejemplo aplicando descomposición de esperanza y varianza a sumas de v.a. independientes. Suponé que el número N de clientes que realizan una compra en un supermercado en un d́ıa de la semana cualquiera es una v.a. Poisson(l) con l = 3000. Suponé que los clientes no están relacionados entre śı y que sus gastos no están relacionados con N. Llamá Yi al gasto del i�ésimo cliente, y suponé que E (Yi ) = 500 y Var (Yi ) = 900 ¿Cuál es la esperanza y el desv́ıo estandard del total de ventas en un d́ıa cualquiera de la semana? Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 58 / 68 Descomposiciones de esperanza y varianza: ejemplo Solución: El total de ventas es S = Y1 + Y2 + ...+ YN Sabemos que E (S |N = n) = E (Y1) + ...+ E (Yn) = 500⇥ n Luego E (S) = E [E (S |N)] = E [500N ] = 500E (N) = 500⇥ 3000 = 1500000 Donde hemos usado que E (N) = 3000 porque N ⇠ Pois (3000) . Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 59 / 68 Continuación del ejemplo Por otro lado, como Y1, ..,Yn son mutuamente independientes, Var (S |N = n) = Var (Y1) + ...+ Var (Yn) = 900⇥ n Entonces Var [S ] = Var (E [S |N ]) + E (Var [S |N ]) = Var (500N) + E (900N) = 5002var (N) + 900E (N) = 225450 00 Por lo tanto SD (S) = p 225450 00 = 4748.2 Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 60 / 68 Comparación entre la esperanza y el desv́ıo de la suma de v.a. independientes Suponé que X1, ...,Xn son v.a. mutuamente independientes, tales que E (Xi ) = µ y var (Xi ) = s2 son las mismas para todo i . Entonces, E (X1 + X2 + ...+ Xn) = nµ y SD (X1 + X2 + ...+ Xn) = p ns Si µ > 0, E (X1 +X2 + ...+Xn) crece proporcionalmente a n SD (X1 +X2 + ...+Xn) crece proporcionalmente a p n Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es positiva y mucho más grande que el desvio estándard. Veremos más adelante que esto implica que la probabilidad de que la suma sea menor que 0 tiende a 0 cuando n tiende a • Si µ < 0, E (X1 +X2 + ...+Xn) decrece proporcionalmente a n SD (X1 +X2 + ...+Xn) crece proporcionalmente a p n Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es negativa y mucho más chica que el desvio estándard. Veremos más adelante que esto implica que la probabilidad de que la suma sea mayor que 0 tiende a 0 cuando n tiende a • Rotnitzky,�Ferrari,�Cersosimo,�Smucler� (UniversidadIntroducTocionrcuatoa� laDiEstadTellá� )ıstica(Cap.� 2,� sección�2.5,�2.6�y�2.7�del�Bertsekas) 61 / 68 Varianza de una v.a. binomial Usando el corolario 2 podemos deducir inmediatamente la demostración de la fórmula de la varianza de una v.a. binomial. Recordemos que si X ⇠ Bin (n, p) entonces X = Y1 + ...+ Yn donde Y1,Y2, ...,Yn son v.a. Ber (p) mutuamente independientes. Ademas, recordemos que ya hemos calculado que var (Yi ) = p ⇥ (1� p) Luego, en vista del corolario 2 var (X ) = n⇥ p ⇥ (1� p) Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 62 / 68 Covarianza Dadas dos variables aleatorias X e Y , la covarianza entre X e Y se deÖne como cov (X ,Y ) = E (XY )! E (X )E (Y ) Resultado: Si X e Y son independientes, entonces cov (X ,Y ) = 0 X e Y independientes ) cov (X ,Y ) = 0 Es posible que X e Y sean dependientes pero sin embargo tengan covarianza igual a 0. X e Y independientes 6( cov (X ,Y ) = 0 Resultado: si E (Y jX = x) no depende de x , entonces cov (X ,Y ) = 0. Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 2 / 9 Ejemplo de dos variables dependientes pero con covarianza igual a 0 SuponÈ que X e Y ahora toman valores en f1, 2, 3g , y su distribuciÛn conjunta viene dada por la siguiente table pXY (x , y ) x (aÒo) pY (y ) 1 2 3 y 1 0.12 0.15 0.12 0.39 (nota) 2 0.14 0.02 0.06 0.22 3 0.12 0.15 0.12 0.39 pX (x ) 0.38 0.32 0.30 1 La distribuciÛn conditional de Y dado X y la distribuciÛn marginal de Y quedan entonces determinadas por la siguiente tabla pY jX (y j1) pY jX (y j2) pY jX (y j3) pY (y ) y 1 0.32 0.47 0.40 0.39 (nota) 2 0.36 0.06 0.20 0.22 3 0.32 0.47 0.40 0.39 E (Y jX = x ) 2 2 2 2 Not· que Y y X son dependientes. Sin embargo, para todo x , vale que E (Y jX = x ) = E (Y ) = 2 Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 3 / 9 Calculemos ahora la covarianza entre X e Y E [XY ] = E [E (XY jX )] = E [XE (Y jX )] = E [X2] = 2E (X ) = E (Y )E (X ) Luego, E [XY ]! E (Y )E (X ) = 0 Por lo tanto, recordando que cov (X ,Y ) = E [XY ]! E (Y )E (X ) concluimos que cov (X ,Y ) = 0 a pesar de que X e Y son dependientes. Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 4 / 9 Covarianza, propiedades Claramente, la covarianza es conmutativa cov (X ,Y ) = cov (Y ,X ) Adem·s, es posible probar que la covarianza posee la propiedad de bilinearidad: cov (aX + bY ,Z ) = a( cov (X ,Z ) + b( cov (Y ,Z ) M·s generalmente cov (aX + bY , cZ + dW ) = ac ( cov (X ,Z ) + ad ( cov (X ,W ) + bc ( cov (Y ,Z ) + bd ( cov (Y ,W ) Si cov (X ,Y ) = 0 entonces var(X + Y ) = var (X ) + var (Y ) Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 5 / 9 Covarianza, expresiÛn alternativaResultado: cov (X ,Y ) = E [(X ! E (X )) (Y ! E (Y ))] Esta expresiÛn para la covarianza nos permite interpretar que la covarianza cuantiÖca una especie de tendencia a una relaciÛn lineal entre X e Y . DemostraciÛn: E [(X ! E (X )) (Y ! E (Y ))] = E [XY ! XE (Y )! YE (X ) + E (X ) E (Y )] = E [XY ]! E [XE (Y )]! E [YE (X )] + E [E (X ) E (Y )] = E [XY ]! E (Y ) E (X )! E (X ) E (Y ) + E (X ) E (Y ) = E [XY ]! E (X ) E (Y ) = cov (X ,Y ) Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 6 / 9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 covarianza cercana a 0 x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −0.5 0.0 0.5 1.0 −1 .0 −0 .5 0. 0 0. 5 1. 0 covarianza cercana a 0 x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 −2 −1 0 1 2 covarianza positiva x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 −4 −2 0 2 covarianza negativa x y Covarianza depende de la escala de mediciÛn La covarianza no es enteramente satisfactoria como medida de tendencia a una relaciÛn lineal entre dos variables porque depende de la escala de mediciÛn. Para ver esto, imaginate que querÈs medir la tendencia a una relaciÛn lineal entre los retornos X e Y de dos portafolios. SuponÈ que cuando X e Y est·n calculados en dÛlares, entonces cov (X ,Y ) = 3000 Si eX e eY miden los retornos del portafolio en centavos de dolar, entonces eX = 100X , eY = 100Y Por lo tanto, cov " eX , eY # = cov (100X , 100Y ) = 1002cov (X ,Y ) Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 7 / 9 CorrelaciÛn La correlaciÛn entre X e Y se deÖne como corr (X ,Y ) = cov (X ,Y ) p var (X ) p var (Y ) Resultado: corr (X ,Y ) = E " X ! E (X ) p var (X ) ! Y ! E (Y ) p var (Y ) !# X!E (X )p var (X ) calcula cuantos desvÌos estandard por arriba o por abajo de E (X ) est· X . Su valor no depende de la escala de mediciÛn. Lo anal·logo ocurre con Y!E (Y )p var (Y ) . Por lo tanto, la correlaciÛn, no depende de la escala de mediciÛn, pero contin˙a siendo una medida de la tendencia a una relaciÛn lineal entre X e Y Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 8 / 9 Propiedades de la correlaciÛn (1) jcorr (X ,Y )j * 1 (2) corr (X ,Y ) = 1, Y = aX + b para alg˙n a > 0, y alg˙n b (3) corr (X ,Y ) = !1, Y = aX + b para alg˙n a < 0, y alg˙n b (4) X e Y independientes ) corr (X ,Y ) = 0 X e Y independientes 6( corr (X ,Y ) = 0 (5) Si corr (X ,Y ) > 0 entonces la tendencia es a una asociaciÛn lineal creciente entre X e Y (6) Si corr (X ,Y ) < 0 entonces la tendencia es a una asociaciÛn lineal decreciente entre X e Y Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 9 / 9 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 0. 0 0. 2 0. 4 0. 6 0. 8 1. 0 correlacion 0.0542 x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −0.5 0.0 0.5 1.0 −1 .0 −0 .5 0. 0 0. 5 1. 0 correlacion = 0.0204 x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 −2 −1 0 1 2 correlacion = 0.924 x y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● −1.0 −0.5 0.0 0.5 1.0 −4 −2 0 2 correlacion = −0.9615 x y Varianza de la suma de 2 variables aleatorias cualesquiera Teorema: si X e Y son variables aleatorias discretas cualesquiera , entonces var (X + Y ) = var (X ) + var (Y ) + 2 cov (X ,Y ) Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 2 / 4 DemostraciÛn del teorema. DemostraciÛn del teorema: var (X +Y ) = E h (X +Y )2 i ! [E (X +Y )]2 = E h (X +Y )2 i ! [E (X ) + E (Y )]2 = E h# X 2 + 2XY +Y 2 $i ! h [E (X )]2 + 2E (X )E (Y ) + [E (Y )]2 i = h E # X 2 $ + 2E (XY ) + E # Y 2 $i ! h [E (X )]2 + 2E (X )E (Y ) + [E (Y )]2 i = h E # X 2 $ ! [E (X )]2 i | {z } =var(X ) + h E # Y 2 $ ! [E (Y )]2 i | {z } = var(Y ) + [2E (XY )! 2E (X )E (Y )] | {z } =2 cov(X ,Y ) Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 3 / 4 Varianza de la suma de n variables aleatorias cualesquiera Teorema: Si X1,X2, ...,Xn son variables aleatorias discretas cualesquiera , entonces var (X1 + X2 + ...+ Xn) = = var (X1) + ...+ var (Xn) + + 2 fcov (X1,X2) + cov (X1,X3) + ...+ cov (X1,Xn) + cov (X2,X3) + cov (X2,X4) + ...+ cov (X2,Xn) + ... + cov (Xn!1,Xn)g Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 4 / 4
Compartir