Slides 7 - Conjunta Discreta

Estadística

•
SIN SIGLA

tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5648 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Introduccion a la Estad́ıstica
(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas)
Distribución discreta conjunta
Rotnitzky, Ferrari, Cersosimo, Smucler
Universidad Torcuato Di Tella
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 1 / 68
 
Introducción
Hasta ahora hemos estudiado las propiedades de variables aleatorias
individuales y sus distribuciones.
Sin embargo, muchas veces estamos interesados en estudiar como
interactuan dos o más variables.
Por ejemplo: cómo es la relación entre
el salario y los años de educación
el precio de venta de un inmueble y la tasa de asaltos del barrio
la tasa de inflación y el gasto público
el retorno anual de un portafolio de acciones y el retorno anual de un
bono soberano
En estas filminas estudiaremos los conceptos fundamentales para
caracterizar la relación entre varias variables aleatorias.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 2 / 68
Ejemplo
Suponé que X e Y son los retornos mensuales por cada 100 dólares, de dos
portafolios de inversiones, el primero más conservador y el segundo más
agresivo.
Suponé que
los posibles retornos en dólares son, para el portafolio agresivo
-4,-2,2,4, y para el conservador, -2,-1,1 y 2 .
estudiando los registros históricos de los últimos 48 meses, construiste
la siguiente tabla de probabilidades
x
-2 -1 1 2
-4 0.06 0.05 0.02 0.01
y -2 0.04 0.17 0.10 0.04
2 0.03 0.09 0.19 0.05
4 0.01 0.02 0.05 0.07
Por ejemplo,
P (X = �1,Y = 2) = 0.09
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 3 / 68
Función de probabilidad de masa conjunta
Definición: la función de probabilidad de masa conjunta del vector
aleatorio (X ,Y ) o función de densidad de (X ,Y ) se define como
pXY (x , y) = P (X = x ,Y = y)
Resultado: sean X e Y los soportes X e Y . Entonces
Â
x2X
Â
y2Y
pXY (x , y) = 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 4 / 68
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 5 / 68
Distribución marginal
pX (�2) = P (X = �2)
= P ((X = �2,Y = �4) ó (X = �2,Y = �2) ó (X = �2,Y = 2) ó (X = �2,Y = 4))
= pXY (�2,�4) + pXY (�2,�2) + pXY (�2, 2) + pXY (�2, 4)
= 0.06+ 0.04+ 0.03+ 0.01
= 0.14
En general,
pX (x) = Â
y2Y
pXY (x , y)
donde Y = {�4,�2, 2, 4} .
pX ,Y (x, y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 6 / 68
Distribución marginal
Proposición: dado un vector aleatorio (X ,Y ) cuyas componentes X e Y son
variables aleatorias discretas con soportes X e Y respectivamente, la funciones de
probabilidad de masa de X e Y satisfacen
pX (x) = Â
y2Y
pXY (x , y ) y pY (y ) = Â
x2X
pXY (x , y )
A pX (x) y pY (y ) se las llama funciones de prob. de masa marginales de X e Y .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 7 / 68
Distribución de una función de dos variables aleatorias.
Suponé que invert́ıs 300$ en el portafolio conservador y 200$ en el agresivo.
El retorno de tu inversión es
Z = 3X + 2Y
¿Cuál es el soporte de Z?
¿Cuál es la fc. de prob. de masa de Z?
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 8 / 68
Distribución de una función de dos variables aleatorias.
Los valores en paréntesis son los que toma Z cuando X e Y toman los valores indicados
en la respectiva columna y fila.
Los valores sin paréntesis son pXY (x, y )
x
-2 -1 1 2
-4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2)
y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2)
2 0.03(�2) 0.09(1) 0.19(7) 0.05(10)
4 0.01(2) 0.02(5) 0.05(11) 0.07(14)
Entonces, por ejemplo
pZ (�2) = P (Z = �2)
= pXY (2,�4) + pXY (�2, 2)
= 0.01+ 0.03
= 0.04
En general,
pZ (z) = Â
(x ,y ):3x+2y=z
pXY (x, y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 9 / 68
Distribución de una función de dos variables aleatorias.
x
-2 -1 1 2
-4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2)
y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2)
2 0.03(�2) 0.09(1) 0.19(7) 0.05(10)
4 0.01(2) 0.02(5) 0.05(11) 0.07(14)
z pZ (z)
-14 0.06
-11 0.05
-10 0.04
-7 0.17
-5 0.02
-2 0.04
-1 0.10
1 0.09
2 0.05
5 0.02
7 0.19
10 0.05
11 0.05
14 0.07
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 10 / 68
Distribución de una función de dos variables aleatorias.
Proposición: sea (X ,Y ) un vector aleatorio con X e Y discretas, y
con función de prob. de masa conjunta pXY (x , y) . Sea
Z = g (X ,Y )
para alguna función g dada, entonces la función de prob. de masa de
Z satisface
pZ (z) = Â
(x ,y ):g (x ,y )=z
pXY (x , y)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 11 / 68
Esperanza de una función de dos variables aleatorias.
Proposición: sean X e Y v.a. discretas con soportes X e Y y sea pXY (x , y ) la fc.
de prob. de masa conjunta de (X ,Y ) . Si Z = g (X ,Y ) para alguna g dada,
entonces
E (Z ) = Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
Demostración: sea Z el soporte de Z .
E (Z ) = Â
z2Z
zpZ (z)
= Â
z2Z
z
2
4 Â
(x ,y ):g (x ,y )=z
pXY (x , y )
3
5
= Â
z2Z
2
4 Â
(x ,y ):g (x ,y )=z
z ⇥ pXY (x , y )
3
5
= Â
z2Z
2
4 Â
(x ,y ):g (x ,y )=z
g (x , y )⇥ pXY (x , y )
3
5
= Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 12 / 68
Corolario: esperanza de una combinación lineal de dos v.a.
Proposición: si X y Y son variables aleatorias discretas y a y b son constantes,
entonces
E (aX + bY ) = aE (X ) + bE (Y )
Demostración: sea g (x , y ) = ax + by . Entonces
E (aX + bY ) = Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
= Â
x2X
Â
y2Y
(ax + by )⇥ pXY (x , y )
= Â
x2X
Â
y2Y
(ax)⇥ pXY (x , y ) + Â
x2X
Â
y2Y
(by )⇥ pXY (x , y )
= Â
x2X
(ax)Â
y
pXY (x , y )
| {z }
pX (x)
+ Â
y2Y
(by )Â
x
pXY (x , y )
| {z }
pY (y )
= Â
x2X
(ax) pX (x) + Â
y2Y
(by ) pY (y )
= a Â
x2X
xpX (x) + b Â
y2Y
ypY (y )
= aE (X ) + bE (Y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 13 / 68
Cálculo de E(Z) en el ejemplo aplicando la proposición
Recordá�que�Z�=�3X�+�2Y�.�Para�calcular�E�(Z�)�podŕıamos�DBMDVMBS�la�distribución�de�
Z�que�calculamos�anteriormente.
Ahora�vamos�a�calcular�E�(Z�)�usando� la�proposición�de� la�filmina�anterior.
pX ,Y (x , y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
E (Z ) = 3E (X ) + 2E (Y )
E (X ) = (�2)⇥ 0.14+ (�1)⇥ 0.33+ 1⇥ 0.36+ 2⇥ 0.17 = 0.09
E (Y ) = (�4)⇥ 0.14+ (�2)⇥ 0.35+ 2⇥ 0.36+ 4⇥ 0.15 = 0.06
Luego,
3E (X ) + 2E (Y ) = 3⇥ 0.09+ 2⇥ 0.06 = 0.39
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 14 / 68
Más de dos variables aleatorias
Suponéque X1,X2, ...,Xk son k v.a., por ejemplo, los retornos de k
portafolios (siendo k � 2).
Definición: la función de prob. de masa conjunta de (X1,X2, ...,Xk)
es
pX1X2...Xk (x1, ..., xk) = P (X1 = x1,X2 = x2, ...,Xk = xk)
La distribucion marginal de Xi satisface
pXi (x) = Â
x1
... Â
xi�1
Â
xi+1
...Â
xk
pX1X2...Xk (x1, ..., xi�1, x , xi+1, ..., xk)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 15 / 68
Más de dos variables aleatorias
Proposición: si (X1,X2, ...,Xk) es un vector aleatorio e
Y = g (X1,X2, ...,Xk) , donde g es una función dada, entonces
E (Y ) = Â
x1
...Â
xk
g (x1, x2, ..., xk) pX1X2...Xk (x1, ..., xk)
Proposición: si (X1,X2, ...,Xk) es un vector aleatorio y a1, ..., ak son
constantes, entonces
E (a1X1 + a2X2 + ...+ akXk) = a1E (X1)+ a2E (X2)+ ...+ akE (Xk)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 16 / 68
Condicionar una variable aleatoria en un evento
Suponé que te enterás que un evento dado A es cierto, ¿cómo cambia la fc de prob
de masa de una v.a. X después de que recibiste esta evidencia?
Ejemplo:
yo tiro un dado y te cuento que cayó en un número mayor o igual que 4.
llamá X a la v.a. que registra el número de la cara en la que cayó el dado,
antes de que te informara nada, tu fcn de prob. de masa era pX (x) = 1/6 para
todo x = 1, ..., 6,
la información que te doy es que el evento A = (X � 4) es cierto,
después de que recibiste mi información, calculás
pX (x |A) =
P ((X = x) \A)
P (A)
P ((X = x) \A) =
⇢
0 si x = 1, 2 ó 3
P (X = x) = 1/6 y P (A) = 3/6
Luego
pX (x |A) =
(
0 si x = 1, 2 ó 3
(1/6)
3/6 =
1
3
si x = 4, 5, 6
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 17 / 68
Condicionar una variable aleatoria en un evento
Definicion: dada una variable aleatoria X y un evento A, la función
de probabilidad de masa condicional de X dado el evento A, se define
como
pX (x |A) =
P ((X = x) \ A)
P (A)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 18 / 68
Condicionar una v.a. en otra v.a.
Volvamos al ejemplo de los dos portafolios.
pX ,Y (x, y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
Supongamos que un oráculo me sopla al oido que el retorno del portafolio conservador será 1 dólar.
¿Cuál es mi función de prob. de masa del retorno del portafolio agresivo ahora?
Me entero que el evento A = (X = 1) es cierto. Luego, corresponde calcular la función La siguiente
tabla realiza el calculo
P (X = 1,Y = y ) P (X = 1) P (X = 1,Y = y ) /P (X = 1)
-4 0.02 0.36 0.02/0.36 ⇡ 0.06
y -2 0.10 0.36 0.10/0.36 ⇡ 0.27
2 0.19 0.36 0.19/0.36 ⇡ 0.53
4 0.05 0.36 0.05/0.36 ⇡ 0.14
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 19 / 68
Prob. condicional vs prob. marginal
Comparemos la probabilidad marginal de Y con la prob. condicional de Y dado X = 1.
P (Y = y ) P (Y = y |X = 1)
-4 0.14 0.06
y -2 0.35 0.27
2 0.36 0.53
4 0.15 0.14
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 20 / 68
Función de prob. de masa condicional
Definición: Dadas dos variables aleatorias discretas X e Y ,
para cada x en el soporte de X , la fc. de probabilidad de masa
condicional de Y dado X = x se define como
pY |X (•|x) =
pX ,Y (x , •)
pX (x)
para cada y en el soporte de Y , la fc. de probabilidad de masa
condicional de X dado X = x se define como
pX |Y (•|y) =
pX ,Y (•, y)
pY (y)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 21 / 68
Función de probabilidad de masa condicional
Observá que si X es el soporte de X e Y es el soporte de Y ,
para cada valor de x 2 X , pY |X (·|x) es una fc de prob de masa.
Luego,
pY |X (y |x) � 0 para todo y 2 Y
y
Â
y2Y
pY |X (y |x) = 1
para cada valor de y 2 Y , pX |Y (·|y) es una fc de prob de masa.
Luego,
pX |Y (x |y) � 0 para todo x 2 X
y
Â
x2X
pX |Y (x |y) = 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 22 / 68
Fc. de prob. de masa condicional
La fc. de prob. de masa de Y dado X = x , pY |X (y |x) , se obtiene
re-normalizando, es decir, dividiendo por pX (x) , la columna de la fc.
de dist. conjunta pX ,Y (•, •) compatible con el evento (X = x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 23 / 68
Fc. de prob. de masa condicional dadas varias v.a.
Definición: Dadas n variables aleatorias discretas
X1, ...,Xn
con soportes X1, ...,Xn, la fc. de prob. de masa condicional de Xi
dados
X1�=�x1,�...,�Xi�1�=�xi�1,�Xi+1�=�xi+1,�...,�Xn�=�xn�
se�define,�para�todo�xJ�2�XJ�,�J=�1,�...,�n,�como
pXi |X1,...,Xi�1,Xi+1,...,Xn (•|x1, .., xi�1, xi+1, ..., xn)
=
pX1,...,Xn (x1, .., xi�1, •, xi+1, ..., xn)
pX1,...,Xi�1,Xi+1,...,Xn (x1, .., xi�1, xi+1, ..., xn)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 24 / 68
Regla de multiplicación para v.a.
Supongamos que X ,Y ,Z son tres v.a. por ejemplo, cada una es el retorno de tres
portafolios distintos.
Entonces, por la regla de multiplicación para eventos sabemos que
P (X = x ,Y = y ,Z = z) = P (X = x)P (Y = y |X = x)P (Z = z |X = x ,Y = y )
Luego,
pXYZ (x , y , z) = pX (x) pY |X (y |x) pZ |XY (z |x , y )
Mas generalmente, si tenemos k variables aleatorias X1,X2, ...,Xk , vale que
pX1,X2,...,Xk (x1, x2, ..., xk ) = pX1 (x1) pX2 |X1 (x2|x1) pX3 |X1X2 (x3|x1, x2)
· · · pXk |X1X2...Xk�1 (xk |x1, x2, ..., xk�1)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 25 / 68
Esperanza condicional
Las carreras ofrecidas en cierta universidad duran 4 años. Al finalizar cada año, los
alumnos rinden un exámen sobre el contenido de las materias cursadas durante ese año.
Las calificaciones posibles, de menor a mayor, son 1,2,3,4.
Suponé que al final del año eleǵıs un alumno al azar y registrás:
X = año que acaba de finalizar
Y = nota que obtuvo en el exámen final
Como eleǵıs al alumno completamente al azar, entonces
pXY (x, y ) = fracción de alumnos del total que cursaron año x y obtuvieron nota y
Suponé que
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.10 0.05 0.03 0.03 0.21
y 2 0.08 0.10 0.07 0.05 0.30
(nota) 3 0.07 0.06 0.09 0.06 0.28
4 0.05 0.03 0.05 0.08 0.21
pX (x) 0.30 0.24 0.24 0.22 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 26 / 68
Esperanza condicional
En la siguiente tabla, cada columna registra la fc de prob. de masa condicional de la nota
Y dado cada año x.
En la última fila, la tabla registra la esperanza de la nota Y dado cada año x
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4)
1 0.33 0.21 0.125 0.14
y 2 0.27 0.42 0.29 0.23
(nota) 3 0.23 0.25 0.375 0.27
4 0.17 0.12 0.21 0.36
E (Y |X = x) 2.24 2.28 2.67 2.85
Observá que pY |X (y |1) es la fracción del total de alumnos de 1er año que se sacó nota y ,
pues como dijimos anteriormente, en este problema, pXY (x, y ) es la fracción de alumnos
del total de la universidad que está en el año x y que se sacó notay .
E (Y |X = 1) = 1⇥ 0.33+ 2⇥ 0.27+ 3⇥ 0.23+ 4⇥ 0.17
= 2.24
Luego, E (Y |X = 1) es el promedio de las notas de todos los alumnos de 1er año.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 27 / 68
Esperanza condicional
Definición: dadas dos variables aleatorias X e Y discretas con
soportes X e Y , la esperanza condicional de Y dado X = x para
x 2 X es la esperanza de la distribución pY |X (·|x) , es decir
E (Y |X = x) = Â
y2Y
ypY |X (y |x)
Observá que
E (Y |X = x)
puede tomar valores diferentes para cada valor de x por lo que es, en
realidad, una función de x . O sea,
x ! E (Y |X = x)
es la función que a cada x le asigna el valor E (Y |X = x) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 28 / 68
Ilustrar la relación entre dos v.a.
La esperanza condicional es útil para resumir la relación que existe entre dos
variables Y y X .
Por ejemplo, explorando
x (año)
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
vemos que la esperanza de la calificación aumenta a medida que avanzan los años
de estudio.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 29 / 68
Esperanza condicional para ilustrar la relación entre dos
v.a.
Pensemos algunas posibles explicaciones de la relación creciente entre año y nota.
Algunas que se me ocurren son:
Los alumnos mejoran su capacidad de aprendizaje
Los alumnos estudian más
Los alumnos aprenden a tomar exámenes
Los exámenes de los cursos de los años superiores son más fáciles
Los alumnos de los años superiores son un grupo ”selecto” conformado por aquellos
que ”sobrevivieron” a los años inferiores (observá que, de acuerdo a la distribución
de X -año-, hay mas alumnos en los años inferiores que superiores)
x (año)
1 2 3 4
pX (x) 0.30 0.24 0.24 0.22
La calidad de la educación secundaria ha ido disminuyendo, por lo que los alumnos
de los años superiores llegaron mejor preparados a la universidad.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 30 / 68
Esperanza de una esperanza condicional
De la fc. de prob. conjunta
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.10 0.05 0.03 0.03 0.21
y 2 0.08 0.10 0.07 0.05 0.30
(nota) 3 0.07 0.06 0.09 0.06 0.28
4 0.05 0.03 0.05 0.08 0.21
pX (x) 0.30 0.24 0.24 0.22 1
podemos calcular la esperanza de la nota de un alumno elegido al azar:
E (Y ) = 1⇥ pY (1) + 2⇥ pY (2) + 3⇥ pY (3) + 4⇥ pY (4)
= 1⇥ 0.21+ 2⇥ 0.30+ 3⇥ 0.28+ 4⇥ 0.21
= 2.49
Observá que el cálculo de E (Y ) usó los valores de pY (y ) para todo y .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 31 / 68
Esperanza de una esperanza condicional
Ahora, suponé que querés calcular E (Y ) y no conocés la función pY , pero en
cambio tenés la siguiente información:
1. pX (x) para cada año x , y
2. E (Y |x) para cada año x
Es decir, te doy la siguiente información:
1. la fracción del total de alumnos que está en cada año x
2. el promedio de las notas de cada año x por separado.
O sea, suponé que conocés la siguiente tabla
x
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
pX (x) 0.30 0.24 0.24 0.22
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 32 / 68
Esperanza de una esperanza condicional
¿Cómo calculás E (Y ) , el promedio de las notas de todos los alumnos de la universidad
conociendo solo la tabla
x
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
pX (x) 0.30 0.24 0.24 0.22
Respuesta: el cálculo es
E (Y ) = E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2)
+ E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4)
Corroboremos que esto es cierto
E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2) + E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4)
= 2.24⇥ 0.30+ 2.28⇥ 0.24+ 2.67⇥ 0.24+ 2.85⇥ 0.22
= 2.49
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 33 / 68
Esperanza de una esperanza condicional
La intuición del cálculo es la siguiente:
El promedio global de todas las notas de la universidad es el promedio
ponderado de los promedios de las notas de los alumnos de cada año
x = 1, 2, 3, 4, donde la ponderación es proporcional al número de alumnos
que cursan el año x .
Área de cada rectangulo proporcional al numero de alumnos en cada año. Promedio global: cada
promedio de los promedios 2.24, 2.28, 2.67 y 2.86 ponderados por el area de cada rectángulo
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 34 / 68
Esperanza de una esperanza condicional
Teorema. Sea (X ,Y ) un vector aleatorio de variables discretas y sea X el soporte
de X . Entonces
E (Y ) = Â
x2X
E (Y |X = x) pX (x)
Si ahora recordamos que
x ! E (Y |X = x)
es una función entonces, recordando la fórmula para la esperanza de una función
de una variable aleatoria, concluimos que el teorema establece la siguiente fórmula,
conocida como la ley de esperanza total o ley de la doble esperanza
E (Y ) = E [E (Y |X )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 35 / 68
Esperanza de una esperanza condicional
Demostración del teorema: sea Y el soporte de Y . Entonces,
E (Y ) = Â
y2Y
ypY (y )
= Â
y2Y
y Â
x2X
pXY (x , y )
= Â
y2Y
y Â
x2X
pX (x) pX |Y (x |y )
= Â
x2X
pX (x) Â
y2Y
ypX |Y (x |y )
| {z }
=E (Y |X=x)
= Â
x2X
E (Y |X = x) pX (x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 36 / 68
Varianza condicional
Aśı como calculamos la esperanza de la nota Y para cada año x, tambien podemos
calcular la varianza de la nota Y para cada año x.
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4)
1 0.33 0.21 0.125 0.14
y 2 0.27 0.42 0.29 0.23
(nota) 3 0.23 0.25 0.375 0.27
4 0.17 0.12 0.21 0.36
E (Y |X = x)2 2.242 2.282 2.672 2.852
E
�
Y 2|X = x
�
6.2 6.06 8.02 9.25
Var (Y |X = x) 1.18 0.87 0.89 1. 12
Por ejemplo,
E
⇣
Y 2|X = 1
⌘
= 12 ⇥ 0.33+ 22 ⇥ 0.27+ 32 ⇥ 0.23+ 42 ⇥ 0.17 = 6.2
var (Y |X = 1) = E
⇣
Y 2|X = 1
⌘
� [E (Y |X = 1)]2
= 6.2� 2.242 = 1.1824
var (Y |X = x) mide el cuadrado de la dispersión de las notas de los alumnos en el año x.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 37 / 68
Varianza condicional
Definición: dadas dos variables aleatorias X e Y discretas con
soportes X y Y , para cualquier x 2 X la varianza condicional de Y
dado X = x es la varianza de la distribución pY |X (·|x) , es decir
var (Y |X = x) = Â
y2Y
(y � E (Y |X = x))2 pY |X (y |x)
O sea,
var (Y |X = x) = E
h
(Y � E (Y |X = x))2 |X = x
i
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 38 / 68
Varianza condicional
Recordando la fórmula alternativa para la varianza, obtenemos
también la fórmula alternativa
var (Y |X = x) = E
�
Y 2|X = x
�
� [E (Y |X = x)]2
o sea
var (Y |X = x) = Â
y2Y
y2pY |X (y |x)�
"
Â
y2Y
ypY |X (y |x)
#2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 39 / 68
Varianza condicional
Observá que al igual que la esperanza condicional, la varianza
condicional es una función
x ! var (Y |X= x)
que a cada x le asigna el valor var (Y |X = x) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 40 / 68
Ley de varianza total
Aśı como existe una fórmula que relaciona la esperanza marginal de Y con las
esperanzas condicionales de Y dado X = x , también existe una relación entre la
varianza marginal de Y (es decir la varianza de la distribución pY (y )), con las
varianzas condicionales, pero esta relación también involucra las esperanzas
condicionales.
Teorema (Ley de varianza total): Sea (X ,Y ) un vector aleatorio
de variables discretas y sea X el soporte de X . Entonces,
var (Y ) = Â
x2X
var (Y |X = x) pX (x)
+ Â
x2X
[E (Y |X = x)� E (X )]2 pX (x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 41 / 68
Ley de varianza total
Recordando que x ! var (Y |X = x) es una función,
Â
x2X
var (Y |X = x) pX (x) = E [var (Y |X )]
y recordando que E (Y ) = E [E (Y |X )] ,
Â
x2X
[E (Y |X = x)� E (Y )]2 pX (x) = var [E (Y |X )]
De modo que la Ley de Varianza Total establece que
var (Y ) = E [var (Y |X )] + var [E (Y |X )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 42 / 68
Intuición de la ley de var. total en nuestro ejemplo
E [var (Y |X )] es el promedio de las varianzas de las notas var (Y |X = x) para los grupos
x = 1, 2, 3, 4.
Observá que var (Y |X = x) mide la dispersión, al cuadrado, de las notas en el
grupo x . Es la varianza dentro de cada grupo x . A las varianzas var (Y |X = x) se
las llama varianza-intra-grupo .
Entonces, E [var (Y |X )] mide el cuadrado de cuánto, ”en promedio”, se dispersan
las notas en cada grupo.
var [E (Y |X )] es la varianza de los promedios E (Y |X = x) para los grupos x = 1, 2, 3, 4.
Estos promedios, miden la performance promedio de cada grupo.
Entonces, intuitivamente var [E (Y |X )] mide cuán dispersas están las performances
de los distintos grupos. A var [E (Y |X )] se la llama varianza-entre-grupos
Entonces, el teorema descompone a la varianza de la nota en toda la universidad como:
varianza total = varianza-intra-grupo + varianza-entre-grupos
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 43 / 68
Explicación gráfica de la ley de varianza total
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 44 / 68
Variables aleatorias dependientes e independientes
En nuestro ejemplo,
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y )
1 0.33 0.21 0.125 0.14 0.21
y 2 0.27 0.42 0.29 0.23 0.30
(nota) 3 0.23 0.25 0.375 0.27 0.28
4 0.17 0.12 0.21 0.36 0.21
Entonces, cualquiera sea el x ,
pY |X (y |x) 6= pY (y) para al menos un valor de y
O sea, la distribución condicional de Y dado X = x no coincide con la
distribución de Y
De modo que enterarnos en que año está el alumno sorteado cambia nuestro
”pronóstico” sobre la nota que se sacó.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 45 / 68
Variables aleatorias dependientes e independientes
Pero ahora supongamos que la distribución conjunta de (X ,Y ) fuera
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.075 0.06 0.06 0.055 0.25
y 2 0.1125 0.09 0.09 0.0825 0.375
(nota) 3 0.075 0.06 0.06 0.055 0.25
4 0.0375 0.03 0.03 0.0275 0.125
pX (x) 0.30 0.24 0.24 0.22 1
En este caso, podemos comprobar que
pY |X (y |x) = pY (y) para todo x e y
Por ejemplo,
pY |X (2|4) =
pXY (4, 2)
pX (4)
=
0.0825
0.22
= 0.375 = pY (2)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 46 / 68
Variables aleatorias dependientes e independientes
En este caso, tenemos que
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y )
1 0.25 0.25 0.25 0.25 0.25
y 2 0.375 0.375 0.375 0.375 0.375
(nota) 3 0.25 0.25 0.25 0.25 0.25
4 0.125 0.125 0.125 0.125 0.125
Todas las columnas son iguales.
Cuando esto ocurre, decimos que X e Y son variables aleatorias
independientes .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 47 / 68
Variables aleatorias dependientes e independientes
Definición: dos variables aleatorias discretas X e Y con soportes X
e Y son independientes cuando
pX |Y (x |y) = pX (x) para todo x 2 X e y 2 Y
o equivalentemente, cuando vale cualquiera de las siguientes
afirmaciones
1.
pY |X (y |x) = pY (y) para todo x 2 X e y 2 Y
2.
pXY (x , y) = pX (x) pY (y) para todo x 2 X e y 2 Y
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 48 / 68
Independencia de más de dos v.a.
La noción de independencia se generaliza a mas de dos v.a. de la
siguiente forma.
Definición: se dice que las variables aleatorias X1,X2, ...,Xk con
soportes Xj , j = 1, ..., k , son mutuamente - o simultaneamente -
independientes cuando
pX1X2...Xk (x1, ..., xk) =
k
’
j=1
pXj (xj ) para todo xj 2 Xj , j = 1, ..., k
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 49 / 68
Independencia de más de dos v.a.
Es posible probar que si X1,X2, ...,Xk son mutuamente independientes, entonces
conocer los valores de cualquier subconjunto de las variables X1,X2, ...,Xk no
cambia nuestra probabilidad sobre las restantes variables aleatorias.
Formalmente: si {j1, ..., jl} es un subconjunto de {1, ..., k} y {h1, ..., hk�l} es el
conjunto de restantes indices, entonces
pXj1Xj2 ...Xjl |Xh1Xh2 ...Xhk�l
�
xj1 , ..., xjl |xh1 , xh2 , ..., xhk�l
�
= pXj1Xj2 ...Xjl
�
xj1 , ..., xjl
�
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 50 / 68
Independencia de más de dos v.a.
El resultado de la filmina anterior tiene la siguiente important́ısima
consecuencia, cuya demostración no veremos.
Proposición: sean X1,X2, ...,Xk mutuamente independientes . Sean
Z = g (Xj1 , ...,Xjl ) y W = q
�
Xh1 ,Xh2 , ...,Xhk�l
�
donde�g�y�h�son�dos�funciones�cualesquiera,�y�{j1,�...,�jl�}�y�
{h1,�...,�hk�l�}�son�dos�conjuntos�de� ı́ndices�disjuntoT.�
Entonces
Z y W son independientes
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 51 / 68
Esperanza del producto de funciones de v.a.
independientes
Antes hemos visto que para cualquier función g (x , y) se verifica que
cuando X e Y son variables aleatorias discretas,
E [g (X ,Y )] = Â
x2X
Â
y2Y
g (x , y) pXY (x , y)
Cuando X e Y son independientes, el siguiente utiĺısimo resultado nos
permite evitar calcular sumas dobles para ciertas funciones g (x , y).
Teorema: Supongamos que X e Y son variables discretas
independientes . Sea
Z = h (X ) q (Y )
Entonces
E (Z ) = E [h (X ) q (Y )]
= E [h (X )]⇥ E [q (Y )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 52 / 68
Demostración del teorema.
Demostración del teorema: sean X e Y los soportes de X e Y .
E [h (X ) q (Y )] = Â
x2X
Â
y2Y
h (x) q (y ) pXY (x , y )| {z }
=pX (x)pY (y ) por independ.
= Â
x2X
Â
y2Y
h (x) q (y ) pX (x) pY (y )
= Â
x2X
h (x) pX (x)
2
666664
Â
y2Y
q (y ) pY (y )
| {z }
=E [q(Y )]
3
777775
= E [q (Y )] Â
x2X
h (x) pX (x)
| {z }
=E [h(X )]
= E [h (X )]E [q (Y )]Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 53 / 68
Varianza de la suma de v.a. independientes
El teorema anterior nos permite deducir el siguiente important́ısimo
resultado
Teorema: si X e Y son variables aleatorias discretas independientes
, entonces
var (X + Y ) = var (X ) + var (Y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 54 / 68
Demostración del teorema.
Demostración del teorema:
var (X +Y ) = E
h
(X +Y )2
i
� [E (X +Y )]2
= E
h
(X +Y )2
i
� [E (X ) + E (Y )]2
= E
h⇣
X 2 + 2XY +Y 2
⌘i
�
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
⇣
X 2
⌘
+ 2E (XY ) + E
⇣
Y 2
⌘i
�
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
⇣
X 2
⌘
� [E (X )]2
i
| {z }
=var(X )
+
h
E
⇣
Y 2
⌘
� [E (Y )]2
i
| {z }
= var(Y )
+ [2E (XY )� 2E (X )E (Y )]
| {z }
=0 por independencia
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 55 / 68
Varianza de la suma de v.a. independientes
Corolario 1: si X1,X2, ...,Xk son v.a. discretas mutuamente
independientes, entonces
var (X1 + X2 + ...+ Xk) = var (X1) + var (X2) + ...+ var (Xk)
Corolario 2: si X1,X2, ...,Xk son v.a. discretas mutuamente
independientes y var (Xi ) = s2 es la misma para todo i , entonces,
var (X1 + X2 + ...+ Xk) = ks
2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 56 / 68
Demostración del corolario 1.
Demostración del corolario 1: sea Z = X1 + X2 + ...+ Xk�1, entonces la
independencia mútua de X1, ...,Xk implica la independencia de Z y Xk . Entonces
var (X1 + X2 + ...+ Xk ) = var (Z + Xk )
= var (Z ) + var (Xk )
Ahora, sea W = X1 + X2 + ...+ Xk�2. Entonces, Z = W + Xk�1 donde W y Xk�1
son independientes. Entonces
var (Z ) = var (W ) + var (Xk�1)
por lo tanto
var (X1 + X2 + ...+ Xk ) = var (W ) + var (Xk�1) + var (Xk )
y asi continuamos hasta arribar a
var (X1 + X2 + ...+ Xk ) = var (X1) + var (X2) + ...+ var (Xk )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 57 / 68
Ejemplo aplicando descomposición de esperanza y varianza
a sumas de v.a. independientes.
Suponé que el número N de clientes que realizan una compra en un
supermercado en un d́ıa de la semana cualquiera es una v.a.
Poisson(l) con l = 3000. Suponé que los clientes no están
relacionados entre śı y que sus gastos no están relacionados con N.
Llamá Yi al gasto del i�ésimo cliente, y suponé que
E (Yi ) = 500 y Var (Yi ) = 900
¿Cuál es la esperanza y el desv́ıo estandard del total de ventas en un
d́ıa cualquiera de la semana?
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 58 / 68
Descomposiciones de esperanza y varianza: ejemplo
Solución: El total de ventas es
S = Y1 + Y2 + ...+ YN
Sabemos que
E (S |N = n) = E (Y1) + ...+ E (Yn)
= 500⇥ n
Luego
E (S) = E [E (S |N)]
= E [500N ]
= 500E (N)
= 500⇥ 3000
= 1500000
Donde hemos usado que E (N) = 3000 porque N ⇠ Pois (3000) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 59 / 68
Continuación del ejemplo
Por otro lado, como Y1, ..,Yn son mutuamente independientes,
Var (S |N = n) = Var (Y1) + ...+ Var (Yn)
= 900⇥ n
Entonces
Var [S ] = Var (E [S |N ]) + E (Var [S |N ])
= Var (500N) + E (900N)
= 5002var (N) + 900E (N)
= 225450 00
Por lo tanto
SD (S) =
p
225450 00 = 4748.2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 60 / 68
Comparación entre la esperanza y el desv́ıo de la suma de
v.a. independientes
Suponé que X1, ...,Xn son v.a. mutuamente independientes, tales que E (Xi ) = µ y
var (Xi ) = s2 son las mismas para todo i .
Entonces,
E (X1 + X2 + ...+ Xn) = nµ
y
SD (X1 + X2 + ...+ Xn) =
p
ns
Si µ > 0,
E (X1 +X2 + ...+Xn) crece proporcionalmente a n
SD (X1 +X2 + ...+Xn) crece proporcionalmente a
p
n
Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es positiva y
mucho más grande que el desvio estándard. Veremos más adelante que esto implica
que la probabilidad de que la suma sea menor que 0 tiende a 0 cuando n tiende a •
Si µ < 0,
E (X1 +X2 + ...+Xn) decrece proporcionalmente a n
SD (X1 +X2 + ...+Xn) crece proporcionalmente a
p
n
Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es negativa y
mucho más chica que el desvio estándard. Veremos más adelante que esto implica
que la probabilidad de que la suma sea mayor que 0 tiende a 0 cuando n tiende a •
Rotnitzky,�Ferrari,�Cersosimo,�Smucler� (UniversidadIntroducTocionrcuatoa� laDiEstadTellá� )ıstica(Cap.� 2,� sección�2.5,�2.6�y�2.7�del�Bertsekas) 61 / 68
Varianza de una v.a. binomial
Usando el corolario 2 podemos deducir inmediatamente la demostración de la
fórmula de la varianza de una v.a. binomial.
Recordemos que si X ⇠ Bin (n, p) entonces
X = Y1 + ...+ Yn
donde Y1,Y2, ...,Yn son v.a. Ber (p) mutuamente independientes.
Ademas, recordemos que ya hemos calculado que
var (Yi ) = p ⇥ (1� p)
Luego, en vista del corolario 2
var (X ) = n⇥ p ⇥ (1� p)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 62 / 68
Covarianza
Dadas dos variables aleatorias X e Y , la covarianza entre X e Y se deÖne
como
cov (X ,Y ) = E (XY )! E (X )E (Y )
Resultado: Si X e Y son independientes, entonces cov (X ,Y ) = 0
X e Y independientes ) cov (X ,Y ) = 0
Es posible que X e Y sean dependientes pero sin embargo tengan
covarianza igual a 0.
X e Y independientes 6( cov (X ,Y ) = 0
Resultado: si E (Y jX = x) no depende de x , entonces cov (X ,Y ) = 0.
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 2 / 9
Ejemplo de dos variables dependientes pero con covarianza
igual a 0
SuponÈ que X e Y ahora toman valores en f1, 2, 3g , y su distribuciÛn conjunta viene
dada por la siguiente table
pXY (x , y ) x (aÒo) pY (y )
1 2 3
y 1 0.12 0.15 0.12 0.39
(nota) 2 0.14 0.02 0.06 0.22
3 0.12 0.15 0.12 0.39
pX (x ) 0.38 0.32 0.30 1
La distribuciÛn conditional de Y dado X y la distribuciÛn marginal de Y quedan entonces
determinadas por la siguiente tabla
pY jX (y j1) pY jX (y j2) pY jX (y j3) pY (y )
y 1 0.32 0.47 0.40 0.39
(nota) 2 0.36 0.06 0.20 0.22
3 0.32 0.47 0.40 0.39
E (Y jX = x ) 2 2 2 2
Not· que Y y X son dependientes. Sin embargo, para todo x , vale que
E (Y jX = x ) = E (Y ) = 2
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 3 / 9
Calculemos ahora la covarianza entre X e Y
E [XY ] = E [E (XY jX )]
= E [XE (Y jX )]
= E [X2]
= 2E (X )
= E (Y )E (X )
Luego,
E [XY ]! E (Y )E (X ) = 0
Por lo tanto, recordando que cov (X ,Y ) = E [XY ]! E (Y )E (X )
concluimos que
cov (X ,Y ) = 0
a pesar de que X e Y son dependientes.
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 4 / 9
Covarianza, propiedades
Claramente, la covarianza es conmutativa
cov (X ,Y ) = cov (Y ,X )
Adem·s, es posible probar que la covarianza posee la propiedad de
bilinearidad:
cov (aX + bY ,Z ) = a( cov (X ,Z ) + b( cov (Y ,Z )
M·s generalmente
cov (aX + bY , cZ + dW ) = ac ( cov (X ,Z ) + ad ( cov (X ,W )
+ bc ( cov (Y ,Z ) + bd ( cov (Y ,W )
Si cov (X ,Y ) = 0 entonces var(X + Y ) = var (X ) + var (Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 5 / 9
Covarianza, expresiÛn alternativaResultado:
cov (X ,Y ) = E [(X ! E (X )) (Y ! E (Y ))]
Esta expresiÛn para la covarianza nos permite interpretar que la
covarianza cuantiÖca una especie de tendencia a una relaciÛn
lineal entre X e Y .
DemostraciÛn:
E [(X ! E (X )) (Y ! E (Y ))] = E [XY ! XE (Y )! YE (X ) + E (X ) E (Y )]
= E [XY ]! E [XE (Y )]! E [YE (X )] + E [E (X ) E (Y )]
= E [XY ]! E (Y ) E (X )! E (X ) E (Y ) + E (X ) E (Y )
= E [XY ]! E (X ) E (Y )
= cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 6 / 9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
covarianza cercana a 0
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.5 0.0 0.5 1.0
−1
.0
−0
.5
0.
0
0.
5
1.
0
covarianza cercana a 0
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−2
−1
0
1
2
covarianza positiva
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−4
−2
0
2
covarianza negativa
x
y
Covarianza depende de la escala de mediciÛn
La covarianza no es enteramente satisfactoria como medida de
tendencia a una relaciÛn lineal entre dos variables porque depende de
la escala de mediciÛn.
Para ver esto, imaginate que querÈs medir la tendencia a una relaciÛn
lineal entre los retornos X e Y de dos portafolios.
SuponÈ que cuando X e Y est·n calculados en dÛlares, entonces
cov (X ,Y ) = 3000
Si eX e eY miden los retornos del portafolio en centavos de dolar,
entonces
eX = 100X , eY = 100Y
Por lo tanto,
cov
"
eX , eY
#
= cov (100X , 100Y ) = 1002cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 7 / 9
CorrelaciÛn
La correlaciÛn entre X e Y se deÖne como
corr (X ,Y ) =
cov (X ,Y )
p
var (X )
p
var (Y )
Resultado:
corr (X ,Y ) = E
" 
X ! E (X )
p
var (X )
! 
Y ! E (Y )
p
var (Y )
!#
X!E (X )p
var (X )
calcula cuantos desvÌos estandard por arriba o por abajo de
E (X ) est· X . Su valor no depende de la escala de mediciÛn. Lo
anal·logo ocurre con Y!E (Y )p
var (Y )
.
Por lo tanto, la correlaciÛn, no depende de la escala de mediciÛn,
pero contin˙a siendo una medida de la tendencia a una relaciÛn lineal
entre X e Y
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 8 / 9
Propiedades de la correlaciÛn
(1)
jcorr (X ,Y )j * 1
(2)
corr (X ,Y ) = 1, Y = aX + b para alg˙n a > 0, y alg˙n b
(3)
corr (X ,Y ) = !1, Y = aX + b para alg˙n a < 0, y alg˙n b
(4)
X e Y independientes ) corr (X ,Y ) = 0
X e Y independientes 6( corr (X ,Y ) = 0
(5) Si corr (X ,Y ) > 0 entonces la tendencia es a una asociaciÛn lineal creciente entre
X e Y
(6) Si corr (X ,Y ) < 0 entonces la tendencia es a una asociaciÛn lineal decreciente
entre X e Y
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 9 / 9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
correlacion 0.0542
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.5 0.0 0.5 1.0
−1
.0
−0
.5
0.
0
0.
5
1.
0
correlacion = 0.0204
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−2
−1
0
1
2
correlacion = 0.924
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−4
−2
0
2
correlacion = −0.9615
x
y
Varianza de la suma de 2 variables aleatorias cualesquiera
Teorema: si X e Y son variables aleatorias discretas cualesquiera ,
entonces
var (X + Y ) = var (X ) + var (Y ) + 2 cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 2 / 4
DemostraciÛn del teorema.
DemostraciÛn del teorema:
var (X +Y ) = E
h
(X +Y )2
i
! [E (X +Y )]2
= E
h
(X +Y )2
i
! [E (X ) + E (Y )]2
= E
h#
X 2 + 2XY +Y 2
$i
!
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
#
X 2
$
+ 2E (XY ) + E
#
Y 2
$i
!
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
#
X 2
$
! [E (X )]2
i
| {z }
=var(X )
+
h
E
#
Y 2
$
! [E (Y )]2
i
| {z }
= var(Y )
+ [2E (XY )! 2E (X )E (Y )]
| {z }
=2 cov(X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 3 / 4
Varianza de la suma de n variables aleatorias cualesquiera
Teorema: Si X1,X2, ...,Xn son variables aleatorias discretas
cualesquiera , entonces
var (X1 + X2 + ...+ Xn) =
= var (X1) + ...+ var (Xn) +
+ 2 fcov (X1,X2) + cov (X1,X3) + ...+ cov (X1,Xn)
+ cov (X2,X3) + cov (X2,X4) + ...+ cov (X2,Xn)
+ ...
+ cov (Xn!1,Xn)g
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 4 / 4