Logo Studenta

Slides 7 - Conjunta Discreta

¡Este material tiene más páginas!

Vista previa del material en texto

Introduccion a la Estad́ıstica
(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas)
Distribución discreta conjunta
Rotnitzky, Ferrari, Cersosimo, Smucler
Universidad Torcuato Di Tella
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 1 / 68
 
Introducción
Hasta ahora hemos estudiado las propiedades de variables aleatorias
individuales y sus distribuciones.
Sin embargo, muchas veces estamos interesados en estudiar como
interactuan dos o más variables.
Por ejemplo: cómo es la relación entre
el salario y los años de educación
el precio de venta de un inmueble y la tasa de asaltos del barrio
la tasa de inflación y el gasto público
el retorno anual de un portafolio de acciones y el retorno anual de un
bono soberano
En estas filminas estudiaremos los conceptos fundamentales para
caracterizar la relación entre varias variables aleatorias.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 2 / 68
Ejemplo
Suponé que X e Y son los retornos mensuales por cada 100 dólares, de dos
portafolios de inversiones, el primero más conservador y el segundo más
agresivo.
Suponé que
los posibles retornos en dólares son, para el portafolio agresivo
-4,-2,2,4, y para el conservador, -2,-1,1 y 2 .
estudiando los registros históricos de los últimos 48 meses, construiste
la siguiente tabla de probabilidades
x
-2 -1 1 2
-4 0.06 0.05 0.02 0.01
y -2 0.04 0.17 0.10 0.04
2 0.03 0.09 0.19 0.05
4 0.01 0.02 0.05 0.07
Por ejemplo,
P (X = �1,Y = 2) = 0.09
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 3 / 68
Función de probabilidad de masa conjunta
Definición: la función de probabilidad de masa conjunta del vector
aleatorio (X ,Y ) o función de densidad de (X ,Y ) se define como
pXY (x , y) = P (X = x ,Y = y)
Resultado: sean X e Y los soportes X e Y . Entonces
Â
x2X
Â
y2Y
pXY (x , y) = 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 4 / 68
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 5 / 68
Distribución marginal
pX (�2) = P (X = �2)
= P ((X = �2,Y = �4) ó (X = �2,Y = �2) ó (X = �2,Y = 2) ó (X = �2,Y = 4))
= pXY (�2,�4) + pXY (�2,�2) + pXY (�2, 2) + pXY (�2, 4)
= 0.06+ 0.04+ 0.03+ 0.01
= 0.14
En general,
pX (x) = Â
y2Y
pXY (x , y)
donde Y = {�4,�2, 2, 4} .
pX ,Y (x, y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 6 / 68
Distribución marginal
Proposición: dado un vector aleatorio (X ,Y ) cuyas componentes X e Y son
variables aleatorias discretas con soportes X e Y respectivamente, la funciones de
probabilidad de masa de X e Y satisfacen
pX (x) = Â
y2Y
pXY (x , y ) y pY (y ) = Â
x2X
pXY (x , y )
A pX (x) y pY (y ) se las llama funciones de prob. de masa marginales de X e Y .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 7 / 68
Distribución de una función de dos variables aleatorias.
Suponé que invert́ıs 300$ en el portafolio conservador y 200$ en el agresivo.
El retorno de tu inversión es
Z = 3X + 2Y
¿Cuál es el soporte de Z?
¿Cuál es la fc. de prob. de masa de Z?
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 8 / 68
Distribución de una función de dos variables aleatorias.
Los valores en paréntesis son los que toma Z cuando X e Y toman los valores indicados
en la respectiva columna y fila.
Los valores sin paréntesis son pXY (x, y )
x
-2 -1 1 2
-4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2)
y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2)
2 0.03(�2) 0.09(1) 0.19(7) 0.05(10)
4 0.01(2) 0.02(5) 0.05(11) 0.07(14)
Entonces, por ejemplo
pZ (�2) = P (Z = �2)
= pXY (2,�4) + pXY (�2, 2)
= 0.01+ 0.03
= 0.04
En general,
pZ (z) = Â
(x ,y ):3x+2y=z
pXY (x, y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 9 / 68
Distribución de una función de dos variables aleatorias.
x
-2 -1 1 2
-4 0.06 (�14) 0.05(�11) 0.02(�5) 0.01(�2)
y -2 0.04(�10) 0.17(�7) 0.10(�1) 0.04(2)
2 0.03(�2) 0.09(1) 0.19(7) 0.05(10)
4 0.01(2) 0.02(5) 0.05(11) 0.07(14)
z pZ (z)
-14 0.06
-11 0.05
-10 0.04
-7 0.17
-5 0.02
-2 0.04
-1 0.10
1 0.09
2 0.05
5 0.02
7 0.19
10 0.05
11 0.05
14 0.07
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 10 / 68
Distribución de una función de dos variables aleatorias.
Proposición: sea (X ,Y ) un vector aleatorio con X e Y discretas, y
con función de prob. de masa conjunta pXY (x , y) . Sea
Z = g (X ,Y )
para alguna función g dada, entonces la función de prob. de masa de
Z satisface
pZ (z) = Â
(x ,y ):g (x ,y )=z
pXY (x , y)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 11 / 68
Esperanza de una función de dos variables aleatorias.
Proposición: sean X e Y v.a. discretas con soportes X e Y y sea pXY (x , y ) la fc.
de prob. de masa conjunta de (X ,Y ) . Si Z = g (X ,Y ) para alguna g dada,
entonces
E (Z ) = Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
Demostración: sea Z el soporte de Z .
E (Z ) = Â
z2Z
zpZ (z)
= Â
z2Z
z
2
4 Â
(x ,y ):g (x ,y )=z
pXY (x , y )
3
5
= Â
z2Z
2
4 Â
(x ,y ):g (x ,y )=z
z ⇥ pXY (x , y )
3
5
= Â
z2Z
2
4 Â
(x ,y ):g (x ,y )=z
g (x , y )⇥ pXY (x , y )
3
5
= Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 12 / 68
Corolario: esperanza de una combinación lineal de dos v.a.
Proposición: si X y Y son variables aleatorias discretas y a y b son constantes,
entonces
E (aX + bY ) = aE (X ) + bE (Y )
Demostración: sea g (x , y ) = ax + by . Entonces
E (aX + bY ) = Â
x2X
Â
y2Y
g (x , y )⇥ pXY (x , y )
= Â
x2X
Â
y2Y
(ax + by )⇥ pXY (x , y )
= Â
x2X
Â
y2Y
(ax)⇥ pXY (x , y ) + Â
x2X
Â
y2Y
(by )⇥ pXY (x , y )
= Â
x2X
(ax)Â
y
pXY (x , y )
| {z }
pX (x)
+ Â
y2Y
(by )Â
x
pXY (x , y )
| {z }
pY (y )
= Â
x2X
(ax) pX (x) + Â
y2Y
(by ) pY (y )
= a Â
x2X
xpX (x) + b Â
y2Y
ypY (y )
= aE (X ) + bE (Y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 13 / 68
Cálculo de E(Z) en el ejemplo aplicando la proposición
Recordá�que�Z�=�3X�+�2Y�.�Para�calcular�E�(Z�)�podŕıamos�DBMDVMBS�la�distribución�de�
Z�que�calculamos�anteriormente.
Ahora�vamos�a�calcular�E�(Z�)�usando� la�proposición�de� la�filmina�anterior.
pX ,Y (x , y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
E (Z ) = 3E (X ) + 2E (Y )
E (X ) = (�2)⇥ 0.14+ (�1)⇥ 0.33+ 1⇥ 0.36+ 2⇥ 0.17 = 0.09
E (Y ) = (�4)⇥ 0.14+ (�2)⇥ 0.35+ 2⇥ 0.36+ 4⇥ 0.15 = 0.06
Luego,
3E (X ) + 2E (Y ) = 3⇥ 0.09+ 2⇥ 0.06 = 0.39
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 14 / 68
Más de dos variables aleatorias
Suponéque X1,X2, ...,Xk son k v.a., por ejemplo, los retornos de k
portafolios (siendo k � 2).
Definición: la función de prob. de masa conjunta de (X1,X2, ...,Xk)
es
pX1X2...Xk (x1, ..., xk) = P (X1 = x1,X2 = x2, ...,Xk = xk)
La distribucion marginal de Xi satisface
pXi (x) = Â
x1
... Â
xi�1
Â
xi+1
...Â
xk
pX1X2...Xk (x1, ..., xi�1, x , xi+1, ..., xk)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 15 / 68
Más de dos variables aleatorias
Proposición: si (X1,X2, ...,Xk) es un vector aleatorio e
Y = g (X1,X2, ...,Xk) , donde g es una función dada, entonces
E (Y ) = Â
x1
...Â
xk
g (x1, x2, ..., xk) pX1X2...Xk (x1, ..., xk)
Proposición: si (X1,X2, ...,Xk) es un vector aleatorio y a1, ..., ak son
constantes, entonces
E (a1X1 + a2X2 + ...+ akXk) = a1E (X1)+ a2E (X2)+ ...+ akE (Xk)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 16 / 68
Condicionar una variable aleatoria en un evento
Suponé que te enterás que un evento dado A es cierto, ¿cómo cambia la fc de prob
de masa de una v.a. X después de que recibiste esta evidencia?
Ejemplo:
yo tiro un dado y te cuento que cayó en un número mayor o igual que 4.
llamá X a la v.a. que registra el número de la cara en la que cayó el dado,
antes de que te informara nada, tu fcn de prob. de masa era pX (x) = 1/6 para
todo x = 1, ..., 6,
la información que te doy es que el evento A = (X � 4) es cierto,
después de que recibiste mi información, calculás
pX (x |A) =
P ((X = x) \A)
P (A)
P ((X = x) \A) =
⇢
0 si x = 1, 2 ó 3
P (X = x) = 1/6 y P (A) = 3/6
Luego
pX (x |A) =
(
0 si x = 1, 2 ó 3
(1/6)
3/6 =
1
3
si x = 4, 5, 6
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 17 / 68
Condicionar una variable aleatoria en un evento
Definicion: dada una variable aleatoria X y un evento A, la función
de probabilidad de masa condicional de X dado el evento A, se define
como
pX (x |A) =
P ((X = x) \ A)
P (A)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 18 / 68
Condicionar una v.a. en otra v.a.
Volvamos al ejemplo de los dos portafolios.
pX ,Y (x, y ) x pY (y )
-2 -1 1 2
-4 0.06 0.05 0.02 0.01 0.14
y -2 0.04 0.17 0.10 0.04 0.35
2 0.03 0.09 0.19 0.05 0.36
4 0.01 0.02 0.05 0.07 0.15
pX (x) 0.14 0.33 0.36 0.17 1
Supongamos que un oráculo me sopla al oido que el retorno del portafolio conservador será 1 dólar.
¿Cuál es mi función de prob. de masa del retorno del portafolio agresivo ahora?
Me entero que el evento A = (X = 1) es cierto. Luego, corresponde calcular la función La siguiente
tabla realiza el calculo
P (X = 1,Y = y ) P (X = 1) P (X = 1,Y = y ) /P (X = 1)
-4 0.02 0.36 0.02/0.36 ⇡ 0.06
y -2 0.10 0.36 0.10/0.36 ⇡ 0.27
2 0.19 0.36 0.19/0.36 ⇡ 0.53
4 0.05 0.36 0.05/0.36 ⇡ 0.14
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 19 / 68
Prob. condicional vs prob. marginal
Comparemos la probabilidad marginal de Y con la prob. condicional de Y dado X = 1.
P (Y = y ) P (Y = y |X = 1)
-4 0.14 0.06
y -2 0.35 0.27
2 0.36 0.53
4 0.15 0.14
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 20 / 68
Función de prob. de masa condicional
Definición: Dadas dos variables aleatorias discretas X e Y ,
para cada x en el soporte de X , la fc. de probabilidad de masa
condicional de Y dado X = x se define como
pY |X (•|x) =
pX ,Y (x , •)
pX (x)
para cada y en el soporte de Y , la fc. de probabilidad de masa
condicional de X dado X = x se define como
pX |Y (•|y) =
pX ,Y (•, y)
pY (y)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 21 / 68
Función de probabilidad de masa condicional
Observá que si X es el soporte de X e Y es el soporte de Y ,
para cada valor de x 2 X , pY |X (·|x) es una fc de prob de masa.
Luego,
pY |X (y |x) � 0 para todo y 2 Y
y
Â
y2Y
pY |X (y |x) = 1
para cada valor de y 2 Y , pX |Y (·|y) es una fc de prob de masa.
Luego,
pX |Y (x |y) � 0 para todo x 2 X
y
Â
x2X
pX |Y (x |y) = 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 22 / 68
Fc. de prob. de masa condicional
La fc. de prob. de masa de Y dado X = x , pY |X (y |x) , se obtiene
re-normalizando, es decir, dividiendo por pX (x) , la columna de la fc.
de dist. conjunta pX ,Y (•, •) compatible con el evento (X = x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 23 / 68
Fc. de prob. de masa condicional dadas varias v.a.
Definición: Dadas n variables aleatorias discretas
X1, ...,Xn
con soportes X1, ...,Xn, la fc. de prob. de masa condicional de Xi
dados
X1�=�x1,�...,�Xi�1�=�xi�1,�Xi+1�=�xi+1,�...,�Xn�=�xn�
se�define,�para�todo�xJ�2�XJ�,�J=�1,�...,�n,�como
pXi |X1,...,Xi�1,Xi+1,...,Xn (•|x1, .., xi�1, xi+1, ..., xn)
=
pX1,...,Xn (x1, .., xi�1, •, xi+1, ..., xn)
pX1,...,Xi�1,Xi+1,...,Xn (x1, .., xi�1, xi+1, ..., xn)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 24 / 68
Regla de multiplicación para v.a.
Supongamos que X ,Y ,Z son tres v.a. por ejemplo, cada una es el retorno de tres
portafolios distintos.
Entonces, por la regla de multiplicación para eventos sabemos que
P (X = x ,Y = y ,Z = z) = P (X = x)P (Y = y |X = x)P (Z = z |X = x ,Y = y )
Luego,
pXYZ (x , y , z) = pX (x) pY |X (y |x) pZ |XY (z |x , y )
Mas generalmente, si tenemos k variables aleatorias X1,X2, ...,Xk , vale que
pX1,X2,...,Xk (x1, x2, ..., xk ) = pX1 (x1) pX2 |X1 (x2|x1) pX3 |X1X2 (x3|x1, x2)
· · · pXk |X1X2...Xk�1 (xk |x1, x2, ..., xk�1)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 25 / 68
Esperanza condicional
Las carreras ofrecidas en cierta universidad duran 4 años. Al finalizar cada año, los
alumnos rinden un exámen sobre el contenido de las materias cursadas durante ese año.
Las calificaciones posibles, de menor a mayor, son 1,2,3,4.
Suponé que al final del año eleǵıs un alumno al azar y registrás:
X = año que acaba de finalizar
Y = nota que obtuvo en el exámen final
Como eleǵıs al alumno completamente al azar, entonces
pXY (x, y ) = fracción de alumnos del total que cursaron año x y obtuvieron nota y
Suponé que
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.10 0.05 0.03 0.03 0.21
y 2 0.08 0.10 0.07 0.05 0.30
(nota) 3 0.07 0.06 0.09 0.06 0.28
4 0.05 0.03 0.05 0.08 0.21
pX (x) 0.30 0.24 0.24 0.22 1
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 26 / 68
Esperanza condicional
En la siguiente tabla, cada columna registra la fc de prob. de masa condicional de la nota
Y dado cada año x.
En la última fila, la tabla registra la esperanza de la nota Y dado cada año x
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4)
1 0.33 0.21 0.125 0.14
y 2 0.27 0.42 0.29 0.23
(nota) 3 0.23 0.25 0.375 0.27
4 0.17 0.12 0.21 0.36
E (Y |X = x) 2.24 2.28 2.67 2.85
Observá que pY |X (y |1) es la fracción del total de alumnos de 1er año que se sacó nota y ,
pues como dijimos anteriormente, en este problema, pXY (x, y ) es la fracción de alumnos
del total de la universidad que está en el año x y que se sacó notay .
E (Y |X = 1) = 1⇥ 0.33+ 2⇥ 0.27+ 3⇥ 0.23+ 4⇥ 0.17
= 2.24
Luego, E (Y |X = 1) es el promedio de las notas de todos los alumnos de 1er año.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 27 / 68
Esperanza condicional
Definición: dadas dos variables aleatorias X e Y discretas con
soportes X e Y , la esperanza condicional de Y dado X = x para
x 2 X es la esperanza de la distribución pY |X (·|x) , es decir
E (Y |X = x) = Â
y2Y
ypY |X (y |x)
Observá que
E (Y |X = x)
puede tomar valores diferentes para cada valor de x por lo que es, en
realidad, una función de x . O sea,
x ! E (Y |X = x)
es la función que a cada x le asigna el valor E (Y |X = x) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 28 / 68
Ilustrar la relación entre dos v.a.
La esperanza condicional es útil para resumir la relación que existe entre dos
variables Y y X .
Por ejemplo, explorando
x (año)
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
vemos que la esperanza de la calificación aumenta a medida que avanzan los años
de estudio.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 29 / 68
Esperanza condicional para ilustrar la relación entre dos
v.a.
Pensemos algunas posibles explicaciones de la relación creciente entre año y nota.
Algunas que se me ocurren son:
Los alumnos mejoran su capacidad de aprendizaje
Los alumnos estudian más
Los alumnos aprenden a tomar exámenes
Los exámenes de los cursos de los años superiores son más fáciles
Los alumnos de los años superiores son un grupo ”selecto” conformado por aquellos
que ”sobrevivieron” a los años inferiores (observá que, de acuerdo a la distribución
de X -año-, hay mas alumnos en los años inferiores que superiores)
x (año)
1 2 3 4
pX (x) 0.30 0.24 0.24 0.22
La calidad de la educación secundaria ha ido disminuyendo, por lo que los alumnos
de los años superiores llegaron mejor preparados a la universidad.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 30 / 68
Esperanza de una esperanza condicional
De la fc. de prob. conjunta
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.10 0.05 0.03 0.03 0.21
y 2 0.08 0.10 0.07 0.05 0.30
(nota) 3 0.07 0.06 0.09 0.06 0.28
4 0.05 0.03 0.05 0.08 0.21
pX (x) 0.30 0.24 0.24 0.22 1
podemos calcular la esperanza de la nota de un alumno elegido al azar:
E (Y ) = 1⇥ pY (1) + 2⇥ pY (2) + 3⇥ pY (3) + 4⇥ pY (4)
= 1⇥ 0.21+ 2⇥ 0.30+ 3⇥ 0.28+ 4⇥ 0.21
= 2.49
Observá que el cálculo de E (Y ) usó los valores de pY (y ) para todo y .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 31 / 68
Esperanza de una esperanza condicional
Ahora, suponé que querés calcular E (Y ) y no conocés la función pY , pero en
cambio tenés la siguiente información:
1. pX (x) para cada año x , y
2. E (Y |x) para cada año x
Es decir, te doy la siguiente información:
1. la fracción del total de alumnos que está en cada año x
2. el promedio de las notas de cada año x por separado.
O sea, suponé que conocés la siguiente tabla
x
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
pX (x) 0.30 0.24 0.24 0.22
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 32 / 68
Esperanza de una esperanza condicional
¿Cómo calculás E (Y ) , el promedio de las notas de todos los alumnos de la universidad
conociendo solo la tabla
x
1 2 3 4
E (Y |X = x) 2.24 2.28 2.67 2.85
pX (x) 0.30 0.24 0.24 0.22
Respuesta: el cálculo es
E (Y ) = E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2)
+ E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4)
Corroboremos que esto es cierto
E (Y |X = 1) pX (1) + E (Y |X = 2) pX (2) + E (Y |X = 3) pX (3) + E (Y |X = 4) pX (4)
= 2.24⇥ 0.30+ 2.28⇥ 0.24+ 2.67⇥ 0.24+ 2.85⇥ 0.22
= 2.49
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 33 / 68
Esperanza de una esperanza condicional
La intuición del cálculo es la siguiente:
El promedio global de todas las notas de la universidad es el promedio
ponderado de los promedios de las notas de los alumnos de cada año
x = 1, 2, 3, 4, donde la ponderación es proporcional al número de alumnos
que cursan el año x .
Área de cada rectangulo proporcional al numero de alumnos en cada año. Promedio global: cada
promedio de los promedios 2.24, 2.28, 2.67 y 2.86 ponderados por el area de cada rectángulo
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 34 / 68
Esperanza de una esperanza condicional
Teorema. Sea (X ,Y ) un vector aleatorio de variables discretas y sea X el soporte
de X . Entonces
E (Y ) = Â
x2X
E (Y |X = x) pX (x)
Si ahora recordamos que
x ! E (Y |X = x)
es una función entonces, recordando la fórmula para la esperanza de una función
de una variable aleatoria, concluimos que el teorema establece la siguiente fórmula,
conocida como la ley de esperanza total o ley de la doble esperanza
E (Y ) = E [E (Y |X )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 35 / 68
Esperanza de una esperanza condicional
Demostración del teorema: sea Y el soporte de Y . Entonces,
E (Y ) = Â
y2Y
ypY (y )
= Â
y2Y
y Â
x2X
pXY (x , y )
= Â
y2Y
y Â
x2X
pX (x) pX |Y (x |y )
= Â
x2X
pX (x) Â
y2Y
ypX |Y (x |y )
| {z }
=E (Y |X=x)
= Â
x2X
E (Y |X = x) pX (x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 36 / 68
Varianza condicional
Aśı como calculamos la esperanza de la nota Y para cada año x, tambien podemos
calcular la varianza de la nota Y para cada año x.
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4)
1 0.33 0.21 0.125 0.14
y 2 0.27 0.42 0.29 0.23
(nota) 3 0.23 0.25 0.375 0.27
4 0.17 0.12 0.21 0.36
E (Y |X = x)2 2.242 2.282 2.672 2.852
E
�
Y 2|X = x
�
6.2 6.06 8.02 9.25
Var (Y |X = x) 1.18 0.87 0.89 1. 12
Por ejemplo,
E
⇣
Y 2|X = 1
⌘
= 12 ⇥ 0.33+ 22 ⇥ 0.27+ 32 ⇥ 0.23+ 42 ⇥ 0.17 = 6.2
var (Y |X = 1) = E
⇣
Y 2|X = 1
⌘
� [E (Y |X = 1)]2
= 6.2� 2.242 = 1.1824
var (Y |X = x) mide el cuadrado de la dispersión de las notas de los alumnos en el año x.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 37 / 68
Varianza condicional
Definición: dadas dos variables aleatorias X e Y discretas con
soportes X y Y , para cualquier x 2 X la varianza condicional de Y
dado X = x es la varianza de la distribución pY |X (·|x) , es decir
var (Y |X = x) = Â
y2Y
(y � E (Y |X = x))2 pY |X (y |x)
O sea,
var (Y |X = x) = E
h
(Y � E (Y |X = x))2 |X = x
i
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 38 / 68
Varianza condicional
Recordando la fórmula alternativa para la varianza, obtenemos
también la fórmula alternativa
var (Y |X = x) = E
�
Y 2|X = x
�
� [E (Y |X = x)]2
o sea
var (Y |X = x) = Â
y2Y
y2pY |X (y |x)�
"
Â
y2Y
ypY |X (y |x)
#2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 39 / 68
Varianza condicional
Observá que al igual que la esperanza condicional, la varianza
condicional es una función
x ! var (Y |X= x)
que a cada x le asigna el valor var (Y |X = x) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 40 / 68
Ley de varianza total
Aśı como existe una fórmula que relaciona la esperanza marginal de Y con las
esperanzas condicionales de Y dado X = x , también existe una relación entre la
varianza marginal de Y (es decir la varianza de la distribución pY (y )), con las
varianzas condicionales, pero esta relación también involucra las esperanzas
condicionales.
Teorema (Ley de varianza total): Sea (X ,Y ) un vector aleatorio
de variables discretas y sea X el soporte de X . Entonces,
var (Y ) = Â
x2X
var (Y |X = x) pX (x)
+ Â
x2X
[E (Y |X = x)� E (X )]2 pX (x)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 41 / 68
Ley de varianza total
Recordando que x ! var (Y |X = x) es una función,
Â
x2X
var (Y |X = x) pX (x) = E [var (Y |X )]
y recordando que E (Y ) = E [E (Y |X )] ,
Â
x2X
[E (Y |X = x)� E (Y )]2 pX (x) = var [E (Y |X )]
De modo que la Ley de Varianza Total establece que
var (Y ) = E [var (Y |X )] + var [E (Y |X )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 42 / 68
Intuición de la ley de var. total en nuestro ejemplo
E [var (Y |X )] es el promedio de las varianzas de las notas var (Y |X = x) para los grupos
x = 1, 2, 3, 4.
Observá que var (Y |X = x) mide la dispersión, al cuadrado, de las notas en el
grupo x . Es la varianza dentro de cada grupo x . A las varianzas var (Y |X = x) se
las llama varianza-intra-grupo .
Entonces, E [var (Y |X )] mide el cuadrado de cuánto, ”en promedio”, se dispersan
las notas en cada grupo.
var [E (Y |X )] es la varianza de los promedios E (Y |X = x) para los grupos x = 1, 2, 3, 4.
Estos promedios, miden la performance promedio de cada grupo.
Entonces, intuitivamente var [E (Y |X )] mide cuán dispersas están las performances
de los distintos grupos. A var [E (Y |X )] se la llama varianza-entre-grupos
Entonces, el teorema descompone a la varianza de la nota en toda la universidad como:
varianza total = varianza-intra-grupo + varianza-entre-grupos
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 43 / 68
Explicación gráfica de la ley de varianza total
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 44 / 68
Variables aleatorias dependientes e independientes
En nuestro ejemplo,
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y )
1 0.33 0.21 0.125 0.14 0.21
y 2 0.27 0.42 0.29 0.23 0.30
(nota) 3 0.23 0.25 0.375 0.27 0.28
4 0.17 0.12 0.21 0.36 0.21
Entonces, cualquiera sea el x ,
pY |X (y |x) 6= pY (y) para al menos un valor de y
O sea, la distribución condicional de Y dado X = x no coincide con la
distribución de Y
De modo que enterarnos en que año está el alumno sorteado cambia nuestro
”pronóstico” sobre la nota que se sacó.
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 45 / 68
Variables aleatorias dependientes e independientes
Pero ahora supongamos que la distribución conjunta de (X ,Y ) fuera
pXY (x , y ) x (año) pY (y )
1 2 3 4
1 0.075 0.06 0.06 0.055 0.25
y 2 0.1125 0.09 0.09 0.0825 0.375
(nota) 3 0.075 0.06 0.06 0.055 0.25
4 0.0375 0.03 0.03 0.0275 0.125
pX (x) 0.30 0.24 0.24 0.22 1
En este caso, podemos comprobar que
pY |X (y |x) = pY (y) para todo x e y
Por ejemplo,
pY |X (2|4) =
pXY (4, 2)
pX (4)
=
0.0825
0.22
= 0.375 = pY (2)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 46 / 68
Variables aleatorias dependientes e independientes
En este caso, tenemos que
pY |X (y |1) pY |X (y |2) pY |X (y |3) pY |X (y |4) pY (y )
1 0.25 0.25 0.25 0.25 0.25
y 2 0.375 0.375 0.375 0.375 0.375
(nota) 3 0.25 0.25 0.25 0.25 0.25
4 0.125 0.125 0.125 0.125 0.125
Todas las columnas son iguales.
Cuando esto ocurre, decimos que X e Y son variables aleatorias
independientes .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 47 / 68
Variables aleatorias dependientes e independientes
Definición: dos variables aleatorias discretas X e Y con soportes X
e Y son independientes cuando
pX |Y (x |y) = pX (x) para todo x 2 X e y 2 Y
o equivalentemente, cuando vale cualquiera de las siguientes
afirmaciones
1.
pY |X (y |x) = pY (y) para todo x 2 X e y 2 Y
2.
pXY (x , y) = pX (x) pY (y) para todo x 2 X e y 2 Y
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 48 / 68
Independencia de más de dos v.a.
La noción de independencia se generaliza a mas de dos v.a. de la
siguiente forma.
Definición: se dice que las variables aleatorias X1,X2, ...,Xk con
soportes Xj , j = 1, ..., k , son mutuamente - o simultaneamente -
independientes cuando
pX1X2...Xk (x1, ..., xk) =
k
’
j=1
pXj (xj ) para todo xj 2 Xj , j = 1, ..., k
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 49 / 68
Independencia de más de dos v.a.
Es posible probar que si X1,X2, ...,Xk son mutuamente independientes, entonces
conocer los valores de cualquier subconjunto de las variables X1,X2, ...,Xk no
cambia nuestra probabilidad sobre las restantes variables aleatorias.
Formalmente: si {j1, ..., jl} es un subconjunto de {1, ..., k} y {h1, ..., hk�l} es el
conjunto de restantes indices, entonces
pXj1Xj2 ...Xjl |Xh1Xh2 ...Xhk�l
�
xj1 , ..., xjl |xh1 , xh2 , ..., xhk�l
�
= pXj1Xj2 ...Xjl
�
xj1 , ..., xjl
�
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 50 / 68
Independencia de más de dos v.a.
El resultado de la filmina anterior tiene la siguiente important́ısima
consecuencia, cuya demostración no veremos.
Proposición: sean X1,X2, ...,Xk mutuamente independientes . Sean
Z = g (Xj1 , ...,Xjl ) y W = q
�
Xh1 ,Xh2 , ...,Xhk�l
�
donde�g�y�h�son�dos�funciones�cualesquiera,�y�{j1,�...,�jl�}�y�
{h1,�...,�hk�l�}�son�dos�conjuntos�de� ı́ndices�disjuntoT.�
Entonces
Z y W son independientes
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 51 / 68
Esperanza del producto de funciones de v.a.
independientes
Antes hemos visto que para cualquier función g (x , y) se verifica que
cuando X e Y son variables aleatorias discretas,
E [g (X ,Y )] = Â
x2X
Â
y2Y
g (x , y) pXY (x , y)
Cuando X e Y son independientes, el siguiente utiĺısimo resultado nos
permite evitar calcular sumas dobles para ciertas funciones g (x , y).
Teorema: Supongamos que X e Y son variables discretas
independientes . Sea
Z = h (X ) q (Y )
Entonces
E (Z ) = E [h (X ) q (Y )]
= E [h (X )]⇥ E [q (Y )]
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 52 / 68
Demostración del teorema.
Demostración del teorema: sean X e Y los soportes de X e Y .
E [h (X ) q (Y )] = Â
x2X
Â
y2Y
h (x) q (y ) pXY (x , y )| {z }
=pX (x)pY (y ) por independ.
= Â
x2X
Â
y2Y
h (x) q (y ) pX (x) pY (y )
= Â
x2X
h (x) pX (x)
2
666664
Â
y2Y
q (y ) pY (y )
| {z }
=E [q(Y )]
3
777775
= E [q (Y )] Â
x2X
h (x) pX (x)
| {z }
=E [h(X )]
= E [h (X )]E [q (Y )]Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 53 / 68
Varianza de la suma de v.a. independientes
El teorema anterior nos permite deducir el siguiente important́ısimo
resultado
Teorema: si X e Y son variables aleatorias discretas independientes
, entonces
var (X + Y ) = var (X ) + var (Y )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 54 / 68
Demostración del teorema.
Demostración del teorema:
var (X +Y ) = E
h
(X +Y )2
i
� [E (X +Y )]2
= E
h
(X +Y )2
i
� [E (X ) + E (Y )]2
= E
h⇣
X 2 + 2XY +Y 2
⌘i
�
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
⇣
X 2
⌘
+ 2E (XY ) + E
⇣
Y 2
⌘i
�
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
⇣
X 2
⌘
� [E (X )]2
i
| {z }
=var(X )
+
h
E
⇣
Y 2
⌘
� [E (Y )]2
i
| {z }
= var(Y )
+ [2E (XY )� 2E (X )E (Y )]
| {z }
=0 por independencia
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 55 / 68
Varianza de la suma de v.a. independientes
Corolario 1: si X1,X2, ...,Xk son v.a. discretas mutuamente
independientes, entonces
var (X1 + X2 + ...+ Xk) = var (X1) + var (X2) + ...+ var (Xk)
Corolario 2: si X1,X2, ...,Xk son v.a. discretas mutuamente
independientes y var (Xi ) = s2 es la misma para todo i , entonces,
var (X1 + X2 + ...+ Xk) = ks
2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 56 / 68
Demostración del corolario 1.
Demostración del corolario 1: sea Z = X1 + X2 + ...+ Xk�1, entonces la
independencia mútua de X1, ...,Xk implica la independencia de Z y Xk . Entonces
var (X1 + X2 + ...+ Xk ) = var (Z + Xk )
= var (Z ) + var (Xk )
Ahora, sea W = X1 + X2 + ...+ Xk�2. Entonces, Z = W + Xk�1 donde W y Xk�1
son independientes. Entonces
var (Z ) = var (W ) + var (Xk�1)
por lo tanto
var (X1 + X2 + ...+ Xk ) = var (W ) + var (Xk�1) + var (Xk )
y asi continuamos hasta arribar a
var (X1 + X2 + ...+ Xk ) = var (X1) + var (X2) + ...+ var (Xk )
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 57 / 68
Ejemplo aplicando descomposición de esperanza y varianza
a sumas de v.a. independientes.
Suponé que el número N de clientes que realizan una compra en un
supermercado en un d́ıa de la semana cualquiera es una v.a.
Poisson(l) con l = 3000. Suponé que los clientes no están
relacionados entre śı y que sus gastos no están relacionados con N.
Llamá Yi al gasto del i�ésimo cliente, y suponé que
E (Yi ) = 500 y Var (Yi ) = 900
¿Cuál es la esperanza y el desv́ıo estandard del total de ventas en un
d́ıa cualquiera de la semana?
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 58 / 68
Descomposiciones de esperanza y varianza: ejemplo
Solución: El total de ventas es
S = Y1 + Y2 + ...+ YN
Sabemos que
E (S |N = n) = E (Y1) + ...+ E (Yn)
= 500⇥ n
Luego
E (S) = E [E (S |N)]
= E [500N ]
= 500E (N)
= 500⇥ 3000
= 1500000
Donde hemos usado que E (N) = 3000 porque N ⇠ Pois (3000) .
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 59 / 68
Continuación del ejemplo
Por otro lado, como Y1, ..,Yn son mutuamente independientes,
Var (S |N = n) = Var (Y1) + ...+ Var (Yn)
= 900⇥ n
Entonces
Var [S ] = Var (E [S |N ]) + E (Var [S |N ])
= Var (500N) + E (900N)
= 5002var (N) + 900E (N)
= 225450 00
Por lo tanto
SD (S) =
p
225450 00 = 4748.2
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 60 / 68
Comparación entre la esperanza y el desv́ıo de la suma de
v.a. independientes
Suponé que X1, ...,Xn son v.a. mutuamente independientes, tales que E (Xi ) = µ y
var (Xi ) = s2 son las mismas para todo i .
Entonces,
E (X1 + X2 + ...+ Xn) = nµ
y
SD (X1 + X2 + ...+ Xn) =
p
ns
Si µ > 0,
E (X1 +X2 + ...+Xn) crece proporcionalmente a n
SD (X1 +X2 + ...+Xn) crece proporcionalmente a
p
n
Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es positiva y
mucho más grande que el desvio estándard. Veremos más adelante que esto implica
que la probabilidad de que la suma sea menor que 0 tiende a 0 cuando n tiende a •
Si µ < 0,
E (X1 +X2 + ...+Xn) decrece proporcionalmente a n
SD (X1 +X2 + ...+Xn) crece proporcionalmente a
p
n
Por lo tanto, a medida que n crece, la esperanza de la suma de v.a. es negativa y
mucho más chica que el desvio estándard. Veremos más adelante que esto implica
que la probabilidad de que la suma sea mayor que 0 tiende a 0 cuando n tiende a •
Rotnitzky,�Ferrari,�Cersosimo,�Smucler� (UniversidadIntroducTocionrcuatoa� laDiEstadTellá� )ıstica(Cap.� 2,� sección�2.5,�2.6�y�2.7�del�Bertsekas) 61 / 68
Varianza de una v.a. binomial
Usando el corolario 2 podemos deducir inmediatamente la demostración de la
fórmula de la varianza de una v.a. binomial.
Recordemos que si X ⇠ Bin (n, p) entonces
X = Y1 + ...+ Yn
donde Y1,Y2, ...,Yn son v.a. Ber (p) mutuamente independientes.
Ademas, recordemos que ya hemos calculado que
var (Yi ) = p ⇥ (1� p)
Luego, en vista del corolario 2
var (X ) = n⇥ p ⇥ (1� p)
Rotnitzky, Ferrari, Cersosimo, Smucler (Universidad Torcuato Di Tella )Introduccion a la Estad́ıstica(Cap. 2, sección 2.5, 2.6 y 2.7 del Bertsekas) 62 / 68
Covarianza
Dadas dos variables aleatorias X e Y , la covarianza entre X e Y se deÖne
como
cov (X ,Y ) = E (XY )! E (X )E (Y )
Resultado: Si X e Y son independientes, entonces cov (X ,Y ) = 0
X e Y independientes ) cov (X ,Y ) = 0
Es posible que X e Y sean dependientes pero sin embargo tengan
covarianza igual a 0.
X e Y independientes 6( cov (X ,Y ) = 0
Resultado: si E (Y jX = x) no depende de x , entonces cov (X ,Y ) = 0.
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 2 / 9
Ejemplo de dos variables dependientes pero con covarianza
igual a 0
SuponÈ que X e Y ahora toman valores en f1, 2, 3g , y su distribuciÛn conjunta viene
dada por la siguiente table
pXY (x , y ) x (aÒo) pY (y )
1 2 3
y 1 0.12 0.15 0.12 0.39
(nota) 2 0.14 0.02 0.06 0.22
3 0.12 0.15 0.12 0.39
pX (x ) 0.38 0.32 0.30 1
La distribuciÛn conditional de Y dado X y la distribuciÛn marginal de Y quedan entonces
determinadas por la siguiente tabla
pY jX (y j1) pY jX (y j2) pY jX (y j3) pY (y )
y 1 0.32 0.47 0.40 0.39
(nota) 2 0.36 0.06 0.20 0.22
3 0.32 0.47 0.40 0.39
E (Y jX = x ) 2 2 2 2
Not· que Y y X son dependientes. Sin embargo, para todo x , vale que
E (Y jX = x ) = E (Y ) = 2
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 3 / 9
Calculemos ahora la covarianza entre X e Y
E [XY ] = E [E (XY jX )]
= E [XE (Y jX )]
= E [X2]
= 2E (X )
= E (Y )E (X )
Luego,
E [XY ]! E (Y )E (X ) = 0
Por lo tanto, recordando que cov (X ,Y ) = E [XY ]! E (Y )E (X )
concluimos que
cov (X ,Y ) = 0
a pesar de que X e Y son dependientes.
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 4 / 9
Covarianza, propiedades
Claramente, la covarianza es conmutativa
cov (X ,Y ) = cov (Y ,X )
Adem·s, es posible probar que la covarianza posee la propiedad de
bilinearidad:
cov (aX + bY ,Z ) = a( cov (X ,Z ) + b( cov (Y ,Z )
M·s generalmente
cov (aX + bY , cZ + dW ) = ac ( cov (X ,Z ) + ad ( cov (X ,W )
+ bc ( cov (Y ,Z ) + bd ( cov (Y ,W )
Si cov (X ,Y ) = 0 entonces var(X + Y ) = var (X ) + var (Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 5 / 9
Covarianza, expresiÛn alternativaResultado:
cov (X ,Y ) = E [(X ! E (X )) (Y ! E (Y ))]
Esta expresiÛn para la covarianza nos permite interpretar que la
covarianza cuantiÖca una especie de tendencia a una relaciÛn
lineal entre X e Y .
DemostraciÛn:
E [(X ! E (X )) (Y ! E (Y ))] = E [XY ! XE (Y )! YE (X ) + E (X ) E (Y )]
= E [XY ]! E [XE (Y )]! E [YE (X )] + E [E (X ) E (Y )]
= E [XY ]! E (Y ) E (X )! E (X ) E (Y ) + E (X ) E (Y )
= E [XY ]! E (X ) E (Y )
= cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 6 / 9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
covarianza cercana a 0
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.5 0.0 0.5 1.0
−1
.0
−0
.5
0.
0
0.
5
1.
0
covarianza cercana a 0
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−2
−1
0
1
2
covarianza positiva
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−4
−2
0
2
covarianza negativa
x
y
Covarianza depende de la escala de mediciÛn
La covarianza no es enteramente satisfactoria como medida de
tendencia a una relaciÛn lineal entre dos variables porque depende de
la escala de mediciÛn.
Para ver esto, imaginate que querÈs medir la tendencia a una relaciÛn
lineal entre los retornos X e Y de dos portafolios.
SuponÈ que cuando X e Y est·n calculados en dÛlares, entonces
cov (X ,Y ) = 3000
Si eX e eY miden los retornos del portafolio en centavos de dolar,
entonces
eX = 100X , eY = 100Y
Por lo tanto,
cov
"
eX , eY
#
= cov (100X , 100Y ) = 1002cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 7 / 9
CorrelaciÛn
La correlaciÛn entre X e Y se deÖne como
corr (X ,Y ) =
cov (X ,Y )
p
var (X )
p
var (Y )
Resultado:
corr (X ,Y ) = E
" 
X ! E (X )
p
var (X )
! 
Y ! E (Y )
p
var (Y )
!#
X!E (X )p
var (X )
calcula cuantos desvÌos estandard por arriba o por abajo de
E (X ) est· X . Su valor no depende de la escala de mediciÛn. Lo
anal·logo ocurre con Y!E (Y )p
var (Y )
.
Por lo tanto, la correlaciÛn, no depende de la escala de mediciÛn,
pero contin˙a siendo una medida de la tendencia a una relaciÛn lineal
entre X e Y
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 8 / 9
Propiedades de la correlaciÛn
(1)
jcorr (X ,Y )j * 1
(2)
corr (X ,Y ) = 1, Y = aX + b para alg˙n a > 0, y alg˙n b
(3)
corr (X ,Y ) = !1, Y = aX + b para alg˙n a < 0, y alg˙n b
(4)
X e Y independientes ) corr (X ,Y ) = 0
X e Y independientes 6( corr (X ,Y ) = 0
(5) Si corr (X ,Y ) > 0 entonces la tendencia es a una asociaciÛn lineal creciente entre
X e Y
(6) Si corr (X ,Y ) < 0 entonces la tendencia es a una asociaciÛn lineal decreciente
entre X e Y
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica June 24, 2020 9 / 9
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
0.
0
0.
2
0.
4
0.
6
0.
8
1.
0
correlacion 0.0542
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−0.5 0.0 0.5 1.0
−1
.0
−0
.5
0.
0
0.
5
1.
0
correlacion = 0.0204
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−2
−1
0
1
2
correlacion = 0.924
x
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
−1.0 −0.5 0.0 0.5 1.0
−4
−2
0
2
correlacion = −0.9615
x
y
Varianza de la suma de 2 variables aleatorias cualesquiera
Teorema: si X e Y son variables aleatorias discretas cualesquiera ,
entonces
var (X + Y ) = var (X ) + var (Y ) + 2 cov (X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 2 / 4
DemostraciÛn del teorema.
DemostraciÛn del teorema:
var (X +Y ) = E
h
(X +Y )2
i
! [E (X +Y )]2
= E
h
(X +Y )2
i
! [E (X ) + E (Y )]2
= E
h#
X 2 + 2XY +Y 2
$i
!
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
#
X 2
$
+ 2E (XY ) + E
#
Y 2
$i
!
h
[E (X )]2 + 2E (X )E (Y ) + [E (Y )]2
i
=
h
E
#
X 2
$
! [E (X )]2
i
| {z }
=var(X )
+
h
E
#
Y 2
$
! [E (Y )]2
i
| {z }
= var(Y )
+ [2E (XY )! 2E (X )E (Y )]
| {z }
=2 cov(X ,Y )
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 3 / 4
Varianza de la suma de n variables aleatorias cualesquiera
Teorema: Si X1,X2, ...,Xn son variables aleatorias discretas
cualesquiera , entonces
var (X1 + X2 + ...+ Xn) =
= var (X1) + ...+ var (Xn) +
+ 2 fcov (X1,X2) + cov (X1,X3) + ...+ cov (X1,Xn)
+ cov (X2,X3) + cov (X2,X4) + ...+ cov (X2,Xn)
+ ...
+ cov (Xn!1,Xn)g
Andrea Rotnitzky (Universidad Torcuato Di Tella ) Introduccion a la EstadÌstica 4 / 4

Continuar navegando

Materiales relacionados

223 pag.
52 pag.
65 pag.
apuntes-estadisticas

Gimn Comercial Los Andes

User badge image

Santana Satnas

163 pag.
tesis555

User badge image

Simon Castillo