Slides 9 - Vectores Continuos

Estadística

•
SIN SIGLA

0
tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5710 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
DistribuciÛn conjunta de v.a. continuas,
distribuciÛn Normal bivariada
Andrea Rotnitzky, AnalÌa Ferrari, MatÌas Cersosimo
30 de Mayo, 2018
 
Variables discretas (1D)
0 5 10 15
0.
00
0.
05
0.
10
0.
15
Figura : Histograma de una variable
Poisson de parámetro � = 5.
I Rango finito o infinito
numerable.
I Caracterizadas por su función
de masa de probabilidad
(función de probabilidad
puntual).
I Visualización de la
distribución a través del
histograma.
I Para un evento A calculamos la
probabilidad P(A) como
P(A) =
X
x2A
pX (x)
I Ejemplos: Bernoulli, Binomial,
Poisson.
Variables continuas (1D)
−2 0 2 4 6
0.
0
0.
1
0.
2
0.
3
0.
4
Figura : Gráfico de la función de
densidad de una variable normal de
media 2 y varianza 1.
I Rango infinito no numerable
(e.g. un intervalo o todo R).
I Caracterizadas por su función
de densidad.
I Visualización de la
distribución a través del
gráfico de la función de
densidad.
I Para el evento {a  X  b}
calculamos su probabilidad
como
P(a  X  b) =
Z b
a
fX (x)dx
I Ejemplos: Normal, Uniforme.
Vectores aleatorios discretos (2D)
x
0
2
4
y
−3
−2
−1
0
1
2
0.00
0.05
0.10
0.15
0.20
Histograma
Figura : Histograma para la
distribución conjunta de dos
variables discretas.
I Rango finito o infinito
numerable (pares de valores).
I Caracterizados por su función
de masa de probabilidad
conjunta:
pXY (x , y) = P(X = x ,Y = y)
I Visualización de la
distribución a través del
histograma (en 3D).
podemos pensar algo similar para variables continuas . . .
Vectores aleatorios discretos (2D)
x
0
2
4
y
−3
−2
−1
0
1
2
0.00
0.05
0.10
0.15
0.20
Histograma
Figura : Histograma para la
distribución conjunta de dos
variables discretas.
I Rango finito o infinito
numerable (pares de valores).
I Caracterizados por su función
de masa de probabilidad
conjunta:
pXY (x , y) = P(X = x ,Y = y)
I Visualización de la
distribución a través del
histograma (en 3D).
podemos pensar algo similar para variables continuas . . .
Vectores aleatorios continuos (2D)
Figura : Gráfico de la función de
densidad conjunto de un vector de
dos variables aleatoria continuas.
I Rango infinito no numerable
(un subconjunto del plano o
todo R2).
I Caracterizados por su función
de densidad conjunta:
fXY (x , y) : R2 �! R
I Visualización de la
distribución a través del
gráfico de la función de
densidad conjunta (en 3D).
Cálculo de probabilidades para vectores aleatorios
Queremos calcular:
P(a  X  b, c  Y  d)
Caso discreto X
(x,y)2[a,b]⇥[c,d ]
pXY (x , y)
Caso continuo Z
(x,y)2[a,b]⇥[c,d ]
pXY (x , y)dxdy
(la probabilidad de que el vector tome valores en un conjunto A ⇢ R2 es
equivalente a hallar el volumen bajo el gráfico de la función de densidad
conjunta: estos cálculos requieren integrales dobles)
Distribuciones marginales
I Para X e Y discretas vimos que
pX (x) = Â
y2Y
pX ,Y (x , y)
I Para X e Y continuas vale que
fX (x) =
Z •
#•
fX ,Y (x , y) dy
DistribuciÛn condicional
I Para X e Y discretas, pY jX (Y = y jX = x) es la probabilidad
condicional de que Y = y cuando se sabe que X = x
I Para Y contÌnua y X continua o discreta,
fY jX (y jx)
es la densidad de Y cuando se sabe que X = x . Se la llama
densidad condicional de Y dado X = x
I Se puede probar que
fY jX (y jx) =
fX ,Y (x , y)
fX (x)
M·s de dos variables
I Para n variables aleatorias continuas deÖnimos la funciÛn de
densidad conjunta a aquella funciÛn fX1,...,Xn (x1, ..., xn) tal
que para todo(a1, b1) , ..., (an, bn)
P (a1 % X1 % b1, ..., an % Xn % bn)
=
Z
(x1,...,xn)2[a1,b1 ]&...&[an ,bn ]
fX1,...,Xn (x1, ..., xn) dx1...dxn
I La funciÛn de densidad condicional de X1 dados
X2 = x2, ...,Xn = xn se deÖne como
fX1 jX2...Xn (x1jx2, ..., xn) =
fX1,...,Xn (x1, ..., xn)
fX2,...,Xn (x2, ..., xn)
Probabilidades y esperanza condicional
I Para calcular la probabilidad de que una v.a. contÌnua Y estÈ
en el intervalo (a, b) dado que X = x ,
P (a % Y % bjX = x) =
Z b
a
fY jX (y jx) dy
I La esperanza condicional de una v.a. continua Y dado X = x
es
E (Y jX = x) =
Z •
#•
yfY jX (y jx) dy
I La esperanza de una funciÛn g (Y ) de una v.a. contÌnua Y
dado X = x es
E (g (Y ) jX = x) =
Z •
#•
g (y) fY jX (y jx) dy
Ley de esperanza total.
I Cuando Y es continua sigue valiendo la Ley de Esperanza
Total.
I Teorema: dada Y v.a. contÌnua, vale que
1. Si X es discreta con soporte X
E (Y ) = Â
x2X
E (Y jX = x) pX (x)
2. Si X es contÌnua,
E (Y ) =
Z •
#•
E (Y jX = x) fX (x) dx
3. Por lo tanto cualquiera sea X ,
E (Y ) = E [E (Y jX )]
Varianza condicional
I La varianza condicional de una v.a. continua Y dado X = x
es
Var (Y jX = x) = E
h
(Y # E (Y jX = x))2 jX = x
i
I Al igual que para la varianza incondicional, la var. condicional
se puede re-expresar como
Var (Y jX = x) = E
$
Y 2jX = x
%
# E (Y jX = x)2
Ley de varianza total
I Cuando Y es continua sigue valiendo la Ley de Varianza Total.
I Teorema: dada Y v.a. contÌnua, vale que
1. Cualquiera sea la v.a. X ,
Var (Y ) = E [Var (Y jX )] + Var [E (Y jX )]
2. Por lo tanto, si X es discreta con soporte X
Var (Y ) = Â
x2X
Var (Y jX = x) pX (x)
+ Â
x2X
fE (Y jX = x)# E (Y )g2 pX (x)
3. y si X es contÌnua,
E (Y ) =
Z •
#•
Var (Y jX = x) fX (x) dx
+
Z •
#•
fE (Y jX = x)# E (Y )g2 fX (x) dx
Independencia
I Para X e Y discretas, X e Y son independientes cuando
pX ,Y (x , y) = pX (x) pY (y)
I Para X e Y contÌnuas, X e Y son independientes cuando
fX ,Y (x , y) = fX (x) fY (y)
I M·s generalmente: X1, ...,Xn v.a. contÌnuas son
independientes si fX1,...,Xn (x1, ..., xn) = fx1 (x1) * * * fxn (xn)
Independencia
I Resultado: X e Y son independientes si y solo si, para todo
x tal que fx (x) 6= 0,
fY jX (y jx) = fY (y)
para todo y
I Corolario: si X e Y son independientes, entonces
P (a % Y % bjX = x) = P (a % Y % b)
Esperanza del producto de v.a. independientes
I Teorema: Si X e Y son independientes , entonces para
cualquier g (x) y h (y) vale que
E [g (X ) h (Y )] = E [g (X )]E [h (Y )]
I M·s generalmente, si X1, ...,Xn son independientes , entonces
para cualquier g1, ..., gn
E [g1 (X1)& * * * & gn (Xn)] = E [g1 (X1)]& * * * & E [gn (Xn)]
Covarianza y CorrelaciÛn
I Para cualquier par de variables aleatorias X e Y (X e Y discretas o
continuas) deÖnimos:
I Covarianza
cov (X ,Y ) = E [(X ! E (X )) (Y ! E (Y ))]
I CorrelaciÛn
corr (X ,Y ) =
cov (X ,Y )
p
var (X )
p
var (Y )
Covarianza y CorrelaciÛn
I La covarianza y la correlacion miden la "tendencia" a una relacion lineal entre
las variables aleatorias X e Y
I La covarianza depende de la escala de medicion (por ejemplo, pesos, centavos,
etc)
I La correlacion es una medida "absoluta" que no depende de la escala de
medicion y satisface
jcorr (X ,Y )j # 1
I Cuanto mas cercana a 1 es jcorr (X ,Y )j mas fuerte es la tendencia a una
relacion lineal entre X e Y .
I Si jcorr (X ,Y )j = 1 entonces existen constantes a y b tal que Y = aX + b.
I Si corr (X ,Y ) > 0, la tendencia es a una asociacion lineal creciente entre X e Y
(a mayor X , mayor Y )
I Si corr (X ,Y ) < 0, la tendencia es a una asociacion lineal decreciente entre X e
Y (a mayor X , menor Y )
Propiedades de la covarianza
1.
cov (X ,Y ) = cov (Y ,X )
2. si a y b son constantes,
cov (aX , bY ) = ab cov (X ,Y )
3.
cov (X + Z ,Y ) = cov (X ,Y ) + cov (Z ,Y )
4.
cov (X ,X ) = var (X )
Propiedades de la correlaciÛn.
1.
!1 " corr (X ,Y ) " 1
2. la correlacion mide la tendencia de las variables X e Y a seguir una
relacion lineal
3.
corr (X ,Y ) = 1 ) Y = aX + b para algun a > 0 y algun b
corr (X ,Y ) = !1 ) Y = aX + b para algun a < 0 y algun b
Gr·Öcos "scatter plots" de observaciones de (X,Y) para
distintas correlaciones
Propiedades de sumas de variables aleatorias
Las siguientes propiedades valen para cualquier par de variables X e Y (con
componentes discretas o continuas cualesquiera, o sea no necesariamente normales).
1.
E (X + Y ) = E (X ) + E (Y )
2.
var (X + Y ) = var (X ) + var (Y ) +2cov (X ,Y )
I M·s generalmente, si X1,X2, ...,Xn son variables aleatorias cualesquiera,
entonces
1.
E (X1 + ...+ Xn) = E (X1) + ...+ E (Xn)
2.
var (X1 + ...+ Xn) = var (X1) + ...+ var (Xn)
+2cov (X1,X2) + 2cov (X1,X3) + ....+ 2cov (X1,Xn)
+2cov (X2,X3) + 2cov (X2,X4) + ....+ 2cov (X2,Xn)
+...
+2cov (Xn!1,Xn)
Propiedades de sumas de variables aleatorias
independientes
I Si X e Y son variables aleatorias independientes (con componentes discretas o
continuas cualesquiera, o sea no necesariamente normales), entonces
var (X + Y ) = var (X ) + var (Y )
I M·s generalmente, si X1,X2, ...,Xn son variables aleatorias mutuamente
independientes (discretas o continuas), entonces
var (X1 + ...+ Xn) = var (X1) + ...+ var (Xn)
Distribución normal bivariada
La función de densidad para un vector normal bivariado es:
f (x , y) = K exp
 
�
1
2(1� ⇢2)
"
(x � µX )2
�2X
+
(y � µY )2
�2Y
�
2⇢(x � µX )(y � µY )
�X�Y
#!
con
K =
1
2⇡�X�Y
p
1� ⇢2
I Depende de varios parámetros: µx ,µy ,⇢,�x ,�y ,
I La constante K normaliza la densidad para que su integral sea 1.
Parámetros de la normal bivariada
La distribución normal bivariada depende de cinco parámetros:
µx 2 R
µy 2 R
�x 2 R>0
�y 2 R>0
⇢ 2 [�1, 1]
(investiguemos qué representan)
https://pianophase.shinyapps.io/applet-bivariada/
Notacion
I Decimos que (X ,Y ) tiene una distribucion Normal bivariada cuando para
cualquier a < b y c < d
P (a ! X ! b, c ! Y ! d )
es igual al volumen bajo la superÖcie generada por una funcion de
densidad normal bivariada sobre el rectangulo [a, b]" [c , d ] .
I Para designar que (X ,Y ) tiene una distribucion Normal bivariada con
parametros µx , µy , sx , sy y r escribimos
!
X
Y
"
# N
!!
µx
µy
"
,
!
s2x rsxsy
rsxsy s2y
""
GraÖco de la densidad Normal Bivariada
I En el sitio https://pianophase.shinyapps.io/applet-bivariada/
encontraras un applet preparado por el profesor Pablo Vena en el
que podras examinar el graÖco de la densidad normal.
I Notaras que las curvas de nivel son elipses con las siguientes
caracteristicas:
I Todas las elipses tienen el mismo centro el cual se encuentra en
#
µx , µy
$
.
I Si r = 0, entonces cada elipse esta "en posicion vertical" cuando sy > sx , "en
posicion horizontal" cuando sx > sy . Si sx = sy cada elipse es en realidad un
circulo.
I Si r > 0, cada elipse esta inclinada en posicion ascendente.
I Si r < 0, cada elipse esta inclinada en posicion descendente.
I Cuanto mayor es jrj , mas "achatadas" son las elipses, es decir siguen mas
cercanamente a una recta.
Proyecciones y marginales
Si (X,Y) es una normal bivariada, entonces las marginales son
normales univariadas. Más aun, cualquier combinación lineal
aX + bY tiene distribución normal (univariada).
Distribuciones marginales y distribuciones de
combinaciones lineales en la normal bivariada
I Resultado: Si
!
X
Y
"
! N
!!
µx
µy
"
,
!
s2x rsxsy
rsxsy s2y
""
entonces
X ! N
#
µx , s
2
x
$
y Y ! N
%
µy , s
2
y
&
I Mas aun, para cualquier constantes a y b,
aX + bY ! N
%
aµx + bµy , a
2s2x + b
2s2y + 2abrsxsy
&
Covarianza y correlación para la normal bivariada
�2x varianza marginal de la variable X .
�2y varianza marginal de la variable Y .
⇢ correlación entre la variable X y la Y .
Matriz de varianza-covarianza.
I La matriz de varianza-covarianza para el vector (X ,Y ) se deÖne
como !
cov (X ,X ) cov (X ,Y )
cov (Y ,X ) cov (Y ,Y )
"
I Usando que var (X ) = cov (X ,X ) y var (Y ) = cov (Y ,Y )
obtenemos que esta matriz es igual a
!
var (X ) cov (X ,Y )
cov (Y ,X ) var (Y )
"
La misteriosa matriz que aparece en la notacion de la la
normal bivariada.
I Recordemos que para designar que (X ,Y ) sigue una dist normal bivariada
usamos !
X
Y
"
! N
!!
µx
µy
"
,
!
s2x rsxsy
rsxsy s2y
""
I Ahora, recordando que en la dist normal bivariada r = corr (X ,Y ) , obtenemos
que
rsxsy = corr (X ,Y )
q
var (X )
q
var (Y )
=
cov (X ,Y )
p
var (X )
p
var (Y )
q
var (X )
q
var (Y )
= cov (X ,Y ) = cov (Y ,X )
I Entonces, la matriz en la notacion que usamos para designar a una dist normal
bivariada es
!
s2x rsxsy
rsxsy s2y
"
=
!
cov (X ,X ) cov (X ,Y )
cov (Y ,X ) cov (Y ,Y )
"
= matriz de var-cov
Distribucion condicional para vectores normales bivariados.
I Notemos que cuando (X ,Y ) es normal bivariado, el graÖco de fX ,Y (x , y ) como
funcion de y considerando a x Öjo, es como el de una normal univariada excepto
que el area bajo la curva no es igual a 1.
I En la fÛrmula
fY jX (y jx ) =
fX ,Y (x , y )
fX (x )
el denominador fX (x ) es una "constante de normalizacion" que asegura que el
area bajo la curva fY jX (y jx ) (como funcion de y ) sea igual a 1.
Independencia y CorrelaciÛn.
I Siempre vale que:
Independencia ) CorrelaciÛn 0
I Solo cuando (X ,Y ) " Normal Bivariada:
CorrelaciÛn 0) Independencia
Distribucion condicional en la normal bivariada.
I Resultado: Si
!
X
Y
"
" N
!!
µx
µy
"
,
!
s2x rsxsy
rsxsy s2y
""
entonces
distribucion de Y dado (X = x) " N
#
µy jx , s
2
y jx
$
donde
µy jx = E (Y jX = x)
= µy + r
sy
sx
(x $ µx )
y
s2y jx = Var (Y jX = x)
= s2y
#
1$ r2
$
Varianza condicional en la normal bivariada.
I Notar que cuando (X ,Y ) tienen distribucion normal bivariada:
I La varianza condicional Var (Y jX = x) no depende de x .
I La varianza condicional Var (Y jX = x) = s2y jx es menor o igual que
la varianza marginal Var (Y ) = s2y pues r
2 % 1 y
s2y % s
2
y
#
1$ r2
$
| {z }
=s2y jx
I Cuanto m·s grande jrj mas chica es Var (Y jX = x) .
Esperanza condicional en la normal bivariada.
I Notar que cuando (X ,Y ) tienen distribucion normal bivariada la esperanza
condicional de Y dado X = x es una funcion lineal de x
µy jx = E (Y jX = x )
= µy + r
sy
sx
(x $ µx )
I Esta funciÛn tiene ribetes interesantes. Veamos ... Pasando de miembro µy y sy
obtenemos
E (Y jX = x )$ µy
sy
= r
!
x $ µx
sx
"
o equivalentemente
E
!Y $ µy
sy
jX = x
"
= r
!
x $ µx
sx
"
RegresiÛn a la media.
E
# Y$µy
sy
)))X = x
$
= r
#
x$µx
sx
$
I El cociente x$µxsx mide la cantidad de desvÌos sx por arriba o por abajo de µx
est· x
I El cociente
Y$µy
sy
mide la cantidad de desvÌos sy por arriba o por abajo de µy
est· Y
I Si r > 0 entonces para un x que est·, por ejemplo, 2 desvios sx por arriba de
µx , esperamos que Y estÈ a 2r desvios sy por arriba de µy . A menos que r sea
1, esperamos entonces que Y estÈ "m·s cerca" de la media µy de lo que est· x
de la media µx .
I A este fenomeno se lo conoce como "regresiÛn a la media".
RegresiÛn a la media.
I Ejemplo 1: X e Y son los resultados de un alumno elegido al azar en los
examenes parciales y Önales de estadistica. Supongamos que siguen una dist.
normal bivariada con r = 0.7. Entonces para un alumno que le fue muy muy
bien en el parcial porque su nota x se ubico 3 sx por arriba de la media µx , la
esperanza es que en el Önal no le vaya tan bien. La esperanza de su nota se
ubica a 3r = 0.21 desvios estandard sy por arriba de la media µy de la nota en
el Önal.
I Ejemplo 2: X e Y son las alturas de un padre y su hijo elegidos al azar de una
poblacion. (X ,Y ) tipicamente tienen una dist. normal bivariada. Supongamos
que r = 0.8. Para un padre "petiso", con altura 2 desvios sx por debajo de la
media µx de la altura para su generacion, se espera que su hijo no sea "tan
petiso", y que tenga una altura que se ubica a 2r = 0.16 desvios sy por debajo
de la media µy de la altura para su generacion.