Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
DistribuciÛn conjunta de v.a. continuas, distribuciÛn Normal bivariada Andrea Rotnitzky, AnalÌa Ferrari, MatÌas Cersosimo 30 de Mayo, 2018 Variables discretas (1D) 0 5 10 15 0. 00 0. 05 0. 10 0. 15 Figura : Histograma de una variable Poisson de parámetro � = 5. I Rango finito o infinito numerable. I Caracterizadas por su función de masa de probabilidad (función de probabilidad puntual). I Visualización de la distribución a través del histograma. I Para un evento A calculamos la probabilidad P(A) como P(A) = X x2A pX (x) I Ejemplos: Bernoulli, Binomial, Poisson. Variables continuas (1D) −2 0 2 4 6 0. 0 0. 1 0. 2 0. 3 0. 4 Figura : Gráfico de la función de densidad de una variable normal de media 2 y varianza 1. I Rango infinito no numerable (e.g. un intervalo o todo R). I Caracterizadas por su función de densidad. I Visualización de la distribución a través del gráfico de la función de densidad. I Para el evento {a X b} calculamos su probabilidad como P(a X b) = Z b a fX (x)dx I Ejemplos: Normal, Uniforme. Vectores aleatorios discretos (2D) x 0 2 4 y −3 −2 −1 0 1 2 0.00 0.05 0.10 0.15 0.20 Histograma Figura : Histograma para la distribución conjunta de dos variables discretas. I Rango finito o infinito numerable (pares de valores). I Caracterizados por su función de masa de probabilidad conjunta: pXY (x , y) = P(X = x ,Y = y) I Visualización de la distribución a través del histograma (en 3D). podemos pensar algo similar para variables continuas . . . Vectores aleatorios discretos (2D) x 0 2 4 y −3 −2 −1 0 1 2 0.00 0.05 0.10 0.15 0.20 Histograma Figura : Histograma para la distribución conjunta de dos variables discretas. I Rango finito o infinito numerable (pares de valores). I Caracterizados por su función de masa de probabilidad conjunta: pXY (x , y) = P(X = x ,Y = y) I Visualización de la distribución a través del histograma (en 3D). podemos pensar algo similar para variables continuas . . . Vectores aleatorios continuos (2D) Figura : Gráfico de la función de densidad conjunto de un vector de dos variables aleatoria continuas. I Rango infinito no numerable (un subconjunto del plano o todo R2). I Caracterizados por su función de densidad conjunta: fXY (x , y) : R2 �! R I Visualización de la distribución a través del gráfico de la función de densidad conjunta (en 3D). Cálculo de probabilidades para vectores aleatorios Queremos calcular: P(a X b, c Y d) Caso discreto X (x,y)2[a,b]⇥[c,d ] pXY (x , y) Caso continuo Z (x,y)2[a,b]⇥[c,d ] pXY (x , y)dxdy (la probabilidad de que el vector tome valores en un conjunto A ⇢ R2 es equivalente a hallar el volumen bajo el gráfico de la función de densidad conjunta: estos cálculos requieren integrales dobles) Distribuciones marginales I Para X e Y discretas vimos que pX (x) = Â y2Y pX ,Y (x , y) I Para X e Y continuas vale que fX (x) = Z • #• fX ,Y (x , y) dy DistribuciÛn condicional I Para X e Y discretas, pY jX (Y = y jX = x) es la probabilidad condicional de que Y = y cuando se sabe que X = x I Para Y contÌnua y X continua o discreta, fY jX (y jx) es la densidad de Y cuando se sabe que X = x . Se la llama densidad condicional de Y dado X = x I Se puede probar que fY jX (y jx) = fX ,Y (x , y) fX (x) M·s de dos variables I Para n variables aleatorias continuas deÖnimos la funciÛn de densidad conjunta a aquella funciÛn fX1,...,Xn (x1, ..., xn) tal que para todo(a1, b1) , ..., (an, bn) P (a1 % X1 % b1, ..., an % Xn % bn) = Z (x1,...,xn)2[a1,b1 ]&...&[an ,bn ] fX1,...,Xn (x1, ..., xn) dx1...dxn I La funciÛn de densidad condicional de X1 dados X2 = x2, ...,Xn = xn se deÖne como fX1 jX2...Xn (x1jx2, ..., xn) = fX1,...,Xn (x1, ..., xn) fX2,...,Xn (x2, ..., xn) Probabilidades y esperanza condicional I Para calcular la probabilidad de que una v.a. contÌnua Y estÈ en el intervalo (a, b) dado que X = x , P (a % Y % bjX = x) = Z b a fY jX (y jx) dy I La esperanza condicional de una v.a. continua Y dado X = x es E (Y jX = x) = Z • #• yfY jX (y jx) dy I La esperanza de una funciÛn g (Y ) de una v.a. contÌnua Y dado X = x es E (g (Y ) jX = x) = Z • #• g (y) fY jX (y jx) dy Ley de esperanza total. I Cuando Y es continua sigue valiendo la Ley de Esperanza Total. I Teorema: dada Y v.a. contÌnua, vale que 1. Si X es discreta con soporte X E (Y ) = Â x2X E (Y jX = x) pX (x) 2. Si X es contÌnua, E (Y ) = Z • #• E (Y jX = x) fX (x) dx 3. Por lo tanto cualquiera sea X , E (Y ) = E [E (Y jX )] Varianza condicional I La varianza condicional de una v.a. continua Y dado X = x es Var (Y jX = x) = E h (Y # E (Y jX = x))2 jX = x i I Al igual que para la varianza incondicional, la var. condicional se puede re-expresar como Var (Y jX = x) = E $ Y 2jX = x % # E (Y jX = x)2 Ley de varianza total I Cuando Y es continua sigue valiendo la Ley de Varianza Total. I Teorema: dada Y v.a. contÌnua, vale que 1. Cualquiera sea la v.a. X , Var (Y ) = E [Var (Y jX )] + Var [E (Y jX )] 2. Por lo tanto, si X es discreta con soporte X Var (Y ) = Â x2X Var (Y jX = x) pX (x) + Â x2X fE (Y jX = x)# E (Y )g2 pX (x) 3. y si X es contÌnua, E (Y ) = Z • #• Var (Y jX = x) fX (x) dx + Z • #• fE (Y jX = x)# E (Y )g2 fX (x) dx Independencia I Para X e Y discretas, X e Y son independientes cuando pX ,Y (x , y) = pX (x) pY (y) I Para X e Y contÌnuas, X e Y son independientes cuando fX ,Y (x , y) = fX (x) fY (y) I M·s generalmente: X1, ...,Xn v.a. contÌnuas son independientes si fX1,...,Xn (x1, ..., xn) = fx1 (x1) * * * fxn (xn) Independencia I Resultado: X e Y son independientes si y solo si, para todo x tal que fx (x) 6= 0, fY jX (y jx) = fY (y) para todo y I Corolario: si X e Y son independientes, entonces P (a % Y % bjX = x) = P (a % Y % b) Esperanza del producto de v.a. independientes I Teorema: Si X e Y son independientes , entonces para cualquier g (x) y h (y) vale que E [g (X ) h (Y )] = E [g (X )]E [h (Y )] I M·s generalmente, si X1, ...,Xn son independientes , entonces para cualquier g1, ..., gn E [g1 (X1)& * * * & gn (Xn)] = E [g1 (X1)]& * * * & E [gn (Xn)] Covarianza y CorrelaciÛn I Para cualquier par de variables aleatorias X e Y (X e Y discretas o continuas) deÖnimos: I Covarianza cov (X ,Y ) = E [(X ! E (X )) (Y ! E (Y ))] I CorrelaciÛn corr (X ,Y ) = cov (X ,Y ) p var (X ) p var (Y ) Covarianza y CorrelaciÛn I La covarianza y la correlacion miden la "tendencia" a una relacion lineal entre las variables aleatorias X e Y I La covarianza depende de la escala de medicion (por ejemplo, pesos, centavos, etc) I La correlacion es una medida "absoluta" que no depende de la escala de medicion y satisface jcorr (X ,Y )j # 1 I Cuanto mas cercana a 1 es jcorr (X ,Y )j mas fuerte es la tendencia a una relacion lineal entre X e Y . I Si jcorr (X ,Y )j = 1 entonces existen constantes a y b tal que Y = aX + b. I Si corr (X ,Y ) > 0, la tendencia es a una asociacion lineal creciente entre X e Y (a mayor X , mayor Y ) I Si corr (X ,Y ) < 0, la tendencia es a una asociacion lineal decreciente entre X e Y (a mayor X , menor Y ) Propiedades de la covarianza 1. cov (X ,Y ) = cov (Y ,X ) 2. si a y b son constantes, cov (aX , bY ) = ab cov (X ,Y ) 3. cov (X + Z ,Y ) = cov (X ,Y ) + cov (Z ,Y ) 4. cov (X ,X ) = var (X ) Propiedades de la correlaciÛn. 1. !1 " corr (X ,Y ) " 1 2. la correlacion mide la tendencia de las variables X e Y a seguir una relacion lineal 3. corr (X ,Y ) = 1 ) Y = aX + b para algun a > 0 y algun b corr (X ,Y ) = !1 ) Y = aX + b para algun a < 0 y algun b Gr·Öcos "scatter plots" de observaciones de (X,Y) para distintas correlaciones Propiedades de sumas de variables aleatorias Las siguientes propiedades valen para cualquier par de variables X e Y (con componentes discretas o continuas cualesquiera, o sea no necesariamente normales). 1. E (X + Y ) = E (X ) + E (Y ) 2. var (X + Y ) = var (X ) + var (Y ) +2cov (X ,Y ) I M·s generalmente, si X1,X2, ...,Xn son variables aleatorias cualesquiera, entonces 1. E (X1 + ...+ Xn) = E (X1) + ...+ E (Xn) 2. var (X1 + ...+ Xn) = var (X1) + ...+ var (Xn) +2cov (X1,X2) + 2cov (X1,X3) + ....+ 2cov (X1,Xn) +2cov (X2,X3) + 2cov (X2,X4) + ....+ 2cov (X2,Xn) +... +2cov (Xn!1,Xn) Propiedades de sumas de variables aleatorias independientes I Si X e Y son variables aleatorias independientes (con componentes discretas o continuas cualesquiera, o sea no necesariamente normales), entonces var (X + Y ) = var (X ) + var (Y ) I M·s generalmente, si X1,X2, ...,Xn son variables aleatorias mutuamente independientes (discretas o continuas), entonces var (X1 + ...+ Xn) = var (X1) + ...+ var (Xn) Distribución normal bivariada La función de densidad para un vector normal bivariado es: f (x , y) = K exp � 1 2(1� ⇢2) " (x � µX )2 �2X + (y � µY )2 �2Y � 2⇢(x � µX )(y � µY ) �X�Y #! con K = 1 2⇡�X�Y p 1� ⇢2 I Depende de varios parámetros: µx ,µy ,⇢,�x ,�y , I La constante K normaliza la densidad para que su integral sea 1. Parámetros de la normal bivariada La distribución normal bivariada depende de cinco parámetros: µx 2 R µy 2 R �x 2 R>0 �y 2 R>0 ⇢ 2 [�1, 1] (investiguemos qué representan) https://pianophase.shinyapps.io/applet-bivariada/ Notacion I Decimos que (X ,Y ) tiene una distribucion Normal bivariada cuando para cualquier a < b y c < d P (a ! X ! b, c ! Y ! d ) es igual al volumen bajo la superÖcie generada por una funcion de densidad normal bivariada sobre el rectangulo [a, b]" [c , d ] . I Para designar que (X ,Y ) tiene una distribucion Normal bivariada con parametros µx , µy , sx , sy y r escribimos ! X Y " # N !! µx µy " , ! s2x rsxsy rsxsy s2y "" GraÖco de la densidad Normal Bivariada I En el sitio https://pianophase.shinyapps.io/applet-bivariada/ encontraras un applet preparado por el profesor Pablo Vena en el que podras examinar el graÖco de la densidad normal. I Notaras que las curvas de nivel son elipses con las siguientes caracteristicas: I Todas las elipses tienen el mismo centro el cual se encuentra en # µx , µy $ . I Si r = 0, entonces cada elipse esta "en posicion vertical" cuando sy > sx , "en posicion horizontal" cuando sx > sy . Si sx = sy cada elipse es en realidad un circulo. I Si r > 0, cada elipse esta inclinada en posicion ascendente. I Si r < 0, cada elipse esta inclinada en posicion descendente. I Cuanto mayor es jrj , mas "achatadas" son las elipses, es decir siguen mas cercanamente a una recta. Proyecciones y marginales Si (X,Y) es una normal bivariada, entonces las marginales son normales univariadas. Más aun, cualquier combinación lineal aX + bY tiene distribución normal (univariada). Distribuciones marginales y distribuciones de combinaciones lineales en la normal bivariada I Resultado: Si ! X Y " ! N !! µx µy " , ! s2x rsxsy rsxsy s2y "" entonces X ! N # µx , s 2 x $ y Y ! N % µy , s 2 y & I Mas aun, para cualquier constantes a y b, aX + bY ! N % aµx + bµy , a 2s2x + b 2s2y + 2abrsxsy & Covarianza y correlación para la normal bivariada �2x varianza marginal de la variable X . �2y varianza marginal de la variable Y . ⇢ correlación entre la variable X y la Y . Matriz de varianza-covarianza. I La matriz de varianza-covarianza para el vector (X ,Y ) se deÖne como ! cov (X ,X ) cov (X ,Y ) cov (Y ,X ) cov (Y ,Y ) " I Usando que var (X ) = cov (X ,X ) y var (Y ) = cov (Y ,Y ) obtenemos que esta matriz es igual a ! var (X ) cov (X ,Y ) cov (Y ,X ) var (Y ) " La misteriosa matriz que aparece en la notacion de la la normal bivariada. I Recordemos que para designar que (X ,Y ) sigue una dist normal bivariada usamos ! X Y " ! N !! µx µy " , ! s2x rsxsy rsxsy s2y "" I Ahora, recordando que en la dist normal bivariada r = corr (X ,Y ) , obtenemos que rsxsy = corr (X ,Y ) q var (X ) q var (Y ) = cov (X ,Y ) p var (X ) p var (Y ) q var (X ) q var (Y ) = cov (X ,Y ) = cov (Y ,X ) I Entonces, la matriz en la notacion que usamos para designar a una dist normal bivariada es ! s2x rsxsy rsxsy s2y " = ! cov (X ,X ) cov (X ,Y ) cov (Y ,X ) cov (Y ,Y ) " = matriz de var-cov Distribucion condicional para vectores normales bivariados. I Notemos que cuando (X ,Y ) es normal bivariado, el graÖco de fX ,Y (x , y ) como funcion de y considerando a x Öjo, es como el de una normal univariada excepto que el area bajo la curva no es igual a 1. I En la fÛrmula fY jX (y jx ) = fX ,Y (x , y ) fX (x ) el denominador fX (x ) es una "constante de normalizacion" que asegura que el area bajo la curva fY jX (y jx ) (como funcion de y ) sea igual a 1. Independencia y CorrelaciÛn. I Siempre vale que: Independencia ) CorrelaciÛn 0 I Solo cuando (X ,Y ) " Normal Bivariada: CorrelaciÛn 0) Independencia Distribucion condicional en la normal bivariada. I Resultado: Si ! X Y " " N !! µx µy " , ! s2x rsxsy rsxsy s2y "" entonces distribucion de Y dado (X = x) " N # µy jx , s 2 y jx $ donde µy jx = E (Y jX = x) = µy + r sy sx (x $ µx ) y s2y jx = Var (Y jX = x) = s2y # 1$ r2 $ Varianza condicional en la normal bivariada. I Notar que cuando (X ,Y ) tienen distribucion normal bivariada: I La varianza condicional Var (Y jX = x) no depende de x . I La varianza condicional Var (Y jX = x) = s2y jx es menor o igual que la varianza marginal Var (Y ) = s2y pues r 2 % 1 y s2y % s 2 y # 1$ r2 $ | {z } =s2y jx I Cuanto m·s grande jrj mas chica es Var (Y jX = x) . Esperanza condicional en la normal bivariada. I Notar que cuando (X ,Y ) tienen distribucion normal bivariada la esperanza condicional de Y dado X = x es una funcion lineal de x µy jx = E (Y jX = x ) = µy + r sy sx (x $ µx ) I Esta funciÛn tiene ribetes interesantes. Veamos ... Pasando de miembro µy y sy obtenemos E (Y jX = x )$ µy sy = r ! x $ µx sx " o equivalentemente E !Y $ µy sy jX = x " = r ! x $ µx sx " RegresiÛn a la media. E # Y$µy sy )))X = x $ = r # x$µx sx $ I El cociente x$µxsx mide la cantidad de desvÌos sx por arriba o por abajo de µx est· x I El cociente Y$µy sy mide la cantidad de desvÌos sy por arriba o por abajo de µy est· Y I Si r > 0 entonces para un x que est·, por ejemplo, 2 desvios sx por arriba de µx , esperamos que Y estÈ a 2r desvios sy por arriba de µy . A menos que r sea 1, esperamos entonces que Y estÈ "m·s cerca" de la media µy de lo que est· x de la media µx . I A este fenomeno se lo conoce como "regresiÛn a la media". RegresiÛn a la media. I Ejemplo 1: X e Y son los resultados de un alumno elegido al azar en los examenes parciales y Önales de estadistica. Supongamos que siguen una dist. normal bivariada con r = 0.7. Entonces para un alumno que le fue muy muy bien en el parcial porque su nota x se ubico 3 sx por arriba de la media µx , la esperanza es que en el Önal no le vaya tan bien. La esperanza de su nota se ubica a 3r = 0.21 desvios estandard sy por arriba de la media µy de la nota en el Önal. I Ejemplo 2: X e Y son las alturas de un padre y su hijo elegidos al azar de una poblacion. (X ,Y ) tipicamente tienen una dist. normal bivariada. Supongamos que r = 0.8. Para un padre "petiso", con altura 2 desvios sx por debajo de la media µx de la altura para su generacion, se espera que su hijo no sea "tan petiso", y que tenga una altura que se ubica a 2r = 0.16 desvios sy por debajo de la media µy de la altura para su generacion.
Compartir