Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis Estad́ıstico Convergencia de sucesiones de variables aleatorias UTDT 9 de enero de 2020 Convergencia en probabilidad Tanto el Teorema Central del Ĺımite (TCL) como la Ley de los grandes números (LGN) nos dicen algo sobre el comportamiento de la media muestral X n cuando el tamaño de muestra n tiende a infinito. Theorem (LGN) Sea X1, . . . ,Xn una muestra aleatoria con esperanza igual a µ. Entonces, para todo ε > 0: P ( |X n − µ| ≥ ε ) −→ n→∞ 0 . La LGN nos dice que X n converge, en cierto sentido, a µ = E (X1) = · · · = E (Xn) A este tipo de convergencia de sucesiones de variables aleatorias la llamaremos convergencia en probabilidad. Convergencia en probabilidad Definition (Convergencia en probabilidad) Sea V1, . . . ,Vn, . . . una sucesión de variables aleatorias y sea V una variable aleatoria. Decimos que Vn converge en probabilidad a V si para todo ε > 0 P (|Vn − V | ≥ ε) −→ n→∞ 0 . En este caso, usaremos la notación Vn P→ V . Observación V podŕıa ser una constante, como en LGN. Consistencia y convergencia en probabilidad LGN Sea X1, . . . ,Xn una muestra aleatoria tal que con esperanza igual a µ. Entonces X n P→ µ . Definition (Consistencia) Sea X1, . . . ,Xn una muestra aleatoria con una distribución que depende de cierto parámetro θ. Sea θ̂n un estimador del parámetro θ. Decimos que θ̂n es consistente si θ̂n P→ θ Idea θ̂n es consistente si para tamaños de muestra grande, es “muy” probable que θ̂n esté “cerca” de θ. Recordar que θ̂n es una variable aleatoria y que θ está fijo! Pedirle a un estimador que sea consistente ¡es lo ḿınimo indispensable! Consistencia y convergencia en probabilidad LGN Sea X1, . . . ,Xn una muestra aleatoria tal que con esperanza igual a µ. Entonces X n P→ µ . Definition (Consistencia) Sea X1, . . . ,Xn una muestra aleatoria con una distribución que depende de cierto parámetro θ. Sea θ̂n un estimador del parámetro θ. Decimos que θ̂n es consistente si θ̂n P→ θ Idea θ̂n es consistente si para tamaños de muestra grande, es “muy” probable que θ̂n esté “cerca” de θ. Recordar que θ̂n es una variable aleatoria y que θ está fijo! Pedirle a un estimador que sea consistente ¡es lo ḿınimo indispensable! Consistencia y convergencia en probabilidad LGN Sea X1, . . . ,Xn una muestra aleatoria tal que con esperanza igual a µ. Entonces X n P→ µ . Definition (Consistencia) Sea X1, . . . ,Xn una muestra aleatoria con una distribución que depende de cierto parámetro θ. Sea θ̂n un estimador del parámetro θ. Decimos que θ̂n es consistente si θ̂n P→ θ Idea θ̂n es consistente si para tamaños de muestra grande, es “muy” probable que θ̂n esté “cerca” de θ. Recordar que θ̂n es una variable aleatoria y que θ está fijo! Pedirle a un estimador que sea consistente ¡es lo ḿınimo indispensable! Consistencia y convergencia en probabilidad Peso de la población argentina Nos interesa estudiar el estado de salud de la población Argentina, en particular su peso. Supongamos que el peso de una persona elegida al azar es una variable aleatoria con esperanza µ y varianza σ2 desconocidos. Dada una muestra aleatoria de pesos X1, . . . ,Xn, sabemos que X n es un estimador consistente de µ. Sabemos además que E (X n) = µ Var(X n) = σ2 n . Como la varianza es una medida resumen de la dispersión de una variable aleatoria, nos puede interesar estimar Var(X n). Más aún, por Tchebysheff P (∣∣X n − µ∣∣ ≥ ε) ≤ σ2 n 1 ε2 . Si podemos estimar Var(X n), podemos entender mejor el comportamiento de X n como estimador de µ. Consistencia y convergencia en probabilidad Peso de la población argentina Como Var(X n) = σ2 n , necesitamos un estimador de σ2. Recordemos que σ2 = Var(X1) = E (X 2 1 )− (E (X1)) 2 . Sabemos que X n es un estimador consistente de E (X1), por lo tanto esperamos que (X n) 2 P→ E 2(X1) . Por la ley de los grandes números 1 n n∑ i=1 X 2i P→ E (X 21 ) . Consistencia y convergencia en probabilidad Peso de la población argentina Esperamos entonces que 1 n n∑ i=1 X 2i − X 2 n P→ σ2 . Para ver que esto efectivamente es aśı, tenemos que entender cómo se comporta la convergencia en probabilidad al hacer operaciones entre variable aleatorias: sumar, resta, multiplicar, elevar al cuadrado, etc. Propiedades de la convergencia en probabilidad Proposición Sea an es una sucesión de números reales tal que an −→ n→∞ a. Sean Vn y Wn tales que Vn P→ V y Wn P→W . Entonces 1 an + Vn P→ a + V . 2 anVn P→ aV . 3 Vn + Wn P→ V + W . 4 VnWn P→ VW . 5 Si P(W = 0) = 0, Vn/Wn P→ V /W . 6 Si f : R→ R es continua f (Vn) P→ f (V ). 7 Más generalmente, si f : R2 → R es continua g(Vn,Wn) P→ g(V ,W ). Propiedades de la convergencia en probabilidad Demostración. Probamos la parte 3 (es un muy buen ejercicio tratar de demostar las otras. . . ). Sea ε > 0. Tenemos que ver que P (|Vn + Wn − (V + W )| ≥ ε) −→ n→∞ 0 . Notemos que {|Vn + Wn − (V + W )| ≥ ε} ⊂ {|Vn − V | ≥ ε/2}∪{|Wn −W | ≥ ε/2} . Entonces P (|Vn + Wn − (V + W )| ≥ ε) ≤ P (|Vn − V | ≥ ε/2) + P (|Wn −W | ≥ ε/2) . Como Vn P→ V y Wn P→W P (|Vn − V | ≥ ε/2) + P (|Wn −W | ≥ ε/2) −→ n→∞ 0 . Propiedades de la convergencia en probabilidad Volvamos al ejemplo Peso de la población argentina Por el ı́tem 4 de la proposición (X n) 2 P→ E 2(X1) . Por la ley de los grandes números 1 n n∑ i=1 X 2i P→ E (X 21 ) . Luego, por el ı́tem 3 de la proposición 1 n n∑ i=1 X 2i − (X n)2 P→ σ2 . Propiedades de la convergencia en probabilidad Peso de la población argentina Llamemos σ̂2 = 1 n n∑ i=1 X 2i − (X n)2 . Entonces σ̂2 es un estimador consistente de σ2. ¿Cómo podemos obtener un estimador consistente de σ? Llamemos f (u) = √ u. f es continua en su dominio. Por el ı́tem 6 de la proposición σ̂ = √ σ̂2 = f (σ̂2) P→ f (σ2) = σ . Luego σ̂ es un estimador consistente de σ. Propiedades de la convergencia en probabilidad Ejemplo 1 Sean X1, . . . ,Xn una muestra aleatoria con distribución U(0, 1). Hallar el ĺımite en probabilidad de Yn = (X1X2 . . .Xn) 1/n = ( n∏ i=1 Xi )1/n Ejemplo 2 Sean X1, . . . ,Xn una muestra aleatoria con distribución tal que E (X1) = Var(X1) = 1. Mostrar que n∑ i=1 Xi( n n∑ i=1 X 2i )1/2 P→ 1√2 Propiedades de la convergencia en probabilidad Muchas veces probaremos la consistencia de estimadores usando LGN y las propiedades vistas antes. En algunos casos la consistencia de un estimador se puede probar directamente a partir del siguiente resultado. Proposición Sea V1, . . . ,Vn, . . . una sucesión de variables aleatorias. Sea c ∈ R una constante. Si E (Vn) −→ n→∞ c y Var(Vn) −→ n→∞ 0 entonces Vn P→ c Idea Si el centro del histograma (densidad) de Vn se está acercando a c y la variabilidad de Vn se está acercando a cero, para n grande es muy probable que Vn esté “cerca” de c . Propiedades de la convergencia en probabilidad Demostración. Lo hacemos suponiendo que E (Vn) = c para todo n. Fijemos ε > 0. Por Tchebysheff P(|Vn − c | ≥ ε) ≤ Var(Vn) ε2 −→ n→∞ 0 . El caso general queda de ejercicio. Propiedades de la convergencia en probabilidad Máximo de uniformes Supongamos que el tiempo de reacción de una persona intoxicada a cierto est́ımulo es una variable aleatoria X , que tiene distribución uniforme en el intervalo (0, θ) para un valor de θ desconocido. Tenemos una muestra aleatoria X1, . . . ,Xn y queremos estimar θ. Un estimador posible para θ es θ̂n = máx {X1, . . . ,Xn} . Por ejemplo, si n = 3 y la realización de la muestra es x1 = 4,2 ; x2 = 1,7 ; x3 = 2,4 el valor estimado será 4,2. Queremos ver si θ̂n es consistente para θ. Calculemos E (θ̂n) y Var(θ̂n). Propiedades de la convergencia en probabilidad Máximo de uniformes Calculemos primero la función de distribución acumulada de θ̂n P ( θ̂n ≤ x ) = P(X1 ≤ x ,X2 ≤ x , . . . ,Xn ≤ x) = P(X1 ≤ x) . . .P(Xn ≤ x) = P(X ≤ x)n. Ahora P(X ≤ x) = 0 x ≤ 0 x θ 0 ≤ x ≤ θ 1 x ≥ θ Luego P ( θ̂n ≤ x ) = 0 x ≤ 0( x θ )n 0 ≤ x ≤ θ 1x ≥ θ. Propiedades de la convergencia en probabilidad Máximo de uniformes Derivando, sacamos que la densidad de θ̂n es fθ̂n(x) = nx n−1 1 θn I(0,θ)(x) . Entonces E (θ̂n) = ∫ θ 0 nxn 1 θn dx = n n + 1 θ, E (θ̂2n) = ∫ θ 0 nxn+1 1 θn dx = n n + 2 θ2 y Var(θ̂n) = n n + 2 θ2 − ( n n + 1 θ )2 . Propiedades de la convergencia en probabilidad Máximo de uniformes Como E (θ̂n) −→ n→∞ θ y Var(θ̂n) −→ n→∞ 0, por la proposición que vimos antes θ̂n P→ θ, es decir, θ̂n es consistente para θ. Convergencia en distribución Theorem (TCL) Sea X1, . . . ,Xn una muestra aleatoria tal que E (X ) = µ y Var(X ) = σ 2, entonces, para todo z ∈ R P (√ n (X n − µ) σ ≤ z ) −→ n→∞ Φ(z), donde Φ(z) = P(Z ≤ z) para Z ∼ N (0, 1). Convergencia en distribución Idea Para tamaños de muestra grande, la distribución de X n es aproximadamente normal: √ n (X n − µ) σ ≈ N (0, 1) y X n ≈ N ( µ, σ2 n ) . El TCL nos dice que la distribución de una versión debidamente re-escalada de X n converge en cierto sentido a una normal N (0, 1). Convergencia en distribución Definition (Convergencia en distribución) Sea V1, . . . ,Vn, . . . una sucesión de variables aleatorias y sea V una variable aleatoria. Decimos que Vn converge en distribución a V si, para todo v tal que la función de distribución acumulada de V , FV es continua en v , vale que P(Vn ≤ v) −→ n→∞ P(V ≤ v) . Notación Usaremos la notación Vn d→ V . También haremos el siguiente abuso de notación. Por ejemplo, si V ∼ N (0, 1), escribiremos Vn d→ N (0, 1), o, si V ∼ Pois(λ), escribiremos Vn d→ Pois(λ), etc . Convergencia en distribución Idea Si Vn d→ V , la función de distribución acumulada de Vn está “cerca” de la distribución de V para valores de n grandes. Esto no quiere decir que Vn esté cerca de V ! De hecho, V1, . . . ,Vn y V pueden estar definidas todas sobre espacios muestrales distintos! La convergencia en distribución, más que una convergencia de variables aleatorias, es una convergencia de funciones de distribución. De hecho, si llamamos FVn a la función de distribución de Vn y FV a la función de distribución de V , Vn d→ V si FVn(v) −→n→∞ FV (v) para todo v donde FV es continua. Convergencia en distribución ¿Por qué pedimos convergencia sólo donde FV es continua? Consideremos Vn tal que P(Vn = 1/n) = 1 y sea V tal que P(V = 0) = 1. Intuitivamente, esperaŕıamos que Vn d→ V . La función de distribución acumulada de V tiene una discontinuidad en 0. Ahora P(Vn ≤ 0) = 0 y P(V ≤ 0) = 1 en particular P(Vn ≤ 0) 9 P(V ≤ 0) . Sin embargo, es fácil mostrar que efectivamente Vn d→ V , ya que 0 es el único punto donde la función de distribución acumulada de V tiene una discontinuidad. Convergencia en distribución TCL Sea X1, . . . ,Xn una muestra aleatoria tal que E (X ) = µ y Var(X ) = σ2, entonces, para todo z ∈ R P (√ n (X n − µ) σ ≤ z ) → n→∞ Φ(z), donde Φ(z) = P(Z ≤ z) para Z ∼ N (0, 1). Luego √ n (X n − µ) σ d→ N (0, 1) . Notemos que la función de distribución acumulada de una normal (o de cualquier variable aleatoria continua) es continua en todo punto. Convergencia en distribución Proposición Si Vn P→ V , entonces Vn d→ V . ¡Ojo! No es cierto que si Vn d→ V entonces Vn P→ V . La convergencia en distribución es más débil que la convergencia en probabilidad. Convergencia en distribución Volvamos al ejemplo de la estimación del peso de la población argentina. Usando LGN y las propidades de convergencia en probabilidad, vimos que X n es un estimador consistente de µ y que σ̂2 = 1 n n∑ i=1 X 2i − X 2 n es un estimador consistente de σ2. Por TCL sabemos que, si n es grande, la distribución de √ n (X n − µ) σ es aproximadamente normal standard. Luego X n − µ ≈ N ( 0, σ2 n ) . Si conociésemos σ2, tendŕıamos una aproximación de cómo están distribuidos los errores de nuestra estimación de µ por X n. Convergencia en distribución Pero no conocemos σ2. ¿Qué pasará si reemplazamos σ2 por σ̂2 en la fórmula anterior? ¿Será cierto lo siguiente? X n − µ ≈ N ( 0, σ̂2 n ) Para poder responder a esta pregunta, necesitamos el Lema de Slutzky. Propiedades de la convergencia en distribución Proposición (Lema de Slutzky) Sea c ∈ R una constante. Si Wn P→ c y Vn d→ V entonces WnVn d→ cV y Vn + Wn d→ V + c Convergencia en distribución Volvamos al ejemplo de antes. Por TCL √ n (X n − µ) σ d→ N (0, 1). Hab́ıamos visto que σ̂ P→ σ lo que implica, por las propiedades de convergencia en probabilidad que vimos antes, que σ σ̂ P→ 1. Ahora √ n (X n − µ) σ̂ = √ n (X n − µ) σ︸ ︷︷ ︸ d→N (0,1) σ σ̂︸︷︷︸ P→1 d→ N (0, 1), por el lema de Slutzky. Convergencia en distribución Luego √ n (X n − µ) σ̂ d→ N (0, 1) y por lo tanto (informalmente) X n − µ ≈ N ( 0, σ̂2 n ) . Convergencia en distribución ¡Ojo! En general, no es cierto que si Vn d→ V y Wn d→W entonces VnWn d→ VW o Vn + Wn d→ V + W . Por ejemplo, sea V con distribución N (0, 1). Definamos Vn = V y Wn = V para todo n y W = −V . Notemos que W ∼ N (0, 1). Entonces Vn d→ V , Wn d→W pero Vn + Wn = 2V ∼ N(0, 4) y V + W = 0 . Convergencia en distribución Theorem (Teorema de la función continua) Si f : R→ R es una función continua y Vn d→ V entonces f (Vn) d→ f (V ) Convergencia en distribución Ejemplo Sea X1, . . . ,Xn una muestra aleatoria tal que E (X1) = 0 y E (X 21 ) = 2. Calcular los ĺımite en distribución de Yn = √ n ∑n i=1 Xi n∑ i=1 X 2i . y de Wn = exp(Yn). Ejemplo Resolver el ejercicio 6 del TP2.
Compartir