Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Inferencia Estad́ıstica Lućıa Babino Universidad Torcuato Di Tella 1 / 21 Repaso de LGN 2 / 21 LGN Ley de los grandes números Sea X1, . . . , Xn, . . . una sucesión de v.a. i.i.d. con E (X1) = µ ⇒ Xn p−→ µ es decir, P (∣∣Xn − µ∣∣ > ϵ) −→ n→∞ 0 ∀ϵ > 0 ¿Qué significa y por qué vale? 3 / 21 LGN Ley de los grandes números Sea X1, . . . , Xn, . . . una sucesión de v.a. i.i.d. con E (X1) = µ ⇒ Xn p−→ µ es decir, P (∣∣Xn − µ∣∣ > ϵ) −→ n→∞ 0 ∀ϵ > 0 ¿Qué significa y por qué vale? 3 / 21 LGN Ley de los grandes números Sea X1, . . . , Xn, . . . una sucesión de v.a. i.i.d. con E (X1) = µ ⇒ Xn p−→ µ es decir, P (∣∣Xn − µ∣∣ > ϵ) −→ n→∞ 0 ∀ϵ > 0 ¿Qué significa y por qué vale? 3 / 21 Intuición Ejemplo: Distribución de Xn con X1, . . . , Xn ∼ Be(12) i.i.d. Si X1, . . . , Xn son i.i.d. con E(X1) = µ y V(X1) = σ2 ⇒ E(Xn) = µ V(Xn) = σ 2 n 4 / 21 Intuición Ejemplo: Distribución de Xn con X1, . . . , Xn ∼ Be(12) i.i.d. Si X1, . . . , Xn son i.i.d. con E(X1) = µ y V(X1) = σ2 ⇒ E(Xn) = µ V(Xn) = σ 2 n 4 / 21 Algunas desigualdades y demostración de LGN 5 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Markov Teorema Sea X una v.a. no negativa (X ≥ 0) tal que E (X) existe. Entonces, para cualquier ϵ > 0, P (X > ϵ) ≤ E (X) ϵ Proof. Supongamos que X es una v.a. continua (el caso discreto es análogo). Como X ≥ 0, E (X) = ∫ +∞ 0 xfX(x)dx = ∫ ϵ 0 xfX(x)︸ ︷︷ ︸ ≥0 dx+ ∫ +∞ ϵ xfX(x)dx ≥ ∫ +∞ ϵ xfX(x)dx ≥ ϵ ∫ +∞ ϵ fX(x)dx = ϵP (X > ϵ) 6 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Desigualdad de Chebyshev Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Proof. P (|X − µ| > ϵ) = P ( (X − µ)2 > ϵ2 ) = P ( Y > ϵ2 )︸ ︷︷ ︸ conY=(X−µ)2 ≤ E (Y ) ϵ2 = E [ (X − µ)2 ] ϵ2 = V (X) ϵ2 (la desigualdad vale por Markov pues Y ≥ 0) 7 / 21 Ejemplo Sea X ∼ U(0, 10) P (|X − 5| > 4) P (|X − 5| > 1) 8 / 21 Ejemplo Sea X ∼ U(0, 10) P (|X − 5| > 4) P (|X − 5| > 1) 8 / 21 Ejemplo Sea X ∼ U(0, 10) P (|X − 5| > 4) P (|X − 5| > 1) 8 / 21 Regla normal: X ∼ N (µ, σ2) P (|X − µ| > σ) ≈ 0.32 P (|X − µ| > 2σ) ≈ 0.05 P (|X − µ| > 3σ) ≈ 0.003 9 / 21 Regla normal: X ∼ N (µ, σ2) P (|X − µ| > σ) ≈ 0.32 P (|X − µ| > 2σ) ≈ 0.05 P (|X − µ| > 3σ) ≈ 0.003 9 / 21 Desigualdad de Chebyshev: formulación alternativa Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier k > 0, P (|X − µ| > kσ) ≤ 1 k2 10 / 21 Desigualdad de Chebyshev: formulación alternativa Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier ϵ > 0, P (|X − µ| > ϵ) ≤ σ 2 ϵ2 Teorema Sea X una v.a. tal que E (X) = µ y V (X) = σ2 es finita. Entonces, para cualquier k > 0, P (|X − µ| > kσ) ≤ 1 k2 10 / 21 Des. de Chebyshev P (|X − µ| > σ) ≤ 1 P (|X − µ| > 2σ) ≤ 0.25 P (|X − µ| > 3σ) ≤ 0.11 Mundo normal P (|X − µ| > σ) ≈ 0.32 P (|X − µ| > 2σ) ≈ 0.05 P (|X − µ| > 3σ) ≈ 0.003 11 / 21 Des. de Chebyshev P (|X − µ| > σ) ≤ 1 P (|X − µ| > 2σ) ≤ 0.25 P (|X − µ| > 3σ) ≤ 0.11 Mundo normal P (|X − µ| > σ) ≈ 0.32 P (|X − µ| > 2σ) ≈ 0.05 P (|X − µ| > 3σ) ≈ 0.003 11 / 21 Demostración de LGN Ley de los grandes números Sean X1, . . . , Xn, . . . v.a. i.i.d. con E (X1) = µ ⇒ P (∣∣Xn − µ∣∣ > ϵ) −→ n→∞ 0 ∀ϵ > 0 Desigualdad de Chebyshev Sea X v.a. con E (X) = µ y V (X) = σ2 < ∞ ⇒ P (|X − µ| > ϵ) ≤ σ 2 ϵ2 ∀ϵ > 0 12 / 21 Demostración de LGN Ley de los grandes números Sean X1, . . . , Xn, . . . v.a. i.i.d. con E (X1) = µ ⇒ P (∣∣Xn − µ∣∣ > ϵ) −→ n→∞ 0 ∀ϵ > 0 Desigualdad de Chebyshev Sea X v.a. con E (X) = µ y V (X) = σ2 < ∞ ⇒ P (|X − µ| > ϵ) ≤ σ 2 ϵ2 ∀ϵ > 0 12 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xn está cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xnestá cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xn está cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xn está cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xn está cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 LGN: P (∣∣Xn − µ∣∣ < ϵ) −→ n→∞ 1 ∀ϵ > 0 “Xn está cerca de µ con probabilidad alta (si n es grande)” Pero, ¿cuán cerca? ¿con qué probabilidad? Fundamental para cuantificar la incertidumbre de mi estimación. Necesitamos conocer la distribución muestral del estimador (i.e., la distribución de Xn). 13 / 21 Teorema Central del Ĺımite 14 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ P (Z ≤ z) con Z ∼ N (0, 1) ∀z ∈ R Dem.: Wasserman, sec. 5.7.2 (fuera del alcance del curso). Definición Notaremos Φ(z) = P (Z ≤ z) = FZ(z) con Z ∼ N (0, 1) 15 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ P (Z ≤ z) con Z ∼ N (0, 1) ∀z ∈ R Dem.: Wasserman, sec. 5.7.2 (fuera del alcance del curso). Definición Notaremos Φ(z) = P (Z ≤ z) = FZ(z) con Z ∼ N (0, 1) 15 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ P (Z ≤ z) con Z ∼ N (0, 1) ∀z ∈ R Dem.: Wasserman, sec. 5.7.2 (fuera del alcance del curso). Definición Notaremos Φ(z) = P (Z ≤ z) = FZ(z) con Z ∼ N (0, 1) 15 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ P (Z ≤ z) con Z ∼ N (0, 1) ∀z ∈ R Dem.: Wasserman, sec. 5.7.2 (fuera del alcance del curso). Definición Notaremos Φ(z) = P (Z ≤ z) = FZ(z) con Z ∼ N (0, 1) 15 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ Φ(z) ∀z ∈ R Informalmente diremos que “ Xn − µ√ σ2/n es asintótica(o aproximada)mente N (0, 1)” 16 / 21 Teorema Central del Ĺımite Teorema Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Zn = Xn − µ√ σ2/n ≈ N (0, 1) para n “grande”. Es decir, P (Zn ≤ z) −→ n→∞ Φ(z) ∀z ∈ R Informalmente diremos que “ Xn − µ√ σ2/n es asintótica(o aproximada)mente N (0, 1)” 16 / 21 Teorema Central del Ĺımite - formulaciones equivalentes Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Xn − µ√ σ2/n ≈ N (0, 1) entonces Xn ≈ N (µ, σ2 n ) Sn = n∑ i=1 Xi ≈ N (nµ, nσ2) Sn − nµ√ nσ2 ≈ N (0, 1). 17 / 21 Teorema Central del Ĺımite - formulaciones equivalentes Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Xn − µ√ σ2/n ≈ N (0, 1) entonces Xn ≈ N (µ, σ2 n ) Sn = n∑ i=1 Xi ≈ N (nµ, nσ2) Sn − nµ√ nσ2 ≈ N (0, 1). 17 / 21 Teorema Central del Ĺımite - formulaciones equivalentes Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Xn − µ√ σ2/n ≈ N (0, 1) entonces Xn ≈ N (µ, σ2 n ) Sn = n∑ i=1 Xi ≈ N (nµ, nσ2) Sn − nµ√ nσ2 ≈ N (0, 1). 17 / 21 Teorema Central del Ĺımite - formulaciones equivalentes Sean X1, . . . , Xn, . . . i.i.d. c/ E (X1) = µ y V (X1) = σ 2 ⇒ Xn − µ√ σ2/n ≈ N (0, 1) entonces Xn ≈ N (µ, σ2 n ) Sn = n∑ i=1 Xi ≈ N (nµ, nσ2) Sn − nµ√ nσ2 ≈ N (0, 1). 17 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Ejemplo moneda Pedro tira una moneda balanceada cada d́ıa y registra si salió cara o seca. Para i = 1, 2, ... definamos Xi = { 1 si en el i-ésimo tiro salió cara 0 si en el i-ésimo tiro salió seca X1, . . . , Xn ∼ Be(12) i.i.d. Xn = proporción de caras luego de n d́ıas (lanzamientos). LGN: Xn p−→ µ TCL: Xn ≈ N (µ, σ 2 n ) 18 / 21 Distribución de Xn con X1, . . . , Xn ∼ Be(12) i.i.d. 19 / 21 Pregunta del millón ¿Cuán grande debe ser n para que valga el TCL? Depende Regla del almacenero: n ≥ 30 20 / 21 Pregunta del millón ¿Cuán grande debe ser n para que valga el TCL? Depende Regla del almacenero: n ≥ 30 20 / 21 Pregunta del millón ¿Cuán grande debe ser n para que valga el TCL? Depende Regla del almacenero: n ≥ 30 20 / 21 Más ejemplos Figure: Distribución de Xn para distribución a) Discreta b) Uniforme c) Exponencial. 21 / 21
Compartir