Clase 8 - Inferencia Estadística

Estadística

•
SIN SIGLA

tecnologo
15/10/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Estadística

5385 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 27
Repaso
2 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74 4 / 27
Clase de hoy
5 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi)
=
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Ejemplo N (µ, 9)
Se realizan 10 mediciones independientes de la temperatura de una
pileta climatizada, obteniéndose los siguientes resultados (en
grados):
33.40 43.10 32.55 39.43 33.46
35.26 36.85 39.82 36.52 40.04
Asumimos que el termómetro tiene un error de medición cuya
distribución es normal con media 0 y varianza 9.
1 Estimar la temperatura de la pileta por el método de máxima
verosimilitud.
2 Calcular o estimar (según sea posible) el error estándar del
estimador propuesto.
3 El estimador propuesto en 1, ¿es consistente?
9 / 27
Ejemplo N (µ, 9)
Se realizan 10 mediciones independientes de la temperatura de una
pileta climatizada, obteniéndose los siguientes resultados (en
grados):
33.40 43.10 32.55 39.43 33.46
35.26 36.85 39.82 36.52 40.04
Asumimos que el termómetro tiene un error de medición cuya
distribución es normal con media 0 y varianza 9.
1 Estimar la temperatura de la pileta por el método de máxima
verosimilitud.
2 Calcular o estimar (según sea posible) el error estándar del
estimador propuesto.
3 El estimador propuesto en 1, ¿es consistente?
9 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . .. , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn) = Xn
σ̂2MV = σ̂
2(X1, . . . , Xn) =
1
n
n∑
i=1
(Xi −Xn)2
13 / 27
Intervalos de Confianza
14 / 27
Ejemplo
La tienda de colchones “DormiTown” está considerando lanzar una
nueva versión de su página web. Antes de tomar la decisión le
gustaŕıa saber si este cambio será conveniente de acuerdo a alguna
de las siguientes métricas:
Tiempo de permanencia medio en la página por sesión
Tasa de conversión (proporción de sesiones que terminan en
una transacción)
15 / 27
Tiempo de permanencia
Parámetros de interés:
µ1 = tiempo de permanencia medio (poblacional) con la
versión actual
µ2 = tiempo de permanencia medio (poblacional) con la
versión nueva
Pregunta: ¿µ2 > µ1?
16 / 27
Tiempo de permanencia
Parámetros de interés:
µ1 = tiempo de permanencia medio (poblacional) con la
versión actual
µ2 = tiempo de permanencia medio (poblacional) con la
versión nueva
Pregunta: ¿µ2 > µ1?
16 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras):
dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nuevaversión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
Análisis exploratorio de los datos
22 / 27
Análisis exploratorio de los datos
22 / 27
IC de nivel 0.95 para µ en el ejemplo
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ20) i.i.d. σ0 = 5.
Queremos (a(X1, . . . , Xn), b(X1, . . . , Xn)) tal que
P (a(X1, . . . , Xn) < µ < b(X1, . . . , Xn)) = 0.95
23 / 27
IC de nivel 0.95 para µ en el ejemplo
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ20) i.i.d. σ0 = 5.
Queremos (a(X1, . . . , Xn), b(X1, . . . , Xn)) tal que
P (a(X1, . . . , Xn) < µ < b(X1, . . . , Xn)) = 0.95
23 / 27
Regla normal: X ∼ N (µ, σ2)
P (|X − µ| < σ) ≈ 0.68
P (|X − µ| < 2σ) ≈ 0.95
P (|X − µ| < 3σ) ≈ 0.997
24 / 27
IC de nivel 0.95 para µ en el ejemplo
IC = (X10 − 1.96
√
25
10
, X10 + 1.96
√
25
10
)
= (X10 − 3.10, X10 + 3.10)
ICobs = (61.593− 3.10, 61.593 + 3.10)
= (58.49, 64.69)
25 / 27
IC de nivel 0.95 para µ en el ejemplo
IC = (X10 − 1.96
√
25
10
, X10 + 1.96
√
25
10
)
= (X10 − 3.10, X10 + 3.10)
ICobs = (61.593− 3.10, 61.593 + 3.10)
= (58.49, 64.69)
25 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo deconfianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27