Logo Studenta

Clase 8 - Inferencia Estadística

¡Este material tiene más páginas!

Vista previa del material en texto

Inferencia Estad́ıstica
Lućıa Babino
Universidad Torcuato Di Tella
1 / 27
Repaso
2 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Ejemplo - generalización
Problema: única moneda; 0 ≤ p ≤ 1
Experimento: lanzo 100 veces la moneda.
Objetivo: adivinar el p de la moneda a partir de los datos.
Datos:
1, . . . , 1︸ ︷︷ ︸
12 veces
0, . . . , 0︸ ︷︷ ︸
5 veces
1, . . . , 1︸ ︷︷ ︸
23 veces
0, . . . , 0︸ ︷︷ ︸
8 veces
1, . . . , 1︸ ︷︷ ︸
15 veces
0, . . . , 0︸ ︷︷ ︸
3 veces
1, . . . , 1︸ ︷︷ ︸
11 veces
0, . . . , 0︸ ︷︷ ︸
4 veces
1, . . . , 1︸ ︷︷ ︸
13 veces
0, . . . , 0︸ ︷︷ ︸
6 veces
total = 74 caras (1’s)
Propuesta de máxima verosimilitud:
1 calculamos L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
2 hallamos p que maximice L(p; x).
3 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74
4 / 27
Función de verosimilitud (Likelihood)
L(p; x) = p74(1− p)26
↑
Likelihood
l(p; x) = ln{L(p; x)}
= ln{p74(1− p)26}
↑ = 74 ln(p) + 26 ln(1− p)
log-Likelihood
p̂MV,obs = 0, 74 4 / 27
Clase de hoy
5 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso Bernoulli
Muestra aleatoria: X1, . . . , Xn ∼ Be(p) i.i.d.
Objetivo: estimar p
Propuesta de MV: hallar p̂ (x1, . . . , xn) que maximice
L(p; x) = Pp(X1 = x1, . . . , X100 = x100)
↑
Función de verosimilitud (Likelihood)
con x = (x1, . . . , xn) los datos observados
EMV: p̂MV = p̂ (X1, . . . , Xn) = Xn
6 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi)
=
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso discreto
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ discreta.
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) = Pθ(X1 = x1, . . . , Xn = xn)
=
n∏
i=1
Pθ(Xi = xi) =
n∏
i=1
pθ(xi)
↑
X ′is indep.
con pθ(·) la función de probabilidad puntual de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
7 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Máxima verosimilitud - caso continuo
Muestra aleatoria: X1, . . . , Xn ∼ Fθ i.i.d., Fθ continua
Objetivo: estimar θ
Propuesta de MV: hallar θ̂(x1, . . . , xn) que maximice
L(θ; x) =
n∏
i=1
fθ(xi)
con fθ(·) la densidad de las X ′is.
EMV: θ̂MV = θ̂ (X1, . . . , Xn)
8 / 27
Ejemplo N (µ, 9)
Se realizan 10 mediciones independientes de la temperatura de una
pileta climatizada, obteniéndose los siguientes resultados (en
grados):
33.40 43.10 32.55 39.43 33.46
35.26 36.85 39.82 36.52 40.04
Asumimos que el termómetro tiene un error de medición cuya
distribución es normal con media 0 y varianza 9.
1 Estimar la temperatura de la pileta por el método de máxima
verosimilitud.
2 Calcular o estimar (según sea posible) el error estándar del
estimador propuesto.
3 El estimador propuesto en 1, ¿es consistente?
9 / 27
Ejemplo N (µ, 9)
Se realizan 10 mediciones independientes de la temperatura de una
pileta climatizada, obteniéndose los siguientes resultados (en
grados):
33.40 43.10 32.55 39.43 33.46
35.26 36.85 39.82 36.52 40.04
Asumimos que el termómetro tiene un error de medición cuya
distribución es normal con media 0 y varianza 9.
1 Estimar la temperatura de la pileta por el método de máxima
verosimilitud.
2 Calcular o estimar (según sea posible) el error estándar del
estimador propuesto.
3 El estimador propuesto en 1, ¿es consistente?
9 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Pasos a seguir en todos los ejercicios:
Parámetro de interés:
µ = “temperatura de la pileta”
Muestra aleatoria: X1, . . . , Xn i.i.d. con n = 10
Definición (con palabras):
Xi = “i-ésima medición de la temperatura de la pileta”, 1 ≤ i ≤ 10
¿Qué sabemos de su distribución?
X1, . . . , Xn ∼ N (9, σ2) i.i.d.
10 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Solución
Respuestas:
1 µ̂MV,obs = 37.0431
2 se(µ̂MV,obs) = 0.95
3 µ̂MV = Xn
p−→ µ por LGN ⇒ µ̂MV es consistente.
11 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . .. , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn)
σ̂2MV = σ̂
2(X1, . . . , Xn)
12 / 27
Máxima verosimilitud - caso normal
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ2) i.i.d.
Objetivo: estimar (µ, σ2)
Propuesta de MV: hallar µ̂(x1, . . . , xn) y σ̂
2(x1, . . . , xn) que
maximicen
L(µ, σ2; x) =
n∏
i=1
f(µ,σ2)(xi)
EMV:
µ̂MV = µ̂(X1, . . . , Xn) = Xn
σ̂2MV = σ̂
2(X1, . . . , Xn) =
1
n
n∑
i=1
(Xi −Xn)2
13 / 27
Intervalos de Confianza
14 / 27
Ejemplo
La tienda de colchones “DormiTown” está considerando lanzar una
nueva versión de su página web. Antes de tomar la decisión le
gustaŕıa saber si este cambio será conveniente de acuerdo a alguna
de las siguientes métricas:
Tiempo de permanencia medio en la página por sesión
Tasa de conversión (proporción de sesiones que terminan en
una transacción)
15 / 27
Tiempo de permanencia
Parámetros de interés:
µ1 = tiempo de permanencia medio (poblacional) con la
versión actual
µ2 = tiempo de permanencia medio (poblacional) con la
versión nueva
Pregunta: ¿µ2 > µ1?
16 / 27
Tiempo de permanencia
Parámetros de interés:
µ1 = tiempo de permanencia medio (poblacional) con la
versión actual
µ2 = tiempo de permanencia medio (poblacional) con la
versión nueva
Pregunta: ¿µ2 > µ1?
16 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Test AB
Pasos del análisis:
1 estimar µ1 y µ2
2 tomar una decisión
17 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Tiempo de permanencia: problema simplificado
Suponemos...
µ0 = tiempo de permanencia medio con la versión actual
= 60 seg −→ conocido
Parámetro de interés:
µ = tiempo de permanencia medio con la versión nueva
Pregunta: ¿µ > µ0?
Experimento: TestAB simplificado (“TestB”)
Pasos del análisis:
1 estimar µ
2 tomar una decisión
18 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Ejemplo
Datos observados (n = 10) de tiempos de permanencia:
72.69 63.36 58.63 70.91 61.38
54.81 54.47 61.20 58.48 60.00
Estimación: µ̂obs = x = 61.593
¿Diŕıamos que µ > 60?
19 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
Intervalos de confianza
Dados...
parámetro de interés: θ = θ(F )
muestra aleatoria: X1, . . . , Xn ∼ F i.i.d.
0 < α < 1
diremos que ...
(a(X1, . . . , Xn), b(X1, . . . , Xn)) es un Intervalo de confianza
(IC) de nivel 1− α para θ si
P (a(X1, . . . , Xn) < θ < b(X1, . . . , Xn)) = 1− α
Ej. α = 0.05 ⇒ 1− α = 0.95
20 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras):
dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nuevaversión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
IC de nivel 0.95 para µ en el ejemplo
Parámetro de interés:
µ = “tiempo de permanencia medio con la versión nueva”
Muestra aleatoria: X1, . . . , Xn ∼ F i.i.d. con n = 10
Definición (con palabras): dado 1 ≤ i ≤ 10
Xi = “tiempo de permanencia (c/nueva versión) de i-ésimo ind.
de la muestra”
¿Qué sabemos de su distribución?
µ = EF (X1)
Supongamos X1, . . . , Xn ∼ N (µ, σ20) i.i.d. con σ0 = 5
21 / 27
Análisis exploratorio de los datos
22 / 27
Análisis exploratorio de los datos
22 / 27
IC de nivel 0.95 para µ en el ejemplo
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ20) i.i.d. σ0 = 5.
Queremos (a(X1, . . . , Xn), b(X1, . . . , Xn)) tal que
P (a(X1, . . . , Xn) < µ < b(X1, . . . , Xn)) = 0.95
23 / 27
IC de nivel 0.95 para µ en el ejemplo
Muestra aleatoria: X1, . . . , Xn ∼ N (µ, σ20) i.i.d. σ0 = 5.
Queremos (a(X1, . . . , Xn), b(X1, . . . , Xn)) tal que
P (a(X1, . . . , Xn) < µ < b(X1, . . . , Xn)) = 0.95
23 / 27
Regla normal: X ∼ N (µ, σ2)
P (|X − µ| < σ) ≈ 0.68
P (|X − µ| < 2σ) ≈ 0.95
P (|X − µ| < 3σ) ≈ 0.997
24 / 27
IC de nivel 0.95 para µ en el ejemplo
IC = (X10 − 1.96
√
25
10
, X10 + 1.96
√
25
10
)
= (X10 − 3.10, X10 + 3.10)
ICobs = (61.593− 3.10, 61.593 + 3.10)
= (58.49, 64.69)
25 / 27
IC de nivel 0.95 para µ en el ejemplo
IC = (X10 − 1.96
√
25
10
, X10 + 1.96
√
25
10
)
= (X10 − 3.10, X10 + 3.10)
ICobs = (61.593− 3.10, 61.593 + 3.10)
= (58.49, 64.69)
25 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
Estimador vs. Estimación
Estimador
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Es una variable aleatoria
Lo notamos...
θ̂n = θ̂n(X1, . . . , Xn)
Estimación
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Es un número
Lo notamos...
θ̂obs = θ̂n(x1, . . . , xn)
26 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo deconfianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27
IC vs. IC observado
Intervalo de confianza
Procedimiento que haremos
con las variables de la
muestra aleatoria
Se define antes de extraer la
muestra
Sus extremos son variables
aleatorias
Lo notamos...
IC = IC(X1, . . . , Xn)
Intervalo de confianza obs.
Resultado de aplicar el
procedimiento a los datos de
la muestra observada
Se calcula luego de extraer
la muestra
Sus extremos son números
Lo notamos...
ICobs = IC(x1, . . . , xn)
27 / 27

Otros materiales