Logo Studenta

MAXIMA VEROSIMILITUD

¡Este material tiene más páginas!

Vista previa del material en texto

Análisis Estad́ıstico
Métodos de estimación: máxima verosimilitud
UTDT
October 1, 2020
Máxima verosimilitud
A continuación presentaremos otro método de estimación, llamado
el método de máxima verosimilitud. Este método tiene muchas
propiedades interesantes:
Está basado en una idea muy intuitiva (más que el método de
los momentos).
Es invariante: si θ̂MV es el estimador de máxima verosimilitud
de θ, g(θ̂MV ) es el estimador de máxima verosimilitud de g(θ)
(momentos no tiene esta propiedad).
Bajo condiciones generales, es consistente (momentos tiene la
misma propiedad).
Máxima verosimilitud
Bajo condiciones generales, el estimador de máxima
verosimilitud es aśıntoticamente normal, es decir, para
tamaños de muestra grandes su distribución muestral es
aproximadamente normal (momentos tiene la misma
propiedad).
Más aún la normal está centrada en el parámetro verdadero
(momentos tiene la misma propiedad).
Bajo condiciones generales, la varianza asintótica del
estimador de máxima verosimilitud es la ḿınima posible entre
los estimadores que tienen sesgo que es aśıntoticamente cero
(momentos no tiene esta propiedad).
La función de verosimilitud
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn. El
vector aleatorio (X1, . . . ,Xn) tiene cierta función de densidad
conjunta.
Supongamos que esta función depende de un θ (posiblemente un
vector) desconocido. Digamos que f (x1, . . . , xn; θ) es la función de
densidad de (X1, . . . ,Xn) y que conocemos f , excepto por θ. Es
decir, tenemos un modelo paramétrico para la distribución de los
datos.
Definition (Función de verosimilitud)
Sea f (x1, . . . , xn; θ) la función de densidad de una muestra
aleatoria X1, . . . ,Xn, que depende de un parámetro desconocido θ.
La función
Ln(θ) = f (x1, . . . , xn; θ),
pensada cómo función de θ para x1, . . . , xn fijos, se llama la
función de verosimilitud.
La función de verosimilitud
Proposición
Sea Ln(θ) la función de verosimilitud de una muestra aleatoria
X1, . . . ,Xn. Llamemos f (x ; θ) a la función de densidad que tienen en
común las v.a. de la muestra. Entonces
Ln(θ) = f (x1; θ)f (x2; θ) . . . f (xn; θ)
Proof.
Como X1, . . . ,Xn son independientes, su función de densidad se factoriza.
Luego
Ln(θ) = f (x1, . . . , xn; θ) = f (x1, θ)f (x2, θ) . . . f (xn, θ).
La función de verosimilitud
Notación
Usaremos la notación
Ln(θ) = f (X1; θ)f (X2; θ) . . . f (Xn; θ)
es decir, Ln(θ) es la ‘versión aleatoria’ de la función de
verosimilitud.
La función de verosimilitud
Veamos que tipo de información que está codificada en la función de
verosimilitud.
Example
Consideremos una muestra aleatorias de 10 bicicletas del nuevo sistema
de bicicleta públicas en CABA.
Sea p = P(bicicleta vandalizada) y definamos Xi = 1 si la i−ésima
bicicleta fue vandalizada y Xi = 0 en otro caso. Luego Xi∼Ber(p).
Llamemos θ = p, que es el parámetro que nos interesa estimar.
Supongamos que en una muestra dada se ve que la primera, la tercera y
la décima fueron vandalizadas, mientras que las otras están bien. Es
decir, las xi son
1, 0, 1, 0, 0, 0, 0, 0, 0, 1
y por lo tanto
L10(θ) = θ
∑
i xi (1− θ)10−
∑
i xi = θ3(1− θ)7
La función de verosimilitud
Example
Para cada θ, L10(θ) mide cúan probable es haber observado la muestra
que observamos. Por ejemplo
L10(0.5) = 0.5
30.57 = 0.001 y L10(0.3) = 0.1
30.97 = 0.002.
Podemos definir un estimador como el valor de θ que maximiza L10(θ), es
decir, que hace más probable haber observado los datos que observamos.
Esta es la idea fundamental detrás del método de estimación de máxima
verosimilitud.
La función de verosimilitud
Example
0.0 0.2 0.4 0.6 0.8 1.0
0.
00
00
0.
00
05
0.
00
10
0.
00
15
0.
00
20
p
Li
k
0.0 0.2 0.4 0.6 0.8 1.0
−
50
−
40
−
30
−
20
−
10
p
lo
g(
Li
k)
La función de verosimilitud
Example
Tenemos entonces que resolver el problema de encontrar el valor de θ que
maximiza L10(θ). Este es un problema de optimización como los que ya
vieron en análisis.
En este caso (y en casi todos los casos), es más fácil encontar el θ que
maximiza log(L10(θ)). Notar que las soluciones de estos dos problemas
de maximización son iguales ya que, como el logaritmo es creciente,
L10(θ̂) ≥ L10(θ) ∀θ ⇔ log(L10(θ̂)) ≥ log(L10(θ)) ∀θ.
La función de verosimilitud
Example
Tenemos entonces que maximizar log(L10(θ)). Como se trata de
una función suave, para encontrar su máximo, nos alcanza con
1 Derivar.
2 Igualar a cero y despejar.
3 Chequear que la solución encontrada sea un máximo, por
ejemplo viendo que la segunda derivada es negativa en la
solución.
La función de verosimilitud
Example
Ahora,
log(L10(θ)) =
∑
i
xi log(θ) + (10−
∑
i
xi ) log(1− θ).
d
dθ
log(L10(θ)) =
∑
i xi
θ
−
10−
∑
i xi
1− θ
.∑
i xi
θ
−
10−
∑
i xi
1− θ
= 0 ⇔ θ =
∑10
i=1 xi
10
.
Además para todo θ,
d2
dθ2
log(L10(θ)) = −
∑
i xi
θ2
−
10−
∑
i xi
(1− θ)2
< 0.
La función de verosimilitud
Example
El valor estimado que obtenemos con este método entonces es∑10
i=1 xi
10
= 0.3.
El estimador en general, para una muestra de tamaño 10, se
obtiene de la misma manera, pero ahora reemplazando L10(θ) por
L10(θ). Obtenemos que el estimador es∑10
i=1 Xi
10
= X 10,
la media muestral.
Máxima verosimilitud
Definition (Máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria que tiene función de densidad en
común f (x ; θ), para un θ (posiblemente vectorial) desconocido. El
estimador de máxima verosimilitud se define como el θ̂MV que maximiza
la verosimilitud (aleatoria), es decir que cumple que para todo θ̃
Ln(θ̂MV ) = f (X1; θ̂MV ) . . . f (Xn; θ̂MV ) ≥ Ln(θ̃) = f (X1; θ̃) . . . f (Xn; θ̃)
Para una realización de la muestra x1, . . . , xn, el valor estimado se
obtiene reemplazando Xi por xi , luego, el valor estimado es el que
maximiza la verosimilitud (no aleatoria) Ln(θ).
Consejo
Casi siempre es más fácil maximizar log(Ln(θ)) que Ln(θ). Esto es
porque el logartimo convierte productos en sumas, y las sumas son más
fáciles de derivar que los productos.
Máxima verosimilitud: ejemplos
Example (Poisson)
Sea X1, . . . ,Xn una muestra aleatoria con distribución Poisson de
parámetro λ. La verosimilitud es
Ln(λ) = exp(−λn)
λ
∑n
i=1 Xi∏n
i=1 Xi !
.
Luego
log (Ln(λ)) = −λn +
n∑
i=1
Xi log(λ)− log(
n∏
i=1
Xi !).
Es fácil ver entonces que el estimador de máxima verosimilitud es
λ̂MV =
1
n
n∑
i=1
Xi .
Máxima verosimilitud: ejemplos
Example (Poisson)
Como el estimador de máxima verosimilitud es la media muestral,
ya sabemos muchos sobre el.
λ̂MV es insesgado ya que
E
(
λ̂MV
)
= E (X n) = E (X1) = λ
y además es consistente, ya que por la LGN
λ̂MV = X n
P→ E (X1) = λ.
Máxima verosimilitud: ejemplos
Example (Exponencial)
Sea X1, . . . ,Xn una muestra aleatoria con distribución exponencial
de parámetro λ. La verosimilitud es
Ln(λ) = λn exp
(
−λ
n∑
i=1
Xi
)
n∏
i=1
I(0,+∞)(Xi ).
Luego
log (Ln(λ)) = λn − λ
n∑
i=1
Xi +
n∑
i=1
log(I(0,+∞)(Xi )).
Es fácil ver entonces que el estimador de máxima verosimilitud es
λ̂MV = 1/(X n).
Example (Exponencial)
¡El estimador es sesgado!
E
(
1
X n
)
6= 1
E
[
X n
] = 1
E (X1)
= λ.
El estimador es consistente, ya que por LGN
X n
P→ E (X1) = 1/λ,
y como f (x) = 1/x es continua
λ̂MV =
1
X n
P→ λ.
Invarianza
El estimador de máxima verosimilitud tiene la siguiente propiedad
útil.
Proposición (Invarianza)
Sea X1, . . . ,Xn una muestra aleatoria con distribución f (x ; θ). Sea
g : R→ R una función. Entonces el estimador de máxima
verosimilitud de g(θ) es igual g(θ̂MV ).
Invarianza
Example
Sea X1, . . . ,Xn una muestra aleatoria con distribución Ber(p).
Calcular el estimador de máxima verosimilitud de las odds
p
1− p
.
Máxima verosimilitud
Example (Uniforme)
Sea X1, . . . ,Xn una muestra aleatoria con distribución uniforme en
el intervalo (0, θ]. Calculemos el estimador de máxima
verosimilitud de θ. La verosimilitud es
Ln(θ)=
1
θn
n∏
i=1
I(0,θ](Xi ),
que no es derivable como función de θ. La estrategia que veniamos
usando no sirve.
Máxima verosimilitud
Example (Uniforme)
Notemos que
Ln(θ) =
1
θn
n∏
i=1
I(0,θ](Xi ),
es no-negativa y que es positiva siempre que θ ≥ Xi para todo
i = 1, . . . , n.
Pero entonces Ln(θ) > 0 siempre que θ ≥ max (X1, . . . ,Xn).
Además, si θ ≥ max (X1, . . . ,Xn), Ln(θ) > 0 es decreciente en θ.
Concluimos que la verosimilitud se maximiza en max (X1, . . . ,Xn) y
por lo tanto el estimador de máxima verosimilitud es
θ̂MV = max (X1, . . . ,Xn) .
Máxima verosimilitud
Example (Uniforme)
En este contexto ya hab́ıamos estudiado a
max (X1, . . . ,Xn)
como estimador de θ, pero sin saber que era el de máxima
verosimilitud. Hab́ıamos visto que
E
(
θ̂MV
)
=
n
n + 1
θ
y
Var
(
θ̂MV
)
→
n→∞
0.
Con lo cual θ̂MV es sesgado (pero el sesgo tiende a cero) y
consistente.
Máxima verosimilitud
Example (Uniforme)
Es fácil ver que θ̂MM = 2X n. Se puede probar que θ̂MV tiene un
error cuadrático medio menor que θ̂MM , con lo cual en este caso la
estrategia de máxima verosimilitud da un mejor resultado.
Máxima verosimilitud
Example (Laplace)
Decimos que una variable aleatoria tiene distribución Laplace de
parámetro θ si su función de densidad es
fX (x ; θ) = (1/2) exp(−|x − θ|).
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn de una
distribución Laplace de parámetro θ. Calculemos el estimador de
máxima verosimilitud de θ.
Máxima verosimilitud
Example (Laplace)
Tenemos que
Ln(θ) = (1/2) exp(−|X1 − θ|) . . . (1/2) exp(−|Xn − θ|)
= (1/2n) exp
(
−
n∑
i=1
|Xi − θ|
)
.
Luego
log(Ln(θ)) = n log(1/2)−
n∑
i=1
|Xi − θ|,
que no es derivable, ya que el valor absoluto no es derivable en 0.
Máxima verosimilitud
Example (Laplace)
−4 −2 0 2 4
0
1
2
3
4
x
|x
|
Figure: Valor absoluto.
Máxima verosimilitud
Example (Laplace)
Definamos sign(x) a la función que vale 1 si x > 0 y -1 si x < 0.
La derivada de g(x) = |x | es g ′(x) = sign(x) si x 6= 0. Si
‘derivamos’, informalmente, log(Ln(θ)) respecto de θ e igualamos
a cero obtenemos
n∑
i=1
sign (Xi − θ) = 0.
Para que esto ocurra, θ tiene que ser tal que ‘la mitad’ de los Xi
tienen que ser menores que θ y ‘la mitad’ sean mayores que θ. Si
los Xi estuvieron ordenados, el θ que resuelve la ecuación anterior
seŕıa el que está en el medio.
Máxima verosimilitud
Definition (Estad́ısticos de orden)
Dada una muestra aleatoria X1, . . . ,Xn, el k-ésimo estad́ıstico de
orden X(k) es el k-ésimo valor más chico en la muestra.
Definition (Mediana muestral)
Dada una muestra aleatoria X1, . . . ,Xn, se define la media
muestral como
median(X1, . . . ,Xn) = X((n+1)/2) si n es impar
y
median(X1, . . . ,Xn) =
X(n/2) + X(n/2+1)
2
si n es par
Máxima verosimilitud
Example (Laplace)
n∑
i=1
sign (Xi − θ) = 0,
la solución de esta ecuación es median(X1, . . . ,Xn). Es decir
θ̂MV = mediana(X1, . . . ,Xn).
La derivación que hicimos no es 100% formal, pero es
esencialmente correcta.
Máxima verosimilitud
Example (Laplace)
Recordemos que la mediana poblacional de una variable aleatoria
continua se define como el único valor q tal que P(X ≤ q) = 1/2.
En la práctica veran que si X es continua y simétrica respecto de
θ, entonces la mediana poblacional de X es igual a la esperanza de
X , que a su vez es igual a θ.
Tenemos entonces que si para la distribución Laplace, el estimador
de máxima verosimilitud de su mediana poblacional es la mediana
muestral.
Máxima verosimilitud
Example (Laplace)
Se puede mostrar que θ̂MV es insesgado.
Más adelante veremos que es consistente, mostrando que de hecho
(bajo ciertas condiciones de regularidad), los estimadores de
máxima verosimilitud son en general consistentes.
Máxima verosimilitud
Example
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn tal
que Xi tiene densidad
fX (x |α) =
1 + αx
2
I[−1,1](x)
para cierto α ∈ [−1, 1]. Nos interesa estimar α. La esperanza de
Xi es
α
3 . El estimador de momentos de α es entonces α̂MM = 3X n.
Es fácil ver que α̂MM es insesgado y consistente (por qué?).
Máxima verosimilitud
Example
Calculemos ahora el estimador de máxima verosimilitud. Tenemos
que
Ln(α) =
n∏
i=1
(
1 + αXi
2
)
I[−1,1](Xi ).
Luego
log(Ln(α)) =
n∑
i=1
log (1 + αXi )− n log(2) +
n∑
i=1
log
(
I[−1,1](Xi )
)
.
Máxima verosimilitud
Example
Tenemos que resolver entonces
d
dα
log(Ln(α)) =
n∑
i=1
1
1 + αXi
= 0,
que es una ecuación no–lineal que no tiene solución cerrada. El estimador
de máxima verosimilitud está bien definido como la solución de esta
ecuación, pero no podemos dar una fórmula cerrada para calcularlo. Si
quisieramos calcularlo, tendŕıamos que recurrir a algún algoritmo
numérico (Newton-Rhapson) para resolver aproximadamente la ecuación
anterior.
Observación
Es lo usual, para problemas complejos, que el estimador de máxima
verosimilitud no tenga fórmual cerrada.
Máxima verosimilitud
Example
Por qué querŕıamos hacer máxima verosimilitud, si momentos sale
tan fácil?
Vamos a ver que en cierto sentido, máxima verosimilitud es más
eficiente asintóticamente.
Propiedades aśıntoticas de estimadores
No es fácil estudiar las propiedades en muestras finitas (insesgadez,
eficiencia, por ejemplo) de los estimadores de momentos, de
máxima verosimilitud, o de cualquier familia grande de estimadores
para el caso. Por eso, estudiaremos las propiedades asintóticas de
estos estimadores.
Aqúı asintóticas quiere decir con un tamaño de muestra que
tiende a infinito. Por qué nos debeŕıan interesar propiedades
aśıntoticas, si la muestra que tenemos en la vida real siempre es
fija?
Las propiedades aśıntoticas muchas veces reflejan bien el
comportamiento para muestras finitas.
No nos queda otra, caracterizar el comportamiento de
estimadores genéricos para muestras finitas es
d́ıficil/imposible.
Propiedades aśıntoticas de estimadores
Ya teńıamos definida una propiedad aśıntotica, la consistencia, que
es esencialmente una convergencia en probabilidad. Recordemos la
definición:
Definition (Consistencia)
Sea θ̂n un estimador del parámetro θ basado en una muestra
aleatoria X1, . . . ,Xn. Decimos que θ̂n es consistente si
θ̂n
P→ θ
Si θ = (θ(1), θ(2), . . . , θ(p)) es un vector, decimos que
θ̂n = (θ̂
(1)
n , θ̂
(2)
n , . . . , θ̂
(p)
n es consistente si cada coordenada lo es.
Como ya dijimos, pedir que un estimador sea consistente es lo
ḿınimo indispensable.
Propiedades aśıntoticas de estimadores
Example
Si X1, . . . ,Xn es una muestra aleatoria con esperanza µ y varianza
σ2, entonces
θ̂n = (X n,S
2
n )
es consistente para θ = (µ, σ2).
Example
Vimos que el estimador de máxima verosimilitud (que es igual al
de momentos) para el parámetro de una variable aleatoria
exponencial con parámetro λ es 1/X n, que es consistente.
En ambos ejemplos, la prueba de consistencia se basa en que los
estimadores son funciones suaves de la media muestral y en la
LGN.
Propiedades aśıntoticas de estimadores
Example
Para el caso de datos Unif (0, θ), el estimador de máxima
verosimilitud era max(X1, . . . ,Xn). Vimos que era consistente
analizando su esperanza y su varianza.
Example
Para el caso de datos con densidad
fX (x |α) =
1 + αx
2
I[−1,1](x)
el estimador de máxima verosimilitud no teńıa fórmula cerrada.
Cómo lo analizamos?
Vamos a dar resultados de consistencia generales para estimadores
de máxima verosimilitud y de momentos.
Consistencia de máxima verosimilitud
Theorem (Consistencia de máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
θ̂MV
P→ θ0.
Las condiciones de regularidad sobre f (x ; θ) que se necesitan
piden, esencialmente, que f (x ; θ) sea un función ‘suave’ de θ, en el
sentido de que tenga suficientes derivadas.
Consistencia de momentos
Theorem (Consistencia de momentos)
SeaX1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
θ̂MM
P→ θ0.
Propiedades aśıntoticas de estimadores
Consideremos un estimador θ̂n que es consistente para θ, es decir
θ̂n
P→ θ,
o equivalentemente
θ̂n − θ
P→ 0.
Sabemos que cuando n crece, con probabilidad alta θ̂n − θ está
cerca de cero, pero no sabemos como el estimador ‘vaŕıa’ alrededor
de cero.
Propiedades aśıntoticas de estimadores
Ahora para cada n fijo, θ̂n − θ es una cantidad aleatoria, que tiene
cierta distribución. Si podemos encontrar esta distribución,
podemos cuantificar la variabilidad de θ̂n, por lo menos para
muestras grandes, estimando el desv́ıo standard de la distribución.
Más precisamente, si para n grande
θ̂n − θ ≈ F ,
para cierta distribución F que no depende de n, esperamos que, en
algún sentido,
Var(θ̂n) ≈ Var(F).
Como la distribución de θ̂n − θ está (para n grande) muy
concentrada alrededor de 0, es d́ıficil entender que forma tiene.
Propiedades aśıntoticas de estimadores
Cómo podemos hacer para encontrar esta distribución?
Ya sabemos la solución a este problema para un estimador en
particular, la media muestral, por el TCL, pero como hacemos en
general?
Propiedades aśıntoticas de estimadores
Una idea es ‘amplificar’ los errores, multiplicando a θ̂n − θ por una
potencia de n. Es decir, miramos
nα(θ̂n − θ),
para algún α > 0. Si n es grande, por más que (θ̂n − θ) esté muy
concentrada alrededor de 0, al multiplicar por nα tenemos una
‘lupa’ que nos permite ver con más claridad.
El tema es que zoom usamos. Si nos pasamos, si usamos un α
muy grande, podemos hacer que nα(θ̂n − θ) ‘explote’ hacia
infinito, y no veamos nada.
Vamos a ver que para ciertos problemas parámetricos (pero no
para todos!), y para el estimador de máxima verosimilitud, la lupa
correcta es con α = 1/2 y la distribución ĺımite es normal. Esto
está int́ımamente conectado con el TCL.
Distribución asintótica
Definition (Normalidad aśıntotica)
Decimos que un estimador θ̂n de θ es aśıntoticamente normal con
media cero si
n1/2(θ̂n − θ)
d→ N(0,V (θ)),
es decir, si para tamaños de muestra grande, la distribución de
nα(θ̂n − θ) es aproximadamente N(0,V (θ)). Llamaremos a V (θ)
la varianza asintótica de θ̂n. Llamaremos a
√
V (θ) el error
standard asintótico o el desv́ıo standard asintótico de θ̂n. Diremos
que θ̂n es aśıntoticamente insesgado.
Observación
Para ciertos modelos y estimadores puede ser que nα(θ̂n − θ),
α 6= 1/2, converja en distribución, a algo posiblemente no normal.
Distribución asintótica
Observación
No es cierto en general que Var(n1/2(θ̂n − θ))
P→ V (θ), el nombre
‘varianza asintótica’ es un poco desafortunado. Sin embargo, como
adelantamos antes, si tenemos normalidad asintótica para n grande
θ̂n − θ ≈ N
(
0,
V (θ)
n
)
,
luego en cierto sentido
V (θ)
n
mide la variabilidad de θ̂n.
Distribución asintótica
Observación
Si tenemos entonces un estimador de V (θ), por ejemplo V (θ̂n), podemos
medir la variabilidad de θ̂n como
V (θ̂n)
n
.
Para que esto funcione, tendŕıamos que probar que el estimador de V (θ)
que usemos, que podŕıa ser V (θ̂n), es consistente.
Veremos más adelante la utilidad de conocer la distribución asintótica de
estimadores puntuales para poder hacer estimación por intervalos.
Distribución asintótica
Observación
El mote de asintóticamente insesgado también es un tanto
desafortunado, ya que no es cierto en general que si θ̂n es
aśıntoticamente normal con media cero entonces
E
(√
n(θ̂n − θ)
)
→
n→∞
0.
El nombre asintóticamente insesgado se refiere a que la
distribución asintótica del estimador (la normal en nuestro caso),
está centrada en cero.
Distribución asintótica
Example
Consideremos una muestra aleatoria X1, . . . ,Xn y llamemos
µ = E (X1) y σ
2 = Var(X1). Por el TCL,
√
n(X n − µ)
d→ N(0, σ2).
Luego X n es aśıntoticamente normal con media cero y su varianza
asintótica es σ2.
Cómo podemos estimar la varianza (asintótica) de X n?
Distribución asintótica
Example (Exponencial)
Consideremos una muestra aleatoria de una exponencial de parámetro λ.
Sabemos que el estimador de máxima verosimilitud es 1/X n. Cómo
vemos si 1/X n es aśıntoticamente normal?
Vamos a probar que
√
n
(
1
X n
− λ
)
d→ N
(
0,
1
λ2
)
.
La idea es que, si hacemos una expansión de Taylor de primer orden de la
función g(x) = 1/x alrededor de 1/λ, tenemos que
1
x
≈ λ− λ2(x − 1
λ
),
siempre que x esté cerca de 1/λ.
Distribución asintótica
Example (Exponencial)
Como ya sabemos que con probabilidad alta, para n grande, X n está
cerca de 1/λ, tenemos que
1
X n
− λ ≈ −λ2
(
X n −
1
λ
)
y por lo tanto usando el TCL
√
n
(
1
X n
− λ
)
≈ −λ2
√
n
(
X n −
1
λ
)
d→ N
(
0, λ2
)
.
Luego el estimador de máxima verosimilitud es aśıntoticamente normal
con media cero.
¿Cómo podemos estimar la varianza asintótica de 1/X n?
Método delta
La técnica que usamos para calcular la distribución aśıntotica en el
ejemplo anterior se conoce como el método delta.
Theorem (Método delta)
Supongamos que θ̂n cumple que
√
n
(
θ̂n − θ
)
d→ N(0,V (θ)).
Supongamos que g(x) es una función con derivada continua y que
g ′(θ) 6= 0. Entonces
√
n
(
g(θ̂n)− g(θ)
)
d→ N(0,V (θ)(g ′(θ))2).
Distribución asintótica
Vamos a ver a continuación que bajo condiciones de regularidad,
los estimadores de máxima verosimilitud son aśıntoticamente
normales con media cero y que su varianza aśıntotica es en cierto
sentido, la ḿınima posible.
Distribución asintótica de máxima verosimilitud
Theorem (Distribución asintótica de máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
√
n
(
θ̂MV − θ0
)
d→ N(0, I1(θ0)−1),
donde
I1(θ0) = E
{[
d log(f (X ; θ))
dθ
(θ0)
]2}
es la información de Fisher.
Distribución asintótica de máxima verosimilitud
Observación
Este resultado nos dice que, bajo ciertas condiciones, si usamos
máxima verosimilitud tenemos garantizado que nuestro estimador
sea consistente y asintóticamente normal con media cero.
Distribución asintótica de máxima verosimilitud
Proof.
Optimalidad asintótica de máxima verosimilitud
Veremos que la inversa de la información de Fisher es la menor
varianza asinotica que puede tener un estimador asintóticamente
insesgado de θ.
Por esto se suele decir que el estimador de máxima verosimilitud es
aśıntoticamente eficiente o también aśıntoticamente óptimo.
Optimalidad asintótica de máxima verosimilitud
Theorem
Bajo condiciones de regularidad, si θ̃n es un estimador de θ tal que
√
n
(
θ̃n − θ
)
d→ N(0, Ṽ (θ))
entonces
I−11 (θ) ≤ Ṽ (θ).
Idea
La varianza asintótica de cualquier estimador asintóticamente normal e
insesgado es mayor o igual que la varianza asintótica del estimador de
máxima verosimilitud. Definimos
I−11 (θ)
Ṽ (θ)
como la eficiencia asintótica del estimador θ̃n.