MAXIMA VEROSIMILITUD

Economía I

•
SIN SIGLA

eco
17/10/2023
¡Este material tiene más páginas!
Vista previa del material en texto
Análisis Estad́ıstico
Métodos de estimación: máxima verosimilitud
UTDT
October 1, 2020
Máxima verosimilitud
A continuación presentaremos otro método de estimación, llamado
el método de máxima verosimilitud. Este método tiene muchas
propiedades interesantes:
Está basado en una idea muy intuitiva (más que el método de
los momentos).
Es invariante: si θ̂MV es el estimador de máxima verosimilitud
de θ, g(θ̂MV ) es el estimador de máxima verosimilitud de g(θ)
(momentos no tiene esta propiedad).
Bajo condiciones generales, es consistente (momentos tiene la
misma propiedad).
Máxima verosimilitud
Bajo condiciones generales, el estimador de máxima
verosimilitud es aśıntoticamente normal, es decir, para
tamaños de muestra grandes su distribución muestral es
aproximadamente normal (momentos tiene la misma
propiedad).
Más aún la normal está centrada en el parámetro verdadero
(momentos tiene la misma propiedad).
Bajo condiciones generales, la varianza asintótica del
estimador de máxima verosimilitud es la ḿınima posible entre
los estimadores que tienen sesgo que es aśıntoticamente cero
(momentos no tiene esta propiedad).
La función de verosimilitud
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn. El
vector aleatorio (X1, . . . ,Xn) tiene cierta función de densidad
conjunta.
Supongamos que esta función depende de un θ (posiblemente un
vector) desconocido. Digamos que f (x1, . . . , xn; θ) es la función de
densidad de (X1, . . . ,Xn) y que conocemos f , excepto por θ. Es
decir, tenemos un modelo paramétrico para la distribución de los
datos.
Definition (Función de verosimilitud)
Sea f (x1, . . . , xn; θ) la función de densidad de una muestra
aleatoria X1, . . . ,Xn, que depende de un parámetro desconocido θ.
La función
Ln(θ) = f (x1, . . . , xn; θ),
pensada cómo función de θ para x1, . . . , xn fijos, se llama la
función de verosimilitud.
La función de verosimilitud
Proposición
Sea Ln(θ) la función de verosimilitud de una muestra aleatoria
X1, . . . ,Xn. Llamemos f (x ; θ) a la función de densidad que tienen en
común las v.a. de la muestra. Entonces
Ln(θ) = f (x1; θ)f (x2; θ) . . . f (xn; θ)
Proof.
Como X1, . . . ,Xn son independientes, su función de densidad se factoriza.
Luego
Ln(θ) = f (x1, . . . , xn; θ) = f (x1, θ)f (x2, θ) . . . f (xn, θ).
La función de verosimilitud
Notación
Usaremos la notación
Ln(θ) = f (X1; θ)f (X2; θ) . . . f (Xn; θ)
es decir, Ln(θ) es la ‘versión aleatoria’ de la función de
verosimilitud.
La función de verosimilitud
Veamos que tipo de información que está codificada en la función de
verosimilitud.
Example
Consideremos una muestra aleatorias de 10 bicicletas del nuevo sistema
de bicicleta públicas en CABA.
Sea p = P(bicicleta vandalizada) y definamos Xi = 1 si la i−ésima
bicicleta fue vandalizada y Xi = 0 en otro caso. Luego Xi∼Ber(p).
Llamemos θ = p, que es el parámetro que nos interesa estimar.
Supongamos que en una muestra dada se ve que la primera, la tercera y
la décima fueron vandalizadas, mientras que las otras están bien. Es
decir, las xi son
1, 0, 1, 0, 0, 0, 0, 0, 0, 1
y por lo tanto
L10(θ) = θ
∑
i xi (1− θ)10−
∑
i xi = θ3(1− θ)7
La función de verosimilitud
Example
Para cada θ, L10(θ) mide cúan probable es haber observado la muestra
que observamos. Por ejemplo
L10(0.5) = 0.5
30.57 = 0.001 y L10(0.3) = 0.1
30.97 = 0.002.
Podemos definir un estimador como el valor de θ que maximiza L10(θ), es
decir, que hace más probable haber observado los datos que observamos.
Esta es la idea fundamental detrás del método de estimación de máxima
verosimilitud.
La función de verosimilitud
Example
0.0 0.2 0.4 0.6 0.8 1.0
0.
00
00
0.
00
05
0.
00
10
0.
00
15
0.
00
20
p
Li
k
0.0 0.2 0.4 0.6 0.8 1.0
−
50
−
40
−
30
−
20
−
10
p
lo
g(
Li
k)
La función de verosimilitud
Example
Tenemos entonces que resolver el problema de encontrar el valor de θ que
maximiza L10(θ). Este es un problema de optimización como los que ya
vieron en análisis.
En este caso (y en casi todos los casos), es más fácil encontar el θ que
maximiza log(L10(θ)). Notar que las soluciones de estos dos problemas
de maximización son iguales ya que, como el logaritmo es creciente,
L10(θ̂) ≥ L10(θ) ∀θ ⇔ log(L10(θ̂)) ≥ log(L10(θ)) ∀θ.
La función de verosimilitud
Example
Tenemos entonces que maximizar log(L10(θ)). Como se trata de
una función suave, para encontrar su máximo, nos alcanza con
1 Derivar.
2 Igualar a cero y despejar.
3 Chequear que la solución encontrada sea un máximo, por
ejemplo viendo que la segunda derivada es negativa en la
solución.
La función de verosimilitud
Example
Ahora,
log(L10(θ)) =
∑
i
xi log(θ) + (10−
∑
i
xi ) log(1− θ).
d
dθ
log(L10(θ)) =
∑
i xi
θ
−
10−
∑
i xi
1− θ
.∑
i xi
θ
−
10−
∑
i xi
1− θ
= 0 ⇔ θ =
∑10
i=1 xi
10
.
Además para todo θ,
d2
dθ2
log(L10(θ)) = −
∑
i xi
θ2
−
10−
∑
i xi
(1− θ)2
< 0.
La función de verosimilitud
Example
El valor estimado que obtenemos con este método entonces es∑10
i=1 xi
10
= 0.3.
El estimador en general, para una muestra de tamaño 10, se
obtiene de la misma manera, pero ahora reemplazando L10(θ) por
L10(θ). Obtenemos que el estimador es∑10
i=1 Xi
10
= X 10,
la media muestral.
Máxima verosimilitud
Definition (Máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria que tiene función de densidad en
común f (x ; θ), para un θ (posiblemente vectorial) desconocido. El
estimador de máxima verosimilitud se define como el θ̂MV que maximiza
la verosimilitud (aleatoria), es decir que cumple que para todo θ̃
Ln(θ̂MV ) = f (X1; θ̂MV ) . . . f (Xn; θ̂MV ) ≥ Ln(θ̃) = f (X1; θ̃) . . . f (Xn; θ̃)
Para una realización de la muestra x1, . . . , xn, el valor estimado se
obtiene reemplazando Xi por xi , luego, el valor estimado es el que
maximiza la verosimilitud (no aleatoria) Ln(θ).
Consejo
Casi siempre es más fácil maximizar log(Ln(θ)) que Ln(θ). Esto es
porque el logartimo convierte productos en sumas, y las sumas son más
fáciles de derivar que los productos.
Máxima verosimilitud: ejemplos
Example (Poisson)
Sea X1, . . . ,Xn una muestra aleatoria con distribución Poisson de
parámetro λ. La verosimilitud es
Ln(λ) = exp(−λn)
λ
∑n
i=1 Xi∏n
i=1 Xi !
.
Luego
log (Ln(λ)) = −λn +
n∑
i=1
Xi log(λ)− log(
n∏
i=1
Xi !).
Es fácil ver entonces que el estimador de máxima verosimilitud es
λ̂MV =
1
n
n∑
i=1
Xi .
Máxima verosimilitud: ejemplos
Example (Poisson)
Como el estimador de máxima verosimilitud es la media muestral,
ya sabemos muchos sobre el.
λ̂MV es insesgado ya que
E
(
λ̂MV
)
= E (X n) = E (X1) = λ
y además es consistente, ya que por la LGN
λ̂MV = X n
P→ E (X1) = λ.
Máxima verosimilitud: ejemplos
Example (Exponencial)
Sea X1, . . . ,Xn una muestra aleatoria con distribución exponencial
de parámetro λ. La verosimilitud es
Ln(λ) = λn exp
(
−λ
n∑
i=1
Xi
)
n∏
i=1
I(0,+∞)(Xi ).
Luego
log (Ln(λ)) = λn − λ
n∑
i=1
Xi +
n∑
i=1
log(I(0,+∞)(Xi )).
Es fácil ver entonces que el estimador de máxima verosimilitud es
λ̂MV = 1/(X n).
Example (Exponencial)
¡El estimador es sesgado!
E
(
1
X n
)
6= 1
E
[
X n
] = 1
E (X1)
= λ.
El estimador es consistente, ya que por LGN
X n
P→ E (X1) = 1/λ,
y como f (x) = 1/x es continua
λ̂MV =
1
X n
P→ λ.
Invarianza
El estimador de máxima verosimilitud tiene la siguiente propiedad
útil.
Proposición (Invarianza)
Sea X1, . . . ,Xn una muestra aleatoria con distribución f (x ; θ). Sea
g : R→ R una función. Entonces el estimador de máxima
verosimilitud de g(θ) es igual g(θ̂MV ).
Invarianza
Example
Sea X1, . . . ,Xn una muestra aleatoria con distribución Ber(p).
Calcular el estimador de máxima verosimilitud de las odds
p
1− p
.
Máxima verosimilitud
Example (Uniforme)
Sea X1, . . . ,Xn una muestra aleatoria con distribución uniforme en
el intervalo (0, θ]. Calculemos el estimador de máxima
verosimilitud de θ. La verosimilitud es
Ln(θ)=
1
θn
n∏
i=1
I(0,θ](Xi ),
que no es derivable como función de θ. La estrategia que veniamos
usando no sirve.
Máxima verosimilitud
Example (Uniforme)
Notemos que
Ln(θ) =
1
θn
n∏
i=1
I(0,θ](Xi ),
es no-negativa y que es positiva siempre que θ ≥ Xi para todo
i = 1, . . . , n.
Pero entonces Ln(θ) > 0 siempre que θ ≥ max (X1, . . . ,Xn).
Además, si θ ≥ max (X1, . . . ,Xn), Ln(θ) > 0 es decreciente en θ.
Concluimos que la verosimilitud se maximiza en max (X1, . . . ,Xn) y
por lo tanto el estimador de máxima verosimilitud es
θ̂MV = max (X1, . . . ,Xn) .
Máxima verosimilitud
Example (Uniforme)
En este contexto ya hab́ıamos estudiado a
max (X1, . . . ,Xn)
como estimador de θ, pero sin saber que era el de máxima
verosimilitud. Hab́ıamos visto que
E
(
θ̂MV
)
=
n
n + 1
θ
y
Var
(
θ̂MV
)
→
n→∞
0.
Con lo cual θ̂MV es sesgado (pero el sesgo tiende a cero) y
consistente.
Máxima verosimilitud
Example (Uniforme)
Es fácil ver que θ̂MM = 2X n. Se puede probar que θ̂MV tiene un
error cuadrático medio menor que θ̂MM , con lo cual en este caso la
estrategia de máxima verosimilitud da un mejor resultado.
Máxima verosimilitud
Example (Laplace)
Decimos que una variable aleatoria tiene distribución Laplace de
parámetro θ si su función de densidad es
fX (x ; θ) = (1/2) exp(−|x − θ|).
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn de una
distribución Laplace de parámetro θ. Calculemos el estimador de
máxima verosimilitud de θ.
Máxima verosimilitud
Example (Laplace)
Tenemos que
Ln(θ) = (1/2) exp(−|X1 − θ|) . . . (1/2) exp(−|Xn − θ|)
= (1/2n) exp
(
−
n∑
i=1
|Xi − θ|
)
.
Luego
log(Ln(θ)) = n log(1/2)−
n∑
i=1
|Xi − θ|,
que no es derivable, ya que el valor absoluto no es derivable en 0.
Máxima verosimilitud
Example (Laplace)
−4 −2 0 2 4
0
1
2
3
4
x
|x
|
Figure: Valor absoluto.
Máxima verosimilitud
Example (Laplace)
Definamos sign(x) a la función que vale 1 si x > 0 y -1 si x < 0.
La derivada de g(x) = |x | es g ′(x) = sign(x) si x 6= 0. Si
‘derivamos’, informalmente, log(Ln(θ)) respecto de θ e igualamos
a cero obtenemos
n∑
i=1
sign (Xi − θ) = 0.
Para que esto ocurra, θ tiene que ser tal que ‘la mitad’ de los Xi
tienen que ser menores que θ y ‘la mitad’ sean mayores que θ. Si
los Xi estuvieron ordenados, el θ que resuelve la ecuación anterior
seŕıa el que está en el medio.
Máxima verosimilitud
Definition (Estad́ısticos de orden)
Dada una muestra aleatoria X1, . . . ,Xn, el k-ésimo estad́ıstico de
orden X(k) es el k-ésimo valor más chico en la muestra.
Definition (Mediana muestral)
Dada una muestra aleatoria X1, . . . ,Xn, se define la media
muestral como
median(X1, . . . ,Xn) = X((n+1)/2) si n es impar
y
median(X1, . . . ,Xn) =
X(n/2) + X(n/2+1)
2
si n es par
Máxima verosimilitud
Example (Laplace)
n∑
i=1
sign (Xi − θ) = 0,
la solución de esta ecuación es median(X1, . . . ,Xn). Es decir
θ̂MV = mediana(X1, . . . ,Xn).
La derivación que hicimos no es 100% formal, pero es
esencialmente correcta.
Máxima verosimilitud
Example (Laplace)
Recordemos que la mediana poblacional de una variable aleatoria
continua se define como el único valor q tal que P(X ≤ q) = 1/2.
En la práctica veran que si X es continua y simétrica respecto de
θ, entonces la mediana poblacional de X es igual a la esperanza de
X , que a su vez es igual a θ.
Tenemos entonces que si para la distribución Laplace, el estimador
de máxima verosimilitud de su mediana poblacional es la mediana
muestral.
Máxima verosimilitud
Example (Laplace)
Se puede mostrar que θ̂MV es insesgado.
Más adelante veremos que es consistente, mostrando que de hecho
(bajo ciertas condiciones de regularidad), los estimadores de
máxima verosimilitud son en general consistentes.
Máxima verosimilitud
Example
Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn tal
que Xi tiene densidad
fX (x |α) =
1 + αx
2
I[−1,1](x)
para cierto α ∈ [−1, 1]. Nos interesa estimar α. La esperanza de
Xi es
α
3 . El estimador de momentos de α es entonces α̂MM = 3X n.
Es fácil ver que α̂MM es insesgado y consistente (por qué?).
Máxima verosimilitud
Example
Calculemos ahora el estimador de máxima verosimilitud. Tenemos
que
Ln(α) =
n∏
i=1
(
1 + αXi
2
)
I[−1,1](Xi ).
Luego
log(Ln(α)) =
n∑
i=1
log (1 + αXi )− n log(2) +
n∑
i=1
log
(
I[−1,1](Xi )
)
.
Máxima verosimilitud
Example
Tenemos que resolver entonces
d
dα
log(Ln(α)) =
n∑
i=1
1
1 + αXi
= 0,
que es una ecuación no–lineal que no tiene solución cerrada. El estimador
de máxima verosimilitud está bien definido como la solución de esta
ecuación, pero no podemos dar una fórmula cerrada para calcularlo. Si
quisieramos calcularlo, tendŕıamos que recurrir a algún algoritmo
numérico (Newton-Rhapson) para resolver aproximadamente la ecuación
anterior.
Observación
Es lo usual, para problemas complejos, que el estimador de máxima
verosimilitud no tenga fórmual cerrada.
Máxima verosimilitud
Example
Por qué querŕıamos hacer máxima verosimilitud, si momentos sale
tan fácil?
Vamos a ver que en cierto sentido, máxima verosimilitud es más
eficiente asintóticamente.
Propiedades aśıntoticas de estimadores
No es fácil estudiar las propiedades en muestras finitas (insesgadez,
eficiencia, por ejemplo) de los estimadores de momentos, de
máxima verosimilitud, o de cualquier familia grande de estimadores
para el caso. Por eso, estudiaremos las propiedades asintóticas de
estos estimadores.
Aqúı asintóticas quiere decir con un tamaño de muestra que
tiende a infinito. Por qué nos debeŕıan interesar propiedades
aśıntoticas, si la muestra que tenemos en la vida real siempre es
fija?
Las propiedades aśıntoticas muchas veces reflejan bien el
comportamiento para muestras finitas.
No nos queda otra, caracterizar el comportamiento de
estimadores genéricos para muestras finitas es
d́ıficil/imposible.
Propiedades aśıntoticas de estimadores
Ya teńıamos definida una propiedad aśıntotica, la consistencia, que
es esencialmente una convergencia en probabilidad. Recordemos la
definición:
Definition (Consistencia)
Sea θ̂n un estimador del parámetro θ basado en una muestra
aleatoria X1, . . . ,Xn. Decimos que θ̂n es consistente si
θ̂n
P→ θ
Si θ = (θ(1), θ(2), . . . , θ(p)) es un vector, decimos que
θ̂n = (θ̂
(1)
n , θ̂
(2)
n , . . . , θ̂
(p)
n es consistente si cada coordenada lo es.
Como ya dijimos, pedir que un estimador sea consistente es lo
ḿınimo indispensable.
Propiedades aśıntoticas de estimadores
Example
Si X1, . . . ,Xn es una muestra aleatoria con esperanza µ y varianza
σ2, entonces
θ̂n = (X n,S
2
n )
es consistente para θ = (µ, σ2).
Example
Vimos que el estimador de máxima verosimilitud (que es igual al
de momentos) para el parámetro de una variable aleatoria
exponencial con parámetro λ es 1/X n, que es consistente.
En ambos ejemplos, la prueba de consistencia se basa en que los
estimadores son funciones suaves de la media muestral y en la
LGN.
Propiedades aśıntoticas de estimadores
Example
Para el caso de datos Unif (0, θ), el estimador de máxima
verosimilitud era max(X1, . . . ,Xn). Vimos que era consistente
analizando su esperanza y su varianza.
Example
Para el caso de datos con densidad
fX (x |α) =
1 + αx
2
I[−1,1](x)
el estimador de máxima verosimilitud no teńıa fórmula cerrada.
Cómo lo analizamos?
Vamos a dar resultados de consistencia generales para estimadores
de máxima verosimilitud y de momentos.
Consistencia de máxima verosimilitud
Theorem (Consistencia de máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
θ̂MV
P→ θ0.
Las condiciones de regularidad sobre f (x ; θ) que se necesitan
piden, esencialmente, que f (x ; θ) sea un función ‘suave’ de θ, en el
sentido de que tenga suficientes derivadas.
Consistencia de momentos
Theorem (Consistencia de momentos)
SeaX1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
θ̂MM
P→ θ0.
Propiedades aśıntoticas de estimadores
Consideremos un estimador θ̂n que es consistente para θ, es decir
θ̂n
P→ θ,
o equivalentemente
θ̂n − θ
P→ 0.
Sabemos que cuando n crece, con probabilidad alta θ̂n − θ está
cerca de cero, pero no sabemos como el estimador ‘vaŕıa’ alrededor
de cero.
Propiedades aśıntoticas de estimadores
Ahora para cada n fijo, θ̂n − θ es una cantidad aleatoria, que tiene
cierta distribución. Si podemos encontrar esta distribución,
podemos cuantificar la variabilidad de θ̂n, por lo menos para
muestras grandes, estimando el desv́ıo standard de la distribución.
Más precisamente, si para n grande
θ̂n − θ ≈ F ,
para cierta distribución F que no depende de n, esperamos que, en
algún sentido,
Var(θ̂n) ≈ Var(F).
Como la distribución de θ̂n − θ está (para n grande) muy
concentrada alrededor de 0, es d́ıficil entender que forma tiene.
Propiedades aśıntoticas de estimadores
Cómo podemos hacer para encontrar esta distribución?
Ya sabemos la solución a este problema para un estimador en
particular, la media muestral, por el TCL, pero como hacemos en
general?
Propiedades aśıntoticas de estimadores
Una idea es ‘amplificar’ los errores, multiplicando a θ̂n − θ por una
potencia de n. Es decir, miramos
nα(θ̂n − θ),
para algún α > 0. Si n es grande, por más que (θ̂n − θ) esté muy
concentrada alrededor de 0, al multiplicar por nα tenemos una
‘lupa’ que nos permite ver con más claridad.
El tema es que zoom usamos. Si nos pasamos, si usamos un α
muy grande, podemos hacer que nα(θ̂n − θ) ‘explote’ hacia
infinito, y no veamos nada.
Vamos a ver que para ciertos problemas parámetricos (pero no
para todos!), y para el estimador de máxima verosimilitud, la lupa
correcta es con α = 1/2 y la distribución ĺımite es normal. Esto
está int́ımamente conectado con el TCL.
Distribución asintótica
Definition (Normalidad aśıntotica)
Decimos que un estimador θ̂n de θ es aśıntoticamente normal con
media cero si
n1/2(θ̂n − θ)
d→ N(0,V (θ)),
es decir, si para tamaños de muestra grande, la distribución de
nα(θ̂n − θ) es aproximadamente N(0,V (θ)). Llamaremos a V (θ)
la varianza asintótica de θ̂n. Llamaremos a
√
V (θ) el error
standard asintótico o el desv́ıo standard asintótico de θ̂n. Diremos
que θ̂n es aśıntoticamente insesgado.
Observación
Para ciertos modelos y estimadores puede ser que nα(θ̂n − θ),
α 6= 1/2, converja en distribución, a algo posiblemente no normal.
Distribución asintótica
Observación
No es cierto en general que Var(n1/2(θ̂n − θ))
P→ V (θ), el nombre
‘varianza asintótica’ es un poco desafortunado. Sin embargo, como
adelantamos antes, si tenemos normalidad asintótica para n grande
θ̂n − θ ≈ N
(
0,
V (θ)
n
)
,
luego en cierto sentido
V (θ)
n
mide la variabilidad de θ̂n.
Distribución asintótica
Observación
Si tenemos entonces un estimador de V (θ), por ejemplo V (θ̂n), podemos
medir la variabilidad de θ̂n como
V (θ̂n)
n
.
Para que esto funcione, tendŕıamos que probar que el estimador de V (θ)
que usemos, que podŕıa ser V (θ̂n), es consistente.
Veremos más adelante la utilidad de conocer la distribución asintótica de
estimadores puntuales para poder hacer estimación por intervalos.
Distribución asintótica
Observación
El mote de asintóticamente insesgado también es un tanto
desafortunado, ya que no es cierto en general que si θ̂n es
aśıntoticamente normal con media cero entonces
E
(√
n(θ̂n − θ)
)
→
n→∞
0.
El nombre asintóticamente insesgado se refiere a que la
distribución asintótica del estimador (la normal en nuestro caso),
está centrada en cero.
Distribución asintótica
Example
Consideremos una muestra aleatoria X1, . . . ,Xn y llamemos
µ = E (X1) y σ
2 = Var(X1). Por el TCL,
√
n(X n − µ)
d→ N(0, σ2).
Luego X n es aśıntoticamente normal con media cero y su varianza
asintótica es σ2.
Cómo podemos estimar la varianza (asintótica) de X n?
Distribución asintótica
Example (Exponencial)
Consideremos una muestra aleatoria de una exponencial de parámetro λ.
Sabemos que el estimador de máxima verosimilitud es 1/X n. Cómo
vemos si 1/X n es aśıntoticamente normal?
Vamos a probar que
√
n
(
1
X n
− λ
)
d→ N
(
0,
1
λ2
)
.
La idea es que, si hacemos una expansión de Taylor de primer orden de la
función g(x) = 1/x alrededor de 1/λ, tenemos que
1
x
≈ λ− λ2(x − 1
λ
),
siempre que x esté cerca de 1/λ.
Distribución asintótica
Example (Exponencial)
Como ya sabemos que con probabilidad alta, para n grande, X n está
cerca de 1/λ, tenemos que
1
X n
− λ ≈ −λ2
(
X n −
1
λ
)
y por lo tanto usando el TCL
√
n
(
1
X n
− λ
)
≈ −λ2
√
n
(
X n −
1
λ
)
d→ N
(
0, λ2
)
.
Luego el estimador de máxima verosimilitud es aśıntoticamente normal
con media cero.
¿Cómo podemos estimar la varianza asintótica de 1/X n?
Método delta
La técnica que usamos para calcular la distribución aśıntotica en el
ejemplo anterior se conoce como el método delta.
Theorem (Método delta)
Supongamos que θ̂n cumple que
√
n
(
θ̂n − θ
)
d→ N(0,V (θ)).
Supongamos que g(x) es una función con derivada continua y que
g ′(θ) 6= 0. Entonces
√
n
(
g(θ̂n)− g(θ)
)
d→ N(0,V (θ)(g ′(θ))2).
Distribución asintótica
Vamos a ver a continuación que bajo condiciones de regularidad,
los estimadores de máxima verosimilitud son aśıntoticamente
normales con media cero y que su varianza aśıntotica es en cierto
sentido, la ḿınima posible.
Distribución asintótica de máxima verosimilitud
Theorem (Distribución asintótica de máxima verosimilitud)
Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad
f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad
sobre f (x ; θ0),
√
n
(
θ̂MV − θ0
)
d→ N(0, I1(θ0)−1),
donde
I1(θ0) = E
{[
d log(f (X ; θ))
dθ
(θ0)
]2}
es la información de Fisher.
Distribución asintótica de máxima verosimilitud
Observación
Este resultado nos dice que, bajo ciertas condiciones, si usamos
máxima verosimilitud tenemos garantizado que nuestro estimador
sea consistente y asintóticamente normal con media cero.
Distribución asintótica de máxima verosimilitud
Proof.
Optimalidad asintótica de máxima verosimilitud
Veremos que la inversa de la información de Fisher es la menor
varianza asinotica que puede tener un estimador asintóticamente
insesgado de θ.
Por esto se suele decir que el estimador de máxima verosimilitud es
aśıntoticamente eficiente o también aśıntoticamente óptimo.
Optimalidad asintótica de máxima verosimilitud
Theorem
Bajo condiciones de regularidad, si θ̃n es un estimador de θ tal que
√
n
(
θ̃n − θ
)
d→ N(0, Ṽ (θ))
entonces
I−11 (θ) ≤ Ṽ (θ).
Idea
La varianza asintótica de cualquier estimador asintóticamente normal e
insesgado es mayor o igual que la varianza asintótica del estimador de
máxima verosimilitud. Definimos
I−11 (θ)
Ṽ (θ)
como la eficiencia asintótica del estimador θ̃n.