Vista previa del material en texto
Análisis Estad́ıstico Métodos de estimación: máxima verosimilitud UTDT October 1, 2020 Máxima verosimilitud A continuación presentaremos otro método de estimación, llamado el método de máxima verosimilitud. Este método tiene muchas propiedades interesantes: Está basado en una idea muy intuitiva (más que el método de los momentos). Es invariante: si θ̂MV es el estimador de máxima verosimilitud de θ, g(θ̂MV ) es el estimador de máxima verosimilitud de g(θ) (momentos no tiene esta propiedad). Bajo condiciones generales, es consistente (momentos tiene la misma propiedad). Máxima verosimilitud Bajo condiciones generales, el estimador de máxima verosimilitud es aśıntoticamente normal, es decir, para tamaños de muestra grandes su distribución muestral es aproximadamente normal (momentos tiene la misma propiedad). Más aún la normal está centrada en el parámetro verdadero (momentos tiene la misma propiedad). Bajo condiciones generales, la varianza asintótica del estimador de máxima verosimilitud es la ḿınima posible entre los estimadores que tienen sesgo que es aśıntoticamente cero (momentos no tiene esta propiedad). La función de verosimilitud Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn. El vector aleatorio (X1, . . . ,Xn) tiene cierta función de densidad conjunta. Supongamos que esta función depende de un θ (posiblemente un vector) desconocido. Digamos que f (x1, . . . , xn; θ) es la función de densidad de (X1, . . . ,Xn) y que conocemos f , excepto por θ. Es decir, tenemos un modelo paramétrico para la distribución de los datos. Definition (Función de verosimilitud) Sea f (x1, . . . , xn; θ) la función de densidad de una muestra aleatoria X1, . . . ,Xn, que depende de un parámetro desconocido θ. La función Ln(θ) = f (x1, . . . , xn; θ), pensada cómo función de θ para x1, . . . , xn fijos, se llama la función de verosimilitud. La función de verosimilitud Proposición Sea Ln(θ) la función de verosimilitud de una muestra aleatoria X1, . . . ,Xn. Llamemos f (x ; θ) a la función de densidad que tienen en común las v.a. de la muestra. Entonces Ln(θ) = f (x1; θ)f (x2; θ) . . . f (xn; θ) Proof. Como X1, . . . ,Xn son independientes, su función de densidad se factoriza. Luego Ln(θ) = f (x1, . . . , xn; θ) = f (x1, θ)f (x2, θ) . . . f (xn, θ). La función de verosimilitud Notación Usaremos la notación Ln(θ) = f (X1; θ)f (X2; θ) . . . f (Xn; θ) es decir, Ln(θ) es la ‘versión aleatoria’ de la función de verosimilitud. La función de verosimilitud Veamos que tipo de información que está codificada en la función de verosimilitud. Example Consideremos una muestra aleatorias de 10 bicicletas del nuevo sistema de bicicleta públicas en CABA. Sea p = P(bicicleta vandalizada) y definamos Xi = 1 si la i−ésima bicicleta fue vandalizada y Xi = 0 en otro caso. Luego Xi∼Ber(p). Llamemos θ = p, que es el parámetro que nos interesa estimar. Supongamos que en una muestra dada se ve que la primera, la tercera y la décima fueron vandalizadas, mientras que las otras están bien. Es decir, las xi son 1, 0, 1, 0, 0, 0, 0, 0, 0, 1 y por lo tanto L10(θ) = θ ∑ i xi (1− θ)10− ∑ i xi = θ3(1− θ)7 La función de verosimilitud Example Para cada θ, L10(θ) mide cúan probable es haber observado la muestra que observamos. Por ejemplo L10(0.5) = 0.5 30.57 = 0.001 y L10(0.3) = 0.1 30.97 = 0.002. Podemos definir un estimador como el valor de θ que maximiza L10(θ), es decir, que hace más probable haber observado los datos que observamos. Esta es la idea fundamental detrás del método de estimación de máxima verosimilitud. La función de verosimilitud Example 0.0 0.2 0.4 0.6 0.8 1.0 0. 00 00 0. 00 05 0. 00 10 0. 00 15 0. 00 20 p Li k 0.0 0.2 0.4 0.6 0.8 1.0 − 50 − 40 − 30 − 20 − 10 p lo g( Li k) La función de verosimilitud Example Tenemos entonces que resolver el problema de encontrar el valor de θ que maximiza L10(θ). Este es un problema de optimización como los que ya vieron en análisis. En este caso (y en casi todos los casos), es más fácil encontar el θ que maximiza log(L10(θ)). Notar que las soluciones de estos dos problemas de maximización son iguales ya que, como el logaritmo es creciente, L10(θ̂) ≥ L10(θ) ∀θ ⇔ log(L10(θ̂)) ≥ log(L10(θ)) ∀θ. La función de verosimilitud Example Tenemos entonces que maximizar log(L10(θ)). Como se trata de una función suave, para encontrar su máximo, nos alcanza con 1 Derivar. 2 Igualar a cero y despejar. 3 Chequear que la solución encontrada sea un máximo, por ejemplo viendo que la segunda derivada es negativa en la solución. La función de verosimilitud Example Ahora, log(L10(θ)) = ∑ i xi log(θ) + (10− ∑ i xi ) log(1− θ). d dθ log(L10(θ)) = ∑ i xi θ − 10− ∑ i xi 1− θ .∑ i xi θ − 10− ∑ i xi 1− θ = 0 ⇔ θ = ∑10 i=1 xi 10 . Además para todo θ, d2 dθ2 log(L10(θ)) = − ∑ i xi θ2 − 10− ∑ i xi (1− θ)2 < 0. La función de verosimilitud Example El valor estimado que obtenemos con este método entonces es∑10 i=1 xi 10 = 0.3. El estimador en general, para una muestra de tamaño 10, se obtiene de la misma manera, pero ahora reemplazando L10(θ) por L10(θ). Obtenemos que el estimador es∑10 i=1 Xi 10 = X 10, la media muestral. Máxima verosimilitud Definition (Máxima verosimilitud) Sea X1, . . . ,Xn una muestra aleatoria que tiene función de densidad en común f (x ; θ), para un θ (posiblemente vectorial) desconocido. El estimador de máxima verosimilitud se define como el θ̂MV que maximiza la verosimilitud (aleatoria), es decir que cumple que para todo θ̃ Ln(θ̂MV ) = f (X1; θ̂MV ) . . . f (Xn; θ̂MV ) ≥ Ln(θ̃) = f (X1; θ̃) . . . f (Xn; θ̃) Para una realización de la muestra x1, . . . , xn, el valor estimado se obtiene reemplazando Xi por xi , luego, el valor estimado es el que maximiza la verosimilitud (no aleatoria) Ln(θ). Consejo Casi siempre es más fácil maximizar log(Ln(θ)) que Ln(θ). Esto es porque el logartimo convierte productos en sumas, y las sumas son más fáciles de derivar que los productos. Máxima verosimilitud: ejemplos Example (Poisson) Sea X1, . . . ,Xn una muestra aleatoria con distribución Poisson de parámetro λ. La verosimilitud es Ln(λ) = exp(−λn) λ ∑n i=1 Xi∏n i=1 Xi ! . Luego log (Ln(λ)) = −λn + n∑ i=1 Xi log(λ)− log( n∏ i=1 Xi !). Es fácil ver entonces que el estimador de máxima verosimilitud es λ̂MV = 1 n n∑ i=1 Xi . Máxima verosimilitud: ejemplos Example (Poisson) Como el estimador de máxima verosimilitud es la media muestral, ya sabemos muchos sobre el. λ̂MV es insesgado ya que E ( λ̂MV ) = E (X n) = E (X1) = λ y además es consistente, ya que por la LGN λ̂MV = X n P→ E (X1) = λ. Máxima verosimilitud: ejemplos Example (Exponencial) Sea X1, . . . ,Xn una muestra aleatoria con distribución exponencial de parámetro λ. La verosimilitud es Ln(λ) = λn exp ( −λ n∑ i=1 Xi ) n∏ i=1 I(0,+∞)(Xi ). Luego log (Ln(λ)) = λn − λ n∑ i=1 Xi + n∑ i=1 log(I(0,+∞)(Xi )). Es fácil ver entonces que el estimador de máxima verosimilitud es λ̂MV = 1/(X n). Example (Exponencial) ¡El estimador es sesgado! E ( 1 X n ) 6= 1 E [ X n ] = 1 E (X1) = λ. El estimador es consistente, ya que por LGN X n P→ E (X1) = 1/λ, y como f (x) = 1/x es continua λ̂MV = 1 X n P→ λ. Invarianza El estimador de máxima verosimilitud tiene la siguiente propiedad útil. Proposición (Invarianza) Sea X1, . . . ,Xn una muestra aleatoria con distribución f (x ; θ). Sea g : R→ R una función. Entonces el estimador de máxima verosimilitud de g(θ) es igual g(θ̂MV ). Invarianza Example Sea X1, . . . ,Xn una muestra aleatoria con distribución Ber(p). Calcular el estimador de máxima verosimilitud de las odds p 1− p . Máxima verosimilitud Example (Uniforme) Sea X1, . . . ,Xn una muestra aleatoria con distribución uniforme en el intervalo (0, θ]. Calculemos el estimador de máxima verosimilitud de θ. La verosimilitud es Ln(θ)= 1 θn n∏ i=1 I(0,θ](Xi ), que no es derivable como función de θ. La estrategia que veniamos usando no sirve. Máxima verosimilitud Example (Uniforme) Notemos que Ln(θ) = 1 θn n∏ i=1 I(0,θ](Xi ), es no-negativa y que es positiva siempre que θ ≥ Xi para todo i = 1, . . . , n. Pero entonces Ln(θ) > 0 siempre que θ ≥ max (X1, . . . ,Xn). Además, si θ ≥ max (X1, . . . ,Xn), Ln(θ) > 0 es decreciente en θ. Concluimos que la verosimilitud se maximiza en max (X1, . . . ,Xn) y por lo tanto el estimador de máxima verosimilitud es θ̂MV = max (X1, . . . ,Xn) . Máxima verosimilitud Example (Uniforme) En este contexto ya hab́ıamos estudiado a max (X1, . . . ,Xn) como estimador de θ, pero sin saber que era el de máxima verosimilitud. Hab́ıamos visto que E ( θ̂MV ) = n n + 1 θ y Var ( θ̂MV ) → n→∞ 0. Con lo cual θ̂MV es sesgado (pero el sesgo tiende a cero) y consistente. Máxima verosimilitud Example (Uniforme) Es fácil ver que θ̂MM = 2X n. Se puede probar que θ̂MV tiene un error cuadrático medio menor que θ̂MM , con lo cual en este caso la estrategia de máxima verosimilitud da un mejor resultado. Máxima verosimilitud Example (Laplace) Decimos que una variable aleatoria tiene distribución Laplace de parámetro θ si su función de densidad es fX (x ; θ) = (1/2) exp(−|x − θ|). Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn de una distribución Laplace de parámetro θ. Calculemos el estimador de máxima verosimilitud de θ. Máxima verosimilitud Example (Laplace) Tenemos que Ln(θ) = (1/2) exp(−|X1 − θ|) . . . (1/2) exp(−|Xn − θ|) = (1/2n) exp ( − n∑ i=1 |Xi − θ| ) . Luego log(Ln(θ)) = n log(1/2)− n∑ i=1 |Xi − θ|, que no es derivable, ya que el valor absoluto no es derivable en 0. Máxima verosimilitud Example (Laplace) −4 −2 0 2 4 0 1 2 3 4 x |x | Figure: Valor absoluto. Máxima verosimilitud Example (Laplace) Definamos sign(x) a la función que vale 1 si x > 0 y -1 si x < 0. La derivada de g(x) = |x | es g ′(x) = sign(x) si x 6= 0. Si ‘derivamos’, informalmente, log(Ln(θ)) respecto de θ e igualamos a cero obtenemos n∑ i=1 sign (Xi − θ) = 0. Para que esto ocurra, θ tiene que ser tal que ‘la mitad’ de los Xi tienen que ser menores que θ y ‘la mitad’ sean mayores que θ. Si los Xi estuvieron ordenados, el θ que resuelve la ecuación anterior seŕıa el que está en el medio. Máxima verosimilitud Definition (Estad́ısticos de orden) Dada una muestra aleatoria X1, . . . ,Xn, el k-ésimo estad́ıstico de orden X(k) es el k-ésimo valor más chico en la muestra. Definition (Mediana muestral) Dada una muestra aleatoria X1, . . . ,Xn, se define la media muestral como median(X1, . . . ,Xn) = X((n+1)/2) si n es impar y median(X1, . . . ,Xn) = X(n/2) + X(n/2+1) 2 si n es par Máxima verosimilitud Example (Laplace) n∑ i=1 sign (Xi − θ) = 0, la solución de esta ecuación es median(X1, . . . ,Xn). Es decir θ̂MV = mediana(X1, . . . ,Xn). La derivación que hicimos no es 100% formal, pero es esencialmente correcta. Máxima verosimilitud Example (Laplace) Recordemos que la mediana poblacional de una variable aleatoria continua se define como el único valor q tal que P(X ≤ q) = 1/2. En la práctica veran que si X es continua y simétrica respecto de θ, entonces la mediana poblacional de X es igual a la esperanza de X , que a su vez es igual a θ. Tenemos entonces que si para la distribución Laplace, el estimador de máxima verosimilitud de su mediana poblacional es la mediana muestral. Máxima verosimilitud Example (Laplace) Se puede mostrar que θ̂MV es insesgado. Más adelante veremos que es consistente, mostrando que de hecho (bajo ciertas condiciones de regularidad), los estimadores de máxima verosimilitud son en general consistentes. Máxima verosimilitud Example Supongamos que tenemos una muestra aleatoria X1, . . . ,Xn tal que Xi tiene densidad fX (x |α) = 1 + αx 2 I[−1,1](x) para cierto α ∈ [−1, 1]. Nos interesa estimar α. La esperanza de Xi es α 3 . El estimador de momentos de α es entonces α̂MM = 3X n. Es fácil ver que α̂MM es insesgado y consistente (por qué?). Máxima verosimilitud Example Calculemos ahora el estimador de máxima verosimilitud. Tenemos que Ln(α) = n∏ i=1 ( 1 + αXi 2 ) I[−1,1](Xi ). Luego log(Ln(α)) = n∑ i=1 log (1 + αXi )− n log(2) + n∑ i=1 log ( I[−1,1](Xi ) ) . Máxima verosimilitud Example Tenemos que resolver entonces d dα log(Ln(α)) = n∑ i=1 1 1 + αXi = 0, que es una ecuación no–lineal que no tiene solución cerrada. El estimador de máxima verosimilitud está bien definido como la solución de esta ecuación, pero no podemos dar una fórmula cerrada para calcularlo. Si quisieramos calcularlo, tendŕıamos que recurrir a algún algoritmo numérico (Newton-Rhapson) para resolver aproximadamente la ecuación anterior. Observación Es lo usual, para problemas complejos, que el estimador de máxima verosimilitud no tenga fórmual cerrada. Máxima verosimilitud Example Por qué querŕıamos hacer máxima verosimilitud, si momentos sale tan fácil? Vamos a ver que en cierto sentido, máxima verosimilitud es más eficiente asintóticamente. Propiedades aśıntoticas de estimadores No es fácil estudiar las propiedades en muestras finitas (insesgadez, eficiencia, por ejemplo) de los estimadores de momentos, de máxima verosimilitud, o de cualquier familia grande de estimadores para el caso. Por eso, estudiaremos las propiedades asintóticas de estos estimadores. Aqúı asintóticas quiere decir con un tamaño de muestra que tiende a infinito. Por qué nos debeŕıan interesar propiedades aśıntoticas, si la muestra que tenemos en la vida real siempre es fija? Las propiedades aśıntoticas muchas veces reflejan bien el comportamiento para muestras finitas. No nos queda otra, caracterizar el comportamiento de estimadores genéricos para muestras finitas es d́ıficil/imposible. Propiedades aśıntoticas de estimadores Ya teńıamos definida una propiedad aśıntotica, la consistencia, que es esencialmente una convergencia en probabilidad. Recordemos la definición: Definition (Consistencia) Sea θ̂n un estimador del parámetro θ basado en una muestra aleatoria X1, . . . ,Xn. Decimos que θ̂n es consistente si θ̂n P→ θ Si θ = (θ(1), θ(2), . . . , θ(p)) es un vector, decimos que θ̂n = (θ̂ (1) n , θ̂ (2) n , . . . , θ̂ (p) n es consistente si cada coordenada lo es. Como ya dijimos, pedir que un estimador sea consistente es lo ḿınimo indispensable. Propiedades aśıntoticas de estimadores Example Si X1, . . . ,Xn es una muestra aleatoria con esperanza µ y varianza σ2, entonces θ̂n = (X n,S 2 n ) es consistente para θ = (µ, σ2). Example Vimos que el estimador de máxima verosimilitud (que es igual al de momentos) para el parámetro de una variable aleatoria exponencial con parámetro λ es 1/X n, que es consistente. En ambos ejemplos, la prueba de consistencia se basa en que los estimadores son funciones suaves de la media muestral y en la LGN. Propiedades aśıntoticas de estimadores Example Para el caso de datos Unif (0, θ), el estimador de máxima verosimilitud era max(X1, . . . ,Xn). Vimos que era consistente analizando su esperanza y su varianza. Example Para el caso de datos con densidad fX (x |α) = 1 + αx 2 I[−1,1](x) el estimador de máxima verosimilitud no teńıa fórmula cerrada. Cómo lo analizamos? Vamos a dar resultados de consistencia generales para estimadores de máxima verosimilitud y de momentos. Consistencia de máxima verosimilitud Theorem (Consistencia de máxima verosimilitud) Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad sobre f (x ; θ0), θ̂MV P→ θ0. Las condiciones de regularidad sobre f (x ; θ) que se necesitan piden, esencialmente, que f (x ; θ) sea un función ‘suave’ de θ, en el sentido de que tenga suficientes derivadas. Consistencia de momentos Theorem (Consistencia de momentos) SeaX1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad sobre f (x ; θ0), θ̂MM P→ θ0. Propiedades aśıntoticas de estimadores Consideremos un estimador θ̂n que es consistente para θ, es decir θ̂n P→ θ, o equivalentemente θ̂n − θ P→ 0. Sabemos que cuando n crece, con probabilidad alta θ̂n − θ está cerca de cero, pero no sabemos como el estimador ‘vaŕıa’ alrededor de cero. Propiedades aśıntoticas de estimadores Ahora para cada n fijo, θ̂n − θ es una cantidad aleatoria, que tiene cierta distribución. Si podemos encontrar esta distribución, podemos cuantificar la variabilidad de θ̂n, por lo menos para muestras grandes, estimando el desv́ıo standard de la distribución. Más precisamente, si para n grande θ̂n − θ ≈ F , para cierta distribución F que no depende de n, esperamos que, en algún sentido, Var(θ̂n) ≈ Var(F). Como la distribución de θ̂n − θ está (para n grande) muy concentrada alrededor de 0, es d́ıficil entender que forma tiene. Propiedades aśıntoticas de estimadores Cómo podemos hacer para encontrar esta distribución? Ya sabemos la solución a este problema para un estimador en particular, la media muestral, por el TCL, pero como hacemos en general? Propiedades aśıntoticas de estimadores Una idea es ‘amplificar’ los errores, multiplicando a θ̂n − θ por una potencia de n. Es decir, miramos nα(θ̂n − θ), para algún α > 0. Si n es grande, por más que (θ̂n − θ) esté muy concentrada alrededor de 0, al multiplicar por nα tenemos una ‘lupa’ que nos permite ver con más claridad. El tema es que zoom usamos. Si nos pasamos, si usamos un α muy grande, podemos hacer que nα(θ̂n − θ) ‘explote’ hacia infinito, y no veamos nada. Vamos a ver que para ciertos problemas parámetricos (pero no para todos!), y para el estimador de máxima verosimilitud, la lupa correcta es con α = 1/2 y la distribución ĺımite es normal. Esto está int́ımamente conectado con el TCL. Distribución asintótica Definition (Normalidad aśıntotica) Decimos que un estimador θ̂n de θ es aśıntoticamente normal con media cero si n1/2(θ̂n − θ) d→ N(0,V (θ)), es decir, si para tamaños de muestra grande, la distribución de nα(θ̂n − θ) es aproximadamente N(0,V (θ)). Llamaremos a V (θ) la varianza asintótica de θ̂n. Llamaremos a √ V (θ) el error standard asintótico o el desv́ıo standard asintótico de θ̂n. Diremos que θ̂n es aśıntoticamente insesgado. Observación Para ciertos modelos y estimadores puede ser que nα(θ̂n − θ), α 6= 1/2, converja en distribución, a algo posiblemente no normal. Distribución asintótica Observación No es cierto en general que Var(n1/2(θ̂n − θ)) P→ V (θ), el nombre ‘varianza asintótica’ es un poco desafortunado. Sin embargo, como adelantamos antes, si tenemos normalidad asintótica para n grande θ̂n − θ ≈ N ( 0, V (θ) n ) , luego en cierto sentido V (θ) n mide la variabilidad de θ̂n. Distribución asintótica Observación Si tenemos entonces un estimador de V (θ), por ejemplo V (θ̂n), podemos medir la variabilidad de θ̂n como V (θ̂n) n . Para que esto funcione, tendŕıamos que probar que el estimador de V (θ) que usemos, que podŕıa ser V (θ̂n), es consistente. Veremos más adelante la utilidad de conocer la distribución asintótica de estimadores puntuales para poder hacer estimación por intervalos. Distribución asintótica Observación El mote de asintóticamente insesgado también es un tanto desafortunado, ya que no es cierto en general que si θ̂n es aśıntoticamente normal con media cero entonces E (√ n(θ̂n − θ) ) → n→∞ 0. El nombre asintóticamente insesgado se refiere a que la distribución asintótica del estimador (la normal en nuestro caso), está centrada en cero. Distribución asintótica Example Consideremos una muestra aleatoria X1, . . . ,Xn y llamemos µ = E (X1) y σ 2 = Var(X1). Por el TCL, √ n(X n − µ) d→ N(0, σ2). Luego X n es aśıntoticamente normal con media cero y su varianza asintótica es σ2. Cómo podemos estimar la varianza (asintótica) de X n? Distribución asintótica Example (Exponencial) Consideremos una muestra aleatoria de una exponencial de parámetro λ. Sabemos que el estimador de máxima verosimilitud es 1/X n. Cómo vemos si 1/X n es aśıntoticamente normal? Vamos a probar que √ n ( 1 X n − λ ) d→ N ( 0, 1 λ2 ) . La idea es que, si hacemos una expansión de Taylor de primer orden de la función g(x) = 1/x alrededor de 1/λ, tenemos que 1 x ≈ λ− λ2(x − 1 λ ), siempre que x esté cerca de 1/λ. Distribución asintótica Example (Exponencial) Como ya sabemos que con probabilidad alta, para n grande, X n está cerca de 1/λ, tenemos que 1 X n − λ ≈ −λ2 ( X n − 1 λ ) y por lo tanto usando el TCL √ n ( 1 X n − λ ) ≈ −λ2 √ n ( X n − 1 λ ) d→ N ( 0, λ2 ) . Luego el estimador de máxima verosimilitud es aśıntoticamente normal con media cero. ¿Cómo podemos estimar la varianza asintótica de 1/X n? Método delta La técnica que usamos para calcular la distribución aśıntotica en el ejemplo anterior se conoce como el método delta. Theorem (Método delta) Supongamos que θ̂n cumple que √ n ( θ̂n − θ ) d→ N(0,V (θ)). Supongamos que g(x) es una función con derivada continua y que g ′(θ) 6= 0. Entonces √ n ( g(θ̂n)− g(θ) ) d→ N(0,V (θ)(g ′(θ))2). Distribución asintótica Vamos a ver a continuación que bajo condiciones de regularidad, los estimadores de máxima verosimilitud son aśıntoticamente normales con media cero y que su varianza aśıntotica es en cierto sentido, la ḿınima posible. Distribución asintótica de máxima verosimilitud Theorem (Distribución asintótica de máxima verosimilitud) Sea X1, . . . ,Xn una muestra aleatoria tal que Xi tiene densidad f (x ; θ0) para un θ0 desconocido. Bajos condiciones de regularidad sobre f (x ; θ0), √ n ( θ̂MV − θ0 ) d→ N(0, I1(θ0)−1), donde I1(θ0) = E {[ d log(f (X ; θ)) dθ (θ0) ]2} es la información de Fisher. Distribución asintótica de máxima verosimilitud Observación Este resultado nos dice que, bajo ciertas condiciones, si usamos máxima verosimilitud tenemos garantizado que nuestro estimador sea consistente y asintóticamente normal con media cero. Distribución asintótica de máxima verosimilitud Proof. Optimalidad asintótica de máxima verosimilitud Veremos que la inversa de la información de Fisher es la menor varianza asinotica que puede tener un estimador asintóticamente insesgado de θ. Por esto se suele decir que el estimador de máxima verosimilitud es aśıntoticamente eficiente o también aśıntoticamente óptimo. Optimalidad asintótica de máxima verosimilitud Theorem Bajo condiciones de regularidad, si θ̃n es un estimador de θ tal que √ n ( θ̃n − θ ) d→ N(0, Ṽ (θ)) entonces I−11 (θ) ≤ Ṽ (θ). Idea La varianza asintótica de cualquier estimador asintóticamente normal e insesgado es mayor o igual que la varianza asintótica del estimador de máxima verosimilitud. Definimos I−11 (θ) Ṽ (θ) como la eficiencia asintótica del estimador θ̃n.