Logo Studenta

Apunte Inferencia (Nico Vera) Capítulo 1 y 2

¡Este material tiene más páginas!

Vista previa del material en texto

Inferencia Estadística
Pontificia Universidad Católica de Chile
Segundo Semestre 2021
Apunte Inferencia Estadística: Capítulo 1 y 2
Nicolás Vera (nicolasvera@uc.cl)
Este apunte aborda los capítulos 1 y 2 de las clases de Inferencia Estadística de Comercial
UC. Hice este apunte basándome en los apuntes de clases y apuntes sacados de internet.
Este no es ningún apunte oficial, en muchas partes utilicé mis propias palabras para
explicar la materia, por lo que puede tener errores y/o estar incompleto. Por lo mismo,
por favor siempre priorizar el material oficial, esto solo es complementario. Si encuentran
cualquier error, agradecería que me envien un mail a nicolasvera@uc.cl para arreglarlo lo
antes posible.
Índice
1. Inferencia Estadística 1
2. Estadística descriptiva 3
3. Teorema del límite central 6
4. Distribuciones derivadas de la Normal y distribuciones muestrales 6
4.1. Chi cuadrado(χ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.2. T-student t(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3. F de Fisher F (m,n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4. Media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.5. Caso particular: χ2n−1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.6. Caso particular: tn−1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.7. EXTRA: ¿Cómo leer las tablas acumuladas? . . . . . . . . . . . . . . . . . 10
4.8. EXTRA: Teorema de transformación de variables aleatorias . . . . . . . . 11
5. Estimación puntual 12
5.1. Estimador de momentos (EM) . . . . . . . . . . . . . . . . . . . . . . . . . 12
5.2. Estimador de máxima verosimilitud (EMV) . . . . . . . . . . . . . . . . . 14
5.3. EXTRA: Distribución máximo . . . . . . . . . . . . . . . . . . . . . . . . . 18
6. Propiedades de los estimadores 19
6.1. Estimador Insesgado (E.I) . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2. Estimador Asintóticamente insesgado (EAI) . . . . . . . . . . . . . . . . . 19
6.3. Error cuadrático medio (ECM) . . . . . . . . . . . . . . . . . . . . . . . . 20
6.4. Estimador óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
6.5. Invarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.6. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7. Propiedades de los EMV 23
7.1. Cota Cramer Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Capítulo 1: Introducción a Inferencia Estadística
1. Inferencia Estadística
En el curso de probabilidad y estadística, fue relevante conocer los parámetros de los
modelos en los que trabajábamos. Sin embargo, en el mundo real, estos parámetros gene-
ralmente son desconocidos.
La Inferencia estadística tiene como objetivo obtener información a partir de una muestra,
para luego, basándose en esta información, hacer deducciones de una población descono-
cida. Lo que vamos a hacer en el curso es estimar parámetros poblacionales a partir de
una muestra representativa. Para esto, vamos a asumir que los datos de una muestra
provienen de una distribución conocida cuyos parámetros son desconocidos,
los cuales deben ser estimados.
En la vida real, obtener la información precisa de un parámetro es muy complicado. Por
ejemplo, si una empresa quisiera saber cuál es el tiempo promedio de vida útil de las
ampolletas de cierta marca, es poco realista pensar que la empresa va a contactar a cada
uno de los compradores de esta para obtener esa información, dado los altos costos que
esto implica. Por lo mismo, una opción práctica es obtener una aproximación de este valor
a través de una muestra representativa. Este método en primera instancia podría parecer
erróneo, ya que en este cálculo podríamos dejar de lado mucha información relevante de
diferentes personas que podrían cambiar la estimación. Sin embargo, durante el curso,
aprenderemos diferentes métodos que nos permitirán concluir con mayor certeza la “cali-
dad” de esta estimación. Si bien nunca podremos asegurar que nuestra estimación coincide
con el valor real de una población, si podemos concluir, mediante análisis estadístico, que
son lo suficiente certeras para tomarlas como referencia.
1
Vamos a partir definiendo conceptos.
♦Variable aleatoria: Es una función que asigna un valor al resultado de un experimento
aleatorio. Estos posibles resultados pueden ir cambiando en cada experimento que se hace.
En este punto, los valores de esta variable son inciertos.
♦ Realización de una variable aleatoria: Es cuando la muestra ya fue seleccionada
y entrega un valor específico. En este punto, deja de ser una variable aleatoria, ya que
ya toma un valor determinado. Reforzando la idea anterior, si tu cambias la muestra, la
realización de esta va a cambiar.
Ejemplo
Variable aleatoria: T (X1, X2, X3) = X1 +X2 +X3
Realización de una variable aleatoria: T (1, 2, 3) = 6;T (2, 3, 4) = 9;T (1, 1, 1) = 3, etc.
♦Muestra aleatoria simple (m.a.s): Es un conjunto de variables aleatorias Y1, Y2, ..., Yn,
las cuales son independientes entre sí y tienen la misma distribución Y ∼ fy(y, θ). (nota:
desde ahora, la notación “va iid” significa “variable aleatoria idénticamente distribuida”).
♦ Estimador: Es una variable aleatoria, que es función de la muestra. Estas muestras de-
ben venir de un muestreo aleatorio simple (m.a.s). En general, la notación para identificar
a los estimadores es ponerle un “gorro” al parámetro que están estimando.
Ejemplo
T = t(Y1, Y2, ..., Yn) = θ̂, donde Y1, Y2, ..., Yn es m.a.s
♦ Estimación: Es la realización de la variable aleatoria (estimador).
El objetivo principal del curso será hacer inferencia sobre los parámetros des-
conocidos de una población en base a la información contenida en una muestra.
Para obtener una información de calidad, debemos asegurarnos de que esta muestra sea
representativa de la población. Una muestra que no es representativa hará que se obtengan
conclusiones erróneas sobre esta.
2
2. Estadística descriptiva
A partir de ahora, y al menos que se diga lo contrario, asumiremos que todas las variables
aleatorias vienen a partir de una muestra aleatoria simple (es decir, que son independien-
tes y tienen la misma distribución de probabilidad)
La estadística descriptiva es la técnica matemática que obtiene, organiza, presenta y
describe un conjunto de datos, sin hacer inferencias de la población. Además, calcula
parámetros estadísticos como las medidas de centralización y de dispersión que describen
el conjunto estudiaddo.
Media muestral
Sea y1, y2, ..., yn datos provenientes de una muestra, la media muestral será:
y =
∑n
i=1 yi
n
Si los datos representan a toda la población (es decir, tomamos todos los datos), la media
se denota con la letra griega µ.
Varianza muestral
La varianza es una medida de variabilidad que utiliza todos los datos. La varianza se
basa en la diferencia entre el valor de cada observacion yi y la media. Si los datos que se
analizan provienen de una muestra, se denota por la varianza muestral, y se calcula por:
S2 =
∑n
i=1(yi − y)2
n− 1
En general, las letras en mayúscula (X1, X2, ..., Xn) se utilizan para determinar las va-
riables aleatorias, mientras que las letras en minúscula (x1, x2, ..., xn) se usan para las
realizaciones de esta.
3
Con respecto a la media y la varianza muestral, se cumple lo siguiente:
Tanto la esperanza de Xi como la de X es igual a µ. Es decir, E(Xi) = µ;E(X) = µ
Demostración:
Para realizar la demostración, debemos tener en cuenta las propiedades de la espe-
ranza.
E(cX) = c · E(X), con c una constante
E(c+X) = c+ E(X), con c una constante
E(X + Y ) = E(X) + E(Y )
E(X) = E
(
X1 +X2 + ...+Xn
n
)
=
1
n
· E (X1 +X2 + ...+Xn)
=
1
n
· (E(X1) + E(X2) + ...+ E(Xn))
=
1
n
· (µ+ µ+ ...+ µ)
=
1
n
· nµ = µ
La varianza de la variable aleatoria es igual a la varianza poblacional, mientras
que la varianza del promedio muestral está partida por eltotal de datos. Es decir,
V ar(X) = σ2;V ar(X) = σ
2
n
Demostración:
Para realizar la demostración, debemos tener en cuenta las propiedades de la va-
rianza
V ar(cX) = c2 · V ar(X), con c una constante
V ar(c+X) = V ar(X), con c una constante
V ar(X ± Y ) = V ar(X) + V ar(Y )± 2 · Cov(X, Y )
Si X e Y son independientes, Cov(X, Y ) = 0
V ar(X) = V ar
(
X1 +X2 + ...+Xn
n
)
=
1
n2
· V ar (X1 +X2 + ...+Xn)
=
1
n2
· (V ar(X1) + V ar(X2) + ...+ V ar(Xn)) (Cov(X1, ..., Xn) = 0)
=
1
n2
· [n · σ2] = σ
2
n
4
El valor esperado de la varianza muestral es igual a la varianza poblacional. Es decir,
E[S2] = σ2
Demostración:
Partiremos la demostración recordando algunas propiedades de las sumatorias.
(1)
∑n
i=1 c = n · c, con c una constante
(2)
∑n
i=1Xi · c = c ·
∑n
i=1Xi, con c una constante
(3) E[
∑n
i=1Xi] =
∑n
i=1E[Xi]
Le sumamos y restamos µ al término de la sumatoria:
n∑
i=1
(Xi −X)2 =
n∑
i=1
((Xi − µ)− (X − µ))2
Desarrollamos la sumatoria
n∑
i=1
(Xi − µ)2 − 2(X − µ)
n∑
i=1
(Xi − µ) + n · (X − µ)2
Esta expresión resulta al tratar (X − µ) como una constante.
Nota que
n∑
i=1
Xi − µ =
n∑
i=1
Xi −
n∑
i=1
µ =
1
n
n∑
i=1
n ·Xi − n · µ = n · (X − µ)
Luego,
n∑
i=1
(Xi −X)2 =
n∑
i=1
(Xi − µ)2 − n · (X − µ)2
Con esta igualdad, tenemos que:
E(S2) = E(
∑n
i=1(Xi −X)2
n− 1
) = E
(
1
n− 1
(
n∑
i=1
(Xi − µ)2 − n · (X − µ)2
))
=
1
n− 1
(
E(
n∑
i=1
(Xi − µ)2)− n · E((X − µ)2)
)
=
1
n− 1
(
n · σ2 − nσ̇
2
n
)
=
1
n− 1
(n− 1)σ2 = σ2
5
Capítulo 2: Distribuciones y estimadores
3. Teorema del límite central
Sea X1, X2, ..., Xn v.a iid. El teorema del límite central nos dice que tanto la suma co-
mo el promedio muestral provenientes de las v.a, cuando el tamaño de la muestra es
suficientemente grande, puede aproximarse a la distribución normal. Esto es útil cuando
no conocemos la distribución exacta de la suma o promedio de las v.a, o bien cuando
queremos sacar conclusiones utilizando una aproximación proveniente de una distribución
conocida. A medida crece el tamaño de la muestra, mejor es esta aproximación. Por lo
general, se tiene que con un “n” mayor a 30, los datos se ajustan de mejor manera a la
distribución normal.
Entonces, para valores de n grandes,
n∑
i=1
Xi ≈ N(nµ, nσ2) ; X ≈ N(µ,
σ2
n
)
Estandarizando, obtenemos que:
∑n
i=1Xi − nµ√
nσ
≈ N(0, 1) ; X − µσ√
n
≈ N(0, 1)
Nota que hay dos formas de expresar el TLC, una es con la sumatoria de las variables
aleatorias y otra es con el promedio. La única diferencia es que una está dividida por el
total de datos (n). Esto es útil ya que a veces deberás trabajar los datos como un promedio
y a veces como la suma. De todas formas, ambos métodos son equivalentes.
4. Distribuciones derivadas de la Normal y distribucio-
nes muestrales
Antes de definir las distribuciones, debemos entender el concepto de grados de libertad.
Los grados de libertad son el número de observaciones que pueden variar libremente
cuando estimamos los parámetros.
Por ejemplo, supone que quieres obtener una muestra de 3 observaciones la cual su pro-
medio sea igual a 5. En este caso, tu tienes la libertad de elegir dos valores de manera
arbitraria, sin embargo, el tercer valor se obtiene de manera determinística. Si tu eliges
el número 4 y el número 5, la única manera en la cual el promedio sea igual a 5 es que el
tercer número sea igual a 6. Por lo tanto, podemos decir que este experimento tiene dos
grados de libertad.
De manera general, si conocemos la media de n valores, podemos elegir de forma aleatoria
n-1 datos, mientras que el último se elige de manera automática. Por lo mismo, la variable
aleatoria (la media) tendrá n-1 grados de libertad.
A medida tenemos mayor información de la población (lo cual se obtiene aumentando el
tamaño de la muestra n), mayor son los grados de libertad.
6
4.1. Chi cuadrado(χ2)
Si Z distribuye normal estándar, entonces U = Z2 distribuye chi-cuadrado con 1 grado
de libertad. Si U1, U2, ..., Un son v.a independientes, con Ui ∼ χ2(1), entonces V =
U1 + U2 + ...+ Un ∼ χ2(n)
El gráfico de la distribución cambiará según los grados de libertad que esta tenga.
Figura 1: Chi-cuadrado con k grados de libertad
4.2. T-student t(n)
Si Z ∼ N(0, 1) y U ∼ χ2(n), las cuales son variables aleatorias independientes entre sí,
entonces:
T =
Z√
U/n
∼ t(n)
La distribución t-student es simétrica y también cambia según sus grados de libertad.
Esta surge de la necesidad de estimar parámetros al tener una muestra pequeña (lo que
implica que la estimación por TLC no es útil).
Figura 2: t-student con k grados de libertad
7
4.3. F de Fisher F (m,n)
Si U y V son variables aleatorias independientes con distribución chi-cuadrado, con m y
n grados de libertad respectivamente, entonces:
F =
U/m
V/n
∼ Fm,n
Esta distribución tiene dos grados de libertad distintos. Uno corresponde a los grados de
libertad del numerador (m) y el otro el del denominador (n). El cambio de cualquiera de
estos g.l. hace cambiar la forma de la distribución.
Figura 3: chi-cuadrado con d1 y d2 grados de libertad
4.4. Media muestral
Sea X1, X2, ..., Xn variables aleatorias independientes que distribuyen N(µ, σ2), entonces:
X ∼ N(µ,
σ2
n
)
La demostración está en el capítulo 1 de este apunte.
Corolario: X es independiente de S2. La demostración es complicada de entender y no
es necesaria aprenderla. Lo que sí es importante es tener en cuenta esta relación.
8
4.5. Caso particular: χ2n−1
Sea S2 la varianza muestral, σ2 la varianza poblacional y n el tamaño de la muestra.
Tenemos que:
S2(n− 1)
σ2
∼ χ2n−1
Demostración:
S2(n− 1)
σ2
=
(n− 1)
∑n
i=1(Xi −X)2
(n− 1)σ2
=
∑n
i=1(Xi −X)2
σ2
En el capítulo 1 demostramos que
∑n
i=1(Xi −X)2 =
∑n
i=1(Xi − µ)2 − n · (X − µ)2
Reordenando la igualdad, tenemos que
∑n
i=1(Xi − µ)2 =
∑n
i=1(Xi −X)2 + n · (X − µ)2
Dividimos en ambos lados por σ2,
n∑
i=1
(
Xi − µ
σ
)2
=
∑n
i=1(Xi −X)2
σ2
+
(
X − µ
σ/
√
n
)2
Notamos que el término izquierdo es una chi cuadrado con n grados de libertad, mientras
que el segundo término de la derecha distribuye chi cuadrado con 1 grado de libertad.
Como cada término es independiente entre sí, tenemos que χ2n = χ2n−1 + χ21. Por lo tanto,
para cumplir la igualdad, el término buscado necesariamente debe distribuir chi cuadrado
con n-1 grados de libertad.
4.6. Caso particular: tn−1
Sea U = S
2(n−1)
σ2
∼ χ2n−1 y Z =
X−µ
σ/
√
n
∼ N(0, 1) independientes entre sí. Utilizando la
definición de t-student vista anteriormente, tenemos que:
T
Z√
U
n−1
=
X−µ
σ/
√
n√
S2(n−1)
σ2(n−1)
=
X − µ
S/
√
n
∼ tn−1
9
4.7. EXTRA: ¿Cómo leer las tablas acumuladas?
10
4.8. EXTRA: Teorema de transformación de variables aleatorias
Sea X una variable aleatoria e Y=g(X) es una transformación lineal, la función de densidad
de la variable aleatoria Y está dada por:
fY (y) = fx(g
−1(y))| d
dy
g−1(y)|
Demostración:
Para realizar esta demostración, partimos trabajando con la función de distribución de Y
(que es lo mismo que decir función acumulada). Esta la denotaremos como FY (Y ) (con F
mayúscula).
FY (Y ) = P (Y ≤ y) = P (g(x) ≤ y)
Como es una transformación lineal, se puede trabajar la función de g(x) y despejar el
valor de x dentro de la expresión de la probabilidad. Este despeje varía dependiendo de
si la función g(x) es creciente o decreciente.
Si es creciente, queda:
FY (Y ) = P (x ≤ g−1(y)) = Fx(g−1(y))
Si es decreciente, queda:
FY (Y ) = P (x > g
−1(y)) = 1− Fx(g−1(y))
Luego, utilizando los conocimientos que tenemos del curso de probabilidad, sabemos que
la derivada de una función de distribución es igual a la función de densidad. Por lo tanto,
procedemos a derivar.
Si es creciente, queda:
F ′Y (Y ) = (Fx(g
−1(y))′ = (Fx(g
−1(y)))′(g−1(y))′
Si es decreciente, queda:
F ′Y (Y ) = (1− Fx(g−1(y))′ = (Fx(g−1(y)))′ · −(g−1(y))′
Cuando es decreciente, (g−1(y))′ < 0, lo que hace que la multiplicación sea siempre posi-
tiva. Por lo tanto, podemos expresarlo de manera general con valor absoluto:
fY (y) = fx(g
−1(y))| d
dy
g−1(y)|
115. Estimación puntual
A continuación, presentaremos dos métodos distintos para obtener una estimación de un
parámetro poblacional a partir de la información de una muestra.
5.1. Estimador de momentos (EM)
Lo que hacemos en este método es igualar los momentos poblacionales con los momentos
muestrales para luego obtener la estimación del parámetro.
Momento poblacional: E(Xk)
Momento Muestral: 1
n
∑n
i=1 x
k
i
La idea es la siguiente. Supongamos tenemos distintas muestras aleatorias que siguen los
supuestos que ya hemos mencionado. Siendo más específicos, supongamos queX1, X2, ..., Xn
son un m.a.s (muestras aleatorias simples) que provienen de una población X, la cual tie-
ne una función de distribución de probabilidad f(x, θ) = f(x, θ1, θ2, ..., θm) (esta última
igualdad es para indicar que la f.d.p puede tener distintos parámetros, en este caso, m
parámetros). Dado lo anterior, los EM de los m parámetros corresponde a las soluciones
del sistema de ecuaciones:
E(Xk) = Xk, con k = 1, 2, ..., n
Ejemplos:
Sean X1, ..., Xn una m.a.s de una población X ∼ f(y, θ)
1.- si f(x, θ) = Bernoulli(π). Encuentre el EM.
Para calcular el EM, debemos igualar el momento poblacional con el momento muestral.
E(X) =
1
n
n∑
i=1
xi → π̂ = x
Por lo tanto, por el método de EM, un estimador del parámetro π es el promedio muestral.
El valor de E(X) para cada distribución lo pueden encontrar en el formulario.
2.- si f(x, θ) = Poisson(λ). Encuentre el EM.
E(X) =
1
n
n∑
i=1
xi → λ̂ = x
3.- si f(x, θ) = Exp(λ). Encuentre el EM.
E(X) =
1
n
n∑
i=1
xi →
1
λ
= x → λ̂MM =
1
x
12
La notación que se utiliza para expresar una estimación es agregar un gorro arriba de la
expresión del parámetro. En general, se le agrega MM abajo para diferenciarla de otros
métodos de estimación.
4.- si f(x, θ) = N(µ, σ2). Encuentre el EM de ambos parámetros.
En este caso, necesitamos estimar dos parámetros a la vez. Por lo mismo, tendremos un
sistema de ecuaciones de 2x2. Si te fijas, ahora entra en juego los "k"momentos, los cuales
coinciden con el número de parámetros que necesitamos estimar.
E(X) = x
E(X2) = x2
De la primera ecuación, obtenemos que:
E(X) =
1
n
n∑
i=1
xi → µ̂ = x
De la segunda ecuación, observamos que en el formulario no tenemos información directa
para obtener el valor de E(X2). Sin embargo, podemos ocupar nuestro conocimiento
previo para obtener ese valor.
Sabemos que:
V ar(X) = E(X2)− E(X)2 = σ2
Despejando, obtenemos que:
E(X2) = V ar(X) + E(X)2 = σ2 + µ2 = σ2 + x2
Igualando el momento muestral con el poblacional:
σ2 + x2 = x2
σ̂2 = x2 − x2
σ̂2 =
1
n
n∑
i=1
x2i −
(
1
n
n∑
i=1
xi
)2
σ̂2MM =
1
n
n∑
i=1
(xi − x)2
5.- si f(x, θ) = U(0, θ). Encuentre el EM.
E(X) =
1
n
n∑
i=1
xi →
θ
2
= x → θ̂MM = 2x
13
5.2. Estimador de máxima verosimilitud (EMV)
El EMV es un método de estimación que busca encontrar un estimador para nuestro
parámetro desconocido maximizando la función de verosimilitud.
La función de verosimilitud es una función de probabilidad que está en función de los
parámetros de interés. Supongamos que (Y1, Y2, .., Yn) son v.a con función de densidad
conjunta dada por f(y1, ..., yn, θ). Se define la función de verosimilitud como:
L(θ) = f(y1, y2, ..., yn, θ)
Es decir, lo que nosotros hacemos es elegir un θ que maximice esta función.
máx
θ
f(y1, y2, ..., yn, θ)
θ̂ = arg máx
θ
L(θ)
Ejemplo
Encuentra el EMV del parámetro θ perteneciente a la siguiente función:
f(x) =
{
2θ · x · exp(−θ · x2) si x ≥ 0
0 otro caso
Para maximizar esta función, debemos ver la siguiente propiedad.
♦ Si (Y1, Y2, .., Yn) son v.a independientes entre sí con función de densidad conjunta dada
por f(Y1, ..., Yn, θ). Entonces:
f(y1, ..., yn, θ) = f(y1, θ) · f(y2, θ) · · · f(yn, θ)
Esto es útil, ya que de esta manera es más fácil obtener la maximización de la función.
Ahora, la función a maximizar es:
máx
θ
f(y1, y2, ..., yn, θ) = máx
θ
n∏
i=1
f(yi, θ)
¿Por qué expresarlo de esta manera hace más fácil la maximización? Esto se debe a que,
cuando tenemos una función de probabilidad como esta, el valor de theta que la maximiza
es el mismo que maximiza el logaritmo natural de este. Es decir:
θ̂ = arg máx
θ
L(θ) = arg máx
θ
Ln(L(θ))
Ahora, como la función que estamos maximizando son una serie de multiplicaciones,
podemos aplicar las propiedades de los logaritmos para simplificar la expresión a sumas
y restas. Además, las derivadas también se hacen más simples.
14
Siguiendo con el ejemplo, aplicamos logaritmo natural y utilizamos propiedades para
simplificar el desarrollo:
Ln(L(θ)) = Ln(
n∏
i=1
2θ · xi · exp(−θ · x2i ))
Propiedad:
∏n
i=1 c = c
n, con c una constante
Ln
(
(2θ)n
n∏
i=1
xi · exp(−θ · x2i )
)
Propiedad:
∏n
i=1 aibi =
∏n
i=1 ai ·
∏n
i=1 bi
Ln
(
(2θ)n
n∏
i=1
xi ·
n∏
i=1
exp(−θ · x2i )
)
Propiedad: Ln(a · b) = Ln(a) + Ln(b)
Ln ((2θ)n) + ln
(
n∏
i=1
xi
)
+ ln
(
n∏
i=1
exp(−θ · x2i )
)
Nota que:
Ln
(
n∏
i=1
xi
)
= Ln(x1 · x2 · · · xn) = Ln(x1) + Ln(x2) + ...+ Ln(xn) =
n∑
i=1
Ln(xi)
Entonces:
= n · Ln(2θ) +
n∑
i=1
Ln(xi) +
n∑
i=1
−θx2i
Ahora que tenemos una expresión simplificada, procedemos a derivar e igualar a cero:
∂ln(L(θ))
∂θ
=
n
θ
−
n∑
i=1
x2i = 0
Despejando theta, obtenemos que:
θ̂EMV =
1
x2
15
Cuando uno hace un EMV, debe manejar los distintos “trucos” o propiedades para expresar
la función de verosimilitud de una forma más simple. En el ejercicio anterior se muestra
las propiedades utilizadas para cada paso. De manera ordenada:
(1)
∏n
i=1 c = c
n, con c una constante
(2)
∏n
i=1 aibi =
∏n
i=1 ai ·
∏n
i=1 bi
(3) Ln(a · b) = Ln(a) + Ln(b)
(4) Ln (
∏n
i=1 f(xi, θ)) =
∑n
i=1 Ln(f(xi, θ))
(5) Ln (
∏n
i=1 e
xi) =
∑n
i=1 xi
No hay solo una forma para llegar al resultado. Perfectamente podrías hacer el desarrollo
de forma distinta y llegar a la misma respuesta. Lo importante aquí es entender por
qué cada igualdad es cierta. Como consejo, desarrolla cada una de las propiedades por tu
cuenta (demuéstralas). Así después no vas a necesitar ver las propiedades en un formulario
para poder realizar el ejercicio, ya que las tendrás interiorizadas.
Ejemplo (Prueba 1 - 2020-2)
Calcular el EMV del parámetro theta de la siguiente función de probabilidad:
f(Y ) =
(
eθ
1 + eθ
)Y (
1
1 + eθ
)1−Y
Sigamos los pasos. Primero, expresemos la función de verosimilitud con la pitatoria:
L(θ) =
n∏
i=1
(
eθ
1 + eθ
)Yi ( 1
1 + eθ
)1−Yi
Luego, utilizamos las propiedades que mencionamos anteriormente
ln(L(θ)) = Ln
(
n∏
i=1
eθYi
(1 + eθ)Yi
· 1
(1 + eθ)1−Yi
)
= Ln
(
n∏
i=1
eθYi
(1 + eθ)
)
Aplicamos (1)
= Ln
(
n∏
i=1
eθYi
(1 + eθ)
)
= Ln
(
1
(1 + eθ)n
n∏
i=1
eθYi
)
Aplicamos (3) y (5)
= Ln
(
1
(1 + eθ)n
)
+ Ln
(
n∏
i=1
eθYi
)
= −n · Ln(1 + eθ) +
n∑
i=1
θYi
Ya teniendo una forma simplificada de la función de verosimilitud, procedemos a derivar
e igualar a cero (es decir, maximizar):
16
∂ln(L(θ))
∂θ
= −n · e
θ
1 + eθ
+
n∑
i=1
Yi = 0
Ahora, lo último que nos queda es despejar el parámetro de interés:
→ n · e
θ
1 + eθ
=
n∑
i=1
Yi → n · eθ = (1 + eθ)
n∑
i=1
Yi
→ n · eθ − eθ
n∑
i=1
Yi =
n∑
i=1
Yi → eθ =
∑n
i=1 Yi
n−
∑n
i=1 Yi
θ̂EMV = Ln
( ∑n
i=1 Yi
n−
∑n
i=1 Yi
)
= Ln
(
Y
1− Y
)
17
5.3. EXTRA: Distribución máximo
Sea (X1, X2, .., Xn) v.a iid, con función acumulada F (x) y función de densidad f(x). La
variable aleatoria que define el máximo está dada por:
Y = max(X1, X2, .., Xn)
Para encontrar la función de distribución de esta variable, debemos seguir los siguientes
pasos.
Lo primero es partir trabajando la función de distribución de la variable aleatoria Y
(función de distribución = función acumulada), la cual definiremos como G(y). Tenemos
que:
G(y) = P (Y ≤ y)
G(y) = P (max(X1, X2, .., Xn) ≤ y)
Como buscamos que el máximo valor dentro del conjunto de las variables aleatorias sea
menor que un cierto valor “y”, se debe cumplir que todos los valores sean menores que el
valor de “y”. Es decir:
G(y) = P (X1 ≤ y,X2 ≤ y, ..., Xn ≤ y)
Como las variablesaleatorias son independientes entre sí, podemos ocupar la propiedad
que utilizamos anteriormente, que es expresar esta probabilidad acumulada como la mul-
tiplicación de las probabilidades por separado.
G(y) = P (X1 ≤ y) · P (X2 ≤ y) · · · P (Xn ≤ y)
Como las variables aleatorias tienen la misma distribución, la probabilidad que buscamos
para cada una de ellas debe ser la misma.
G(y) = P (Xi ≤ y)n
G(y) = F (y)n
Es decir, la función acumulada de la variable aleatoria Y es igual a la función acumulada
de la variable aleatoria X evaluada en y, todo elevado a n.
Por los cursos de probabilidad, sabemos que la derivada de la función acumulada de una
variable aleatoria da como resultado la función de densidad de la misma. Por lo mismo,
derivamos aplicando regla de la cadena, y obtenemos que:
G′(y) = (F (y)n)′ = n(F (y))n−1 · (F (y))′
g(y) = n(F (y))n−1f(y)
18
6. Propiedades de los estimadores
Los métodos de estimación puntual nos dan técnicas para encontrar estimadores para un
parámetro desconocido. Sin embargo, puede pasar que según el método de estimación que
ocupemos, estos nos entreguen estimadores diferentes para un mismo parámetro. Por lo
mismo, debemos ver distintos criterios y propiedades con el fin de elegir el mejor estimador
posible.
6.1. Estimador Insesgado (E.I)
Un estimador es insesgado si y solo si el valor esperado del estimador es igual al parámetro.
Es decir:
E(θ̂) = θ
Cuando un estimador es insesgado, quiere decir que al momento de realizar una estimación,
este tendrá una mayor probabilidad de representar al parámetro poblacional. Si por el
contrario el estimador encontrado llegase a ser sesgado, hay mayor probabilidad de que
la estimación esté lejana al valor que buscamos, lo cual no sería favorable.
El sesgo es la diferencia entre la esperanza del estimador y el parámetro. Se representa
como B(θ̂) = E(θ̂)− θ
6.2. Estimador Asintóticamente insesgado (EAI)
El estimador es asintóticamente insesgado si y solo si:
ĺım
θ→∞
(E(θ̂)) = θ
Supongamos tenemos un estimador que es sesgado. Esto es un problema, ya que al hacer
la estimación tenemos una mayor probabilidad de alejarnos del parámetro buscado. Sin
embargo, hay estimadores que a medida aumentamos el tamaño de la muestra, menor
es este sesgo. De aquí surge la importancia del concepto del EAI. Cuando un estimador
es asintóticamente insesgado, quiere decir que en muestras grandes, la esperanza E(θ̂)
converge a θ, lo cual es una solución cuando necesitemos trabajar con este.
Es importante entender que un estimador puede ser sesgado y al mismo tiempo ser asintó-
ticamente insesgado. Sin embargo, el hecho de que sea A.I no quiere decir que el estimador
sea sesgado.
19
6.3. Error cuadrático medio (ECM)
Al momento de analizar un estimador, es importante ver si es que este es insesgado
o no. Sin embargo, esto no es lo único que importa al decidir sobre lo bueno que es un
estimador. También es importante analizar la varianza que tiene la función de distribución
del estimador. Esto es así ya que, por ejemplo, un estimador podría ser insesgado pero
al mismo tiempo tener una gran varianza, lo cual aumenta la probabilidad de que las
muestras obtenidas estén alejadas del valor real del parámetro.
Por lo mismo, surge el concepto de ECM. Este mide el promedio de los errores al cuadrado,
es decir, la diferencia entre el estimador y el parámetro desconocido. Matemáticamente
lo podemos ver de la siguiente manera:
ECM(θ̂) = E[(θ̂ − θ)2]
Realizamos un trabajo matemático para poder encontrar este valor más fácilmente:
E[(θ̂ − θ)2] = E[(θ̂ − E(θ̂) + E(θ̂)− θ)2]
= E[(θ̂ − E(θ̂))2]− 2E(θ̂ − E(θ̂)) · E(θ − E(θ̂)) + E[(E(θ̂)− θ)2]
Nota que E(θ̂ − E(θ̂)) = E(θ̂)− E(E(θ̂)) = E(θ̂)− E(θ̂) = 0
Entonces,
ECM(θ̂) = E[(θ̂ − E(θ̂))2] + E[(E(θ̂)− θ)2]
ECM(θ̂) = V ar(θ̂) +B2(θ̂)
Si un estimador es insesgado, entonces ECM(θ̂) = V ar(θ̂)
Al querer buscar el mejor estimador, no basta con solo ver el sesgo. Debemos buscar mi-
nimizar el error cuadrático medio. θ̂1 es mejor estimador que θ̂2 si ECM(θ̂1) ≤ ECM(θ̂2).
Es decir, al comparar dos estimadores, el que es insesgado no es necesariamente mejor.
6.4. Estimador óptimo
Un estimador θ̂ es un estimador óptimo para el parámetro θ si y solo si ECM(θ̂) es el
mínimo posible. Cuando un estimador es insesgado y de mínima varianza, se considera
EIMV (Estimador Insesgado de Mínima Varianza). Además, si θ̂ es un estimador lineal y
es EIMV, se dice que es ELIO (Estimador Lineal Insesgado Óptimo).
20
Teorema de Gauss Markov: Sea Y una variable aleatoria. Si E(Y ) = µ 6= 0 y
V ar(Y ) = σ2, entonces µ̂ = Y es ELIO. Es decir, Y es el mejor estimador de la media
poblacional.
6.5. Invarianza
Se dice que un estimador θ̂ es invariante a una transformación g(x) si g(θ̂) conserva
la misma propiedad de estimador para g(θ). En términos simples, si θ̂ es el estimador
del parámetro θ, entonces es invariante si g(θ̂) es el estimador de la transformación del
parámetro g(θ).
Ejemplo: El insesgamiento es invariante a una transformación lineal, pero no a una
transformación cuadrática.
Supongamos el estimador es θ̂ y la transformación g(θ̂) = θ̂ + 1. Si E(θ̂) = θ (insesgado),
entonces E(g(θ̂)) = E(θ̂ + 1) = E(θ̂) + 1 = θ + 1 (insesgado). Es decir, la propiedad de
insesgamiento se mantuvo para esta transformación.
La invarianza es importante cuando necesitamos calcular el estimador de una transforma-
ción sin necesidad de hacer un proceso más complicado.
Supongamos tenemos una función f(y, θ) y nos piden calcular un estimador de máxima
verosimilitud para θ
2
. Con la propiedad de la invarianza en mente, una forma de resolver
este ejercicio es encontrar el EMV para θ y luego dividirlo por 2 para encontrar el valor
pedido. Esto es válido ya que esta transformación mantiene las propiedades del EMV
requeridas para el estimador.
Ejercicio.
(a) Para estimar un parámetro θ̂, dos investigadores proponen dos estimadores, ambos
independientes e insesgados.
Investigador 1: θ̂1 = 5 ; V ar(θ̂1) = 8
Investigador 2: θ̂2 = 6 ; V ar(θ̂2) = 4
y la profesora propone θ̂3 = (θ̂1 + θ̂2)/2 = 5.5
a.1) ¿Cuál estimador escoge usted?
a.2) Considere ahora θ̂4 = a · θ̂1 + (1− a) · θ̂2. Demuestra que este estimador es insesgado.
a.3) ¿Que valor de a elige usted?
a.4) Suponga que θ̂1 y θ̂2 no son independientes, y que Cov(θ̂1, θ̂2) = 4. ¿Qué estimador
escogería?
Solución:
a.1) Calculemos la esperanza y varianza del estimador 3.
♦ E(θ̂3) = E( θ̂1+θ̂22 ) = (1/2)E(θ̂1) + (1/2)E(θ̂2) = 0.5θ + 0.5θ = θ
21
♦Var(θ̂3) = V ar( θ̂1+θ̂22 ) = (1/4)V ar(θ̂1) + (1/4)V ar(θ̂2) = (1/4) · 8 + (1/4) · 4 = 3
Al ser todos insesgados, debemos elegir según la varianza (ya que queremos minimizar el
ECM). Escogemos θ̂3 ya que tiene la menor varianza entre los tres.
a.2) Procedemos a calcular:
E(θ̂4) = E(a · θ̂1 + (1− a) · θ̂2) = E(a · θ̂1) + E((1− a) · θ̂2) = a · θ + θ − a · θ = θ
Luego, θ̂4 es insesgado.
a.3) Debemos buscar un valor de a que minimice la varianza. Esto es válido porque el
estimador es insesgado. Si fuese sesgado, habría que minimizar los dos términos del ECM,
es decir, considerar la varianza y el valor del sesgo en el análisis.
V ar(θ̂4) = V ar(a · θ̂1 + (1− a) · θ̂2) = a2 ·V ar(θ̂1) + (1− a)2 ·V ar(θ̂2) = a2 · 8 + (1− a)2 · 4
Ahora, minimizamos la varianza.
∂V ar(θ̂4)
∂a
= 16 · a− 8(1− a) = 0→ a = 1
3
a.4) Con esta nueva información, tenemos que:
V ar(θ̂1 + θ̂2) = V ar(θ̂1) + V ar(θ̂2) + 2 · Cov(θ̂1, θ̂2)
V ar(θ̂3) = (1/4)V ar(θ̂1 + θ̂2) = (1/4)[8 + 4 + 2 · 4]
V ar(θ̂3) = (1/4) · 20 = 5
Por lo tanto, escogemos θ̂2, ya que tiene el menor ECM entre los tres.
22
6.6. Consistencia
Consistencia Fuerte
θ̂ es consistente para estimar θ si y solo si:
ĺım
n→∞
ECM(θ̂) = 0
Esto sucede cuando θ̂ es asintóticamente insesgado y, al mismo tiempo, ĺımn→∞ V ar(θ̂) = 0
La consistencia es invariante si se cumple que θ̂ es consistente y que g(θ) es una función
continua en θ. Es decir, si esto se cumple, g(θ̂) también es consistente.
Nota: V ar(g(θ̂)) ≈ V ar(θ̂) ·
(
∂g(θ)
∂θ
)2
Demostración:
Usando Taylor: f(x) ≈f(x0) + f ′(x0)(x− x0)
g(θ̂) ≈ g(θ) + g′(θ)(θ̂ − θ)
V ar(g(θ̂)) ≈ V ar(g(θ) + g′(θ)(θ̂ − θ))
≈ V ar(g′(θ)(θ̂ − θ)) Esto ya que g(θ) es una constante a θ̂
≈ g′(θ)2 · V ar(θ̂ − θ)
≈ g′(θ)2 · V ar(θ̂)
Consistencia Débil
Un estimador θ̂ es débilmente consistente ssi:
ĺım
n→∞
p(|θ̂ − θ| ≥ �) = 0 ⇐⇒ ĺım
n→∞
p(|θ̂ − θ| ≤ �) = 1 ∀� > 0
7. Propiedades de los EMV
→ Asintóticamente insesgados
→ Consistentes
→ Distribución asintótica θ̂ ∼ N(θ, CCR(θ))
→ Invarianza g(θ̂) ∼ N
(
g(θ), CCR(θ) ·
(
∂g(θ)
∂θ
)2)
, solo si g(θ) es una función conti-
nua de θ
23
7.1. Cota Cramer Rao
La cota Crámer Rao determina el menor valor que puede tomar la varianza de un ELIO.
Esta es igual a la inversa de la información de Fisher.
CCR(θ) =
1
I(θ)
La información de Fisher se puede obtener de las siguientes maneras:
I(θ) = E
(
∂ln(L(θ))
∂θ
)2
= n · E
(
∂ln(f(Y, θ))
∂θ
)2
Bajo ciertas condiciones (El soporte de Y no depende de θ), se tiene que:
I(θ) = −E
(
∂2ln(L(θ))
∂θ2
)
= −n · E
(
∂2ln(f(Y, θ))
∂θ2
)
Las fórmulas más importantes que se tienen que aprender son las que dependen de L(θ)
La cota crámer Rao nos va a servir mucho cuando necesitemos obtener la distribución
asintótica de un estimador máximo verosímil. Con esta información, podemos realizar
cálculos de probabilidad estimada cuando nos lo pidan.
Ejemplo
Sea X1, X2, ..., Xn una muestra aleatoria proveniente de la distribución Bernoulli(π).
a) Calcule el EMV y determine su distribución asintótica.
b) Si x = 0,5 y n=25, Calcule P (π̂ ≤ 0,304)
Solución
a) Una alternativa para llegar al EMV del parámetro de la Bernoulli es maximizar la
distribución binomial, sin realizar la pitatoria. Esto sucede ya que la distribución binomial
es una construcción de varias muestras Bernoulli, lo que nos permite maximizar como
queremos. Para eso, hay que plantear la distribución binomial utilizando las variables
aleatorias planteadas como bernoulli.
L(π) =
(
n∑n
i=1 xi
)
π
∑n
i=1 xi · (1− π)n−
∑n
i=1 xi
Aplicamos Logaritmo natural
Ln(L(π)) = Ln
((
n∑n
i=1 xi
))
+
n∑
i=1
xi · Ln(π) + (n−
n∑
i=1
xi) · Ln(1− π)
Derivamos
∂Ln(L(π))
∂π
=
∑n
i=1 xi
π
− (n−
∑n
i=1 xi)
1− π
= 0
Despejamos y llegamos a que π̂ = x
24
Sabemos que la distribución asintótica del estimador es
π̂ ∼ N(π,CCR(π))
Por lo tanto, debemos buscar la CCR. Para eso, vamos a calcular la información de Fisher
I(π) = −E
(
∂2ln(L(π))
∂π2
)
∂ln(L(π))
∂π
=
∑n
i=1 xi
π
− n−
∑n
i=1 xi
1− π
∂2ln(L(π))
∂π2
= −
∑n
i=1 xi
π2
− n−
∑n
i=1 xi
(1− π)2
I(π) = E
(∑n
i=1 xi
π2
)
+ E
(
n−
∑n
i=1 xi
π2
)
I(π) =
1
π2
n∑
i=1
E (xi) +
n−
∑n
i=1E(xi)
(1− π)2
I(π) =
1
π2
n∑
i=1
π +
n−
∑n
i=1 π
(1− π)2
I(π) =
nπ
π2
+
n− nπ
(1− π)2
=
n
pi
+
n
1− π
=
n
π(1− π)
Ojo que lo que acabamos de calcular es la Información de Fisher. Lo que necesitamos es
la CCR, por lo que ahora debemos calcular el inverso de I
CCR(π) =
π(1− π)
n
Por lo tanto, la distribución asintótica del estimador es:
π̂ ∼ N
(
π,
π(1− π)
n
)
b) Ahora que conocemos la distribución, podemos calcular la probabilidad pedida.
P (π̂ ≤ 0,304) = P
 π̂ − π√
π(1−π)
n
≤ 0,304− π√
π(1−π)
n
 = P
Z ≤ 0,304− π√
π(1−π)
n

En este punto nos encontramos con un problema, ya que estamos intentando calcular una
probabilidad con un término desconocido (π). Como no lo conocemos, lo que debemos
hacer es calcular la probabilidad estimada, la cual la obtenemos reemplazando los
valores de π con los de π̂
25
Reemplazando,
̂P (π̂ ≤ 0,304) = P
Z ≤ 0,304− 0,5√
0,5(1−0,5)
25
 = Φ(−1,96)
Buscando en la tabla acumulada de la normal estándar, encontramos que Φ(1,96) = 0, 975.
Por lo tanto:
̂P (π̂ ≤ 0,304) = 1− Φ(1,96) = 0,025 = 2,5 %
26

Otros materiales