Logo Studenta

TEstadistica4 - ANETTE RACHEL PINACHO MATIAS

¡Este material tiene más páginas!

Vista previa del material en texto

Teoŕıa Estad́ıstica
Notas del curso (en proceso)
Licenciatura en Matemáticas
Depto. de Matemáticas
Cs. Básicas, CUCEI.
Rubén Sánchez Gómez
Introducción a estimación puntual
Con base en los conceptos de teoŕıa de probabilidad, la estad́ıstica provee técnicas
que permiten obtener conclusiones generales a partir de un conjunto limitado –pero
representativo– de datos. Cuando se hace inferencia no se tiene garant́ıa de que la conclusión
que obtenemos sea exactamente correcta. Sin embargo, la estad́ıstica permite cuantificar el
error asociado a la estimación.
La mayoŕıa de los modelos de probabilidad incluyen cierto número de parámetros,
generalmente desconocidos y que se deben estimar a partir de una muestra. De esta forma,
si de un modelo de probabilidad f(x; ✓) con parámetro ✓, se tienen n valores observados
x1, x2, . . . , xn entonces, se puede obtener una estimación de ✓, digamos ✓̂ como función gf de
los valores observados, es decir
b✓ = gf (x1, x2, . . . , xn).
A b✓ se le conoce como estad́ıstico o estimador de ✓ para el modelo de probabilidad f(x; ✓).
Criterios de evaluación
Tomando como punto de partida la definición de un estimador, evidentemente existe más de
una alternativa para gf (x1, x2, . . . , xn). Por tanto, se deben establecer criterios que permitan
evaluar, entre las infinitas posibilidades, aquellos que muestren las “mejores” propiedades.
Def. 1 (Error Cuadrado Medio). Para un estimador T arbitrario de un parámetro
desconocido ✓, el error cuadrado medio (ECM) está dado por ECM(T ) = E(T � ✓)2 o
bien, desarrollando el cuadrado resulta
ECM(T ) = V ar(T ) +
�
✓ � E[T ]
�
2
.
De modo que, para dos estimadores de ✓, T1 y T2, si ECM(T1) < ECM(T2) entonces T1 es
mejor que T2 en términos de ECM .
Def. 2 (Sesgo). A la diferencia ✓ � E[T ] se le conoce como sesgo de T y se dice que un
estimador es insesgado si E[T ] = ✓.
Es evidente que si un estimador T es insesgado, entonces ECM(T ) = V ar(T ) y por tal,
un estimador insesgado será preferible a uno sesgado en términos del ECM .
101
102 4
Además, la varianza de un estimador insesgado será la cantidad más importante para
decidir qué tan “bueno” es un estimador del parámetro ✓ de modo que, para los estimadores
T1 y T2, el criterio de decisión se reduce a comprar sus varianzas y en caso de que
V ar(T1) < V ar(T2), T1 será un estimador más eficiente.
Def. 3 (Estimador insesgado de mı́nima varianza). Para una muestra aleatoria x1, . . . , xn de
una densidad de probabilidad fX(x; ✓). Si un estimador T con ET = ✓ es tal que su V ar(T )
es menor que la varianza de cualquier otro estimador insesgado de ✓, se dice entonces que T
es un estimador insesgado de mı́nima varianza de ✓.
Ejem. 1. Sea X1, X2, . . . , Xn una muestra ordenada en forma creciente i.i.d., con valor
esperado µ = EX < 1 y varianza �2 = E
⇥
(X � EX)2
⇤
< 1 y sean T1 =
1
n
nX
k=1
Xk
(promedio de la muestra), T2 =
1
n� 2
n�1X
k=2
Xk (promedio de la muestra sin los extremos).
Aśı, se puede ver que (por linealidad)
⇤ ET1 = E
"
1
n
nX
k=1
Xk
#
=
1
n
nX
k=1
EXk =
1
n
nX
k=1
µ =
1
n
nµ = µ
⇤ ET2 = E
"
1
n� 2
n�1X
k=2
Xk
#
=
1
n� 2
n�2X
k=2
EXk =
1
n� 2
n�2X
k=2
µ =
1
n� 2(n� 2)µ = µ.
Por tanto, ambos estimadores son insesgados ya que µ � ET1 = µ � µ = 0 y
µ� ET2 = µ� µ = 0.
Además, dado que los Xk son i.i.d., se tiene que
⇤ V ar(T1) = V ar
"
1
n
nX
k=1
Xk
#
=
1
n2
nX
k=1
V ar(Xk) =
1
n2
nX
k=1
�
2 =
1
n2
n�
2 =
�
2
n
⇤ V ar(T2) = V ar
"
1
n� 2
n�1X
k=2
Xk
#
=
1
(n� 2)2
n�2X
k=2
V ar(Xk)
=
1
(n� 2)2
n�2X
k=2
�
2 =
1
(n� 2)2 (n� 2)�
2 =
�
2
n� 2 .
Luego, se tiene que
�
2
n
= V ar(T1) < V ar(T2) =
�
2
n� 2 y aśı
ECM(T1) = V ar(T1)+
�
µ�E[T1]
�
2
=
�
2
n
< ECM(T2) = V ar(T2)+
�
µ�E[T2]
�
2
=
�
2
n� 2 ,
103 4
de donde se concluye que T1 es mejor estimador que T2 (tiene menor error cuarado
medio).
Teo. 1 (Desigualdad de Cramér–Rao). Sea x1, . . . , xn una muestra de una población con
densidad fX(x; ✓). Si T es un estimador insesgado de ✓ entonces
V ar(T ) � 1
nE
"✓
@ log f(X; ✓)
@✓
◆
2
#
Antes de mostrar el teorema, consideremos el siguiente paréntesis:
Teo. 2 (Diferenciando bajo el operador integral). Sea f(t, x) : IRn+1 ! IR una función tal
que para cada t fijo, existe la integral
F (t) =
Z
IRn
f(t, x) dx1 · · · dxn.
Para todo x, suponga que @f/@t existe y que hay una función Riemann integrable g(x) tal
que ����
f(s, x)� f(t, x)
s� t
����  g(x)
para todo s 6= t. Entonces, F es diferenciable y
dF (t)
dt
=
Z
IRn
@f(t, x)
@t
dx1 · · · dxn
La demostración detallada se puede encontrar en Hubbard & Hubbard (2002)2 y se puede
obtener mediante la definición de la derivada de una función.
Mostrando la desigualdad de Cramér–Rao. Para llegar a la demostración, recordemos que
si la función de densidad de una población continua o discreta es fX(x|✓), la función de
verosimilitud (propuesta por Fisher en 1921) de una muestra de tamaño n queda descrita
como
L = L(x1, . . . , xn|✓) =
nY
k=1
f(xk|✓).
Dado que L es una función de densidad conjunta, es evidente que
Z
· · ·
Z
L dx1 · · · dxn = 1 (4.5)
Supongamos ahora que las dos primeras derivadas de L respecto a ✓ existen para todo ✓, de
modo que; diferenciando en ambos lados de 4.5 e intercambiando los operadores integración–
2Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms, second
edition, Prentice Hall.
104 4
diferenciación, se obtiene Z
· · ·
Z
@L
@✓
dx1 · · · dxn = 0
que se puede re-escribir como
E
✓
@ logL
@✓
◆
=
Z
· · ·
Z ✓
1
L
@L
@✓
◆
L dx1 · · · dxn = 0
y diferenciando nuevamente e intercambiando los operadores se obtiene
Z
· · ·
Z ⇢✓
1
L
@L
@✓
◆
@L
@✓
+ L
@
@✓
✓
1
L
@L
@✓
◆�
dx1 · · · dxn = 0
que se simplifica como
Z
· · ·
Z (✓
1
L
@L
@✓
◆
2
+
@
2 logL
@2✓
)
L dx1 · · · dxn = 0
o bien,
E
"✓
@ logL
@✓
◆
2
#
= �E
✓
@
2 logL
@2✓
◆
(4.6)
Ahora, sea t un estimador de ✓ tal que E(t) = ⌧(✓) para alguna función ⌧(✓) de modo que,
si t es insesgado se tendŕıa que ⌧(✓) = ✓. Entonces, se tiene que
E(t) =
Z
· · ·
Z
tL dx1 · · · dxn = ⌧(✓)
y, diferenciando e intercambiando operadores nuevamente resulta
Z
· · ·
Z
t
@ logL
@✓
L dx1 · · · dxn = ⌧ 0(✓)
de modo que, agregando un cero se puede escribir
⌧
0(✓) =
Z
· · ·
Z n
t� ⌧(✓)
o
@ logL
@✓
L dx1 · · · dxn
Luego, por desigualdad de Cauchy–Schwarz se tendŕıa que
�
⌧
0(✓)
 
2 
⇢Z
· · ·
Z n
t� ⌧(✓)
o
2
L dx1 · · · dxn
�⇢Z
· · ·
Z n
@ logL
@✓
o
2
L dx1 · · · dxn
�
o bien
�
⌧
0(✓)
 
2  V ar(t)E
"✓
@ logL
@✓
◆
2
#
(4.7)
Esta es la desigualdad fundamental para la varianza de un estimador, usualmente conocida
como desigualdad de Cramer–Rao y en el caso en que t sea un estimador insesgado se tendŕıa
105 4
que ⌧(✓) = ✓ y por tanto ⌧ 0(✓) = 1 y de la ecuación 4.7 resulta que
1  V ar(t)E
"✓
@ logL
@✓
◆
2
#
() 1
E
"✓
@ logL
@✓
◆
2
#  V ar(t)
Más aún, dado que L =
nY
k=1
f(xk|✓) se tiene que logL =
nX
k=1
log f(xk|✓) y aśı,
E
"✓
@ logL
@✓
◆
2
#
=
Z
· · ·
Z ✓
@ logL
@✓
◆
2
L dx1 · · · dxn
=
Z
· · ·
Z nX
k=1
@ log f(xk|✓)
@✓
!
2
L dx1 · · · dxn
=
Z
· · ·
Z nX
i=1
nX
j=1
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn
=
nX
i=1
nX
j=1
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn = I1 + I2,
en donde, separando los términos cuadráticos (i = j) se tiene que
I1 =
nX
k=1
Z
· · ·
Z ✓
@ log f(xk|✓)
@✓
◆
2
L dx1 · · · dxn
I2 =
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn
pero, integrando cada uno por separado, se puede ver que
I1 =
nX
k=1
Z
· · ·
Z ✓
@ log f(xk|✓)
@✓
◆
2
L dx1 · · · dxn
=
nX
k=1
Z ✓
@ log f(xk|✓)
@✓
◆
2
f(xk|✓)dxk
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠:1
n�10
@
Z
· · ·
Z nY
i=1,i 6=k
f(xi|✓)dxi
1
A
=
nX
k=1
E
"✓
@ log f(xk|✓)
@✓
◆
2
#
= nE
"✓
@ log f(xk|✓)
@✓
◆
2
#
y además, para la muestra se tiene que
I2 =
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓L dx1 · · · dxn
=
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
f(x1|✓) · · · f(xn|✓) dx1 · · · dxn
106 4
pero, para un término, digamos I2(i, j), se puede ver que
I2(i, j) =
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
f(x1|✓) · · · f(xn|✓) dx1 · · · dxn
= E
✓
@ log f(xi|✓)
@✓
◆�
E
✓
@ log f(xj |✓)
@✓
◆�
pero, de forma análoga al caso de la densidad L, derivando respecto a ✓ se tiene que
Z
f(xi|✓)dxi = 1 =)
Z
@f(xi|✓)
@✓
dxi = 0 =)
Z
1
f(xi|✓)
@f(xi|✓)
@✓
f(xi|✓)dxi = 0
o bien, E

@
@✓
log f(xi|✓)
�
= 0 8 i, es decir, I2 = 0 y por tanto,
E
"✓
@ logL
@✓
◆
2
#
= E
2
4
 
@
@✓
nX
k=1
log f(xk|✓)
!
2
3
5 = nE
"✓
@ log f(xk|✓)
@✓
◆
2
#
y aśı, el teorema de Cramer–Rao queda demostrado. ⌅
A la cantidad
I = E
"✓
@ logL
@✓
◆
2
#
se conoce como información de Fisher de la muestra o cantidad de información muestral y de
forma similar, la desigualdad fundamental para la varianza de un estimador permite acotar
al término I con base en los momentos de t mediante
I � {⌧
0(✓)}2
V ar(t)
Def. 4 (Eficiente). Un estimador t del parámetro ✓ es eficiente, si es insesgado y satisface
V ar(t) =
1
E
"✓
@ logL
@✓
◆
2
# .
Def. 5 (Consistente). Sea Tn = gf (x1, . . . , xn) una secuencia de estimadores de un parámetro
✓. Si T es el estimador que representa a la secuencia Tn, se dice que T es consistente si
ĺım
n!1
P (|Tn � ✓|  ⇠) = 1 8✓, en donde ⇠ > 0.
Ejem. 2. Sea x1, . . . , xn una muestra de v.a.’s tales que E[xi] = µ y V ar(xi) = �2, ¿es
x̄n =
nX
k=1
xk
n
un estimador consistente de µ?
107 4
Demostración. Se quiere demostrar que
ĺım
n!1
P (|x̄n � µ|  ⇠) = 1
pero, dado que x̄n es una v.a. con E[x̄] = µ y V ar(x̄) =
�
2
n
, por teorema de Chevishev
se cumple que
P
✓
|x̄n � µ| >
k�p
n
◆
 1
k2
por tanto, si designamos k ⌘ ⇠
p
n
�
para ⇠ > 0, se tiene que
P (|x̄n � µ| > ⇠) 
�
2
n⇠2
() ĺım
n!1
P (|x̄n � µ| > ⇠) = 0
⌅
Métodos de estimación puntual
Existen varios métodos para encontrar estimadores de los parámetros de cualquier modelo,
tales como el método de momentos, el método de máxima verosimilitud y el método de Bayes,
entre otros. Sin embargo en este caṕıtulo sólo se mencionan los tres primeros, ya que son los
más utilizados en la literatura para estimar parámetros de una distribución de probabilidad.
Método de momentos
Es una técnica general que consiste en utilizar los momentos de muestra para estimar sus
momentos de población correspondientes produce estimadores con las propiedades de mı́nima
varianza e insesgados, en donde se representa a los parámetros en términos de los momentos
de la distribución.
Alrededor del 1800, Pearson propuso que, para una muestra x1, x2, . . . , xn, el método de
momentos (MOM) consiste en igualar los momentos muestrales
m1 =
1
n
nX
i=0
xi, m2 =
1
n
nX
i=0
x
2
i , m3 =
1
n
nX
i=0
x
3
i , . . . , mr =
1
n
nX
i=0
x
r
i
con los momentos poblacionales del modelo probabiĺıstico propuesto
µ1 = E[x], µ2 = E[x
2], µ3 = E[x
3], . . . , µr = E[x
r]
con base al número de parámetros que tiene la función de probabilidad.
Ejem. 3. Para el modelo exponencial, dado por
fT (t) = �e
��t
108 4
solo se tiene un parámetro, en este caso �, por lo que es suficiente comparar un momento
muestral. En este caso, como µ1 = E(t) =
1
�
y m1 =
1
n
nP
i=0
ti = t̄, al igualarlos se tiene
que
1
�
= t̄ =) b�MOM =
1
t̄
.
Por otro lado, para el modelo gamma
fT (t) = �
k
e
��t t
k�1
�(k)
,
se tiene los parámetros k y �, lo que implica igualar dos momentos.
Dado que µ1 = E(t) = k�, µ2 = E(t2) = (k2 + k)�2 y m1 = t̄, m2 =
1
n
nP
i=0
t
2
i
, al
igualar estos momentos respectivamente, se tiene que
k� = t̄ y (k2 + k)�2 = m2 luego t̄
2 +
t̄
2
k
= m2 () bkMOM =
t̄
2
m2 � t̄ 2
y sustituyendo bkMOM se obtiene el estimador de momentos de � como b�MOM =
m2 � t̄ 2
t̄
y finalmente
bkMOM =
t̄
2
1
n
nP
i=0
t2
i
� t̄ 2
, b�MOM =
1
n
nP
i=0
t
2
i
� t̄ 2
t̄
Evidentemente, para un modelo con tres parámetros, se igualan tres momentos y aśı
sucesivamente, de modo que los estimadores de momentos se obtienen simplemente
despejando los parámetros en términos de los momentos muestrales.
A pesar de ser un método simple y que generalmente proporciona una solución para
cualquier modelo, su uso es muy reducido y por lo regular, la mayoŕıa de usuarios aplican el
método de máxima verosimilitud.
Método de máxima verosimilitud
El método de máxima verosimilitud (MV ) fue propuesto por Sir Ronald Fisher, a partir de
un trabajo desarrollado por Bernoulli y revisado por Euler, fundamentalmente consiste en
determinar un valor paramétrico que maximice la posibilidad de que los valores observados
en la muestra sean los más probables, es decir, se deben obtener valores paramétricos ✓ tales
que la función de verosimilitud dada por
L(✓) = f(✓;x1, . . . , xn) (4.8)
sea máxima, en donde ✓ puede ser escalar o vectorial.
El estimador de máxima verosimilitud (o máximo verośımil), como su nombre lo dice,
se obtiene calculando el máximo de la función de verosimilitud, por lo que se aplican
109 4
conceptos elementales del cálculo, buscando maximizar la función L(✓), utilizando el modelo
probabiĺıstico.
Ejem. 4. Resolviendo un ejemplo, si t1, t2, . . . , tn es una muestra de la densidad
exponencial,
L(�) = f(�; t1, t2, . . . , tn) =
nY
i=1
�e
��ti = �ne
��
nP
i=1
ti
entonces, para obtener el valor de � que maximiza la función de verosimilitud, derivando
respecto a � e igualando a cero se tiene que
n� �
nX
i=1
ti = 0
despejando � resulta
b�MV =
n
nP
i=1
ti
=
1
1
n
nP
i=1
ti
=
1
t̄
.
En el caso particular de la función de densidad de probabilidad exponencial se puede observar
que el estimador por método de momentos es el mismo que el que se obtiene mediante el
método de máxima verosimilitud, sin embargo esto no cumple en general.
En la mayoŕıa de textos aprovechan el hecho de que el máximo de f(x) es el mismo que
el de log[f(x)], de modo que los cálculos se simplifican de forma significativa al momento de
obtener los estimadores por máxima verosimilitud.
Ejem. 5. Como ejemplo, nótese que analizando nuevamente el caso anterior, si
L(�) = �ne
��
nP
i=1
ti
entonces, aplicando el logaritmo natural se tiene que
l(�) = logL(�) = n log �� �
nX
i=1
ti
aśı, diferenciando respecto a � se tiene que
d
d�
l(�) =
n
�
�
nX
i=1
ti
que al igualar a cero y despejar se obtiene el mismo resultado
⇣
b�MV = 1/t̄
⌘
.
110 4
Ejem. 6. Como segundo ejemplo, para el modelo gamma se tiene que
L(k,�) =
nY
i=1
�
k
e
��ti t
k�1
i
�(k)
= �nke
��
nP
i=1
ti
nQ
i=1
t
k�1
i
�(k)n
por tanto, aplicando logaritmo natural resulta
l(k,�) = (nk) log �� �
nX
i=1
ti + (k � 1)
nX
i=1
ti � n log�(k)
y diferenciando parcialmente respecto a k y � se obtiene el sistema
@
@k
l(k,�) = n log �+
nX
i=1
ti � n
✓
�0(k)
�(k)
◆
@
@�
l(k,�) =
nk
�
�
nP
i=1
ti
e igualando a cero resulta
nk
�
�
nX
i=1
ti = 0 (4.9)
n log �+
nX
i=1
ti � n
✓
�0(k)
�(k)
◆
= 0. (4.10)
Despejando k de la ecuación (4.9) se obtiene k = �t̄, mientras que para la ecuación (4.10)
se tiene que
log � =
�0(k)
�(k)
� t̄
cuya solución no se puede obtener en forma anaĺıtica, por lo que se debe aproximar
una solución del sistema mediante algún método numérico o bien, se puede simplificar
el problema sustituyendo k para reducir el problema a la solución de una ecuación no
lineal en una variable, mediante
� = exp
✓
�0(k)
�(k)
� t̄
◆
=) � = exp
✓
�0(�t̄)
�(�t̄)
� t̄
◆
,
e implementar un método numérico para aproximar los estimadores de máxima
verosimilitud, tomando por ejemplo, los estimadores de momentos como valor inicial.
Estimadores Bayesianos
Consideremos una muestra de tamaño n, X1, . . . , Xn tomada de una población indexada
por ✓ (otra variable aleatoria) de la cual, se conoce apriori su densidad de probabilidad,
digamos ⇡(✓); entonces si la distribución del muestreo es f(x|✓), la distribuciónaposteriori
111 4
(condicional de ✓ dada la meustra) se obtiene mediante
⇡(✓|x) = f(x, ✓)
m(x)
=
f(x|✓)⇡(✓)
m(x)
en donde
m(x) =
Z
f(x, ✓)d✓ =
Z
f(x|✓)⇡(✓)d✓.
Ejem. 7. (Bernoulli–Binomial) Supongamos que
x ⇠ Bernoulli(x|✓); ✓ ⇠ Beta(✓|↵0,�0)
y entonces, como
f(x, ✓) =
⇥
✓
x(1� ✓)1�x
⇤  �(↵0 + �0)
�(↵0)�(�0)
✓
↵0�1(1� ✓)�0�1
�
=
�(↵0 + �0)
�(↵0)�(�0)
✓
x+↵0�1(1�✓)�0�x
la densidad predictiva (para un x fijo, digamos x⇤) se escribe como
m(x⇤) =
1Z
0
�(↵0 + �0)
�(↵0)�(�0)
✓
x+↵0�1(1� ✓)�0�xd✓ = �(x
⇤ + ↵0)�(�0 � x⇤ + 1)
�(↵0 + �0 + 1)
�(↵0 + �0)
�(↵0)�(�0)
por lo tanto,
⇡(✓|x⇤) = �(↵0 + �0 + 1)
�(x⇤ + ↵0)�(�0 � x⇤ + 1)
✓
x
⇤
+↵0�1(1� ✓)�0�x⇤
Bajo el contexto Bayesiano, por costumbre se cuestiona la información apriori, la densidad
del parámetro ⇡(✓), en donde la pregunta natural es ¿cómo se construye la densidad apriori?
En respuesta, el caso anterior Bernoulli – Beta corresponde a las distribuciones conjugadas
de modo que se puede obtener la densidad aposteriori con un kernel similar al de la densidad
de los datos. a manera de tabla, algunas de las familias conjugadas se pueden observar a
continuación
Verosimilitud Apriori conjugada
Bernoulli Beta
Binomial Beta
Multinomial Dirichlet
Binomial Negativa Beta
Poisson Gamma
Exponencial Gamma
Gamma(�2) Gamma
Normal µ Normal
Normal �2 Gamma Inversa
Pareto ↵ Gamma
Pareto � Pareto
112 4
Y completando la información, se tienen dos alternativas:
1. Conseguir información ya sea a partir de los datos o bien cuestionando a un experto que
conoce el fenómeno de estudio, es decir, obtener una distribución apriori informativa
mediante
Análisis emṕırico previo.
Consultar al experto sobre lo que se espera del parámetro en términos de
momentos, simetŕıas, intervalos,. . .
2. Suponiendo que no hay información disponible, en la literatura se puede encontrar una
serie de técnicas para obtener distribuciones apriori no-informativa en una variedad
de modelos estad́ısticos (Robert, 1994, pp. 112; Lindsey, 1996, pp. 334; Yang y Berger,
1998).
Impropias Unif(�1,1) o bien Unif(0,1).
Distribuciones apriori’s de Je↵rey.
Distribuciones poco informativas, por ejemplo, para la distribución normal, ✓ ⇠
N(µ, 103), �2 ⇠ �(10�3, 10�3),. . .
Ejem. 8. (Apriori no-informativa) Suponiendo una muetra x1, x2, . . . , xn de una variable
aleatoria distribuida Pareto generalizada con parámetro de forma k y parámetro de escala
�
⇥
o bien reparametrizando � = 1
�
⇤
la función de verosimilitud para la muestra, se escribe
como
L(k,�|datos) = ��n
nY
i=1
(1� kxi/�)
1
k�1
+
"
L(k, �|datos) = �n
nY
i=1
(1� k�xi)
1
k�1
+
#
.
(4.11)
De aqúı, algunas distribuciones alternativas son
Si el parámetro de escala es conocido, por la forma de la DPG se tendŕıa que
k 2
⇣
�1, �
tn:n
⌘
y aparentemente la opción más viable es suponer la distribución
apriori localmente uniforme ⇡(k) / 1, popularizada por Laplace (1812),
Considerando el modelo f(x|k, �) y asumiendo similarmente que k es conocido,
dado que � > 0, es bastante común utilizar ⇡(�) / 1
�
.
y suponiendo que ambos parámetros son desconocidos, las distribuciones aprioris
aplicables seŕıan
1. Apriori localmente uniforme ⇡(k,�) / 1, de donde la distribución posteriori tiene
la forma
⇡1(k,�|datos) / L(k,�|datos)⇡(k,�) = ��n
nY
i=1
(1� kxi/�)
1
k�1
+
113 4
Es decir, en el peor de los casos, se obtiene le método de estimación por máxima
verosimilitud.
2. Apriori log � localmente uniforme ⇡(k, �) / 1
�
, obteniendo
⇡2(k, �|datos) / �n�1
nY
i=1
(1� k�xi)
1
k�1
+
Estimación puntual Bayesiana
Una vez que se tiene la densidad aposteriori ⇡(✓|x), para obtener un estimador dada la
muestra, se debe elegir aquel valor b✓ que minimice la función de pérdida esperada E[L(✓, b✓)]
para ✓ desconocido, mediante
mı́n
b✓
E[L(✓, b✓)|x] = mı́n
b✓
Z
⇥
L(✓, b✓)⇡(✓|x)d✓
en donde ⇥ se conoce como el espacio paramétrico.
Pérdida cuadrática Para L(✓, b✓) = (✓ � b✓) se puede demostrar que
E(✓|x) = mı́n
b✓
Z
⇥
L(✓, b✓)⇡(✓|x)d✓,
es decir, el estimador Bayesiano es la media aposteriori
E(✓|x) =
Z
⇥
✓⇡(✓|x)d✓.
En otras palabras, suponiendo una función de pérdida cuadrática, el estimador
Bayesiano es el valor esperado de la densidad aposteriori.
Pérdida de error absoluto Para L(✓, b✓) = |✓ � b✓| el estimador Bayesiano es la mediana
de la densidad aposteriori, es decir
b✓ :
Z b✓
�1
⇡(✓|x)d✓ = 0.5
Error absoluto asimétrico Para
Lr,s(✓, b✓) =
(
s(✓ � b✓) si ✓ > b✓
r(b✓ � ✓) si ✓  b✓
el estimador Bayesiano es el cuantil
s
r + s
, es decir
b✓ :
Z b✓
�1
⇡(✓|x)d✓ = s
r + s
114 4
Por otro lado, una alternativa a la función de pérdida es el estimador del máximo aposteriori
(MAP ), es decir, seleccionar el b✓ que maximice a ⇡(✓|x) (la moda de ⇡(✓|x)).
Teorema central del ĺımite: aplicaciones
A grandes rasgos, con el teorema central del ĺımite se puede afirmar que la media de una
muestra aleatoria se distribuye asintóticamente normal estándar, bajo el enunciado
Teo. 3 (Teorema central del ĺımite). Sean X1, . . . , Xn una muestra de v.a. distribuidas fX(x)
con media µ y varianza �2 < 1. Sea Sn = X1 + · · ·+Xn, entonces
ĺım
n!1
P
✓
Sn � nµ
�
p
n
 z
◆
= �(z),
es decir, Sn converge en probabilidad a una v.a. normal estándar, o en forma equivalente, en
el ĺımite cuando n tiende a infinito
X � µ
�/
p
n
⇠ N(0, 1)
para X =
1
n
nX
k=1
Xk.
Exploración por simulación mediante el software
estad́ıstico R del comportamiento de estimadores
Para conocer las reglas básicas para jugar con R, una primer aproximación es tener una
referencia rápida, siguiente sección, con un compendio de funciones de uso continuo en R
para resolver ejercicios y problemas del curso de Estad́ıstica y Procesos Estocásticos.
Referencia rápida
Obteniendo ayuda
Lo más rápido, desde consola o R-commander, obtiene ayuda de algún tópico tecleando ?(el
tópico de interés) o bien help(el tópico).
Desde RStudio se pueden teclear las opciones anteriores o seleccionar la pestaña de ayuda
disponible en
115 4
y simplemente teclear el tópico de interés en el recuadro.
Otros comandos informativos
Otras funciones de R son muy útiles para obtener información. Por ejemplo:
apropos(tópico) presenta una lista de todos los objetos que coinciden con el tópico,
help.start() Inicia la versión de ayuda HTML,
str(variable) muestra en pantalla la estructura del objeto “variable”,
ls() muestra la lista de objetos activos,
dir() archivos disponibles en el directorio de trabajo,
entre otros. . .
Informándose ahora sobre las variables
is.na( x ) informa si la variable x tiene datos perdidos o ausencia de dato. Simi-
larmente se tiene is.numeric(x), is.array(x), is.data.frame(x), is.complex(x),
is.character(x)
names(x) muestra los nombres de las columnas de x
dim(x) muestra la dimensión de x cuando es matrix o data.frame, para vectores se
usa length(v)
Comandos importantes:
Para salir de R basta teclear q() o bien basta con dar click para cerrar la ventana y pregunta si
se quieren guardar cambios. Si de antemano no se quieren guardar cambios se teclea q(“no”).
<- asigna un objeto (escalar, vector, matriz, tabla, marco de datos, . . . ) a una variable. Se
puede aplicar en ambas direcciones:
116 4
x <- seq(-2*pi,4*pi/3, by=0.001)
o bien
sin(x) -> y.
Aritmética básica
+ suma � resta
⇤ producto / cociente
^, o ⇤⇤ potencia %/% división entera
%% módulo % ⇤ % multiplicación de matrices
Loops
if (cond) expr.
for (var in seq) expr
while(cond) expr
Creando objetos de datos
Si la cantidad de datos no es demasiado extensa para meterlos a mano o bien es extensa pero
se reproducen en el sistema, lo común es utilizar:
c(...) es una función genérica que permite combinar datos de
distinto formato (numéricos, categóricos, booleanos, . . . )
ini:fin genera secuencias desde ini “:” hasta fin y tiene prioridad de
operaciones; por ejemplo 1:4 + 1 genera “2, 3, 4, 5”
seq(ini,fin) genera una secuencia desde ini hasta fin con incrementos
espećıficosque pueden establecerse con by=valor o con la
longitud de los incrementos con length=.
seq(along=x) genera la secuencia 1, 2, . . . , de longitud x. Puede ser útil
para ciclos for.
rep(x,n) repite el valor x n veces. Se puede combinar con la
instrucción each=n para que repita cada valor n ve-
ces. Ej. rep(c(1,2,3),2) es 1 2 3 1 2 3. mientras que
rep(c(1,2,3),each=2) genera el vector 1 1 2 2 3 3.
list(...) crea una lista de argumentos que puede o no, tener nombre.
Por ej. list(a=c(1,2),b=”hi”,c=3i);
array(x,dim=v) genera un arreglo con los datos x; en las dimensiones
especificadas, en donde dim=c(3,4,2) recicla los elementos
de x si nos son suficientes.
matrix(x, nrow=a,
ncol=b
genera una matriz con los valores de x y los ordena
de acuerdo al número de filas y columnas nrow y ncol
respectivamente.
rbind(...) combina los argumentos en filas (cuando es posible)
cbind(...) como el anterior pero por columnas.
Algunas familias de probabilidad en RMedidas
117 4
Tabla 4.2: Lista con algunas familias de probabilidad disponibles en R.
Familia Densidad Distibución Cuantile v.a.
Beta pbeta qbeta dbeta rbeta
Binomial pbinom qbinom dbinom rbinom
Cauchy pcauchy qcauchy dcauchy rcauchy
Chi-Square pchisq qchisq dchisq rchisq
Exponencial pexp qexp dexp rexp
F pf qf df rf
Gamma pgamma qgamma dgamma rgamma
Geometrica pgeom qgeom dgeom rgeom
Hypergeometrica phyper qhyper dhyper rhyper
Logistica plogis qlogis dlogis rlogis
Log Normal plnorm qlnorm dlnorm rlnorm
Binomial Negativa pnbinom qnbinom dnbinom rnbinom
Normal pnorm qnorm dnorm rnorm
Poisson ppois qpois dpois rpois
t�Student pt qt dt rt
Rango Studentizado ptukey qtukey dtukey rtukey
Uniforme punif qunif dunif runif
Weibull pweibull qweibull dweibull rweibull
Rangos de Wilcoxon pwilcox qwilcox dwilcox rwilcox
Rangos de Wilcoxon con signo psignrank qsignrank dsignrank rsignrank
Como su nombre lo dice:
min(x), max(x), median(x), mean(x) obtiene la mediana y media de los datos,
quantile(x,p) calcula los cuantiles (0%, 25%, 50%, 75%, 100% de x),
sum(x) (suma los elementos de x), prod(x) (multiplica los elementos de x),
summary(x) presenta un resumen de los estad́ısticos de x.
sort(x), ordena en forma ascendente.
rank(x) muestra los ı́ndices de los elementos de x ordenados en forma creciente.
118 4
Jugando con R
Sugiero que verifiquen todos los comandos que se muestran en los ejemplos. . .
Ejem. 9. En el ejemplo 13, pág. 97, se calcula el estimador de la familia exponencial
fT (t) = �e��x con el método de momentos, obteniendo �̂MOM = 1/t̄.
1. Genere una muestra de tamaño n = 105 de fT (t) con � = 7.
Para generar una muestra, de la tabla 4.2 se puede ver que para generar v.a.
exponenciales se utiliza la función rexp Un primer paso es identificar la función
que genera una muestra del modelo exponencia, para asegurarse si corresponde
exactamente al modelo fT (t) = �e��x. Usando ayuda en RStudio se obtiene
es decir, el modelo que usan en R corresponde exactamente al del ejercicio. Aśı,
para generar la muestra se teclea
en donde el vector t conserva la muestra de tamaño n.
2. Genere un histograma de ésta muestra.
Para obtener el histograma, se teclea hist(t), pero si se quiere tener control en
el tipo de histograma, t́ıtulo de la gráfica, etiquetas de los ejes, color; se puede
teclear
119 4
Se puede ver que los comentarios se agregan con el śımbolo (gato, hashtag, c-sharp)
y se observan en color verde (no es necesario que los agreguen)
3. Calcule el estimador �̂MOM .
En este caso, y dado que �̂MOM = 1/t̄, se teclear 1/mean(t). En mi caso resulta
6.9984
¿Qué valor resulta en tu caso?
NOTA: Observe que los resultados se muestran en la ventana de consola y en la
ventana de Untitle1* es donde agrego los comandos. . . que se ejecutan dando click
en el ı́cono Run
Ejem. 10. En el ejemplo anterior sólo se corre una simulación de un experimento
aleatorio con una muestra exponencial, en mi caso resulta �̂MOM = 6.9984 y
evidentemente en cada una de las simulaciones que resuelven Ustedes se obtiene un
120 4
resultado semejante. ¿Qué pasa si se resuelven m = 103 simulaciones?. . . Simplemente
se tendŕıa una muestra de estimadores del parámetro �̂MOM que sigue un modelo de
probabilidad espećıfico con un valor esperado y una varianza de la v.a. �̂MOM .
Hace años, esto sonaba a locura, ¿mil simulaciones?. . . ¿cada una de tamaño
100000?. . . No obstante, hoy en d́ıa se reduce a “jugar” con R.
y el promedio de �̂MOM , en mi caso, es mean(hat.lambda) = 6.9999 y además, se
puede calcular la probabildiad de que �̂MOM tome valores entre 6.98 y 7.02. En mi caso,
P (6.98 < �̂MOM < 7.02) = 0.642,
que se obtiene tecleando sum((hat.lambda > 6.98)*(hat.lambda < 7.02))/m
———————————————————————————————————
121 4
Ejercicios
1.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga
la expresión del estimador por el método de momentos de p con n fija.
2.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �2.
Obtenga una expresión de los estimadores por el método de momentos.
3.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga
la expresión del estimador de máxima verosimilitud de p con n fija.
4.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �.
Obtenga una expresión de los estimadores por el método de máxima verosimilitud.
5.– Obtenga los estimadores de momentos y de máxima verosimilitud de la densidad Weibull
fX(x;↵,�) = ↵�x��1e�↵x
�
I(x > 0), ↵,� > 0
6.– La distribución Pareto generalizada (DPG) se define como
F (x; k,�) =
8
><
>:
1�
⇣
1� kx
�
⌘ 1
k
+
, k 6= 0
1� exp
⇣
�x
�
⌘
, k = 0
Obtenga los estimadores de momentos y de máxima verosimilitud para k,� > 0
7.– Sea X1, . . . , Xn ⇠ Unif(0, 1). Aproxime la probabilidad de que la v.a. X̄n =
1
n
nX
k=1
Xk
tome valores entre 0.48 y 0.52 con n = 30, 50 y 75.
8.– [Aproximación densidad normal a binomial ] Considere el experimento que consiste en
arrojar una moneda con probabilidad de 0.4 de obtener águila. Calcule la probabilidad
de obtener al menos 20 águilas en 40 lanzamientos usando: (a) la distribución binomial;
(b) la aproximación normal; (c) Comente sobre la precisión de la aproximación.
9.– Si X1, X2, . . . , Xn es una muestra de una población normal con media µ y varianza �2,
entonces
X̄n ⇠ N(µ,�2) (4.12)p
n(X̄n � µ)
�
⇠ N(0, 1) (4.13)
(n� 1)s2n
�2
⇠ �2n�1 (4.14)
p
n(X̄n � µ)
sn
⇠ tn�1 (4.15)
Genere 103 muestras de tamaño n = (102, 103, 104) de una distribución normal con
parámetros µ = 2/3, �2 = 7/9 y con ellas verifique si hay argumentos emṕıricos que
den evidencia de las ecuaciones (4.12), (4.13), (4.14) y (4.15).
Bibliograf́ıa
[1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369-
7, pp 654.
[2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd
Edition, Springer-Verlag.
[3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw-
Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México.
[4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury
Thomson Learning. ISBN 0-534-24312-6.
[5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I,
John Wiley & Sons, Inc., New York · London · Sydney.
[6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical
statistics. Upper Saddle River, N.J: Pearson Education.
[7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms,
second edition, Prentice Hall.
[8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc.,
Caṕıtulo 9.
[9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing
Company, English translation which appeared in Russian, 1936. Para los interesados,
está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/kolmogorov_foundations.pdf
[10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar,
España.
[11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic
Processes, McGraw�Hill, Inc.
[12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp.
984.
[13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585.
122

Continuar navegando

Materiales relacionados

24 pag.
Apuntes Econometría

User badge image

Central de Apuntes

222 pag.
Notas de Clases

User badge image

Central de Apuntes

43 pag.
Capitulo3Final

User badge image

Apuntes Generales