TEstadistica4 - ANETTE RACHEL PINACHO MATIAS

•
Outros

Desafío México Veintitrés
15/5/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

101.772 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Teoŕıa Estad́ıstica
Notas del curso (en proceso)
Licenciatura en Matemáticas
Depto. de Matemáticas
Cs. Básicas, CUCEI.
Rubén Sánchez Gómez
Introducción a estimación puntual
Con base en los conceptos de teoŕıa de probabilidad, la estad́ıstica provee técnicas
que permiten obtener conclusiones generales a partir de un conjunto limitado –pero
representativo– de datos. Cuando se hace inferencia no se tiene garant́ıa de que la conclusión
que obtenemos sea exactamente correcta. Sin embargo, la estad́ıstica permite cuantificar el
error asociado a la estimación.
La mayoŕıa de los modelos de probabilidad incluyen cierto número de parámetros,
generalmente desconocidos y que se deben estimar a partir de una muestra. De esta forma,
si de un modelo de probabilidad f(x; ✓) con parámetro ✓, se tienen n valores observados
x1, x2, . . . , xn entonces, se puede obtener una estimación de ✓, digamos ✓̂ como función gf de
los valores observados, es decir
b✓ = gf (x1, x2, . . . , xn).
A b✓ se le conoce como estad́ıstico o estimador de ✓ para el modelo de probabilidad f(x; ✓).
Criterios de evaluación
Tomando como punto de partida la definición de un estimador, evidentemente existe más de
una alternativa para gf (x1, x2, . . . , xn). Por tanto, se deben establecer criterios que permitan
evaluar, entre las infinitas posibilidades, aquellos que muestren las “mejores” propiedades.
Def. 1 (Error Cuadrado Medio). Para un estimador T arbitrario de un parámetro
desconocido ✓, el error cuadrado medio (ECM) está dado por ECM(T ) = E(T � ✓)2 o
bien, desarrollando el cuadrado resulta
ECM(T ) = V ar(T ) +
�
✓ � E[T ]
�
2
.
De modo que, para dos estimadores de ✓, T1 y T2, si ECM(T1) < ECM(T2) entonces T1 es
mejor que T2 en términos de ECM .
Def. 2 (Sesgo). A la diferencia ✓ � E[T ] se le conoce como sesgo de T y se dice que un
estimador es insesgado si E[T ] = ✓.
Es evidente que si un estimador T es insesgado, entonces ECM(T ) = V ar(T ) y por tal,
un estimador insesgado será preferible a uno sesgado en términos del ECM .
101
102 4
Además, la varianza de un estimador insesgado será la cantidad más importante para
decidir qué tan “bueno” es un estimador del parámetro ✓ de modo que, para los estimadores
T1 y T2, el criterio de decisión se reduce a comprar sus varianzas y en caso de que
V ar(T1) < V ar(T2), T1 será un estimador más eficiente.
Def. 3 (Estimador insesgado de mı́nima varianza). Para una muestra aleatoria x1, . . . , xn de
una densidad de probabilidad fX(x; ✓). Si un estimador T con ET = ✓ es tal que su V ar(T )
es menor que la varianza de cualquier otro estimador insesgado de ✓, se dice entonces que T
es un estimador insesgado de mı́nima varianza de ✓.
Ejem. 1. Sea X1, X2, . . . , Xn una muestra ordenada en forma creciente i.i.d., con valor
esperado µ = EX < 1 y varianza �2 = E
⇥
(X � EX)2
⇤
< 1 y sean T1 =
1
n
nX
k=1
Xk
(promedio de la muestra), T2 =
1
n� 2
n�1X
k=2
Xk (promedio de la muestra sin los extremos).
Aśı, se puede ver que (por linealidad)
⇤ ET1 = E
"
1
n
nX
k=1
Xk
#
=
1
n
nX
k=1
EXk =
1
n
nX
k=1
µ =
1
n
nµ = µ
⇤ ET2 = E
"
1
n� 2
n�1X
k=2
Xk
#
=
1
n� 2
n�2X
k=2
EXk =
1
n� 2
n�2X
k=2
µ =
1
n� 2(n� 2)µ = µ.
Por tanto, ambos estimadores son insesgados ya que µ � ET1 = µ � µ = 0 y
µ� ET2 = µ� µ = 0.
Además, dado que los Xk son i.i.d., se tiene que
⇤ V ar(T1) = V ar
"
1
n
nX
k=1
Xk
#
=
1
n2
nX
k=1
V ar(Xk) =
1
n2
nX
k=1
�
2 =
1
n2
n�
2 =
�
2
n
⇤ V ar(T2) = V ar
"
1
n� 2
n�1X
k=2
Xk
#
=
1
(n� 2)2
n�2X
k=2
V ar(Xk)
=
1
(n� 2)2
n�2X
k=2
�
2 =
1
(n� 2)2 (n� 2)�
2 =
�
2
n� 2 .
Luego, se tiene que
�
2
n
= V ar(T1) < V ar(T2) =
�
2
n� 2 y aśı
ECM(T1) = V ar(T1)+
�
µ�E[T1]
�
2
=
�
2
n
< ECM(T2) = V ar(T2)+
�
µ�E[T2]
�
2
=
�
2
n� 2 ,
103 4
de donde se concluye que T1 es mejor estimador que T2 (tiene menor error cuarado
medio).
Teo. 1 (Desigualdad de Cramér–Rao). Sea x1, . . . , xn una muestra de una población con
densidad fX(x; ✓). Si T es un estimador insesgado de ✓ entonces
V ar(T ) � 1
nE
"✓
@ log f(X; ✓)
@✓
◆
2
#
Antes de mostrar el teorema, consideremos el siguiente paréntesis:
Teo. 2 (Diferenciando bajo el operador integral). Sea f(t, x) : IRn+1 ! IR una función tal
que para cada t fijo, existe la integral
F (t) =
Z
IRn
f(t, x) dx1 · · · dxn.
Para todo x, suponga que @f/@t existe y que hay una función Riemann integrable g(x) tal
que ����
f(s, x)� f(t, x)
s� t
����  g(x)
para todo s 6= t. Entonces, F es diferenciable y
dF (t)
dt
=
Z
IRn
@f(t, x)
@t
dx1 · · · dxn
La demostración detallada se puede encontrar en Hubbard & Hubbard (2002)2 y se puede
obtener mediante la definición de la derivada de una función.
Mostrando la desigualdad de Cramér–Rao. Para llegar a la demostración, recordemos que
si la función de densidad de una población continua o discreta es fX(x|✓), la función de
verosimilitud (propuesta por Fisher en 1921) de una muestra de tamaño n queda descrita
como
L = L(x1, . . . , xn|✓) =
nY
k=1
f(xk|✓).
Dado que L es una función de densidad conjunta, es evidente que
Z
· · ·
Z
L dx1 · · · dxn = 1 (4.5)
Supongamos ahora que las dos primeras derivadas de L respecto a ✓ existen para todo ✓, de
modo que; diferenciando en ambos lados de 4.5 e intercambiando los operadores integración–
2Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms, second
edition, Prentice Hall.
104 4
diferenciación, se obtiene Z
· · ·
Z
@L
@✓
dx1 · · · dxn = 0
que se puede re-escribir como
E
✓
@ logL
@✓
◆
=
Z
· · ·
Z ✓
1
L
@L
@✓
◆
L dx1 · · · dxn = 0
y diferenciando nuevamente e intercambiando los operadores se obtiene
Z
· · ·
Z ⇢✓
1
L
@L
@✓
◆
@L
@✓
+ L
@
@✓
✓
1
L
@L
@✓
◆�
dx1 · · · dxn = 0
que se simplifica como
Z
· · ·
Z (✓
1
L
@L
@✓
◆
2
+
@
2 logL
@2✓
)
L dx1 · · · dxn = 0
o bien,
E
"✓
@ logL
@✓
◆
2
#
= �E
✓
@
2 logL
@2✓
◆
(4.6)
Ahora, sea t un estimador de ✓ tal que E(t) = ⌧(✓) para alguna función ⌧(✓) de modo que,
si t es insesgado se tendŕıa que ⌧(✓) = ✓. Entonces, se tiene que
E(t) =
Z
· · ·
Z
tL dx1 · · · dxn = ⌧(✓)
y, diferenciando e intercambiando operadores nuevamente resulta
Z
· · ·
Z
t
@ logL
@✓
L dx1 · · · dxn = ⌧ 0(✓)
de modo que, agregando un cero se puede escribir
⌧
0(✓) =
Z
· · ·
Z n
t� ⌧(✓)
o
@ logL
@✓
L dx1 · · · dxn
Luego, por desigualdad de Cauchy–Schwarz se tendŕıa que
�
⌧
0(✓)
 
2 
⇢Z
· · ·
Z n
t� ⌧(✓)
o
2
L dx1 · · · dxn
�⇢Z
· · ·
Z n
@ logL
@✓
o
2
L dx1 · · · dxn
�
o bien
�
⌧
0(✓)
 
2  V ar(t)E
"✓
@ logL
@✓
◆
2
#
(4.7)
Esta es la desigualdad fundamental para la varianza de un estimador, usualmente conocida
como desigualdad de Cramer–Rao y en el caso en que t sea un estimador insesgado se tendŕıa
105 4
que ⌧(✓) = ✓ y por tanto ⌧ 0(✓) = 1 y de la ecuación 4.7 resulta que
1  V ar(t)E
"✓
@ logL
@✓
◆
2
#
() 1
E
"✓
@ logL
@✓
◆
2
#  V ar(t)
Más aún, dado que L =
nY
k=1
f(xk|✓) se tiene que logL =
nX
k=1
log f(xk|✓) y aśı,
E
"✓
@ logL
@✓
◆
2
#
=
Z
· · ·
Z ✓
@ logL
@✓
◆
2
L dx1 · · · dxn
=
Z
· · ·
Z nX
k=1
@ log f(xk|✓)
@✓
!
2
L dx1 · · · dxn
=
Z
· · ·
Z nX
i=1
nX
j=1
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn
=
nX
i=1
nX
j=1
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn = I1 + I2,
en donde, separando los términos cuadráticos (i = j) se tiene que
I1 =
nX
k=1
Z
· · ·
Z ✓
@ log f(xk|✓)
@✓
◆
2
L dx1 · · · dxn
I2 =
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
L dx1 · · · dxn
pero, integrando cada uno por separado, se puede ver que
I1 =
nX
k=1
Z
· · ·
Z ✓
@ log f(xk|✓)
@✓
◆
2
L dx1 · · · dxn
=
nX
k=1
Z ✓
@ log f(xk|✓)
@✓
◆
2
f(xk|✓)dxk
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠⇠
⇠⇠:1
n�10
@
Z
· · ·
Z nY
i=1,i 6=k
f(xi|✓)dxi
1
A
=
nX
k=1
E
"✓
@ log f(xk|✓)
@✓
◆
2
#
= nE
"✓
@ log f(xk|✓)
@✓
◆
2
#
y además, para la muestra se tiene que
I2 =
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓L dx1 · · · dxn
=
X
1i,jn
i 6=j
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
f(x1|✓) · · · f(xn|✓) dx1 · · · dxn
106 4
pero, para un término, digamos I2(i, j), se puede ver que
I2(i, j) =
Z
· · ·
Z
@ log f(xi|✓)
@✓
@ log f(xj |✓)
@✓
f(x1|✓) · · · f(xn|✓) dx1 · · · dxn
= E
✓
@ log f(xi|✓)
@✓
◆�
E
✓
@ log f(xj |✓)
@✓
◆�
pero, de forma análoga al caso de la densidad L, derivando respecto a ✓ se tiene que
Z
f(xi|✓)dxi = 1 =)
Z
@f(xi|✓)
@✓
dxi = 0 =)
Z
1
f(xi|✓)
@f(xi|✓)
@✓
f(xi|✓)dxi = 0
o bien, E

@
@✓
log f(xi|✓)
�
= 0 8 i, es decir, I2 = 0 y por tanto,
E
"✓
@ logL
@✓
◆
2
#
= E
2
4
 
@
@✓
nX
k=1
log f(xk|✓)
!
2
3
5 = nE
"✓
@ log f(xk|✓)
@✓
◆
2
#
y aśı, el teorema de Cramer–Rao queda demostrado. ⌅
A la cantidad
I = E
"✓
@ logL
@✓
◆
2
#
se conoce como información de Fisher de la muestra o cantidad de información muestral y de
forma similar, la desigualdad fundamental para la varianza de un estimador permite acotar
al término I con base en los momentos de t mediante
I � {⌧
0(✓)}2
V ar(t)
Def. 4 (Eficiente). Un estimador t del parámetro ✓ es eficiente, si es insesgado y satisface
V ar(t) =
1
E
"✓
@ logL
@✓
◆
2
# .
Def. 5 (Consistente). Sea Tn = gf (x1, . . . , xn) una secuencia de estimadores de un parámetro
✓. Si T es el estimador que representa a la secuencia Tn, se dice que T es consistente si
ĺım
n!1
P (|Tn � ✓|  ⇠) = 1 8✓, en donde ⇠ > 0.
Ejem. 2. Sea x1, . . . , xn una muestra de v.a.’s tales que E[xi] = µ y V ar(xi) = �2, ¿es
x̄n =
nX
k=1
xk
n
un estimador consistente de µ?
107 4
Demostración. Se quiere demostrar que
ĺım
n!1
P (|x̄n � µ|  ⇠) = 1
pero, dado que x̄n es una v.a. con E[x̄] = µ y V ar(x̄) =
�
2
n
, por teorema de Chevishev
se cumple que
P
✓
|x̄n � µ| >
k�p
n
◆
 1
k2
por tanto, si designamos k ⌘ ⇠
p
n
�
para ⇠ > 0, se tiene que
P (|x̄n � µ| > ⇠) 
�
2
n⇠2
() ĺım
n!1
P (|x̄n � µ| > ⇠) = 0
⌅
Métodos de estimación puntual
Existen varios métodos para encontrar estimadores de los parámetros de cualquier modelo,
tales como el método de momentos, el método de máxima verosimilitud y el método de Bayes,
entre otros. Sin embargo en este caṕıtulo sólo se mencionan los tres primeros, ya que son los
más utilizados en la literatura para estimar parámetros de una distribución de probabilidad.
Método de momentos
Es una técnica general que consiste en utilizar los momentos de muestra para estimar sus
momentos de población correspondientes produce estimadores con las propiedades de mı́nima
varianza e insesgados, en donde se representa a los parámetros en términos de los momentos
de la distribución.
Alrededor del 1800, Pearson propuso que, para una muestra x1, x2, . . . , xn, el método de
momentos (MOM) consiste en igualar los momentos muestrales
m1 =
1
n
nX
i=0
xi, m2 =
1
n
nX
i=0
x
2
i , m3 =
1
n
nX
i=0
x
3
i , . . . , mr =
1
n
nX
i=0
x
r
i
con los momentos poblacionales del modelo probabiĺıstico propuesto
µ1 = E[x], µ2 = E[x
2], µ3 = E[x
3], . . . , µr = E[x
r]
con base al número de parámetros que tiene la función de probabilidad.
Ejem. 3. Para el modelo exponencial, dado por
fT (t) = �e
��t
108 4
solo se tiene un parámetro, en este caso �, por lo que es suficiente comparar un momento
muestral. En este caso, como µ1 = E(t) =
1
�
y m1 =
1
n
nP
i=0
ti = t̄, al igualarlos se tiene
que
1
�
= t̄ =) b�MOM =
1
t̄
.
Por otro lado, para el modelo gamma
fT (t) = �
k
e
��t t
k�1
�(k)
,
se tiene los parámetros k y �, lo que implica igualar dos momentos.
Dado que µ1 = E(t) = k�, µ2 = E(t2) = (k2 + k)�2 y m1 = t̄, m2 =
1
n
nP
i=0
t
2
i
, al
igualar estos momentos respectivamente, se tiene que
k� = t̄ y (k2 + k)�2 = m2 luego t̄
2 +
t̄
2
k
= m2 () bkMOM =
t̄
2
m2 � t̄ 2
y sustituyendo bkMOM se obtiene el estimador de momentos de � como b�MOM =
m2 � t̄ 2
t̄
y finalmente
bkMOM =
t̄
2
1
n
nP
i=0
t2
i
� t̄ 2
, b�MOM =
1
n
nP
i=0
t
2
i
� t̄ 2
t̄
Evidentemente, para un modelo con tres parámetros, se igualan tres momentos y aśı
sucesivamente, de modo que los estimadores de momentos se obtienen simplemente
despejando los parámetros en términos de los momentos muestrales.
A pesar de ser un método simple y que generalmente proporciona una solución para
cualquier modelo, su uso es muy reducido y por lo regular, la mayoŕıa de usuarios aplican el
método de máxima verosimilitud.
Método de máxima verosimilitud
El método de máxima verosimilitud (MV ) fue propuesto por Sir Ronald Fisher, a partir de
un trabajo desarrollado por Bernoulli y revisado por Euler, fundamentalmente consiste en
determinar un valor paramétrico que maximice la posibilidad de que los valores observados
en la muestra sean los más probables, es decir, se deben obtener valores paramétricos ✓ tales
que la función de verosimilitud dada por
L(✓) = f(✓;x1, . . . , xn) (4.8)
sea máxima, en donde ✓ puede ser escalar o vectorial.
El estimador de máxima verosimilitud (o máximo verośımil), como su nombre lo dice,
se obtiene calculando el máximo de la función de verosimilitud, por lo que se aplican
109 4
conceptos elementales del cálculo, buscando maximizar la función L(✓), utilizando el modelo
probabiĺıstico.
Ejem. 4. Resolviendo un ejemplo, si t1, t2, . . . , tn es una muestra de la densidad
exponencial,
L(�) = f(�; t1, t2, . . . , tn) =
nY
i=1
�e
��ti = �ne
��
nP
i=1
ti
entonces, para obtener el valor de � que maximiza la función de verosimilitud, derivando
respecto a � e igualando a cero se tiene que
n� �
nX
i=1
ti = 0
despejando � resulta
b�MV =
n
nP
i=1
ti
=
1
1
n
nP
i=1
ti
=
1
t̄
.
En el caso particular de la función de densidad de probabilidad exponencial se puede observar
que el estimador por método de momentos es el mismo que el que se obtiene mediante el
método de máxima verosimilitud, sin embargo esto no cumple en general.
En la mayoŕıa de textos aprovechan el hecho de que el máximo de f(x) es el mismo que
el de log[f(x)], de modo que los cálculos se simplifican de forma significativa al momento de
obtener los estimadores por máxima verosimilitud.
Ejem. 5. Como ejemplo, nótese que analizando nuevamente el caso anterior, si
L(�) = �ne
��
nP
i=1
ti
entonces, aplicando el logaritmo natural se tiene que
l(�) = logL(�) = n log �� �
nX
i=1
ti
aśı, diferenciando respecto a � se tiene que
d
d�
l(�) =
n
�
�
nX
i=1
ti
que al igualar a cero y despejar se obtiene el mismo resultado
⇣
b�MV = 1/t̄
⌘
.
110 4
Ejem. 6. Como segundo ejemplo, para el modelo gamma se tiene que
L(k,�) =
nY
i=1
�
k
e
��ti t
k�1
i
�(k)
= �nke
��
nP
i=1
ti
nQ
i=1
t
k�1
i
�(k)n
por tanto, aplicando logaritmo natural resulta
l(k,�) = (nk) log �� �
nX
i=1
ti + (k � 1)
nX
i=1
ti � n log�(k)
y diferenciando parcialmente respecto a k y � se obtiene el sistema
@
@k
l(k,�) = n log �+
nX
i=1
ti � n
✓
�0(k)
�(k)
◆
@
@�
l(k,�) =
nk
�
�
nP
i=1
ti
e igualando a cero resulta
nk
�
�
nX
i=1
ti = 0 (4.9)
n log �+
nX
i=1
ti � n
✓
�0(k)
�(k)
◆
= 0. (4.10)
Despejando k de la ecuación (4.9) se obtiene k = �t̄, mientras que para la ecuación (4.10)
se tiene que
log � =
�0(k)
�(k)
� t̄
cuya solución no se puede obtener en forma anaĺıtica, por lo que se debe aproximar
una solución del sistema mediante algún método numérico o bien, se puede simplificar
el problema sustituyendo k para reducir el problema a la solución de una ecuación no
lineal en una variable, mediante
� = exp
✓
�0(k)
�(k)
� t̄
◆
=) � = exp
✓
�0(�t̄)
�(�t̄)
� t̄
◆
,
e implementar un método numérico para aproximar los estimadores de máxima
verosimilitud, tomando por ejemplo, los estimadores de momentos como valor inicial.
Estimadores Bayesianos
Consideremos una muestra de tamaño n, X1, . . . , Xn tomada de una población indexada
por ✓ (otra variable aleatoria) de la cual, se conoce apriori su densidad de probabilidad,
digamos ⇡(✓); entonces si la distribución del muestreo es f(x|✓), la distribuciónaposteriori
111 4
(condicional de ✓ dada la meustra) se obtiene mediante
⇡(✓|x) = f(x, ✓)
m(x)
=
f(x|✓)⇡(✓)
m(x)
en donde
m(x) =
Z
f(x, ✓)d✓ =
Z
f(x|✓)⇡(✓)d✓.
Ejem. 7. (Bernoulli–Binomial) Supongamos que
x ⇠ Bernoulli(x|✓); ✓ ⇠ Beta(✓|↵0,�0)
y entonces, como
f(x, ✓) =
⇥
✓
x(1� ✓)1�x
⇤  �(↵0 + �0)
�(↵0)�(�0)
✓
↵0�1(1� ✓)�0�1
�
=
�(↵0 + �0)
�(↵0)�(�0)
✓
x+↵0�1(1�✓)�0�x
la densidad predictiva (para un x fijo, digamos x⇤) se escribe como
m(x⇤) =
1Z
0
�(↵0 + �0)
�(↵0)�(�0)
✓
x+↵0�1(1� ✓)�0�xd✓ = �(x
⇤ + ↵0)�(�0 � x⇤ + 1)
�(↵0 + �0 + 1)
�(↵0 + �0)
�(↵0)�(�0)
por lo tanto,
⇡(✓|x⇤) = �(↵0 + �0 + 1)
�(x⇤ + ↵0)�(�0 � x⇤ + 1)
✓
x
⇤
+↵0�1(1� ✓)�0�x⇤
Bajo el contexto Bayesiano, por costumbre se cuestiona la información apriori, la densidad
del parámetro ⇡(✓), en donde la pregunta natural es ¿cómo se construye la densidad apriori?
En respuesta, el caso anterior Bernoulli – Beta corresponde a las distribuciones conjugadas
de modo que se puede obtener la densidad aposteriori con un kernel similar al de la densidad
de los datos. a manera de tabla, algunas de las familias conjugadas se pueden observar a
continuación
Verosimilitud Apriori conjugada
Bernoulli Beta
Binomial Beta
Multinomial Dirichlet
Binomial Negativa Beta
Poisson Gamma
Exponencial Gamma
Gamma(�2) Gamma
Normal µ Normal
Normal �2 Gamma Inversa
Pareto ↵ Gamma
Pareto � Pareto
112 4
Y completando la información, se tienen dos alternativas:
1. Conseguir información ya sea a partir de los datos o bien cuestionando a un experto que
conoce el fenómeno de estudio, es decir, obtener una distribución apriori informativa
mediante
Análisis emṕırico previo.
Consultar al experto sobre lo que se espera del parámetro en términos de
momentos, simetŕıas, intervalos,. . .
2. Suponiendo que no hay información disponible, en la literatura se puede encontrar una
serie de técnicas para obtener distribuciones apriori no-informativa en una variedad
de modelos estad́ısticos (Robert, 1994, pp. 112; Lindsey, 1996, pp. 334; Yang y Berger,
1998).
Impropias Unif(�1,1) o bien Unif(0,1).
Distribuciones apriori’s de Je↵rey.
Distribuciones poco informativas, por ejemplo, para la distribución normal, ✓ ⇠
N(µ, 103), �2 ⇠ �(10�3, 10�3),. . .
Ejem. 8. (Apriori no-informativa) Suponiendo una muetra x1, x2, . . . , xn de una variable
aleatoria distribuida Pareto generalizada con parámetro de forma k y parámetro de escala
�
⇥
o bien reparametrizando � = 1
�
⇤
la función de verosimilitud para la muestra, se escribe
como
L(k,�|datos) = ��n
nY
i=1
(1� kxi/�)
1
k�1
+
"
L(k, �|datos) = �n
nY
i=1
(1� k�xi)
1
k�1
+
#
.
(4.11)
De aqúı, algunas distribuciones alternativas son
Si el parámetro de escala es conocido, por la forma de la DPG se tendŕıa que
k 2
⇣
�1, �
tn:n
⌘
y aparentemente la opción más viable es suponer la distribución
apriori localmente uniforme ⇡(k) / 1, popularizada por Laplace (1812),
Considerando el modelo f(x|k, �) y asumiendo similarmente que k es conocido,
dado que � > 0, es bastante común utilizar ⇡(�) / 1
�
.
y suponiendo que ambos parámetros son desconocidos, las distribuciones aprioris
aplicables seŕıan
1. Apriori localmente uniforme ⇡(k,�) / 1, de donde la distribución posteriori tiene
la forma
⇡1(k,�|datos) / L(k,�|datos)⇡(k,�) = ��n
nY
i=1
(1� kxi/�)
1
k�1
+
113 4
Es decir, en el peor de los casos, se obtiene le método de estimación por máxima
verosimilitud.
2. Apriori log � localmente uniforme ⇡(k, �) / 1
�
, obteniendo
⇡2(k, �|datos) / �n�1
nY
i=1
(1� k�xi)
1
k�1
+
Estimación puntual Bayesiana
Una vez que se tiene la densidad aposteriori ⇡(✓|x), para obtener un estimador dada la
muestra, se debe elegir aquel valor b✓ que minimice la función de pérdida esperada E[L(✓, b✓)]
para ✓ desconocido, mediante
mı́n
b✓
E[L(✓, b✓)|x] = mı́n
b✓
Z
⇥
L(✓, b✓)⇡(✓|x)d✓
en donde ⇥ se conoce como el espacio paramétrico.
Pérdida cuadrática Para L(✓, b✓) = (✓ � b✓) se puede demostrar que
E(✓|x) = mı́n
b✓
Z
⇥
L(✓, b✓)⇡(✓|x)d✓,
es decir, el estimador Bayesiano es la media aposteriori
E(✓|x) =
Z
⇥
✓⇡(✓|x)d✓.
En otras palabras, suponiendo una función de pérdida cuadrática, el estimador
Bayesiano es el valor esperado de la densidad aposteriori.
Pérdida de error absoluto Para L(✓, b✓) = |✓ � b✓| el estimador Bayesiano es la mediana
de la densidad aposteriori, es decir
b✓ :
Z b✓
�1
⇡(✓|x)d✓ = 0.5
Error absoluto asimétrico Para
Lr,s(✓, b✓) =
(
s(✓ � b✓) si ✓ > b✓
r(b✓ � ✓) si ✓  b✓
el estimador Bayesiano es el cuantil
s
r + s
, es decir
b✓ :
Z b✓
�1
⇡(✓|x)d✓ = s
r + s
114 4
Por otro lado, una alternativa a la función de pérdida es el estimador del máximo aposteriori
(MAP ), es decir, seleccionar el b✓ que maximice a ⇡(✓|x) (la moda de ⇡(✓|x)).
Teorema central del ĺımite: aplicaciones
A grandes rasgos, con el teorema central del ĺımite se puede afirmar que la media de una
muestra aleatoria se distribuye asintóticamente normal estándar, bajo el enunciado
Teo. 3 (Teorema central del ĺımite). Sean X1, . . . , Xn una muestra de v.a. distribuidas fX(x)
con media µ y varianza �2 < 1. Sea Sn = X1 + · · ·+Xn, entonces
ĺım
n!1
P
✓
Sn � nµ
�
p
n
 z
◆
= �(z),
es decir, Sn converge en probabilidad a una v.a. normal estándar, o en forma equivalente, en
el ĺımite cuando n tiende a infinito
X � µ
�/
p
n
⇠ N(0, 1)
para X =
1
n
nX
k=1
Xk.
Exploración por simulación mediante el software
estad́ıstico R del comportamiento de estimadores
Para conocer las reglas básicas para jugar con R, una primer aproximación es tener una
referencia rápida, siguiente sección, con un compendio de funciones de uso continuo en R
para resolver ejercicios y problemas del curso de Estad́ıstica y Procesos Estocásticos.
Referencia rápida
Obteniendo ayuda
Lo más rápido, desde consola o R-commander, obtiene ayuda de algún tópico tecleando ?(el
tópico de interés) o bien help(el tópico).
Desde RStudio se pueden teclear las opciones anteriores o seleccionar la pestaña de ayuda
disponible en
115 4
y simplemente teclear el tópico de interés en el recuadro.
Otros comandos informativos
Otras funciones de R son muy útiles para obtener información. Por ejemplo:
apropos(tópico) presenta una lista de todos los objetos que coinciden con el tópico,
help.start() Inicia la versión de ayuda HTML,
str(variable) muestra en pantalla la estructura del objeto “variable”,
ls() muestra la lista de objetos activos,
dir() archivos disponibles en el directorio de trabajo,
entre otros. . .
Informándose ahora sobre las variables
is.na( x ) informa si la variable x tiene datos perdidos o ausencia de dato. Simi-
larmente se tiene is.numeric(x), is.array(x), is.data.frame(x), is.complex(x),
is.character(x)
names(x) muestra los nombres de las columnas de x
dim(x) muestra la dimensión de x cuando es matrix o data.frame, para vectores se
usa length(v)
Comandos importantes:
Para salir de R basta teclear q() o bien basta con dar click para cerrar la ventana y pregunta si
se quieren guardar cambios. Si de antemano no se quieren guardar cambios se teclea q(“no”).
<- asigna un objeto (escalar, vector, matriz, tabla, marco de datos, . . . ) a una variable. Se
puede aplicar en ambas direcciones:
116 4
x <- seq(-2*pi,4*pi/3, by=0.001)
o bien
sin(x) -> y.
Aritmética básica
+ suma � resta
⇤ producto / cociente
^, o ⇤⇤ potencia %/% división entera
%% módulo % ⇤ % multiplicación de matrices
Loops
if (cond) expr.
for (var in seq) expr
while(cond) expr
Creando objetos de datos
Si la cantidad de datos no es demasiado extensa para meterlos a mano o bien es extensa pero
se reproducen en el sistema, lo común es utilizar:
c(...) es una función genérica que permite combinar datos de
distinto formato (numéricos, categóricos, booleanos, . . . )
ini:fin genera secuencias desde ini “:” hasta fin y tiene prioridad de
operaciones; por ejemplo 1:4 + 1 genera “2, 3, 4, 5”
seq(ini,fin) genera una secuencia desde ini hasta fin con incrementos
espećıficosque pueden establecerse con by=valor o con la
longitud de los incrementos con length=.
seq(along=x) genera la secuencia 1, 2, . . . , de longitud x. Puede ser útil
para ciclos for.
rep(x,n) repite el valor x n veces. Se puede combinar con la
instrucción each=n para que repita cada valor n ve-
ces. Ej. rep(c(1,2,3),2) es 1 2 3 1 2 3. mientras que
rep(c(1,2,3),each=2) genera el vector 1 1 2 2 3 3.
list(...) crea una lista de argumentos que puede o no, tener nombre.
Por ej. list(a=c(1,2),b=”hi”,c=3i);
array(x,dim=v) genera un arreglo con los datos x; en las dimensiones
especificadas, en donde dim=c(3,4,2) recicla los elementos
de x si nos son suficientes.
matrix(x, nrow=a,
ncol=b
genera una matriz con los valores de x y los ordena
de acuerdo al número de filas y columnas nrow y ncol
respectivamente.
rbind(...) combina los argumentos en filas (cuando es posible)
cbind(...) como el anterior pero por columnas.
Algunas familias de probabilidad en RMedidas
117 4
Tabla 4.2: Lista con algunas familias de probabilidad disponibles en R.
Familia Densidad Distibución Cuantile v.a.
Beta pbeta qbeta dbeta rbeta
Binomial pbinom qbinom dbinom rbinom
Cauchy pcauchy qcauchy dcauchy rcauchy
Chi-Square pchisq qchisq dchisq rchisq
Exponencial pexp qexp dexp rexp
F pf qf df rf
Gamma pgamma qgamma dgamma rgamma
Geometrica pgeom qgeom dgeom rgeom
Hypergeometrica phyper qhyper dhyper rhyper
Logistica plogis qlogis dlogis rlogis
Log Normal plnorm qlnorm dlnorm rlnorm
Binomial Negativa pnbinom qnbinom dnbinom rnbinom
Normal pnorm qnorm dnorm rnorm
Poisson ppois qpois dpois rpois
t�Student pt qt dt rt
Rango Studentizado ptukey qtukey dtukey rtukey
Uniforme punif qunif dunif runif
Weibull pweibull qweibull dweibull rweibull
Rangos de Wilcoxon pwilcox qwilcox dwilcox rwilcox
Rangos de Wilcoxon con signo psignrank qsignrank dsignrank rsignrank
Como su nombre lo dice:
min(x), max(x), median(x), mean(x) obtiene la mediana y media de los datos,
quantile(x,p) calcula los cuantiles (0%, 25%, 50%, 75%, 100% de x),
sum(x) (suma los elementos de x), prod(x) (multiplica los elementos de x),
summary(x) presenta un resumen de los estad́ısticos de x.
sort(x), ordena en forma ascendente.
rank(x) muestra los ı́ndices de los elementos de x ordenados en forma creciente.
118 4
Jugando con R
Sugiero que verifiquen todos los comandos que se muestran en los ejemplos. . .
Ejem. 9. En el ejemplo 13, pág. 97, se calcula el estimador de la familia exponencial
fT (t) = �e��x con el método de momentos, obteniendo �̂MOM = 1/t̄.
1. Genere una muestra de tamaño n = 105 de fT (t) con � = 7.
Para generar una muestra, de la tabla 4.2 se puede ver que para generar v.a.
exponenciales se utiliza la función rexp Un primer paso es identificar la función
que genera una muestra del modelo exponencia, para asegurarse si corresponde
exactamente al modelo fT (t) = �e��x. Usando ayuda en RStudio se obtiene
es decir, el modelo que usan en R corresponde exactamente al del ejercicio. Aśı,
para generar la muestra se teclea
en donde el vector t conserva la muestra de tamaño n.
2. Genere un histograma de ésta muestra.
Para obtener el histograma, se teclea hist(t), pero si se quiere tener control en
el tipo de histograma, t́ıtulo de la gráfica, etiquetas de los ejes, color; se puede
teclear
119 4
Se puede ver que los comentarios se agregan con el śımbolo (gato, hashtag, c-sharp)
y se observan en color verde (no es necesario que los agreguen)
3. Calcule el estimador �̂MOM .
En este caso, y dado que �̂MOM = 1/t̄, se teclear 1/mean(t). En mi caso resulta
6.9984
¿Qué valor resulta en tu caso?
NOTA: Observe que los resultados se muestran en la ventana de consola y en la
ventana de Untitle1* es donde agrego los comandos. . . que se ejecutan dando click
en el ı́cono Run
Ejem. 10. En el ejemplo anterior sólo se corre una simulación de un experimento
aleatorio con una muestra exponencial, en mi caso resulta �̂MOM = 6.9984 y
evidentemente en cada una de las simulaciones que resuelven Ustedes se obtiene un
120 4
resultado semejante. ¿Qué pasa si se resuelven m = 103 simulaciones?. . . Simplemente
se tendŕıa una muestra de estimadores del parámetro �̂MOM que sigue un modelo de
probabilidad espećıfico con un valor esperado y una varianza de la v.a. �̂MOM .
Hace años, esto sonaba a locura, ¿mil simulaciones?. . . ¿cada una de tamaño
100000?. . . No obstante, hoy en d́ıa se reduce a “jugar” con R.
y el promedio de �̂MOM , en mi caso, es mean(hat.lambda) = 6.9999 y además, se
puede calcular la probabildiad de que �̂MOM tome valores entre 6.98 y 7.02. En mi caso,
P (6.98 < �̂MOM < 7.02) = 0.642,
que se obtiene tecleando sum((hat.lambda > 6.98)*(hat.lambda < 7.02))/m
———————————————————————————————————
121 4
Ejercicios
1.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga
la expresión del estimador por el método de momentos de p con n fija.
2.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �2.
Obtenga una expresión de los estimadores por el método de momentos.
3.– Sea x1, . . . , xn una muestra tomada de una masa binomial con parámetros n y p. Obtenga
la expresión del estimador de máxima verosimilitud de p con n fija.
4.– Sea x1, . . . , xn una muestra tomada de una densidad normal con parámetros µ y �.
Obtenga una expresión de los estimadores por el método de máxima verosimilitud.
5.– Obtenga los estimadores de momentos y de máxima verosimilitud de la densidad Weibull
fX(x;↵,�) = ↵�x��1e�↵x
�
I(x > 0), ↵,� > 0
6.– La distribución Pareto generalizada (DPG) se define como
F (x; k,�) =
8
><
>:
1�
⇣
1� kx
�
⌘ 1
k
+
, k 6= 0
1� exp
⇣
�x
�
⌘
, k = 0
Obtenga los estimadores de momentos y de máxima verosimilitud para k,� > 0
7.– Sea X1, . . . , Xn ⇠ Unif(0, 1). Aproxime la probabilidad de que la v.a. X̄n =
1
n
nX
k=1
Xk
tome valores entre 0.48 y 0.52 con n = 30, 50 y 75.
8.– [Aproximación densidad normal a binomial ] Considere el experimento que consiste en
arrojar una moneda con probabilidad de 0.4 de obtener águila. Calcule la probabilidad
de obtener al menos 20 águilas en 40 lanzamientos usando: (a) la distribución binomial;
(b) la aproximación normal; (c) Comente sobre la precisión de la aproximación.
9.– Si X1, X2, . . . , Xn es una muestra de una población normal con media µ y varianza �2,
entonces
X̄n ⇠ N(µ,�2) (4.12)p
n(X̄n � µ)
�
⇠ N(0, 1) (4.13)
(n� 1)s2n
�2
⇠ �2n�1 (4.14)
p
n(X̄n � µ)
sn
⇠ tn�1 (4.15)
Genere 103 muestras de tamaño n = (102, 103, 104) de una distribución normal con
parámetros µ = 2/3, �2 = 7/9 y con ellas verifique si hay argumentos emṕıricos que
den evidencia de las ecuaciones (4.12), (4.13), (4.14) y (4.15).
Bibliograf́ıa
[1] Doob, J.L. (1953) Stochastics Processes. Wiley Classics Library. ISBN 978-0-471-52369-
7, pp 654.
[2] Brockwell, P. J. & Davis, R. A. (2002) Introduction to Time Series and Forecasting, 2nd
Edition, Springer-Verlag.
[3] Canavos, G.C. (1988) Probabilidad y Estad́ıstica, Aplicaciones y métodos. McGraw-
Hill/Interamericana de México S.A. de C.V. ISBN 968-451-856-0. México.
[4] Casella, G. & Berger, R.L (2002) Statistical Inference, Second Edition. Duxbury
Thomson Learning. ISBN 0-534-24312-6.
[5] Feller, W. (1950) An introduction to Probability Theory and Its Applications, Volume I,
John Wiley & Sons, Inc., New York · London · Sydney.
[6] Hogg, R. V., McKean, J. W., & Craig, A. T. (2005). Introduction to mathematical
statistics. Upper Saddle River, N.J: Pearson Education.
[7] Hubbard & Hubbard (2002) Vector Calculus, Linear Algebra, and Di↵erential Forms,
second edition, Prentice Hall.
[8] Kannan, D. (1979) An introduction to stochastic processes, Elsevier North Holland, Inc.,
Caṕıtulo 9.
[9] Kolmogorov, A. (1950) Foundations of the Theory of Probability, Chelsea Publishing
Company, English translation which appeared in Russian, 1936. Para los interesados,
está disponible en forma gratuita en http://www.york.ac.uk/depts/maths/histstat/kolmogorov_foundations.pdf
[10] Mood & Graybill (1969) Introducción a la teoŕıa de la estad́ıstica, 2da Ed., Aguilar,
España.
[11] Papoulis, A. & Pillai, S. U. (2002) Probability, Random Variables and Stochastic
Processes, McGraw�Hill, Inc.
[12] Rohatgi, V.K. (1984) Statistical Inference, Dover Publications, Inc., MIneola, NY, pp.
984.
[13] Shorak, G.R. (2000) Probability for Statisticians, Springer-Verlag, New York, pp. 585.
122