Logo Studenta

Intervalos-asintoticos-de-confianza-para-modelos-estadsticos-parametricos-especificados-va-la-funcion-generadora-de-probabilidades

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA 
 DE MÉXICO 
 
 FACULTAD DE CIENCIAS 
 
 
INTERVALOS ASINTÓTICOS DE CONFIANZA PARA 
MODELOS ESTADÍSTICOS PARAMÉTRICOS 
ESPECIFICADOS VÍA LA FUNCIÓN GENERADORA 
DE PROBABILIDADES 
 
 
 
 
 
 
 
 
T E S I S 
 
 
 QUE PARA OBTENER EL TÍTULO DE: 
 ACTUARIA 
 P R E S E N T A : 
 SANDRA GONZÁLEZ MALDONADO 
 
 
 
 
 
 
 
 
DIRECTOR DE TESIS: 
DR. MIGUEL NAKAMURA SAVOY 
2010 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
Hoja de datos del jurado 
1. Datos del alumno 
González 
Maldonado 
Sandra 
56 18 51 63 
Universidad Nacional Autónoma de México 
Facultad de Ciencias 
Actuaría 
30303696-8 
 
2. Datos del tutor 
Dr. 
Miguel 
Nakamura 
Savoy 
 
3. Datos del sinodal 1 
Dra. 
María Asunción Begoña 
Fernández 
Fernández 
 
4. Datos del sinodal 2 
Dra. 
Silvia 
Ruiz-Velasco 
Acosta 
 
5. Datos del sinodal 3 
Dra. 
Ruth Selene 
Fuentes 
García 
 
6. Datos del sinodal 4 
Dr. 
Alberto 
Contreras 
Cristán 
 
7. Datos del trabajo escrito. 
Intervalos asintóticos de confianza para modelos estadísticos paramétricos 
especificados vía la función generadora de probabilidades 
69 p. 
2010 
 
Índice general
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1. M-Estimación 6
1.1. M-estimadores . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Propiedades asintóticas . . . . . . . . . . . . . . . . . . . . 8
2. Método FGPE = FGP 13
2.1. Función generadora de probabilidades . . . . . . . . . . . . 13
2.2. Método FGPE = FGP . . . . . . . . . . . . . . . . . . . . 15
3. Intervalos Asintóticos de Confianza 19
3.1. Intervalos asintóticos para parámetros poblacionales . . . . 19
3.2. Intervalos asintóticos para la media y la varianza del modelo 22
4. Implementación de la metodoloǵıa propuesta y análisis de
cobertura 25
4.1. Distribución Binomial Negativa . . . . . . . . . . . . . . . 27
4.2. Modelo
N∑
i=1
Yi . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3. Modelo AR(1) BN general . . . . . . . . . . . . . . . . . . 48
1
5. Conclusiones 63
A. 65
Apéndice 65
A.1. Modos de convergencia . . . . . . . . . . . . . . . . . . . . 65
A.2. Leyes de los Grandes Números . . . . . . . . . . . . . . . . 66
A.3. Teorema del Ĺımite Central . . . . . . . . . . . . . . . . . 66
Bibliograf́ıa 68
2
Agradecimientos
A toda mi familia por su apoyo. De manera especial a mis abue-
los América González Carranza y Marcos Maldonado Gómez (q.e.p.d.),
quienes me brindaron amor, cuidados y educación e inculcaron en mı́ los
valores que me formaron como persona. A mis padres Maŕıa Concepción
Maldonado González y Vı́ctor González Coronado por su amor, confianza
y motivaćıón para concluir mis estudios.
Al Dr. Miguel Nakamura Savoy, por aceptar ser mi asesor, brindándo-
me en todo momento apoyo, gúıa y consejos, creando con ello un excelente
ambiente de trabajo.
A mis sinodales, Dra. Maŕıa Asunción Begoña Fernández, Dra. Sil-
via Ruiz-Velasco, Dra. Ruth Selene Fuentes y Dr. Alberto Contreras por
participar en la revisión de este trabajo de tesis.
A todos los profesores de la Facultad de Ciencias que participaron en
mi formación académica.
Al programa de becas PRONABES, gracias al cual pude cursar y
concluir mis estudios de licenciatura.
A mis compañeros y amigos, quienes siempre estuvieron ah́ı para apo-
yarme.
3
Introducción
Parte esencial de la inferencia estad́ıstica es la estimación de paráme-
tros, ya sea de manera puntual o por medio de intervalos. El que una u
otra de estas formas de estimación sea pertinente, depende del contexto
de cada problema y del objetivo espećıfico que se persigue. Aún en los
casos en que la estimación puntual (inferencia a través de un sólo valor
númerico) sea indicada, es común que se omita por completo una cuan-
tificación de la incertidumbre inductiva de la estimación puntual, como
ejemplo, v́ıa el error estándar. En la estimación por v́ıa de intervalos, la
noción de esta incertidumbre es siempre conspicua, pues se trata de en-
contrar una colección de valores plausibles del parámetro, dando lugar a
distintos grados de certeza sobre rangos del parámetro. En este sentido
se podŕıa decir que un intervalo es un instrumento más completo que una
mera estimación puntual. Mas aún, aunque el estimador puntual proceda,
una estimación por intervalos le otorgaŕıa un valor complementario.
El objetivo de este trabajo es hilar una serie de resultados que per-
miten ir de la estimación puntual de los parámetros de un modelo a la
creación de intervalos de confianza asintóticos para los estimadores y más
aún, para funciones de ellos.
La clase de modelos que trataremos son los que tienen soporte en los
enteros no negativos. Supondremos que se encuentran caracterizados a
través de su función generadora de probabilidades (concepto del que se
hará un repaso en el Caṕıtulo 2), en vez de estarlo a través de su función
de densidad. Presentaremos un método de estimación puntual espećıfico
para ellos, estudiaremos sus propiedades asintóticas y veremos cómo se
pueden aprovechar éstas con el fin de construir intervalos de confianza.
Implementaremos el procedimiento propuesto para tres modelos pa-
ramétricos, siendo el último de ellos el que motivó este trabajo. Se revi-
sarán las propiedades de los estimadores mediante un estudio de simula-
ción y se presentará el análisis de cobertura de los intervalos de confianza.
La relevancia de este procedimiento es realizar estimación paramétri-
ca en el caso en que sea natural caracterizar un modelo estad́ıstico con
4
su función generadora de probabilidades. En efecto, como veremos, hay
situaciones donde esta última se obtiene de manera sencilla.
Hacia el final concluiremos que como todo procedimiento asintótico,
hay condiciones en las que es recomendable y otras donde la dimensiona-
lidad del problema hace prohibitivo su uso indiscriminado.
5
Caṕıtulo 1
M-Estimación
En los años sesenta se estudiaron métodos de estimación que no re-
quirieran como hipótesis un modelo espećıfico para los datos y cuyo com-
portamiento fuera aceptable para vecindades cercanas a un modelo esta-
blecido. Como resultado de ese trabajo, Huber (1964) introdujo los M-
estimadores, que además de contar con interesantes propiedades asintóti-
cas, juegan un papel importante en el campo de la Estad́ıstica robusta1.
En este caṕıtulo presentaremos dicho método, veremos que tiene un
amplio rango de aplicación, que el método de máxima verosimilitud es
un caso particular de él y que, bajo ciertas hipótesis, los M-estimadores
poseen propiedades como la consistencia y la normalidad asintótica. La
conexión de esta teoŕıa con el método de estimación de parámetros basado
en la función generadora de probabilidades será clarificado en el Caṕıtulo
2.
1.1. M-estimadores
Los M-estimadores pueden ser definidos de dos formas; en la primera
de ellas como ráıces de una ecuación, en la segunda como minimizadores
de una función. La reseñaque presentamos en esta sección está basada
1Ver [Huber], el art́ıculo original donde fueron introducidos los M-estimadores.
6
en [Huber](1964) y [Serfling](1980).
Definición 1.1. Sea F0 = {F (·; θ), θ ∈ Θ} una familia paramétrica de
distribuciones. Sea ψ = ψ(x, s) una función tal que∫
ψ(x, θ)dF (x; θ) = 0, θ ∈ Θ, (1.1)
es decir, el valor de s que resuelve dicha ecuación coincide con el valor
real del parámetro. Sean X1, . . . , Xn, variables aleatorias independientes
e idénticamente distribuidas con función de distribución F . Ya que la
muestra {X1 = x1, . . . , Xn = xn} se ha observado, un M-estimador θ̂n de
θ es aquel valor de s que satisface
n∑
i=1
ψ(xi, θ̂n) =
∫
ψ(x, θ̂n)dFn(x) = 0, (1.2)
para una función espećıfica ψ p-valuada, donde Fn es la función de dis-
tribución emṕırica, y θ ∈ Θ ⊆ Rp.
Definición 1.2. Sean X1, . . . , Xn, variables aleatorias independientes e
idénticamente distribuidas con función de distribución F . Ya que la mues-
tra {X1 = x1, . . . , Xn = xn} se ha observado, un M-estimador θ̂n de θ es
el valor de s que minimiza a
∑n
i=1 ρ(xi, s) =
∫
ρ(x, s)dFn(x), para una
función espećıfica ρ.
Si ρ(x, s) es parcialmente diferenciable respecto a s, un minimizador
de
∑n
i=1 ρ(xi, s) es en particular una ráız de la ecuación
∑n
i=1 ψ(xi, s) = 0
con
ψ(x, s) =
∂
∂s
ρ(x, s).
En ese caso, caeŕıamos de nuevo en la primera definición. Las funciones
ψ y ρ pueden tener múltiples ráıces y minimizadores respectivamente, en
esos casos es necesario un criterio de elección.
Este método también puede implementarse para el caso de variables
aleatorias independientes pero no idénticamente distribuidas, sin embargo
en este trabajo nos limitaremos al caso i.i.d.
Para diferentes elecciones de la funcion ψ, se obtendrán diferentes
tipos de M-estimadores, por lo que el rango de aplicación de este método
7
es muy amplio. En particular los estimadores obtenidos por el método de
máxima verosimilitud pueden ser vistos como M-estimadores, si
ψ(x, θ) = − d
dθ
lnf(x|θ)
para una familia espećıfica de densidades f(x|θ) y donde la ecuación a
resolver es la ecuación de verosimilitud
n∑
i=1
ψ(xi, θ) = −
d
dθ
n∑
i=1
lnf(xi|θ) = −
d
dθ
ln
(
n∏
i=1
f(xi|θ)
)
= 0.
La importancia de que, para una elección de la función ψ, se obtenga
el estimador máximo verośımil, radica en que dicha clase contiene a un
estimador eficiente2 (al menos asintóticamente).
De hecho, la nomenclatura M-estimador propuesta por Huber se debe
a que éstos son estimadores tipo máxima verosimilitud, sin embargo, bajo
esta formulación se logró abarcar una clase mucho más rica. En la M-
estimación están contenidos además del método de máxima verosimilitud,
el método de momentos, el de mı́nimos cuadrados, y como veremos en el
caṕıtulo 2, cierto planteamiento de estimación de parámetros basado en
la función generadora de probabilidades.
1.2. Propiedades asintóticas
Como mencionamos en la introducción de este caṕıtulo, los M- estima-
dores son consistentes y asintóticamente normales si se elige una función
ψ apropiada. En esta sección presentaremos las caracteŕısticas que debe
tener ψ y las definiciones de las propiedades asintóticas antes menciona-
das; la primera que abordaremos es la consistencia.
Se dice que un estimador es consistente si converge al valor real del
parámetro poblacional, cuando el tamaño de la muestra tiende a infinito.
El modo de convergencia determina si la consistencia es débil o fuerte de
acuerdo a la siguiente definición
2De varianza mı́nima.
8
Definición 1.3. La sucesión de estimadores de θ, {θ̂n = T (X1, . . . , Xn)},
es débilmente consistente si θ̂n
Pθ→ θ cuando n → ∞ para toda θ ∈ Θ.
Es fuertemente consistente si θ̂n
c.s.→ θ bajo Pθ cuando n → ∞ para toda
θ ∈ Θ.
Por otro lado, cuando la distribución estandarizada de un estimador
se aproxima a la distribución normal mientras el número de observaciones
aumenta, se dice que éste es asintóticamente normal.
Definición 1.4. La sucesión de estimadores de θ, {θ̂n = T (X1, . . . , Xn)},
es asintóticamente normal N(θ, σ2(θ)), si
√
n(θ̂n − θ)
D→ X para toda
θ ∈ Θ, donde X ∼ N(0, σ2(θ)) bajo Pθ y se escribe
√
n(θ̂n − θ)
D→ N(0, σ2(θ)), cuando n→∞.
No todos los M-estimadores cumplen las propiedades anteriores; para
que esto suceda deben pedirse ciertas condiciones a la función ψ. En gene-
ral, el comportamiento asintótico de una ráız de
∫
ψ(x, s)dFn(x) depende
de que la ecuación
∫
ψ(s, x)dF (x) = 0 tenga solución única. Entonces las
dificultades que podŕıan aparecer son:
Que la ecuación
∫
ψ(x, s)dFn(x) = 0 no se satisfaga para ningún
valor de s.
Que
∫
ψ(x, s)dFn(x) = 0 tenga múltiples ráıces, en cuyo caso es
necesario contar con una regla que permita elegir una de ellas.
En los siguientes lemas se asegura la consistencia de los M-estimadores
si ψ es una función continua y monótona (Lema 1.1) o bien, continua y
acotada (Lema 1.2).
Lema 1.1. Sea θ0 una ráız aislada de la ecuación
∫
ψ(x, s)dF (x) = 0.
Sea ψ(x, s) monótona en s. Entonces θ0 es única y cualquier sucesión
de ráıces de la ecuación emṕırica
∫
ψ(x, s)dFn(x) = 0 converge a θ0 casi
seguramente. Si además, ψ(x, s) es continua en s en una vecindad de θ0,
entonces la sucesión de estimadores de θ, {θ̂n}, existe.
9
Demostración. Supongamos que ψ(x, s) es una función no creciente de s.
Entonces λF (s) =
∫
ψ(x, s)dF (x) y λFn(s) =
∫
ψ(x, s)dFn(x) son fun-
ciones no crecientes de s. Como θ0 es una ráız aislada y λF (s) es monótona,
entonces θ0 es su única ráız.
Si tomamos � > 0, se sigue de la afirmación anterior que λF (θ0 + �) <
0 < λF (θ0− �). Ahora, por la Ley fuerte de los grandes números tenemos
que Fn(x)
c.s.→ F (x), por lo que λFn(s)
c.s.→ λF (s) para cada s, entonces
usando la caracterización (A.1) de convergencia casi segura, tenemos
ĺım
n→∞
P (λFm(θ0 + �) < 0 < λFm(θ0 − �), para toda m ≥ n) = 1. (1.3)
Para concluir, como ψ(x, s) es continua en s, en la vecindad de radio
� alrededor de θ0, entonces la sucesión {θ̂n} existe.
No es necesario que θ0 sea una ráız exacta de λF (s) = 0. Basta que la
función cambie de signo sólo una vez y en una vecindad de θ0, aśı se sigue
cumpliendo (1.3) y la existencia de {θ̂n}. El siguiente lema nos permite
garantizar la consistencia de los M-estimadores si la función ψ es acotada
en lugar de ser monótona, manteniendo la hipótesis de continuidad.
Lema 1.2. Sea θ0 una ráız aislada de λF (s) = 0. Sea ψ(x, s) una función
continua y acotada. Entonces la ecuación emṕırica λFn = 0 tiene una
sucesión de soluciones {θ̂n} que converge casi seguramente a θ0.
Demostración. Basta demostrar que λF (s) y λFn(s) para cada n, son
funciones continuas de s y seguir de manera análoga a la prueba del
Lema 1.1.
Habiendo demostrado los lemas anteriores, tenemos el siguiente coro-
lario
Corolario 1.1. Supongamos que
∫
ψ(x, θ)dF (x) = 0 tiene una única
ráız θ0, donde ψ es una función continua y monótona o bien, continua y
acotada. Entonces
∫
ψ(x, θ)dFn(x) = 0 admite una sucesión de ráıces θ̂n
tales que θ̂n
c.s.→ θ0.
10
Ya que hemos establecido las condiciones bajo las cuales los M- esti-
madores son consistentes, veremos cuáles se deben añadir para que sean
asintóticamente normales. Para ello presentaremos el siguiente teorema,
en el que se usan las mismas hipótesis que en el Lema 1.1.
Teorema 1.1. Sea θ0 una ráız aislada de λF (s). Sea ψ(x, s) monótona
en s. Supongamos además que λ′F (θ0) existe y es distinta de cero y por
último, que
∫
ψ2(x, θ)dF (x) <∞ en una vecindad de θ0 y continua en θ0.
Entonces, cualquier sucesión de ráıces θ̂n de
∫
ψ(θ, x)dFn(x) = 0 satisface
que
√
n(θ̂n − θ0)
D→ N
(
0,
∫
ψ2(x, θ0)dF (x)
(
∫
ψ′(x, θ)dF (x))2|θ=θ0
)
.
Una demostración formal puede revisarse en [Serfling, Caṕıtulo 7, pp.
251-252], junto a otros dos teoremas en los que se usan diferentes su-
puestos acerca de ψ. Una prueba más accesiblees la que se encuentra en
[Stefanski & Boos](2002) y que presentamos a continuación.
Ya que ψ es una función suave, podemos aplicar el Teorema de Taylor
a Gn(θ) =
1
n
n∑
i=1
ψ(Xi,θ), con lo que tenemos:
Gn(θ̂) = Gn(θ0) + Ġn(θ̂ − θ0) + Rn = 0 (1.4)
donde t y θ son vectores p-dimensionales y Ġn es la matriz de las deri-
vadas parciales de Gn respecto a θ, es decir
Ġn =
[
∂
∂θT
Gn(θ)
] ∣∣∣∣
θ=θ0
.
Suponiendo que para n suficientemente grande, Ġ(θ0), es no-singular,
(1.4) se reescribe como
√
n(θ̂ − θ0) =
[
−Ġn(θ0)
]−1√
nGn(θ0) +
√
nR∗n (1.5)
donde 3 √
nR∗n
P→ 0. (1.6)
3Algunas demostraciones pueden revisarse en [Serfling](1980), Cap. 5-8.
11
Definiendo ψ̇(x,θ) = ∂ψ(x,θ)/∂θT , bajo las condiciones apropiadas
de regularidad y usando la Ley débil de los grandes números (A.2), tene-
mos
−Ġn(θ0) =
1
n
n∑
i=1
[
−ψ̇(Xi,θ0)
]
P→ E
[
−ψ̇(X1,θ0)
]
= A(θ0). (1.7)
Por otro lado, se sigue del Teorema del Ĺımite Central (A.4) que√
nGn(θ0)
D→ NMV(0,B(θ0)), donde
B(θ0) = E
[
ψ(X1,θ0)ψ(X1,θ0)
T
]
. (1.8)
Por último, usando la definición (1.1), los resultados (1.5)-(1.6) y apli-
cando el Teorema de Slutsky (A.1), se concluye que
θ̂n
D→ NMV
(
θ0,
Σ(θ0)
n
)
, (1.9)
donde
Σ(θ0) = A(θ0)
−1B(θ0)
[
A(θ0)
−1]T (1.10)
es la matriz ĺımite de covarianzas de un M-estimador.
Las siguientes matrices son los estimadores de A(θ0) y B(θ0):
An(X , θ̂) = −Ġn(θ̂) =
n∑
i=1
[
−ψ̇(Xi, θ̂)
]
, (1.11)
y
Bn(X , θ̂) =
n∑
i=1
[
ψ(Xi, θ̂)ψ(Xi, θ̂)
T
]
. (1.12)
Además, si A(θ0) y B(θ0) son funciones continuas de θ, entonces, el
siguiente es un estimador consistente de Σ(θ0):
Σ(θ0) = An(X , θ̂)
−1Bn(X , θ̂)
[
An(X , θ̂)
−1
]T
, (1.13)
mismo que usaremos en los ejemplos para obtener las varianzas asintóticas
correspondientes y que nos permitirá construir intervalos de confianza
para θ.
12
Caṕıtulo 2
Método FGPE = FGP
En el art́ıculo [Kemp & Kemp](1988) se introdujeron algunos méto-
dos de estimación puntual para distribuciones de conteo1. El propósito de
dicho trabajo fue presentar alternativas que requirieran rutinas compu-
tacionales sencillas, abordando el problema desde el enfoque de la función
generadora de probabilidades.
En este caṕıtulo revisaremos uno de esos métodos, veremos que es un
caso particular de M-estimación, por lo que, si se cuenta con las hipótesis
adecuadas, hereda las propiedades de consistencia y normalidad asintóti-
ca. Será de especial interés el estimador emṕırico de la matriz de covarian-
zas de dichos estimadores, ya que a partir de él será posible el desarrollo
de intervalos asintóticos de confianza para los parámetros poblacionales
y funciones de ellos.
2.1. Función generadora de probabilidades
Definición 2.1. Sea X una variable aleatoria que toma valores en los
enteros no negativos, tal que P (X = i) = pi, i = 0, 1, 2, . . . , entonces
definimos la función generadora de probabilidades como
φ(t) = E(tx) = p0 + p1t+ p2t
2 + . . . , con − 1 ≤ t ≤ 1. (2.1)
1Distribuciones discretas con soporte en los enteros no negativos.
13
Dado que la función generadora de probabilidades determina de ma-
nera única a una distribución, a partir de ella podemos obtener, sin am-
bigüedades, los valores de pi, y los momentos factoriales de la variable
aleatoria X, como vemos a continuación:
Propiedades de φ(t)
φ(1) ≡ 1.
φ′(1) = E(X).
En general, se puede obtener el n-ésimo momento factorial de X,
evaluando la n-ésima derivada de φ en t = 1, esto es
dn
dtn
φ
∣∣∣
t=1
= φ(n)(1) = E[X(X − 1) . . . (X − n+ 1)tX−n]
∣∣
t=1
.
P (X = n) = pn =
φ(n)(0)
n!
.
Es por esta última propiedad que la función recibe su nombre.
En el caso X = Z +Y , con Z e Y variables aleatorias independientes,
el desarrollo es el siguiente:
φZ(t) = E(t
Z) =
∞∑
n=0
tzP (Z = z)
=
∞∑
n=0
tzP (X + Y = z)
=
∞∑
n=0
n∑
r=0
trP (X = r)P (Y = n− r)tn−r
=
∞∑
r=0
∞∑
n=r
trP (X = r)P (Y = n− r)tn−r
=
∞∑
r=0
∞∑
s=0
trP (X = r)P (Y = s)ts, con s = n− r
=
∞∑
r=0
trP (X = r)
∞∑
s=0
P (Y = s)ts
= φX(t)φY (t). (2.2)
14
Si X = X1, . . . , Xn es un vector aleatorio, entonces la función genera-
dora de probabilidades conjunta está definida aśı:
φ(t1, . . . , tn) = E(t
X1
1 t
X2
2 . . . t
Xn
n ). (2.3)
Una vez que {X1 = x1, . . . , Xn = xn} ha sido observada, la función ge-
neradora de probabilidades emṕırica se obtiene reemplazando los valores
de pi por las frecuencias relativas de los valores contenidos en la muestra,
(fx), lo que nos lleva a la siguiente definición:
Definición 2.2. Sea {X1 = x1, . . . , Xn = xn} una muestra proveniente de
una distribución F con función generadora de probabilidades φ, entonces
φn(t) =
n∑
i=1
fxt
xi =
1
n
n∑
i=1
txi (2.4)
es la función generadora de probabilidades emṕırica. En el caso multiva-
riado,
φn(t1, . . . , tn) =
1
n
n∑
i=1
t
x1,i
1 t
x2,i
2 . . . t
xn,i
n . (2.5)
2.2. Método FGPE = FGP
Como comentamos al principio de este caṕıtulo, en [Kemp & Kemp]
(1988), se introdujeron varios métodos de estimación puntual de paráme-
tros basados en la función generadora de probabilidades. El más sencillo
de ellos se presenta en esta sección y consiste a grandes rasgos en igualar
las funciones generadoras de probabilidades teórica y emṕırica de un mo-
delo paramétrico. En los otros dos planteamientos se igualan las derivadas
de dichas funciones, o bien, las derivadas de sus logaritmos.
Consideremos un parámetro θ = (θ1, θ2, . . . , θp) ∈ Θ ⊆ Rp y la familia
de funciones generadoras de probabilidad {φ(t, θ)}
∣∣
θ∈Θ, entonces un esti-
mador de θ obtenido por este método está definido, para un vector fijo
15
t = (t1, . . . , tp), 1 ≤ t1 <, . . . , < tp ≤ 1, i = 1, . . . , p, como solución del
siguiente sistema de ecuaciones
φn(t1) = φ(t1, θ)
... (2.6)
φn(tp) = φ(tp, θ).
Por simplicidad, usaremos φn(t) = φ(t ,θ) para representar el sistema
anterior, donde t y θ son vectores p-dimensionales.
Ahora, si reescribimos el sistema usando (2.1) y (2.4) de la siguiente
forma:
φn(t)− φ(t ,θ) =
1
n
n∑
i=1
txi − E(tX)
=
1
n
n∑
i=1
txi − nE(t
X)
n
=
1
n
n∑
i=1
(txi − E(tX))
= 0,
vemos que los valores de θ que le dan solución son, por definición, M-
estimadores ya que resuelven una ecuación de la forma
1
n
n∑
i=1
Ψ(Xi,θ) = 0 (2.7)
y por lo tanto, si ψ cumple las hipótesis adecuadas, éstos son consistentes
y asintóticamente normales.
En el primer caṕıtulo, desarrollamos la matriz ĺımite de covarian-
zas para los M-estimadores; ahora, tomando como referencia el art́ıculo
[Dowling & Nakamura] (1994), presentaremos la expresión espećıfica para
este método. En dicho art́ıculo, los autores hacen alusión a la teoŕıa de
M-estimación de la misma manera que se hará en esta tesis. Sin embargo,
aqúı se realizará un estudio más detallado de la cobertura asintótica de los
intervalos y se considerará expĺıcitamente un ejemplo multiparamétrico
motivado por un problema de agronomı́a.
16
Para obtener la matriz A(θ0), sustituiremos en la definición (1.7), la
función ψ por la resta de las funciones generadoras de probabilidades
emṕırica y teórica,
A(θ0) = E
[
− ∂
∂θT
(φ1(t)− φ(t ,θ))
] ∣∣∣∣
θ=θ0
= E
[
− ∂
∂θT
(tx1 − φ(t ,θ))
] ∣∣∣∣
θ=θ0
= E
[
∂
∂θT
φ(t ,θ)
] ∣∣∣∣
θ=θ0
=
∂
∂θT
E [φ(t ,θ)]
∣∣∣∣
θ=θ0
obteniendo la última igualdad a partir del supuesto de condiciones de
regularidad.
Usando que E(φ(t, θ)) = E[E(tX)] = E(tX) = φ(t, θ), tenemos:
A(θ0) =
∂
∂θT
φ(t ,θ)
∣∣∣∣
θ=θ0
=

∂
∂θ1
φ(t1,θ) · · · ∂∂θp φ(t1,θ)
...
. . .
...
∂
∂θ1
φ(tp,θ) · · · ∂∂θpφ(tp,θ)

∣∣∣∣∣∣∣∣
θ=θ0
. (2.8)
Análogamente para la matriz B, usando (1.8)
B(θ0) = E
[
ψ(X1,θ0)ψ(X1,θ0)
T
]
= E
[
(φ1(t)− φ(t ,θ0)) (φ1(t)− φ(t ,θ0))T
]
= E
[(
tX1 − φ(t ,θ0)
) (
tX1 − φ(t ,θ0)
)T]
= E
[
(ttT )X1 − tX1φ(t ,θ0)T − φ(t ,θ0)(tT )X1 + φ(t ,θ0)φ(t ,θ0)T
]
= φ(ttT ,θ0)− 2φ(t ,θ0)φ(tT ,θ0) + φ(t ,θ0)φ(tT ,θ0)
= φ(ttT ,θ0)− φ(t ,θ0)φ(tT ,θ0). (2.9)
Ahora, recurriendo a las definiciones (1.11) y (1.12),sus estimadores
emṕıricos son:
An(X, θ̂) =
[
∂
∂θT
φ(t ,θ)
]∣∣∣∣
θ=θ̂
. (2.10)
17
Notemos que la matriz A(θ0) y su estimador tienen la misma expre-
sión, sólo que en la primera sustitúımos el valor real del parámetro y en
la segunda el estimador obtenido por el método FGPE=FGP. Lo ante-
rior sucede porque la derivada de la función generadora de probabilidades
emṕırica respecto a θ, es cero.
Para la matriz B tenemos:
Bn(X, θ̂) =
1
n
n∑
i=1
[(
φ1(t)− φ(t , θ̂)
)(
φ1(t)− φ(t , θ̂)
)T]
=
1
n
n∑
i=1
[(
tXi − φ(t , θ̂)
)(
tXi − φ(t , θ̂)
)T]
. (2.11)
18
Caṕıtulo 3
Intervalos Asintóticos de
Confianza
Hasta ahora hemos presentado un método de estimación puntual para
distribuciones de conteo, que bajo las hipótesis adecuadas, nos brinda es-
timadores consistentes y asintóticamente normales; en este caṕıtulo vere-
mos que esas propiedades nos permiten construir intervalos de confianza
para los parámetros poblacionales y funciones de ellos. Esto último es
importante porque usualmente los parámetros, en śı mismos, no tienen
una interpretación concreta para el problema al que se ajusta el modelo
estad́ıstico.
3.1. Intervalos asintóticos para parámetros
poblacionales
Como vimos antes, los estimadores puntuales son aproximaciones de
los parámetros poblacionales, pero por śı mismos no nos dicen qué tan
acertados son. Otra forma de abordar el problema de estimación es cons-
truir intervalos que cubran al valor real del parámetro con una probabi-
lidad definida de antemano.
Definición 3.1. Supongamos que, dada � > 0, existen variables aleatorias
19
θ−(�,X) y θ+(�,X) tales que
Pθ(θ
−(�,X) < θ, θ+(�,X) > θ) ≥ 1− �. (3.1)
Entonces el intervalo (θ−, θ+) es llamado intervalo de confianza para θ al
nivel 1− �.
Es claro que (3.1) puede escribirse también como
Pθ(θ
− < θ < θ+) ≥ 1− �, (3.2)
es decir, el evento en el cual el intervalo aleatorio (θ−, θ+) contiene al valor
desconocido θ, tiene probabilidad 1 − �. Es incorrecto decir “θ cae en el
intervalo (θ−, θ+)”, pues en esta formulación el valor θ no es aleatorio.
Un intervalo asintótico de confianza, que es justamente lo que preten-
demos construir en este trabajo está definido de la siguiente forma.
Definición 3.2. Sea X = {X1, . . . , Xn} una muestra aleatoria provenien-
te de la distribución Fθ, supongamos que dada � > 0, existen variables
aleatorias θ−(�,X) y θ+(�,X) tales que
ĺım inf
n→∞
Pθ
(
θ−(�,X) < θ < θ+(�,X)
)
≥ 1− �. (3.3)
Entonces el intervalo (θ−, θ+) es llamado intervalo asintótico de confianza
para θ al nivel 1− �.
Como vimos en el caṕıtulo anterior, el método de estimación FGPE=
FGP produce estimadores asintóticamente normales. El siguiente desarro-
llo muestra cómo podemos construir dichos intervalos partiendo de este
supuesto.
Si θ∗n es un estimador asintóticamente normal, entonces cuando n→∞
√
n(θ∗n − θ)
D→ N(0, σ2(θ)). (3.4)
Además, si σ(θ) es una función continua de θ, podemos usar la consis-
tencia del estimador, es decir que θ∗n
P→ θ, y recurrir al Teorema de mapeo
continuo (A.6) para llegar a que σ(θ∗n)
P→ σ(θ).
20
Con lo anterior y (3.4), se sigue del Teorema de Slutsky que
√
n(θ∗n − θ)
σ(θ∗n)
D→ N(0, 1). (3.5)
Si denotamos por Zα al cuantil 1−α de la distribución normal estándar,
entonces, para � > 0, (3.5) implica que
ĺım
n→∞
Pθ
(∣∣∣∣√n(θ∗n − θ)σ(θ∗n)
∣∣∣∣ < Z�/2) = 1− �, (3.6)
lo que podemos reescribir como
ĺım
n→∞
Pθ
(
θ∗n −
Z�/2σ(θ
∗
n)√
n
< θ < θ∗n +
Z�/2σ(θ
∗
n)√
n
)
= 1− �. (3.7)
Entonces, los valores
(θ−, θ+) =
(
θ∗n +
Z�/2σ(θ
∗
n)√
n
, θ∗n −
Z�/2σ(θ
∗
n)√
n
)
(3.8)
satisfacen la definición (3.2), y son los extremos del intervalo asintóti-
co de confianza de nivel 1 − �. Al trabajar con una muestra fija X =
{X1 = x1, . . . , Xn = xn} de tamaño n, la cobertura real del intervalo no
será exactamente 1− �, pero la diferencia será pequeña para tamaños de
muestra suficientemente grandes.
En el caso de que θ = (θ1, . . . , θp) sea un parámetro de dimensión p, y
su estimador θ∗n = (θ
∗
1, . . . , θ
∗
p) sea asintóticamente normal, podemos cons-
truir intervalos de confianza para cada una de sus entradas, considerando
las siguientes modificaciones:
La expresión (3.4) cambia a
√
n(θ∗n − θ)
D→ NMV(0,Σ(θ)) (3.9)
donde Σ es la matriz ĺımite de covarianzas de θ y NMV se refiere a una
distribución normal multivariada.
Sabemos que las marginales de una distribución normal multivariada
también tienen distribución normal y que la varianza de cada una de ellas
21
está dada por la entrada correspondiente de la diagonal de la matriz de
covarianzas. Esto es
√
n(θ∗i,n − θi)
D→ N(0,Σi,i(θ)). (3.10)
Bajo el mismo supuesto de continuidad utilizado anteriormente tene-
mos que Σ(θ∗n)
P→ Σ(θ), entonces, recurriendo de nuevo al Teorema de
Slutsky
√
n(θ∗i,n − θi)
Σi,i(θ∗i,n)
D→ N(0, 1) (3.11)
donde Σi,i(θ
∗
i,n) es la i-ésima entrada de la diagonal del estimador de la
matriz de covarianzas.
De lo anterior se sigue que, para � > 0
ĺım
n→∞
Pθ
(
θ∗i,n −
Z�/2Σi,i(θ
∗
i,n)√
n
< θi < θ
∗
i,n +
Z�/2Σi,i(θ
∗
i,n)√
n
)
= 1−�. (3.12)
Entonces el intervalo asintótico de confianza correspondiente es
(θ−i , θ
+
i ) =
(
θ∗i,n +
Z�/2Σi,i(θ
∗
i,n)√
n
, θ∗i,n −
Z�/2Σi,i(θ
∗
i,n)√
n
)
. (3.13)
Ya que nosotros usaremos el método FGPE=FGP para obtener es-
timadores asintóticamente normales, la matriz de covarianzas (Σ) que
utilizaremos será la que desarrollamos en el caṕıtulo anterior.
3.2. Intervalos asintóticos para la media y
la varianza del modelo
En ocasiones, los parámetros poblacionales no tienen una interpreta-
ción concreta, por lo que resulta más interesante estimar la media o la
22
varianza del modelo. Cuando éstas últimas pueden obtenerse mediante
transformaciones de los parámetros, podemos aprovechar las propiedades
asintóticas de sus estimadores. En el Teorema Delta1(3.1), herramienta
ampliamente utilizada en la teoŕıa asintótica, se establecen las condiciones
que deben cumplir dichas transformaciones para que los estimadores de
la media y la varianza hereden la consistencia y la normalidad asintótica.
Teorema 3.1. (Teorema Delta). Sea θ̂n una sucesión de estimadores
de θ tales que
√
n(θ̂n − θ)
D→ N(0, σ2(θ)), σ(θ) > 0.
Sea g : R→ R diferenciable en θ con g′(θ) 6= 0. Entonces
√
n(g(θ̂n)− g(θ))
D→ N(0, [g′(θ)]2σ2(θ)). (3.14)
En la demostración de este teorema, si una sucesión de variables alea-
torias, digamos Xn, converge en probabilidad a cero, usaremos la nota-
ción Xn = op(1), y si anXn
P→ 0, para alguna sucesión an, escribiremos
Xn = op(
1
an
).
Además, necesitaremos la siguiente definición:
Definición 3.3. Una sucesión de variables aleatorias es acotada en proba-
bilidad si, dado � > 0, existe una constante k tal que P (|Xn| > k) ≤ � para
toda n ≥ n0(�). En ese caso escribiremos Xn = Op(1), si anXn = Op(1),
entonces Xn = Op(
1
an
). En particular si Xn = op(1), entonces Xn = Op(1).
Demostración. Dado que la sucesión de estimadores {θ̂n}, converge en
probabilidad a θ, entonces
ĺım
n→∞
P (|(θ̂n − θ)− 0| > �) = 0,
es decir, (θ̂n − θ) = op(1). Como g es continua y su derivada existe,
entonces podemos usar su desarrollo en serie de Taylor, con lo que tenemos
g(θ̂n) = g(θ) + (θ̂n − θ)g′(θ) + op(θ̂n − θ).
1Algunas referencias recomendables para profundizar en su estudio son:
[DasGupta](2008), [Serfling](1980) y [van der Vaart](1998).
23
Que el residuo sea op(θ̂n − θ), se sigue de la observación de que θ̂n es
op(1). Pasando g(θ) al lado izquierdo y multiplicando ambos lados por√
n, obtenemos
√
n(g(θ̂n)− g(θ)) =
√
n(θ̂n)g
′(θ) +
√
nop(θ̂n − θ).
Como tenemos por hipótesis que
√
n(θ̂n − θ) = Op(1), entonces se
cumple que
√
nop(θ̂n − θ) = op(1). Por último, aplicando el Teorema de
Slutsky, √
n
(
g(θ̂n)− g(θ)
)
D→ N(0, (g′(θ))2σ2(θ)).
En el siguiente teorema se trata el caso multivariado.
Teorema 3.2. Sea {θ̂n} una sucesión de estimadores k-dimensionales de
θ tales que
√
n(θ̂n −θ)
D→ Nk(0,Σ(θ)). Sea g : Rk → Rm diferenciable en
θ con matriz gradiente ∇g(θ). Entonces
√
n(g(θ̂n)− g(θ))
D→ Nm(0,∇g(θT )Σ(θ)∇g(θ)).
En cualquiera de los dos casos, tenemos el supuesto de normalidad
asintótica por lo que, usando argumentos análogos a los de la construcción
de intervalos para los parámetros, podemos obtener intervalos asintóticos
de confianza para la media y la varianza, siempre y cuando las trans-
formaciones con las que se obtengan cumplan las hipótesis adecuadas.
Dicho procedimiento para aproximar la distribución normalizada de fun-
ciones de parámetros asintóticamente normales, por la distribución nor-
mal estándar, es conocido en la literatura como el Método Delta.
24
Caṕıtulo 4
Implementación de la
metodoloǵıa propuesta y
análisis de cobertura
Para ejemplificar la teoŕıa y métodos revisados en los caṕıtulos an-
teriores, aśı como para explorar la cobertura emṕırica de los intervalos,
usamos muestras provenientes de tres modelos. El primero de ellos es la
distribución binomial negativa, seguimos con la suma aleatoria de varia-
bles aleatorias con marginales distintas y por último un modelo de conteo
de ceramb́ıcidos en plant́ıos de agave, mismo que motivó este trabajo. La
intención es abarcar con ellos las siguientes situaciones representativas:
a) Una distribución de probabilidad cuyos parámetros sean estima-
bles por algún otro procedimiento diferente a FGPE=FGP, tal como
el método de máxima verosimilitud.
b) Un modelo cuya función de densidad sea dif́ıcil de obtener de
manera expĺıcita, en el que se vean involucradas variables aleato-
rias con diferentes distribuciones, pero que la dimensionalidad del
parámetro a estimar no sea elevada.
c) Un modelo en el que intervengan varias variables aleatorias, todas
ellas con distintas distribuciones, donde la función de densidad no se
25
tenga de manera expĺıcita y el parámetro a estimar sea de dimensión
grande. Esto último con el fin de revisar si el método sigue siendo
apropiado, o si la teoŕıa asintótica comienza a dar resultados útiles
para n tan grande que salga del contexto práctico.
Estimamos los parámetros del modelo supuesto en cada caso utili-
zando el método FGPE=FGP, a partir de ellos construimos intervalos
de confianza para los parámetros reales, la media y la varianza. Hicimos
también un análisis de cobertura de dichos intervalos mediante un estudio
de simulación.
Con la intención de verificar las propiedades de los estimadores, traba-
jamos con muestras de tamaño 30, 50, 100 y 1000. Las dos primeras están
pensadas en el contexto de aplicaciones estad́ısticas, donde el número de
datos disponibles es moderado, con las restantes revisamos el comporta-
miento ĺımite. El proceso se repitió 1000 veces para cada modelo con los
respectivos cambios en el tamaño de muestra.
Para resolver los sistemas de ecuaciones no lineales correspondientes a
los tres modelos, se usó una función del paquete estad́ıstico R, espećıfica
para esos fines, llamada BBsolve1, que usa el algoritmo DF-SANE con
diferentes parámetros y genera soluciones iniciales alternativas recurrien-
do al simplex inicial del método Nelder-Mead, con el fin de alcanzar la
convergencia incluso en sistemas áltamente dimensionales. Gracias a la ra-
pidez con la que se alcanzó la convergencia de los sistemas y la estabilidad
del método, el estudio de simulación fue factible.
El formato a seguir en este caṕıtulo, para cada uno de los ejemplos,
será primero introducir el aspecto técnico, es decir, la descripción preci-
sa de las parametrizaciones elegidas y, en su caso, la interpretación que
reciben; luego presentar una compilación de resultados mediante tabula-
ciones y representaciones gráficas, para concluir con comentarios generales
acerca de lo que dichos resultados significan en conjunto.
1Ver el art́ıculo de Ravi Varadhan y Paul D. Gilbert, BB: An R Packa-
ge for Solving a Large System of Nonlinear Equations and for Optimizing a
High-Dimensional Nonlinear Objective Function, que se encuentra en la página:
http://www.jstatsoft.org/v32/i04/paper.
26
4.1. Distribución Binomial Negativa
Elegimos esta distribución en particular porque, aunque sus paráme-
tros podŕıan estimarse mediante el método de máxima verosimilitud, su
función de densidad dificultaŕıa la implementación del mismo. Por otro la-
do, su función generadora de probabilidades se obtiene de manera sencilla
por lo que el método FGPE=FGP es una alternativa viable.
Existen varias parametrizaciones de la distribución binomial negativa;
la que usamos cuenta el número de fracasos antes de que ocurran un
número determinado de éxitos en una sucesión de eventos Bernoulli. Su
función de densidad es:
P (X = x) =
(
x+ β − 1
β − 1
)
(θ)β(1− θ)x (4.1)
para x = 0, 1, 2, . . . , β > 0 y 0 < θ ≤ 1, donde β representa el número
deseado de éxitos en la sucesión y θ es la probabilidad de éxito en cada
uno de los ensayos.
Para estimar dichos parámetros por el método FGPE=FGP calcula-
mos su función generadora de probabilidades. Usando (4.1) y la definición
(2.1) obtuvimos
φ(t) = E(tX) =
∞∑
x=0
tx
(
x+ β − 1
β − 1
)
(θ)β(1− θ)x
= (θ)β
∞∑
x=0
(
x+ β − 1
β − 1
)
(t(1− θ))x
= (θ)β
∞∑
x=0
(
x+ β − 1
x
)
(t(1− θ))x
= (θ)β
1
(1− t(1− θ))β
=
(
θ
(1− t(1− θ))
)β
, (4.2)
donde la condición |t(1 − θ)| < 1 que asegura la convergencia de la serie
se cumple pues t ∈ [−1, 1].
27
Notemos que el parámetro que estimamos fue el vector θ = (β, θ) ∈
Θ ⊂ R2, entonces de acuerdo a (2.6), se resolvió el sistema
1
n
n∑
i=1
txi1 =
(
θ
(1− t1(1− θ))
)β
1
n
n∑
i=1
txi2 =
(
θ
(1− t2(1− θ))
)β
(4.3)
para un vector fijo t = (t1, t2), −1 ≤ t1 < t2 ≤ 1. Los parámetros elegidos
para simular las muestras fueron β = 0.4 y θ = 0.3. Para resolver el
sistema de ecuaciones se fijó el vector t= (t1, t2) = (0.3, 0.9). Los valores
ti, i = 1, 2 se tomaron separados entre śı para evitar multiplicidad en
las soluciones del sistema, y ambos positivos, pues como se menciona en
[Dowling & Nakamura](1994), si existe al menos un ti < 0, entonces la
varianza de los estimadores aumenta. Este fenómeno puede deberse a que,
para esos valores de t, la función generadora de probabilidades emṕırica
tiene un comportamiento errático.
Podemos ver en el Cuadro (4.1), donde se presentan los resultados de
la estimación puntual de β y θ, que el promedio de los estimadores fue
cada vez más cercano a los parámetros reales conforme se incrementó el
tamaño de muestra, indicio de que se cumple la propiedad de consistencia.
n 30 50 100 1000
β̂ 0.51847 0.47581 0.43346 0.40433
θ̂ 0.33893 0.33215 0.31543 0.30240
Cuadro 4.1: Promedio de los estimadores de los parámetros β y θ para
diferentes tamaños de muestra.
La matriz de covarianzas de θ = (β, θ) se obtuvo sustituyendo (4.2) en
las matrices (2.8) y (2.9) y haciendo el producto matricial que se muestra
en (1.10). El resultado fue:
Σ(θ0) =
(
1.3264 0.7067
0.8406 0.7326
)
. (4.4)
Entonces, bajo el supuesto de normalidad asintótica, los parámetros
resultaron tener las siguientes distribuciones:
28
Figura 4.1: Histogramas de los estimadores de β y la gráfica de la densidad
N
(
0.4, 1.3266
n
)
, para n= 30, 50, 100 y 1000 respectivamente.
β ∼ N
(
0.4,
1.3266
n
)
,
y
θ ∼ N
(
0.3,
0.7326
n
)
,
con n igual al tamaño de muestra. Dicha aproximación se ilustra en las
Figuras (4.1) y (4.2). Lo anterior sugiere que la teoŕıa asintótica comienza
a ser apropiada y por lo tanto, a dar resultados útiles, para tamaños de
muestra factibles en la práctica, en este caso desde n = 100.
Con los resultados anteriores obtuvimos el estimador de la matriz de
29
Figura 4.2: Histogramas de los estimadores de θ y la gráfica de la densidad
N
(
0.3, 0.7326
n
)
, para n= 30, 50, 100 y 1000 respectivamente.
covarianzas usando (2.10), (2.11) y sustituyendo la función generadora
de probabilidadesde esta distribución, lo que nos llevó a las siguientes
expresiones:
An =

∂
∂β
(
θ
1− t1(1− θ)
)β
∂
∂θ
(
θ
1− t1(1− θ)
)β
∂
∂β
(
θ
1− t2(1− θ)
)β
∂
∂θ
(
θ
1− t2(1− θ)
)β

∣∣∣∣∣∣∣∣
θ=θ̂
, (4.5)
30
n 30 50 100 1000
β̂
Σ11
n
0.04421 0.02652 0.01326 0.00132
Σ̂11
n
0.24787 0.08568 0.02126 0.00138
s2n 0.11040 0.05645 0.02022 0.00143
θ̂
Σ22
n
0.01789 0.01073 0.00536 0.00053
Σ̂22
n
0.01953 0.01219 0.00578 0,00054
s2n 0.02072 0.01317 0.00625 0.00054
Cuadro 4.2: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de β y θ.
y
Bn =
1
n
n∑
i=1

 t
xi
1 −
(
θ
1− t1(1− θ)
)β
txi2 −
(
θ
1− t2(1− θ)
)β

 t
xi
1 −
(
θ
1− t1(1− θ)
)β
txi2 −
(
θ
1− t2(1− θ)
)β

T .
(4.6)
En el Cuadro (4.2) se comparan las entradas (i, i), i = 1, 2, de la
matriz de covarianzas de θ y de su estimador, aśı como la varianza mues-
tral. Vemos que las últimas dos son más parecidas a la primera cuando
incrementamos el número de observaciones, resultado esperado, pues la
teoŕıa asintótica supone la consistencia de ambos estimadores.
Fue precisamente a partir del estimador de la matriz de covarianzas,
que se construyeron intervalos de confianza al 95 % para β y θ, tantos
como el número de muestras que se simularon en cada caso. En el Cuadro
(4.3), se muestran algunos de estos intervalos, elegidos de manera aleatoria
para diferentes tamaños de muestra y su longitud promedio L̄, misma
que decrece con el aumento en el número de observaciones, consecuencia
directa de la disminución de la varianza emṕırica de los estimadores.
31
n 30 50 100 1000
IACβ (0.056, 0.571) (0.057, 0.763) (0.181, 0.579) (0.311, 0.442)
L̄ 0.8666 0.6695 0.4501 0.1441
IACθ (0.189, 0.661) (0.104, 0.552) (0.154, 0.392) (0.236, 0.321)
L̄ 0.4775 0.3954 0.2798 0.0908
Cuadro 4.3: Ejemplos de intervalos asintóticos de confianza al 95 % para
β y θ y el promedio de sus longitudes, variando el tamaño de muestra.
n 30 50 100 1000
IACβ 92.8 % 94.5 % 94.7 % 94.8 %
IACθ 90.5 % 90.9 % 93.9 % 94.0 %
Cuadro 4.4: Cobertura real de los intervalos para β y θ.
El caso del parámetro β es sobresaliente, pues a pesar de que podŕıa
tomar cualquier valor positivo, las longitudes promedio de sus intervalos
son pequeñas. Esto ilustra que hay situaciones en las que la estructura
de los parámetros permite estimar alguno de ellos de manera precisa,
mientras que el otro puede ofrecer mayor dificultad. El nivel de confianza
que fue establecido para la construcción de los parámetros se alcanza de
manera asintótica; este comportamiento se hace visible en el Cuadro (4.4)
donde se muestra la cobertura real de los parámetros.
El siguiente paso fue calcular intervalos para la media y la varianza
del modelo. Para ello se revisó primero si pod́ıan obtenerse a partir de los
parámetros. La media y la varianza se obtuvieron usando las propiedades
de la función generadora de probabilidades como se muestra enseguida:
32
E(X) = φ′(1) =
d
dt
(
θ
(1− t(1− θ))
)β∣∣∣∣∣
t=1
= βθ(1− θ)
(
θ
1− t(1− θ)
)β−1
(1− t(1− θ))−2
∣∣∣∣∣
t=1
=
βθ(1− θ)
θ2
=
β(1− θ)
θ
. (4.7)
Entonces, la media se obtiene a partir de los parámetros del modelo,
a través de la función
f(β, θ) =
β(1− θ)
θ
(4.8)
que es continua (pues θ es siempre estrictamente positivo), y diferenciable.
El gradiente de f es:
∇f =
(
1− θ
θ
,
−β
θ2
)
. (4.9)
En el caso de la varianza,
V ar(X) = E(X2)− (E(X))2
= E(X2)− E(X) + E(X)− (E(X))2
= E(X2 −X) + E(X)− (E(X))2
= E(X(X − 1)) + E(X)− (E(X))2
= φ(2)(1) + φ′(1)− (φ′(1))2
=
β(1− θ)
θ2
(4.10)
por lo que la transformación es
g(β, θ) =
β(1− θ)
θ2
. (4.11)
Esta función es continua (pues θ es siempre estrictamente positivo), y
diferenciable y su gradiente es:
∇g =
(
1− θ
θ2
,
β(θ − 2)
θ3
)
. (4.12)
33
n 30 50 100 1000
µ̂ 0.97879 0.93596 0.93440 0.93260
σ̂2 3.81889 3.33804 3.22749 3.1103
Cuadro 4.5: Promedio de los estimadores de la media y la varianza del
modelo para diferentes tamaños de muestra.
Con los parámetros que hemos fijado, la media y varianza del modelo
son:
f(β, θ) = 0.9333, (4.13)
y
g(β, θ) = 3.1111. (4.14)
Ya que ambas transformaciones cumplen las hipótesis del Teorema
Delta, tenemos la consistencia y normalidad asintótica de los estimadores
de µ y σ2. La primera propiedad se puede observar en los resultados que
se muestran en el Cuadro (4.5).
La varianza de los estimadores está dada por la expresión (3.2), en la
que se sustituye (4.12) y la matriz de covarianzas (4.4). De la misma forma
que para los parámetros, se ilustra esta convergencia en distribución en
las Figuras (4.3) y (4.4).
34
n 30 50 100 1000
µ̂
Σ11
n
0.10551 0.06330 0.03165 0.00315
Σ̂11
n
0.12345 0.06566 0.03225 0.03158
s2n 0.11522 0.06184 0.03172 0.03145
σ̂2
Σ22
n
4.79345 2.87607 1.43803 0.14380
Σ̂22
n
15.50693 4.79176 1.87707 0.14607
s2n 9.2036 3.75367 1.59903 0.14382
Cuadro 4.6: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de µ y σ2.
n 30 50 100 1000
IACµ (0.554, 1.562) (0.393, 1.284) (0.651, 1.370) (0.857, 1.089)
L̄ 1.2273 0.9413 0.6842 0.2193
IACσ2 (0.549, 4.420) (0.845, 3.605) (1.164, 6.223) (2.642, 4.328)
L̄ 7.6614 5.8466 4.4249 1.4703
Cuadro 4.7: Ejemplos de intervalos asintóticos de confianza al 95 % para
µ y σ2 y el promedio de sus longitudes, variando el tamaño de muestra.
n 30 50 100 1000
IACµ 90.6 % 92.3 % 94.4 % 95.4 %
IACσ2 82.7 % 85.8 % 89.9 % 94.2 %
Cuadro 4.8: Cobertura real de los intervalos mostrados en el cuadro (4.7).
35
Figura 4.3: Histogramas de los estimadores de µ y la gráfica de la densidad
normal correspondiente, para tamaños de muestra n=30, 50, 1000 y 1000.
36
Figura 4.4: Histogramas de los estimadores de σ2 y la gráfica de la den-
sidad normal correspondiente, para tamaños de muestra n=30, 50, 1000
y 1000.
37
4.2. Modelo
N∑
i=1
Yi
El segundo modelo corresponde a la suma de un número aleatorio de
variables aleatorias, es decir,
X =
N∑
i=1
Yi (4.15)
dondeN y Y son variables aleatorias con distribuciones Poisson de paráme-
tro λ y Geométrica de parámetro p respectivamente, por lo que sus fun-
ciones de densidad son:
P (N = n) =
e−λλn
n!
, (4.16)
y
P (Y = y) = p(1− p)y. (4.17)
En este caso, la función de densidad expĺıcita del modelo es compli-
cada, pues está definida en términos de convoluciones, y por lo tanto,
resulta inadecuado el uso del método de máxima verosimilitud, por lo
que se eligió para ejemplificar la ventaja que representa el uso del método
FGPE=FGP.
El desarrollo de la función generadora de probabilidades de X es el
siguiente:
φ(t) = E(tX) = E[E(tX |N)]
= E
[
E
(
t
∑N
i=1 Yi|N
)]
= E
[(
p
1− t(1− p)
)N]
(4.18)
= φN (φY (t)) , (4.19)
donde (4.18) se obtiene de la observación de que dada la variable aleato-
ria N , la suma de N variables aleatorias geométricas tiene distribución
38
binomial negativa, aśı que sólo sustitúımos su función generadora de pro-
babilidades. Además como N se distribuye Poisson(λ),
φN(t) =
∞∑
n=0
tn
e−λλn
n!
= e−λ
∞∑
n=0
(tλ)n
n!
= e−λetλ = eλ(t−1). (4.20)
Finalmente tenemos la siguiente expresión:
φ(t) = exp
[
λ
(
p
1− t(1− p)
− 1
)]
. (4.21)
En este caso el parámetro a estimar, θ = (λ, p), también es un vector
en R2, por lo que el sistema a resolver consta de nuevo de dos ecuaciones
como lo vemos enseguida:
1
n
n∑
i=1
txi1 = exp
[
λ
(
p
1− t1(1− p)
− 1
)]
1
n
n∑
i=1
txi2 = exp
[
λ
(
p
1− t2(1− p)
− 1
)]
. (4.22)
Los parámetros elegidos para la simulación de las muestras fueron λ =
5 y p = 0.3; para resolver el sistema anterior, se fijó el vector t = (0.2, 0.9),
con la misma justificación del primer modelo. Los resultados fueron los
siguientes:
n 30 50 100 1000
λ̂ 4.91026 4.99277 5.1095 4.99970
p̂ 0.28929 0.29476 0.30502 0.29984
Cuadro 4.9: Promedio de los estimadores de los parámetros λ y p para
diferentes tamaños de muestra.
A diferencia del modelo anterior,el promedio de los estimadores fue
muy cercano a los parámetros reales incluso para n=30, es decir, la teoŕıa
asintótica no requirió tamaños de muestra grandes para que se hiciera
evidente la propiedad de consistencia.
39
La matriz de covarianzas de θ = (λ, p) fue
Σ(θ0) =
(
121.3268 5.6420
5.6420 0.2910
)
, (4.23)
por lo que las distribuciones de los parámetros resultaron:
λ ∼ N
(
0.4,
121.3268
n
)
,
y
p ∼ N
(
0.3,
0.2910
n
)
.
Los estimadores de las matrices A y B fueron
∂
∂λ
exp
[
λ
(
p
1− t1(1− p)
− 1
)]
∂
∂p
exp
[
λ
(
p
1− t1(1− p)
− 1
)]
∂
∂λ
exp
[
λ
(
p
1− t2(1− p)
− 1
)]
∂
∂p
exp
[
λ
(
p
1− t2(1− p)
− 1
)]

∣∣∣∣∣∣∣∣
θ=θ̂
(4.24)
y
1
n
n∑
i=1
( txi1 − φN (φY (t1))
txi2 − φN (φY (t2))
)(
txi1 − φN (φY (t1))
txi2 − φN (φY (t2))
)T∣∣∣∣∣∣
θ=θ̂
(4.25)
respectivamente.
En el Cuadro (4.10) se muestran las entradas de la diagonal de la
matriz de covarianzas, el promedio de las entradas de los estimadores de
dicha matriz y la varianza muestral de λ̂ y p̂. En las Figuras (4.5) y (4.6)
se ilustra dicha aproximación para muestras de tamaño n = 30, 50, 100 y
1000.
A partir de los estimadores de la matriz de covarianzas, se construye-
ron intervalos de confianza al 95 % para ambos parámetros, uno por cada
simulación realizada. En el Cuadro (4.11) se muestran ejemplos de dichos
intervalos para diferentes tamaños de muestra, además de su longitud
promedio. El análisis de la cobertura real de los parámetros reales puede
revisarse en el Cuadro (4.12), donde se observa que dicha cobertura se
40
n 30 50 100 1000
λ̂
Σ11
n
4.04422 2.42653 1.21326 0.12136
Σ̂11
n
3.50736 2.65907 1.59749 0.12405
s2n 4.56629 1.88984 1.37816 0.13716
p̂
Σ22
n
0.00970 0.00582 0.00291 0.00029
Σ̂22
n
0.00705 0.00550 0.00312 0.00029
s2n 0.00609 0.00398 0.00276 0.00031
Cuadro 4.10: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de λ y p.
n 30 50 100 1000
IACλ (0.700, 9.042) (1.633, 4.359) (2.758, 7.103) (4.347, 5.742)
L̄ 6.50934 5.41099 4.20616 1.34532
IACp (0.066, 0.447) (0.132, 0.317) (0.171, 0.381) (0.274, 0.343)
L̄ 0.31807 0.26963 0.20534 0.06622
Cuadro 4.11: Ejemplos de intervalos asintóticos de confianza al 95 % para
λ y p y el promedio de sus longitudes, variando el tamaño de muestra.
incrementa a medida que crece el tamaño de muestra a pesar de que los
intervalos son cada vez más estrechos.
Aunque los parámetros λ y p tienen una interpretación relevante para
sus distribuciones (Poisson y geométrica respectivamente), de manera se-
parada no nos brindan información interesante acerca de X, por ejemplo
aproximaciones a su media o varianza. El siguiente paso fue revisar si
estas últimas pod́ıan estimarse a partir de los estimadores de los paráme-
tros por medio de transformaciones que permitieran el uso del Teorema
Delta.
41
Figura 4.5: Histograma de estimadores de λ y la gráfica de la densidad
normal correspondiente.
La media y la varianza de X se calculan a continuación usando la
función generadora de probabilidades:
42
Figura 4.6: Histograma de estimadores de p y la gráfica de la densidad
normal correspondiente.
E(X) = φ′(1) =
d
dt
exp
[
λ
(
p
1− t(1− p)
− 1
)]∣∣∣∣
t=1
= e−λ
d
dt
exp
[
λ
(
p
1− t(1− p)
)]∣∣∣∣
t=1
= λpe−λ exp
[
λ
(
p
1− t(1− p)
)]
d
dt
(
1
1− t(1− p)
)∣∣∣∣
t=1
= λpe−λ exp
[
λ
(
p
1− t(1− p)
)]
(1− t(1− p))−2(1− p)
∣∣∣∣
t=1
= λ
(
1− p
p
)
. (4.26)
43
n 30 50 100 1000
IACλ 90.6 % 91.4 % 93.7 % 94.0 %
IACp 89.2 % 90.9 % 95.3 % 94.3 %
Cuadro 4.12: Cobertura real de los intervalos para λ y p.
Entonces, la media se obtiene a partir de los parámetros del modelo,
a través de la función
f(λ, p) = λ
(
(1− p)
p
)
(4.27)
que es continua (pues p es siempre estrictamente positivo), y diferenciable.
El gradiente de f es:
∇f =
(
1− p
p
,
−λ
p2
)
. (4.28)
En el caso de la varianza, usando un desarrollo análogo al del primer
modelo tenemos que
V ar(X) = φ(2)(1) + φ′(1)− (φ′(1))2
=
(λ+ λ2)(1− p)2
p2
+ λ
(
1− p
p
)
− λ2
(
1− p
p
)2
= λ
(
1− p
p2
)
+ λ
(
1− p
p
)2
, (4.29)
entonces la transformación
g(λ, p) = λ
(
1− p
p2
)
+ λ
(
1− p
p
)2
(4.30)
es continua y diferenciable. Su gradiente es:
∇g =
(
(1− p)
p2
+
(
1− p
p
)2
, λ
(
3p− 4
p3
))
. (4.31)
En ambos casos se cumplen los supuestos del Teorema Delta, por lo
que se consiguieron estimadores consistentes y asintóticamente normales
de la media y la varianza del modelo. La media y varianza teóricas, a
partir de los parámetros reales son:
E(X) = f(λ, p) = 11.666̄,
44
y
V ar(X) = λ
(
1− p
p2
)
+ λ
(
1− p
p
)2
= 66.111̄,
sus estimadores se muestran en el Cuadro (4.13).
n 30 50 100 1000
µ̂ 12.04081 11.84687 11.70600 11.66285
σ̂2 78.24235 73.40887 67.85014 66.64727
Cuadro 4.13: Promedio de los estimadores de la media y la varianza del
modelo para diferentes tamaños de muestra.
Para la construcción de los intervalos de confianza correspondientes se
eligió un nivel de 95 %. Algunos ejemplos de estos intervalos, sus longitu-
des promedio y coberturas se muestran en los cuadros (4.15) y (4.16).
n 30 50 100 1000
µ̂
Σ11
n
3.20181 1.92108 0.96054 0.09605
Σ̂11
n
3.61480 2.04714 0.97283 0.09621
s2n 3.55496 1.89068 0.90241 0.08495
σ̂2
Σ22
n
1049.06 629.436 314.7181 31.4718
Σ̂22
n
1562.03 821.3419 345.5838 32.0846
s2n 1127.52 614.259 299.4272 32.2383
Cuadro 4.14: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de µ y σ2.
45
Figura 4.7: Histogramas de los estimadores de µ y la gráfica de la distri-
bución normal correspondiente.
n 30 50 100 1000
IACµ (8.018, 16.077) (7.957, 12.242) (9.899, 13.642) (11.131, 12.369)
L̄ 7.15549 5.46544 3.81940 1.21459
IACσ2 (13.85, 41.05) (29.16, 133.84) (35.14, 125.63) (52.110, 74.791)
L̄ 134.4853 102.5966 69.4454 22.1131
Cuadro 4.15: Ejemplos de intervalos asintóticos de confianza al 95 % para
µ y σ2 y el promedio de sus longitudes, variando el tamaño de muestra.
46
Figura 4.8: Histogramas de los estimadores de σ2 y la gráfica de la distri-
bución normal correspondiente.
n 30 50 100 1000
IACµ 94.9 % 95.9 % 95.4 % 97.0 %
IACσ2 91.5 % 94.5 % 94.7 % 94.7 %
Cuadro 4.16: Cobertura real de los intervalos mostrados en el cuadro
(4.15).
47
4.3. Modelo AR(1) BN general
La última de nuestras aplicaciones se basa en un modelo autorregresi-
vo de orden 1, no estacionario y cuyas distribuciones marginales son más
generales que la distribución binomial negativa. Este modelo fue propues-
to en la tesis de maestŕıa [Toledo](2008), para describir el poblamiento
de las plantaciones de agave por el insecto Acanthoderes funeraria Bates,
conocido comúnmente como ceramb́ıcido.
Como se dijo en la introducción de este caṕıtulo, la intención al elegir
este modelo, fue ilustrar la bondad del método FGPE=FGP cuando la
función de densidad expĺıcita no se conoce, y revisar si la teoŕıa asintótica
asociada se cumple, aunque la dimensionalidad del parámetro a estimar
sea grande.
La ecuación que describe al modelo de manera recursiva es
Xn = αn ∗Xn−1 + Zn n ≥ 1
X0 ∼ BN(β0, θ0), (4.32)
donde:
La variable aleatoria Xn representa el número de insectos al tiempo
n.
La expresión α∗Xn =
Xn−1∑
j=1
Bj(αn) es un adelgazamiento binomial de
la variable Xn, donde {Bj(αn), j ≥ 1} es una sucesión de variables
aleatorias i.i.d. Bernoulli(αn).
La variable aleatoria Zn es independiente de αn∗Xn−1 y está definida
aśı:
Zn =
Nn∑
j=1
(αRjn ) ∗Wn,j =
Nn∑
j=1
Wn,j∑
k=1
Bk(α
Rj
n ), (4.33)
48
con las siguientes distribuciones para las v.a. involucradas:
Nn ∼ Poisson(µn = −βnln(αn))
Rj ∼ Uniforme(0, 1)
Wn,j ∼ Geométrica(θn). (4.34)
En este trabajo estimamos los parámetros de los d́ıas 0 y 1, es decir, el
vector θ = (β0, θ0, α1, β1, θ1). Para ello calculamos la función generadora
de probabilidades conjunta de X0 y X1,
φX0,X1(t1, t2) = E
(
tX01 t
αn∗X0+Z1
2
)
= E
[
E(tX01 t
αn∗X0+Z1
2 |X0)
]
= E
[
tX01 E(t
αn∗X02 |X0)E(tZ12 |X0)
]
= E
[
tX01 E(t
∑X0
j=1Bj(α1)
2 |X0)
]
E(tZ12 )
= E
[
tX01 (1− α1 + α1t2)
X0
]
E(tZ12 )
= E
[
(t1(1− α1 + α1t2))X0
]
E(tZ12 )
=
[
θ0
1− t1(1− θ0)(1− α1 + α1t2)
]β0
φZ1(t2), (4.35)
donde la función generadora de probabilidades de Z1 es
2:
φZ1(t) =
[
1− (1− θ1)(1− α1 + α1t)
1− (1− θ1)t
]β1
. (4.36)
Para la muestra del d́ıa cero (X0), se eligieron los parámetros β0=0.4
y θ0=0.3; para el d́ıa uno (X1), α1=0.8, β1=0.7 y θ1 = 0.5.
Para estimar θ se fijó la matriz
t =

t11 = 0.0003 t12 = 0.0001
t21 = 0.0001 t22 = 0.9100
t31 = 0.4500 t32 = 0.4500
t41 = 0.9000 t42 = 0.000001
t51 = 0.8700 t52 = 0.8700
 , (4.37)
2El desarrollo se puede revisar en [McCormick & Park](1992).
49
Figura 4.9: Parejas de valores del parámetro t .
de manera que, como se ve en la Figura (4.3), las parejas de valores
(ti,1, ti,2), i = 1, 2, 3, 4, 5, estuvieran suficientemente separadas en [0, 1]×
[0, 1], esto con el fin de evitar multiplicidad en las soluciones del sistema.
Dado que el parámetro a estimar fue de dimensión 5, el sistema no
lineal consistió de 5 ecuaciones, como se muestra enseguida:
1
n
n∑
i=1
t
x0,i
11 t
x1,i
12 =
[
θ0
1− t11(θ̄0)(ᾱ1 + α1t12)
]β0 [1− (θ̄1)(ᾱ1 + α1t12)
1− (θ̄1)t12
]β1
1
n
n∑
i=1
t
x0,i
21 t
x1,i
22 =
[
θ0
1− t21(θ̄0)(ᾱ1 + α1t22)
]β0 [1− (θ̄1)(ᾱ1 + α1t22)
1− (θ̄1)t22
]β1
1
n
n∑
i=1
t
x0,i
31 t
x1,i
32 =
[
θ0
1− t31(θ̄0)(ᾱ1 + α1t32)
]β0 [1− (θ̄1)(ᾱ1 + α1t32)
1− (θ̄1)t32
]β1
1
n
n∑
i=1
t
x0,i
41 t
x1,i
42 =
[
θ0
1− t41(θ̄0)(ᾱ1 + α1t42)
]β0 [1− (θ̄1)(ᾱ1 + α1t42)
1− (θ̄1)t42
]β1
1
n
n∑
i=1
t
x0,i
51 t
x1,i
52 =
[
θ0
1− t51(θ̄0)(ᾱ1 + α1t52)
]β0 [1− (θ̄1)(ᾱ1 + α1t52)
1− (θ̄1)t52
]β1
,
(4.38)
donde θ̄ = 1− θ y ᾱ = 1− α.
Los estimadores de los parámetros para los d́ıas cero y uno se muestran
50
en el Cuadro (4.17), en donde se ilustra la convergencia de los mismos
a los valores reales de los parámetros conforme aumenta el tamaño de
muestra.
n 100 500 1000
β̂0 0.49318 0.42279 0.41187
θ̂0 0.34600 0.31686 0.30854
α̂1 0.80298 0.80357 0.80223
β̂1 0.76771 0.73514 0.72670
θ̂1 0.47417 0.48987 0.49994
Cuadro 4.17: Promedio de los estimadores de los parámetros del modelo
para diferentes tamaños de muestra.
No escribiremos la matriz de covarianzas ni su estimador de manera
expĺıcita porque no hay un aporte relevante. De la misma forma que en
los modelos anteriores, basta sustituir la función generadora de probabi-
lidades en las matrices (2.8) - (2.11). En el Cuadro (4.18) se muestran
las varianzas teóricas, sus estimadores y las varianzas muestrales de los
parámetros del d́ıa cero, y en el Cuadro (4.19) los del d́ıa uno.
En este caso construiremos intervalos de confianza para la media de
insectos en los d́ıas 0 y 1. Para ello, veremos cómo se pueden obtener éstas
a partir de los parámetros del modelo.
Ya que X0 ∼ BN(β0, θ0), como vimos en la primera aplicación, su
esperanza está dada por:
f(β0, θ0) = β0
(
1− θ0
θ0
)
, (4.39)
que, como también revisamos, cumple las hipótesis del Teorema Delta.
La esperanza del número de insectos en el d́ıa 1 es un poco más com-
51
plicada:
E(X1) = E
 X0∑
j=1
Bj(α1) +
Nn∑
j=1
Wn,j∑
k=1
Bk(α
Rj
n )

= E
(
X0∑
j=1
Bj(α1)
)
+ E
 Nn∑
j=1
Wn,j∑
k=1
Bk(α
Rj
n )

=
d
dt
φX0(φB(t))
∣∣∣∣
t=1
+
d
dt
φZ(t)
∣∣∣∣
t=1
=
d
dt
[
θ0
1− θ̄0(ᾱ1 + α1t)
]β0∣∣∣∣∣
t=1
+
d
dt
[
1− θ̄1(ᾱ1 + α1t)
1− (1− θ1)t
]β1∣∣∣∣∣
t=1
= α1β0
(
1− θ0
θ0
)
+ (θ1 − 1)(α1 − 1)
β1
θ1
. (4.40)
n 100 500 1000
β̂0
Σ11
n
0.01556 0.00311 0.00155
Σ̂11
n
0.08766 0.00656 0.00221
s2n 0.00723 0.00247 0.00159
θ̂0
Σ22
n
0.00723 0.00144 0.00072
Σ̂22
n
0.03469 0.00380 0.00126
s2n 0.00463 0.00116 0.00057
Cuadro 4.18: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de β0 y θ0.
Como las funciones (4.39) y
g(β0, θ0, α1, β1, θ1) = α1β0
(
1− θ0
θ0
)
+ (θ1 − 1)(α1 − 1)
β1
θ1
, (4.41)
cumplen las hipótesis adecuadas, recurriendo al Método Delta, pudimos
52
n 100 500 1000
α̂1
Σ11
n
0.00917 0.00183 0.00091
Σ̂11
n
0.00795 0.00213 0.00097
s2n 0.00365 0.00134 0.00078
β̂1
Σ22
n
0.21950 0.08390 0.04195
Σ̂22
n
0.33032 0.17435 0.07307
s2n 0.04583 0.03012 0.01948
θ̂1
Σ22
n
0.13946 0.02789 0.01394
Σ̂22
n
0.22078 0.04401 0.01867
s2n 0.01822 0.01464 0.01053
Cuadro 4.19: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de α1, β1 y θ1.
construir intervalos de confianza para µ0 y µ1. El nivel de confianza elegido
fue de nuevo 95 %.
Los valores reales de las media de ambos d́ıas, para los parámetros
con los que se simularon las muestras, fueron:
E(X0) = f(β0, θ0) = 0.9333̄,
y
E(X1) = g(β0, θ0, α1, β1, θ1) = 0.14.
Para este modelo, a diferencia de los anteriores, la consistencia de los
estimadores no se pudo apreciar sino hasta que el tamaño de muestra fue
grande. Recordemos que esa propiedad era evidente en los casos anteriores
incluso para los primeros tamaños de muestra que fueron probados.
53
n 100 500 1000
β̂0 (0.1113, 0.5293) (0.3233, 0.5936) (0.3292, 0.4773)
L̄ 0.65190 0.24314 0.15769
θ̂0 (0.0973, 0.4754) (0.2367, 0.4148) (0.2333, 0.3314)
L̄ 0.43487 0.16746 0.10928
α̂1 (0.6620, 0.9786) (0.6729, 0.8381) (0.7259, 0.8460)
L̄ 0.33799 0.17971 0.12195
β̂1 (0.0287, 1.0051) (0.0927, 1.2448) (0.2204, 0.8931)
L̄ 2.19513 1.33696 0.92801
θ̂1 (0.0270, 0.8739) (0.0410, 0.7495) (0.1749, 0.6957)
L̄ 1.30538 0.75110 0.51141
Cuadro 4.20: Ejemplos de intervalos asintóticos de confianza al 95 % para
β0, θ0, α1, β1, θ1 y el promedio de sus longitudes, variando el tamaño de
muestra.
Como se aprecia tanto en las tablas como en las gráficas, la conver-
gencia en distribución de los estimadores no se consiguió para tamaños
de muestra factibles en la práctica. Se observaron varianzas grandes que
nos llevaron a intervalos de confianza muy amplios y por lo tanto, a un
fenómeno de sobrecobertura. La sugerencia es que, si se desea implemen-
tar esta metodoloǵıa para estimar parámetros cuya dimensión sea grande,
se sea cuidadoso al momento de interpretar los resultados.
54
n 100 500 1000
β̂0 99.9 % 98.3 % 98.4 %
θ̂0 99.8 % 98.5 % 98.6 %
α̂1 99.2 % 98.4 % 97.3 %
β̂1 100 % 100 % 100 %
θ̂1 100 % 100 % 100 %
Cuadro 4.21: Cobertura real de los intervalos asintóticos de los parámetros
de los d́ıas cero y uno.
n 100 500 1000
µ̂0 0.93423 0.91399 0.92439
µ̂1 0.17633 0.15736 0.14973
Cuadro 4.22: Promedio de los estimadores de la media de los d́ıas 0 y 1
para diferentes tamaños de muestra.
n 100 500 1000
µ̂0
Σ33
n
0.03982 0.00796 0.00398
Σ̂11
n
0.09444 0.10421 0.00537
s2n 0.03287 0.00832 0.00425
µ̂1
Σ44
n
0.01518 0.00303 0.00151
Σ̂55
n
0.16540 0.18997 0.00628
s2n 0.00888 0.00332 0.00199
Cuadro 4.23: Varianza, promedio de los estimadores de la varianza y va-
rianza muestral de µ0 y µ1.
55
Figura 4.10: Histograma de estimadores de β0 y la gráfica de la densidad
normal correspondiente.
n 100 500 1000
µ̂0 (0.2643, 1.6360) (0.5831, 1.0830) (0.8068, 1.0728)
L̄ 0.91467 0.36766 0.25190
µ̂1 (−0.0956, 0.4326) (0.0318, 0.2319) (0.0429, 0.2671)
L̄ 0.57574 0.23500 0.16488
Cuadro 4.24: Ejemplos de intervalos asintóticos de confianza al 95 % para
µ0 y µ1 y el promedio de sus longitudes, variando el tamaño de muestra.
56
Figura 4.11: Histograma de estimadores de θ0 y la gráfica de la densidad
normal correspondiente.
n 100 500 1000
µ̂0 99.4 % 96.3 % 96.4 %
µ̂1 99.9 % 99.4 % 99.0 %
Cuadro 4.25: Cobertura real de los intervalos asintóticos para µ0 y µ1.
57
Figura 4.12: Histograma de estimadores de α1 y la gráfica de la densidad
normal correspondiente.
58
Figura 4.13: Histograma de estimadores de β1 y la gráfica de la densidad
normal correspondiente.
59
Figura 4.14: Histograma de estimadores de θ1 y la gráfica de la densidad
normal correspondiente.
60
Figura 4.15: Histograma de estimadores de µ0 y la gráfica de la densidad
normal correspondiente.
61
Figura 4.16: Histogramade estimadores de µ1 y la gráfica de la densidad
normal correspondiente.
62
Caṕıtulo 5
Conclusiones
En esta tesis hemos partido de la premisa de que un modelo estad́ıstico
paramétrico se encuentra especificado por medio de su función generado-
ra de probabilidades, y que el objetivo es realizar estimación por v́ıa de
intervalos de confianza. Haciendo uso de un estimador puntual original-
mente planteado por [Kemp & Kemp](1988), basado en igualar versiones
teóricas y emṕıricas de la función generadora de probabilidades, se han
construido intervalos asintóticos de confianza. Su justificación ha sido da-
da en términos de teoŕıa de M-estimación y el llamado Método Delta.
El uso del método FGPE=FGP resulta conveniente cuando:
1. No se cuenta con la función de densidad expĺıcita del modelo pa-
ramétrico.
2. La función de densidad del modelo paramétrico complica la imple-
mentación del método de máxima verosimilitud.
3. Se desea obtener estimadores que no requieran el uso de métodos
computacionalmente costosos. Ya sea que se usen como primer acer-
camiento a los valores reales de los parámetros, o como valores ini-
ciales para correr algún método de optimización en busca de mejores
estimadores.
Además de las ventajas antes descritas, se pueden aprovechar las pro-
63
piedades asintóticas del método para evitar incurrir en el error de limi-
tarse a mostrar estimadores puntuales, complementando esa información
con una medida de la variabilidad respecto al valor real de los paráme-
tros, mediante la construcción de intervalos de confianza. Estos últimos
se obtienen de manera sencilla una vez que se cuenta con los estimadores
puntuales, por lo que resulta natural seguir ese procedimiento. Otra gran
ventaja es que podemos ir más allá de los estimadores e intervalos para
los parámetros, aprovechando el camino andado con el fin de obtenerlos
también para transformaciones de los parámetros, por ejemplo, la media
o varianza del modelo en cuestión.
Una observación es que, los modelos cuyo parámetro a estimar sea de
dimensionalidad grande, deberán tratarse con especial cuidado, ya que la
convergencia en distribución puede no alcanzarse para tamaños de mues-
tra factibles en la práctica y la varianza de los estimadores puede ser
elevada, lo que lleva a intervalos de confianza muy amplios o que no nece-
sariamente poseen la cobertura pretendida, ni siquiera aproximadamente.
Habŕıa otros métodos para realizar inferencia paramétrica formal, ta-
les como métodos basados en la idea de bootstrap, o inferencia bayesiana.
Esta tesis se concentró en el método basado en la función generadora de
probabilidades, dando seguimiento al trabajo de modelación desarrollado
en la tesis [Toledo](2008).
64
Apéndice A
A.1. Modos de convergencia
Definición A.1. Sean {Xn, X} variables aleatorias definidas en el mismo
espacio de probabilidad. Decimos que Xn converge a X en probabilidad
si para toda � > 0, P (|Xn − X| > �) → 0 cuando n → ∞. Si una
sucesión de variables aleatorias {Xn, n > 0} converge a X en probabilidad
escribiremos Xn
P→ X.
Definición A.2. Sean {Xn, X} variables aleatorias definidas en el mismo
espacio de probabilidad. Decimos que Xn converge casi seguramente a X
(o converge a X con probabilidad 1) si P (Ω : Xn(Ω) → X(Ω)) = 1, y se
escribe Xn
c.s.→ X.
Observación. La convergencia casi segura es más fuerte que la conver-
gencia en probabilidad. Con la siguiente caracterización, lo anterior es
más claro
ĺım
n→∞
P (|Xm −X| ≤ � ∀m ≥ n) = 1. (A.1)
Definición A.3. Sean {Xn, X} variables aleatorias con soporte en los
números reales y definidas en el mismo espacio de probabilidad. Decimos
que Xn converge en distribución a X, y escribimos Xn
D→ X si
P (Xn ≤ x)→ P (X ≤ x)
cuando n→∞ para cada x en donde la función de Distribución de X sea
continua.
65
Esta misma definición es válida cuando {Xn, X} tienen soporte en un
espacio euclidiano multidimensional.
Teorema A.1. (Slutsky). Si Xn
D→ X y Yn
P→ c, entonces
(a) Xn · Yn
D→ cX.
(b) Si c 6= 0, Xn
Yn
D→ X
c
.
(c) Xn + Yn
D→ X + c.
A.2. Leyes de los Grandes Números
El siguiente teorema es conocido como la Ley Débil de los Grandes
Números
Teorema A.2. (Kintchin). Supongamos que X1, X2, . . . son indepen-
dientes e idénticamente distribuidas con media finita µ. Sea X̄n =
1
n
n∑
i=1
Xi.
Entonces X̄h
P→ µ.
Una variante es la Ley Fuerte de los Grandes Números que se enuncia
a continuación
Teorema A.3. (Kolmogorov). Si X1, X2, . . . son independientes e idénti-
camente distribuidas y E(|X1|) <∞, entonces X̄n
c.s.→ µ = E(X1)
A.3. Teorema del Ĺımite Central
Teorema A.4. (TLC). Sean Xi, i ≥ 1 independientes e idénticamente
distribuidas con E(Xi) = µ y V ar(Xi) = σ
2 <∞. Entonces
√
n(X̄ − µ)
σ
D→ Z ∼ N(0, 1).
La versión para el caso multivariado se enuncia enseguida
66
Teorema A.5. (TLC Multivariado). Sean X1, X2, . . . vectores aleato-
rios independientes e idénticamente distribuidos con E(X1) = µ y matriz
de covarianzas cov(X1) = Σ. Entonces
√
n(X̄ − µ) D→ Np(0,Σ).
Teorema A.6. (Teorema de mapeo continuo). Supongamos que Xn
converge a X en probabilidad, casi seguramente o en distribución y sea g(·)
una función continua. Entonces g(Xn) converge a g(X) en probabilidad,
casi seguramente o en distribución respectivamente.
67
Bibliograf́ıa
[Borovkov & Moullagaliev] Borovkov, A.A. and Moullagaliev, A.,
Mathematical Statistics. CRC Press, 1998.
[DasGupta] DasGupta, A., Asymptotic Theory of Statistics and Proba-
bility. Springer Texts in Statistics, Springer-Verlag, 2008.
[Dowling & Nakamura] Dowling, M. and Nakamura, M., Estimating
Parameters for Discrete Distributions Via The Empirical Probability
Generating Function. Commun. Statist.-Simula., 26(1), 1994.
[Huber] Huber, P.J., Robust Estimation of a Location Parameter. The
Annals of Mathematical Statistics, Vol. 35, No. 1, pp. 73-101, 1964.
[Kemp & Kemp] Kemp, C.D. and Kemp, A.W., Rapid Estimation
for Discrete Distributions. The Statistician, Vol. 37, pp. 243-255, 1988.
[McCormick & Park] McCormick, W.P. and Park, Y.S., Asymptotic
Analysis of Extremes from Autoregresive Negative Binomial Processes.
Journal of Applied Probability, Vol. 29, No. 4, pp. 904-920, 1992.
[Mukhopadhyay] Mukhopadhyay, N., Introductory Statistical Inferen-
ce. Statistics, textbooks and monographs, CRC Press, 2006.
[Roussas] Roussas, G., A Course in Mathematical Statistics. Mathema-
tical Statistics, Academic Press, 1997.
[Scheaffer & Young] Scheaffer, R.L. and Young, L.J., Introduction
to Probability and its Applications. Advance series, 3rd Ed., Cengeage
Learning, 2009.
68
[Serfling] Serfling, R.J., Approximation Theorems of Mathematical Sta-
tistics. Wiley series in Probability and Mathematical Statistics, John
Wiley and Sons, Inc., 1980.
[Stefanski & Boos] Stefanski, L.A. and Boos, D.D., The Calculus of
M-Estimation. The American Statistician, Vol. 56, pp.29-38, 2002.
[Toledo] Toledo, L.E., Modelación de poblaciones de ceramb́ıcidos en
cultivos de agave. Tesis de maestŕıa. Centro de Investigación en Ma-
temáticas, A.C., México, 2008.
[van der Vaart] van der Vaart, A.W., Asymptotic Statistics. Cambrid-
ge series on statistical and probabilistic Mathematics, Cambridge Uni-
versity Press, 1998.
[Young & Smith] Young, G.A. and Smith, R.L., Essentials of Statis-
tical Inference. Cambridge series on statistical and probabilistic Mat-
hematics, Cambridge University Press, 2005.
69
	Portada
	Índice General
	Introducción
	Capítulo 1. M Estimación
	Capítulo 2. Método FGPE = FGP
	Capítulo 3. Intervalos Asintóticos de Confianza
	Capítulo 4. Implementación de la Metodología Propuesta y Análisis de Cobertura
	Capítulo 5. Conclusiones
	Apéndices
	Bibliografía

Continuar navegando