Logo Studenta

Metodos-de-Monte-Carlo-para-estimar-parametros-en-un-modelo-para-la-influenza

¡Este material tiene más páginas!

Vista previa del material en texto

i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page i — #3 i
i
i
i
i
i
Universidad Nacional Autónoma de México
Facultad de Ciencias
Métodos de Monte Carlo para estimar
parámetros en un modelo para la influenza
TESIS
que para obtener el t́ıtulo de:
ACTUARIA
presenta:
JONATHAN JAIMES PÉREZ
Director de tesis: DRA. ELIANE REGINA RODRÍGUES
2011
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page iii — #5 i
i
i
i
i
i
Agradecimientos
Esta tesis es un esfuerzo en el cual, directa o indirectamente han par-
ticipado varias personas realizando diversas cosas ya sea leyendo, haciendo
observaciones, corrigiendo, teniéndome paciencia y creyendo en mı́; dan-
dome ánimo o una palmada en la espalda, y tembién disfrutando conmigo
al momento de concluir este proyecto de vida, ya que yo lo veo aśı.
Primero que nada agradezco a la Dra. Eliane Rodŕıgues por haber confi-
ado en mi persona, por su paciencia y por dedicarle tiempo y atención a mi
trabajo. Agradecimiento particular a los miembros del jurado o sinodales,
la M. en A. P. Maŕıa del Pilar Alonso, Dr. Ramses Mena, el Maestro Juan
Mart́ın Barrios y al Actuario Jaime Vázquez Alamilla quienes dedicaron
parte de su valioso tiempo a revisión, corrección, comentarios agregados a
mi trabajo y simplemente por facilitar que mi ptoyecto llegara a su con-
clusión.
Gracias también a mis compañeros en la facultad que me apoyaron de
cierta manera, y que sobre todo me permitieron compartir con ellos muchas
experiencias de vida y aprendizajes. En particular muchas gracias a Benito
por su apoyo para correr mis archivos una y otra vez. GRACIAS,
A mis amigos de toda la vida Carlos Alonso, Madrigal y Oscar (Saya) a
quienes realmente les debo muchos de mis logros incluyendo éste, agradezco
iii
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page iv — #6 i
i
i
i
i
i
iv
por su amistad y apoyo en todo momento. GRACIAS,
A Dani Hernández, por su paciencia, por su motivación, por su ayuda
en correcciónes, por sus servicios de mensajeŕıa, por involucrarse con mi
proyecto de vida hasta el punto de asumirlo casi como una meta propia, por
su compañia y desvelos para terminar los avances; simplemente por formar
parte de mi vida en y compartir ésta meta conmigo. GRACIAS PRINCESA.
A mi familia a mis tios, a mis primas, mis sobrinos quienes me acom-
pañaron en toda ésta aventura de la licenciatura, ellos más que nadie com-
partieron conmigo todos los esfuerzos llevados a cabo para que éste proyecto
llegara a su fin y concluyera de la mejor forma. GRACIAS,
Pero por encima de todos los agradecimientos se encuentran tres per-
sonas quienes significaron una parte vital en el desarrollo y conclusión de
mi trabajo de tesis, ellos son mi mamá (Maestra Vicky), mi papá (Sr. Este-
ban) y a quien ha compartido tanto conmigo mi hermano (Steve). A ellos
muchas gracias por el apoyo en todos los sentidos, tiempos, dinero, apoyo
moral, apoyo f́ısico, etcetera. Simplemente GRACIAS!!!
GRACIAS A TODOS.
Hoja de Datos del Jurado 
 
1. Datos del alumno 
Jaimes 
Pérez 
Jonathan 
58496164 
Universidad Nacional Autónoma de México 
Facultad de Ciencias 
Actuaría 
302223570 
 
2. Datos del tutor 
Dra. 
Eliane Regina 
Rodrigues 
 
3. Datos del sinodal 1 
M en C 
María del Pilar 
Alonso 
Reyes 
 
4. Datos del sinodal 2 
Dr. 
Ramsés Humberto 
Mena 
Cháves 
 
5. Datos del sinodal 3 
Actuario 
Jaime 
Vázquez 
Alamilla 
 
6. Datos del sinodal 4 
M en C 
Juan Martín 
Barrios 
Vargas 
 
7. Datos de trabajo escrito 
Métodos de Monte Carlo para estimar parámetros en un modelo para la influenza 
85 p 
2011 
 
 
 
 
 
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page i — #7 i
i
i
i
i
i
Índice general
Introdución V
1. Cadenas de Markov 1
1.1. Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Ejemplo de cadenas de Markov . . . . . . . . . . . . . 6
1.2. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . 7
1.3. Clasificación de estados . . . . . . . . . . . . . . . . . . . . . 11
1.4. Cadenas de Markov reversibles en el tiempo. . . . . . . . . . . 21
2. Introducción a la Estad́ıstica Bayesiana 29
2.1. Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . 29
2.2. Modelo Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3. Clase conjugada . . . . . . . . . . . . . . . . . . . . . . . . . 39
i
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page ii — #8 i
i
i
i
i
i
Índice general ii
3. Algoritmo de Metropolis-Hastings 41
3.1. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . . 41
3.1.1. Descripción del algoritmo Metropolis . . . . . . . . . . 42
3.1.2. Descripción del algoritmo Metropolis-Hastings . . . . 43
3.1.3. Resultados preliminares . . . . . . . . . . . . . . . . . 44
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 49
4.1. Descripción de los tipos de influenza . . . . . . . . . . . . . . 50
4.1.1. Influenza A . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.2. Influenza B . . . . . . . . . . . . . . . . . . . . . . . . 52
4.1.3. Influenza C . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Signos y śıntomas. . . . . . . . . . . . . . . . . . . . . . . . . 53
4.3. Transmisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.4. Influenza como pandemia. . . . . . . . . . . . . . . . . . . . . 54
4.5. Modelo Propuesto . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6. Especificación del Modelo . . . . . . . . . . . . . . . . . . . . 58
4.7. Niveles Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . 60
4.7.1. Nivel Observación . . . . . . . . . . . . . . . . . . . . 60
4.7.2. Nivel Transmisión . . . . . . . . . . . . . . . . . . . . 60
4.7.3. Investigando el rol de los niños . . . . . . . . . . . . . 62
4.7.4. Nivel apriori . . . . . . . . . . . . . . . . . . . . . . . 63
4.8. Toma de muestras usando MCMC . . . . . . . . . . . . . . . 64
4.9. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page iii — #9 i
i
i
i
i
i
Índice general iii
Conclusión 69
Bibliograf́ıa 71
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page v — #11 i
i
i
i
i
i
Introdución
La influenza o gripe es una enfermedad infecciosa que es causada por un
virus. La gripe en general ocurre en determinadas épocas del año en forma
de epidemias estacionales que provocan cientos de miles de defunciones, que
pueden pasar a ser millones en los años convirtiendose en pandemia.
Las pandemias de la influenza humana han crecido en los últimos años,
basta con observar dos de los más recientes y considerables casos los cuales
fueron los ocurridos en México en 2009 y en Francia en el 2004.
Dado el incremento reciente de las muertes causadas por el virus de la
influenza, en esta tesis se presentará el estudio realizado en Francia, donde
dicha epidemia fue abordada a través de modelos estocásticos con estimación
de los parámetros del modelo realizada por métodos de Monte Carlo via
Cadenas de Markov (MCMC). Los datos utilizados fueron los componentes
de una muestra que fue tomada en 334 casas-habitación. El estudio busca,
desde la perspectiva Bayesiana realizar la estimación de la distribuciónde
los parámetros del modelo, tomando en cuenta aspectos como son: duración
del peŕıodo en el cual son propensos a infectar los individuos, cuanto afecta
la tasa de infección el tamaño de los hogares y sobre todo se busca identificar
si son más propensos a infectar los niños o los adultos.
Esta tesis está organizada de la siguiente forma:
v
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page vi — #12 i
i
i
i
i
i
Introdución vi
En el Caṕıtulo 1 se presentarán algunos conceptos básicos de las cadenas
de Markov, además de resultados que se considera será importante tener
bien claros para el fácil manejo de temas consecuentes tanto en el mismo
caṕıtulo, como en los posteriores.
En el Caṕıtulo 2 se busca en un primer plano otorgar definiciones básicas
seguido por conceptos y construcciones relacionadas con inferencia Bayesiana,
los cuales son de vital importancia para la fácil comprensión del uso de
modelos estocásticos.
En el Caṕıtulo 3 presentarán dos algoritmos clásicos de los métodos de
Monte Carlo v́ıa cadenas de Markov, cuya función es generar una muestra
de observaciones, a partir de una distribución de interés.
Finalmente en el Caṕıtulo 4 basandose en el art́ıculo “A Bayesian MCMC
approach to study transmission of influenza: aplication to household longi-
tudinal data” (Un enfoque Bayesiano MCMC para estudiar la transmisión
de la influenza: aplicación a hogares en datos longitudinales), se realiza un
estudio al respecto del comportamiento de la influenza tomando muestras
de observaciones utilizando el algoritmo Metropolis-Hastings.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 1 — #13 i
i
i
i
i
i
Caṕıtulo 1
Cadenas de Markov
En este primer caṕıtulo se presentarán algunos conceptos básicos de las
cadenas de Markov. La estructura está conformada como sigue, la primera
sección contiene los conceptos básicos como lo son un proceso estocástico,
pasando por proceso de Markov, cadena de Markov, y algunos otros con-
ceptos un tanto generales. Se irá de lo general a lo particular, en la segunda
sección se presentan como resultados preliminares las distintas propiedades
generales de las cadenas de Markov como lo son: propiedades de las proba-
bilidades de transición y la matriz de transición. Finalmente, en la última
sección se presenta la clasificación de estados definiendo cada uno de el-
los, los cuales son: estado aperiódico, transitorio, recurrente y ergódico, con
las caracteŕısticas de cada uno de ellos. Dichas definiciones y proposiciones
fueron tomadas en su mayor parte de los libros Ross(1997, 1998) y Karlin
y Taylor (1975).
1.1. Definiciones básicas
Definición 1.1.1 Un proceso estocástico X = {Xt : t ∈ T} es una
colección de variables aleatorias indexadas por un conjunto T , definidas en
un mismo espacio de probabilidad (Ω,F , P ), tomando valores en un mismo
1
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 2 — #14 i
i
i
i
i
i
1. Cadenas de Markov 2
conjunto S. A S y a T se les llama el espacio de estados y conjunto de
ı́ndices (el cual representa el tiempo), respectivamente.
Definición 1.1.2 Un proceso de Markov es un proceso estocástico
X = {Xt : t ∈ T}, con espacio de estados S y donde T ⊆ Z o T ⊆ R y
cumple que para t0, t1, ..., tn−1, t, s ∈ T , s ≥ 0, x0, ..., xn−1, x, y ∈ S con
t0 < t1 < ... < tn−1 < t es válido que:
Pr
{
Xt+s = y|Xt0 = x0, Xt1 = x1, ..., Xtn−1 = xn−1, Xt = x
}
=
Pr {Xt+s = y|Xt = x} . (1.1)
Observación: La propiedad (1.1) de la definición 1.1.2, es conocida por
propiedad de Markov, la cual significa que la distribución condicional de
cualquier estado futuro deX dado los estados anteriores y el estado presente,
depende sólo de este último y no de los estados anteriores. Y sólo tiene sen-
tido cuando S es numerable o para el caso en el que Pr {Xt+s = y|Xt = x}
sea una densidad.
Definición 1.1.3 Sea X = {Xt : t ∈ T} un proceso de Markov cuyo espacio
de estados es S. Si S ⊆ Z, entonces X es llamado cadena de Markov. Si
T ⊆ Z, entonces X es llamado cadena de Markov a tiempo discreto.
Definición 1.1.4 Sea X = {Xt : t ≥ 0} una cadena de Markov a tiempo
discreto con espacio de estados S. Se define la probabilidad de transición
de m pasos de X por:
P
(n,n+m)
ij = Pr {Xn+m = j|Xn = i} , i,j ∈ S, n,m ≥ 0,
donde para todo n ≥ 0, se define:
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 3 — #15 i
i
i
i
i
i
1. Cadenas de Markov 3
P
(n,n)
ij = δi,j =
 1, si i = j0, si i 6= j
y en el caso particular en el que la probabilidad de transición es la de un paso,
es decir cuando m = 1 entonces se le llama probabilidad de transición
y está definido, por:
P
(n,n+1)
ij = Pr {Xn+1 = j|Xn = i} , i, j ∈ S, n ≥ 0.
Definición 1.1.5 Cuando las probabilidades de transición P (n,n+m)ij no de-
penden de n, se dice que la cadena es homogénea en el tiempo y se denota
por:
P
(n,n+m)
ij = Pr {Xn+m = j|Xn = i} = P
(m)
ij
En particular cuando m = 1 se tienen las probabilidades de transición y en
este caso se tiene que:
Pij = Pr {Xn+1 = j|Xn = i} , i,j ∈ S, n ≥ 0.
Observación: Es decir que cuando se tiene una cadena de Markov ho-
mogénea en el tiempo, las probabilidades de transición dependerán sólo del
número de pasos necesarios para ir de un estado a otro y no del tiempo en
el cual comienza la transición. De ahora en adelante se estará tratando con
cadenas de Markov homogéneas en el tiempo.
Se nota que se puede agregar la información sobre una cadena de Markov
en un arreglo matricial, el cual se detalla a continuación.
Definición 1.1.6 Al arreglo matricial que contenga las probabilidades de
transición como sus elementos se le llama matriz de transición o matriz
de probabilidades de transición.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 4 — #16 i
i
i
i
i
i
1. Cadenas de Markov 4
Entonces se tendrá que para una cadena de Markov X = {Xn : n = 0, 1, ...}
con espacio de estados S, la matriz de transición en m-pasos será:
P (m) =
(
P
(m)
ij
)
i,j∈S
,
para el caso de la matriz de transición de un paso, ésta será:
P =
(
P
(1)
ij
)
i,j∈S
.
Definición 1.1.7 Sea X = {Xm : n = 0, 1, ...} una cadena de Markov, S
su espacio de estados y P (m) = (P (m)i,j )i,j∈S su matriz de transición de m
pasos. Se llama distribución ĺımite de X al ĺımn→∞ P
(n)
ij cuando éste
existe y no depende del estado i ∈ S.
Definición 1.1.8 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su
espacio de estados y P = (Pi,j)i,j∈S su matriz de transición. A π(j), j ∈ S
que satisface:
1. π(j) ≥ 0, j ∈ S
2.
∑
j∈S π(j) = 1
3. π(j) =
∑
i∈S π(i)Pi,j , j ∈ S
se le llama distribución estacionaria de X.
Definición 1.1.9 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su
espacio de estados. La distribución inicial de X, denotada por π0(i), i ∈
S, se define de la siguiente forma:
π0(i) = Pr(X0 = i).
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 5 — #17 i
i
i
i
i
i
1. Cadenas de Markov 5
Definición 1.1.10 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S
su espacio de estados. La distribución al tiempo n de X, n ≥ 1, indicada
por πn(i), i ∈ S, se define de la siguiente manera:
πn(i) = Pr(Xn = i).
Definición 1.1.11 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con
distribución inicial π0(.) y una única distribución estacionaria π(.). Se dice
que X es una cadena estacionaria si su distribución inicial es igual a su
distribución estacionaria. En este caso, se tiene πn = π, para toda n.
Definición 1.1.12 Un estado j es accesible de un estado i si para algún
n ≥ 0, P (n)ij > 0. Si dos estados i y j son accesibles entre śı se dirá que
están comunicados, y lo escribiremos como i↔ j.
Definición 1.1.13 Una cadena de Markov es irreducible si todos sus es-
tados se comunican entre śı.
Definición 1.1.14 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, con
S su espacio de estados y P (n) =
(
P
(n)
i,j
)
i,j∈S
su matriz de transición en
n-pasos. Sea i ∈ S. El peŕıodo del estado i estádefinido por
d (i) = m.c.d.
{
n ≥ 1|P (n)i,i > 0
}
.
donde m.c.d. significa el máximo común divisor.
Definición 1.1.15 Para cada estado i y j definimos f (n)ij como la proba-
bilidad de que al comenzar en i, se acceda a j por primera vez en
n pasos, formalmente: f (0)ij = 0, y
f
(n)
ij = Pr {Xn = j,Xk 6= j, k = 1, ..., n− 1|X0 = i} .
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 6 — #18 i
i
i
i
i
i
1. Cadenas de Markov 6
Definiendo fij =
∑∞
n=1 f
(n)
ij , donde fij representa la probabilidad de
que llegue al estado j en algún momento futuro, dado que el proceso
empezó en i.
Observación: Notamos que para i 6= j, fij es estrictamente positivo si y
solo si j es accesible de i.
1.1.1. Ejemplo de cadenas de Markov
Cadenas de Markov espacialmente homogéneas
Sean ξ1, ξ2, ..., ξn, ... variables aleatorias discretas independientes cuyos
posibles valores son los enteros no negativos, es decir, Pr {ξ = i} = ai, a1, a2, ... ≥
0 para toda i ∈ N ,
∑∞
i=1 a1 = 1. Se definen dos diferentes cadenas de Markov
relacionado con la secesión de ξ‘is.
(i) Considerar el proceso Xn, n = 0, 1, 2, ..., definido por Xn = ξn te-
niendo (X0 = ξ0). Entonces tenemos la siguiente matriz de transición:

a0 a1 a2 a3 ...
a0 a1 a2 a3 ...
a0 a1 a2 a3 ...
a0 a1 a2 a3 ...
... ... ... ... ...

,
dado que Xn+1 es independiente de Xn
(ii) Otra importante clase de cadenas de Markov surge de la considera-
cion de la sucesión de sumas parciales ηn del ξi, es decir:
ηn = ξ1 + ξ2 + ...+ ξn, n = 1, 2, ... (1.2)
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 7 — #19 i
i
i
i
i
i
1. Cadenas de Markov 7
donde por definición, η0 = 0. El proceso Xn = ηn puede ser visto como una
cadena de Markov cuyo espacio de estados son los enteros y sus probabili-
dades de transición son j ≥ i ≥ 0:
Pr {Xn+1 = j|Xn = i} = Pr {ξ1 + ξ2 + ...+ ξn+1 = j|Xn = i}
= Pr {ξn+1 = j − i} = aj−i (1.3)
1.2. Resultados preliminares
Propiedad 1.2.1 Sea P (m) =
(
P
(m)
i,j
)
i,j∈S
la matriz de transición en m
pasos de una cadena de Markov X = {Xn : n = 0, 1, ...} con espacio de
estados S. Entonces para toda m ≥ 0 se cumple que:
1. P (m) tiene entradas no negativas, es decir, P (m)i,j ≥ 0.
2. P (m) es una matriz tal que
∑
j∈S P
(m)
i,j = 1, i ∈ S.
Demostración:
1. Usando la Definición 1.1.5 se tiene que que P (m)i,j = Pr {Xn+m = j|Xn = i}.
Por definición de probabilidad condicional se sabe que P (m)i,j es mayor
o igual a 0.
2. Sea i un estado fijo en el espacio de estados S, es decir, i ∈ S, entonces:∑
j∈S
P
(m)
i,j =
∑
j∈S
Pr {Xn+m = j|Xn = i}
= Pr
Xn+m ∈ ⋃
j∈S
{j} |Xn = i

= Pr {Xn+m ∈ S|Xn = i}
= 1. (1.4)
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 8 — #20 i
i
i
i
i
i
1. Cadenas de Markov 8
Lo cual ocurre para todo i ∈ S. Sólo cabe mencionar que la primera igualdad
se da por la Definición 1.1.5, la tercera igualdad se da usando el hecho de
que S =
⋃
j∈S {j} y la última es porque la probabilidad condiconal es
probabilidad.
♦
Proposición 1.2.1 (Ecuaciones de Chapman-Kolmogorov, para el
caso de cadenas homogéneas en el tiempo)
Sea P (n) =
(
P
(n)
ij
)
i,j∈S
la matriz de n-pasos de una cadena de Markov
X = {Xn : n = 0, 1, ...} con espacio de estados S, entonces para n,m ≥ 0
se tiene:
P
(n+m)
ij =
∑
k∈S
P
(n)
ik P
(m)
kj , i, j ∈ S. (1.5)
Demostración: Por la Definición 1.1.5, se tiene que:
P
(n)
ij = Pr {Xn+m = j|Xm = i} , m, n ≥ 0 y i, j ≥ 0.
Note que
P
(n+m)
ij = Pr {Xn+m = j|X0 = i}
=
∑
k∈S
Pr {Xn+m = j,Xn = k|X0 = i}
=
∑
k∈S
Pr {Xn+m = j|Xn = k}Pr {Xn = k|X0 = i}
=
∑
k∈S
P
(n)
kj P
(m)
ik . (1.6)
Observación: La ecuación de Chapman-Kolmogorov otorga un método
para calcular la probabilidad de transición en n-pasos. De la ecuación gene-
ral de Chapman-Kolmogorov se tiene que para una cadena de Markov con
espacio de estados finito vale: P (n+m) = P (n)P (m). Por lo tanto,
P (n) = P · P (n−1) = P · P · P (n−2) = ... = Pn,
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 9 — #21 i
i
i
i
i
i
1. Cadenas de Markov 9
es decir, podemos calcular P (n) multiplicando a la matriz P por si misma
n veces.
Proposición 1.2.2 Cuando se tienen especificadas tanto las probabilidades
de transición de una cadena de Markov como su distribución inicial, es de-
cir, la distribución de X0, entonces se puede calcular todas las distribuciones
finito dimensionales:
Pr {X0 = i0, X1 = i1, ..., Xn = in}
y está dado por:
Pr (X0 = i0, X1 = i1, ..., Xn = in) = π0 (i0)
n−1∏
j=0
Pij ,ij+1
 .
Demostración:
Se sabe que:
Pr {X0 = i0} = π0 (i0)
Se utilizará inducción matemática para demostrar la proposición. Para n =
1, se tiene que:
Pr {X0 = i0, X1 = i1}
(1)
= Pr {X1 = i1|X0 = i0} · Pr {X0 = i0}
(2)
= Pi0,i1π0 (i0)
(1) Por definición de probabilidad condicional.
(2) Por definición de proceso de Markov.
Por hipótesis de inducción suponemos cierto para n−1 y probamos para
n.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 10 — #22 i
i
i
i
i
i
1. Cadenas de Markov 10
Dado que se cumple para n− 1, entonces podemos asegurar que:
Pr {X0 = i0, X1 = i1, ..., Xn−1 = in−1} = Pin−2,in−1 · Pin−3,in−2 · ... · Pi0,i1π0 (i0)
Por demostrar que se cumple para n, entonces
Pr {X0 = i0, ..., Xn−1 = in−1, Xn = in}
(3)
=
Pr {Xn = in|X0 = i0, ..., Xn−1 = in−1}︸ ︷︷ ︸
(I)
·Pr {X0 = i0, ..., Xn−1 = in−1}
(1.7)
(3) Por definición de probabilidad condicional, además para (I)
Pr {Xn = in|X0 = i0, ..., Xn−1 = in−1} = Pin−1,in , por definición de proceso
de Markov. Entonces sustituyendo (I) en la ecuación (1.7) se tiene:
Pr {X0 = i0, ..., Xn = in} = Pin−1,in · Pr {X0 = i0, ..., Xn−1 = in−1} ,
pero por hipótesis de inducción tenemos que:
Pr {X0 = i0, ..., Xn = in} = Pin−1,in · Pin−2,in−1 · ... · Pi0,i1π0 (i0)
= π0 (i0)
n−1∏
j=0
Pij ,ij+1
Pin−1,in ,
por lo tanto tanto el resultado sigue.
Proposición 1.2.3 Si i↔ j, entonces d(i) = d(j).
Demostración:
Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su espacio de estados
y con matriz de transición de m-pasos P (m) =
(
P
(m)
i,j
)
i,j∈S
. Por hipótesis
existen r, t ≥ 0 tales que P (r)i,j , P
(t)
j,i > 0. Utilizando la Proposición 1.2.1 se
tiene que
P
(r+t)
j,j =
∑
k∈S
P
(t)
j,kP
(r)
k,j
(1)
≥ P (t)j,i P
(r)
i,j
(2)
> 0.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 11 — #23 i
i
i
i
i
i
1. Cadenas de Markov 11
(1) y (2) La desigualdad se da por la hipótesis de que r, t > 0, es decir P (r)ij ,
P
(t)
ji son estrictamente mayor que cero y por ende P
(r)
ij P
(t)
ji > 0.
Por otro lado, sea s ≥ 0 tal que P (s)i,i > 0, por lo que
P
(r+s+t)
j,j
(3)
=
∑
k∈S
P
(t+s)
j,k P
(r)
k,j =
∑
k∈S
∑
h∈S
P
(t)
j,hP
(s)
h,kP
(r)
k,j ≥ P
(t)
j,i P
(s)
i,i P
(r)
i,j > 0.
(3) La igualdad se da por las ecuaciones de Chapman-Kolmogorov aplicada
a P (r+s+t)j,j
Ahora bien, dado que d (j) = m.c.d.
{
n ≥ 1|P (n)j,j > 0
}
, entonces se puede
asegurar que d (j) divide a r+t, y también divide a r+s+t. Adicionalmente,
divide (r + s+ t) − (r + t) = s. De esta manera d (j) divide a cualquier
número entero que sea elemento del siguiente conjunto:
D =
{
u ≥ 1|P (u)i,i > 0
}
.
Dado que d (i) ∈ D. Entonces por lo que antes se ha mencionado se tiene
que d (j) divide a d (i). Del mismo modo se puede hacer ver que d (i) divide
a d (j). Por tanto podemos concluir que d (j) = d (i).
1.3. Clasificación de estados
Definición 1.3.1 Si P (n)i,i = 0 para toda n ≥ 1 entonces d (i) = 0. Si
d (i) = 1 entonces se dice que i es un estado aperiódico.
Definición 1.3.2 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con
espacio de estados S y sea i ∈ S. Diremos que i es un estado recurrente
si y sólo si fi,i = 1.
Definición 1.3.3 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con
espacio de estados S y sea i ∈ S. Diremos que i es un estado transitorio
si y sólo si fi,i < 1.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 12 — #24 i
i
i
i
i
i
1. Cadenas de Markov 12
Definición 1.3.4 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con
espacio deestados S y sea i ∈ S, se define el número esperado de tran-
siciones necesarias para regresar por primera vez el estado i por:
µi = E (Ti|Xo = i)
Comentario: Diremos que:
µi = E (Ti|Xo = i) =

∑∞
n=1 nf
(n)
i,i , si i es recurrente
∞, si i es transitorio.
Donde Ti denota el primer momento en el que la cadena visita al estado i.
Definición 1.3.5 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con
espacio de estados S y sea i ∈ S.
1. Si µi = ∞ entonces i es llamado recurrente nulo.
2. Si µi <∞ entonces i es llamado positivo recurrente.
Definición 1.3.6 Sea S el espacio de estados de una cadena de Markov
discreta, homogénea en el tiempo, la cual se denota con X = {Xn : n = 0, 1, ...}.
Un estado i ∈ S, es llamado estado ergódico si i es recurrente positivo y
aperiódico. Y además una cadena es ergódica si todos sus estados son no
nulos, aperiÃ3dicosyrecurrentes.
Proposición 1.3.1 Sea S el espacio de estados de una cadena de Markov
discreta y homogénea en el tiempo dada por X = {Xn : n = 0, 1, ...}. Sea
P (m) la matriz de transición de m-pasos asociada a dicha cadena. Ahora
bien sea j ∈ S un estado recurrente y d(j) denotará su peŕıodo, entonces:
1. Existe el siguiente ĺımite: ĺımn→∞ P
(nd(j))
jj .
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 13 — #25 i
i
i
i
i
i
1. Cadenas de Markov 13
2. Si cumple también que el estado j es aperiódico y se comunica con el
estado i, con i ∈ S, entonces existe el siguiente lmite: ĺımn→∞ P (n)ij .
Demostración: Ver Ross (1997) en la seccón de Clasificación de Estados.
Proposición 1.3.2 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov
aperiodica irreducible con espacio de estados S. Tomando i, j ∈ S, se tiene
que:
ĺım
n→∞
P
(n)
i,j =
1
µj
.
Demostración: Ver Grimmett y Stirzaker (1982) en la sección de Clasifi-
cación de Estados y propiedades.
Proposición 1.3.3 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov
aperiódica e irreducible con espacio de estados S.
1. Si j ∈ S es recurrente positivo entonces ĺımn→∞ P (n)ij > 0, con i ∈ S.
2. Si j ∈ S es transitorio o recurrente nulo entonces ĺımn→∞ P (n)ij =
1
µj
= 0, con i ∈ S.
Demostración:
1. Dado que j ∈ S es recurrente positivo entonces por la definición 1.3.5
µj <∞. Dado queX es irreducible y aperiódica, usando la proposición
1.3.2 se cumple que:
ĺım
n→∞
P
(n)
i,j =
1
µj
> 0
2. Si j ∈ S cumple ser transitorio o recurrente nulo entonces por la
definición 1.3.5 µj = ∞, por lo tanto se cumple que:
ĺım
n→∞
P
(n)
ij =
1
µj
= 0
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 14 — #26 i
i
i
i
i
i
1. Cadenas de Markov 14
Observación: Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con dis-
tribución estacionaria π = {π(j) : j ∈ S}. Se dice que X ha alcanzado su
estado estacionario al tiempo n cuando Pr(Xn = j) = π(j), para todo j ∈ S.
Teorema 1.3.1 Sea X = Xn : 0, 1, ... una cadena de Markov ergódica con
espacio de estados S, con matriz de transición en n − pasos y P (n) =
(P (n)i,j )i,j∈S. El conjunto:
π =
{
π(j) = ĺım
n→∞
P
(n)
i,j > 0, i ∈ S, j ∈ S
}
es la única distribución estacionaria de X.
Demostración.
1. Dado que X es una cadena ergódica todos sus estados son recurrentes
positivos, por lo que ĺımn→∞ P
(n)
i,j > 0 y por tanto se cumple que
π(j) ≥ 0,
2. Se debe demostrar que π(j) =
∑
i∈S π(i)Pi,j con j ∈ S; pero para
dicha demostración primero se probará que:
π(j) =
∑
i∈S
π(i)P (n)i,j (1.8)
para toda n ≥ 0 y para toda j ∈ S, con S finito.
Suponga a S finito, por la proposición (1.2.1) se sabe que para
n,m ≥ 0
P
(m+n)
h,j =
∑
i∈S
P
(m)
h,i P
(n)
i,j .
Haciendo tender m a infinito se tiene que
ĺım
n→∞
P
(m+n)
h,j =
∑
i∈S
(
ĺım
m→∞
P
(m)
h,i
)
P
(n)
i,j .
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 15 — #27 i
i
i
i
i
i
1. Cadenas de Markov 15
Finalmente,
π(j) =
∑
i∈S
π(i)P (n)i,j .
Suponga que S es numerable, sabemos que:
P
(m+n)
h,j
(1)
=
∑
i∈S
Pmh,iP
n
i,j
(2)
≥
M∑
i=0
Pmh,iP
n
i,j
para toda M ∈ S y m,n ≥ 0.
(1) La igualdad se da por la proposición 1.2.1.
(2) Es una suma parcial de la suma anterior.
Ahora haciendo tender m a infinito se tiene que:
ĺım
n→∞
P
(m+n)
h,j ≥
M∑
i=0
( ĺım
m→∞
P
(m)
h,i )P
(n)
i,j
Aśı,
π(j) ≥
M∑
i=0
π(i)P (n)i,j ,
para toda M ∈ S. Ahora cuando hacemos a M tender a infinito
se tiene que:
ĺım
M→∞
π(j) = π(j) ≥ ĺım
M→∞
M∑
i=0
π(i)P (n)i,j
=
∞∑
i=0
π(i)P (n)i,j .
De todo lo anterior se tiene que:
π(j) ≥
∑
i∈S
π(i)P (n)i,j , con j ∈ S y n ≥ 0,
Sin embargo, supóngase que:
π(j) >
∑
i∈S
π(i)P (n)i,j , con j ∈ S y n ≥ 0. (1.9)
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 16 — #28 i
i
i
i
i
i
1. Cadenas de Markov 16
y se llega a una contradicción. Considerando la suma sobre j en
(1.8) se tiene que∑
j∈S
π(j) >
∑
j∈S
∑
i∈S
π(i)P (n)i,j =
∑
i∈S
π(i)
∑
j∈S
P
(n)
i,j
=
∑
i∈S
π(i) (1.10)
donde la última igualdad ocurre, ya que por la propiedad 1.2.1,∑
j∈S P
(n)
i,j = 1, para toda i ∈ S y n ≥ 0. Por lo tanto
π(j) =
∑
i∈S
π(i)P (n)i,j .
En particular, cuando n = 1 se tiene que
π(j) =
∑
i∈S
π(i)Pi,j ,
para toda j ∈ S.
3. Ahora se debe demostrar que:∑
j∈S
π(j) = 1, con π(j) = ĺımn→∞ P
(n)
i,j .
Suponga que S es finito. Por el inciso 2. de la propiedad (1.2.1)
se tiene que ∑
j∈S
P
(n)
i,j = 1,
con n ≥ 0.
Haciendo tender n a infinito∑
j∈S
( ĺım
n→∞
P
(n)
i,j ) = 1,
por lo que ∑
j∈S
π(j) = 1.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 17 — #29 i
i
i
i
i
i
1. Cadenas de Markov 17
Suponga que S es numerable. Por un lado se tiene que
1 =
∑
j∈S
P
(n)
i,j ≥
M∑
j=0
P
(n)
i,j , para toda M ∈ S y n ≥ 0.
Si n tiende a infinito entonces
1 ≥
M∑
j=0
(
ĺım
n→∞
P
(n)
i,j
)
=
M∑
j=0
π(j), para toda M ∈ S
Cuando M tiende a infinito:
1 ≥ ĺım
M→∞
M∑
j=0
π(j) =
∑
j∈S
π(j)
Lo que indica que
∑
j∈S π(j) converge. Además note que
P
(n)
i,j ≤ 1
para toda j ∈ S y para toda n ≥ 0 por ser probabilidad condi-
cional, por lo tanto P (n)i,j es uniformemente acotada.
Por lo tanto, si n tiende a infinito en: π(j) =
∑
i∈S π(i)P
(n)
i,j , se
tiene que:
ĺım
n→∞
π(j) = π(j) =
∑
i∈S
π(i)( ĺım
n→∞
P
(n)
i,j )
=
∑
i∈S
π(i)π(j)
= π(j)
∑
i∈S
π(i), (1.11)
y aśı ∑
i∈S
π(i) = 1
ya que por hipótesis π(j) > 0.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 18 — #30 i
i
i
i
i
i
1. Cadenas de Markov 18
4. Ahora se debe demostrar la unicidad de esta distribución. Supongamos
la existencia de νj con j ∈ S tal que el conjunto {νj : j ∈ S} sea
una distribución estacionaria de X, es decir cumple con las siguientes
propiedades:
νj ≥ 0,para todo j ∈ S.∑
j∈S νj = 1.
νj =
∑
i∈S νiPi,j ,para todo j ∈ S.
Lo que se demostrará es que νj = π(j), para todo j ∈ S. Para
esto note primero que por hipótesis la fórmula (1.8) también es
válida para el conjunto {νj : j ∈ S}:
νj =
∑
i∈S
νiP
(n)
i,j (1.12)
para todo n ≥ 0 y para todo j ∈ S. A partir de aqúı se di-
vidirá esta demostración en dos casos.
� Suponga que S es finito. Haciendo que n tienda a infinito en
la expresión (1.12) se tiene
νj =
∑
i∈S
νi
(
ĺım
n→∞
P
(n)
i,j
)
=
∑
i∈S
νiπ(j) = π(j)
donde la última igualdad se cumple por los criterios que
teńıamos como hipótesis para ν(·),
∑
j∈S νj = 1,para todo j ∈
S.
� Se supone a S numerable, entonces usando la expresión (1.12)
se tiene
νj ≥
M∑
i=0
νiP
(n)
i,j ,
para todo M ∈ S. Tomando el ĺımite cuando n tiende a
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 19 — #31 i
i
i
i
i
i
1. Cadenas de Markov 19
infinito se tiene
ĺım
n→∞
νj = νj ≥ ĺım
n→∞
M∑
i=0
νiP
(n)
i,j
=
M∑
i=0
νi( ĺım
n→∞
P
(n)
i,j )
=
M∑
i=0
νiπ(j),∀M ∈ S (1.13)
Pero ahora bien si M tiende a infinito en la expresión (1.13)
entonces
ĺım
M→∞
νj = νj ≥ ĺım
M→∞
M∑
i=0
νiπ(j) =
∑
i∈S
νiπ(j) = π(j).
(1.14)
Donde la última igualdad se da por la hipótesis que se tiene
con respecto a ν(·).
Por otro lado, también por la expresión (1.12), se tiene que
νj =
M∑
i=0
νiP
(n)
i,j +
∞∑
i=M+1
νiP
(n)
i,j ,para todo
n≥ 0. (1.15)
Dado que P (n)i,j ≤ 1, para todon ≥ 0 por ser una probabili-
dad condicional, tenemos de la expresión (1.15) que
νj ≤
M∑
i=0
νiP
(n)
i,j +
∞∑
i=M+1
νi,para todo n
Cuando n tiende a infinito en la expresión anterior se tiene
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 20 — #32 i
i
i
i
i
i
1. Cadenas de Markov 20
que
ĺım
n→∞
νj = νj ≤
M∑
i=0
νi( ĺım
n−>∞
P
(n)
i,j ) +
∞∑
i=M+1
νi
=
M∑
i=0
νiπ(j) +
∞∑
i=M+1
νi. (1.16)
Dado que
∑
i∈S νi = 1 se tiene
M∑
i=0
νi +
∞∑
i=M+1
νi = 1,
con lo cual la expresión (1.17) se convierte en
νj ≤
M∑
i=0
νiπ(j) + 1−
(
M∑
i=0
νi
)
Si M tiende a infinito en la expresión anterior entonces
ĺım
M→∞
νj = νj ≤
∑
i∈S
νiπ(j)+
(
1−
∑
i∈S
νi
)
= π(j)
∑
i∈S
νi = π(j).
(1.17)
Finalmente la expresión (1.14) y (1.18) podemos concluir que
νj = π(j),
para toda j ∈ S
Observación: Sea X = {Xn : 0, 1, ...} una cadena de Markov aperiódica
e irreducible con espacio de estados S. Si todos sus estados son recurrentes
nulos o transitorios entonces no existe la distribución ĺımite de X.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 21 — #33 i
i
i
i
i
i
1. Cadenas de Markov 21
1.4. Cadenas de Markov reversibles en el
tiempo.
Definición 1.4.1 Sea X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov
estacionaria, sean S su espacio de estados y P = (Pi,j)i,j∈S su matriz de
transición. La cadena reversa en el tiempo con respecto a Pi,j de X es
el proceso estocástico que se expresa como X∗ = {X∗n : n = ...,−1, 0, 1, ...}
el cual está definido de la siguiente forma: Para una n fija tal que n ∈ Z se
define X∗n = Xn además X
∗
n+1 = Xn−1, donde dicho valor n puede tomar
valores al tiempo n = 0, 1, ... es decir, que X∗ es la X pero vista desde el
presente hacia el pasado. Si el estado presente de la cadena X∗ fuese X∗n,
entonces se dirá que sus estados pasados serán Xn+1, Xn+2, ... y los estados
futuros serán Xn−1, Xn−2, .... A continuacion se muestra dicho desarrollo:
Sea X = {Xn : n = ...,−1, 0, 1, ...} y sea X∗ = {X∗n : n = ...,−1, 0, 1, ...},
y teniendo n ∈ Z fija entonces se tiene que:
X∗n = Xn
X∗n+1 = Xn−1
X∗n+2 = Xn−2
...
Teniendo el caso general para n ∈ Z fija se tendrá
X∗n+m = Xn−m, m = ...,−1, 0, 1, ...
Ahora se demostrará que la cadena reversa no depende de n, es decir
que las probabilidades de transicion son las mismas no importando el valor
con respecto al cual se realice la reversa.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 22 — #34 i
i
i
i
i
i
1. Cadenas de Markov 22
Sean n1 y n2 dos tiempos distintos respecto a los cuales se aplica la
reversa, ahora bien las probabilidades de transicion de ir de un estado i a
un estado j en m-pasos con respecto a dos tiempos distintos en la cadena
reversa serán:
Pr
{
X∗(n1+r1)+m = j|X
∗
n1+r1 = i
}
para n1 donde r1 ∈ Z. Es de-
cir, la cadena reversa con respecto a n1 después de m-pasos esta en j
dado que al tiempo n1 + r1 la cadena esta en el estado i.
Pr
{
X∗(n2+r2)+m = j|X
∗
n2+r2 = i
}
para n2 donde r2 ∈ Z. Es de-
cir, la cadena reversa con respecto a n2 después de m-pasos esta en j
dado que al tiempo n2 + r2 la cadena esta en el estado i.
Nótese que usando los ı́ndices r1 y r2 se puede hacer ver que la cadena en el
estado i no necesariamente debe estar en el tiempo ni, con i = 1, 2 respecto
al cual se realiza la reversa en la cadena original.
Por otro lado tenemos que usando el criterio de la definición 1.4.1 se
tiene,
Pr
{
X∗(n1+r1)+m = j|X
∗
n1+r1 = i
}
=Pr
{
X(n1+r1)−m = j|X∗n1+r1 = i
}
para
n1
Pr
{
X∗(n2+r2)+m = j|X
∗
n2+r2 = i
}
=Pr
{
X(n2+r2)−m = j|X∗n2+r2 = i
}
para
n2
de lo cual se puede ver que no importando que los dos tiempos distintos
respecto a los cuales se haya aplicado la reversa, las probabilidades son las
mismas ya que solo dependerá de m y tener fijos el estado i y el estado j.
Proposición 1.4.1 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov
estacionaria, con S su espacio de estados, con matriz de transición P =
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 23 — #35 i
i
i
i
i
i
1. Cadenas de Markov 23
(Pi,j)i,j∈S, y suponga que X tiene una única distribucion estacionaria dada
por π = {π(i) : i ∈ S} y X∗ su cadena reversa en el tiempo. Entonces X∗
es una cadena de Markov en el espacio de estados S y sus probabilidades de
transición P ∗i,j , i, j ∈ S, están definidas por:
P ∗i,j = Pr
{
X∗n+1 = j|X∗n = i
}
=
π(j)
π(i)
Pj,i
para todo i, j ∈ S
Demostración:
Para que X∗ sea cadena de Markov debe cumplir que
Pr
{
X∗n+m = in+m|X∗n = in, ..., X∗n+m−1 = in+m−1
}
=
Pr
{
X∗n+m = in+m|X∗n+m−1 = in+m−1
}
donde n,m ≥ 0, in, ..., in+m ∈ S.
Ahora desarrollando tenemos que:
Pr
{
X∗n+m = in+m|X∗n = in, ..., X∗n+m−1 = in+m−1
}
=
Pr {Xn−m = in+m|Xn = in, ..., Xn−m+1 = in+m−1} = (∗∗)
(∗∗) = Pr {Xn−m = in+m|Xn = in, ..., Xn−m+1 = in+m−1}
=
Pr {Xn−m = in+m, Xn−m+1 = in+m−1, ..., Xn = in}
Pr {Xn−m+1 = in+m−1, ..., Xn = in}
=
Pr {Xn−m = in+m, Xn−m+2 = in+m−2, ..., Xn = in|Xn−m = in+m, Xn−m+1 = in+m−1}
Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1}
×
Pr {Xn−m+1 = in+m−1, Xn−m = in+m}
Pr {Xn−m+1 = in+m−1}
= Pr {Xn−m = in+m|Xn−m+1 = in+m−1} ×
Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1}
Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1}
= Pr {Xn−m = in+m|Xn−m+1 = in+m−1}
= Pr
{
X∗n+m = in+m|X∗n+m−1
}
.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 24 — #36 i
i
i
i
i
i
1. Cadenas de Markov 24
Donde las igualdades se dan por la definición de cadena reversa en el tiempo
dada anteriormente y por definición de cadena de Markov para X. Por otro
lado se tiene que:
P ∗i,j = Pr
(
X∗n+1 = j|X∗n = i
)
=
Pr (Xn−1 = j,Xn = i) Pr (Xn−1 = j)
Pr (Xn = i) Pr (Xn−1 = j)
=
Pr (Xn = i|Xn−1 = j) Pr (Xn−1 = j)
Pr (Xn = i)
=
Pj,iπ(j)
π(i)
. (1.18)
Nota: La primera igualdad se cumple por la probabilidad de transición,
mientras que la última, además por ser la probabilidad de transición, se usa
el hecho de que X es estacionaria.
Proposición 1.4.2 Sea X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov
estacionaria, sea S su espacio de estados, con matriz de transición P =
(Pi,j)i,j∈S, suponga que X tiene una única distribucion estacionaria dada
por π = {π(i) : i ∈ S} y X∗ = {X∗n : n = ...,−1, 0, 1, ...} su cadena reversa
en el tiempo. La distribución estacionaria de X∗ también es π.
Demostración:
Por ser π = {π(j) : j ∈ S} distribución estacionaria de X, entonces cumple
las siguientes propiedades:
1. π(j) ≥ 0,para todo j ∈ S
2.
∑
j∈S π(j) = 1
3. π(j) =
∑
i∈S π(i)Pi,j ,para todo j ∈ S
Notese que dado que X∗ está bien definida en S como se mostro, entonces
π(j) cumple las propiedades 1 y 2, lo que hay que demostrar es que π(j) =
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 25 — #37 i
i
i
i
i
i
1. Cadenas de Markov 25
∑
i∈S π(i)P
∗
i,j , para todo j ∈ S, para ello sustituyendo P ∗i,j en la propiedad
3 se tiene que:
∑
i∈S
π(i)P ∗i,j =
∑
i∈S
π(i)(
π(j)
π(i)
)Pj,i
=
∑
i∈S
π(j)Pj,i
= π(j)
∑
i∈S
Pj,i
= π(j). (1.19)
Definición 1.4.2 Sean X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov
estacionaria, sea S su espacio de estados, con matriz de transición
P = (Pi,j)i,j∈S, suponga que X tiene una única distribucion estacionaria
dada por π = {π(i) : i ∈ S} y X∗ = {X∗n : n = ...,−1, 0, 1, ...} su cadena re-
versa en el tiempo con matriz de transición P ∗ =
(
P ∗i,j
)
i,j∈S. Si P
∗
i,j = Pi,j,
para todo i, j ∈ S se dice que X es una cadena reversible en el tiempo
con respecto a π.
Proposición 1.4.3 Sean X = {Xn : n = ...,−1, 0, 1, ...} una cadena de
Markov estacionaria, S su espacio de estados, con matriz de transición
P = (Pi,j)i,j∈S y π = π(i) : i ∈ S su distribución estacionaria. X es re-
versible en el tiempo con respecto a π si y sólo si para todo i, j ∈ S
π(i)Pi,j = π(j)Pj,i. (1.20)
Demostración:
Supóngase que X es reversible en el tiempo, es decir que P ∗i,j = Pi,j ,
entonces, se tiene que:
π(j)
π(i)
Pj,i = Pi,j ,
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 26 — #38 i
i
i
i
i
i
1. Cadenas de Markov 26
con lo quese cumple que π(i)Pi,j = π(j)Pj,i.
Suponga que π(i)Pi,j = π(j)Pj,i, y el procedimiento es el mismo que
en el caso anterior sólo que de regreso. Usando el hecho de que Pi,j =
π(j)
π(i)Pj,i el resultado sigue de la proposición (1.4.2).
Observación: La igualdad (1.20) es llamada ecuación detallada de
balance.
Proposición 1.4.4 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov
estacionaria, S su espacio de estados, y con matriz de transición P =
(Pi,j)i,j∈S. Supongamos que f(i) satisface
f(i)Pi,j = f(j)Pj,i. (1.21)
donde f es una función de probabilidad definida sobre S, con i, j ∈ S.
1. La función de probabilidad f es la distribución estacionaria de la ca-
dena X.
2. La cadena X es reversible en el tiempo con respecto a f .
Demostración:
1. Para demostrar la primera afirmación debemos ver que se cumpla:
i) f(j) ≥ 0,para todo j ∈ S
ii)
∑
j∈S f(j) = 1
iii) f(j) =
∑
i∈S f(i)Pi,j ,para todo j ∈ S
Notamos que los dos primeros casos se cumplen ya que f es fun-
ción de probabilidad sobre S.
Ahora bien para el tercer caso tenemos que tomando j ∈ S:
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 27 — #39 i
i
i
i
i
i
1. Cadenas de Markov 27
∑
i∈S
f(i)Pi,j =
∑
i∈S
f(j)Pj,i = f(j)
∑
i∈S
Pj,i = f(j).
Donde la primera igualdad la tenemos por (1.21) y la última
está en el hecho de que
∑
i∈S Pj,i = 1.
2. Para demostrar la segunda afirmación utilizamos la primera parte
demostrada, en la que nos dice que dado que f es la distribución
estacionaria de X por lo que cumple la ecuación (por la proposición
(1.4.3)):
π(i)Pi,j = π(j)Pj,i, i, j ∈ S
y por tanto la cadena es reversible con respecto al tiempo con respecto
a f.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 28 — #40 i
i
i
i
i
i
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 29 — #41 i
i
i
i
i
i
Caṕıtulo 2
Introducción a la Estad́ıstica
Bayesiana
En este segundo caṕıtulo se mostrarán en primer lugar definiciones
básicas, seguido por conceptos y construcciones relacionadas con inferencia
Bayesiana. Dichos argumentos y conceptos serán útiles para los próximos
caṕıtulos. La información que será presentada fue tomada en su mayor parte
de los libros Carlin y Louis (2000), Gamerman (1997), Lee (2001) y Reyes
(2008).
2.1. Definiciones básicas.
Definición 2.1.1 Considere un experimento aleatorio el cual puede ser
descrito con un modelo matemático. La variable que describe dicho modelo
es llamada parámetro y será indicada por θ.
Definición 2.1.2 Al conjunto de los posibles valores que un parámetro θ
puede tomar se llama espacio parametral y estará denotado por Θ. El
espacio parametral puede especificar una familia de funciones de densidad
29
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 30 — #42 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 30
espećıfica, es decir,
F = {f(x, θ); θ ∈ Θ}
donde f(x, θ) es una función de densidad con parámetros θ ∈ Θ y x es un
elemento del espacio donde f toma valores.
Definición 2.1.3 Supongamos que se efectua un experimento aleatorio N
veces, dichas repeticiones son independientes entre śı, sea xi con i = 1, 2, ..., N
el resultado de la i− ésima repetición del experimento, donde dicho experi-
mento representa tomar una muestra de una población de manera que todo
elemento de la poblacion tenga la misma probabilidad de selección, de dicho
experimento se obtenie el siguiente conjunto de valores,
X = {x1, x2, x3, ..., xN} , a dicho conjunto se le llama muestra aleatoria.
Definición 2.1.4 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y
θ ∈ Θ el parámetro que describe el modelo del experimento aleatorio que
produjo esta muestra. Una estad́ıstica es cualquier función de la muestra
que no depende del parámetro desconocido θ.
Definición 2.1.5 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y
θ ∈ Θ el parámetro desconocido del modelo que produjo X. La función
que describe el modelo que produjo X vista como función de θ es llamada
función de verosimilitud que se denotará por L(θ|x).
L(θ|x) ∝
N∏
i=1
f(xi|θ),
donde f(X|θ) es la función de densidad asociada al experimento que produjo
X.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 31 — #43 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 31
Definición 2.1.6 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria, θ ∈
Θ el parámetro del modelo que describe el experimento que produjo dicha
muestra aleatoria X y L(θ|x) la función de verosimilitud asociada al modelo.
La función log-verosimilitud está dada por:
l(θ|x) = log L(θ|x).
Definición 2.1.7 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y
θ ∈ Θ el parámetro desconocido del modelo que describe el experimento
que produjo la muestra X. Un estimador es una estad́ıstica que sirve para
aproximar el valor de alguna función del parámetro del modelo.
Definición 2.1.8 Sean X = {x1, x2, x3, ...,N } una muestra aleatoria y
θ ∈ Θ el parámetro desconocido del modelo que describe el experimento
que produjo dicha muestra aleatoria X. El estimador máximo verosimil
de θ es cualquier θ̂ tal que maximiza la función de verosimilitud, es decir:
L(θ̂|x) ≥ L(θ|x), para todo θ ∈ Θ.
Observación: El cálculo del estimador máximo verosimil plantea varias
dificultades en la práctica ya que el máximo encontrado como estimador
máximo verosimil no siempre es el máximo absoluto y aún cuando éste
exista, para determinarlo es necesario resolver un problema de extremos ab-
solutos restringidos al dominio del parámetro RN , problema que no siempre
es fácil de resolver.
2.2. Modelo Bayesiano
Definición 2.2.1 Sean X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el
parámetro desconocido del modelo que describe el experimento que produjo la
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 32 — #44 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 32
muestra X. La distribución a priori de θ es la distribución del parámetro
θ que se le asigna sin tener en cuenta la muestra obtenida del experimento
y se denotará por Ppriori(θ).
Observación: Las distribuciones a priori en general son especificadas
por intuición, mediante estudios que se han realizado con anterioridad o de
acuerdo a opiniones de expertos de cada tema o área a tratar, pero en el
caso de que no se cuente con dicha intuición o información por lo regular se
usa una distribución uniforme con una varianza grande.
Definición 2.2.2 Sean X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el
parámetro del modelo que produjo la muestra X. Se dice que una distribu-
ción es no informativa para θ si no favorece a algún valor de θ sobre
otros, o lo que es lo mismo es una distribucion que no otorga una buena
represantacion de las caracteristicas generales de la población y lleva a cabo
un papel mı́nimo en la distribucion que se dará posteriormente. Donde dicha
dicha distribucion se refiere a la distribucion a priori.
Definición 2.2.3 La distribución a posteriori es la distribución del
parámetro θ cuando se toma en cuenta la información producida por la
muestra obtenida y se denota por P (θ|x).
Observación:
Algunas veces la información previa con relación a θ que existe no es
fiable, o se desea únicamente una inferencia basada en los datos, asi que
a primera vista, podŕıa parecer que la inferencia Bayesiana es inadecuada
para tal situación, pero esta conclusión es un poco apresurada. Ahora bi-
en, suponga que se pueda encontrar una distribución π(θ) que “no contiene
información” acerca de θ, es decir una distribución apriori no informati-
va para θ. De esta forma toda la información en la posteriori P(θ|x), seŕıa
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 33 — #45 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 33
la proporcionada por los datos. Por tanto, todas las inferencias son com-
pletamente objetivas, en vez de subjetivas. Por ejemplo: Supongase que el
espacio de parámetros es discreto y finito, es decir, Θ = {θ1, ..., θn}, entoncesclaramente la distribución:
Ppriori(θi) = 1/n, i = 1, ..., n,
no favorece ninguno de los valores de θ sobre ningún otro, y como tal, es
no informativa para θ. Si se tiene delimitado por el espacio de parámetros
continuo, decimos Θ = [a, b] ,−∞ < a < b < ∞, entonces la distribución
uniforme
Ppriori(θ) = 1/(b− a), a < θ < b,
es no informativa para θ.
Cuando nos movemos sin ĺımites el espacio de parámetros, la situación es
mucho menos clara. Supongase que Θ = (−∞,∞). Entonces la distribucion
apriori uniforme apropiada parece ser:
Ppriori(θ) = c, donde c > 0,
to
(2.2)
pero esta distribución es impropia, ya que tendŕıamos
∫
p(θ)dθ = ∞, y
por lo tanto no seŕıa apropiado utilizarla como una apriori. En este caso
la inferencia Bayesiana lo hace posible si la integral con respecto a θ de la
densidad del espacio parametral f(x|θ) son iguales a algún valor finito K,
entonces tendŕıamos:
P(θ|x) = f(x|θ)∫
f(x|θ)dθ
=
f(x|θ)
K
.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 34 — #46 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 34
De esta forma, se tiene la integral de Ppriori(θ|x) con respecto a θ es 1 y
por lo tanto es realmente una densidad posterior.
Observación:
En general, las distribuciones no informativas en espacios no acotados son
impropias, es decir, ∑
θ∈Θ
Ppriori(θ) = ∞,
cuando Θ es discreto, o ∫
Θ
Ppriori(θ)dθ = ∞,
cuando Θ es continuo.
Sin embargo, muchas veces son tomadas distribuciones uniformes definidas
en un conjunto suficientemente grande.
Observación:
Algunas veces las distribuciones a priori pueden depender de otros
parámetros los cuales pueden ser conocidos o no, y son llamados hiperpa-
rámetros. Cuando son desconocidos pueden ser abordados de dos maneras
distintas como se muestra a continuación:
1. El primer caso es aquel que se trata propiamente con el método
Bayesiano el cual consiste en asignarle al hiperparámetro una dis-
tribución a priori, usualmente llamada (hiperapriori) y a partir de
ella encontrar la distribución a posteriori. Por otro lado, dicha dis-
tribución podŕıa depender de una colección de parámetros desconoci-
dos. A la especificación de un modelo sobre varios niveles es llamado
modelación jerárquica, la cual es llamada aśı ya que cada nueva
distribución forma un nuevo nivel de jerarqúıa.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 35 — #47 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 35
2. El segundo caso es cuando se utiliza el método llamado análisis
emṕırico de Bayes, que consiste en encontrar un valor de η el cual
maximice la distribución marginal de P (x|η) pero vista como función
de η. Si η = η̂ fuera dicho valor entonces la función a posteriori que se
trabajará será P (θ|x, η̂). La expresión para P (θ|x, η) puede obtenerse
sustituyendo η̂ en la expresión que se mostrará en el siguiente teorema.
Observación:
Aunque las distribuciones a priori sean impropias, cuando se combinan
con la información muestral se logra producir distribuciones a posteriori
propias.
Teorema 2.2.1 Sean X = {x1, ..., xN} una muestra de un experimento
aleatorio, θ ∈ Θ el parámetro del modelo que produjo la muestra X y
Papriori(θ|η) la distribución a apriori que depende de un hiperparámetro
η.
1. Si el valor de η es conocido la distribuución a posteriori es,
P (θ|x, η) = P (x|θ)Ppriori (θ|η)∑
γ∈Θ P (x|γ)Ppriori (γ|η)
(2.3)
2. Si el valor de η es desconocido la distribución a posteriori es,
P (θ|x) =
∑
η P (x|θ)Ppriori (θ|η)Ppriori (η)∑
η
∑
γ∈Θ P (x|γ)Ppriori (γ|η)Ppriori (η)
(2.4)
Demostración:
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 36 — #48 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 36
1. Note que,
P (θ|x, η) = P (θ, x, η)
P (x, η)
=
P (x|θ, η)P (θ, η)
P (x, η)
P (η)
P (η)
=
P (x|θ, η)P (θ|η)
P (x|η)
=
P (x|θ, η)P (θ|η)∑
γ∈Θ P (x, γ|η)
=
P (x|θ)P (θ|η)∑
γ∈Θ P (x|γ, η)P (γ|η)
=
P (x|θ)Ppriori (θ|η)∑
γ∈Θ P (x|γ)Ppriori (γ|η)
, (2.5)
donde las dos últimas igualdades se obtienen debido a que la muestra
depende del hiperparámetro η sólo a través del parámetro θ.
2. Si η es desconocido, también se le asignará la distribución apriori
Ppriori (η):
De esta forma,
P (θ|x) = P (θ, x)
P (x)
=
∑
η P (θ, x, η)∑
γ∈Θ P (x, γ)
=
∑
η P (x|θ, η)P (θ, η)∑
η
∑
γ∈Θ P (x, γ, η)
=
∑
η P (x|θ, η)P (θ|η)P (η)∑
η
∑
γ∈Θ P (x|γ, η)P (γ, η)
=
∑
η P (x|θ)Ppriori (θ|η)Ppriori (η)∑
η
∑
γ∈Θ P (x|γ)Ppriori (γ|η)Ppriori (η)
, (2.6)
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 37 — #49 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 37
donde la última igualdad se cumple ya que X sólo depende de η a
través de θ.
Teorema 2.2.2 La distribucion a posteriori P(θ|x), la función de
verosimilitud L(θ|x) y la distribución a priori Ppriori(θ) están relacionadas
de la siguiente forma:
P (θ|x) ∝ L (θ|x)Ppriori (θ) (2.7)
Demostración:
Del Teorema (2.2.1), cuando η es conocido no es necesario escribirlo en
la distribucion a posteriori, y como el denominador de la expresión (2.3) no
depende de θ entonces esta se puede simplificar y obtener la expresión
P (θ|x) ∝ L (θ|x)Ppriori (θ)
donde L (θ|x) es la función de verosimilitud y la constante de propor-
cionalidad, que sólo depende de x, hace que P (θ|x) integre o sume uno.
Proposición 2.2.1 Sean X = {x1, x2, ..., xN} una muestra aleatoria, θ ∈
Θ el parámetro del modelo que produjo X, P (1)priori(θ), P
(2)
priori(θ) funciones
apriori y P (1)(θ|x), P (2)(θ|x) funciones a posteriori obtenidas de las respec-
tivas funciones apriori.
Si
Ppriori (θ) = aP
(1)
priori (θ) + bP
(2)
priori (θ) (2.8)
donde a+ b = 1 entonces
P (θ|x) ∝ aP (1) (θ|x) + bP (2) (θ|x) . (2.9)
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 38 — #50 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 38
Demostración: Por el Teorema (1.2.1)
P (θ|x) ∝ L (θ|x)Papriori (θ)
= L (θ|x)
(
aP
(1)
apriori (θ) + bP
(2)
apriori (θ)
)
= aL (θ|x)P (1)priori (θ) + bL (θ|x)P
(2)
priori (θ)
∝ aP (1) (θ|x) + bP (2) (θ|x)
(2.10)
Observación: Los conceptos a priori y a posteriori son siempre rela-
tivos a las observaciones consideradas en un momento dado. Es posible que
después de observar la muestra X y obtener el valor posteriori, una nue-
va observación “y” también relacionada a θ puede aparecer eventualmente
por una función de verosimilitud. En este caso la distribucion a posteriori
(relativo a x) es la a priori (relativo a y) y una nueva posteriori puede ser
obtenida con una nueva aplicación del teorema de Bayes.
Por ejemplo:
Considere una serie de mediciones acerca de una cantidad f́ısica θ con errores
de medición ei descritos por la distribución N(0, σ2), donde la precisión de
las mediciones (controladas por σ2) es conocida. En este casoXi = θ+ei, i =
1, 2, ..., n y además:
f(X|θ) =
n∏
i=1
fN (Xi; θ, σ2) =
n∏
i=1
1√
2πσ2
exp
{
−1
2
(Xi − θ)2
σ2
}
.
El modelo puede ser completado con una distribución apriori P (θ) =
N(µ, τ2), donde los hiperparámetros µ y τ2 son conocidos (constantes). En
este caso la función de verosimilitud es:
L(X|θ) =
n∏
i=1
1√
2πσ2
exp
{
−1
2
(Xi − θ)2
σ2
}
∝ exp
{
−n
2σ2
(X − θ)2
}
,
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 39 — #51 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 39
donde X es la media aritmética de las Xi, con i = 1, 2, ..., n. Por lo tanto la
densidad posterior es:
P (θ|X) ∝ exp
{
−1
2
(X − θ)2
σ2/n
}
exp
{
−1
2
(θ − µ)2
τ2
}
Lo que es equivalente a que:
P (θ|X) ∝ exp
{
−1
2
[
(θ − µ1)2
τ21
+
(X − µ)2
n−1σ2 + τ2
]}
,
donde τ21 = nσ
−2+τ−2 y µ1 = τ21 (nσ
−2X+τ−2µ). El último paso se obtiene
usando el hecho de que a1, a2, b1 y b2 son escalares tales que:
(z − a1)2
b1
+
(z − a2)2
b2
=
(z − c)2
d
+
(a1 − a2)2
b1 + b2
,
donde d−1 = b−11 + b
−1
2 y c = d(b
−1
1 a1 + b
−1
2 a2) con z = θ, a1 = X,
a2 = µ, b1 = σ2/n y b2 = τ2. Sustituyendo se tiene que,
P(θ|X) ∝ exp
{
−1
2 (θ − (d(b
−1
1 a1 + b
−1
2 a2)))
2(b−11 + b
−1
2 ) +(X−µ)2
σ2/n+τ2
}
entonces,
P(θ|X) ∝ exp
{
−1
2
(θ−µ1)2
τ21
}
.
En otras palabras, la distribución posterior de θ es P (θ|X) ∝ N(µ1, τ21 ).
2.3. Clase conjugada
Definición 2.3.1 Sea X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el
parámetro del modelo que produjo X, L (θ|x) la función de verosimilitud y
Fpriori una familia de distribuciones a priori. Se dice que Fpriori es una
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 40 — #52 i
i
i
i
i
i
2. Introducción a la Estad́ıstica Bayesiana 40
familia conjugada para una función de verosimilitud si es tal que la dis-
tribución a posteriori
P (θ|X) α L (θ|x)Ppriori (θ) (2.11)
pertenece a Fpriori para todo valor de X cuando Ppriori (θ) también pertenece
a Fpriori.
Observaciones:
1. En la elección de una priori perteneciente a una familia de distribu-
ción espećıfica π(θ|η), es posible escoger un miembro de la familia el
cual es conjugado a la probabilidad f(y|θ) que conduce a una distribu-
ción posteriori P(θ|y) perteneciendo a la misma familia de distribución
π(θ|η) como la a priori.
2. Para un modelo dado, distribuciones apriori y aposteriori forman parte
de la misma clase de distribuciones, esto trae ventajas a los proced-
imientos de inferencia resultante debido a la simplificación del análisis
que se limita a un subconjunto de todas las distribuciones posibles.
El paso de la a priori a la a posteriori sólo envuelve un cambio en
los hiperparámetros con ningún cálculo adicional. La distribución de
θ puede entonces ser rutinariamente actualizada y nuevas observa-
ciones no causan ninguna complicación. Si el análisis conserva la a
posteriori en la misma clase, las buenas propiedades de la distribu-
ción serán preservadas y el análisis basado en la posteriori será fácil
de resumir. Incluso con las ventajas de conjugación, el análisis con la
apriori conjugada debe ser usada con cuidado. Los cálculos fáciles de
esta especificación viene con un precio debido a las restricciones, que
se deben imponer en la forma de la a priori.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 41 — #53 i
i
i
i
i
i
Caṕıtulo 3
Algoritmo de Metropolis-Hastings
En la siguiente sección se dará primero una descripción del algoritmo
Metropolis y cómo a partir de él se deriva el algoritmo Metropolis-Hastings.
Estos algoritmos están en la clase de los conocidos métodos de Monte Carlo
v́ıa cadenas de Markov. Estos métodos permiten generar, de manera iter-
ativa, observaciones a partir de distribuciones donde métodos directos son
dif́ıciles de utilizar. Los resultados aqúı mostrados fueron tomados de las
fuentes Wilson (1993), Alfaro (1996), Gamerman (1997) y Reyes (2008).
3.1. Algoritmo Metropolis-Hastings
En esta sección se presentará uno de los algoritmos más utilizados para
muestrear valores de una distribución dada usando cadenas de Markov, este
es el algoritmo de Metropolis-Hastings. Dicho método permite obtener una
muestra a partir de una distribución π(·) sin tener que utilizar la expresión
completa. Los métodos son útiles cuando se tiene dicha distribución de la
siguiente forma:
π(x) =
1
c
h(x)
donde c es la constante normalizante (dif́ıcil de obtenerse) y h(·) en una
función fácil de calcular sus valores. El punto principal de los métodos que
41
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 42 — #54 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 42
se presentarán es el hecho que en todos ellos se define una cadena de Markov
X = {Xn : n = 0, 1, ...} cuya distribución estacionaria es π(·). El objetivo
es generar sucesivamente valores para la cadena X. Si hacemos esto un
número suficiente de veces, los valores de X que se tienen a partir de un
cierto tiempo n∗ tendrán distribución π(·).
3.1.1. Descripción del algoritmo Metropolis
El método Metropolis es nombrado aśı por ser propuesto por Metropolis
et al. (1953), y forma parte de los métodos de Monte Carlo v́ıa cadenas de
Markov. Algunos algoritmos genéricos como el Metropolis realizan una sim-
ulación de casi cualquier densidad arbitraria g para generar posteriormente
una densidad f igualmente arbitraria. Otro punto a tomar en cuenta de di-
cho algoritmo y de algunos otros es la dependencia de g sobre la simulación
del valor en la muestra, el escoger g no requiere elaborar una construcción
particularmente a priori, pero puede tomar ventaja de las caracteŕısticas
locales de la distribución estacionaria. Este método puede ser descrito como
sigue:
Sea π(∗) la distribución sobre un espacio muestral S de la cual se pre-
tende tomar una muestra. El objetivo principal es producir una cadena
de Markov ergódica X = {Xn : n = 0, 1, ...} con espacio de estados S y
matriz de transición Q = (qx,y)x,y∈S y tal que π(∗) es su distribución
estacionaria. El método Metropolis toma una segunda cadena de Markov
Y = {Yn : n = 0, 1, ...} con espacio de estados S, con una matriz de tran-
sición P = (px,y)x,y∈S simétrica (es decir, px,y = py,x) y procede de la
siguiente forma:
Suponiendo que la cadena está en el estado Xn = x y que se quiere
generar el próximo valor Xn+1. Entonces se genera un candidato y para
Xn+1 a partir de px,∗. Una vez obtenido el valor del candidato y la cadena
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 43 — #55 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 43
X puede o no tomar este valor al tiempo n+1. El cambio a y será aceptado
con probabilidad
α(x, y) = min
{
1,
π(y)
π(x)
}
.
caso contrario el movimiento no es aceptado. Si el cambio es aceptado,
entonces se hace Xn+1 = y. Caso contrario se hace Xn+1 = x.
3.1.2. Descripción del algoritmo Metropolis-Hastings
Posteriormente Hastings (1971) propuso una modificación en el algorit-
mo ya propuesto por Metropolis et al. (1953). La modificación consiste en
lugar de tomar la matriz P simétrica, tomamos una matriz de transición
cualquiera. De este modo es conveniente tomar P de tal forma que sea rela-
tivamente fácil generar valores a partir de las probabilidades de transición.
El procedimiento es el mismo que el realizado en el algoritmo de Metropo-
lis, la única diferencia está en la forma de la probabilidad de aceptación del
candidato y.
Ahora bien la descripción del algoritmo Metropolis-Hastings es de la
siguiente forma:
Sea P = (Pi,j)i,j una matriz de probabilidades de transición sobre S,
y tal que qi,j > 0 para todo i, j ∈ S de forma que sea fácil de simular
valores con esta distribución. Con esta matriz se debe generar una cadena
de Markov X = {Xn : n = 0, 1, 2, ...}, la cual se define de la misma forma
que para el algoritmo Metropolis, pero ahora la probabilidad de aceptación
está dada por:
ρ (i, j) = min
{
π(j)Pji
π(i)Pij
, 1
}
Considerando lo anterior, los pasos a realizar en el algoritmo en itera-
ciones son los siguientes:
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 44 — #56 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 44
1. Elegir una matriz de transición P = (Pij)i,j∈S a partir de la cual sea
fácil simular valores. Sea Xn = k, k ∈ S. Al comenzar el algoritmo se
tiene n = 0.
2. Generar una variable aleatoria Y tal que Pr (Y = ·|Xn = k) = qk,·
donde k ∈ S y generar también una variable aleatoria U que se dis-
tribuya de manera Uniforme sobre el intervalo (0, 1).
3. Suponga que Y = j donde j ∈ S. Si U = u < ρ (k, j) hacer Xn+1 = j.
Si u ≥ ρ (k, j) hacer Xn+1 = k.
4. Volver al paso 2 donde ahora n = n+ 1.
3.1.3. Resultados preliminares
Teorema 3.1.1 Suponga que la cadena está en el estado Xn = x y genere
el próximo valor para Xn+1. De este modo se genera un candidato y para
Xn+1 a partir de px,∗. Una vez obtenido el valor del candidato y la cadena
X puede o no tomar este valor al tiempo n+1. El cambio a y será aceptado
con probabilidad
α(x, y) = min
{
1,
π(y)
π(x)
}
.
caso contrario el movimiento no es aceptado. Si el cambio es aceptado,
entonces se hacemos Xn+1 = y. Caso contrario se hace Xn+1 = x. De este
modo Q estádada por:
qxy =
 pxyα(x, y), si, x 6= ypxx +∑y 6=x px,y(1− α(x, y)), si, x = y (3.1)
.
Demostración:
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 45 — #57 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 45
Dado que el estado inicial Xn = x y lo que se busca es generar un
valor y para Xn+1. Note que la cadena X puede o no tomar el valor de
y para Xn+1, pero en caso de tomarlo se asume con probabilidad α(x, y),
entonces se tienen dos casos para la formación de nuestra matriz Q = qxy
con x, y ∈ S.
1. Se adopta Xn+1 = y. Para este caso la matriz Q = qxy con x, y ∈ S
toma la forma P = pxy con x, y ∈ S con la probabilidad α(x, y). En-
tonces dado que Xn = x se tiene que Xn+1 = y con x 6= y
pxyα(x, y).
2. Se adoptaXn+1 = x, es decir el mismo valor. Dos casos pueden ocurrir:
y = x y se acepta el cambio o y 6= x y no se acepta el cambio. Este
último caso ocurre con probabilidad (1−α(x, y)). Entonces dado que
Xn = x, se tiene Xn+1 con probabilidad
pxxα(x, x) +
∑
y 6=x
pxy(1− α(x, y)),
Observación: La diferencia que existe entre el algoritmo Metropolis
y el algoritmo Metropolis-Hastings, es que para el algoritmo Metropolis-
Hastings en lugar de tomar una matriz P simétrica, se tiene una matriz
de transición cualquiera. De este modo se pretende que sea conveniente
tomar a P tal que sea relativamente fácil generar valores a partir de las
probabilidades de transición.
Teorema 3.1.2 Sea X = {Xn : n = 0, 1, 2, ...} la cadena de Markov con es-
pacio de estados S generada por el algoritmo Metropolis-Hastings. Entonces,
la matriz de transición de X es Q = (qi,j)i,j∈S donde
qi,j =
 pijρ (i, j) si j 6= ipii +∑j 6=i pij (1− ρ (i, j)) si j = i
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 46 — #58 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 46
(3.2)
Demostración:
Se debe notar que del algoritmo y de la ecuación (1.1) se tiene que para
la variable aleatoria Xn+1 sea igual a j dado que Xn = i, la variable Y
debió tomar el valor j (esto ocurrió con probabilidad pi,j) y la variable
Xn+1 también debió tomar el valor j (esto con probabilidad ρ (i, j)). Dado
que estos dos eventos son independientes, se multiplican sus probabilidades.
Aśı Pr (Xn+1 = j|Xn = i) = pi,jρ (i, j) con j 6= i. Sin embargo, dado que
Xn = i, Xn+1 pudo haber tomado el valor i de dos maneras distintas: que al
simular la variable Y , ésta hubiera tomado el mismo valor de Xn (esto con
probabilidad pi,i) yXn+1 hubiera tomado el mismo valor i (con probabilidad
ρ (i, i) = 1) o que al simular la variable Y , esta hubiera tomado cualquier
valor distinto a i, mismo que después fue rechazado por el algoritmo y
entoncesXn+1 tomó el valor i (esto con probabilidad 1−ρ (i, j)). Finalmente,
Pr (Xn+1 = i|Xn = i) = pi,i +
∑
j 6=i pi,j (1− ρ (i, j)) con j = i. Por tanto,
la probabilidad de transición de la nueva cadena X es la expresión (3.2).
Teorema 3.1.3 La cadena X resultante del algoritmo Metropolis-Hastings
es ergódica.
Demostración:
Para que la nueva cadena X con espacio de estados finito S y matriz
de transición Q = (Qi,j)i,j∈S sea ergódica deben cumplirse las siguientes
condiciones:
1. Que X sea aperiódica, lo cual se cumple ya que
qi,i = pi,i +
∑
j 6=i pi,j (1− ρ (i, j)) > 0 para toda i ∈ S porque qi,j > 0,
i, j ∈ S es positiva. Esto implica que:
d(i) = m.c.d.
{
n ≥ 1 : P (n)i,i > 0
}
= 1
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 47 — #59 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 47
para todo i ∈ S
2. QueX sea irreducible, se refiere a que todos sus estados se comuniquen
entre śı; para que esto pase deben existir enteros n,m > 0 tal que
q
(n)
i,j > 0 y q
(m)
j,i > 0 para toda i, j ∈ S y note que qi,j = pi,jρ (i, j) > 0
porque P es positiva y ρ (i, j) > 0, esto muestra que qi,j > 0 para todo
i, j ∈ S y haciendo n = m = 1 se tiene la irreducibilidad.
Teorema 3.1.4 La distribución estacionaria de X es el conjunto
{π (i) : i = 1, 2, ...,m}.
Demostración:
Para probar que la nueva cadena X con matriz de transición Q =
(qi,j)i,j∈S donde qi,j que se expresa como en (3.2) tiene como distribución
estacionaria al conjunto {π (i) : i = 1, 2, ...,m}, primero se verificará que:
π (i) qi,j = π (i) qj,i
(3.3)
para todo i, j ∈ S, i 6= j (ver la proposición (3.4.3)). Tome i, j ∈ S, i 6= j,
entonces:
π(i)qi,j = π(i)pi,jmin
{
π(j)pj,i
π(i)pi,j
, 1
}
= min {π(j)pj,i, π(i)pi,j}
= min
{
π(j)pj,i,
π(i)pi,j
π(j)pj,i
π(j)pj,i
}
= π(j)pj,imin
{
π(i)pi,j
π(j)pj,i
, 1
}
= π(j)qj,i.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 48 — #60 i
i
i
i
i
i
3. Algoritmo de Metropolis-Hastings 48
Por lo tanto, la igualdad (3.2) se cumple. Entonces por la proposición
(3.4.4) se tiene que el conjunto {π(i) = f(i) : i ∈ S} es la distribución esta-
cionaria de la cadena X.
Observaciones:
1. Uno de los principales problemas a ser resueltos es el saber por cuan-
to tiempo se debe repetir el procedimiento del algoritmo Metropolis-
Hastings para que los valores producidos sean muestreados a partir de
π(∗). Existen métodos probabiĺısticos, algebraicos y hasta anaĺıticos
para lograr estimar dicho tiempo, pero algunas veces, esto resulta más
complicado de lo que pareciera.
2. Otro de los principales problemas es notar que X puede ser un vector
de dimensión d, entonces en vez de hacer la actualización de todo el
vector de una sola vez, se podŕıa dividir dicho vector en bloques, de
dimensión no necesariamente iguales y entonces proceder a actualizar
los bloques uno por uno.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 49 — #61 i
i
i
i
i
i
Caṕıtulo 4
Un algoritmo MCMC para estudiar
casos de influenza en
casa-habitación
En este caṕıtulo se describirán el modelo y los resultados presentados
en el American Journal Epidemiology “Time Lines of Infection and Disease
in Human Influenza: A Review of Volunteer Challenge Studies” (Ĺıneas de
tiempo de infección y decesos en influenza humana: una revisión de estu-
dios de desaf́ıo de voluntario) desarrollado por Carrat, Vergu, Ferguson,
Lemaitre entre otros y en el Wiley Interscience “A Bayesian MCMC ap-
proach to study transmission of influenza: aplication to household longi-
tudinal data” (Un enfoque Bayesiano MCMC para estudiar la transmisión
de la influenza: aplicación a hogares en datos longitudinales) desarrollado
por Cauchemez, Carrat, Voboud y otros más. En dichos art́ıculos se llevó a
cabo un estudio con referencia a un total de 56 diferentes casas-habitación
con 1,280 participantes sanos. En él se tiene que la propagación con mayor
intensidad del virus de la influenza fue entre 0.5 y 1 d́ıa después del con-
tagio del mismo y se alcanza su punto máximo al segundo d́ıa. También se
tiene que el total de cifras de contagio de enfermos aumentó del d́ıa 1 hasta
49
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 50 — #62 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 50
Cuadro 4.1: Duración promedio del virus, frecuencia y fiebre observada.
alcanzar su máximo al d́ıa 3. Los śıntomas sistémicos alcanzaron su punto
máximo al d́ıa 2. No existen datos acerca de niños y adultos mayores, pero
los estudios epidemiológicos sugieren que la historia natural puede diferir.
En el Cuadro 4.1 se tienen los datos relevantes observados en los 1280
participantes como lo son: la duración promedio del virus en todos ellos, la
frecuencia de infección en todos los participantes y sobre todo para poder
clasificar de acuerdo a los tipos de influenza (A/H1N1, A/H3N2, infecciónes
B), la relación que existe con el porcentaje de aquellos que presentaron fiebre
durante dicho periódo de infección.
4.1. Descripción de los tipos de influenza
La descripción presentada aqúı se tomo de www.entornomedico.com,
www.geosalud.com y la revista Infomed en su art́ıculo “Influenza A(H1N1)”
publicado en el mes de octubre de 2009. Los virus de la influenza pertenece a
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 51 —#63 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 51
la familia Orthomyxoviridae. A su vez la influenza es clasificada en tres tipos
generales: los virus de la influenza A, B y C. Dicha clasificación está basada
en las propiedades antigénicas de sus nucleoprotéınas, por ejemplo: los virus
de la gripe A y B se caracterizan por ser virus de simetŕıa helicoidal (80-
120nm de diámetro) con envoltura y poseer un ARN (ácido ribonucleico)
monocatenario1 segmentado de polaridad negativa. Los virus de la gripe
contienen ocho segmentos de ARN asociados a 4 protéınas: la nucleoprotéına
(NP), la más abundante de ellas y responsable de la estructura helicoidal
y las polimerasas2 PB1, PB2 y PA que constituyen el complejo enzimático
viral encargado de la replicación y transcripción del ARN v́ırico durante el
ciclo de replicación.
Existen algunos tipos de infecciones presentes en ciertas variedades de
animales, incluyendo puercos, caballos y otros. Sólo muy pocos subtipos de
antigénicos del virus tipo A son conocidos que puedan infectar a los hu-
manos. Pero por otro lado los virus tipo B y C son escencialmente virus
dirgido a los humanos. Muchas de las epidemias y pandemias han sido cau-
sadas por virus de influenza tipo A.
4.1.1. Influenza A
Este género de influenza tiene como causante el virus del tipo A. Las aves
acuáticas salvajes son los anfitriones naturales para una gran variedad de
influenza A. En ocasiones, los virus son transmitidos a otras especies y puede
1El ARN monocatenario de un virus en el que tiene ARN de cadena sencilla de sen-
tido positivo como material genético y no se replica usando ADN intermedio. Pueden
clasificarse según el sentido o polaridad de su ARN en negativos y positivos. Para el caso
de la influenza se trata de los virus ARN positivos y es idéntico al ARNm viral y por lo
tanto pueden ser inmediatamente traducidos por la célula huesped
2Las polimerasas son enzimas que catalizan la duplicación del ADN o ARN a partir
de una plantilla o molde.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 52 — #64 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 52
causar devastadores brotes en aves de corral o dar lugar a pandemias de gripe
humana. Los virus de tipo A son los más virulentos con aspectos patógenos
para los humanos entre los tres tipos de gripe y causan la enfermedad más
grave. Los virus de la influenza A pueden subdividirse en serotipos diferentes
sobre la base de la respuesta de anticuerpos a ellos. Los serotipos que se han
confirmado en humanos, ordenados por el número de muertes conocidas en
pandemia humana, son:
H1N1, que causó la gripe española en 1918, (una variante como la
pandemia de la gripe 2009)
H2N2, que causó la gripe asiática en 1957
H3N2, que causó la gripe de Hong Kong en 1968
H5N1, una amenaza de pandemia actual
H7N7, que tiene inusual potencial zoonótico (es decir, que tiene un
mayor potencial infección de animales diversos hacia humanos)
4.1.2. Influenza B
Este género tiene como causante el virus del tipo B. Dicho tipo de influen-
za podŕıa decirse que exclusivamente infecta a seres humanos y es menos
común que la influenza A. Se tiene el conocimiento que existen animales
susceptibles a la infección de gripe B, éstos son el caballo y el hurón. Este
tipo de gripe muta entre 2 y 3 veces menos que las de tipo A y C, por
consiguiente tiene menos diversidad genética, con un sólo serotipo B de la
gripe, es decir, un tipo de microorganismo infeccioso clasificado según los
ant́ıgenos que presentan en su superficie celular. Como resultado de esta
falta de diversidad antigénica, un cierto grado de inmunidad a la influenza
B generalmente se adquiere a una edad temprana. Sin embargo, la gripe B
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 53 — #65 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 53
muta suficientemente rápido para que la inmunidad duradera no sea posi-
ble. Esta reducción del tipo de cambio antigénico, combinado con su gama
de hospedadores limitada asegura que las pandemias de influenza B no se
produzcan.
4.1.3. Influenza C
Este género es causada por el virus del tipo C, que infecta a los seres
humanos, perros y cerdos, a veces causando tanto una enfermedad grave
como las epidemias locales. Sin embargo, la gripe C es menos común que la
influenza tipo A y B, y por lo general sólo causa una enfermedad leve en los
niños.
4.2. Signos y śıntomas.
Los śıntomas de la influenza puede empezar de repente uno o dos d́ıas de-
spués de la infección. Los primeros śıntomas son escalofŕıos o una sensación
de fŕıo, pero la fiebre es también común a principios de la infección, con
la temperatura del cuerpo variando entre 38-39C. Muchas personas están
tan enfermas que se limitan a la cama durante varios d́ıas, con dolores y
molestias por todo el cuerpo. Estos dolores son peores en la espalda y las
piernas. Los śıntomas de la influenza pueden incluir: dolores en el cuerpo
(articulaciones) y garganta, fiebre, dolor de cabeza, ojos llorosos y en los
niños hay śıntomas gastrointestinales como diarrea y dolor abdominal.
Puede ser dif́ıcil distinguir entre el resfriado común y la influenza en las
primeras etapas de estas infecciones, pero la influenza puede ser identificada
por una fiebre alta, con un inicio súbito y la fatiga extrema. La diarrea no
suele ser un śıntoma de la gripe en adultos, aunque se ha visto en algunos
casos humanos de la gripe A/H5N1 y puede ser un śıntoma en los niños.
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 54 — #66 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 54
4.3. Transmisión
Las personas que contraen la influenza son más propensos a infectar en-
tre el segundo y tercer d́ıa después de haber adquirido la infección. Dicho
peŕıodo de infección dura unos diez d́ıas. Los niños son mucho más infec-
ciosos que los adultos y transmiten el virus desde justo antes de desarrollar
śıntomas hasta dos semanas después de la infección. La transmisión de la in-
fluenza puede ser modelada matemáticamente. Esto ayuda a predecir cómo
el virus puede extenderse en una población.
La influenza puede ser adquirida de tres principales maneras: por trans-
misión directa cuando una persona infectada estornuda mucosidad en los
ojos, naŕız o de la boca de otra persona, a través de la inhalación del aire
cuando las personas infectadas tose, estornuda y escupe. También se puede
adquirir y por medio de la mano, transmisión de boca de cualquiera de las
superficies contaminadas o por contacto personal directo, como un apretón
de manos. La importancia relativa de estos tres modos de transmisión no
está claro, y todos ellos pueden contribuir a la propagación del virus. En la
v́ıa aérea, las gotas que son lo suficientemente pequeños para que las per-
sonas inhalan son 0.5 a 5 micras de diámetro y la inhalación de una sola
gota puede ser suficiente para causar una infección. Aunque el estornudo de
una sola vez arroja hasta 40.000 gotitas, la mayor parte de estas gotas son
muy grandes y muy pronto se asientan fuera del aire.
4.4. Influenza como pandemia.
La pandemia de la influenza humana ha crecido dramaticamente en los
más recientes años, y muchos páıses han desarrollado estratégias para pre-
vención y combate de la misma llevándolas a cabo según las medidas anun-
i
i
“tesisjonathan” — 2011/8/24 — 0:46 — page 55 — #67 i
i
i
i
i
i
4. Un algoritmo MCMC para estudiar casos de influenza en
casa-habitación 55
ciadas por la Organización Mundial de la Salud. Las medidas consider-
adas para tratar de evitar la propagación del virus de la influenza entre la
población son principalmente basadas en tratamiento o profilaxas con med-
icaciones antivirales, aislamiento, cuarentena, o algún otro tipo

Continuar navegando