Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
i i “tesisjonathan” — 2011/8/24 — 0:46 — page i — #3 i i i i i i Universidad Nacional Autónoma de México Facultad de Ciencias Métodos de Monte Carlo para estimar parámetros en un modelo para la influenza TESIS que para obtener el t́ıtulo de: ACTUARIA presenta: JONATHAN JAIMES PÉREZ Director de tesis: DRA. ELIANE REGINA RODRÍGUES 2011 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. i i “tesisjonathan” — 2011/8/24 — 0:46 — page iii — #5 i i i i i i Agradecimientos Esta tesis es un esfuerzo en el cual, directa o indirectamente han par- ticipado varias personas realizando diversas cosas ya sea leyendo, haciendo observaciones, corrigiendo, teniéndome paciencia y creyendo en mı́; dan- dome ánimo o una palmada en la espalda, y tembién disfrutando conmigo al momento de concluir este proyecto de vida, ya que yo lo veo aśı. Primero que nada agradezco a la Dra. Eliane Rodŕıgues por haber confi- ado en mi persona, por su paciencia y por dedicarle tiempo y atención a mi trabajo. Agradecimiento particular a los miembros del jurado o sinodales, la M. en A. P. Maŕıa del Pilar Alonso, Dr. Ramses Mena, el Maestro Juan Mart́ın Barrios y al Actuario Jaime Vázquez Alamilla quienes dedicaron parte de su valioso tiempo a revisión, corrección, comentarios agregados a mi trabajo y simplemente por facilitar que mi ptoyecto llegara a su con- clusión. Gracias también a mis compañeros en la facultad que me apoyaron de cierta manera, y que sobre todo me permitieron compartir con ellos muchas experiencias de vida y aprendizajes. En particular muchas gracias a Benito por su apoyo para correr mis archivos una y otra vez. GRACIAS, A mis amigos de toda la vida Carlos Alonso, Madrigal y Oscar (Saya) a quienes realmente les debo muchos de mis logros incluyendo éste, agradezco iii i i “tesisjonathan” — 2011/8/24 — 0:46 — page iv — #6 i i i i i i iv por su amistad y apoyo en todo momento. GRACIAS, A Dani Hernández, por su paciencia, por su motivación, por su ayuda en correcciónes, por sus servicios de mensajeŕıa, por involucrarse con mi proyecto de vida hasta el punto de asumirlo casi como una meta propia, por su compañia y desvelos para terminar los avances; simplemente por formar parte de mi vida en y compartir ésta meta conmigo. GRACIAS PRINCESA. A mi familia a mis tios, a mis primas, mis sobrinos quienes me acom- pañaron en toda ésta aventura de la licenciatura, ellos más que nadie com- partieron conmigo todos los esfuerzos llevados a cabo para que éste proyecto llegara a su fin y concluyera de la mejor forma. GRACIAS, Pero por encima de todos los agradecimientos se encuentran tres per- sonas quienes significaron una parte vital en el desarrollo y conclusión de mi trabajo de tesis, ellos son mi mamá (Maestra Vicky), mi papá (Sr. Este- ban) y a quien ha compartido tanto conmigo mi hermano (Steve). A ellos muchas gracias por el apoyo en todos los sentidos, tiempos, dinero, apoyo moral, apoyo f́ısico, etcetera. Simplemente GRACIAS!!! GRACIAS A TODOS. Hoja de Datos del Jurado 1. Datos del alumno Jaimes Pérez Jonathan 58496164 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 302223570 2. Datos del tutor Dra. Eliane Regina Rodrigues 3. Datos del sinodal 1 M en C María del Pilar Alonso Reyes 4. Datos del sinodal 2 Dr. Ramsés Humberto Mena Cháves 5. Datos del sinodal 3 Actuario Jaime Vázquez Alamilla 6. Datos del sinodal 4 M en C Juan Martín Barrios Vargas 7. Datos de trabajo escrito Métodos de Monte Carlo para estimar parámetros en un modelo para la influenza 85 p 2011 i i “tesisjonathan” — 2011/8/24 — 0:46 — page i — #7 i i i i i i Índice general Introdución V 1. Cadenas de Markov 1 1.1. Definiciones básicas . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1. Ejemplo de cadenas de Markov . . . . . . . . . . . . . 6 1.2. Resultados preliminares . . . . . . . . . . . . . . . . . . . . . 7 1.3. Clasificación de estados . . . . . . . . . . . . . . . . . . . . . 11 1.4. Cadenas de Markov reversibles en el tiempo. . . . . . . . . . . 21 2. Introducción a la Estad́ıstica Bayesiana 29 2.1. Definiciones básicas. . . . . . . . . . . . . . . . . . . . . . . . 29 2.2. Modelo Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . 31 2.3. Clase conjugada . . . . . . . . . . . . . . . . . . . . . . . . . 39 i i i “tesisjonathan” — 2011/8/24 — 0:46 — page ii — #8 i i i i i i Índice general ii 3. Algoritmo de Metropolis-Hastings 41 3.1. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . . . 41 3.1.1. Descripción del algoritmo Metropolis . . . . . . . . . . 42 3.1.2. Descripción del algoritmo Metropolis-Hastings . . . . 43 3.1.3. Resultados preliminares . . . . . . . . . . . . . . . . . 44 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 49 4.1. Descripción de los tipos de influenza . . . . . . . . . . . . . . 50 4.1.1. Influenza A . . . . . . . . . . . . . . . . . . . . . . . . 51 4.1.2. Influenza B . . . . . . . . . . . . . . . . . . . . . . . . 52 4.1.3. Influenza C . . . . . . . . . . . . . . . . . . . . . . . . 53 4.2. Signos y śıntomas. . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3. Transmisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.4. Influenza como pandemia. . . . . . . . . . . . . . . . . . . . . 54 4.5. Modelo Propuesto . . . . . . . . . . . . . . . . . . . . . . . . 55 4.6. Especificación del Modelo . . . . . . . . . . . . . . . . . . . . 58 4.7. Niveles Jerárquicos . . . . . . . . . . . . . . . . . . . . . . . . 60 4.7.1. Nivel Observación . . . . . . . . . . . . . . . . . . . . 60 4.7.2. Nivel Transmisión . . . . . . . . . . . . . . . . . . . . 60 4.7.3. Investigando el rol de los niños . . . . . . . . . . . . . 62 4.7.4. Nivel apriori . . . . . . . . . . . . . . . . . . . . . . . 63 4.8. Toma de muestras usando MCMC . . . . . . . . . . . . . . . 64 4.9. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 i i “tesisjonathan” — 2011/8/24 — 0:46 — page iii — #9 i i i i i i Índice general iii Conclusión 69 Bibliograf́ıa 71 i i “tesisjonathan” — 2011/8/24 — 0:46 — page v — #11 i i i i i i Introdución La influenza o gripe es una enfermedad infecciosa que es causada por un virus. La gripe en general ocurre en determinadas épocas del año en forma de epidemias estacionales que provocan cientos de miles de defunciones, que pueden pasar a ser millones en los años convirtiendose en pandemia. Las pandemias de la influenza humana han crecido en los últimos años, basta con observar dos de los más recientes y considerables casos los cuales fueron los ocurridos en México en 2009 y en Francia en el 2004. Dado el incremento reciente de las muertes causadas por el virus de la influenza, en esta tesis se presentará el estudio realizado en Francia, donde dicha epidemia fue abordada a través de modelos estocásticos con estimación de los parámetros del modelo realizada por métodos de Monte Carlo via Cadenas de Markov (MCMC). Los datos utilizados fueron los componentes de una muestra que fue tomada en 334 casas-habitación. El estudio busca, desde la perspectiva Bayesiana realizar la estimación de la distribuciónde los parámetros del modelo, tomando en cuenta aspectos como son: duración del peŕıodo en el cual son propensos a infectar los individuos, cuanto afecta la tasa de infección el tamaño de los hogares y sobre todo se busca identificar si son más propensos a infectar los niños o los adultos. Esta tesis está organizada de la siguiente forma: v i i “tesisjonathan” — 2011/8/24 — 0:46 — page vi — #12 i i i i i i Introdución vi En el Caṕıtulo 1 se presentarán algunos conceptos básicos de las cadenas de Markov, además de resultados que se considera será importante tener bien claros para el fácil manejo de temas consecuentes tanto en el mismo caṕıtulo, como en los posteriores. En el Caṕıtulo 2 se busca en un primer plano otorgar definiciones básicas seguido por conceptos y construcciones relacionadas con inferencia Bayesiana, los cuales son de vital importancia para la fácil comprensión del uso de modelos estocásticos. En el Caṕıtulo 3 presentarán dos algoritmos clásicos de los métodos de Monte Carlo v́ıa cadenas de Markov, cuya función es generar una muestra de observaciones, a partir de una distribución de interés. Finalmente en el Caṕıtulo 4 basandose en el art́ıculo “A Bayesian MCMC approach to study transmission of influenza: aplication to household longi- tudinal data” (Un enfoque Bayesiano MCMC para estudiar la transmisión de la influenza: aplicación a hogares en datos longitudinales), se realiza un estudio al respecto del comportamiento de la influenza tomando muestras de observaciones utilizando el algoritmo Metropolis-Hastings. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 1 — #13 i i i i i i Caṕıtulo 1 Cadenas de Markov En este primer caṕıtulo se presentarán algunos conceptos básicos de las cadenas de Markov. La estructura está conformada como sigue, la primera sección contiene los conceptos básicos como lo son un proceso estocástico, pasando por proceso de Markov, cadena de Markov, y algunos otros con- ceptos un tanto generales. Se irá de lo general a lo particular, en la segunda sección se presentan como resultados preliminares las distintas propiedades generales de las cadenas de Markov como lo son: propiedades de las proba- bilidades de transición y la matriz de transición. Finalmente, en la última sección se presenta la clasificación de estados definiendo cada uno de el- los, los cuales son: estado aperiódico, transitorio, recurrente y ergódico, con las caracteŕısticas de cada uno de ellos. Dichas definiciones y proposiciones fueron tomadas en su mayor parte de los libros Ross(1997, 1998) y Karlin y Taylor (1975). 1.1. Definiciones básicas Definición 1.1.1 Un proceso estocástico X = {Xt : t ∈ T} es una colección de variables aleatorias indexadas por un conjunto T , definidas en un mismo espacio de probabilidad (Ω,F , P ), tomando valores en un mismo 1 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 2 — #14 i i i i i i 1. Cadenas de Markov 2 conjunto S. A S y a T se les llama el espacio de estados y conjunto de ı́ndices (el cual representa el tiempo), respectivamente. Definición 1.1.2 Un proceso de Markov es un proceso estocástico X = {Xt : t ∈ T}, con espacio de estados S y donde T ⊆ Z o T ⊆ R y cumple que para t0, t1, ..., tn−1, t, s ∈ T , s ≥ 0, x0, ..., xn−1, x, y ∈ S con t0 < t1 < ... < tn−1 < t es válido que: Pr { Xt+s = y|Xt0 = x0, Xt1 = x1, ..., Xtn−1 = xn−1, Xt = x } = Pr {Xt+s = y|Xt = x} . (1.1) Observación: La propiedad (1.1) de la definición 1.1.2, es conocida por propiedad de Markov, la cual significa que la distribución condicional de cualquier estado futuro deX dado los estados anteriores y el estado presente, depende sólo de este último y no de los estados anteriores. Y sólo tiene sen- tido cuando S es numerable o para el caso en el que Pr {Xt+s = y|Xt = x} sea una densidad. Definición 1.1.3 Sea X = {Xt : t ∈ T} un proceso de Markov cuyo espacio de estados es S. Si S ⊆ Z, entonces X es llamado cadena de Markov. Si T ⊆ Z, entonces X es llamado cadena de Markov a tiempo discreto. Definición 1.1.4 Sea X = {Xt : t ≥ 0} una cadena de Markov a tiempo discreto con espacio de estados S. Se define la probabilidad de transición de m pasos de X por: P (n,n+m) ij = Pr {Xn+m = j|Xn = i} , i,j ∈ S, n,m ≥ 0, donde para todo n ≥ 0, se define: i i “tesisjonathan” — 2011/8/24 — 0:46 — page 3 — #15 i i i i i i 1. Cadenas de Markov 3 P (n,n) ij = δi,j = 1, si i = j0, si i 6= j y en el caso particular en el que la probabilidad de transición es la de un paso, es decir cuando m = 1 entonces se le llama probabilidad de transición y está definido, por: P (n,n+1) ij = Pr {Xn+1 = j|Xn = i} , i, j ∈ S, n ≥ 0. Definición 1.1.5 Cuando las probabilidades de transición P (n,n+m)ij no de- penden de n, se dice que la cadena es homogénea en el tiempo y se denota por: P (n,n+m) ij = Pr {Xn+m = j|Xn = i} = P (m) ij En particular cuando m = 1 se tienen las probabilidades de transición y en este caso se tiene que: Pij = Pr {Xn+1 = j|Xn = i} , i,j ∈ S, n ≥ 0. Observación: Es decir que cuando se tiene una cadena de Markov ho- mogénea en el tiempo, las probabilidades de transición dependerán sólo del número de pasos necesarios para ir de un estado a otro y no del tiempo en el cual comienza la transición. De ahora en adelante se estará tratando con cadenas de Markov homogéneas en el tiempo. Se nota que se puede agregar la información sobre una cadena de Markov en un arreglo matricial, el cual se detalla a continuación. Definición 1.1.6 Al arreglo matricial que contenga las probabilidades de transición como sus elementos se le llama matriz de transición o matriz de probabilidades de transición. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 4 — #16 i i i i i i 1. Cadenas de Markov 4 Entonces se tendrá que para una cadena de Markov X = {Xn : n = 0, 1, ...} con espacio de estados S, la matriz de transición en m-pasos será: P (m) = ( P (m) ij ) i,j∈S , para el caso de la matriz de transición de un paso, ésta será: P = ( P (1) ij ) i,j∈S . Definición 1.1.7 Sea X = {Xm : n = 0, 1, ...} una cadena de Markov, S su espacio de estados y P (m) = (P (m)i,j )i,j∈S su matriz de transición de m pasos. Se llama distribución ĺımite de X al ĺımn→∞ P (n) ij cuando éste existe y no depende del estado i ∈ S. Definición 1.1.8 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su espacio de estados y P = (Pi,j)i,j∈S su matriz de transición. A π(j), j ∈ S que satisface: 1. π(j) ≥ 0, j ∈ S 2. ∑ j∈S π(j) = 1 3. π(j) = ∑ i∈S π(i)Pi,j , j ∈ S se le llama distribución estacionaria de X. Definición 1.1.9 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su espacio de estados. La distribución inicial de X, denotada por π0(i), i ∈ S, se define de la siguiente forma: π0(i) = Pr(X0 = i). i i “tesisjonathan” — 2011/8/24 — 0:46 — page 5 — #17 i i i i i i 1. Cadenas de Markov 5 Definición 1.1.10 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su espacio de estados. La distribución al tiempo n de X, n ≥ 1, indicada por πn(i), i ∈ S, se define de la siguiente manera: πn(i) = Pr(Xn = i). Definición 1.1.11 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con distribución inicial π0(.) y una única distribución estacionaria π(.). Se dice que X es una cadena estacionaria si su distribución inicial es igual a su distribución estacionaria. En este caso, se tiene πn = π, para toda n. Definición 1.1.12 Un estado j es accesible de un estado i si para algún n ≥ 0, P (n)ij > 0. Si dos estados i y j son accesibles entre śı se dirá que están comunicados, y lo escribiremos como i↔ j. Definición 1.1.13 Una cadena de Markov es irreducible si todos sus es- tados se comunican entre śı. Definición 1.1.14 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, con S su espacio de estados y P (n) = ( P (n) i,j ) i,j∈S su matriz de transición en n-pasos. Sea i ∈ S. El peŕıodo del estado i estádefinido por d (i) = m.c.d. { n ≥ 1|P (n)i,i > 0 } . donde m.c.d. significa el máximo común divisor. Definición 1.1.15 Para cada estado i y j definimos f (n)ij como la proba- bilidad de que al comenzar en i, se acceda a j por primera vez en n pasos, formalmente: f (0)ij = 0, y f (n) ij = Pr {Xn = j,Xk 6= j, k = 1, ..., n− 1|X0 = i} . i i “tesisjonathan” — 2011/8/24 — 0:46 — page 6 — #18 i i i i i i 1. Cadenas de Markov 6 Definiendo fij = ∑∞ n=1 f (n) ij , donde fij representa la probabilidad de que llegue al estado j en algún momento futuro, dado que el proceso empezó en i. Observación: Notamos que para i 6= j, fij es estrictamente positivo si y solo si j es accesible de i. 1.1.1. Ejemplo de cadenas de Markov Cadenas de Markov espacialmente homogéneas Sean ξ1, ξ2, ..., ξn, ... variables aleatorias discretas independientes cuyos posibles valores son los enteros no negativos, es decir, Pr {ξ = i} = ai, a1, a2, ... ≥ 0 para toda i ∈ N , ∑∞ i=1 a1 = 1. Se definen dos diferentes cadenas de Markov relacionado con la secesión de ξ‘is. (i) Considerar el proceso Xn, n = 0, 1, 2, ..., definido por Xn = ξn te- niendo (X0 = ξ0). Entonces tenemos la siguiente matriz de transición: a0 a1 a2 a3 ... a0 a1 a2 a3 ... a0 a1 a2 a3 ... a0 a1 a2 a3 ... ... ... ... ... ... , dado que Xn+1 es independiente de Xn (ii) Otra importante clase de cadenas de Markov surge de la considera- cion de la sucesión de sumas parciales ηn del ξi, es decir: ηn = ξ1 + ξ2 + ...+ ξn, n = 1, 2, ... (1.2) i i “tesisjonathan” — 2011/8/24 — 0:46 — page 7 — #19 i i i i i i 1. Cadenas de Markov 7 donde por definición, η0 = 0. El proceso Xn = ηn puede ser visto como una cadena de Markov cuyo espacio de estados son los enteros y sus probabili- dades de transición son j ≥ i ≥ 0: Pr {Xn+1 = j|Xn = i} = Pr {ξ1 + ξ2 + ...+ ξn+1 = j|Xn = i} = Pr {ξn+1 = j − i} = aj−i (1.3) 1.2. Resultados preliminares Propiedad 1.2.1 Sea P (m) = ( P (m) i,j ) i,j∈S la matriz de transición en m pasos de una cadena de Markov X = {Xn : n = 0, 1, ...} con espacio de estados S. Entonces para toda m ≥ 0 se cumple que: 1. P (m) tiene entradas no negativas, es decir, P (m)i,j ≥ 0. 2. P (m) es una matriz tal que ∑ j∈S P (m) i,j = 1, i ∈ S. Demostración: 1. Usando la Definición 1.1.5 se tiene que que P (m)i,j = Pr {Xn+m = j|Xn = i}. Por definición de probabilidad condicional se sabe que P (m)i,j es mayor o igual a 0. 2. Sea i un estado fijo en el espacio de estados S, es decir, i ∈ S, entonces:∑ j∈S P (m) i,j = ∑ j∈S Pr {Xn+m = j|Xn = i} = Pr Xn+m ∈ ⋃ j∈S {j} |Xn = i = Pr {Xn+m ∈ S|Xn = i} = 1. (1.4) i i “tesisjonathan” — 2011/8/24 — 0:46 — page 8 — #20 i i i i i i 1. Cadenas de Markov 8 Lo cual ocurre para todo i ∈ S. Sólo cabe mencionar que la primera igualdad se da por la Definición 1.1.5, la tercera igualdad se da usando el hecho de que S = ⋃ j∈S {j} y la última es porque la probabilidad condiconal es probabilidad. ♦ Proposición 1.2.1 (Ecuaciones de Chapman-Kolmogorov, para el caso de cadenas homogéneas en el tiempo) Sea P (n) = ( P (n) ij ) i,j∈S la matriz de n-pasos de una cadena de Markov X = {Xn : n = 0, 1, ...} con espacio de estados S, entonces para n,m ≥ 0 se tiene: P (n+m) ij = ∑ k∈S P (n) ik P (m) kj , i, j ∈ S. (1.5) Demostración: Por la Definición 1.1.5, se tiene que: P (n) ij = Pr {Xn+m = j|Xm = i} , m, n ≥ 0 y i, j ≥ 0. Note que P (n+m) ij = Pr {Xn+m = j|X0 = i} = ∑ k∈S Pr {Xn+m = j,Xn = k|X0 = i} = ∑ k∈S Pr {Xn+m = j|Xn = k}Pr {Xn = k|X0 = i} = ∑ k∈S P (n) kj P (m) ik . (1.6) Observación: La ecuación de Chapman-Kolmogorov otorga un método para calcular la probabilidad de transición en n-pasos. De la ecuación gene- ral de Chapman-Kolmogorov se tiene que para una cadena de Markov con espacio de estados finito vale: P (n+m) = P (n)P (m). Por lo tanto, P (n) = P · P (n−1) = P · P · P (n−2) = ... = Pn, i i “tesisjonathan” — 2011/8/24 — 0:46 — page 9 — #21 i i i i i i 1. Cadenas de Markov 9 es decir, podemos calcular P (n) multiplicando a la matriz P por si misma n veces. Proposición 1.2.2 Cuando se tienen especificadas tanto las probabilidades de transición de una cadena de Markov como su distribución inicial, es de- cir, la distribución de X0, entonces se puede calcular todas las distribuciones finito dimensionales: Pr {X0 = i0, X1 = i1, ..., Xn = in} y está dado por: Pr (X0 = i0, X1 = i1, ..., Xn = in) = π0 (i0) n−1∏ j=0 Pij ,ij+1 . Demostración: Se sabe que: Pr {X0 = i0} = π0 (i0) Se utilizará inducción matemática para demostrar la proposición. Para n = 1, se tiene que: Pr {X0 = i0, X1 = i1} (1) = Pr {X1 = i1|X0 = i0} · Pr {X0 = i0} (2) = Pi0,i1π0 (i0) (1) Por definición de probabilidad condicional. (2) Por definición de proceso de Markov. Por hipótesis de inducción suponemos cierto para n−1 y probamos para n. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 10 — #22 i i i i i i 1. Cadenas de Markov 10 Dado que se cumple para n− 1, entonces podemos asegurar que: Pr {X0 = i0, X1 = i1, ..., Xn−1 = in−1} = Pin−2,in−1 · Pin−3,in−2 · ... · Pi0,i1π0 (i0) Por demostrar que se cumple para n, entonces Pr {X0 = i0, ..., Xn−1 = in−1, Xn = in} (3) = Pr {Xn = in|X0 = i0, ..., Xn−1 = in−1}︸ ︷︷ ︸ (I) ·Pr {X0 = i0, ..., Xn−1 = in−1} (1.7) (3) Por definición de probabilidad condicional, además para (I) Pr {Xn = in|X0 = i0, ..., Xn−1 = in−1} = Pin−1,in , por definición de proceso de Markov. Entonces sustituyendo (I) en la ecuación (1.7) se tiene: Pr {X0 = i0, ..., Xn = in} = Pin−1,in · Pr {X0 = i0, ..., Xn−1 = in−1} , pero por hipótesis de inducción tenemos que: Pr {X0 = i0, ..., Xn = in} = Pin−1,in · Pin−2,in−1 · ... · Pi0,i1π0 (i0) = π0 (i0) n−1∏ j=0 Pij ,ij+1 Pin−1,in , por lo tanto tanto el resultado sigue. Proposición 1.2.3 Si i↔ j, entonces d(i) = d(j). Demostración: Sea X = {Xn : n = 0, 1, ...} una cadena de Markov, S su espacio de estados y con matriz de transición de m-pasos P (m) = ( P (m) i,j ) i,j∈S . Por hipótesis existen r, t ≥ 0 tales que P (r)i,j , P (t) j,i > 0. Utilizando la Proposición 1.2.1 se tiene que P (r+t) j,j = ∑ k∈S P (t) j,kP (r) k,j (1) ≥ P (t)j,i P (r) i,j (2) > 0. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 11 — #23 i i i i i i 1. Cadenas de Markov 11 (1) y (2) La desigualdad se da por la hipótesis de que r, t > 0, es decir P (r)ij , P (t) ji son estrictamente mayor que cero y por ende P (r) ij P (t) ji > 0. Por otro lado, sea s ≥ 0 tal que P (s)i,i > 0, por lo que P (r+s+t) j,j (3) = ∑ k∈S P (t+s) j,k P (r) k,j = ∑ k∈S ∑ h∈S P (t) j,hP (s) h,kP (r) k,j ≥ P (t) j,i P (s) i,i P (r) i,j > 0. (3) La igualdad se da por las ecuaciones de Chapman-Kolmogorov aplicada a P (r+s+t)j,j Ahora bien, dado que d (j) = m.c.d. { n ≥ 1|P (n)j,j > 0 } , entonces se puede asegurar que d (j) divide a r+t, y también divide a r+s+t. Adicionalmente, divide (r + s+ t) − (r + t) = s. De esta manera d (j) divide a cualquier número entero que sea elemento del siguiente conjunto: D = { u ≥ 1|P (u)i,i > 0 } . Dado que d (i) ∈ D. Entonces por lo que antes se ha mencionado se tiene que d (j) divide a d (i). Del mismo modo se puede hacer ver que d (i) divide a d (j). Por tanto podemos concluir que d (j) = d (i). 1.3. Clasificación de estados Definición 1.3.1 Si P (n)i,i = 0 para toda n ≥ 1 entonces d (i) = 0. Si d (i) = 1 entonces se dice que i es un estado aperiódico. Definición 1.3.2 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con espacio de estados S y sea i ∈ S. Diremos que i es un estado recurrente si y sólo si fi,i = 1. Definición 1.3.3 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con espacio de estados S y sea i ∈ S. Diremos que i es un estado transitorio si y sólo si fi,i < 1. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 12 — #24 i i i i i i 1. Cadenas de Markov 12 Definición 1.3.4 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con espacio deestados S y sea i ∈ S, se define el número esperado de tran- siciones necesarias para regresar por primera vez el estado i por: µi = E (Ti|Xo = i) Comentario: Diremos que: µi = E (Ti|Xo = i) = ∑∞ n=1 nf (n) i,i , si i es recurrente ∞, si i es transitorio. Donde Ti denota el primer momento en el que la cadena visita al estado i. Definición 1.3.5 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con espacio de estados S y sea i ∈ S. 1. Si µi = ∞ entonces i es llamado recurrente nulo. 2. Si µi <∞ entonces i es llamado positivo recurrente. Definición 1.3.6 Sea S el espacio de estados de una cadena de Markov discreta, homogénea en el tiempo, la cual se denota con X = {Xn : n = 0, 1, ...}. Un estado i ∈ S, es llamado estado ergódico si i es recurrente positivo y aperiódico. Y además una cadena es ergódica si todos sus estados son no nulos, aperiÃ3dicosyrecurrentes. Proposición 1.3.1 Sea S el espacio de estados de una cadena de Markov discreta y homogénea en el tiempo dada por X = {Xn : n = 0, 1, ...}. Sea P (m) la matriz de transición de m-pasos asociada a dicha cadena. Ahora bien sea j ∈ S un estado recurrente y d(j) denotará su peŕıodo, entonces: 1. Existe el siguiente ĺımite: ĺımn→∞ P (nd(j)) jj . i i “tesisjonathan” — 2011/8/24 — 0:46 — page 13 — #25 i i i i i i 1. Cadenas de Markov 13 2. Si cumple también que el estado j es aperiódico y se comunica con el estado i, con i ∈ S, entonces existe el siguiente lmite: ĺımn→∞ P (n)ij . Demostración: Ver Ross (1997) en la seccón de Clasificación de Estados. Proposición 1.3.2 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov aperiodica irreducible con espacio de estados S. Tomando i, j ∈ S, se tiene que: ĺım n→∞ P (n) i,j = 1 µj . Demostración: Ver Grimmett y Stirzaker (1982) en la sección de Clasifi- cación de Estados y propiedades. Proposición 1.3.3 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov aperiódica e irreducible con espacio de estados S. 1. Si j ∈ S es recurrente positivo entonces ĺımn→∞ P (n)ij > 0, con i ∈ S. 2. Si j ∈ S es transitorio o recurrente nulo entonces ĺımn→∞ P (n)ij = 1 µj = 0, con i ∈ S. Demostración: 1. Dado que j ∈ S es recurrente positivo entonces por la definición 1.3.5 µj <∞. Dado queX es irreducible y aperiódica, usando la proposición 1.3.2 se cumple que: ĺım n→∞ P (n) i,j = 1 µj > 0 2. Si j ∈ S cumple ser transitorio o recurrente nulo entonces por la definición 1.3.5 µj = ∞, por lo tanto se cumple que: ĺım n→∞ P (n) ij = 1 µj = 0 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 14 — #26 i i i i i i 1. Cadenas de Markov 14 Observación: Sea X = {Xn : n = 0, 1, ...} una cadena de Markov con dis- tribución estacionaria π = {π(j) : j ∈ S}. Se dice que X ha alcanzado su estado estacionario al tiempo n cuando Pr(Xn = j) = π(j), para todo j ∈ S. Teorema 1.3.1 Sea X = Xn : 0, 1, ... una cadena de Markov ergódica con espacio de estados S, con matriz de transición en n − pasos y P (n) = (P (n)i,j )i,j∈S. El conjunto: π = { π(j) = ĺım n→∞ P (n) i,j > 0, i ∈ S, j ∈ S } es la única distribución estacionaria de X. Demostración. 1. Dado que X es una cadena ergódica todos sus estados son recurrentes positivos, por lo que ĺımn→∞ P (n) i,j > 0 y por tanto se cumple que π(j) ≥ 0, 2. Se debe demostrar que π(j) = ∑ i∈S π(i)Pi,j con j ∈ S; pero para dicha demostración primero se probará que: π(j) = ∑ i∈S π(i)P (n)i,j (1.8) para toda n ≥ 0 y para toda j ∈ S, con S finito. Suponga a S finito, por la proposición (1.2.1) se sabe que para n,m ≥ 0 P (m+n) h,j = ∑ i∈S P (m) h,i P (n) i,j . Haciendo tender m a infinito se tiene que ĺım n→∞ P (m+n) h,j = ∑ i∈S ( ĺım m→∞ P (m) h,i ) P (n) i,j . i i “tesisjonathan” — 2011/8/24 — 0:46 — page 15 — #27 i i i i i i 1. Cadenas de Markov 15 Finalmente, π(j) = ∑ i∈S π(i)P (n)i,j . Suponga que S es numerable, sabemos que: P (m+n) h,j (1) = ∑ i∈S Pmh,iP n i,j (2) ≥ M∑ i=0 Pmh,iP n i,j para toda M ∈ S y m,n ≥ 0. (1) La igualdad se da por la proposición 1.2.1. (2) Es una suma parcial de la suma anterior. Ahora haciendo tender m a infinito se tiene que: ĺım n→∞ P (m+n) h,j ≥ M∑ i=0 ( ĺım m→∞ P (m) h,i )P (n) i,j Aśı, π(j) ≥ M∑ i=0 π(i)P (n)i,j , para toda M ∈ S. Ahora cuando hacemos a M tender a infinito se tiene que: ĺım M→∞ π(j) = π(j) ≥ ĺım M→∞ M∑ i=0 π(i)P (n)i,j = ∞∑ i=0 π(i)P (n)i,j . De todo lo anterior se tiene que: π(j) ≥ ∑ i∈S π(i)P (n)i,j , con j ∈ S y n ≥ 0, Sin embargo, supóngase que: π(j) > ∑ i∈S π(i)P (n)i,j , con j ∈ S y n ≥ 0. (1.9) i i “tesisjonathan” — 2011/8/24 — 0:46 — page 16 — #28 i i i i i i 1. Cadenas de Markov 16 y se llega a una contradicción. Considerando la suma sobre j en (1.8) se tiene que∑ j∈S π(j) > ∑ j∈S ∑ i∈S π(i)P (n)i,j = ∑ i∈S π(i) ∑ j∈S P (n) i,j = ∑ i∈S π(i) (1.10) donde la última igualdad ocurre, ya que por la propiedad 1.2.1,∑ j∈S P (n) i,j = 1, para toda i ∈ S y n ≥ 0. Por lo tanto π(j) = ∑ i∈S π(i)P (n)i,j . En particular, cuando n = 1 se tiene que π(j) = ∑ i∈S π(i)Pi,j , para toda j ∈ S. 3. Ahora se debe demostrar que:∑ j∈S π(j) = 1, con π(j) = ĺımn→∞ P (n) i,j . Suponga que S es finito. Por el inciso 2. de la propiedad (1.2.1) se tiene que ∑ j∈S P (n) i,j = 1, con n ≥ 0. Haciendo tender n a infinito∑ j∈S ( ĺım n→∞ P (n) i,j ) = 1, por lo que ∑ j∈S π(j) = 1. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 17 — #29 i i i i i i 1. Cadenas de Markov 17 Suponga que S es numerable. Por un lado se tiene que 1 = ∑ j∈S P (n) i,j ≥ M∑ j=0 P (n) i,j , para toda M ∈ S y n ≥ 0. Si n tiende a infinito entonces 1 ≥ M∑ j=0 ( ĺım n→∞ P (n) i,j ) = M∑ j=0 π(j), para toda M ∈ S Cuando M tiende a infinito: 1 ≥ ĺım M→∞ M∑ j=0 π(j) = ∑ j∈S π(j) Lo que indica que ∑ j∈S π(j) converge. Además note que P (n) i,j ≤ 1 para toda j ∈ S y para toda n ≥ 0 por ser probabilidad condi- cional, por lo tanto P (n)i,j es uniformemente acotada. Por lo tanto, si n tiende a infinito en: π(j) = ∑ i∈S π(i)P (n) i,j , se tiene que: ĺım n→∞ π(j) = π(j) = ∑ i∈S π(i)( ĺım n→∞ P (n) i,j ) = ∑ i∈S π(i)π(j) = π(j) ∑ i∈S π(i), (1.11) y aśı ∑ i∈S π(i) = 1 ya que por hipótesis π(j) > 0. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 18 — #30 i i i i i i 1. Cadenas de Markov 18 4. Ahora se debe demostrar la unicidad de esta distribución. Supongamos la existencia de νj con j ∈ S tal que el conjunto {νj : j ∈ S} sea una distribución estacionaria de X, es decir cumple con las siguientes propiedades: νj ≥ 0,para todo j ∈ S.∑ j∈S νj = 1. νj = ∑ i∈S νiPi,j ,para todo j ∈ S. Lo que se demostrará es que νj = π(j), para todo j ∈ S. Para esto note primero que por hipótesis la fórmula (1.8) también es válida para el conjunto {νj : j ∈ S}: νj = ∑ i∈S νiP (n) i,j (1.12) para todo n ≥ 0 y para todo j ∈ S. A partir de aqúı se di- vidirá esta demostración en dos casos. � Suponga que S es finito. Haciendo que n tienda a infinito en la expresión (1.12) se tiene νj = ∑ i∈S νi ( ĺım n→∞ P (n) i,j ) = ∑ i∈S νiπ(j) = π(j) donde la última igualdad se cumple por los criterios que teńıamos como hipótesis para ν(·), ∑ j∈S νj = 1,para todo j ∈ S. � Se supone a S numerable, entonces usando la expresión (1.12) se tiene νj ≥ M∑ i=0 νiP (n) i,j , para todo M ∈ S. Tomando el ĺımite cuando n tiende a i i “tesisjonathan” — 2011/8/24 — 0:46 — page 19 — #31 i i i i i i 1. Cadenas de Markov 19 infinito se tiene ĺım n→∞ νj = νj ≥ ĺım n→∞ M∑ i=0 νiP (n) i,j = M∑ i=0 νi( ĺım n→∞ P (n) i,j ) = M∑ i=0 νiπ(j),∀M ∈ S (1.13) Pero ahora bien si M tiende a infinito en la expresión (1.13) entonces ĺım M→∞ νj = νj ≥ ĺım M→∞ M∑ i=0 νiπ(j) = ∑ i∈S νiπ(j) = π(j). (1.14) Donde la última igualdad se da por la hipótesis que se tiene con respecto a ν(·). Por otro lado, también por la expresión (1.12), se tiene que νj = M∑ i=0 νiP (n) i,j + ∞∑ i=M+1 νiP (n) i,j ,para todo n≥ 0. (1.15) Dado que P (n)i,j ≤ 1, para todon ≥ 0 por ser una probabili- dad condicional, tenemos de la expresión (1.15) que νj ≤ M∑ i=0 νiP (n) i,j + ∞∑ i=M+1 νi,para todo n Cuando n tiende a infinito en la expresión anterior se tiene i i “tesisjonathan” — 2011/8/24 — 0:46 — page 20 — #32 i i i i i i 1. Cadenas de Markov 20 que ĺım n→∞ νj = νj ≤ M∑ i=0 νi( ĺım n−>∞ P (n) i,j ) + ∞∑ i=M+1 νi = M∑ i=0 νiπ(j) + ∞∑ i=M+1 νi. (1.16) Dado que ∑ i∈S νi = 1 se tiene M∑ i=0 νi + ∞∑ i=M+1 νi = 1, con lo cual la expresión (1.17) se convierte en νj ≤ M∑ i=0 νiπ(j) + 1− ( M∑ i=0 νi ) Si M tiende a infinito en la expresión anterior entonces ĺım M→∞ νj = νj ≤ ∑ i∈S νiπ(j)+ ( 1− ∑ i∈S νi ) = π(j) ∑ i∈S νi = π(j). (1.17) Finalmente la expresión (1.14) y (1.18) podemos concluir que νj = π(j), para toda j ∈ S Observación: Sea X = {Xn : 0, 1, ...} una cadena de Markov aperiódica e irreducible con espacio de estados S. Si todos sus estados son recurrentes nulos o transitorios entonces no existe la distribución ĺımite de X. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 21 — #33 i i i i i i 1. Cadenas de Markov 21 1.4. Cadenas de Markov reversibles en el tiempo. Definición 1.4.1 Sea X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov estacionaria, sean S su espacio de estados y P = (Pi,j)i,j∈S su matriz de transición. La cadena reversa en el tiempo con respecto a Pi,j de X es el proceso estocástico que se expresa como X∗ = {X∗n : n = ...,−1, 0, 1, ...} el cual está definido de la siguiente forma: Para una n fija tal que n ∈ Z se define X∗n = Xn además X ∗ n+1 = Xn−1, donde dicho valor n puede tomar valores al tiempo n = 0, 1, ... es decir, que X∗ es la X pero vista desde el presente hacia el pasado. Si el estado presente de la cadena X∗ fuese X∗n, entonces se dirá que sus estados pasados serán Xn+1, Xn+2, ... y los estados futuros serán Xn−1, Xn−2, .... A continuacion se muestra dicho desarrollo: Sea X = {Xn : n = ...,−1, 0, 1, ...} y sea X∗ = {X∗n : n = ...,−1, 0, 1, ...}, y teniendo n ∈ Z fija entonces se tiene que: X∗n = Xn X∗n+1 = Xn−1 X∗n+2 = Xn−2 ... Teniendo el caso general para n ∈ Z fija se tendrá X∗n+m = Xn−m, m = ...,−1, 0, 1, ... Ahora se demostrará que la cadena reversa no depende de n, es decir que las probabilidades de transicion son las mismas no importando el valor con respecto al cual se realice la reversa. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 22 — #34 i i i i i i 1. Cadenas de Markov 22 Sean n1 y n2 dos tiempos distintos respecto a los cuales se aplica la reversa, ahora bien las probabilidades de transicion de ir de un estado i a un estado j en m-pasos con respecto a dos tiempos distintos en la cadena reversa serán: Pr { X∗(n1+r1)+m = j|X ∗ n1+r1 = i } para n1 donde r1 ∈ Z. Es de- cir, la cadena reversa con respecto a n1 después de m-pasos esta en j dado que al tiempo n1 + r1 la cadena esta en el estado i. Pr { X∗(n2+r2)+m = j|X ∗ n2+r2 = i } para n2 donde r2 ∈ Z. Es de- cir, la cadena reversa con respecto a n2 después de m-pasos esta en j dado que al tiempo n2 + r2 la cadena esta en el estado i. Nótese que usando los ı́ndices r1 y r2 se puede hacer ver que la cadena en el estado i no necesariamente debe estar en el tiempo ni, con i = 1, 2 respecto al cual se realiza la reversa en la cadena original. Por otro lado tenemos que usando el criterio de la definición 1.4.1 se tiene, Pr { X∗(n1+r1)+m = j|X ∗ n1+r1 = i } =Pr { X(n1+r1)−m = j|X∗n1+r1 = i } para n1 Pr { X∗(n2+r2)+m = j|X ∗ n2+r2 = i } =Pr { X(n2+r2)−m = j|X∗n2+r2 = i } para n2 de lo cual se puede ver que no importando que los dos tiempos distintos respecto a los cuales se haya aplicado la reversa, las probabilidades son las mismas ya que solo dependerá de m y tener fijos el estado i y el estado j. Proposición 1.4.1 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov estacionaria, con S su espacio de estados, con matriz de transición P = i i “tesisjonathan” — 2011/8/24 — 0:46 — page 23 — #35 i i i i i i 1. Cadenas de Markov 23 (Pi,j)i,j∈S, y suponga que X tiene una única distribucion estacionaria dada por π = {π(i) : i ∈ S} y X∗ su cadena reversa en el tiempo. Entonces X∗ es una cadena de Markov en el espacio de estados S y sus probabilidades de transición P ∗i,j , i, j ∈ S, están definidas por: P ∗i,j = Pr { X∗n+1 = j|X∗n = i } = π(j) π(i) Pj,i para todo i, j ∈ S Demostración: Para que X∗ sea cadena de Markov debe cumplir que Pr { X∗n+m = in+m|X∗n = in, ..., X∗n+m−1 = in+m−1 } = Pr { X∗n+m = in+m|X∗n+m−1 = in+m−1 } donde n,m ≥ 0, in, ..., in+m ∈ S. Ahora desarrollando tenemos que: Pr { X∗n+m = in+m|X∗n = in, ..., X∗n+m−1 = in+m−1 } = Pr {Xn−m = in+m|Xn = in, ..., Xn−m+1 = in+m−1} = (∗∗) (∗∗) = Pr {Xn−m = in+m|Xn = in, ..., Xn−m+1 = in+m−1} = Pr {Xn−m = in+m, Xn−m+1 = in+m−1, ..., Xn = in} Pr {Xn−m+1 = in+m−1, ..., Xn = in} = Pr {Xn−m = in+m, Xn−m+2 = in+m−2, ..., Xn = in|Xn−m = in+m, Xn−m+1 = in+m−1} Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1} × Pr {Xn−m+1 = in+m−1, Xn−m = in+m} Pr {Xn−m+1 = in+m−1} = Pr {Xn−m = in+m|Xn−m+1 = in+m−1} × Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1} Pr {Xn−m+2 = in+m−2, ..., Xn = in|Xn−m+1 = in+m−1} = Pr {Xn−m = in+m|Xn−m+1 = in+m−1} = Pr { X∗n+m = in+m|X∗n+m−1 } . i i “tesisjonathan” — 2011/8/24 — 0:46 — page 24 — #36 i i i i i i 1. Cadenas de Markov 24 Donde las igualdades se dan por la definición de cadena reversa en el tiempo dada anteriormente y por definición de cadena de Markov para X. Por otro lado se tiene que: P ∗i,j = Pr ( X∗n+1 = j|X∗n = i ) = Pr (Xn−1 = j,Xn = i) Pr (Xn−1 = j) Pr (Xn = i) Pr (Xn−1 = j) = Pr (Xn = i|Xn−1 = j) Pr (Xn−1 = j) Pr (Xn = i) = Pj,iπ(j) π(i) . (1.18) Nota: La primera igualdad se cumple por la probabilidad de transición, mientras que la última, además por ser la probabilidad de transición, se usa el hecho de que X es estacionaria. Proposición 1.4.2 Sea X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov estacionaria, sea S su espacio de estados, con matriz de transición P = (Pi,j)i,j∈S, suponga que X tiene una única distribucion estacionaria dada por π = {π(i) : i ∈ S} y X∗ = {X∗n : n = ...,−1, 0, 1, ...} su cadena reversa en el tiempo. La distribución estacionaria de X∗ también es π. Demostración: Por ser π = {π(j) : j ∈ S} distribución estacionaria de X, entonces cumple las siguientes propiedades: 1. π(j) ≥ 0,para todo j ∈ S 2. ∑ j∈S π(j) = 1 3. π(j) = ∑ i∈S π(i)Pi,j ,para todo j ∈ S Notese que dado que X∗ está bien definida en S como se mostro, entonces π(j) cumple las propiedades 1 y 2, lo que hay que demostrar es que π(j) = i i “tesisjonathan” — 2011/8/24 — 0:46 — page 25 — #37 i i i i i i 1. Cadenas de Markov 25 ∑ i∈S π(i)P ∗ i,j , para todo j ∈ S, para ello sustituyendo P ∗i,j en la propiedad 3 se tiene que: ∑ i∈S π(i)P ∗i,j = ∑ i∈S π(i)( π(j) π(i) )Pj,i = ∑ i∈S π(j)Pj,i = π(j) ∑ i∈S Pj,i = π(j). (1.19) Definición 1.4.2 Sean X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov estacionaria, sea S su espacio de estados, con matriz de transición P = (Pi,j)i,j∈S, suponga que X tiene una única distribucion estacionaria dada por π = {π(i) : i ∈ S} y X∗ = {X∗n : n = ...,−1, 0, 1, ...} su cadena re- versa en el tiempo con matriz de transición P ∗ = ( P ∗i,j ) i,j∈S. Si P ∗ i,j = Pi,j, para todo i, j ∈ S se dice que X es una cadena reversible en el tiempo con respecto a π. Proposición 1.4.3 Sean X = {Xn : n = ...,−1, 0, 1, ...} una cadena de Markov estacionaria, S su espacio de estados, con matriz de transición P = (Pi,j)i,j∈S y π = π(i) : i ∈ S su distribución estacionaria. X es re- versible en el tiempo con respecto a π si y sólo si para todo i, j ∈ S π(i)Pi,j = π(j)Pj,i. (1.20) Demostración: Supóngase que X es reversible en el tiempo, es decir que P ∗i,j = Pi,j , entonces, se tiene que: π(j) π(i) Pj,i = Pi,j , i i “tesisjonathan” — 2011/8/24 — 0:46 — page 26 — #38 i i i i i i 1. Cadenas de Markov 26 con lo quese cumple que π(i)Pi,j = π(j)Pj,i. Suponga que π(i)Pi,j = π(j)Pj,i, y el procedimiento es el mismo que en el caso anterior sólo que de regreso. Usando el hecho de que Pi,j = π(j) π(i)Pj,i el resultado sigue de la proposición (1.4.2). Observación: La igualdad (1.20) es llamada ecuación detallada de balance. Proposición 1.4.4 Sea X = {Xn : n = 0, 1, ...} una cadena de Markov estacionaria, S su espacio de estados, y con matriz de transición P = (Pi,j)i,j∈S. Supongamos que f(i) satisface f(i)Pi,j = f(j)Pj,i. (1.21) donde f es una función de probabilidad definida sobre S, con i, j ∈ S. 1. La función de probabilidad f es la distribución estacionaria de la ca- dena X. 2. La cadena X es reversible en el tiempo con respecto a f . Demostración: 1. Para demostrar la primera afirmación debemos ver que se cumpla: i) f(j) ≥ 0,para todo j ∈ S ii) ∑ j∈S f(j) = 1 iii) f(j) = ∑ i∈S f(i)Pi,j ,para todo j ∈ S Notamos que los dos primeros casos se cumplen ya que f es fun- ción de probabilidad sobre S. Ahora bien para el tercer caso tenemos que tomando j ∈ S: i i “tesisjonathan” — 2011/8/24 — 0:46 — page 27 — #39 i i i i i i 1. Cadenas de Markov 27 ∑ i∈S f(i)Pi,j = ∑ i∈S f(j)Pj,i = f(j) ∑ i∈S Pj,i = f(j). Donde la primera igualdad la tenemos por (1.21) y la última está en el hecho de que ∑ i∈S Pj,i = 1. 2. Para demostrar la segunda afirmación utilizamos la primera parte demostrada, en la que nos dice que dado que f es la distribución estacionaria de X por lo que cumple la ecuación (por la proposición (1.4.3)): π(i)Pi,j = π(j)Pj,i, i, j ∈ S y por tanto la cadena es reversible con respecto al tiempo con respecto a f. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 28 — #40 i i i i i i i i “tesisjonathan” — 2011/8/24 — 0:46 — page 29 — #41 i i i i i i Caṕıtulo 2 Introducción a la Estad́ıstica Bayesiana En este segundo caṕıtulo se mostrarán en primer lugar definiciones básicas, seguido por conceptos y construcciones relacionadas con inferencia Bayesiana. Dichos argumentos y conceptos serán útiles para los próximos caṕıtulos. La información que será presentada fue tomada en su mayor parte de los libros Carlin y Louis (2000), Gamerman (1997), Lee (2001) y Reyes (2008). 2.1. Definiciones básicas. Definición 2.1.1 Considere un experimento aleatorio el cual puede ser descrito con un modelo matemático. La variable que describe dicho modelo es llamada parámetro y será indicada por θ. Definición 2.1.2 Al conjunto de los posibles valores que un parámetro θ puede tomar se llama espacio parametral y estará denotado por Θ. El espacio parametral puede especificar una familia de funciones de densidad 29 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 30 — #42 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 30 espećıfica, es decir, F = {f(x, θ); θ ∈ Θ} donde f(x, θ) es una función de densidad con parámetros θ ∈ Θ y x es un elemento del espacio donde f toma valores. Definición 2.1.3 Supongamos que se efectua un experimento aleatorio N veces, dichas repeticiones son independientes entre śı, sea xi con i = 1, 2, ..., N el resultado de la i− ésima repetición del experimento, donde dicho experi- mento representa tomar una muestra de una población de manera que todo elemento de la poblacion tenga la misma probabilidad de selección, de dicho experimento se obtenie el siguiente conjunto de valores, X = {x1, x2, x3, ..., xN} , a dicho conjunto se le llama muestra aleatoria. Definición 2.1.4 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y θ ∈ Θ el parámetro que describe el modelo del experimento aleatorio que produjo esta muestra. Una estad́ıstica es cualquier función de la muestra que no depende del parámetro desconocido θ. Definición 2.1.5 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y θ ∈ Θ el parámetro desconocido del modelo que produjo X. La función que describe el modelo que produjo X vista como función de θ es llamada función de verosimilitud que se denotará por L(θ|x). L(θ|x) ∝ N∏ i=1 f(xi|θ), donde f(X|θ) es la función de densidad asociada al experimento que produjo X. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 31 — #43 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 31 Definición 2.1.6 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria, θ ∈ Θ el parámetro del modelo que describe el experimento que produjo dicha muestra aleatoria X y L(θ|x) la función de verosimilitud asociada al modelo. La función log-verosimilitud está dada por: l(θ|x) = log L(θ|x). Definición 2.1.7 Sean X = {x1, x2, x3, ..., xN} una muestra aleatoria y θ ∈ Θ el parámetro desconocido del modelo que describe el experimento que produjo la muestra X. Un estimador es una estad́ıstica que sirve para aproximar el valor de alguna función del parámetro del modelo. Definición 2.1.8 Sean X = {x1, x2, x3, ...,N } una muestra aleatoria y θ ∈ Θ el parámetro desconocido del modelo que describe el experimento que produjo dicha muestra aleatoria X. El estimador máximo verosimil de θ es cualquier θ̂ tal que maximiza la función de verosimilitud, es decir: L(θ̂|x) ≥ L(θ|x), para todo θ ∈ Θ. Observación: El cálculo del estimador máximo verosimil plantea varias dificultades en la práctica ya que el máximo encontrado como estimador máximo verosimil no siempre es el máximo absoluto y aún cuando éste exista, para determinarlo es necesario resolver un problema de extremos ab- solutos restringidos al dominio del parámetro RN , problema que no siempre es fácil de resolver. 2.2. Modelo Bayesiano Definición 2.2.1 Sean X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el parámetro desconocido del modelo que describe el experimento que produjo la i i “tesisjonathan” — 2011/8/24 — 0:46 — page 32 — #44 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 32 muestra X. La distribución a priori de θ es la distribución del parámetro θ que se le asigna sin tener en cuenta la muestra obtenida del experimento y se denotará por Ppriori(θ). Observación: Las distribuciones a priori en general son especificadas por intuición, mediante estudios que se han realizado con anterioridad o de acuerdo a opiniones de expertos de cada tema o área a tratar, pero en el caso de que no se cuente con dicha intuición o información por lo regular se usa una distribución uniforme con una varianza grande. Definición 2.2.2 Sean X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el parámetro del modelo que produjo la muestra X. Se dice que una distribu- ción es no informativa para θ si no favorece a algún valor de θ sobre otros, o lo que es lo mismo es una distribucion que no otorga una buena represantacion de las caracteristicas generales de la población y lleva a cabo un papel mı́nimo en la distribucion que se dará posteriormente. Donde dicha dicha distribucion se refiere a la distribucion a priori. Definición 2.2.3 La distribución a posteriori es la distribución del parámetro θ cuando se toma en cuenta la información producida por la muestra obtenida y se denota por P (θ|x). Observación: Algunas veces la información previa con relación a θ que existe no es fiable, o se desea únicamente una inferencia basada en los datos, asi que a primera vista, podŕıa parecer que la inferencia Bayesiana es inadecuada para tal situación, pero esta conclusión es un poco apresurada. Ahora bi- en, suponga que se pueda encontrar una distribución π(θ) que “no contiene información” acerca de θ, es decir una distribución apriori no informati- va para θ. De esta forma toda la información en la posteriori P(θ|x), seŕıa i i “tesisjonathan” — 2011/8/24 — 0:46 — page 33 — #45 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 33 la proporcionada por los datos. Por tanto, todas las inferencias son com- pletamente objetivas, en vez de subjetivas. Por ejemplo: Supongase que el espacio de parámetros es discreto y finito, es decir, Θ = {θ1, ..., θn}, entoncesclaramente la distribución: Ppriori(θi) = 1/n, i = 1, ..., n, no favorece ninguno de los valores de θ sobre ningún otro, y como tal, es no informativa para θ. Si se tiene delimitado por el espacio de parámetros continuo, decimos Θ = [a, b] ,−∞ < a < b < ∞, entonces la distribución uniforme Ppriori(θ) = 1/(b− a), a < θ < b, es no informativa para θ. Cuando nos movemos sin ĺımites el espacio de parámetros, la situación es mucho menos clara. Supongase que Θ = (−∞,∞). Entonces la distribucion apriori uniforme apropiada parece ser: Ppriori(θ) = c, donde c > 0, to (2.2) pero esta distribución es impropia, ya que tendŕıamos ∫ p(θ)dθ = ∞, y por lo tanto no seŕıa apropiado utilizarla como una apriori. En este caso la inferencia Bayesiana lo hace posible si la integral con respecto a θ de la densidad del espacio parametral f(x|θ) son iguales a algún valor finito K, entonces tendŕıamos: P(θ|x) = f(x|θ)∫ f(x|θ)dθ = f(x|θ) K . i i “tesisjonathan” — 2011/8/24 — 0:46 — page 34 — #46 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 34 De esta forma, se tiene la integral de Ppriori(θ|x) con respecto a θ es 1 y por lo tanto es realmente una densidad posterior. Observación: En general, las distribuciones no informativas en espacios no acotados son impropias, es decir, ∑ θ∈Θ Ppriori(θ) = ∞, cuando Θ es discreto, o ∫ Θ Ppriori(θ)dθ = ∞, cuando Θ es continuo. Sin embargo, muchas veces son tomadas distribuciones uniformes definidas en un conjunto suficientemente grande. Observación: Algunas veces las distribuciones a priori pueden depender de otros parámetros los cuales pueden ser conocidos o no, y son llamados hiperpa- rámetros. Cuando son desconocidos pueden ser abordados de dos maneras distintas como se muestra a continuación: 1. El primer caso es aquel que se trata propiamente con el método Bayesiano el cual consiste en asignarle al hiperparámetro una dis- tribución a priori, usualmente llamada (hiperapriori) y a partir de ella encontrar la distribución a posteriori. Por otro lado, dicha dis- tribución podŕıa depender de una colección de parámetros desconoci- dos. A la especificación de un modelo sobre varios niveles es llamado modelación jerárquica, la cual es llamada aśı ya que cada nueva distribución forma un nuevo nivel de jerarqúıa. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 35 — #47 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 35 2. El segundo caso es cuando se utiliza el método llamado análisis emṕırico de Bayes, que consiste en encontrar un valor de η el cual maximice la distribución marginal de P (x|η) pero vista como función de η. Si η = η̂ fuera dicho valor entonces la función a posteriori que se trabajará será P (θ|x, η̂). La expresión para P (θ|x, η) puede obtenerse sustituyendo η̂ en la expresión que se mostrará en el siguiente teorema. Observación: Aunque las distribuciones a priori sean impropias, cuando se combinan con la información muestral se logra producir distribuciones a posteriori propias. Teorema 2.2.1 Sean X = {x1, ..., xN} una muestra de un experimento aleatorio, θ ∈ Θ el parámetro del modelo que produjo la muestra X y Papriori(θ|η) la distribución a apriori que depende de un hiperparámetro η. 1. Si el valor de η es conocido la distribuución a posteriori es, P (θ|x, η) = P (x|θ)Ppriori (θ|η)∑ γ∈Θ P (x|γ)Ppriori (γ|η) (2.3) 2. Si el valor de η es desconocido la distribución a posteriori es, P (θ|x) = ∑ η P (x|θ)Ppriori (θ|η)Ppriori (η)∑ η ∑ γ∈Θ P (x|γ)Ppriori (γ|η)Ppriori (η) (2.4) Demostración: i i “tesisjonathan” — 2011/8/24 — 0:46 — page 36 — #48 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 36 1. Note que, P (θ|x, η) = P (θ, x, η) P (x, η) = P (x|θ, η)P (θ, η) P (x, η) P (η) P (η) = P (x|θ, η)P (θ|η) P (x|η) = P (x|θ, η)P (θ|η)∑ γ∈Θ P (x, γ|η) = P (x|θ)P (θ|η)∑ γ∈Θ P (x|γ, η)P (γ|η) = P (x|θ)Ppriori (θ|η)∑ γ∈Θ P (x|γ)Ppriori (γ|η) , (2.5) donde las dos últimas igualdades se obtienen debido a que la muestra depende del hiperparámetro η sólo a través del parámetro θ. 2. Si η es desconocido, también se le asignará la distribución apriori Ppriori (η): De esta forma, P (θ|x) = P (θ, x) P (x) = ∑ η P (θ, x, η)∑ γ∈Θ P (x, γ) = ∑ η P (x|θ, η)P (θ, η)∑ η ∑ γ∈Θ P (x, γ, η) = ∑ η P (x|θ, η)P (θ|η)P (η)∑ η ∑ γ∈Θ P (x|γ, η)P (γ, η) = ∑ η P (x|θ)Ppriori (θ|η)Ppriori (η)∑ η ∑ γ∈Θ P (x|γ)Ppriori (γ|η)Ppriori (η) , (2.6) i i “tesisjonathan” — 2011/8/24 — 0:46 — page 37 — #49 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 37 donde la última igualdad se cumple ya que X sólo depende de η a través de θ. Teorema 2.2.2 La distribucion a posteriori P(θ|x), la función de verosimilitud L(θ|x) y la distribución a priori Ppriori(θ) están relacionadas de la siguiente forma: P (θ|x) ∝ L (θ|x)Ppriori (θ) (2.7) Demostración: Del Teorema (2.2.1), cuando η es conocido no es necesario escribirlo en la distribucion a posteriori, y como el denominador de la expresión (2.3) no depende de θ entonces esta se puede simplificar y obtener la expresión P (θ|x) ∝ L (θ|x)Ppriori (θ) donde L (θ|x) es la función de verosimilitud y la constante de propor- cionalidad, que sólo depende de x, hace que P (θ|x) integre o sume uno. Proposición 2.2.1 Sean X = {x1, x2, ..., xN} una muestra aleatoria, θ ∈ Θ el parámetro del modelo que produjo X, P (1)priori(θ), P (2) priori(θ) funciones apriori y P (1)(θ|x), P (2)(θ|x) funciones a posteriori obtenidas de las respec- tivas funciones apriori. Si Ppriori (θ) = aP (1) priori (θ) + bP (2) priori (θ) (2.8) donde a+ b = 1 entonces P (θ|x) ∝ aP (1) (θ|x) + bP (2) (θ|x) . (2.9) i i “tesisjonathan” — 2011/8/24 — 0:46 — page 38 — #50 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 38 Demostración: Por el Teorema (1.2.1) P (θ|x) ∝ L (θ|x)Papriori (θ) = L (θ|x) ( aP (1) apriori (θ) + bP (2) apriori (θ) ) = aL (θ|x)P (1)priori (θ) + bL (θ|x)P (2) priori (θ) ∝ aP (1) (θ|x) + bP (2) (θ|x) (2.10) Observación: Los conceptos a priori y a posteriori son siempre rela- tivos a las observaciones consideradas en un momento dado. Es posible que después de observar la muestra X y obtener el valor posteriori, una nue- va observación “y” también relacionada a θ puede aparecer eventualmente por una función de verosimilitud. En este caso la distribucion a posteriori (relativo a x) es la a priori (relativo a y) y una nueva posteriori puede ser obtenida con una nueva aplicación del teorema de Bayes. Por ejemplo: Considere una serie de mediciones acerca de una cantidad f́ısica θ con errores de medición ei descritos por la distribución N(0, σ2), donde la precisión de las mediciones (controladas por σ2) es conocida. En este casoXi = θ+ei, i = 1, 2, ..., n y además: f(X|θ) = n∏ i=1 fN (Xi; θ, σ2) = n∏ i=1 1√ 2πσ2 exp { −1 2 (Xi − θ)2 σ2 } . El modelo puede ser completado con una distribución apriori P (θ) = N(µ, τ2), donde los hiperparámetros µ y τ2 son conocidos (constantes). En este caso la función de verosimilitud es: L(X|θ) = n∏ i=1 1√ 2πσ2 exp { −1 2 (Xi − θ)2 σ2 } ∝ exp { −n 2σ2 (X − θ)2 } , i i “tesisjonathan” — 2011/8/24 — 0:46 — page 39 — #51 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 39 donde X es la media aritmética de las Xi, con i = 1, 2, ..., n. Por lo tanto la densidad posterior es: P (θ|X) ∝ exp { −1 2 (X − θ)2 σ2/n } exp { −1 2 (θ − µ)2 τ2 } Lo que es equivalente a que: P (θ|X) ∝ exp { −1 2 [ (θ − µ1)2 τ21 + (X − µ)2 n−1σ2 + τ2 ]} , donde τ21 = nσ −2+τ−2 y µ1 = τ21 (nσ −2X+τ−2µ). El último paso se obtiene usando el hecho de que a1, a2, b1 y b2 son escalares tales que: (z − a1)2 b1 + (z − a2)2 b2 = (z − c)2 d + (a1 − a2)2 b1 + b2 , donde d−1 = b−11 + b −1 2 y c = d(b −1 1 a1 + b −1 2 a2) con z = θ, a1 = X, a2 = µ, b1 = σ2/n y b2 = τ2. Sustituyendo se tiene que, P(θ|X) ∝ exp { −1 2 (θ − (d(b −1 1 a1 + b −1 2 a2))) 2(b−11 + b −1 2 ) +(X−µ)2 σ2/n+τ2 } entonces, P(θ|X) ∝ exp { −1 2 (θ−µ1)2 τ21 } . En otras palabras, la distribución posterior de θ es P (θ|X) ∝ N(µ1, τ21 ). 2.3. Clase conjugada Definición 2.3.1 Sea X = {x1, ..., xN} una muestra aleatoria, θ ∈ Θ el parámetro del modelo que produjo X, L (θ|x) la función de verosimilitud y Fpriori una familia de distribuciones a priori. Se dice que Fpriori es una i i “tesisjonathan” — 2011/8/24 — 0:46 — page 40 — #52 i i i i i i 2. Introducción a la Estad́ıstica Bayesiana 40 familia conjugada para una función de verosimilitud si es tal que la dis- tribución a posteriori P (θ|X) α L (θ|x)Ppriori (θ) (2.11) pertenece a Fpriori para todo valor de X cuando Ppriori (θ) también pertenece a Fpriori. Observaciones: 1. En la elección de una priori perteneciente a una familia de distribu- ción espećıfica π(θ|η), es posible escoger un miembro de la familia el cual es conjugado a la probabilidad f(y|θ) que conduce a una distribu- ción posteriori P(θ|y) perteneciendo a la misma familia de distribución π(θ|η) como la a priori. 2. Para un modelo dado, distribuciones apriori y aposteriori forman parte de la misma clase de distribuciones, esto trae ventajas a los proced- imientos de inferencia resultante debido a la simplificación del análisis que se limita a un subconjunto de todas las distribuciones posibles. El paso de la a priori a la a posteriori sólo envuelve un cambio en los hiperparámetros con ningún cálculo adicional. La distribución de θ puede entonces ser rutinariamente actualizada y nuevas observa- ciones no causan ninguna complicación. Si el análisis conserva la a posteriori en la misma clase, las buenas propiedades de la distribu- ción serán preservadas y el análisis basado en la posteriori será fácil de resumir. Incluso con las ventajas de conjugación, el análisis con la apriori conjugada debe ser usada con cuidado. Los cálculos fáciles de esta especificación viene con un precio debido a las restricciones, que se deben imponer en la forma de la a priori. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 41 — #53 i i i i i i Caṕıtulo 3 Algoritmo de Metropolis-Hastings En la siguiente sección se dará primero una descripción del algoritmo Metropolis y cómo a partir de él se deriva el algoritmo Metropolis-Hastings. Estos algoritmos están en la clase de los conocidos métodos de Monte Carlo v́ıa cadenas de Markov. Estos métodos permiten generar, de manera iter- ativa, observaciones a partir de distribuciones donde métodos directos son dif́ıciles de utilizar. Los resultados aqúı mostrados fueron tomados de las fuentes Wilson (1993), Alfaro (1996), Gamerman (1997) y Reyes (2008). 3.1. Algoritmo Metropolis-Hastings En esta sección se presentará uno de los algoritmos más utilizados para muestrear valores de una distribución dada usando cadenas de Markov, este es el algoritmo de Metropolis-Hastings. Dicho método permite obtener una muestra a partir de una distribución π(·) sin tener que utilizar la expresión completa. Los métodos son útiles cuando se tiene dicha distribución de la siguiente forma: π(x) = 1 c h(x) donde c es la constante normalizante (dif́ıcil de obtenerse) y h(·) en una función fácil de calcular sus valores. El punto principal de los métodos que 41 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 42 — #54 i i i i i i 3. Algoritmo de Metropolis-Hastings 42 se presentarán es el hecho que en todos ellos se define una cadena de Markov X = {Xn : n = 0, 1, ...} cuya distribución estacionaria es π(·). El objetivo es generar sucesivamente valores para la cadena X. Si hacemos esto un número suficiente de veces, los valores de X que se tienen a partir de un cierto tiempo n∗ tendrán distribución π(·). 3.1.1. Descripción del algoritmo Metropolis El método Metropolis es nombrado aśı por ser propuesto por Metropolis et al. (1953), y forma parte de los métodos de Monte Carlo v́ıa cadenas de Markov. Algunos algoritmos genéricos como el Metropolis realizan una sim- ulación de casi cualquier densidad arbitraria g para generar posteriormente una densidad f igualmente arbitraria. Otro punto a tomar en cuenta de di- cho algoritmo y de algunos otros es la dependencia de g sobre la simulación del valor en la muestra, el escoger g no requiere elaborar una construcción particularmente a priori, pero puede tomar ventaja de las caracteŕısticas locales de la distribución estacionaria. Este método puede ser descrito como sigue: Sea π(∗) la distribución sobre un espacio muestral S de la cual se pre- tende tomar una muestra. El objetivo principal es producir una cadena de Markov ergódica X = {Xn : n = 0, 1, ...} con espacio de estados S y matriz de transición Q = (qx,y)x,y∈S y tal que π(∗) es su distribución estacionaria. El método Metropolis toma una segunda cadena de Markov Y = {Yn : n = 0, 1, ...} con espacio de estados S, con una matriz de tran- sición P = (px,y)x,y∈S simétrica (es decir, px,y = py,x) y procede de la siguiente forma: Suponiendo que la cadena está en el estado Xn = x y que se quiere generar el próximo valor Xn+1. Entonces se genera un candidato y para Xn+1 a partir de px,∗. Una vez obtenido el valor del candidato y la cadena i i “tesisjonathan” — 2011/8/24 — 0:46 — page 43 — #55 i i i i i i 3. Algoritmo de Metropolis-Hastings 43 X puede o no tomar este valor al tiempo n+1. El cambio a y será aceptado con probabilidad α(x, y) = min { 1, π(y) π(x) } . caso contrario el movimiento no es aceptado. Si el cambio es aceptado, entonces se hace Xn+1 = y. Caso contrario se hace Xn+1 = x. 3.1.2. Descripción del algoritmo Metropolis-Hastings Posteriormente Hastings (1971) propuso una modificación en el algorit- mo ya propuesto por Metropolis et al. (1953). La modificación consiste en lugar de tomar la matriz P simétrica, tomamos una matriz de transición cualquiera. De este modo es conveniente tomar P de tal forma que sea rela- tivamente fácil generar valores a partir de las probabilidades de transición. El procedimiento es el mismo que el realizado en el algoritmo de Metropo- lis, la única diferencia está en la forma de la probabilidad de aceptación del candidato y. Ahora bien la descripción del algoritmo Metropolis-Hastings es de la siguiente forma: Sea P = (Pi,j)i,j una matriz de probabilidades de transición sobre S, y tal que qi,j > 0 para todo i, j ∈ S de forma que sea fácil de simular valores con esta distribución. Con esta matriz se debe generar una cadena de Markov X = {Xn : n = 0, 1, 2, ...}, la cual se define de la misma forma que para el algoritmo Metropolis, pero ahora la probabilidad de aceptación está dada por: ρ (i, j) = min { π(j)Pji π(i)Pij , 1 } Considerando lo anterior, los pasos a realizar en el algoritmo en itera- ciones son los siguientes: i i “tesisjonathan” — 2011/8/24 — 0:46 — page 44 — #56 i i i i i i 3. Algoritmo de Metropolis-Hastings 44 1. Elegir una matriz de transición P = (Pij)i,j∈S a partir de la cual sea fácil simular valores. Sea Xn = k, k ∈ S. Al comenzar el algoritmo se tiene n = 0. 2. Generar una variable aleatoria Y tal que Pr (Y = ·|Xn = k) = qk,· donde k ∈ S y generar también una variable aleatoria U que se dis- tribuya de manera Uniforme sobre el intervalo (0, 1). 3. Suponga que Y = j donde j ∈ S. Si U = u < ρ (k, j) hacer Xn+1 = j. Si u ≥ ρ (k, j) hacer Xn+1 = k. 4. Volver al paso 2 donde ahora n = n+ 1. 3.1.3. Resultados preliminares Teorema 3.1.1 Suponga que la cadena está en el estado Xn = x y genere el próximo valor para Xn+1. De este modo se genera un candidato y para Xn+1 a partir de px,∗. Una vez obtenido el valor del candidato y la cadena X puede o no tomar este valor al tiempo n+1. El cambio a y será aceptado con probabilidad α(x, y) = min { 1, π(y) π(x) } . caso contrario el movimiento no es aceptado. Si el cambio es aceptado, entonces se hacemos Xn+1 = y. Caso contrario se hace Xn+1 = x. De este modo Q estádada por: qxy = pxyα(x, y), si, x 6= ypxx +∑y 6=x px,y(1− α(x, y)), si, x = y (3.1) . Demostración: i i “tesisjonathan” — 2011/8/24 — 0:46 — page 45 — #57 i i i i i i 3. Algoritmo de Metropolis-Hastings 45 Dado que el estado inicial Xn = x y lo que se busca es generar un valor y para Xn+1. Note que la cadena X puede o no tomar el valor de y para Xn+1, pero en caso de tomarlo se asume con probabilidad α(x, y), entonces se tienen dos casos para la formación de nuestra matriz Q = qxy con x, y ∈ S. 1. Se adopta Xn+1 = y. Para este caso la matriz Q = qxy con x, y ∈ S toma la forma P = pxy con x, y ∈ S con la probabilidad α(x, y). En- tonces dado que Xn = x se tiene que Xn+1 = y con x 6= y pxyα(x, y). 2. Se adoptaXn+1 = x, es decir el mismo valor. Dos casos pueden ocurrir: y = x y se acepta el cambio o y 6= x y no se acepta el cambio. Este último caso ocurre con probabilidad (1−α(x, y)). Entonces dado que Xn = x, se tiene Xn+1 con probabilidad pxxα(x, x) + ∑ y 6=x pxy(1− α(x, y)), Observación: La diferencia que existe entre el algoritmo Metropolis y el algoritmo Metropolis-Hastings, es que para el algoritmo Metropolis- Hastings en lugar de tomar una matriz P simétrica, se tiene una matriz de transición cualquiera. De este modo se pretende que sea conveniente tomar a P tal que sea relativamente fácil generar valores a partir de las probabilidades de transición. Teorema 3.1.2 Sea X = {Xn : n = 0, 1, 2, ...} la cadena de Markov con es- pacio de estados S generada por el algoritmo Metropolis-Hastings. Entonces, la matriz de transición de X es Q = (qi,j)i,j∈S donde qi,j = pijρ (i, j) si j 6= ipii +∑j 6=i pij (1− ρ (i, j)) si j = i i i “tesisjonathan” — 2011/8/24 — 0:46 — page 46 — #58 i i i i i i 3. Algoritmo de Metropolis-Hastings 46 (3.2) Demostración: Se debe notar que del algoritmo y de la ecuación (1.1) se tiene que para la variable aleatoria Xn+1 sea igual a j dado que Xn = i, la variable Y debió tomar el valor j (esto ocurrió con probabilidad pi,j) y la variable Xn+1 también debió tomar el valor j (esto con probabilidad ρ (i, j)). Dado que estos dos eventos son independientes, se multiplican sus probabilidades. Aśı Pr (Xn+1 = j|Xn = i) = pi,jρ (i, j) con j 6= i. Sin embargo, dado que Xn = i, Xn+1 pudo haber tomado el valor i de dos maneras distintas: que al simular la variable Y , ésta hubiera tomado el mismo valor de Xn (esto con probabilidad pi,i) yXn+1 hubiera tomado el mismo valor i (con probabilidad ρ (i, i) = 1) o que al simular la variable Y , esta hubiera tomado cualquier valor distinto a i, mismo que después fue rechazado por el algoritmo y entoncesXn+1 tomó el valor i (esto con probabilidad 1−ρ (i, j)). Finalmente, Pr (Xn+1 = i|Xn = i) = pi,i + ∑ j 6=i pi,j (1− ρ (i, j)) con j = i. Por tanto, la probabilidad de transición de la nueva cadena X es la expresión (3.2). Teorema 3.1.3 La cadena X resultante del algoritmo Metropolis-Hastings es ergódica. Demostración: Para que la nueva cadena X con espacio de estados finito S y matriz de transición Q = (Qi,j)i,j∈S sea ergódica deben cumplirse las siguientes condiciones: 1. Que X sea aperiódica, lo cual se cumple ya que qi,i = pi,i + ∑ j 6=i pi,j (1− ρ (i, j)) > 0 para toda i ∈ S porque qi,j > 0, i, j ∈ S es positiva. Esto implica que: d(i) = m.c.d. { n ≥ 1 : P (n)i,i > 0 } = 1 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 47 — #59 i i i i i i 3. Algoritmo de Metropolis-Hastings 47 para todo i ∈ S 2. QueX sea irreducible, se refiere a que todos sus estados se comuniquen entre śı; para que esto pase deben existir enteros n,m > 0 tal que q (n) i,j > 0 y q (m) j,i > 0 para toda i, j ∈ S y note que qi,j = pi,jρ (i, j) > 0 porque P es positiva y ρ (i, j) > 0, esto muestra que qi,j > 0 para todo i, j ∈ S y haciendo n = m = 1 se tiene la irreducibilidad. Teorema 3.1.4 La distribución estacionaria de X es el conjunto {π (i) : i = 1, 2, ...,m}. Demostración: Para probar que la nueva cadena X con matriz de transición Q = (qi,j)i,j∈S donde qi,j que se expresa como en (3.2) tiene como distribución estacionaria al conjunto {π (i) : i = 1, 2, ...,m}, primero se verificará que: π (i) qi,j = π (i) qj,i (3.3) para todo i, j ∈ S, i 6= j (ver la proposición (3.4.3)). Tome i, j ∈ S, i 6= j, entonces: π(i)qi,j = π(i)pi,jmin { π(j)pj,i π(i)pi,j , 1 } = min {π(j)pj,i, π(i)pi,j} = min { π(j)pj,i, π(i)pi,j π(j)pj,i π(j)pj,i } = π(j)pj,imin { π(i)pi,j π(j)pj,i , 1 } = π(j)qj,i. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 48 — #60 i i i i i i 3. Algoritmo de Metropolis-Hastings 48 Por lo tanto, la igualdad (3.2) se cumple. Entonces por la proposición (3.4.4) se tiene que el conjunto {π(i) = f(i) : i ∈ S} es la distribución esta- cionaria de la cadena X. Observaciones: 1. Uno de los principales problemas a ser resueltos es el saber por cuan- to tiempo se debe repetir el procedimiento del algoritmo Metropolis- Hastings para que los valores producidos sean muestreados a partir de π(∗). Existen métodos probabiĺısticos, algebraicos y hasta anaĺıticos para lograr estimar dicho tiempo, pero algunas veces, esto resulta más complicado de lo que pareciera. 2. Otro de los principales problemas es notar que X puede ser un vector de dimensión d, entonces en vez de hacer la actualización de todo el vector de una sola vez, se podŕıa dividir dicho vector en bloques, de dimensión no necesariamente iguales y entonces proceder a actualizar los bloques uno por uno. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 49 — #61 i i i i i i Caṕıtulo 4 Un algoritmo MCMC para estudiar casos de influenza en casa-habitación En este caṕıtulo se describirán el modelo y los resultados presentados en el American Journal Epidemiology “Time Lines of Infection and Disease in Human Influenza: A Review of Volunteer Challenge Studies” (Ĺıneas de tiempo de infección y decesos en influenza humana: una revisión de estu- dios de desaf́ıo de voluntario) desarrollado por Carrat, Vergu, Ferguson, Lemaitre entre otros y en el Wiley Interscience “A Bayesian MCMC ap- proach to study transmission of influenza: aplication to household longi- tudinal data” (Un enfoque Bayesiano MCMC para estudiar la transmisión de la influenza: aplicación a hogares en datos longitudinales) desarrollado por Cauchemez, Carrat, Voboud y otros más. En dichos art́ıculos se llevó a cabo un estudio con referencia a un total de 56 diferentes casas-habitación con 1,280 participantes sanos. En él se tiene que la propagación con mayor intensidad del virus de la influenza fue entre 0.5 y 1 d́ıa después del con- tagio del mismo y se alcanza su punto máximo al segundo d́ıa. También se tiene que el total de cifras de contagio de enfermos aumentó del d́ıa 1 hasta 49 i i “tesisjonathan” — 2011/8/24 — 0:46 — page 50 — #62 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 50 Cuadro 4.1: Duración promedio del virus, frecuencia y fiebre observada. alcanzar su máximo al d́ıa 3. Los śıntomas sistémicos alcanzaron su punto máximo al d́ıa 2. No existen datos acerca de niños y adultos mayores, pero los estudios epidemiológicos sugieren que la historia natural puede diferir. En el Cuadro 4.1 se tienen los datos relevantes observados en los 1280 participantes como lo son: la duración promedio del virus en todos ellos, la frecuencia de infección en todos los participantes y sobre todo para poder clasificar de acuerdo a los tipos de influenza (A/H1N1, A/H3N2, infecciónes B), la relación que existe con el porcentaje de aquellos que presentaron fiebre durante dicho periódo de infección. 4.1. Descripción de los tipos de influenza La descripción presentada aqúı se tomo de www.entornomedico.com, www.geosalud.com y la revista Infomed en su art́ıculo “Influenza A(H1N1)” publicado en el mes de octubre de 2009. Los virus de la influenza pertenece a i i “tesisjonathan” — 2011/8/24 — 0:46 — page 51 —#63 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 51 la familia Orthomyxoviridae. A su vez la influenza es clasificada en tres tipos generales: los virus de la influenza A, B y C. Dicha clasificación está basada en las propiedades antigénicas de sus nucleoprotéınas, por ejemplo: los virus de la gripe A y B se caracterizan por ser virus de simetŕıa helicoidal (80- 120nm de diámetro) con envoltura y poseer un ARN (ácido ribonucleico) monocatenario1 segmentado de polaridad negativa. Los virus de la gripe contienen ocho segmentos de ARN asociados a 4 protéınas: la nucleoprotéına (NP), la más abundante de ellas y responsable de la estructura helicoidal y las polimerasas2 PB1, PB2 y PA que constituyen el complejo enzimático viral encargado de la replicación y transcripción del ARN v́ırico durante el ciclo de replicación. Existen algunos tipos de infecciones presentes en ciertas variedades de animales, incluyendo puercos, caballos y otros. Sólo muy pocos subtipos de antigénicos del virus tipo A son conocidos que puedan infectar a los hu- manos. Pero por otro lado los virus tipo B y C son escencialmente virus dirgido a los humanos. Muchas de las epidemias y pandemias han sido cau- sadas por virus de influenza tipo A. 4.1.1. Influenza A Este género de influenza tiene como causante el virus del tipo A. Las aves acuáticas salvajes son los anfitriones naturales para una gran variedad de influenza A. En ocasiones, los virus son transmitidos a otras especies y puede 1El ARN monocatenario de un virus en el que tiene ARN de cadena sencilla de sen- tido positivo como material genético y no se replica usando ADN intermedio. Pueden clasificarse según el sentido o polaridad de su ARN en negativos y positivos. Para el caso de la influenza se trata de los virus ARN positivos y es idéntico al ARNm viral y por lo tanto pueden ser inmediatamente traducidos por la célula huesped 2Las polimerasas son enzimas que catalizan la duplicación del ADN o ARN a partir de una plantilla o molde. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 52 — #64 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 52 causar devastadores brotes en aves de corral o dar lugar a pandemias de gripe humana. Los virus de tipo A son los más virulentos con aspectos patógenos para los humanos entre los tres tipos de gripe y causan la enfermedad más grave. Los virus de la influenza A pueden subdividirse en serotipos diferentes sobre la base de la respuesta de anticuerpos a ellos. Los serotipos que se han confirmado en humanos, ordenados por el número de muertes conocidas en pandemia humana, son: H1N1, que causó la gripe española en 1918, (una variante como la pandemia de la gripe 2009) H2N2, que causó la gripe asiática en 1957 H3N2, que causó la gripe de Hong Kong en 1968 H5N1, una amenaza de pandemia actual H7N7, que tiene inusual potencial zoonótico (es decir, que tiene un mayor potencial infección de animales diversos hacia humanos) 4.1.2. Influenza B Este género tiene como causante el virus del tipo B. Dicho tipo de influen- za podŕıa decirse que exclusivamente infecta a seres humanos y es menos común que la influenza A. Se tiene el conocimiento que existen animales susceptibles a la infección de gripe B, éstos son el caballo y el hurón. Este tipo de gripe muta entre 2 y 3 veces menos que las de tipo A y C, por consiguiente tiene menos diversidad genética, con un sólo serotipo B de la gripe, es decir, un tipo de microorganismo infeccioso clasificado según los ant́ıgenos que presentan en su superficie celular. Como resultado de esta falta de diversidad antigénica, un cierto grado de inmunidad a la influenza B generalmente se adquiere a una edad temprana. Sin embargo, la gripe B i i “tesisjonathan” — 2011/8/24 — 0:46 — page 53 — #65 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 53 muta suficientemente rápido para que la inmunidad duradera no sea posi- ble. Esta reducción del tipo de cambio antigénico, combinado con su gama de hospedadores limitada asegura que las pandemias de influenza B no se produzcan. 4.1.3. Influenza C Este género es causada por el virus del tipo C, que infecta a los seres humanos, perros y cerdos, a veces causando tanto una enfermedad grave como las epidemias locales. Sin embargo, la gripe C es menos común que la influenza tipo A y B, y por lo general sólo causa una enfermedad leve en los niños. 4.2. Signos y śıntomas. Los śıntomas de la influenza puede empezar de repente uno o dos d́ıas de- spués de la infección. Los primeros śıntomas son escalofŕıos o una sensación de fŕıo, pero la fiebre es también común a principios de la infección, con la temperatura del cuerpo variando entre 38-39C. Muchas personas están tan enfermas que se limitan a la cama durante varios d́ıas, con dolores y molestias por todo el cuerpo. Estos dolores son peores en la espalda y las piernas. Los śıntomas de la influenza pueden incluir: dolores en el cuerpo (articulaciones) y garganta, fiebre, dolor de cabeza, ojos llorosos y en los niños hay śıntomas gastrointestinales como diarrea y dolor abdominal. Puede ser dif́ıcil distinguir entre el resfriado común y la influenza en las primeras etapas de estas infecciones, pero la influenza puede ser identificada por una fiebre alta, con un inicio súbito y la fatiga extrema. La diarrea no suele ser un śıntoma de la gripe en adultos, aunque se ha visto en algunos casos humanos de la gripe A/H5N1 y puede ser un śıntoma en los niños. i i “tesisjonathan” — 2011/8/24 — 0:46 — page 54 — #66 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 54 4.3. Transmisión Las personas que contraen la influenza son más propensos a infectar en- tre el segundo y tercer d́ıa después de haber adquirido la infección. Dicho peŕıodo de infección dura unos diez d́ıas. Los niños son mucho más infec- ciosos que los adultos y transmiten el virus desde justo antes de desarrollar śıntomas hasta dos semanas después de la infección. La transmisión de la in- fluenza puede ser modelada matemáticamente. Esto ayuda a predecir cómo el virus puede extenderse en una población. La influenza puede ser adquirida de tres principales maneras: por trans- misión directa cuando una persona infectada estornuda mucosidad en los ojos, naŕız o de la boca de otra persona, a través de la inhalación del aire cuando las personas infectadas tose, estornuda y escupe. También se puede adquirir y por medio de la mano, transmisión de boca de cualquiera de las superficies contaminadas o por contacto personal directo, como un apretón de manos. La importancia relativa de estos tres modos de transmisión no está claro, y todos ellos pueden contribuir a la propagación del virus. En la v́ıa aérea, las gotas que son lo suficientemente pequeños para que las per- sonas inhalan son 0.5 a 5 micras de diámetro y la inhalación de una sola gota puede ser suficiente para causar una infección. Aunque el estornudo de una sola vez arroja hasta 40.000 gotitas, la mayor parte de estas gotas son muy grandes y muy pronto se asientan fuera del aire. 4.4. Influenza como pandemia. La pandemia de la influenza humana ha crecido dramaticamente en los más recientes años, y muchos páıses han desarrollado estratégias para pre- vención y combate de la misma llevándolas a cabo según las medidas anun- i i “tesisjonathan” — 2011/8/24 — 0:46 — page 55 — #67 i i i i i i 4. Un algoritmo MCMC para estudiar casos de influenza en casa-habitación 55 ciadas por la Organización Mundial de la Salud. Las medidas consider- adas para tratar de evitar la propagación del virus de la influenza entre la población son principalmente basadas en tratamiento o profilaxas con med- icaciones antivirales, aislamiento, cuarentena, o algún otro tipo
Compartir