Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CIENCIAS Modelación Espacial de Aparición de Especies T E S I S QUE PARA OBTENER EL TÍTULO DE: Actuario P R E S E N T A : Adrián Maldonado Hernández DIRECTOR DE TESIS: Dra. Ana Meda Guardiola CIUDAD DE MÉXICO, 2019 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Datos del Jurado 1. Datos del alumno Maldonado Hernández Adrián 5551062535 Universidad Nacional Autónoma de México Facultad de Ciencias Actuaría 2. Datos del tutor Dra. Meda Guardiola Ana 3. Datos del sinodal 1 Dr. Jegousse Arnaud Charles Leo 4. Datos del sinodal 2 M. en C. Barrios Vargas Juan Martín 5. Datos del sinodal 3 M. en C. Gil Leyva Villa María Fernanda 6. Datos del sinodal 4 Fís. Hernández Morales Jimmy 7. Datos del trabajo escrito Modelación Espacial de Aparición de Especies 66 p. 2019 Agradecimientos Quiero agredecer a todas las personas que han estado conmigo duran- te esta etapa de mi vida, comenzando por supuesto con mis amigos y mi familia ya que sin ellos completar mis metas hubiera sido much́ısimo más dif́ıcil. Agradezco también a los profesores que tuve a lo largo de la carrera pues, aunque en un principio no lo supiera apreciar, siempre se aprende algo nuevo. En especial quisiera agradecer a la profesora Ana por su apo- yo, tiempo y paciencia durante el tiempo que se llevó a cabo este trabajo, sobre todo porque en los primeros semestres despertó en mi un interés por la probabilidad sin el que no hubiera podido concluir la carrera; agradezco también al profesor Andrés de mi prepa pues despertó en mi un genuino interés en las matemáticas, de no haberlo conocido probablemente no es- taŕıa aqúı. Finalmente agradezco al proyecto PAPIME PE102618 pues fue un gran apoyo para poder concluir este proyecto. 3 4 Resumen Desde hace algunos años cada vez es más frecuente el uso de modelos matemáticos para intentar representar y/o modelar distintos fenómenos biológicos, en este trabajo es de nuestro interés intentar modelar la apari- ción de especies en una región determinada cuando contamos con informa- ción geográfica y/o ambiental sobre los lugares donde estas se encuentran. Al ser un primer acercamiento, únicamente es de nuestro interés saber si una especie estuvo o no en un punto determinado, sin importar el número de individuos[9]. En el primer caṕıtulo de la tesis se aborda la teoŕıa sobre el proceso Poisson espacial no-homogéneo pues, como se muestra en el caṕıtulo, cuan- do queremos contar realizaciones de un proceso estocástico en un conjunto es muy útil. En el segundo caṕıtulo abordamos el problema desde la teoŕıa de la información [17], intentando buscar una distribución de probabilidad que sea la que mejor representa al fenómeno intentando que esta sea lo más parecida que se pueda a una distribución uniforme. Finalmente en el tercer caṕıtulo se muestra como los resultados de los caṕıtulos anteriores se adecúan al problema de la modelación de aparición de especies y se muestra una situación en la que son equivalentes y las ventajas de usar uno sobre el otro. 5 6 Índice general 1. Proceso Poisson Espacial 1 1.1. Medidas Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 2 1.1.1. Proceso Poisson . . . . . . . . . . . . . . . . . . . . . 4 1.2. Medidas Momento . . . . . . . . . . . . . . . . . . . . . . . 12 1.3. Proceso Poisson No Homogéneo . . . . . . . . . . . . . . . . 16 2. Entroṕıa 19 2.1. Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . 20 2.2. Entroṕıa Diferencial . . . . . . . . . . . . . . . . . . . . . . 29 2.3. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 32 2.4. Entroṕıa Relativa y Verosimilitud . . . . . . . . . . . . . . . 38 3. Aplicación 41 3.1. Modelo Poisson No-Homogéneo . . . . . . . . . . . . . . . . 43 3.1.1. Verosimilitud del Proceso Poisson . . . . . . . . . . 44 3.2. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 46 A. Resultados de Análisis 53 A.1. Teorema de Lebesgue-Radón-Nikodym . . . . . . . . . . . . 53 B. Resultados Adicionales 61 B.1. Resultados Caṕıtulo 1 . . . . . . . . . . . . . . . . . . . . . 63 B.2. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 64 Bibliograf́ıa 67 7 8 ÍNDICE GENERAL Caṕıtulo 1 Proceso Poisson Espacial En este caṕıtulo se presentan resultados que sirven para entender por qué puede ser conveniente usar un Proceso Poisson Espacial para modelar el fenómeno que nos interesa, que es el de aparición de especies cuando se tienen únicamente datos de avistamiento en diferentes localidades dentro de una zona determinada. El problema aparece en un art́ıculo de W. Fithian y T. Hastie [9]. Se presentan demostraciones sobre la teoŕıa de procesos pun- tuales espaciales usando como referencias principales libros sobre procesos puntuales y estad́ıstica espacial [7], [5] además de resultados importantes de análisis [10]. La teoŕıa sobre procesos puntuales es extremadamente amplia y puede llegar a ser complicada ya que se pueden obtener muchas generalizaciones usando resultados fuertes de análisis, sin embargo, para nuestros fines esto no será necesario pues nos centraremos únicamente en el proceso Poisson espacial, pues es el que usaré. De ahora en adelante cuando hablemos de un espacio, se estará conside- rando Rd con d > 1 pues nos interesa el caso espacial, X será la σ-álgebra de Borel y trabajamos siempre dentro de subconjuntos compactos X ⊂ Rd con ν la medida de Lebesgue. Primero se hablará un poco sobre procesos puntuales en general para después enfocarnos únicamente en el Poisson y las maneras de caracteri- zarlo. Como primer acercamiento, podemos decir que un proceso puntual es un modelo estocástico sobre la localización de eventos en un subconjunto 1 2 CAPÍTULO 1. PROCESO POISSON ESPACIAL compacto del espacio si ∈ X con i = 1, ..., k, también podemos decir que {si}ki=1 es una realización de un proceso estocástico en el espacio. Podemos también tener procesos puntuales marcados, en cuyo caso para s ∈ Rd existe una cantidad asociada y ∈ Y , de tal forma que se forma la pareja (s, y) ∈ A = Rd × Y ; es bastante común encontrar procesos espaciales marcados donde y representa el tiempo. Una manera natural de definir a las realizaciones de un proceso puntual espacial podŕıa ser mediante sus localizaciones, sin embargo, también se puede usar una medida de conteo sobre los eventos de interés en X. De esta forma se puede llegar a dos caracterizaciones equivalentes de un proceso puntual espacial, la primera mediante el uso de medidas aleatorias como se muestra a continuación y otra mediante la localización de los eventos de interés, como se puede ver en [5]. 1.1. Medidas Aleatorias Definición 1.1.1. Decimos que µ es una medida localmente finita si para cada punto x ∈ X existe una vecindadV (x) medible tal que µ(V (x)) es finita. Definición 1.1.2. Sea (X,F ) un espacio medible. Entonces una medida de conteo N sobre X es una medida que tiene las siguientes propiedades: 1. N(A) toma valores en los enteros no negativos para cualquier con- junto A medible. 2. N es una medida localmente finita. Las medidas de conteo se pueden escribir de la forma: N(A) = n∑ i=1 kiIxi , (1.1) para una colección numerable de enteros positivos ki y puntos xi ∈ X. Si ki = 1 para toda i decimos que la medida de conteo es simple. Entonces, si conocemos N(B) para cada B ∈X , y N(B) es una medida de conteo simple podŕıamos conocer las localizaciones de los eventos. 1.1. MEDIDAS ALEATORIAS 3 Definición 1.1.3. Sea (X,F ) un espacio medible y (Ω,F ,P) un espacio de probabilidad. Una medida aleatoria es una función µ : Ω × B → R tal que para cada ω ∈ Ω, µ(ω, ·) es una medida sobre (X,B) y para cada A ∈ B, µ(·, A) es una variable aleatoria. Al igual que en probabilildad, en la notación generalmente se omite ω, aśı que la medida aleatoria del conjunto A se escribe como la variable aleatoria µ(A). Definición 1.1.4. Un proceso puntual espacial es una medida de conteo aleatoria. Definición 1.1.5. Decimos que un proceso puntual espacial N es simple si la medida de conteo es simple. En esta ocasión consideraremos únicamente procesos simples, pues úni- camente nos interesa la presencia o ausencia de una especie en un punto determinado sin importar el número de individuos y esto se puede modelar en cada punto como una variable aleatoria Bernoulli. A continuación se introducen algunas definiciones que ayudarán a ca- racterizar un proceso puntual. Definición 1.1.6. Medida Atómica. Sea (X,F , µ) un espacio de medida. Decimos que A ⊂ X es un átomo de µ si se cumple que µ(A) > 0 y para todo B ⊂ A,B medible, µ(B) < µ(A) implica que µ(B) = 0. Decimos que una medida es atómica si la medida tiene átomos. Un ejemplo de una medida atómica es la de Dirac, mientras que uno de una medida no atómica es la de Lebesgue. Para los fines de este trabajo el uso de medidas no atómicas es necesario. Definición 1.1.7. Medida de Radón. Sea (X,B, µ) un espacio de medida. Se dice que una medida µ es de Radón si para todo B boreliano se tienen las siguientes propiedades: µ(B) = sup A {µ(A)|A es compacto y A ⊂ B}, µ(B) = ı́nf C {µ(C)|C es abierto y B ⊂ C}, µ es localmente finita, es decir como en la definición (1.1.1). 4 CAPÍTULO 1. PROCESO POISSON ESPACIAL 1.1.1. Proceso Poisson Definición 1.1.8. Sea S = Rd, X la σ-álgebra de Borel con d > 1 y Λ una medida localmente finita, no atómica sobre S. Un proceso Poisson con intensidad Λ es un proceso puntual sobre S tal que: 1. Para cada conjunto compacto B ∈ X , N(B) se distribuye Poisson con media Λ(B) 2. Si B1, ..., Bm son conjuntos disjuntos, entonces N(B1), ..., N(Bm) son independientes. Con el siguiente teorema se puede encontrar una caracterización para el proceso Poisson que resulta bastante útil. Teorema 1.1.9. Rényi. Sea µ una medida de Radón no-atómica sobre Rd. Supongamos que N es un proceso simple de tal forma que para cada A que se puede escribir como unión finita de rectángulos, se tiene: P[N(A) = 0] = e−µ(A), (1.2) entonces N es un proceso Poisson de media µ(A). La demostración del teorema de Rényi será de la siguiente forma; pri- mero trabajaremos con rectángulos pues conocemos la distribución dentro de ellos, de esta forma se podrá encontrar la distribución para el proceso N sobre el conjunto A con las caracteŕısticas que menciona el teorema y después se usa el teorema de Kurtz para probar la existencia. Antes de comenzar la demostración, enunciaremos algunas definiciones y resultados. Definición 1.1.10. Sea µ una medida de Radón no-atómica. Sean n ∈ N, kn ∈ N. Decimos que una sucesión de particiones finitas {Tn}, donde Tn = {Ani ; i = 1, ..., kn}, sobre un conjunto A es un sistema de disección si cumple que: 1. Ani ∩ Anj = ∅ si i 6= j y kn⋃ i=1 Ani = A, para toda n ∈ N (es decir, Tn es partición). 1.1. MEDIDAS ALEATORIAS 5 2. A(n−1)i ∩ Anj = ∅ ó Anj para cualesquiera i = 1, ..., k(n−1); j = 1, ..., kn. Es decir, particiones sucesivas son refinamientos de las an- teriores. 3. Separación de puntos; sean x, y ∈ A, entonces existen n ∈ N e i ∈ {1, ..., kn} tales que x ∈ Ani y y 6∈ Ani . Gracias a las propiedades de un sistema de disección podemos sacar algunas conclusiones interesantes que ayudarán a la demostración del teo- rema (1.1.9). Notemos que podemos crear sucesiones con elementos de las particiones “centrados” alrededor de un punto x de tal forma que ∞⋂ n=1 An(x) = {x} gracias a las propiedades dos y tres; esto además im- plica que, para estas sucesiones µ(An(x)) tiende a µ(x) cuando n tiende a infinito pues µ es una medida finita sobre conjuntos acotados, de esta manera podemos usar el teorema de continuidad de las medidas. En lo que sigue, An(x) ∈ Tn denota al conjunto en Tn tal que x ∈ An. Adicional- mente, como consideramos una medida de Radón no-atómica, tenemos que µ(An(x)) tiende a cero cuando n tiende a infinito. Definición 1.1.11. Un anillo R sobre un conjunto X es una familia no vaćıa de subconjuntos de X tales que: 1. Si A, B ∈ R, entonces A ∪B ∈ R. 2. Si A, B ∈ R, entonces A \B ∈ R. Definición 1.1.12. Sea (X, X ), donde X es la σ-álgebra de Borel de X. Llamamos a fN (A) la función de anulación de un proceso N si: fN (A) = P[N(A) = 0], A ⊂X . A continuación definimos al operador ∆ de la siguiente forma: ∆(A)Φ(B) = Φ(B)− Φ(A ∪B), ∆(A1, ..., Ak)Φ(B) = ∆(Ak)[∆(A1, ..., A(k−1))Φ(B)], k=1,2,... donde Φ(·) es una función conjuntista definida sobre un anillo de conjuntos. 6 CAPÍTULO 1. PROCESO POISSON ESPACIAL Definición 1.1.13. Decimos que una función Φ, definida sobre un ani- llo de conjuntos es completamente monótona si para cada sucesión de elementos,{An}n∈N , del anillo se tiene que: ∆(A1, ..., Ak)Φ(B) ≥ 0. Lema 1.1.14. Sea P0(B) = P[N(B) = 0], entonces para cada k ∈ N y A1, A2, ..., B borelianos, tenemos que ∆(A1, ..., Ak)P0(B) = P[N(Ai) > 0 (i = 1, ..., k), N(B) = 0]. Demostración. La demostración del lema se hace por inducción, entonces para k = 1 P[N(A1) > 0, N(B) = 0] = P0(B)− P0(A1 ∪B) = ∆(A1)P0(B). Suponemos que la hipótesis es válida para k = n, además tenemos que ∆(A1, ..., An)P0(B) = P0(B)− n∑ i=1 P0(B ∪Ai) + ∑ i6=j P0(B ∪Ai ∪Aj) + ...+ (−1)nP0( n⋃ i=1 Ai ∪B), (1.3) y además es igual a P[N(Ai) > 0(i = 1, ..., n), N(B) = 0]. Entonces para k = n+ 1 tenemos que ∆(A1, ..., A(n+1))P0(B) = ∆(A(n+1))[∆(A1, ..., A(n))P0(B)], al aplicar ∆(A(n+1)) a la ecuación anterior, se obtiene que ∆(A1, ..., A(n+1))P0(B) = P0(B)− n+1∑ i=1 P0(B ∪Ai) + ∑ i6=j P0(B ∪Ai ∪Aj) + ... + (−1)n+1P0( n+1⋃ i=1 Ai ∪B). 1.1. MEDIDAS ALEATORIAS 7 Definición 1.1.15. Decimos que un espacio métrico es separable si con- tiene a un subconjunto denso y numerable. Definición 1.1.16. Decimos que un conjunto es conexo si este no puede ser escrito como unión disjunta de dos o más subconjuntos abiertos no vaćıos. Teorema 1.1.17. Kurtz.[8] Sea ψ una función sobre conjuntos definida sobre los elementos de un anillo generado por un sistema de disección R sobre un espacio métrico separable X. Para que exista un proceso puntual N en X con función de anulación ψ, es necesario y suficiente que: 1. ψ sea completamente monótona, 2. ψ(∅) = 1, 3. ψ(An)→ 1 para cualquier sucesión de conjuntos acotados {An} en el anillo R para la cual An → ∅ cuando n→∞, 4. Para cada A ∈ R tal que A es acotado: ĺım r→∞ P[N(A) ≤ r] = 1. (1.4) Esta última propiedad se traduce en que el proceso debe ser localmente finito. La demostración del teorema de Kurtz se encuentra en [8]p.36-37 y se comenta en el apéndice. Ahora podemos comenzar con la demostración del teorema (1.1.9). Demostración. (Teorema de Rényi.) Sea A un boreliano que es unión finita de rectángulos, y sea T = {Tn} un sistema de disección sobre rectángulos borelianos donde, recordemos,Tn = {Ani} es una partición finita (i.e. i = 1, 2, ..., kn para cada n) y Ani es un rectángulo. Entonces, estos rectángulos cumplen, como consecuencia de las propiedades de un sistema de disección (1.1.10), lo siguiente: Ani = ⋃ A(n+1)jpara algunos j, donde A(n+1)j ∈ T(n+1). (1.5) 8 CAPÍTULO 1. PROCESO POISSON ESPACIAL Sea µ una medida de Radón no-atómica y T un sistema de disección. Recordemos que, gracias a las propiedades dos y tres del sistema de disec- ción (1.1.10) y que la medida es no-atómica, µ(An(x)) tiende a cero cuando n tiende a infinito. YA ver que los conjuntos An(x) forman una sucesión decreciente para cada x. Como N es un proceso simple (1.1.5), que a su vez se encuentra dado por una medida de conteo (1.1.2), definimos: Ini = { 1 si N(Ani) > 0, 0 si N(Ani) = 0. (1.6) Es decir, una función indicadora sobre el conjunto Ani que nos dice si hubo alguna realización del evento de interés en este conjunto. Podemos notar que las indicadoras son variables aleatorias independientes (como ve- remos en la ecuación (1.8)). Definimos la suma de las funciones indicadoras de la siguiente forma: Nn(A) = kn∑ i=1 Ini , (1.7) en este caso nos interesa obtener la probabilidad de que no haya realiza- ciones en el conjunto Ani : P[Ini = 0 ∀ i ∈ {1, ..., kn}] = P[N(Ani) = 0 ∀ i ∈ {1, ..., kn}] = P[N( ⋃ i Ani) = 0] (1.8) = exp{−µ( ⋃ i Ani)} (1.9) = exp{− ∑ i µ(Ani)} (1.10) = ∏ i e−µ(Ani ), (1.11) donde la igualdad de (1.8) con (1.9) se da por hipótesis del teorema ya que estamos trabajando con rectángulos y (1.10) es porque los conjuntos son disjuntos. Ahora, podemos obtener la función generadora de probabilidad (f.g.p.) de las funciones indicadoras definidas en (1.6) usando el producto (1.11). 1.1. MEDIDAS ALEATORIAS 9 La f.g.p. para cada función indicadora queda de la siguente forma: E[zIni ] = ∑ x∈{0,1} p(x)zx = P[N(Ani) > 0]z 1 + P[N(Ani) = 0]z 0 = (1− e−µ(Ani ))z + e−µ(Ani ) = z + (1− z)e−µ(Ani ). (1.12) Ahora, podemos sacar la f.g.p. de Nn(A) = kn∑ i=1 Ini , pues nos interesa el conjunto A completo. E[zNn(A)] = E[z ∑kn i=1 Ini ] = kn∏ i=1 E[zIni ] = kn∏ i=1 [z + (1− z)e−µ(Ani )], (1.13) usando la independencia de las indicadoras {Ini}. En este caso nos interesa saber qué sucede con el producto (1.13) cuando 0 ≤ z < 1 y n tiende a infinito. Recordamos primero que µ es de Radón no-atómica; consideremos xi ∈ A para i en los naturales y Ani = An(xi) tal que {xi} = ∞⋂ n=1 Ani . Entonces, para las sucesiones de conjuntos escogidas anteriormente µ(Ani) tiende a 0 cuando n tiende a infinito. 10 CAPÍTULO 1. PROCESO POISSON ESPACIAL Cada factor del producto (1.13) converge a e−(1−z)µ(Ani ) (ver B.1) y al realizarlo obtenemos: E[zNnA] = ∏ i [1− (1− z)(1− e−µ(Ani ))] = exp{−(1− z) ∑ i µ(Ani)} = exp{−(1− z)µ( ⋃ i Ani)} = exp{−(1− z)µ(A)}, (1.14) cuando n tiende a infinito. Dado que N es un proceso simple y la medida de conteo es finita sobre conjuntos acotados, existe n0 tal que si n ≥ n0, los puntos donde hay realizaciones se encuentran en diferentes conjuntos Ani , entonces a partir de n0,Nn(A) = N(A). Además notamos que las variables aleatoriasNn(A) son monótonas crecientes para n, teniendo como ĺımite N(A) casi seguramente, aśı que la f.g.p de N(A) es exp{−(1− z)µ(A)}. Recordando el Teorema de Unicidad (en el apéndice B.0.1) para las funciones generadoras de momentos, que se puede traducir en la unicidad de funciones generadoras de probabilidad en el caso discreto, y observando que la f.g.p de una variable aleatoria Poisson(λ) es exp{(1−z)λ}, podemos concluir que N(A) es una variable aleatoria Poisson de parámetro µ(A). Una vez que sabemos qué sucede cuando trabajamos con rectángulos, nos interesa analizar lo que sucede para borelianos en general, para esto usaremos el teorema de Kurtz (1.1.17). La idea del teorema de Kurtz es ver que ciertas caracteŕısticas se cumplan sobre una familia rica de conjuntos y con esto ver que existe el proceso con la función de anulación descrita. Rápidamente recordamos que para cada rectángulo del sistema de di- sección que usamos al cominezo de la demostración, obtuvimos que: P[N(Ani) = 0] = e −µ(Ani ). Recordamos también que si X es un subconjunto conexo de Rd entonces es también un espacio métrico separable con la métrica de Rd pues este último lo es. 1.1. MEDIDAS ALEATORIAS 11 Primero observamos que podemos formar un anillo con los rectángulos Ani del sistema de disección, ya que por las caracteŕısticas del sistema si tenemos dos conjuntos Ani y Amj con m > n hay dos opciones: Ani ⊃ Amj o que sean disjuntos. 1. Si Amj ⊂ Ani entonces Ani ∪Amj = Ani y tenemos: P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0] = eµ(Ani ) 2. Si los conjuntos son disjuntos, entonces: P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0, N(Amj ) = 0] = P[N(Ani) = 0]P[N(Amj ) = 0] = e−µ(Ani )e−µ(Amj ) = e−µ(Ani∪Amj ) En el caso de la resta de conjuntos: 1. Si Amj ⊂ Ani , por (1.5) podemos escribir a Amj y a Ani como uniones de rectángulos de manera que Amj = ⋃ α Am+1α para algunos α en el conjunto de ı́ndices {1, 2, ..., km+1} y Ani = ⋃ α Am+1α ∪ ⋃ β Am+1β para algunos β en el mismo conjunto de ı́ndices y Am+1α∩Am+1β = ∅ para cualesquiera α, β, entonces: P[N(Ani \Amj ) = 0] = P[N( ⋃ β Am+1β ) = 0] = e −µ( ⋃ β Am+1β ) = e−(µ(Ani\Amj )), 2. Si los conjuntos son disjuntos entonces Ani \Amj = Ani y entonces: P[N(Ani \Amj ) = 0] = P[N(Ani) = 0] = e−µ(Ani ) 12 CAPÍTULO 1. PROCESO POISSON ESPACIAL Entonces podemos formar un anillo R con los rectángulos del sistema de disección, con la misma función de anulación (1.1.12) como la enunciada en el teorema de Rényi (1.2), de ahora en adelante la llamaremos f0. Podemos ver que f0 es completamente monótona con el lema (1.1.14). Además como µ es una medida, tenemos que: f0(∅) = e−µ(∅) = 1 Para ver que se cumple la tercera propiedad del teorema (1.1.17), recor- damos primero que cada Ani es acotado desde el sistema de disección pues el conjunto A sobre el que lo realizamos es acotado, aśı que cada sucesión {An} es acotada. Ahora si tenemos una sucesión tal que An → ∅ cuando n → ∞, como µ es una medida de Radón y por la propiedad dos de la definición de un sistema de disección (1.1.10): ĺım n→∞ e−µ(An) = 1 Finalmente la cuarta propiedad, proceso localmente finito, en nuestro caso viene desde el teorema de Rényi, pues pedimos que el proceso sea simple y anteriormente hab́ıamos pedido que para este tipo de procesos la medida de conteo deb́ıa ser localmente finita. Entonces, gracias al teorema de Kurtz, existe un proceso que tiene como función de anulación a f0, que como se vio anteriormente (1.14), induce como función generadora de probabilidad a : E[zN(A)] = e−(1−z)µ(A), (1.15) que resulta ser la de una variable aleatoria Poisson. Por lo tanto N es un proceso Poisson sobre A con media µ(A). 1.2. Medidas Momento Los momentos de los procesos puntuales son similares a los de las va- riables aleatorias que ya conocemos y se pueden relacionar con ellas, sin embargo, aunque hay ciertos aspectos en común, la definición se complica -como era de esperarse-, pues ahora la interpretación será la de una medida aleatoria sobre un espacio producto. 1.2. MEDIDAS MOMENTO 13 Definición 1.2.1. Sea n ∈ N, la n-ésima potencia de un proceso puntual N se define como: N(B1 × ...×Bn) = n∏ i=1 N(Bi), (1.16) donde B1, ..., Bn son borelianos en Rd, no necesariamente disjuntos, que for- man un producto cartesiano entre n borelianos. Cabe remarcar que N(Bi) es aleatorio, pues como se hab́ıa mencionado en el caṕıtulo N es una medida de conteo aleatoria (1.1.4). De forma alternativa, podemos ver la n-ésima potencia como: N(B1 × ...×Bn) = ∑ (x1,...,xn)∈N n∏ i=1 IBi(xi). (1.17) Aunque las ecuaciones anteriores son equivalentes para de definir la n- ésima potencia de un proceso puntual, cada una tiene ventajas en cuanto a su uso. Mientras que la ecuación (1.16) da una idea mucho más sencilla de la forma en que debe calcularse yserá muy útil al sacar esperanzas, la manera alternativa (1.17) da una idea más clara sobre la situación en la que nos encontramos y algunos problemas que podŕıa acarrear como se verá más adelante. Una interpretación de (1.17) es que vamos a sumar, sobre todos los pun- tos que pertenezcan al proceso N , los productos de las indicadoras sobre cada uno de los borelianos que forman al producto cartesiano; (x1, ..., xn) son n-tuplas de puntos que pertenecen al proceso. De esta forma pode- mos ver que calcular las esperanzas puede llegar a complicarse debido a las repeticiones de los puntos pues los borelianos no necesariamente son disjuntos. Los momentos de un proceso puntual se pueden ver como medidas, recordemos que en nuestro caso, trabajamos en Rd con la σ-álgebra de Borel y en espacios producto dependiendo del momento que se desee obtener. Definición 1.2.2. La medida del n-ésimo momento de un proceso puntual la definimos como la esperanza de la n−ésima potencia de un proceso puntual: µ (n) N (B1 × ...×Bn) = E[N(B1 × ...×Bn)]. (1.18) 14 CAPÍTULO 1. PROCESO POISSON ESPACIAL Usando (1.16) tenemos que: µ (n) N (B1 × ...×Bn) = E[N(B1)...N(Bn)]. (1.19) Interpretando los momentos como medidas sobre espacios producto nos referiremos a µ (n) N (B) como la medida del n-ésimo momento, donde B = B1 × ...×Bn es un conjunto medible en un espacio producto. Particularmente, si B1 = ... = Bn al calcular la medida del n-ésimo momento, obtenemos tal cual el n-ésimo momento de una variable aleatoria: µ (n) N (B n 1 ) = E[N(B1)n]. Al igual que con variables aleatorias, son de especial interés los prime- ros dos momentos ya que podemos obtener información muy importante sobre el proceso; como trabajamos con un proceso Poisson los primeros dos momentos son conocidos para nosotros: µ(1)(B) = E[N(B)] = Λ(B), (1.20) µ(2)(B ×B) = E[N(B)2] = Λ(B)2 + Λ(B), (1.21) donde la medida del primer momento es la intensidad del proceso y la medida del segundo momento se obtiene a partir de la varianza pues por ser Poisson la conocemos y se obtiene de la misma forma que la de una variable aleatoria: V ar(N(B)) = µ(2)(B ×B)− µ(1)(B)2. (1.22) De forma similar podŕıamos obtener la covarianza: Cov(N(B1)N(B2)) = µ (2)(B1 ×B2)− µ(1)(B1)µ(1)(B2), (1.23) sin embargo la medida del segundo momento que aqúı aparece puede ser dif́ıcil de calcular si los conjuntos B1 y B2 no son disjuntos. Para facilitar el cálculo podemos reescribirlos como uniones disjuntas: B1 = B1 ∩B2 ∪B1 \B2, 1.2. MEDIDAS MOMENTO 15 B2 = B1 ∩B2 ∪B2 \B1, de esta forma, recordando que N es una medida de conteo (ver 1.1.4), podemos obtener el siguiente resultado: µ(2)(B1 ×B2) = E[N(B1)N(B2)] = E[N((B1 ∩B2) ∪B1 \B2)N((B1 ∩B2) ∪B2 \B1)] = E[N(B1 \B2)]E[N(B2 \B1)] + E[N(B1 ∩B2)2] (1.24) + E[N(B2 \B1)]E[N(B1 ∩B2)] + E[N(B1 \B2)]E[N(B1 ∩B2)] = µ(2)((B1 ∩B2)2) + µ(1)(B1 \B2)µ(1)(B2 \B1) (1.25) + µ(1)(B1 \B2)µ(1)(B1 ∩B2) + µ(1)(B2 \B1)µ(1)(B1 ∩B2) = µ(2)((B1 ∩B2)2) + µ(1)(B1)µ(1)(B2)− µ(1)(B1 ∩B2)2 (1.26) = µ(1)(B1)µ (1)(B2) + V ar(N(B1 ∩B2)). (1.27) Donde (1.24) sucede gracias a que N es una medida y los conjuntos los pudimos escribir como uniones disjuntas, (1.25) es únicamente reescribir a las esperanzas anteriores como medidas momento; (1.26) se obtiene al recordar que µ(A \ B) = µ(A) − µ(A ∩ B) si la medida de A es finita y por último (1.27) se da por la definición de varianza usada anteriormente (1.22). Finalmente, remarcamos que para obtener las medidas momento de órdenes superiores se puede usar el mismo método de descomposición en uniones disjuntas; es fácil ver que al subir el orden, también crece la dificultad para obtener la medida momento que deseamos. En ocasiones en vez de usar la descomposición de los conjuntos se usan momentos factoriales, como se puede ver en [3] la definición sufre algunos cambios respecto a la que aqúı se usó, pero desde el principio se trabaja con conjuntos dijsuntos con las ventajas que esto conlleva. 16 CAPÍTULO 1. PROCESO POISSON ESPACIAL 1.3. Proceso Poisson No Homogéneo Hemos obtenido resultados sobre un proceso Poisson espacial; sin em- bargo ahora debemos profundizar en el tipo de proceso que se quiere usar. Sabemos que condicionado al número de puntos en un proceso Poisson usual estos se distribuyen uniformemente, esta situación es precisamente la que queremos evitar pues diŕıa que no conocemos muy bien el fenómeno al que nos enfrentamos o bien este es “geográficamente” completamente ho- mogéneo, lo cual permitiŕıa cuestionar la necesidad de utilizar información geográfica. Con el fin de permitir situaciones más generales se usará un proceso Poisson no-homogéneo. Definición 1.3.1. Definimos la función de intensidad de primer orden λ de un proceso Poisson como: λ(s) = ĺım ν(ds)→0 E[N(ds)] ν(ds) , (1.28) donde ds es una vecindad alrededor de s y ν(ds) su medida de Lebesgue. Esta función se puede interpretar como la intensidad del proceso res- pecto a la medida de Lebesgue alrededor de un punto; esta función λ(s) es la derivada de Radón-Nikodym (A.1.8) de la medida de la media (1.20) respecto de la medida de Lebesgue, pues podemos ver que si ν(A) = 0 entonces E[N(A)] = 0, pues recordamos que la medida de la media es una medida de Radón, no atómica. De manera similar se puede definir la intensidad del k-ésimo orden λ(k) como: λ(k)(s1, s2, ..., sk) = ĺım ν(dsi)→0, i=1,...,k E[N(ds1 × ds2 × ...× dsk)] ν(ds1)ν(ds2)...ν(dsk) . De lo anterior podemos recordar que la parte superior del cociente es una medida del k-ésimo momento como se vio en la sección anterior (1.19). Gracias al teorema de Radón-Nikodym (A.1.8) obtenemos la medida de la media de la siguiente forma: µ(A) = ∫ A λ(s)ds, (1.29) 1.3. PROCESO POISSON NO HOMOGÉNEO 17 donde λ(s) es la intensidad de primer orden del proceso, además a partir de la definición de esta es claro que es no negativa. Entonces si λ(s) es una constante para toda s ∈ X, decimos que tenemos un proceso Poisson homogéneo y su intensidad (medida de la media) resulta proporcional a la medida de Lebesgue del conjunto, en cambio si la función no es constante tenemos un proceso Poisson no-homogéneo. La diferencia entre estos procesos radica en que el homogéneo se usa cuando se intenta modelar un fenómeno completamente aleatorio en el es- pacio (CSR por sus siglas en inglés), pues al condicionar sobre el número de puntos en una región observamos que estos se distribuyen uniformemente gracias a la función de intensidad; mientras que un proceso no-homogéneo arroja la idea de que conocemos algún comportamiento geográfico espećıfico sobre el fenómeno y podemos describir mejor la intensidad de las aparicio- nes. A partir de ahora trabajaremos entonces con un proceso Poisson espa- cial no-homogéneo. Entonces, sea µ una medida de Radón (1.1.7) sobre X ⊂ Rd y sea B ∈ X , donde X es la σ-álgebra de Borel de X. Por la sección 1.1, en particular gracias a la función generadora de probabilidad obtenida en (1.15), el proceso N satisface que: P[N(B) = n] = e−µ(B)µ(B)n n! , n ∈ N. (1.30) De manera similar sea λ(s) la intensidad de primer orden del proceso (1.28), condicionado al numero de puntos del proceso sobre un conjunto acotado A ∈ X (N(A) = n), estos se distribuyen como una muestra alea- toria con una función de densidad dada por: lA(s) = P[S = s|N(A) = n] = λ(s) µ(A) , (1.31) para cada punto s ∈ A, donde µ(A) = ∫ A λ(s)ds. Al condicionar sobre el número de puntos de A y teniendo una tupla de n miembros sn =(s1, ..., sn), si ∈ A para i = 1, ..., n, la densidad condicional es: lA(s1, ..., sn) = n∏ i=1 λ(si) µ(A)n , (1.32) 18 CAPÍTULO 1. PROCESO POISSON ESPACIAL ya que como se mencionó anteriormente, los puntos se distribuyen como una muestra aleatoria y entonces la densidad conjunta es la multiplicación de las densidades de cada punto (1.31) por independencia y siempre que si 6= sj cuando i 6= j. Nos interesa conocer la distribución conjunta de una tupla de puntos. Enparticular eso nos permite conocer la distribución de cada uno por serparado, de esta forma se obtiene: pA(sn, n) = lA(s1, ..., sn)P[N(A) = n] = { e−µ(A) n = 0, e−µ(A) ∏n i=1 λ(si) n! n ≥ 1, (1.33) ya que en el primer caso, cuando n = 0, tenemos que pA((s1, ..., sn), n) = P[N(A) = 0] y el segundo caso se da al multiplicar (1.30) con (1.32) y reducir términos. Por último sumando sobre todos los posibles valores de n e integrando sobre λ(s) obtenemos que: pA(sn, 0) + ∞∑ n=1 ∫ An pA(sn, n)dsn = e −µ(A) + ∞∑ n=1 e−µ(A) n! ∫ An n∏ i=1 λ(si)dsn = e−µ(A) + ∞∑ n=1 e−µ(A) n! (∫ A λ(s)ds )n = ∞∑ n=0 e−µ(A) n! (∫ A λ(s)ds )n = ∞∑ n=0 e−µ(A)µ(A)n n! = 1, donde la segunda igualdad resulta de separar el producto de las integrales con su respectivo diferencial y ver que son la misma sobre el conjunto A y tenemos n de estas, la cuarta igualdad sale recordando (1.29) ya que λ(s) es la intensidad de primer orden y finalmente aqúı observamos que tenemos una función de densidad de una variable aleatoria Poisson la cual sabemos suma uno sobre todo el espacio de estados. En caṕıtulos posteriores veremos la importancia de los resultados aqúı obtenidos. Caṕıtulo 2 Entroṕıa La Teoŕıa de la Información de Shannon nace (según [18]) a partir de un art́ıculo publicado en 1948 [17], donde propone, según el t́ıtulo del trabajo de Shannon, una “Teoŕıa Matemática de la Comunicación”, refiriéndose espećıficamente a la transmisión de señales. La teoŕıa de la información en años recientes se ha aplicado en muchos campos, principalmente estudiando la transmisión, procesamiento y utilización de la información como cada campo lo interpreta, es por esto que el concepto de información cambia según el campo de estudio y esto lo hace un poco ambiguo. En este trabajo nos interesa la entroṕıa de una distribución de probabi- lidad, pues se puede interpretar como la cantidad promedio de información que produce una fuente de datos con una distribución determinada. Quere- mos encontrar una función que sea la que mejor explique o más información arroje sobre el fenómeno de interés. 2.1. Entroṕıa La entroṕıa se puede entender como una medida de incertidumbre so- bre un sistema. En la teoŕıa desarrollada por Shannon, la entroṕıa es una medida de incertidumbre pero sobre variables aleatorias. Es decir, conocer la entroṕıa de una variable aleatoria, nos dirá qué tanta información sobre el experimento se puede encontrar de acuerdo a las probabilidades de cada estado posible. Esto se discutirá más adelante en el caṕıtulo. 19 20 CAPÍTULO 2. ENTROPÍA Con fines prácticos hablaremos primero sobre la entroṕıa y algunos resultados relacionados para variables aleatorias discretas y después lleva- remos los mismos resultados al caso continuo. 2.1.1. Definiciones Definición 2.1.1. Sea X una variable aleatoria discreta y p(x) = P[X = x], x ∈ E, donde E es R o un subconjunto de este. La entroṕıa de X, H(X) se define como: H(X) = − ∑ x∈E|p(x)>0 p(x) log(p(x)). (2.1) Observación: la entroṕıa de una variable aleatoria puede tomar el va- lor extendido +∞, sin embargo cuando hablemos de resultados que involu- cren la suma o resta de entroṕıas los consideraremos cuando la operación se encuentre bien definida. Generalmente en teoŕıa de la información el logaritmo se usa con base dos para medir la entroṕıa en bits, sin embargo en nuestro caso no es necesario y lo tomaremos como logaritmo natural de ahora en adelante, cuya unidad son nats. Es fácil ver que la entroṕıa es una esperanza pues: − ∑ x∈E|p(x)>0 p(x) ln(p(x)) = −E[ln(p(X))]. Observación: algunos autores en vez de hacer la suma sobre el soporte de la función de masa en cuestión, toman la convención de que 0ln(0) = 0, lo cual se puede justificar con argumentos de continuidad de la siguiente forma: ĺım x→0+ x ln(x) = ĺım t→∞ e−t ln(e−t) = ĺım t→∞ −t et = 0. (2.2) De ahora en adelante al conjunto {x ∈ E|p(x) > 0} lo denotaremos como SX , recordemos que este conjunto es numerable por ahora ya que trabajamos con variables aleatorias discretas. 2.1. ENTROPÍA 21 Lema 2.1.2. Para toda variable aleatoria X discreta, H(X) ≥ 0. Demostración. Como 0 < p(x) ≤ 1 y − ln(p(x)) = ln( 1p(x)) se sigue que ln( 1p(x)) ≥ 0. Un ejemplo sencillo para entender un poco sobre qué nos está diciendo la entroṕıa es el siguiente. Comparemos la entroṕıa de una moneda justa y un dado justo. Haciendo uso de la definición, ya que los estados son equiprobables, obtenemos el siguiente resultado: H(moneda) = −2(12) ln( 1 2) = ln(2). H(dado) = −6(16) ln( 1 6) = ln(6). Como ln(6) > ln(2) la entroṕıa de la variable aleatoria que representa a la moneda es menor a la del dado. De manera similar, es fácil ver que si tenemos dos variables aleatorias uniformes con k y n espacios de estados respectivamente, si n > k la entroṕıa de Xn será mayor que la de Yk; en- tonces podemos hacer una vaga conclusión inicial para el caso uniforme, mientras más grande sea el espacio de estados mayor será la entroṕıa, es decir habrá mayor incertidumbre sobre el resultado del experimento. Más adelante se verá que una variable aleatoria uniforme es la de máxima en- troṕıa para el caso discreto en caso de que el espacio de estados sea finito. A continuación se introducen algunas definiciones que ayudan al estu- dio de la relación entre dos o más variables aleatorias (aqúı se mencionan solamente los casos para dos, sin embargo se puede generalizar) de acuerdo a la información que se puede obtener con ellas. Recordamos que la suma se efectúa únicamente sobre el soporte de la variable aleatoria. Definición 2.1.3. La entroṕıa conjunta entre dos variables aleatorias X y Y discretas con densidad conjunta p(x, y) se define como: H(X,Y ) = − ∑ SX ∑ SY p(x, y) ln(p(x, y)), (2.3) o bien: H(X,Y ) = −E[ln(p(X,Y ))]. 22 CAPÍTULO 2. ENTROPÍA De forma similar podemos definir la entroṕıa condicional de dos va- riables aleatorias. Entonces sean X y Y dos variables aleatorias discretas, definimos p(y|x) como la probabilidad condicional P[Y = y|X = x]. Y de- fimos también H(Y |X = x) como ∑ SY p(y|x) ln(p(y|x)), aqúı consideramos x fijo. Definición 2.1.4. La entroṕıa condicional entre dos variables aleatorias con función de densidad conjunta p(x, y) se define como: H(Y |X) = ∑ SX p(x)H(Y |X = x), (2.4) donde p(x) es la densidad marginal de X. Igual que antes, podemos mani- pular la ecuación anterior para obtener una forma donde encontremos una esperanza, aśı (2.4) se convierte en: H(Y |X) = − ∑ SX p(x) ∑ SY p(y|x) ln(p(y|x)) = − ∑ SX ∑ SY p(x)p(y|x <) ln(p(y|x)) = −E[ln(p(Y |X))]. (2.5) Una relación interesante entre la entroṕıa conjunta y la condicional es la siguiente, que una vez vista resulta bastante natural. A este resultado se le conoce como regla de la cadena Teorema 2.1.5. Regla de la cadena. Sean X, Y variables aleatorias dis- cretas. Entonces: H(X,Y ) = H(X) +H(Y |X). (2.6) Demostración. H(X,Y ) = − ∑ SX ∑ SY p(x, y) ln(p(x, y)) = − ∑ SX ∑ SY p(x, y) ln(p(y|x)p(x)) 2.1. ENTROPÍA 23 = − ∑ SX ∑ SY p(x, y) ln(p(y|x))− ∑ SX ∑ SY p(x, y) ln(p(x)), observamos que la primera doble suma resulta ser la entroṕıa condicional H(Y |X), además después de sumar sobre SY en la segunda se obtienen las probabilidades marginales de X y tenemos entonces: H(X,Y ) = H(Y |X)− ∑ SX p(x) ln(p(x)) = H(Y |X) +H(X). A continuación se introducen dos conceptos importantes que se pueden usar para entender y comparar la relación entre dos distribuciones y entre dos variables aleatorias respectivamente. Definición 2.1.6. La entroṕıa relativa o distancia de Kullback-Leibler en- tre dos funciones de masa de probabilidad p(x) y q(x) respectivamente, se define como: D(p||q) = ∑ SX p(x) ln p(x) q(x) (2.7) = Ep [ ln ( p(X) q(X) )] , donde la esperanza se calcula bajo la función de masa p(x). En [14] Kullback dice que la entroṕıa relativa está definida para dos medidas absolutamentecontinuas (A.1.2) respectivamente, para el caso dis- creto esto se traduce en que p(xi) = 0 siempre que q(xi) = 0 y viceversa. Si se da lo anterior gracias al teorema de Radón-Nikodym podemos ver que p/q es una derivada de Radón-Nikodym. La entroṕıa relativa es una medi- da de la ’distancia’ entre dos distribuciones (no es una distancia verdadera pues ni siquiera es simétrica, pero es una buena forma de interpretarlo), es decir, arroja información sobre la ineficiencia de asumir la distribución q cuando la p es la verdadera. Otra forma de verlo es que la entroṕıa relativa nos dirá qué tan equivocados estamos si consideramos a la distribución q en vez de la p. 24 CAPÍTULO 2. ENTROPÍA También nos puede interesar la relación entre dos variables aleatorias, qué tanta información aporta una a la otra para reducir o no la incerti- dumbre sobre una de estas, aśı se introduce el concepto de información mutua. Definición 2.1.7. Sean X y Y dos variables aleatorias con función de masa conjunta p(x, y) y p(x), p(y) las marginales. La información conjunta se define como la entroṕıa relativa entre la densidad conjunta y el producto de las marginales, es decir: I(X;Y ) = D(p(x, y)||p(x)p(y)), (2.8) que se puede ver como: I(X;Y ) = ∑ SX ∑ SY p(x, y) ln( p(x, y) p(x)p(y) ). La información mutua también se puede escribir como E [ ln ( p(X,Y ) p(X)p(Y ) )] bajo la función de masa de probabilidad conjunta. La importancia de considerar las marginales corresponde a cuando las variables aleatorias X y Y son independientes como se verá más adelante. A continuación presentamos una propiedad que se usará más adelante en el caṕıtulo: Lema 2.1.8. Sean X, Y dos variables aleatorias discretas, entonces tene- mos la siguiente relación: I(X;Y ) = H(X)−H(X|Y ). (2.9) Demostración. I(X;Y ) = ∑ SX ∑ SY p(x, y) ln ( p(x, y) pX(x)pY (y) ) = ∑ SX ∑ SY p(x, y) ln ( p(x, y) pY (y) ) − ∑ SX ∑ SY p(x, y) ln(pX(x)) = ∑ SX ∑ SY p(x, y) ln ( pY (y)p(x|y) pY (y) ) − ∑ SX p(x) ln(pX(x)) (2.10) 2.1. ENTROPÍA 25 = ∑ SX ∑ SY p(x, y) ln(p(x|y)) +H(X) = H(X)−H(X|Y ), (2.11) donde (2.10) se da al sumar en la ecuación anterior sobre SY y (2.11) es debido a la definición de entroṕıa condicional (2.1.4). Una interrogante que podŕıa surgir es ¿qué pasa si la entroṕıa relativa o la información mutua resultan ser negativas?, pues la interpretación de ambas no tendŕıa sentido para las definiciones que se dieron anteriormente. Afortunadamente esto no puede suceder como se mostrará a continuación. Teorema 2.1.9. Sean p(x) y q(x) dos funciones de masa de probabilidad. Entonces: D(p||q) ≥ 0, (2.12) la igualdad se obtiene si y sólo si p(x) = q(x) para toda x ∈ X. Demostración. Recordamos primero que consideramos que la suma corre únicamente sobre el soporte de X, no importando bajo cual de las funciones de masa consideramos el sopoprte ya que como se mencionó anteriormente son absolutamente continuas una respecto de la otra. Demostraremos que −D(p||q) ≤ 0. Usaremos la desigualdad de Jensen (B.1) que nos dice que si g es una función convexa entonces: g(E[X]) ≤ E[g(X)]. −D(p||q) = − ∑ SX p(x) ln ( p(x) q(x) ) = ∑ SX p(x) ln ( q(x) p(x) ) ≤ ln ∑ SX p(x) q(x) p(x) (2.13) 26 CAPÍTULO 2. ENTROPÍA = ln ∑ SX q(x) = ln(1) (2.14) = 0, aqúı (2.13) se sigue por la desigualdad de Jensen pues ln es una función cóncava y (2.14) se da pues q(x) es una función de masa de probabilidad y recordamos que p y q son absolutamente continuas una respecto de la otra aśı que el soporte es el mismo para ambas. Veamos que la igualdad en (2.13) si y sólo si p(x) = q(x) para toda x. Si p(x) = q(x) para toda x tenemos: ∑ SX p(x) ln ( q(x) p(x) ) ≤ ln ∑ SX p(x) q(x) p(x) (2.15) ∑ SX p(x) ln(1) ≤ ln ∑ SX p(x) 0 ≤ ln(1) 0 = 0, donde (2.15) se da gracias a la desigualdad de Jensen (B.1). Supongamos ahora que tenemos la igualdad en (2.15), entonces: ∑ SX p(x) ln ( q(x) p(x) ) = ln ∑ SX q(x) ∑ SX p(x) ln ( q(x) p(x) ) = 0, 2.1. ENTROPÍA 27 además para tener la igualdad en la desigualdad de Jensen debemos tener que q(x)p(x) = c para toda x ∈ SX , entonces obtenemos lo siguiente:∑ SX p(x) ln ( q(x) p(x) ) = ln(c) ∑ SX p(x) = ln(c), por lo tanto c = 1, entonces p(x) = q(x) para toda x ∈ SX . Corolario 2.1.10. Sean X y Y dos variables aleatorias con función de densidad conjunta p(x,y), entonces: I(X;Y ) ≥ 0, (2.16) la igualdad se da si y sólo si las variables aleatorias son independientes. Demostración. I(X;Y ) = D(p(x, y)||p(x)p(y)) ≥ 0 (2.17) por el teorema anterior. Si las variables son independientes tenemos: I(X;Y ) = D(p(x, y)||p(x)p(y)) = D(p(x)p(y)||p(x)p(y)) = − ∑ SX ∑ SY p(x)p(y) ln p(x)p(y) p(x)p(y) = − ∑ SX ∑ SY p(x)p(y) ln(1) = 0. Si D(p(x, y)||p(x)p(y)) = 0 usando el teorema anterior observamos que p(x, y) = p(x)p(y) lo cual sucede únicamente cuando las variables aleatorias son independientes. 28 CAPÍTULO 2. ENTROPÍA Un resultado interesante que se obtiene a partir del teorema anterior y de 2.1.8) es que condicionar una variable aleatoria respecto de otra no re- sulta en pérdida de información, es decir la entroṕıa no crece al condicionar; más bien ocurre lo contrario. Teorema 2.1.11. Sean X y Y dos variables aleatorias, entonces: H(X|Y ) ≤ H(X). (2.18) Demostración. Recordando el lema (2.1.8) observamos que I(X;Y ) = H(X)−H(X|Y ), además por el corolario (2.1.10) I(X : Y ) ≥ 0; de esta forma, juntando los dos resultados tenemos: H(X|Y ) ≤ H(X). A continuación se presenta un teorema que da una cota para la entroṕıa de una variable aleatoria si el espacio de estados es finito. Teorema 2.1.12. Sea X una variable aleatoria y E su espacio de estados, |E| su cardinalidad y p(x) = P[X = x] entonces: H(X) ≤ ln |E|. (2.19) Demostración. Sea u(x) = 1|E| para toda x ∈ E, la densidad de una variable aleatoria uniforme, entonces usando la entroṕıa relativa (2.7) tenemos que: D(p||u) = ∑ SX p(x) ln ( p(x) u(x) ) = ∑ SX p(x) ln(p(x))− ∑ SX p(x) ln(u(x)) = −H(X) + ∑ x p(x) ln ( 1 u(x) ) = −H(X) + ln |E| ∑ SX p(x) = ln |E| −H(X), 2.2. ENTROPÍA DIFERENCIAL 29 recordando el teorema (2.1.9) tenemos que: 0 ≤ ln |E| −H(X) H(X) ≤ ln |E|. Del teorema anterior podemos concluir que para el caso discreto la distribución de máxima entroṕıa es una uniforme cuando el espacio de estados es finito. 2.2. Entroṕıa Diferencial Como se verá más adelante, en el caso de estudio en que nos encontra- mos discretizar el espacio puede causar algunos problemas, es por eso que en esta sección hablaremos sobre la entroṕıa diferencial, es decir la entroṕıa cuando tenemos variables aleatorias continuas. Shannon no desarrolló esta fórmula sino que simplemente la supuso como se puede ver en [17]. Esta versión no comparte todas las propiedades que tiene la entroṕıa que se vieron en la sección anterior, como se verá un poco más adelante. De ahora en adelante usaremos una notación diferente. Sea X una va- riable aleatoria tal que su función de distribución F (x) es continua. Más aún, supondremos que F tiene densidad, esto es, que existe f ≥ 0 tal que F (x) = ∫ x −∞ f(t)dt o bien para el caso multivariado F (x1, ..., xk) =∫ x1 −∞ ... ∫ xk −∞ f(t1, ..., tk)dt1...dtk. Sea SX = {x ∈ R d|f(x) > 0}, en caso de no especificarse S será el soporte de las variables aleatorias indicadas.. Definición 2.2.1. La entroṕıa diferencial de la variable aleatoria continua X con función de densidad f(x) se define como: h(X) = − ∫ SX f(x) ln f(x)dx = −E[ln f(X)]. (2.20) Podemos observar que Shannon simplemente cambió el śımbolo de la suma por el de la integral, lo cual se traduce en algunos problemas, por ejemplo, la no negatividad de la entroṕıa no se encuentra en este caso. 30 CAPÍTULO 2. ENTROPÍA Consideremos una variable aleatoria X que se distribuye uniformemente sobre sobre el intervalo [0, a], entonces f(x) = 1a , al obtener la entroṕıa tenemos:h(X) = − ∫ a 0 1 a ln ( 1 a ) dx = ∫ a 0 1 a ln(a)dx = 1 a ln(a) ∫ a 0 dx = ln(a), entonces si 0 < a < 1 la entroṕıa resulta negativa, lo cual no tiene sentido con la interpretación que se tiene de esta. A continuación introducimos algunas definiciones similares a las del caso discreto para la entroṕıa diferencial. Definición 2.2.2. La entroṕıa diferencial de un vector aleatorio X = (X1, ..., Xn) de variables aleatorias con función de densidad conjunta f(X) se define como: h(X) = − ∫ S f(x) ln(f(x))dx = −E[ln(f(X))]. (2.21) Definición 2.2.3. Si dos variables aleatorias X, Y tienen función de den- sidad conjunta f(x, y) y f(y|x) = f(x,y)fX(x) (donde fX(x) es la densidad mar- ginal de X) es la densidad condicional de Y dada X, la entroṕıa diferencial condicional se define como: h(X|Y ) = − ∫ S f(x, y) ln(f(x|y))dxdy, (2.22) con un poco de álgebra, como tenemos que f(x|y) = f(x,y)fY (y) , entonces: h(X|Y ) = h(X,Y )− h(Y ), que es la misma forma que encontramos en la regla de la cadena (2.6) y se deben analizar los casos en los que algún término no sea finito. 2.2. ENTROPÍA DIFERENCIAL 31 Definición 2.2.4. La entroṕıa relativa para el caso continuo, si tenemos dos medidas de probabilidad F , G absolutamente continuas (A.1.2) una respecto de la otra, se define como: D(F ||G) = ∫ X ln ( dF dG ) dF, (2.23) donde dFdG es la derivada de Radón-Nikodym (A.1.8) de F respecto a G, de manera similar si µ es una medida sobre X tal que F y G son absolutamente continuas respecto a µ, f = dFdµ y g = dG dµ son las derivadas de Radón- Nikodym de F y G respecto a µ, entonces tenemos que: D(F ||G) = ∫ S f ln ( f g ) dµ. De ahora en adelante escribirD(f ||g) será equivalente a escribirD(F ||G) pues trabajamos siempre con la medida de Lebesgue. Definición 2.2.5. La información mutua entre dos variables aleatorias continuas X y Y con función de densidad conjunta f(x, y) se define como: I(X : Y ) = ∫ S f(x, y) ln ( f(x, y) fX(x)fY (y) ) dxdy. (2.24) Observación: es interesante ver que las propiedades de las versiones continuas de las dos definiciones anteriores se mantienen igual a la de sus versiones discretas. Teorema 2.2.6. Sean f(x) y g(x) dos funciones de densidad de probabi- lidad, entonces: D(f ||g) ≥ 0, la igualdad se da si y sólo si f = g casi donde sea. Demostración. Al igual que en el caso discreto (2.1.9) demostraremos que −D(f ||g) ≤ 0 usando la desigualdad de Jensen.∫ S f(x) ln ( g(x) f(x) ) dx ≤ ln ∫ S g(x)dx = ln(1) = 0, 32 CAPÍTULO 2. ENTROPÍA donde la primera desigualdad se da por la desigualdad de Jensen (B.1) y después usamos el hecho de que f y g son absolutamente continuas una respecto de la otra y son densidades de probabilidad. Para verificar la igualdad observamos que si f = g casi donde sea es inmediato, entonces chequemos el otro caso suponiendo que D(f ||g) = 0 y usando la desigualdad de Pinsker (B.0.4). Sea (X,F) un espacio medible y F , G dos distribuciones de probabilidad y f , g sus densidades, entonces: sup{|F (A)−G(A)|;A ∈ F} ≤ √ 1 2 D(f ||g), (2.25) entonces, sup{|F (A)−G(A)|;A ∈ F} ≤ 0, (2.26) como el supremo es cero, entonces tenemos que F (A) = G(A) para todo A ∈ F, entonces como las distribuciones son iguales concluimos que f = g. Corolario 2.2.7. Sean X, Y dos variables aleatorias continuas con fun- ción de densidad conjunta p(x, y), entonces: I(X;Y ) ≥ 0, la igualdad se da si y sólo si las variables aleatorias son independientes. 2.3. Máxima Entroṕıa Anteriormente en este caṕıtulo se hab́ıa mencionado que la entroṕıa se interpreta como una medida de incertidumbre. Por ejemplo, una distribución con mayor entroṕıa tiene menor entroṕıa relativa con la distribución uniforme. El propósito de maximizar la entroṕıa es encontrar una función que cumpla con algunas caracteŕısticas que le pedimos y que además sea la que nos de una noción de aleatoriedad. Pues si no hay conocimiento espećıfico de un lugar es razonable utilizar una distribución que no favorezca ninguna región particular. Entonces, nos enfrentamos al siguiente problema: maximizar la entroṕıa diferencial sujeta a algunas restricciones. 2.3. MÁXIMA ENTROPÍA 33 En general tratamos de resolver el problema de maximizar h(X), sujeta a: f(x) ≥ 0, ∫ S f(x)dx = 1, ∫ S f(x)ri(x)dx = αi, i = 1, ..., k. (2.27) Donde S = {x ∈ X|f(x) > 0}, ri(x) es una función de x y αi es una constante, para i = 1, ..., k. Es fácil ver que las primeras dos restricciones son necesarias pues que- remos encontrar una función de densidad, mientras que la tercera tiene que ver con alguna caracteŕıstica que nos interese sobre la variable aleatoria. Cabe remarcar que la última restricción no es necesaria, sin embargo, me- diante esta podemos capturar la esperanza de una función sobre el vector de restricciones, lo cual puede ser de gran utilidad pues ayuda a especificar la función de mejor manera como se ve en algunos ejemplos más adelante. Para resolver este problema seguiremos dos pasos, primero encontrar una función f(x) que cumpla las restricciones y después viendo que esta es efectivamente, la de máxima entroṕıa. Primero planteando el problema como uno de multiplicadores de La- grange, encontramos que el lagrangiano queda de la siguiente forma (escri- bimos f en lugar de f(x), igual con ri): L(f) = − ∫ S f ln(f)dx+ λ0 ∫ S fdx+ k∑ i=1 λi ∫ S fridx+ C. (2.28) En la ecuación anterior, encontramos que tenemos un funcional y una constante sumada, donde agrupamos las restricciones. De esta forma, rees- cribiendo la ecuación, tenemos: L(f) = − ∫ S f · (ln(f)− λ0 − k∑ i=1 λiri)dx+ C. (2.29) 34 CAPÍTULO 2. ENTROPÍA Usando la ecuación de Euler-Lagrange (B.3), tomando g = f(ln(f)− λ0 − k∑ i=1 λiri) y x = (x1, ..., xn), obtenemos: dg df − n∑ i=1 d dxi dg dfxi = 0, y observando que en la función g no se involucran las derivadas parciales de la función f , se reduce a: − ln(f) + λ0 + k∑ i=1 λiri − 1 = 0, lo cual nos indica que f es una densidad de la forma: f(x) = exp { λ0 − 1 + k∑ i=1 λiri(x) } , (2.30) entonces debemos escoger λi para i = 0, ..., k de manera apropiada para satisfacer las restricciones (2.27), algunos ejemplos de esto se realizan más adelante. Una vez que encontramos una función candidata para maximizar la entroṕıa, debemos ver que en efecto la maximiza y que además es única. Teorema 2.3.1. Distribución de máxima entroṕıa. Sea fλ(x) = exp { λ0 + k∑ i=1 λiri(x)− 1 } , x ∈ A, donde fλ se obtuvo de la forma que se mostró anteriormente. Entonces, fλ es única y maximiza a h(X) sobre las densidades que satisfacen las restricciones (2.27). Demostración. Supongamos que existe otra densidad g que también satis- face las restricciones (2.27), entonces: hg(X) = − ∫ S g ln(g)dx 2.3. MÁXIMA ENTROPÍA 35 = − ∫ S g ln ( g fλ fλ ) dx = − ∫ S g ln ( g fλ ) dx− ∫ S g ln(fλ)dx = −D(g||fλ)− ∫ S g ln(fλ)dx ≤ − ∫ S g ln(fλ)dx (2.31) = − ∫ S g · ( λ0 + k∑ i=1 λiri − 1 ) dx (2.32) = − ∫ S fλ · ( λ0 + k∑ i=1 λiri − 1 ) dx (2.33) = − ∫ S fλ ln ( exp { λ0 + k∑ i=1 λiri − 1 }) dx = hfλ(X), donde la desigualdad (2.31) es gracias al teorema (2.2.6), D(g||f) ≥ 0; (2.32) sucede gracias a la forma que teńıa fλ, (2.33) se da ya que tanto fλ como g cumplen con las restricciones (2.27). De esta forma podemos ver que en efecto: hg(X) ≤ hfλ(X). (2.34) Para terminar, notamos que la unicidad se da ya que la igualdad en (2.31) se da únicamente si g(x) = fλ(x) casi seguramente pues la entroṕıa relativa resulta cero únicamente en este caso. 36 CAPÍTULO 2. ENTROPÍA Para el caso multivariado, como se menciona en [16], para obtener una distribución de máxima entroṕıa se pueden considerar algunas restricciones sobre las marginales, sin embargo la forma de la distribución obtenida es la misma aunque obtener las constantes suele complicarse. Ejemplo 1: maximizar h(X) sobre el intervalo [a, b] con las siguientes restricciones: 1. f(x) ≥ 0. 2. ∫b a f(x)dx = 1. Primero obtenemos el lagrangiano, L(f) = ∫ b a f · (ln(f − λ0))dx+ C, al obtener f mediante la forma que se mencionó anteriormente obtene- mos que f(x) = eλ0−1, ahora debemos encontrar λ0 para que cumpla la restricción. ∫ b a eλ0−1dx = 1 eλ0−1 ∫ b a dx = 1 eλ0−1(b− a) = 1, entonces λ0 = 1 + ln ( 1 b−a ) y al sustituir λ0 en la función obtenemos que f(x) = 1b−a , es decir si no tenemos restricciones, la distribución de máxima entroṕıa sobre un intervalo (o sobre un conjunto acotado en el caso de encontrarnos en dimensiones mayores) es una uniforme. Ejemplo 2: maximizar h(X) sobre R con las siguientes restricciones: 1. f(x) ≥ 0. 2. ∫∞ −∞ f(x)dx = 1. 3. ∫∞ −∞ xf(x)dx = µ. 2.3. MÁXIMA ENTROPÍA 37 Obteniendo el lagrangiano: L(f) = ∫ ∞ −∞ f · (ln(f − λ0 − λ1x))dx+ C, entonces encontramos que f(x) = eλ0−1+λ1x y debemos encontrar λ0, λ1 que cumplan las restricciones. Fijándonos en la segunda restricción obte- nemos lo siguiente: eλ0−1 ∫ ∞ −∞ eλ1xdx = 1 eλ1x λ1 ∣∣∣∞ −∞ = 1 eλ0−1 , observamos que no existen λ0, λ1 ∈ R que puedan cumplir con la última ecuación, aśı que no existe una distribución de máxima entroṕıa para las condiciones anteriores. Ejemplo 3: maximizar h(X) sobre R con las siguientes restricciones: 1. f(x) ≥ 0. 2. ∫∞ −∞ f(x)dx = 1. 3. ∫∞ −∞ xf(x)dx = µ. 4. ∫∞ −∞ x 2f(x)dx− µ2 = σ2. Sea X ′ = X − µ, entonces E[X ′] = 0 y E[X ′2] = σ2, entonces obte- nemos que f(x) = eλ0−1+λ1x ′2 = aeλ1x ′2 y reconocemos que es una dis- tribución gaussiana. Para satisfacer las restricciones recordando la forma de una distribución normal con media cero obtenemos que λ1 = − 12σ2 y eλ0−1 = 1√ 2πσ2 y obtenemos que f(x) = 1√ 2πσ2 e− (x−µ) 2 2σ2 . Por otro lado es interesante ver que al obtener la entroṕıa de una va- riable aleatoria con distribución N(µ, σ2) la media no importa, aśı que una familia de normales con la misma varianza comparten entroṕıa como se muestra a continuación. 38 CAPÍTULO 2. ENTROPÍA h(X) = − ∫ ∞ −∞ f(x) ln(f(x))dx = − ∫ ∞ −∞ f(x) ln ( 1√ 2πσ2 e− (x−µ)2 2σ2 ) dx = ∫ ∞ −∞ f(x) ln( √ 2πσ2)dx+ 1 2σ2 ∫ ∞ −∞ f(x)(x− µ)2dx = ln( √ 2πσ2) + 1 2σ2 (∫ ∞ −∞ x2f(x)dx− 2µ ∫ ∞ −∞ xf(x)dx+ µ2 ) = ln( √ 2πσ2) + 1 2σ2 (σ2 + µ2 − 2µ2 + µ2) = ln( √ 2πσ2) + 1 2 = 1 2 ln(2eπσ2). En el siguiente caṕıtulo se hallarán funciones de máxima entroṕıa para el problema en cuestión. 2.4. Entroṕıa Relativa y Verosimilitud Para finalizar el caṕıtulo, en esta sección se hablará sobre la relación que tiene la distancia de Kullback-Leibler o entroṕıa relativa con la función de verosimilitud y aśı ver la utilidad de la primera al comparar dos funciones de densidad. Definición 2.4.1. Sea f(x|θ) la función de densidad conjunta de una mues- tra aleatoria X = (X1, ..., Xn), dado que se observó que X = x. La vero- similitud del vector de parámetros θ se encuentra dada por la siguiente función: L (θ|x1, ..., xn) = n∏ i=1 f(xi|θ). (2.35) Que coincide on la densidad conjunta por la independencia. Para esti- mar los parámetros de una distribución, es comú usar la log-verosimilitud 2.4. ENTROPÍA RELATIVA Y VEROSIMILITUD 39 ya que, en muchas ocasiones, el logaritmo hace que sea más sencillo mani- pular las expresiones y el análisis es equivalente por la continuidad. Recordamos que la entroṕıa relativa vista como esperanza es: Ef [ ln ( f(X) g(X) )] = Ef [ln(f(X))]− Ef [ln(g(X))], (2.36) (ver (2.1.6) y (2.2.4)). Como se hab́ıa mencionado anteriormente la entroṕıa relativa nos indica la ineficiencia de considerar que la densidad de la variable aleatoria es g en lugar de f , suponiendo que esta última es la correcta; podemos considerar entonces que f(x) = f(x|θ) y g(x) = f(x|θ′), siendo θ′ el parámetro variable. Consideremos ahora la log-verosimilitud negativa (NLL): NLL(θ′|x1, ..., xn) = − n∑ i=1 ln(f(xi|θ′)), (2.37) gracias a la Ley de los Grandes Números tenemos que 1nNLL(θ ′|x1, ..., xn) converge a E[ln(f(X|θ′))] cuando n tiende a infinito. Esta esperanza apa- rece en (2.36). Entonces si nuestra variable es el parámetro de la distribución (θ′), es equivalente minimizar la entroṕıa relativa a minimizar menos el logaritmo de la verosimilitud. Al relacionar (2.36) y (2.37) se obtiene un resultado interesante; maxi- mizar la verosimilitud con una distribución propuesta aún sin conocer la real es equivalente a minimizar la entroṕıa relativa entre dos distribucio- nes suponiendo que una es la real y otra propuesta (que es la misma de la verosimilitud), aśı cuando no se tiene la distribución real el método de verosimilitud ayudará a obtener los parámetros más parecidos a los de la distribución real. 40 CAPÍTULO 2. ENTROPÍA Caṕıtulo 3 Aplicación En este caṕıtulo se mostrarán aplicaciones de la teoŕıa que se ha desa- rrollado anteriormente. El propósito de esta parte es de mostrar una forma de obtener la intensidad de la distribución de individuos de una especie dentro de una región [9]. En los últimos años se ha vuelto de gran interés conocer la distribu- ción geográfica de los individuos de ciertas especies (pueden ser animales o plantas) incluso en situaciones en las que no se cuenta con mucha infor- mación o esta es sesgada. Las finalidades de esto pueden ser variadas, por ejemplo: monitorear especies en peligro de extinción o especies ajenas a un ecosistema, reacciones de una especie ante cambios en su hábitat, pla- neación para controlar las poblaciones de ciertas especies (por ejemplo en zoológicos abiertos). Recolectar datos sobre los avistamientos de cada individuo en una re- gión resulta extremadamente complicado debido a un gran número de fac- tores, por ejemplo contar en repetidas ocasiones a un mismo individuo, es por esto que se usan los datos de avistamiento de un individuo. Esta información podŕıa estar muy sesgada al tomar en cuenta avistamientos reportados por humanos, ya que, evidentemente, hay zonas donde el tráfi- co de humanos es mucho mayor y en otras es prácticamente inexistente aśı que la intensidad de avistamientos no representan mediciones uniformes. Gracias a avances tecnológicos, ahora podemos tener la información reque- rida sin tener que visitar toda la región de interés pues mediante el uso de fotograf́ıas aéreas se pueden obtener datos interesantes que no están libres 41 42 CAPÍTULO 3. APLICACIÓN de problemas. Hay que remarcar que no se usan datos sobre zonas que no cuentan con registros de apariciones pues no podemos concluir que haya o no un sujeto ah́ı. Problema El principal problema en este caso es saber qué es lo que debemos estimar. Por un lado se podŕıa sugerir estimar primero la probabilidad de aparición en una zona, sin embargo resulta en un problema grave, como se explica a continuación. Por ejemplo, supongamos que tenemos una región (podemos suponer que es rectangular para que sea más sencillo) que podemos dividir en cua- dros más pequeños y fijemos el tamaño de cada uno de estos, de esta forma obtenemos una cuadŕıcula regular y supongamos también que de alguna manera contamos con la probabilidad de que haya cuando menos un su- jeto en cada una de las divisiones. Ahora, si cambiamos el tamaño de los cuadros y conocemos otra vez la probabilidad de que haya alguna observa- ción en cada uno esta podŕıa cambiar mucho. Si las divisiones son grandes podŕıamos estar subestimando algunas regiones y sobreestimando otras, mientras que si las divisiones son muy pequeñas es posible que algunas estimaciones sean insignificantes. Otra forma de abordar el problema puede ser intentar estimar la in- tensidad de ocurrencia y aśı utilizar modelos continuos en el espacio. De esta forma se propone el primer modelo en la sección 3.1, pues recordemos que en este caso estimar la intensidad permite estimar la probabilidad de ocurrencia. Entonces lo que realmente aportará este modelo será el número esperado de avistamientos en cada área espećıfica. En la segunda secciónde este caṕıtulo el problema se intenta resolver intentando encontrar la función de máxima entroṕıa que mejor describa el fenómeno de apariciones, sujeta a algunas restricciones que se obtienen con datos conocidos. De ahora en adelante X será la región de interés que consideraremos. X es un subconjunto compacto de R2 o R3 pues puede ser que la altu- ra sea de interés, por ejemplo si quisiéramos analizar ocurrencias en una región montañosa, x ∈ X es un punto de interés y z(x) es un vector de caracteŕısticas de la región geográfica que son de interés para cada caso, 3.1. MODELO POISSON NO-HOMOGÉNEO 43 las cuales pueden ser tan variadas como cosas podamos medir; tenemos n avistamientos xi ∈ X para i = 1, ..., n, entonces zi = z(xi) es un vector con las caracteŕısticas de la i-ésima observación. 3.1. Modelo Poisson No-Homogéneo En este primer modelo se usa un proceso Poisson no-homogéneo. Consi- deramos un proceso simple ya que únicamente nos interesa si se encuentra o no un sujeto en un punto determinado. Para construir el proceso Poisson que se puede usar para modelar el avistamiento de individuos debemos considerar la función de intensidad de primer orden (1.3.1): λ : X → [0,∞), integrable, cuya interpretación en este caso es que nos indica qué tan fac- tible es que un avistamiento sea cercano u ocurra exactamente en x ∈ D; esta función para nuestros fines la consideramos continua, de esta forma por (1.29) obtenemos que la intensidad del proceso sobre A ⊂ D es: Λ(A) = ∫ A λ(x)dx, donde Λ resulta ser una medida finita (por al teorema de Radón-Nikodym (A.1.8)) y además es de Radón (A.1.6), obteniendo aśı un proceso Pois- son espacial no-homogéneo de intensidad Λ. Recordamos además que los lugares de avistamientos condicionados al número de estos, se distribuyen independientemente con la siguiente densidad (1.32): lD = λ(x) Λ(D) . Una función que cumple las caracteŕısticas que pedimos para λ, y se sue- le utilizar, es la exponencial, adicionalmente algunos autores, como Warton y Shepherd en [19], consideran a esta función de la siguiente forma: λ(x) = eα+<β,z(x)>, donde α es una constante que sirve para escalar la densidad, β un vector de pesos, estableciendo una relación log-lineal con los atributos de la especie 44 CAPÍTULO 3. APLICACIÓN y del lugar y <,> el producto escalar. El vector de atributos resulta de vital importancia, sin embargo obtenerlo resulta complejo pues se necesita una gran cantidad de trabajo interdisciplinario y vaŕıa de acuerdo a cada situación. Veamos ahora que papeles juegan tanto α como β en el modelo, para esto analizaremos la verosimilitud de la distribución conjunta del número de puntos y sus localizaciones. 3.1.1. Verosimilitud del Proceso Poisson Recordamos (por (1.32))que suponiendo que conocemos n, el número de total de lugares de avistamiento de la especie, la distribución conjunta del proceso Poisson no-homogéneo para una n-tupla de puntos se encuentra dada por: f((x1, ..., xn), n) = eΛ(D) n! n∏ i=1 λ(xi), (3.1) en este caso, λ(xi) = e α+<β,z(xi)>, i = 1, ..., n, Λ(D) = ∫ D eα+<β,z(x)>dx. La verosimilitud (2.4.1) se encontrará dada por esta misma densidad conjunta (3.1), entonces la log-verosimilitud es: l(X,Θ) = n∑ i=1 (α+ < β, z(xi) >)− eα ∫ D e<β,z(x)>dx− ln(n!). (3.2) A continuación se usa el método de máxima verosimilitud para obtener estimadores de los parámetros de la densidad, derivando respecto a alfa: ∂l ∂α = n∑ i=1 1− eα ∫ D e<β,z(x)>dx, 3.1. MODELO POISSON NO-HOMOGÉNEO 45 obteniendo dos resultados importantes, primero si igualamos a cero la derivada y colocamos la suma de un lado y la integral del otro, después de hacer la suma se obtiene: n = eα ∫ D e<β,z(x)>dx, (3.3) y α = ln(n)− ln( ∫ D e<β,z(x)>dx), (3.4) observamos que α juega el papel de una constante de proporcionalidad para que el resultado de la integral sea n, coincidiendo aśı con el número de puntos que tenemos. La segunda derivada de la log-verosimilitud respecto a α es: ∂2l ∂α2 = −eα ∫ D e<β,z(x)>dx = −Λ(D), como Λ(D) > 0 siempre, el estimador que obtuvimos para α es el máximo dado por la función de verosimilitud. Ahora haciendo el mismo procedimiento para β, sustituyendo (3.3) y (3.4) en (3.2) y tenemos que: l(X,Θ) = n∑ i=1 [ln(n)− ln( ∫ D e<β,z(x)>dx)+ < β, z(xi) >]− n− ln(n!), renombrando las constantes (respecto a β) obtenemos la siguiente expre- sión: l(X,Θ) = n∑ i=1 ( < β, z(xi) > −ln( ∫ D e<β,z(x)>dx) ) + C. Al ser la log-verosimilitud un escalar, al derivar respecto del vector β (B.2) obtenemos un vector con las derivadas parciales, donde cada una es de la forma: ∂l ∂βj = n∑ i=1 ( zj(xi)− ∫ D e <β,z(x)>zj(x)dx∫ D e <β,z(x)>dx ) , 46 CAPÍTULO 3. APLICACIÓN para j = 1, ..., k si contamos con un vector z(x) con k caracteŕısticas, igualando a cero: 0 = n∑ i=1 zj(xi)− n∑ i=1 ∫ D e <β,z(x)>zj(x)dx∫ D e <β,z(x)>dx 1 n n∑ i=1 zj(xi) = ∫ D e <β,z(x)>zj(x)dx∫ D e <β,z(x)>dx , (3.5) donde la integral en el denominador es constante respecto a la que se encuentra en el numerador, obtenemos una densidad de probabilidad de la siguiente forma: pλ(x) = e<β,z(x)>∫ D e <β,z(x)>dx . (3.6) La función pλ cumple con las caracteŕısticas de una densidad de pro- babilidad y podemos ver que en (3.5) tenemos la esperanza de zj(x) bajo pλ. 1 n n∑ i=1 zj(xi) = ∫ D pλ(x)zj(x)dx = Epλ [zj(x)], (3.7) para cada j = 1, ..., k. Entonces se debe de encontrar un vector de pesos β de manera que se cumplan las ecuaciones anteriores. 3.2. Máxima Entroṕıa En el caṕıtulo anterior (sección (3.2)) se explica cómo obtener distri- buciones de máxima entroṕıa. En esta sección buscaremos distribuciones de máxima entroṕıa planteando algunas situaciones generales que pudie- ran ser de interés; en el primer caso se plantea un problema que llevará a encontrar una densidad de probabilidad que resulta ser la misma que se encontró en la sección anterior (3.6), en los posteriores se estudia un poco la dependencia entre dos variables aleatorias. Planteamos el siguiente problem: maximizar h(X) sujeto a las siguientes restricciones: 3.2. MÁXIMA ENTROPÍA 47 ∫ D f(x)dx = 1,∫ D z(x)f(x)dx = Z. Donde z(x) es un vector de caracteŕısticas como se describe al final de (3), Z es un vector de promedios obtenidos con las observaciones. Recordando la sección de Máxima Entroṕıa (2.3) por el resultado ob- tenido en (2.30) encontramos que: f(x) = exp[λ0+ < λ1, z(x) > −1], f(x) = e<λ1,z(x)>eλ0−1. Debemos encontrar entonces λ0 y λ1 que satisfagan las restricciones, en- tonces: eλ0−1 = (∫ D e<λ1,z(x)>dx )−1 , de esta manera se obtiene que f(x) = e<λ1,z(x)>∫ D e <λ1,z(x)>dx . (3.8) Entonces se debe encontrar λ1 de tal manera que se cumpla la restric- ción ∫ D z(x)f(x)dx = Z, (3.9) esto es, que λ1 debe ser un vector tal que la esperanza de la distribución sea igual a los promedios obtenidos con la información que se tiene; podemos observar además que bajo esta condición encontraremos parámetros de forma similar a los que se buscan en (3.7). Las restricciones anteriores pueden ser un buen primer acercamiento, sin embargo son susceptibles a fallar como lo es cualquier propuesta basada solamente en el conocimiento de una media: es posible que el punto descrito por Z no exista o bien que al considerar los promedios se pierda información importante. 48 CAPÍTULO 3. APLICACIÓN Vemos entonces que los métodos planteados en este trabajo (Poisson y entroṕıa) tienen similitudes interesantes. Es importante ver que cada mode- lo se puede enriquecer de diferente forma, siendo el de máxima entroṕıa más directo de trabajar escribiendo las restricciones de forma apropiada, que pueden ser tan variadas como queramos y podamos analizar, pues se obtu- vo una forma general para la densidad; mientras que en el proceso Poisson no-homogéneo se debeŕıa trabajar con intensidades de órdenes superiores (1.3.1) para trabajar con momentos diferentes del primero e incorporarrestricciones adicionales podŕıa resultar complicado. A continuación se muestran algunos ejemplos donde se aplicará el méto- do de máxima entroṕıa considerando que existe alguna relación entre las variables aleatorias. Para el primer caso supongamos que únicamente tene- mos información geográfica de una región D bidimensional, es decir, no hay ninguna función que enriquezca al modelo en el vector de caracteŕısticas. El problema, planteado como uno de maximizar la entroṕıa, es el siguiente: Maximizar h(X) sujeto a: 1. f(x, y) ≥ 0. 2. ∫ D f(x, y)dxdy = 1. 3. ∫ DX xfX(x)dx = µx. 4. ∫ DY yfY (y)dy = µy. Donde µx y µy ∈ R, son los promedios de las coordenadas, de x y y res- pectivamente, de las observaciones. Para poder usar el método propuesto anteriormente en la sección 3.2 primero debemos tener todas las integra- les sobre el mismo dominio, aśı reescribiendo las funciones de densidad marginales obtenemos que:∫ DX xfX(x)dx = ∫ D xf(x, y)dydx,∫ DY yfY (y)dy = ∫ D yf(x, y)dxdy, entonces obtenemos que la densidad debe ser de la forma f(x, y) = exp{λ0− 1 + λ1x+ λ2y}. 3.2. MÁXIMA ENTROPÍA 49 A partir de lo anterior se obtiene que con las condiciones que se propu- sieron para las densidades marginales obtenemos que las variables aleatorias X y Y deben ser independientes con funciones de densidad f(x) = e λ1x∫ DX eλ1x , f(y) = e λ2y∫ DY eλ2y respectivamente, donde λ1 y λ2 se escogen de la misma for- ma que en (3.9). El ejemplo anterior modelaŕıa un caso muy sencillo y puede fallar rápi- damente, pues al considerar los promedios de las coordenadas, podŕıamos estar describiendo puntos intermedios entre las observaciones donde no hay o no podŕıa haber individuos. Una situación interesante de analizar es considerar alguna restricción sobre la covarianza para el mismo caso bidimensional, para aśı considerar una interacción entre las coordenadas (o bien dos caracteŕısticas), recorda- mos que Cov(X,Y ) = E[XY ]− E[X]E[Y ], esto es plantear el problema de la siguiente forma: Maximizar h(X) sujeto a: 1. f(x, y) ≥ 0. 2. ∫ D f(x, y)dxdy = 1. 3. ∫ D xyf(x, y)dxdy − ∫ D xf(x, y)dydx ∫ D yf(x, y)dxdy = σxy. Este problema resulta complicado de resolver pues al usar el resultado obtenido en (2.30) después de hacer las factorizaciones adecuadas obtene- mos que la densidad es de la forma f(x, y) = exp{λ0 − 1 + λ1(xy − x ∫ D yf(x, y)dxdy)}, sin embargo al considerar una restricción sobre alguna de las esperanzas el problema se simplifica pues se planteaŕıa de la siguiente forma: Maximizar h(X) sujeto a: 1. f(x, y) ≥ 0. 2. ∫ D f(x, y)dxdy = 1. 3. ∫ D yf(x, y)dxdy = µy. 50 CAPÍTULO 3. APLICACIÓN 4. ∫ D xyf(x, y)dxdy − µy ∫ D xf(x, y)dydx = σxy. Como µy es una constante conocida, después de meterla a la integral y factorizar obtenemos que la densidad es de la forma f(x, y) = exp{λ0 − 1 + λ1(xy − x)}, debemos encontrar λ0 y λ1 que satisfagan las restricciones. Los problemas planteados anteriormente son algunos de los casos más sencillos con los cuales nos podŕıamos encontrar en la vida real, com- plicándose al considerar un vector de caracteŕısticas z(x) más complejo ya que puede darse el caso de que las caracteŕısticas sean funciones de las coordenadas geográficas o que tengan variables aleatorias asociadas. Consideremos el siguiente problema, considerando D una región bidi- mensional. Si fuera de interés la distancia de los puntos de la región a uno determinado (x1, y1) (por ejemplo una fuente de agua), el problema seŕıa el siguiente: Maximizar h(X) sujeto a: 1. f(x, y) ≥ 0. 2. ∫ D f(x, y)dxdy = 1. 3. ∫ D √ (x− x1)2 + (y − y1)2f(x, y)dxdy = k1. La densidad que se obtiene en este caso es de la forma f(x, y) = exp{λ0− 1 +λ1 √ (x− x1)2 + (y − y1)2}, sin embargo si en vez de trabajar con la distancia trabajamos con el cuadrado de esta se obtiene un resultado interesante: Maximizar h(X) sujeto a: 1. f(x, y) ≥ 0. 2. ∫ D f(x, y)dxdy = 1. 3. ∫ D((x− x1) 2 + (y − y1)2)f(x, y)dxdy = k2. Con estas restricciones, la densidad es de la forma f(x, y) = exp{λ0 − 1 + λ1((x− x1)2 + (y − y1)2)}, observando que eλ0−1 = ∫ D e λ1((x−x1)2+(y−y1)2) se obtiene que X y Y son independientes, entonces en algunas ocasiones 3.2. MÁXIMA ENTROPÍA 51 cambiando un poco la restricción el problema se llega a simplificar y a conseguir resultados importantes como independencia. Otro caso interesante para analizar es cuando queremos establecer un ĺımite para alguna de las caracteŕısticas, en este caso z : D → R, el proble- ma es de la siguiente forma: Maximizar h(X) sujeto a: 1. f(x) ≥ 0. 2. ∫ D f(x)dx = 1. 3. ∫ D máx(a, z(x))f(x)dx = c. La densidad de máxima entroṕıa es f(x) = exp{λ0 − 1 + λ1 máx(a, z(x))}, para encontrar λ1 en la tercera restricción podŕıamos partir la integral en los conjuntos donde a > z(x) y a ≤ z(x). Como se mencionó anteriormente las funciones que podemos tener en las restricciones pueden ser tan complicadas como se deseé y en algunos casos podemos reescribirlas para que resulte más sencillo trabajar con ellas, sin embargo no se pude llegar a una generalización pues las funciones pueden ser muy variadas. Anteriormente se mostraron algunas restricciones que podŕıan ser interesantes y no demasiado complicadas de trabajar. Al comparar los dos modelos podemos observar ventajas y desventa- jas de ambos, el proceso Poisson espacial resulta ser un gran modelo para contar las apariciones dentro de una región y además podemos estimar la intensidad de aparición en cada punto; además al estimar los parámetros por máxima verosimilitud obtenemos que estos deberán cumplir que los promedios observados sean iguales a las esperanzas teóricas (3.7), sin em- bargo al trabajar con promedios podŕıamos estar perdiendo información importante. Por otro lado al trabajar con distribuciones de máxima en- troṕıa las restricciones que podemos poner a las caracteŕısticas son más variadas sin perder la parte aleatoria del modelo. Finalmente concluimos que al contar con más información, que sea fácil de caracterizar, trabajar con el método de máxima entroṕıa resulta conve- niente pues ya contamos con la forma general de la densidad, mientras que 52 CAPÍTULO 3. APLICACIÓN incorporar esta información al proceso Poisson puede resultar demasiado complicado o incluso imposible en algunos casos pues se perdeŕıan algunas caracteŕısticas importantes; si contamos con poca información trabajar con el proceso Poisson resulta adecuado pues no se complica demasiado y es una buena alternativa a la aleatoriedad espacial completa. Apéndice A Resultados de Análisis En este caṕıtulo se presentan algunos resultados necesarios para el desa- rrollo del trabajo anterior. A.1. Teorema de Lebesgue-Radón-Nikodym En esta sección se presentan resultados de teoŕıa de la medida necesarios para algunas caracterizaciones que se dieron en el trabajo, únicamente nos enfocaremos a resultados usando medidas positivas aunque algunos de estos se tienen también para medidas con signo, como se puede ver en [10]. Teorema A.1.1. Sea (X,F , µ) un espacio de medida, entonces se cumplen las siguientes propiedades: a) Si E,F ∈ F y E ⊂ F entonces µ(E) ≤ µ(F ). b) Si {En}n∈N ⊂ F , entonces µ( ∞⋃ n=1 En) ≤ ∞∑ n=1 µ(En). c) Si {En}n∈N ⊂ F es una sucesión creciente de conjuntos, entonces µ( ∞⋃ n=1 En) = ĺım n→∞ µ(En). 53 54 APÉNDICE A. RESULTADOS DE ANÁLISIS d) Si {En}n∈N ⊂ F es una sucesión decreciente de conjuntos y µ(E1) es finita, entonces µ( ∞⋂ n=1 En) = ĺım n→∞ µ(En). Demostración. a) Como E ⊂ F y µ es una medida, µ(E) ≤ µ(E) + µ(F \ E) = µ(F ), por lo tanto µ(E) ≤ µ(F ). b) Sea {En}n∈N ⊂ F y Fn = En \ n−1⋃ i=1 Ei para n > 1, F1 = E1, entonces la sucesión {Fn} es de conjuntos disjuntos y n⋃ i=1 Ei = n⋃ i=1 Fi para toda n ∈ N, por lo tanto usando el inciso anterior, tenemos lo siguiente: µ ( ∞⋃ n=1 En ) = µ ( ∞⋃ n=1 Fn ) = ∞∑ n=1 µ(Fn) ≤ ∞∑ n=1 µ(En). c) Sean E0 = ∅ y Fn = En \En−1 para
Compartir