Logo Studenta

Modelacion-espacial-de-aparicion-de-especies

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA 
 DE MÉXICO 
 
 FACULTAD DE CIENCIAS 
 
 
Modelación Espacial de Aparición de Especies 
 
 
 
 
 
 
 
 
 
 
 
T E S I S 
 
 
 QUE PARA OBTENER EL TÍTULO DE: 
 Actuario 
 P R E S E N T A : 
 Adrián Maldonado Hernández 
 
 
 
 
 
 
 
 
 
 
DIRECTOR DE TESIS: 
Dra. Ana Meda Guardiola 
CIUDAD DE MÉXICO, 2019 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
Datos del Jurado 
 
1. Datos del alumno 
Maldonado 
Hernández 
Adrián 
5551062535 
Universidad Nacional Autónoma 
de México 
Facultad de Ciencias 
Actuaría 
 
2. Datos del tutor 
Dra. 
Meda 
Guardiola 
Ana 
 
3. Datos del sinodal 1 
Dr. 
Jegousse 
Arnaud Charles Leo 
 
4. Datos del sinodal 2 
M. en C. 
Barrios 
Vargas 
Juan Martín 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5. Datos del sinodal 3 
M. en C. 
Gil 
Leyva Villa 
María Fernanda 
 
6. Datos del sinodal 4 
Fís. 
Hernández 
Morales 
Jimmy 
 
7. Datos del trabajo escrito 
Modelación Espacial de Aparición 
de Especies 
66 p. 
2019 
 
 
 
 
Agradecimientos
Quiero agredecer a todas las personas que han estado conmigo duran-
te esta etapa de mi vida, comenzando por supuesto con mis amigos y mi
familia ya que sin ellos completar mis metas hubiera sido much́ısimo más
dif́ıcil. Agradezco también a los profesores que tuve a lo largo de la carrera
pues, aunque en un principio no lo supiera apreciar, siempre se aprende
algo nuevo. En especial quisiera agradecer a la profesora Ana por su apo-
yo, tiempo y paciencia durante el tiempo que se llevó a cabo este trabajo,
sobre todo porque en los primeros semestres despertó en mi un interés por
la probabilidad sin el que no hubiera podido concluir la carrera; agradezco
también al profesor Andrés de mi prepa pues despertó en mi un genuino
interés en las matemáticas, de no haberlo conocido probablemente no es-
taŕıa aqúı. Finalmente agradezco al proyecto PAPIME PE102618 pues fue
un gran apoyo para poder concluir este proyecto.
3
4
Resumen
Desde hace algunos años cada vez es más frecuente el uso de modelos
matemáticos para intentar representar y/o modelar distintos fenómenos
biológicos, en este trabajo es de nuestro interés intentar modelar la apari-
ción de especies en una región determinada cuando contamos con informa-
ción geográfica y/o ambiental sobre los lugares donde estas se encuentran.
Al ser un primer acercamiento, únicamente es de nuestro interés saber si
una especie estuvo o no en un punto determinado, sin importar el número
de individuos[9].
En el primer caṕıtulo de la tesis se aborda la teoŕıa sobre el proceso
Poisson espacial no-homogéneo pues, como se muestra en el caṕıtulo, cuan-
do queremos contar realizaciones de un proceso estocástico en un conjunto
es muy útil.
En el segundo caṕıtulo abordamos el problema desde la teoŕıa de la
información [17], intentando buscar una distribución de probabilidad que
sea la que mejor representa al fenómeno intentando que esta sea lo más
parecida que se pueda a una distribución uniforme.
Finalmente en el tercer caṕıtulo se muestra como los resultados de los
caṕıtulos anteriores se adecúan al problema de la modelación de aparición
de especies y se muestra una situación en la que son equivalentes y las
ventajas de usar uno sobre el otro.
5
6
Índice general
1. Proceso Poisson Espacial 1
1.1. Medidas Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Proceso Poisson . . . . . . . . . . . . . . . . . . . . . 4
1.2. Medidas Momento . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Proceso Poisson No Homogéneo . . . . . . . . . . . . . . . . 16
2. Entroṕıa 19
2.1. Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Entroṕıa Diferencial . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4. Entroṕıa Relativa y Verosimilitud . . . . . . . . . . . . . . . 38
3. Aplicación 41
3.1. Modelo Poisson No-Homogéneo . . . . . . . . . . . . . . . . 43
3.1.1. Verosimilitud del Proceso Poisson . . . . . . . . . . 44
3.2. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 46
A. Resultados de Análisis 53
A.1. Teorema de Lebesgue-Radón-Nikodym . . . . . . . . . . . . 53
B. Resultados Adicionales 61
B.1. Resultados Caṕıtulo 1 . . . . . . . . . . . . . . . . . . . . . 63
B.2. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 64
Bibliograf́ıa 67
7
8 ÍNDICE GENERAL
Caṕıtulo 1
Proceso Poisson Espacial
En este caṕıtulo se presentan resultados que sirven para entender por
qué puede ser conveniente usar un Proceso Poisson Espacial para modelar
el fenómeno que nos interesa, que es el de aparición de especies cuando se
tienen únicamente datos de avistamiento en diferentes localidades dentro de
una zona determinada. El problema aparece en un art́ıculo de W. Fithian y
T. Hastie [9]. Se presentan demostraciones sobre la teoŕıa de procesos pun-
tuales espaciales usando como referencias principales libros sobre procesos
puntuales y estad́ıstica espacial [7], [5] además de resultados importantes
de análisis [10].
La teoŕıa sobre procesos puntuales es extremadamente amplia y puede
llegar a ser complicada ya que se pueden obtener muchas generalizaciones
usando resultados fuertes de análisis, sin embargo, para nuestros fines esto
no será necesario pues nos centraremos únicamente en el proceso Poisson
espacial, pues es el que usaré.
De ahora en adelante cuando hablemos de un espacio, se estará conside-
rando Rd con d > 1 pues nos interesa el caso espacial, X será la σ-álgebra
de Borel y trabajamos siempre dentro de subconjuntos compactos X ⊂ Rd
con ν la medida de Lebesgue.
Primero se hablará un poco sobre procesos puntuales en general para
después enfocarnos únicamente en el Poisson y las maneras de caracteri-
zarlo.
Como primer acercamiento, podemos decir que un proceso puntual es
un modelo estocástico sobre la localización de eventos en un subconjunto
1
2 CAPÍTULO 1. PROCESO POISSON ESPACIAL
compacto del espacio si ∈ X con i = 1, ..., k, también podemos decir que
{si}ki=1 es una realización de un proceso estocástico en el espacio. Podemos
también tener procesos puntuales marcados, en cuyo caso para s ∈ Rd
existe una cantidad asociada y ∈ Y , de tal forma que se forma la pareja
(s, y) ∈ A = Rd × Y ; es bastante común encontrar procesos espaciales
marcados donde y representa el tiempo.
Una manera natural de definir a las realizaciones de un proceso puntual
espacial podŕıa ser mediante sus localizaciones, sin embargo, también se
puede usar una medida de conteo sobre los eventos de interés en X. De esta
forma se puede llegar a dos caracterizaciones equivalentes de un proceso
puntual espacial, la primera mediante el uso de medidas aleatorias como
se muestra a continuación y otra mediante la localización de los eventos de
interés, como se puede ver en [5].
1.1. Medidas Aleatorias
Definición 1.1.1. Decimos que µ es una medida localmente finita si para
cada punto x ∈ X existe una vecindadV (x) medible tal que µ(V (x)) es
finita.
Definición 1.1.2. Sea (X,F ) un espacio medible. Entonces una medida
de conteo N sobre X es una medida que tiene las siguientes propiedades:
1. N(A) toma valores en los enteros no negativos para cualquier con-
junto A medible.
2. N es una medida localmente finita.
Las medidas de conteo se pueden escribir de la forma:
N(A) =
n∑
i=1
kiIxi , (1.1)
para una colección numerable de enteros positivos ki y puntos xi ∈ X. Si
ki = 1 para toda i decimos que la medida de conteo es simple.
Entonces, si conocemos N(B) para cada B ∈X , y N(B) es una medida
de conteo simple podŕıamos conocer las localizaciones de los eventos.
1.1. MEDIDAS ALEATORIAS 3
Definición 1.1.3. Sea (X,F ) un espacio medible y (Ω,F ,P) un espacio
de probabilidad. Una medida aleatoria es una función µ : Ω × B → R
tal que para cada ω ∈ Ω, µ(ω, ·) es una medida sobre (X,B) y para cada
A ∈ B, µ(·, A) es una variable aleatoria.
Al igual que en probabilildad, en la notación generalmente se omite
ω, aśı que la medida aleatoria del conjunto A se escribe como la variable
aleatoria µ(A).
Definición 1.1.4. Un proceso puntual espacial es una medida de conteo
aleatoria.
Definición 1.1.5. Decimos que un proceso puntual espacial N es simple
si la medida de conteo es simple.
En esta ocasión consideraremos únicamente procesos simples, pues úni-
camente nos interesa la presencia o ausencia de una especie en un punto
determinado sin importar el número de individuos y esto se puede modelar
en cada punto como una variable aleatoria Bernoulli.
A continuación se introducen algunas definiciones que ayudarán a ca-
racterizar un proceso puntual.
Definición 1.1.6. Medida Atómica. Sea (X,F , µ) un espacio de medida.
Decimos que A ⊂ X es un átomo de µ si se cumple que µ(A) > 0 y para
todo B ⊂ A,B medible, µ(B) < µ(A) implica que µ(B) = 0. Decimos que
una medida es atómica si la medida tiene átomos.
Un ejemplo de una medida atómica es la de Dirac, mientras que uno de
una medida no atómica es la de Lebesgue.
Para los fines de este trabajo el uso de medidas no atómicas es necesario.
Definición 1.1.7. Medida de Radón. Sea (X,B, µ) un espacio de medida.
Se dice que una medida µ es de Radón si para todo B boreliano se tienen
las siguientes propiedades:
µ(B) = sup
A
{µ(A)|A es compacto y A ⊂ B},
µ(B) = ı́nf
C
{µ(C)|C es abierto y B ⊂ C},
µ es localmente finita, es decir como en la definición (1.1.1).
4 CAPÍTULO 1. PROCESO POISSON ESPACIAL
1.1.1. Proceso Poisson
Definición 1.1.8. Sea S = Rd, X la σ-álgebra de Borel con d > 1 y Λ
una medida localmente finita, no atómica sobre S. Un proceso Poisson con
intensidad Λ es un proceso puntual sobre S tal que:
1. Para cada conjunto compacto B ∈ X , N(B) se distribuye Poisson
con media Λ(B)
2. Si B1, ..., Bm son conjuntos disjuntos, entonces N(B1), ..., N(Bm) son
independientes.
Con el siguiente teorema se puede encontrar una caracterización para
el proceso Poisson que resulta bastante útil.
Teorema 1.1.9. Rényi. Sea µ una medida de Radón no-atómica sobre Rd.
Supongamos que N es un proceso simple de tal forma que para cada A que
se puede escribir como unión finita de rectángulos, se tiene:
P[N(A) = 0] = e−µ(A), (1.2)
entonces N es un proceso Poisson de media µ(A).
La demostración del teorema de Rényi será de la siguiente forma; pri-
mero trabajaremos con rectángulos pues conocemos la distribución dentro
de ellos, de esta forma se podrá encontrar la distribución para el proceso
N sobre el conjunto A con las caracteŕısticas que menciona el teorema y
después se usa el teorema de Kurtz para probar la existencia. Antes de
comenzar la demostración, enunciaremos algunas definiciones y resultados.
Definición 1.1.10. Sea µ una medida de Radón no-atómica. Sean n ∈ N,
kn ∈ N. Decimos que una sucesión de particiones finitas {Tn}, donde
Tn = {Ani ; i = 1, ..., kn}, sobre un conjunto A es un sistema de disección
si cumple que:
1. Ani ∩ Anj = ∅ si i 6= j y
kn⋃
i=1
Ani = A, para toda n ∈ N (es decir, Tn
es partición).
1.1. MEDIDAS ALEATORIAS 5
2. A(n−1)i ∩ Anj = ∅ ó Anj para cualesquiera i = 1, ..., k(n−1); j =
1, ..., kn. Es decir, particiones sucesivas son refinamientos de las an-
teriores.
3. Separación de puntos; sean x, y ∈ A, entonces existen n ∈ N e i ∈
{1, ..., kn} tales que x ∈ Ani y y 6∈ Ani .
Gracias a las propiedades de un sistema de disección podemos sacar
algunas conclusiones interesantes que ayudarán a la demostración del teo-
rema (1.1.9). Notemos que podemos crear sucesiones con elementos de
las particiones “centrados” alrededor de un punto x de tal forma que
∞⋂
n=1
An(x) = {x} gracias a las propiedades dos y tres; esto además im-
plica que, para estas sucesiones µ(An(x)) tiende a µ(x) cuando n tiende
a infinito pues µ es una medida finita sobre conjuntos acotados, de esta
manera podemos usar el teorema de continuidad de las medidas. En lo que
sigue, An(x) ∈ Tn denota al conjunto en Tn tal que x ∈ An. Adicional-
mente, como consideramos una medida de Radón no-atómica, tenemos que
µ(An(x)) tiende a cero cuando n tiende a infinito.
Definición 1.1.11. Un anillo R sobre un conjunto X es una familia no
vaćıa de subconjuntos de X tales que:
1. Si A, B ∈ R, entonces A ∪B ∈ R.
2. Si A, B ∈ R, entonces A \B ∈ R.
Definición 1.1.12. Sea (X, X ), donde X es la σ-álgebra de Borel de X.
Llamamos a fN (A) la función de anulación de un proceso N si:
fN (A) = P[N(A) = 0], A ⊂X .
A continuación definimos al operador ∆ de la siguiente forma:
∆(A)Φ(B) = Φ(B)− Φ(A ∪B),
∆(A1, ..., Ak)Φ(B) = ∆(Ak)[∆(A1, ..., A(k−1))Φ(B)], k=1,2,...
donde Φ(·) es una función conjuntista definida sobre un anillo de conjuntos.
6 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Definición 1.1.13. Decimos que una función Φ, definida sobre un ani-
llo de conjuntos es completamente monótona si para cada sucesión de
elementos,{An}n∈N , del anillo se tiene que:
∆(A1, ..., Ak)Φ(B) ≥ 0.
Lema 1.1.14. Sea P0(B) = P[N(B) = 0], entonces para cada k ∈ N y
A1, A2, ..., B borelianos, tenemos que
∆(A1, ..., Ak)P0(B) = P[N(Ai) > 0 (i = 1, ..., k), N(B) = 0].
Demostración. La demostración del lema se hace por inducción, entonces
para k = 1
P[N(A1) > 0, N(B) = 0] = P0(B)− P0(A1 ∪B) = ∆(A1)P0(B).
Suponemos que la hipótesis es válida para k = n, además tenemos que
∆(A1, ..., An)P0(B) = P0(B)−
n∑
i=1
P0(B ∪Ai)
+
∑
i6=j
P0(B ∪Ai ∪Aj) + ...+ (−1)nP0(
n⋃
i=1
Ai ∪B),
(1.3)
y además es igual a P[N(Ai) > 0(i = 1, ..., n), N(B) = 0]. Entonces para
k = n+ 1 tenemos que
∆(A1, ..., A(n+1))P0(B) = ∆(A(n+1))[∆(A1, ..., A(n))P0(B)],
al aplicar ∆(A(n+1)) a la ecuación anterior, se obtiene que
∆(A1, ..., A(n+1))P0(B) = P0(B)−
n+1∑
i=1
P0(B ∪Ai)
+
∑
i6=j
P0(B ∪Ai ∪Aj) + ...
+ (−1)n+1P0(
n+1⋃
i=1
Ai ∪B).
1.1. MEDIDAS ALEATORIAS 7
Definición 1.1.15. Decimos que un espacio métrico es separable si con-
tiene a un subconjunto denso y numerable.
Definición 1.1.16. Decimos que un conjunto es conexo si este no puede
ser escrito como unión disjunta de dos o más subconjuntos abiertos no
vaćıos.
Teorema 1.1.17. Kurtz.[8] Sea ψ una función sobre conjuntos definida
sobre los elementos de un anillo generado por un sistema de disección R
sobre un espacio métrico separable X. Para que exista un proceso puntual
N en X con función de anulación ψ, es necesario y suficiente que:
1. ψ sea completamente monótona,
2. ψ(∅) = 1,
3. ψ(An)→ 1 para cualquier sucesión de conjuntos acotados {An} en el
anillo R para la cual An → ∅ cuando n→∞,
4. Para cada A ∈ R tal que A es acotado:
ĺım
r→∞
P[N(A) ≤ r] = 1. (1.4)
Esta última propiedad se traduce en que el proceso debe ser localmente
finito.
La demostración del teorema de Kurtz se encuentra en [8]p.36-37 y se
comenta en el apéndice.
Ahora podemos comenzar con la demostración del teorema (1.1.9).
Demostración. (Teorema de Rényi.) Sea A un boreliano que es unión finita
de rectángulos, y sea T = {Tn} un sistema de disección sobre rectángulos
borelianos donde, recordemos,Tn = {Ani} es una partición finita (i.e. i =
1, 2, ..., kn para cada n) y Ani es un rectángulo. Entonces, estos rectángulos
cumplen, como consecuencia de las propiedades de un sistema de disección
(1.1.10), lo siguiente:
Ani =
⋃
A(n+1)jpara algunos j, donde A(n+1)j ∈ T(n+1). (1.5)
8 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Sea µ una medida de Radón no-atómica y T un sistema de disección.
Recordemos que, gracias a las propiedades dos y tres del sistema de disec-
ción (1.1.10) y que la medida es no-atómica, µ(An(x)) tiende a cero cuando
n tiende a infinito. YA ver que los conjuntos An(x) forman una sucesión
decreciente para cada x.
Como N es un proceso simple (1.1.5), que a su vez se encuentra dado
por una medida de conteo (1.1.2), definimos:
Ini =
{
1 si N(Ani) > 0,
0 si N(Ani) = 0.
(1.6)
Es decir, una función indicadora sobre el conjunto Ani que nos dice si
hubo alguna realización del evento de interés en este conjunto. Podemos
notar que las indicadoras son variables aleatorias independientes (como ve-
remos en la ecuación (1.8)). Definimos la suma de las funciones indicadoras
de la siguiente forma:
Nn(A) =
kn∑
i=1
Ini , (1.7)
en este caso nos interesa obtener la probabilidad de que no haya realiza-
ciones en el conjunto Ani :
P[Ini = 0 ∀ i ∈ {1, ..., kn}] = P[N(Ani) = 0 ∀ i ∈ {1, ..., kn}]
= P[N(
⋃
i
Ani) = 0] (1.8)
= exp{−µ(
⋃
i
Ani)} (1.9)
= exp{−
∑
i
µ(Ani)} (1.10)
=
∏
i
e−µ(Ani ), (1.11)
donde la igualdad de (1.8) con (1.9) se da por hipótesis del teorema ya que
estamos trabajando con rectángulos y (1.10) es porque los conjuntos son
disjuntos.
Ahora, podemos obtener la función generadora de probabilidad (f.g.p.)
de las funciones indicadoras definidas en (1.6) usando el producto (1.11).
1.1. MEDIDAS ALEATORIAS 9
La f.g.p. para cada función indicadora queda de la siguente forma:
E[zIni ] =
∑
x∈{0,1}
p(x)zx
= P[N(Ani) > 0]z
1 + P[N(Ani) = 0]z
0
= (1− e−µ(Ani ))z + e−µ(Ani )
= z + (1− z)e−µ(Ani ). (1.12)
Ahora, podemos sacar la f.g.p. de Nn(A) =
kn∑
i=1
Ini , pues nos interesa el
conjunto A completo.
E[zNn(A)] = E[z
∑kn
i=1 Ini ]
=
kn∏
i=1
E[zIni ]
=
kn∏
i=1
[z + (1− z)e−µ(Ani )], (1.13)
usando la independencia de las indicadoras {Ini}.
En este caso nos interesa saber qué sucede con el producto (1.13) cuando
0 ≤ z < 1 y n tiende a infinito.
Recordamos primero que µ es de Radón no-atómica; consideremos xi ∈
A para i en los naturales y Ani = An(xi) tal que {xi} =
∞⋂
n=1
Ani . Entonces,
para las sucesiones de conjuntos escogidas anteriormente µ(Ani) tiende a 0
cuando n tiende a infinito.
10 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Cada factor del producto (1.13) converge a e−(1−z)µ(Ani ) (ver B.1) y al
realizarlo obtenemos:
E[zNnA] =
∏
i
[1− (1− z)(1− e−µ(Ani ))]
= exp{−(1− z)
∑
i
µ(Ani)}
= exp{−(1− z)µ(
⋃
i
Ani)}
= exp{−(1− z)µ(A)}, (1.14)
cuando n tiende a infinito.
Dado que N es un proceso simple y la medida de conteo es finita sobre
conjuntos acotados, existe n0 tal que si n ≥ n0, los puntos donde hay
realizaciones se encuentran en diferentes conjuntos Ani , entonces a partir de
n0,Nn(A) = N(A). Además notamos que las variables aleatoriasNn(A) son
monótonas crecientes para n, teniendo como ĺımite N(A) casi seguramente,
aśı que la f.g.p de N(A) es exp{−(1− z)µ(A)}.
Recordando el Teorema de Unicidad (en el apéndice B.0.1) para las
funciones generadoras de momentos, que se puede traducir en la unicidad
de funciones generadoras de probabilidad en el caso discreto, y observando
que la f.g.p de una variable aleatoria Poisson(λ) es exp{(1−z)λ}, podemos
concluir que N(A) es una variable aleatoria Poisson de parámetro µ(A).
Una vez que sabemos qué sucede cuando trabajamos con rectángulos,
nos interesa analizar lo que sucede para borelianos en general, para esto
usaremos el teorema de Kurtz (1.1.17). La idea del teorema de Kurtz es ver
que ciertas caracteŕısticas se cumplan sobre una familia rica de conjuntos
y con esto ver que existe el proceso con la función de anulación descrita.
Rápidamente recordamos que para cada rectángulo del sistema de di-
sección que usamos al cominezo de la demostración, obtuvimos que:
P[N(Ani) = 0] = e
−µ(Ani ).
Recordamos también que si X es un subconjunto conexo de Rd entonces
es también un espacio métrico separable con la métrica de Rd pues este
último lo es.
1.1. MEDIDAS ALEATORIAS 11
Primero observamos que podemos formar un anillo con los rectángulos
Ani del sistema de disección, ya que por las caracteŕısticas del sistema si
tenemos dos conjuntos Ani y Amj con m > n hay dos opciones: Ani ⊃ Amj
o que sean disjuntos.
1. Si Amj ⊂ Ani entonces Ani ∪Amj = Ani y tenemos:
P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0]
= eµ(Ani )
2. Si los conjuntos son disjuntos, entonces:
P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0, N(Amj ) = 0]
= P[N(Ani) = 0]P[N(Amj ) = 0]
= e−µ(Ani )e−µ(Amj )
= e−µ(Ani∪Amj )
En el caso de la resta de conjuntos:
1. Si Amj ⊂ Ani , por (1.5) podemos escribir a Amj y a Ani como uniones
de rectángulos de manera que Amj =
⋃
α
Am+1α para algunos α en
el conjunto de ı́ndices {1, 2, ..., km+1} y Ani =
⋃
α
Am+1α ∪
⋃
β
Am+1β
para algunos β en el mismo conjunto de ı́ndices y Am+1α∩Am+1β = ∅
para cualesquiera α, β, entonces:
P[N(Ani \Amj ) = 0] = P[N(
⋃
β
Am+1β ) = 0]
= e
−µ(
⋃
β Am+1β )
= e−(µ(Ani\Amj )),
2. Si los conjuntos son disjuntos entonces Ani \Amj = Ani y entonces:
P[N(Ani \Amj ) = 0] = P[N(Ani) = 0]
= e−µ(Ani )
12 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Entonces podemos formar un anillo R con los rectángulos del sistema
de disección, con la misma función de anulación (1.1.12) como la enunciada
en el teorema de Rényi (1.2), de ahora en adelante la llamaremos f0.
Podemos ver que f0 es completamente monótona con el lema (1.1.14).
Además como µ es una medida, tenemos que:
f0(∅) = e−µ(∅) = 1
Para ver que se cumple la tercera propiedad del teorema (1.1.17), recor-
damos primero que cada Ani es acotado desde el sistema de disección pues
el conjunto A sobre el que lo realizamos es acotado, aśı que cada sucesión
{An} es acotada. Ahora si tenemos una sucesión tal que An → ∅ cuando
n → ∞, como µ es una medida de Radón y por la propiedad dos de la
definición de un sistema de disección (1.1.10):
ĺım
n→∞
e−µ(An) = 1
Finalmente la cuarta propiedad, proceso localmente finito, en nuestro
caso viene desde el teorema de Rényi, pues pedimos que el proceso sea
simple y anteriormente hab́ıamos pedido que para este tipo de procesos la
medida de conteo deb́ıa ser localmente finita.
Entonces, gracias al teorema de Kurtz, existe un proceso que tiene como
función de anulación a f0, que como se vio anteriormente (1.14), induce
como función generadora de probabilidad a :
E[zN(A)] = e−(1−z)µ(A), (1.15)
que resulta ser la de una variable aleatoria Poisson. Por lo tanto N es un
proceso Poisson sobre A con media µ(A).
1.2. Medidas Momento
Los momentos de los procesos puntuales son similares a los de las va-
riables aleatorias que ya conocemos y se pueden relacionar con ellas, sin
embargo, aunque hay ciertos aspectos en común, la definición se complica
-como era de esperarse-, pues ahora la interpretación será la de una medida
aleatoria sobre un espacio producto.
1.2. MEDIDAS MOMENTO 13
Definición 1.2.1. Sea n ∈ N, la n-ésima potencia de un proceso puntual
N se define como:
N(B1 × ...×Bn) =
n∏
i=1
N(Bi), (1.16)
donde B1, ..., Bn son borelianos en Rd, no necesariamente disjuntos, que for-
man un producto cartesiano entre n borelianos. Cabe remarcar que N(Bi)
es aleatorio, pues como se hab́ıa mencionado en el caṕıtulo N es una medida
de conteo aleatoria (1.1.4).
De forma alternativa, podemos ver la n-ésima potencia como:
N(B1 × ...×Bn) =
∑
(x1,...,xn)∈N
n∏
i=1
IBi(xi). (1.17)
Aunque las ecuaciones anteriores son equivalentes para de definir la n-
ésima potencia de un proceso puntual, cada una tiene ventajas en cuanto
a su uso. Mientras que la ecuación (1.16) da una idea mucho más sencilla
de la forma en que debe calcularse yserá muy útil al sacar esperanzas,
la manera alternativa (1.17) da una idea más clara sobre la situación en
la que nos encontramos y algunos problemas que podŕıa acarrear como se
verá más adelante.
Una interpretación de (1.17) es que vamos a sumar, sobre todos los pun-
tos que pertenezcan al proceso N , los productos de las indicadoras sobre
cada uno de los borelianos que forman al producto cartesiano; (x1, ..., xn)
son n-tuplas de puntos que pertenecen al proceso. De esta forma pode-
mos ver que calcular las esperanzas puede llegar a complicarse debido a
las repeticiones de los puntos pues los borelianos no necesariamente son
disjuntos.
Los momentos de un proceso puntual se pueden ver como medidas,
recordemos que en nuestro caso, trabajamos en Rd con la σ-álgebra de Borel
y en espacios producto dependiendo del momento que se desee obtener.
Definición 1.2.2. La medida del n-ésimo momento de un proceso puntual
la definimos como la esperanza de la n−ésima potencia de un proceso
puntual:
µ
(n)
N (B1 × ...×Bn) = E[N(B1 × ...×Bn)]. (1.18)
14 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Usando (1.16) tenemos que:
µ
(n)
N (B1 × ...×Bn) = E[N(B1)...N(Bn)]. (1.19)
Interpretando los momentos como medidas sobre espacios producto nos
referiremos a µ
(n)
N (B) como la medida del n-ésimo momento, donde B =
B1 × ...×Bn es un conjunto medible en un espacio producto.
Particularmente, si B1 = ... = Bn al calcular la medida del n-ésimo
momento, obtenemos tal cual el n-ésimo momento de una variable aleatoria:
µ
(n)
N (B
n
1 ) = E[N(B1)n].
Al igual que con variables aleatorias, son de especial interés los prime-
ros dos momentos ya que podemos obtener información muy importante
sobre el proceso; como trabajamos con un proceso Poisson los primeros dos
momentos son conocidos para nosotros:
µ(1)(B) = E[N(B)] = Λ(B), (1.20)
µ(2)(B ×B) = E[N(B)2] = Λ(B)2 + Λ(B), (1.21)
donde la medida del primer momento es la intensidad del proceso y la
medida del segundo momento se obtiene a partir de la varianza pues por
ser Poisson la conocemos y se obtiene de la misma forma que la de una
variable aleatoria:
V ar(N(B)) = µ(2)(B ×B)− µ(1)(B)2. (1.22)
De forma similar podŕıamos obtener la covarianza:
Cov(N(B1)N(B2)) = µ
(2)(B1 ×B2)− µ(1)(B1)µ(1)(B2), (1.23)
sin embargo la medida del segundo momento que aqúı aparece puede ser
dif́ıcil de calcular si los conjuntos B1 y B2 no son disjuntos. Para facilitar
el cálculo podemos reescribirlos como uniones disjuntas:
B1 = B1 ∩B2 ∪B1 \B2,
1.2. MEDIDAS MOMENTO 15
B2 = B1 ∩B2 ∪B2 \B1,
de esta forma, recordando que N es una medida de conteo (ver 1.1.4),
podemos obtener el siguiente resultado:
µ(2)(B1 ×B2) = E[N(B1)N(B2)]
= E[N((B1 ∩B2) ∪B1 \B2)N((B1 ∩B2) ∪B2 \B1)]
= E[N(B1 \B2)]E[N(B2 \B1)] + E[N(B1 ∩B2)2] (1.24)
+ E[N(B2 \B1)]E[N(B1 ∩B2)] + E[N(B1 \B2)]E[N(B1 ∩B2)]
= µ(2)((B1 ∩B2)2) + µ(1)(B1 \B2)µ(1)(B2 \B1) (1.25)
+ µ(1)(B1 \B2)µ(1)(B1 ∩B2) + µ(1)(B2 \B1)µ(1)(B1 ∩B2)
= µ(2)((B1 ∩B2)2) + µ(1)(B1)µ(1)(B2)− µ(1)(B1 ∩B2)2
(1.26)
= µ(1)(B1)µ
(1)(B2) + V ar(N(B1 ∩B2)). (1.27)
Donde (1.24) sucede gracias a que N es una medida y los conjuntos los
pudimos escribir como uniones disjuntas, (1.25) es únicamente reescribir
a las esperanzas anteriores como medidas momento; (1.26) se obtiene al
recordar que µ(A \ B) = µ(A) − µ(A ∩ B) si la medida de A es finita y
por último (1.27) se da por la definición de varianza usada anteriormente
(1.22). Finalmente, remarcamos que para obtener las medidas momento
de órdenes superiores se puede usar el mismo método de descomposición
en uniones disjuntas; es fácil ver que al subir el orden, también crece la
dificultad para obtener la medida momento que deseamos.
En ocasiones en vez de usar la descomposición de los conjuntos se usan
momentos factoriales, como se puede ver en [3] la definición sufre algunos
cambios respecto a la que aqúı se usó, pero desde el principio se trabaja
con conjuntos dijsuntos con las ventajas que esto conlleva.
16 CAPÍTULO 1. PROCESO POISSON ESPACIAL
1.3. Proceso Poisson No Homogéneo
Hemos obtenido resultados sobre un proceso Poisson espacial; sin em-
bargo ahora debemos profundizar en el tipo de proceso que se quiere usar.
Sabemos que condicionado al número de puntos en un proceso Poisson
usual estos se distribuyen uniformemente, esta situación es precisamente la
que queremos evitar pues diŕıa que no conocemos muy bien el fenómeno al
que nos enfrentamos o bien este es “geográficamente” completamente ho-
mogéneo, lo cual permitiŕıa cuestionar la necesidad de utilizar información
geográfica.
Con el fin de permitir situaciones más generales se usará un proceso
Poisson no-homogéneo.
Definición 1.3.1. Definimos la función de intensidad de primer orden λ
de un proceso Poisson como:
λ(s) = ĺım
ν(ds)→0
E[N(ds)]
ν(ds)
, (1.28)
donde ds es una vecindad alrededor de s y ν(ds) su medida de Lebesgue.
Esta función se puede interpretar como la intensidad del proceso res-
pecto a la medida de Lebesgue alrededor de un punto; esta función λ(s)
es la derivada de Radón-Nikodym (A.1.8) de la medida de la media (1.20)
respecto de la medida de Lebesgue, pues podemos ver que si ν(A) = 0
entonces E[N(A)] = 0, pues recordamos que la medida de la media es una
medida de Radón, no atómica.
De manera similar se puede definir la intensidad del k-ésimo orden λ(k)
como:
λ(k)(s1, s2, ..., sk) = ĺım
ν(dsi)→0, i=1,...,k
E[N(ds1 × ds2 × ...× dsk)]
ν(ds1)ν(ds2)...ν(dsk)
.
De lo anterior podemos recordar que la parte superior del cociente es
una medida del k-ésimo momento como se vio en la sección anterior (1.19).
Gracias al teorema de Radón-Nikodym (A.1.8) obtenemos la medida de
la media de la siguiente forma:
µ(A) =
∫
A
λ(s)ds, (1.29)
1.3. PROCESO POISSON NO HOMOGÉNEO 17
donde λ(s) es la intensidad de primer orden del proceso, además a partir
de la definición de esta es claro que es no negativa.
Entonces si λ(s) es una constante para toda s ∈ X, decimos que tenemos
un proceso Poisson homogéneo y su intensidad (medida de la media)
resulta proporcional a la medida de Lebesgue del conjunto, en cambio si la
función no es constante tenemos un proceso Poisson no-homogéneo.
La diferencia entre estos procesos radica en que el homogéneo se usa
cuando se intenta modelar un fenómeno completamente aleatorio en el es-
pacio (CSR por sus siglas en inglés), pues al condicionar sobre el número de
puntos en una región observamos que estos se distribuyen uniformemente
gracias a la función de intensidad; mientras que un proceso no-homogéneo
arroja la idea de que conocemos algún comportamiento geográfico espećıfico
sobre el fenómeno y podemos describir mejor la intensidad de las aparicio-
nes.
A partir de ahora trabajaremos entonces con un proceso Poisson espa-
cial no-homogéneo. Entonces, sea µ una medida de Radón (1.1.7) sobre
X ⊂ Rd y sea B ∈ X , donde X es la σ-álgebra de Borel de X. Por la
sección 1.1, en particular gracias a la función generadora de probabilidad
obtenida en (1.15), el proceso N satisface que:
P[N(B) = n] =
e−µ(B)µ(B)n
n!
, n ∈ N. (1.30)
De manera similar sea λ(s) la intensidad de primer orden del proceso
(1.28), condicionado al numero de puntos del proceso sobre un conjunto
acotado A ∈ X (N(A) = n), estos se distribuyen como una muestra alea-
toria con una función de densidad dada por:
lA(s) = P[S = s|N(A) = n]
=
λ(s)
µ(A)
,
(1.31)
para cada punto s ∈ A, donde µ(A) =
∫
A λ(s)ds. Al condicionar sobre el
número de puntos de A y teniendo una tupla de n miembros sn =(s1, ..., sn),
si ∈ A para i = 1, ..., n, la densidad condicional es:
lA(s1, ..., sn) =
n∏
i=1
λ(si)
µ(A)n
, (1.32)
18 CAPÍTULO 1. PROCESO POISSON ESPACIAL
ya que como se mencionó anteriormente, los puntos se distribuyen como
una muestra aleatoria y entonces la densidad conjunta es la multiplicación
de las densidades de cada punto (1.31) por independencia y siempre que
si 6= sj cuando i 6= j. Nos interesa conocer la distribución conjunta de una
tupla de puntos. Enparticular eso nos permite conocer la distribución de
cada uno por serparado, de esta forma se obtiene:
pA(sn, n) = lA(s1, ..., sn)P[N(A) = n]
=
{
e−µ(A) n = 0,
e−µ(A)
∏n
i=1 λ(si)
n! n ≥ 1,
(1.33)
ya que en el primer caso, cuando n = 0, tenemos que pA((s1, ..., sn), n) =
P[N(A) = 0] y el segundo caso se da al multiplicar (1.30) con (1.32) y
reducir términos.
Por último sumando sobre todos los posibles valores de n e integrando
sobre λ(s) obtenemos que:
pA(sn, 0) +
∞∑
n=1
∫
An
pA(sn, n)dsn = e
−µ(A) +
∞∑
n=1
e−µ(A)
n!
∫
An
n∏
i=1
λ(si)dsn
= e−µ(A) +
∞∑
n=1
e−µ(A)
n!
(∫
A
λ(s)ds
)n
=
∞∑
n=0
e−µ(A)
n!
(∫
A
λ(s)ds
)n
=
∞∑
n=0
e−µ(A)µ(A)n
n!
= 1,
donde la segunda igualdad resulta de separar el producto de las integrales
con su respectivo diferencial y ver que son la misma sobre el conjunto A y
tenemos n de estas, la cuarta igualdad sale recordando (1.29) ya que λ(s)
es la intensidad de primer orden y finalmente aqúı observamos que tenemos
una función de densidad de una variable aleatoria Poisson la cual sabemos
suma uno sobre todo el espacio de estados.
En caṕıtulos posteriores veremos la importancia de los resultados aqúı
obtenidos.
Caṕıtulo 2
Entroṕıa
La Teoŕıa de la Información de Shannon nace (según [18]) a partir de un
art́ıculo publicado en 1948 [17], donde propone, según el t́ıtulo del trabajo
de Shannon, una “Teoŕıa Matemática de la Comunicación”, refiriéndose
espećıficamente a la transmisión de señales. La teoŕıa de la información en
años recientes se ha aplicado en muchos campos, principalmente estudiando
la transmisión, procesamiento y utilización de la información como cada
campo lo interpreta, es por esto que el concepto de información cambia
según el campo de estudio y esto lo hace un poco ambiguo.
En este trabajo nos interesa la entroṕıa de una distribución de probabi-
lidad, pues se puede interpretar como la cantidad promedio de información
que produce una fuente de datos con una distribución determinada. Quere-
mos encontrar una función que sea la que mejor explique o más información
arroje sobre el fenómeno de interés.
2.1. Entroṕıa
La entroṕıa se puede entender como una medida de incertidumbre so-
bre un sistema. En la teoŕıa desarrollada por Shannon, la entroṕıa es una
medida de incertidumbre pero sobre variables aleatorias. Es decir, conocer
la entroṕıa de una variable aleatoria, nos dirá qué tanta información sobre
el experimento se puede encontrar de acuerdo a las probabilidades de cada
estado posible. Esto se discutirá más adelante en el caṕıtulo.
19
20 CAPÍTULO 2. ENTROPÍA
Con fines prácticos hablaremos primero sobre la entroṕıa y algunos
resultados relacionados para variables aleatorias discretas y después lleva-
remos los mismos resultados al caso continuo.
2.1.1. Definiciones
Definición 2.1.1. Sea X una variable aleatoria discreta y p(x) = P[X =
x], x ∈ E, donde E es R o un subconjunto de este. La entroṕıa de X,
H(X) se define como:
H(X) = −
∑
x∈E|p(x)>0
p(x) log(p(x)). (2.1)
Observación: la entroṕıa de una variable aleatoria puede tomar el va-
lor extendido +∞, sin embargo cuando hablemos de resultados que involu-
cren la suma o resta de entroṕıas los consideraremos cuando la operación
se encuentre bien definida.
Generalmente en teoŕıa de la información el logaritmo se usa con base
dos para medir la entroṕıa en bits, sin embargo en nuestro caso no es
necesario y lo tomaremos como logaritmo natural de ahora en adelante,
cuya unidad son nats.
Es fácil ver que la entroṕıa es una esperanza pues:
−
∑
x∈E|p(x)>0
p(x) ln(p(x)) = −E[ln(p(X))].
Observación: algunos autores en vez de hacer la suma sobre el soporte
de la función de masa en cuestión, toman la convención de que 0ln(0) = 0,
lo cual se puede justificar con argumentos de continuidad de la siguiente
forma:
ĺım
x→0+
x ln(x) = ĺım
t→∞
e−t ln(e−t)
= ĺım
t→∞
−t
et
= 0.
(2.2)
De ahora en adelante al conjunto {x ∈ E|p(x) > 0} lo denotaremos
como SX , recordemos que este conjunto es numerable por ahora ya que
trabajamos con variables aleatorias discretas.
2.1. ENTROPÍA 21
Lema 2.1.2. Para toda variable aleatoria X discreta, H(X) ≥ 0.
Demostración. Como 0 < p(x) ≤ 1 y − ln(p(x)) = ln( 1p(x)) se sigue que
ln( 1p(x)) ≥ 0.
Un ejemplo sencillo para entender un poco sobre qué nos está diciendo
la entroṕıa es el siguiente. Comparemos la entroṕıa de una moneda justa
y un dado justo. Haciendo uso de la definición, ya que los estados son
equiprobables, obtenemos el siguiente resultado:
H(moneda) = −2(12) ln(
1
2) = ln(2).
H(dado) = −6(16) ln(
1
6) = ln(6).
Como ln(6) > ln(2) la entroṕıa de la variable aleatoria que representa a
la moneda es menor a la del dado. De manera similar, es fácil ver que si
tenemos dos variables aleatorias uniformes con k y n espacios de estados
respectivamente, si n > k la entroṕıa de Xn será mayor que la de Yk; en-
tonces podemos hacer una vaga conclusión inicial para el caso uniforme,
mientras más grande sea el espacio de estados mayor será la entroṕıa, es
decir habrá mayor incertidumbre sobre el resultado del experimento. Más
adelante se verá que una variable aleatoria uniforme es la de máxima en-
troṕıa para el caso discreto en caso de que el espacio de estados sea finito.
A continuación se introducen algunas definiciones que ayudan al estu-
dio de la relación entre dos o más variables aleatorias (aqúı se mencionan
solamente los casos para dos, sin embargo se puede generalizar) de acuerdo
a la información que se puede obtener con ellas. Recordamos que la suma
se efectúa únicamente sobre el soporte de la variable aleatoria.
Definición 2.1.3. La entroṕıa conjunta entre dos variables aleatorias X
y Y discretas con densidad conjunta p(x, y) se define como:
H(X,Y ) = −
∑
SX
∑
SY
p(x, y) ln(p(x, y)), (2.3)
o bien:
H(X,Y ) = −E[ln(p(X,Y ))].
22 CAPÍTULO 2. ENTROPÍA
De forma similar podemos definir la entroṕıa condicional de dos va-
riables aleatorias. Entonces sean X y Y dos variables aleatorias discretas,
definimos p(y|x) como la probabilidad condicional P[Y = y|X = x]. Y de-
fimos también H(Y |X = x) como
∑
SY
p(y|x) ln(p(y|x)), aqúı consideramos
x fijo.
Definición 2.1.4. La entroṕıa condicional entre dos variables aleatorias
con función de densidad conjunta p(x, y) se define como:
H(Y |X) =
∑
SX
p(x)H(Y |X = x), (2.4)
donde p(x) es la densidad marginal de X. Igual que antes, podemos mani-
pular la ecuación anterior para obtener una forma donde encontremos una
esperanza, aśı (2.4) se convierte en:
H(Y |X) = −
∑
SX
p(x)
∑
SY
p(y|x) ln(p(y|x))
= −
∑
SX
∑
SY
p(x)p(y|x <) ln(p(y|x))
= −E[ln(p(Y |X))]. (2.5)
Una relación interesante entre la entroṕıa conjunta y la condicional es
la siguiente, que una vez vista resulta bastante natural. A este resultado se
le conoce como regla de la cadena
Teorema 2.1.5. Regla de la cadena. Sean X, Y variables aleatorias dis-
cretas. Entonces:
H(X,Y ) = H(X) +H(Y |X). (2.6)
Demostración.
H(X,Y ) = −
∑
SX
∑
SY
p(x, y) ln(p(x, y))
= −
∑
SX
∑
SY
p(x, y) ln(p(y|x)p(x))
2.1. ENTROPÍA 23
= −
∑
SX
∑
SY
p(x, y) ln(p(y|x))−
∑
SX
∑
SY
p(x, y) ln(p(x)),
observamos que la primera doble suma resulta ser la entroṕıa condicional
H(Y |X), además después de sumar sobre SY en la segunda se obtienen las
probabilidades marginales de X y tenemos entonces:
H(X,Y ) = H(Y |X)−
∑
SX
p(x) ln(p(x))
= H(Y |X) +H(X).
A continuación se introducen dos conceptos importantes que se pueden
usar para entender y comparar la relación entre dos distribuciones y entre
dos variables aleatorias respectivamente.
Definición 2.1.6. La entroṕıa relativa o distancia de Kullback-Leibler en-
tre dos funciones de masa de probabilidad p(x) y q(x) respectivamente, se
define como:
D(p||q) =
∑
SX
p(x) ln
p(x)
q(x)
(2.7)
= Ep
[
ln
(
p(X)
q(X)
)]
,
donde la esperanza se calcula bajo la función de masa p(x).
En [14] Kullback dice que la entroṕıa relativa está definida para dos
medidas absolutamentecontinuas (A.1.2) respectivamente, para el caso dis-
creto esto se traduce en que p(xi) = 0 siempre que q(xi) = 0 y viceversa. Si
se da lo anterior gracias al teorema de Radón-Nikodym podemos ver que
p/q es una derivada de Radón-Nikodym. La entroṕıa relativa es una medi-
da de la ’distancia’ entre dos distribuciones (no es una distancia verdadera
pues ni siquiera es simétrica, pero es una buena forma de interpretarlo), es
decir, arroja información sobre la ineficiencia de asumir la distribución q
cuando la p es la verdadera. Otra forma de verlo es que la entroṕıa relativa
nos dirá qué tan equivocados estamos si consideramos a la distribución q
en vez de la p.
24 CAPÍTULO 2. ENTROPÍA
También nos puede interesar la relación entre dos variables aleatorias,
qué tanta información aporta una a la otra para reducir o no la incerti-
dumbre sobre una de estas, aśı se introduce el concepto de información
mutua.
Definición 2.1.7. Sean X y Y dos variables aleatorias con función de
masa conjunta p(x, y) y p(x), p(y) las marginales. La información conjunta
se define como la entroṕıa relativa entre la densidad conjunta y el producto
de las marginales, es decir:
I(X;Y ) = D(p(x, y)||p(x)p(y)), (2.8)
que se puede ver como:
I(X;Y ) =
∑
SX
∑
SY
p(x, y) ln(
p(x, y)
p(x)p(y)
).
La información mutua también se puede escribir como E
[
ln
(
p(X,Y )
p(X)p(Y )
)]
bajo la función de masa de probabilidad conjunta.
La importancia de considerar las marginales corresponde a cuando las
variables aleatorias X y Y son independientes como se verá más adelante.
A continuación presentamos una propiedad que se usará más adelante
en el caṕıtulo:
Lema 2.1.8. Sean X, Y dos variables aleatorias discretas, entonces tene-
mos la siguiente relación:
I(X;Y ) = H(X)−H(X|Y ). (2.9)
Demostración.
I(X;Y ) =
∑
SX
∑
SY
p(x, y) ln
(
p(x, y)
pX(x)pY (y)
)
=
∑
SX
∑
SY
p(x, y) ln
(
p(x, y)
pY (y)
)
−
∑
SX
∑
SY
p(x, y) ln(pX(x))
=
∑
SX
∑
SY
p(x, y) ln
(
pY (y)p(x|y)
pY (y)
)
−
∑
SX
p(x) ln(pX(x)) (2.10)
2.1. ENTROPÍA 25
=
∑
SX
∑
SY
p(x, y) ln(p(x|y)) +H(X)
= H(X)−H(X|Y ), (2.11)
donde (2.10) se da al sumar en la ecuación anterior sobre SY y (2.11) es
debido a la definición de entroṕıa condicional (2.1.4).
Una interrogante que podŕıa surgir es ¿qué pasa si la entroṕıa relativa
o la información mutua resultan ser negativas?, pues la interpretación de
ambas no tendŕıa sentido para las definiciones que se dieron anteriormente.
Afortunadamente esto no puede suceder como se mostrará a continuación.
Teorema 2.1.9. Sean p(x) y q(x) dos funciones de masa de probabilidad.
Entonces:
D(p||q) ≥ 0, (2.12)
la igualdad se obtiene si y sólo si p(x) = q(x) para toda x ∈ X.
Demostración. Recordamos primero que consideramos que la suma corre
únicamente sobre el soporte de X, no importando bajo cual de las funciones
de masa consideramos el sopoprte ya que como se mencionó anteriormente
son absolutamente continuas una respecto de la otra. Demostraremos que
−D(p||q) ≤ 0. Usaremos la desigualdad de Jensen (B.1) que nos dice que
si g es una función convexa entonces:
g(E[X]) ≤ E[g(X)].
−D(p||q) = −
∑
SX
p(x) ln
(
p(x)
q(x)
)
=
∑
SX
p(x) ln
(
q(x)
p(x)
)
≤ ln
∑
SX
p(x)
q(x)
p(x)
 (2.13)
26 CAPÍTULO 2. ENTROPÍA
= ln
∑
SX
q(x)

= ln(1) (2.14)
= 0,
aqúı (2.13) se sigue por la desigualdad de Jensen pues ln es una función
cóncava y (2.14) se da pues q(x) es una función de masa de probabilidad y
recordamos que p y q son absolutamente continuas una respecto de la otra
aśı que el soporte es el mismo para ambas.
Veamos que la igualdad en (2.13) si y sólo si p(x) = q(x) para toda x.
Si p(x) = q(x) para toda x tenemos:
∑
SX
p(x) ln
(
q(x)
p(x)
)
≤ ln
∑
SX
p(x)
q(x)
p(x)
 (2.15)
∑
SX
p(x) ln(1) ≤ ln
∑
SX
p(x)

0 ≤ ln(1)
0 = 0,
donde (2.15) se da gracias a la desigualdad de Jensen (B.1). Supongamos
ahora que tenemos la igualdad en (2.15), entonces:
∑
SX
p(x) ln
(
q(x)
p(x)
)
= ln
∑
SX
q(x)

∑
SX
p(x) ln
(
q(x)
p(x)
)
= 0,
2.1. ENTROPÍA 27
además para tener la igualdad en la desigualdad de Jensen debemos tener
que q(x)p(x) = c para toda x ∈ SX , entonces obtenemos lo siguiente:∑
SX
p(x) ln
(
q(x)
p(x)
)
= ln(c)
∑
SX
p(x)
= ln(c),
por lo tanto c = 1, entonces p(x) = q(x) para toda x ∈ SX .
Corolario 2.1.10. Sean X y Y dos variables aleatorias con función de
densidad conjunta p(x,y), entonces:
I(X;Y ) ≥ 0, (2.16)
la igualdad se da si y sólo si las variables aleatorias son independientes.
Demostración.
I(X;Y ) = D(p(x, y)||p(x)p(y)) ≥ 0 (2.17)
por el teorema anterior. Si las variables son independientes tenemos:
I(X;Y ) = D(p(x, y)||p(x)p(y))
= D(p(x)p(y)||p(x)p(y))
= −
∑
SX
∑
SY
p(x)p(y) ln
p(x)p(y)
p(x)p(y)
= −
∑
SX
∑
SY
p(x)p(y) ln(1)
= 0.
Si D(p(x, y)||p(x)p(y)) = 0 usando el teorema anterior observamos que
p(x, y) = p(x)p(y) lo cual sucede únicamente cuando las variables aleatorias
son independientes.
28 CAPÍTULO 2. ENTROPÍA
Un resultado interesante que se obtiene a partir del teorema anterior y
de 2.1.8) es que condicionar una variable aleatoria respecto de otra no re-
sulta en pérdida de información, es decir la entroṕıa no crece al condicionar;
más bien ocurre lo contrario.
Teorema 2.1.11. Sean X y Y dos variables aleatorias, entonces:
H(X|Y ) ≤ H(X). (2.18)
Demostración. Recordando el lema (2.1.8) observamos que
I(X;Y ) = H(X)−H(X|Y ),
además por el corolario (2.1.10) I(X : Y ) ≥ 0; de esta forma, juntando los
dos resultados tenemos:
H(X|Y ) ≤ H(X).
A continuación se presenta un teorema que da una cota para la entroṕıa
de una variable aleatoria si el espacio de estados es finito.
Teorema 2.1.12. Sea X una variable aleatoria y E su espacio de estados,
|E| su cardinalidad y p(x) = P[X = x] entonces:
H(X) ≤ ln |E|. (2.19)
Demostración. Sea u(x) = 1|E| para toda x ∈ E, la densidad de una variable
aleatoria uniforme, entonces usando la entroṕıa relativa (2.7) tenemos que:
D(p||u) =
∑
SX
p(x) ln
(
p(x)
u(x)
)
=
∑
SX
p(x) ln(p(x))−
∑
SX
p(x) ln(u(x))
= −H(X) +
∑
x
p(x) ln
(
1
u(x)
)
= −H(X) + ln |E|
∑
SX
p(x)
= ln |E| −H(X),
2.2. ENTROPÍA DIFERENCIAL 29
recordando el teorema (2.1.9) tenemos que:
0 ≤ ln |E| −H(X)
H(X) ≤ ln |E|.
Del teorema anterior podemos concluir que para el caso discreto la
distribución de máxima entroṕıa es una uniforme cuando el espacio de
estados es finito.
2.2. Entroṕıa Diferencial
Como se verá más adelante, en el caso de estudio en que nos encontra-
mos discretizar el espacio puede causar algunos problemas, es por eso que
en esta sección hablaremos sobre la entroṕıa diferencial, es decir la entroṕıa
cuando tenemos variables aleatorias continuas. Shannon no desarrolló esta
fórmula sino que simplemente la supuso como se puede ver en [17]. Esta
versión no comparte todas las propiedades que tiene la entroṕıa que se
vieron en la sección anterior, como se verá un poco más adelante.
De ahora en adelante usaremos una notación diferente. Sea X una va-
riable aleatoria tal que su función de distribución F (x) es continua. Más
aún, supondremos que F tiene densidad, esto es, que existe f ≥ 0 tal
que F (x) =
∫ x
−∞ f(t)dt o bien para el caso multivariado F (x1, ..., xk) =∫ x1
−∞ ...
∫ xk
−∞ f(t1, ..., tk)dt1...dtk. Sea SX = {x ∈ R
d|f(x) > 0}, en caso de
no especificarse S será el soporte de las variables aleatorias indicadas..
Definición 2.2.1. La entroṕıa diferencial de la variable aleatoria continua
X con función de densidad f(x) se define como:
h(X) = −
∫
SX
f(x) ln f(x)dx = −E[ln f(X)]. (2.20)
Podemos observar que Shannon simplemente cambió el śımbolo de la
suma por el de la integral, lo cual se traduce en algunos problemas, por
ejemplo, la no negatividad de la entroṕıa no se encuentra en este caso.
30 CAPÍTULO 2. ENTROPÍA
Consideremos una variable aleatoria X que se distribuye uniformemente
sobre sobre el intervalo [0, a], entonces f(x) = 1a , al obtener la entroṕıa
tenemos:h(X) = −
∫ a
0
1
a
ln
(
1
a
)
dx
=
∫ a
0
1
a
ln(a)dx
=
1
a
ln(a)
∫ a
0
dx
= ln(a),
entonces si 0 < a < 1 la entroṕıa resulta negativa, lo cual no tiene sentido
con la interpretación que se tiene de esta.
A continuación introducimos algunas definiciones similares a las del
caso discreto para la entroṕıa diferencial.
Definición 2.2.2. La entroṕıa diferencial de un vector aleatorio X =
(X1, ..., Xn) de variables aleatorias con función de densidad conjunta f(X)
se define como:
h(X) = −
∫
S
f(x) ln(f(x))dx = −E[ln(f(X))]. (2.21)
Definición 2.2.3. Si dos variables aleatorias X, Y tienen función de den-
sidad conjunta f(x, y) y f(y|x) = f(x,y)fX(x) (donde fX(x) es la densidad mar-
ginal de X) es la densidad condicional de Y dada X, la entroṕıa diferencial
condicional se define como:
h(X|Y ) = −
∫
S
f(x, y) ln(f(x|y))dxdy, (2.22)
con un poco de álgebra, como tenemos que f(x|y) = f(x,y)fY (y) , entonces:
h(X|Y ) = h(X,Y )− h(Y ),
que es la misma forma que encontramos en la regla de la cadena (2.6) y se
deben analizar los casos en los que algún término no sea finito.
2.2. ENTROPÍA DIFERENCIAL 31
Definición 2.2.4. La entroṕıa relativa para el caso continuo, si tenemos
dos medidas de probabilidad F , G absolutamente continuas (A.1.2) una
respecto de la otra, se define como:
D(F ||G) =
∫
X
ln
(
dF
dG
)
dF, (2.23)
donde dFdG es la derivada de Radón-Nikodym (A.1.8) de F respecto a G, de
manera similar si µ es una medida sobre X tal que F y G son absolutamente
continuas respecto a µ, f = dFdµ y g =
dG
dµ son las derivadas de Radón-
Nikodym de F y G respecto a µ, entonces tenemos que:
D(F ||G) =
∫
S
f ln
(
f
g
)
dµ.
De ahora en adelante escribirD(f ||g) será equivalente a escribirD(F ||G)
pues trabajamos siempre con la medida de Lebesgue.
Definición 2.2.5. La información mutua entre dos variables aleatorias
continuas X y Y con función de densidad conjunta f(x, y) se define como:
I(X : Y ) =
∫
S
f(x, y) ln
(
f(x, y)
fX(x)fY (y)
)
dxdy. (2.24)
Observación: es interesante ver que las propiedades de las versiones
continuas de las dos definiciones anteriores se mantienen igual a la de sus
versiones discretas.
Teorema 2.2.6. Sean f(x) y g(x) dos funciones de densidad de probabi-
lidad, entonces:
D(f ||g) ≥ 0,
la igualdad se da si y sólo si f = g casi donde sea.
Demostración. Al igual que en el caso discreto (2.1.9) demostraremos que
−D(f ||g) ≤ 0 usando la desigualdad de Jensen.∫
S
f(x) ln
(
g(x)
f(x)
)
dx ≤ ln
∫
S
g(x)dx
= ln(1)
= 0,
32 CAPÍTULO 2. ENTROPÍA
donde la primera desigualdad se da por la desigualdad de Jensen (B.1) y
después usamos el hecho de que f y g son absolutamente continuas una
respecto de la otra y son densidades de probabilidad.
Para verificar la igualdad observamos que si f = g casi donde sea es
inmediato, entonces chequemos el otro caso suponiendo que D(f ||g) = 0 y
usando la desigualdad de Pinsker (B.0.4). Sea (X,F) un espacio medible y
F , G dos distribuciones de probabilidad y f , g sus densidades, entonces:
sup{|F (A)−G(A)|;A ∈ F} ≤
√
1
2
D(f ||g), (2.25)
entonces,
sup{|F (A)−G(A)|;A ∈ F} ≤ 0, (2.26)
como el supremo es cero, entonces tenemos que F (A) = G(A) para todo
A ∈ F, entonces como las distribuciones son iguales concluimos que f =
g.
Corolario 2.2.7. Sean X, Y dos variables aleatorias continuas con fun-
ción de densidad conjunta p(x, y), entonces:
I(X;Y ) ≥ 0,
la igualdad se da si y sólo si las variables aleatorias son independientes.
2.3. Máxima Entroṕıa
Anteriormente en este caṕıtulo se hab́ıa mencionado que la entroṕıa se
interpreta como una medida de incertidumbre.
Por ejemplo, una distribución con mayor entroṕıa tiene menor entroṕıa
relativa con la distribución uniforme. El propósito de maximizar la entroṕıa
es encontrar una función que cumpla con algunas caracteŕısticas que le
pedimos y que además sea la que nos de una noción de aleatoriedad. Pues
si no hay conocimiento espećıfico de un lugar es razonable utilizar una
distribución que no favorezca ninguna región particular.
Entonces, nos enfrentamos al siguiente problema: maximizar la entroṕıa
diferencial sujeta a algunas restricciones.
2.3. MÁXIMA ENTROPÍA 33
En general tratamos de resolver el problema de maximizar h(X), sujeta
a:
f(x) ≥ 0,
∫
S
f(x)dx = 1,
∫
S
f(x)ri(x)dx = αi, i = 1, ..., k.
(2.27)
Donde S = {x ∈ X|f(x) > 0}, ri(x) es una función de x y αi es una
constante, para i = 1, ..., k.
Es fácil ver que las primeras dos restricciones son necesarias pues que-
remos encontrar una función de densidad, mientras que la tercera tiene que
ver con alguna caracteŕıstica que nos interese sobre la variable aleatoria.
Cabe remarcar que la última restricción no es necesaria, sin embargo, me-
diante esta podemos capturar la esperanza de una función sobre el vector
de restricciones, lo cual puede ser de gran utilidad pues ayuda a especificar
la función de mejor manera como se ve en algunos ejemplos más adelante.
Para resolver este problema seguiremos dos pasos, primero encontrar
una función f(x) que cumpla las restricciones y después viendo que esta es
efectivamente, la de máxima entroṕıa.
Primero planteando el problema como uno de multiplicadores de La-
grange, encontramos que el lagrangiano queda de la siguiente forma (escri-
bimos f en lugar de f(x), igual con ri):
L(f) = −
∫
S
f ln(f)dx+ λ0
∫
S
fdx+
k∑
i=1
λi
∫
S
fridx+ C. (2.28)
En la ecuación anterior, encontramos que tenemos un funcional y una
constante sumada, donde agrupamos las restricciones. De esta forma, rees-
cribiendo la ecuación, tenemos:
L(f) = −
∫
S
f · (ln(f)− λ0 −
k∑
i=1
λiri)dx+ C. (2.29)
34 CAPÍTULO 2. ENTROPÍA
Usando la ecuación de Euler-Lagrange (B.3), tomando g = f(ln(f)− λ0 −
k∑
i=1
λiri) y x = (x1, ..., xn), obtenemos:
dg
df
−
n∑
i=1
d
dxi
dg
dfxi
= 0,
y observando que en la función g no se involucran las derivadas parciales
de la función f , se reduce a:
− ln(f) + λ0 +
k∑
i=1
λiri − 1 = 0,
lo cual nos indica que f es una densidad de la forma:
f(x) = exp
{
λ0 − 1 +
k∑
i=1
λiri(x)
}
, (2.30)
entonces debemos escoger λi para i = 0, ..., k de manera apropiada para
satisfacer las restricciones (2.27), algunos ejemplos de esto se realizan más
adelante.
Una vez que encontramos una función candidata para maximizar la
entroṕıa, debemos ver que en efecto la maximiza y que además es única.
Teorema 2.3.1. Distribución de máxima entroṕıa.
Sea fλ(x) = exp
{
λ0 +
k∑
i=1
λiri(x)− 1
}
, x ∈ A, donde fλ se obtuvo de la
forma que se mostró anteriormente. Entonces, fλ es única y maximiza a
h(X) sobre las densidades que satisfacen las restricciones (2.27).
Demostración. Supongamos que existe otra densidad g que también satis-
face las restricciones (2.27), entonces:
hg(X) = −
∫
S
g ln(g)dx
2.3. MÁXIMA ENTROPÍA 35
= −
∫
S
g ln
(
g
fλ
fλ
)
dx
= −
∫
S
g ln
(
g
fλ
)
dx−
∫
S
g ln(fλ)dx
= −D(g||fλ)−
∫
S
g ln(fλ)dx
≤ −
∫
S
g ln(fλ)dx (2.31)
= −
∫
S
g ·
(
λ0 +
k∑
i=1
λiri − 1
)
dx (2.32)
= −
∫
S
fλ ·
(
λ0 +
k∑
i=1
λiri − 1
)
dx (2.33)
= −
∫
S
fλ ln
(
exp
{
λ0 +
k∑
i=1
λiri − 1
})
dx
= hfλ(X),
donde la desigualdad (2.31) es gracias al teorema (2.2.6), D(g||f) ≥ 0;
(2.32) sucede gracias a la forma que teńıa fλ, (2.33) se da ya que tanto fλ
como g cumplen con las restricciones (2.27). De esta forma podemos ver
que en efecto:
hg(X) ≤ hfλ(X). (2.34)
Para terminar, notamos que la unicidad se da ya que la igualdad en
(2.31) se da únicamente si g(x) = fλ(x) casi seguramente pues la entroṕıa
relativa resulta cero únicamente en este caso.
36 CAPÍTULO 2. ENTROPÍA
Para el caso multivariado, como se menciona en [16], para obtener una
distribución de máxima entroṕıa se pueden considerar algunas restricciones
sobre las marginales, sin embargo la forma de la distribución obtenida es
la misma aunque obtener las constantes suele complicarse.
Ejemplo 1: maximizar h(X) sobre el intervalo [a, b] con las siguientes
restricciones:
1. f(x) ≥ 0.
2.
∫b
a f(x)dx = 1.
Primero obtenemos el lagrangiano,
L(f) =
∫ b
a
f · (ln(f − λ0))dx+ C,
al obtener f mediante la forma que se mencionó anteriormente obtene-
mos que f(x) = eλ0−1, ahora debemos encontrar λ0 para que cumpla la
restricción. ∫ b
a
eλ0−1dx = 1
eλ0−1
∫ b
a
dx = 1
eλ0−1(b− a) = 1,
entonces λ0 = 1 + ln
(
1
b−a
)
y al sustituir λ0 en la función obtenemos que
f(x) = 1b−a , es decir si no tenemos restricciones, la distribución de máxima
entroṕıa sobre un intervalo (o sobre un conjunto acotado en el caso de
encontrarnos en dimensiones mayores) es una uniforme.
Ejemplo 2: maximizar h(X) sobre R con las siguientes restricciones:
1. f(x) ≥ 0.
2.
∫∞
−∞ f(x)dx = 1.
3.
∫∞
−∞ xf(x)dx = µ.
2.3. MÁXIMA ENTROPÍA 37
Obteniendo el lagrangiano:
L(f) =
∫ ∞
−∞
f · (ln(f − λ0 − λ1x))dx+ C,
entonces encontramos que f(x) = eλ0−1+λ1x y debemos encontrar λ0, λ1
que cumplan las restricciones. Fijándonos en la segunda restricción obte-
nemos lo siguiente:
eλ0−1
∫ ∞
−∞
eλ1xdx = 1
eλ1x
λ1
∣∣∣∞
−∞
=
1
eλ0−1
,
observamos que no existen λ0, λ1 ∈ R que puedan cumplir con la última
ecuación, aśı que no existe una distribución de máxima entroṕıa para las
condiciones anteriores.
Ejemplo 3: maximizar h(X) sobre R con las siguientes restricciones:
1. f(x) ≥ 0.
2.
∫∞
−∞ f(x)dx = 1.
3.
∫∞
−∞ xf(x)dx = µ.
4.
∫∞
−∞ x
2f(x)dx− µ2 = σ2.
Sea X ′ = X − µ, entonces E[X ′] = 0 y E[X ′2] = σ2, entonces obte-
nemos que f(x) = eλ0−1+λ1x
′2
= aeλ1x
′2
y reconocemos que es una dis-
tribución gaussiana. Para satisfacer las restricciones recordando la forma
de una distribución normal con media cero obtenemos que λ1 = − 12σ2 y
eλ0−1 = 1√
2πσ2
y obtenemos que f(x) = 1√
2πσ2
e− (x−µ)
2
2σ2
.
Por otro lado es interesante ver que al obtener la entroṕıa de una va-
riable aleatoria con distribución N(µ, σ2) la media no importa, aśı que una
familia de normales con la misma varianza comparten entroṕıa como se
muestra a continuación.
38 CAPÍTULO 2. ENTROPÍA
h(X) = −
∫ ∞
−∞
f(x) ln(f(x))dx
= −
∫ ∞
−∞
f(x) ln
(
1√
2πσ2
e−
(x−µ)2
2σ2
)
dx
=
∫ ∞
−∞
f(x) ln(
√
2πσ2)dx+
1
2σ2
∫ ∞
−∞
f(x)(x− µ)2dx
= ln(
√
2πσ2) +
1
2σ2
(∫ ∞
−∞
x2f(x)dx− 2µ
∫ ∞
−∞
xf(x)dx+ µ2
)
= ln(
√
2πσ2) +
1
2σ2
(σ2 + µ2 − 2µ2 + µ2)
= ln(
√
2πσ2) +
1
2
=
1
2
ln(2eπσ2).
En el siguiente caṕıtulo se hallarán funciones de máxima entroṕıa para
el problema en cuestión.
2.4. Entroṕıa Relativa y Verosimilitud
Para finalizar el caṕıtulo, en esta sección se hablará sobre la relación que
tiene la distancia de Kullback-Leibler o entroṕıa relativa con la función de
verosimilitud y aśı ver la utilidad de la primera al comparar dos funciones
de densidad.
Definición 2.4.1. Sea f(x|θ) la función de densidad conjunta de una mues-
tra aleatoria X = (X1, ..., Xn), dado que se observó que X = x. La vero-
similitud del vector de parámetros θ se encuentra dada por la siguiente
función:
L (θ|x1, ..., xn) =
n∏
i=1
f(xi|θ). (2.35)
Que coincide on la densidad conjunta por la independencia. Para esti-
mar los parámetros de una distribución, es comú usar la log-verosimilitud
2.4. ENTROPÍA RELATIVA Y VEROSIMILITUD 39
ya que, en muchas ocasiones, el logaritmo hace que sea más sencillo mani-
pular las expresiones y el análisis es equivalente por la continuidad.
Recordamos que la entroṕıa relativa vista como esperanza es:
Ef
[
ln
(
f(X)
g(X)
)]
= Ef [ln(f(X))]− Ef [ln(g(X))], (2.36)
(ver (2.1.6) y (2.2.4)). Como se hab́ıa mencionado anteriormente la entroṕıa
relativa nos indica la ineficiencia de considerar que la densidad de la variable
aleatoria es g en lugar de f , suponiendo que esta última es la correcta;
podemos considerar entonces que f(x) = f(x|θ) y g(x) = f(x|θ′), siendo θ′
el parámetro variable.
Consideremos ahora la log-verosimilitud negativa (NLL):
NLL(θ′|x1, ..., xn) = −
n∑
i=1
ln(f(xi|θ′)), (2.37)
gracias a la Ley de los Grandes Números tenemos que 1nNLL(θ
′|x1, ..., xn)
converge a E[ln(f(X|θ′))] cuando n tiende a infinito. Esta esperanza apa-
rece en (2.36).
Entonces si nuestra variable es el parámetro de la distribución (θ′), es
equivalente minimizar la entroṕıa relativa a minimizar menos el logaritmo
de la verosimilitud.
Al relacionar (2.36) y (2.37) se obtiene un resultado interesante; maxi-
mizar la verosimilitud con una distribución propuesta aún sin conocer la
real es equivalente a minimizar la entroṕıa relativa entre dos distribucio-
nes suponiendo que una es la real y otra propuesta (que es la misma de
la verosimilitud), aśı cuando no se tiene la distribución real el método de
verosimilitud ayudará a obtener los parámetros más parecidos a los de la
distribución real.
40 CAPÍTULO 2. ENTROPÍA
Caṕıtulo 3
Aplicación
En este caṕıtulo se mostrarán aplicaciones de la teoŕıa que se ha desa-
rrollado anteriormente. El propósito de esta parte es de mostrar una forma
de obtener la intensidad de la distribución de individuos de una especie
dentro de una región [9].
En los últimos años se ha vuelto de gran interés conocer la distribu-
ción geográfica de los individuos de ciertas especies (pueden ser animales
o plantas) incluso en situaciones en las que no se cuenta con mucha infor-
mación o esta es sesgada. Las finalidades de esto pueden ser variadas, por
ejemplo: monitorear especies en peligro de extinción o especies ajenas a
un ecosistema, reacciones de una especie ante cambios en su hábitat, pla-
neación para controlar las poblaciones de ciertas especies (por ejemplo en
zoológicos abiertos).
Recolectar datos sobre los avistamientos de cada individuo en una re-
gión resulta extremadamente complicado debido a un gran número de fac-
tores, por ejemplo contar en repetidas ocasiones a un mismo individuo,
es por esto que se usan los datos de avistamiento de un individuo. Esta
información podŕıa estar muy sesgada al tomar en cuenta avistamientos
reportados por humanos, ya que, evidentemente, hay zonas donde el tráfi-
co de humanos es mucho mayor y en otras es prácticamente inexistente aśı
que la intensidad de avistamientos no representan mediciones uniformes.
Gracias a avances tecnológicos, ahora podemos tener la información reque-
rida sin tener que visitar toda la región de interés pues mediante el uso de
fotograf́ıas aéreas se pueden obtener datos interesantes que no están libres
41
42 CAPÍTULO 3. APLICACIÓN
de problemas. Hay que remarcar que no se usan datos sobre zonas que no
cuentan con registros de apariciones pues no podemos concluir que haya o
no un sujeto ah́ı.
Problema
El principal problema en este caso es saber qué es lo que debemos
estimar. Por un lado se podŕıa sugerir estimar primero la probabilidad de
aparición en una zona, sin embargo resulta en un problema grave, como se
explica a continuación.
Por ejemplo, supongamos que tenemos una región (podemos suponer
que es rectangular para que sea más sencillo) que podemos dividir en cua-
dros más pequeños y fijemos el tamaño de cada uno de estos, de esta forma
obtenemos una cuadŕıcula regular y supongamos también que de alguna
manera contamos con la probabilidad de que haya cuando menos un su-
jeto en cada una de las divisiones. Ahora, si cambiamos el tamaño de los
cuadros y conocemos otra vez la probabilidad de que haya alguna observa-
ción en cada uno esta podŕıa cambiar mucho. Si las divisiones son grandes
podŕıamos estar subestimando algunas regiones y sobreestimando otras,
mientras que si las divisiones son muy pequeñas es posible que algunas
estimaciones sean insignificantes.
Otra forma de abordar el problema puede ser intentar estimar la in-
tensidad de ocurrencia y aśı utilizar modelos continuos en el espacio. De
esta forma se propone el primer modelo en la sección 3.1, pues recordemos
que en este caso estimar la intensidad permite estimar la probabilidad de
ocurrencia. Entonces lo que realmente aportará este modelo será el número
esperado de avistamientos en cada área espećıfica.
En la segunda secciónde este caṕıtulo el problema se intenta resolver
intentando encontrar la función de máxima entroṕıa que mejor describa el
fenómeno de apariciones, sujeta a algunas restricciones que se obtienen con
datos conocidos.
De ahora en adelante X será la región de interés que consideraremos.
X es un subconjunto compacto de R2 o R3 pues puede ser que la altu-
ra sea de interés, por ejemplo si quisiéramos analizar ocurrencias en una
región montañosa, x ∈ X es un punto de interés y z(x) es un vector de
caracteŕısticas de la región geográfica que son de interés para cada caso,
3.1. MODELO POISSON NO-HOMOGÉNEO 43
las cuales pueden ser tan variadas como cosas podamos medir; tenemos n
avistamientos xi ∈ X para i = 1, ..., n, entonces zi = z(xi) es un vector con
las caracteŕısticas de la i-ésima observación.
3.1. Modelo Poisson No-Homogéneo
En este primer modelo se usa un proceso Poisson no-homogéneo. Consi-
deramos un proceso simple ya que únicamente nos interesa si se encuentra
o no un sujeto en un punto determinado.
Para construir el proceso Poisson que se puede usar para modelar el
avistamiento de individuos debemos considerar la función de intensidad de
primer orden (1.3.1):
λ : X → [0,∞),
integrable, cuya interpretación en este caso es que nos indica qué tan fac-
tible es que un avistamiento sea cercano u ocurra exactamente en x ∈ D;
esta función para nuestros fines la consideramos continua, de esta forma
por (1.29) obtenemos que la intensidad del proceso sobre A ⊂ D es:
Λ(A) =
∫
A
λ(x)dx,
donde Λ resulta ser una medida finita (por al teorema de Radón-Nikodym
(A.1.8)) y además es de Radón (A.1.6), obteniendo aśı un proceso Pois-
son espacial no-homogéneo de intensidad Λ. Recordamos además que los
lugares de avistamientos condicionados al número de estos, se distribuyen
independientemente con la siguiente densidad (1.32):
lD =
λ(x)
Λ(D)
.
Una función que cumple las caracteŕısticas que pedimos para λ, y se sue-
le utilizar, es la exponencial, adicionalmente algunos autores, como Warton
y Shepherd en [19], consideran a esta función de la siguiente forma:
λ(x) = eα+<β,z(x)>,
donde α es una constante que sirve para escalar la densidad, β un vector de
pesos, estableciendo una relación log-lineal con los atributos de la especie
44 CAPÍTULO 3. APLICACIÓN
y del lugar y <,> el producto escalar. El vector de atributos resulta de
vital importancia, sin embargo obtenerlo resulta complejo pues se necesita
una gran cantidad de trabajo interdisciplinario y vaŕıa de acuerdo a cada
situación.
Veamos ahora que papeles juegan tanto α como β en el modelo, para
esto analizaremos la verosimilitud de la distribución conjunta del número
de puntos y sus localizaciones.
3.1.1. Verosimilitud del Proceso Poisson
Recordamos (por (1.32))que suponiendo que conocemos n, el número
de total de lugares de avistamiento de la especie, la distribución conjunta
del proceso Poisson no-homogéneo para una n-tupla de puntos se encuentra
dada por:
f((x1, ..., xn), n) =
eΛ(D)
n!
n∏
i=1
λ(xi), (3.1)
en este caso,
λ(xi) = e
α+<β,z(xi)>, i = 1, ..., n,
Λ(D) =
∫
D
eα+<β,z(x)>dx.
La verosimilitud (2.4.1) se encontrará dada por esta misma densidad
conjunta (3.1), entonces la log-verosimilitud es:
l(X,Θ) =
n∑
i=1
(α+ < β, z(xi) >)− eα
∫
D
e<β,z(x)>dx− ln(n!). (3.2)
A continuación se usa el método de máxima verosimilitud para obtener
estimadores de los parámetros de la densidad, derivando respecto a alfa:
∂l
∂α
=
n∑
i=1
1− eα
∫
D
e<β,z(x)>dx,
3.1. MODELO POISSON NO-HOMOGÉNEO 45
obteniendo dos resultados importantes, primero si igualamos a cero la
derivada y colocamos la suma de un lado y la integral del otro, después de
hacer la suma se obtiene:
n = eα
∫
D
e<β,z(x)>dx, (3.3)
y
α = ln(n)− ln(
∫
D
e<β,z(x)>dx), (3.4)
observamos que α juega el papel de una constante de proporcionalidad
para que el resultado de la integral sea n, coincidiendo aśı con el número
de puntos que tenemos.
La segunda derivada de la log-verosimilitud respecto a α es:
∂2l
∂α2
= −eα
∫
D
e<β,z(x)>dx = −Λ(D),
como Λ(D) > 0 siempre, el estimador que obtuvimos para α es el máximo
dado por la función de verosimilitud.
Ahora haciendo el mismo procedimiento para β, sustituyendo (3.3) y
(3.4) en (3.2) y tenemos que:
l(X,Θ) =
n∑
i=1
[ln(n)− ln(
∫
D
e<β,z(x)>dx)+ < β, z(xi) >]− n− ln(n!),
renombrando las constantes (respecto a β) obtenemos la siguiente expre-
sión:
l(X,Θ) =
n∑
i=1
(
< β, z(xi) > −ln(
∫
D
e<β,z(x)>dx)
)
+ C.
Al ser la log-verosimilitud un escalar, al derivar respecto del vector β
(B.2) obtenemos un vector con las derivadas parciales, donde cada una es
de la forma:
∂l
∂βj
=
n∑
i=1
(
zj(xi)−
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
)
,
46 CAPÍTULO 3. APLICACIÓN
para j = 1, ..., k si contamos con un vector z(x) con k caracteŕısticas,
igualando a cero:
0 =
n∑
i=1
zj(xi)−
n∑
i=1
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
1
n
n∑
i=1
zj(xi) =
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
, (3.5)
donde la integral en el denominador es constante respecto a la que se
encuentra en el numerador, obtenemos una densidad de probabilidad de la
siguiente forma:
pλ(x) =
e<β,z(x)>∫
D e
<β,z(x)>dx
. (3.6)
La función pλ cumple con las caracteŕısticas de una densidad de pro-
babilidad y podemos ver que en (3.5) tenemos la esperanza de zj(x) bajo
pλ.
1
n
n∑
i=1
zj(xi) =
∫
D
pλ(x)zj(x)dx = Epλ [zj(x)], (3.7)
para cada j = 1, ..., k. Entonces se debe de encontrar un vector de pesos β
de manera que se cumplan las ecuaciones anteriores.
3.2. Máxima Entroṕıa
En el caṕıtulo anterior (sección (3.2)) se explica cómo obtener distri-
buciones de máxima entroṕıa. En esta sección buscaremos distribuciones
de máxima entroṕıa planteando algunas situaciones generales que pudie-
ran ser de interés; en el primer caso se plantea un problema que llevará a
encontrar una densidad de probabilidad que resulta ser la misma que se
encontró en la sección anterior (3.6), en los posteriores se estudia un poco
la dependencia entre dos variables aleatorias.
Planteamos el siguiente problem: maximizar h(X) sujeto a las siguientes
restricciones:
3.2. MÁXIMA ENTROPÍA 47
∫
D f(x)dx = 1,∫
D z(x)f(x)dx = Z.
Donde z(x) es un vector de caracteŕısticas como se describe al final de (3),
Z es un vector de promedios obtenidos con las observaciones.
Recordando la sección de Máxima Entroṕıa (2.3) por el resultado ob-
tenido en (2.30) encontramos que:
f(x) = exp[λ0+ < λ1, z(x) > −1],
f(x) = e<λ1,z(x)>eλ0−1.
Debemos encontrar entonces λ0 y λ1 que satisfagan las restricciones, en-
tonces:
eλ0−1 =
(∫
D
e<λ1,z(x)>dx
)−1
,
de esta manera se obtiene que
f(x) =
e<λ1,z(x)>∫
D e
<λ1,z(x)>dx
. (3.8)
Entonces se debe encontrar λ1 de tal manera que se cumpla la restric-
ción ∫
D
z(x)f(x)dx = Z, (3.9)
esto es, que λ1 debe ser un vector tal que la esperanza de la distribución sea
igual a los promedios obtenidos con la información que se tiene; podemos
observar además que bajo esta condición encontraremos parámetros de
forma similar a los que se buscan en (3.7).
Las restricciones anteriores pueden ser un buen primer acercamiento,
sin embargo son susceptibles a fallar como lo es cualquier propuesta basada
solamente en el conocimiento de una media: es posible que el punto descrito
por Z no exista o bien que al considerar los promedios se pierda información
importante.
48 CAPÍTULO 3. APLICACIÓN
Vemos entonces que los métodos planteados en este trabajo (Poisson y
entroṕıa) tienen similitudes interesantes. Es importante ver que cada mode-
lo se puede enriquecer de diferente forma, siendo el de máxima entroṕıa más
directo de trabajar escribiendo las restricciones de forma apropiada, que
pueden ser tan variadas como queramos y podamos analizar, pues se obtu-
vo una forma general para la densidad; mientras que en el proceso Poisson
no-homogéneo se debeŕıa trabajar con intensidades de órdenes superiores
(1.3.1) para trabajar con momentos diferentes del primero e incorporarrestricciones adicionales podŕıa resultar complicado.
A continuación se muestran algunos ejemplos donde se aplicará el méto-
do de máxima entroṕıa considerando que existe alguna relación entre las
variables aleatorias. Para el primer caso supongamos que únicamente tene-
mos información geográfica de una región D bidimensional, es decir, no hay
ninguna función que enriquezca al modelo en el vector de caracteŕısticas.
El problema, planteado como uno de maximizar la entroṕıa, es el siguiente:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
DX
xfX(x)dx = µx.
4.
∫
DY
yfY (y)dy = µy.
Donde µx y µy ∈ R, son los promedios de las coordenadas, de x y y res-
pectivamente, de las observaciones. Para poder usar el método propuesto
anteriormente en la sección 3.2 primero debemos tener todas las integra-
les sobre el mismo dominio, aśı reescribiendo las funciones de densidad
marginales obtenemos que:∫
DX
xfX(x)dx =
∫
D
xf(x, y)dydx,∫
DY
yfY (y)dy =
∫
D
yf(x, y)dxdy,
entonces obtenemos que la densidad debe ser de la forma f(x, y) = exp{λ0−
1 + λ1x+ λ2y}.
3.2. MÁXIMA ENTROPÍA 49
A partir de lo anterior se obtiene que con las condiciones que se propu-
sieron para las densidades marginales obtenemos que las variables aleatorias
X y Y deben ser independientes con funciones de densidad f(x) = e
λ1x∫
DX
eλ1x
,
f(y) = e
λ2y∫
DY
eλ2y
respectivamente, donde λ1 y λ2 se escogen de la misma for-
ma que en (3.9).
El ejemplo anterior modelaŕıa un caso muy sencillo y puede fallar rápi-
damente, pues al considerar los promedios de las coordenadas, podŕıamos
estar describiendo puntos intermedios entre las observaciones donde no hay
o no podŕıa haber individuos.
Una situación interesante de analizar es considerar alguna restricción
sobre la covarianza para el mismo caso bidimensional, para aśı considerar
una interacción entre las coordenadas (o bien dos caracteŕısticas), recorda-
mos que Cov(X,Y ) = E[XY ]− E[X]E[Y ], esto es plantear el problema de
la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D xyf(x, y)dxdy −
∫
D xf(x, y)dydx
∫
D yf(x, y)dxdy = σxy.
Este problema resulta complicado de resolver pues al usar el resultado
obtenido en (2.30) después de hacer las factorizaciones adecuadas obtene-
mos que la densidad es de la forma
f(x, y) = exp{λ0 − 1 + λ1(xy − x
∫
D
yf(x, y)dxdy)},
sin embargo al considerar una restricción sobre alguna de las esperanzas el
problema se simplifica pues se planteaŕıa de la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D yf(x, y)dxdy = µy.
50 CAPÍTULO 3. APLICACIÓN
4.
∫
D xyf(x, y)dxdy − µy
∫
D xf(x, y)dydx = σxy.
Como µy es una constante conocida, después de meterla a la integral y
factorizar obtenemos que la densidad es de la forma
f(x, y) = exp{λ0 − 1 + λ1(xy − x)},
debemos encontrar λ0 y λ1 que satisfagan las restricciones.
Los problemas planteados anteriormente son algunos de los casos más
sencillos con los cuales nos podŕıamos encontrar en la vida real, com-
plicándose al considerar un vector de caracteŕısticas z(x) más complejo
ya que puede darse el caso de que las caracteŕısticas sean funciones de las
coordenadas geográficas o que tengan variables aleatorias asociadas.
Consideremos el siguiente problema, considerando D una región bidi-
mensional. Si fuera de interés la distancia de los puntos de la región a uno
determinado (x1, y1) (por ejemplo una fuente de agua), el problema seŕıa
el siguiente:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D
√
(x− x1)2 + (y − y1)2f(x, y)dxdy = k1.
La densidad que se obtiene en este caso es de la forma f(x, y) =
exp{λ0− 1 +λ1
√
(x− x1)2 + (y − y1)2}, sin embargo si en vez de trabajar
con la distancia trabajamos con el cuadrado de esta se obtiene un resultado
interesante:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D((x− x1)
2 + (y − y1)2)f(x, y)dxdy = k2.
Con estas restricciones, la densidad es de la forma f(x, y) = exp{λ0 − 1 +
λ1((x− x1)2 + (y − y1)2)}, observando que eλ0−1 =
∫
D e
λ1((x−x1)2+(y−y1)2)
se obtiene que X y Y son independientes, entonces en algunas ocasiones
3.2. MÁXIMA ENTROPÍA 51
cambiando un poco la restricción el problema se llega a simplificar y a
conseguir resultados importantes como independencia.
Otro caso interesante para analizar es cuando queremos establecer un
ĺımite para alguna de las caracteŕısticas, en este caso z : D → R, el proble-
ma es de la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x) ≥ 0.
2.
∫
D f(x)dx = 1.
3.
∫
D máx(a, z(x))f(x)dx = c.
La densidad de máxima entroṕıa es
f(x) = exp{λ0 − 1 + λ1 máx(a, z(x))},
para encontrar λ1 en la tercera restricción podŕıamos partir la integral en
los conjuntos donde a > z(x) y a ≤ z(x).
Como se mencionó anteriormente las funciones que podemos tener en las
restricciones pueden ser tan complicadas como se deseé y en algunos casos
podemos reescribirlas para que resulte más sencillo trabajar con ellas, sin
embargo no se pude llegar a una generalización pues las funciones pueden
ser muy variadas. Anteriormente se mostraron algunas restricciones que
podŕıan ser interesantes y no demasiado complicadas de trabajar.
Al comparar los dos modelos podemos observar ventajas y desventa-
jas de ambos, el proceso Poisson espacial resulta ser un gran modelo para
contar las apariciones dentro de una región y además podemos estimar la
intensidad de aparición en cada punto; además al estimar los parámetros
por máxima verosimilitud obtenemos que estos deberán cumplir que los
promedios observados sean iguales a las esperanzas teóricas (3.7), sin em-
bargo al trabajar con promedios podŕıamos estar perdiendo información
importante. Por otro lado al trabajar con distribuciones de máxima en-
troṕıa las restricciones que podemos poner a las caracteŕısticas son más
variadas sin perder la parte aleatoria del modelo.
Finalmente concluimos que al contar con más información, que sea fácil
de caracterizar, trabajar con el método de máxima entroṕıa resulta conve-
niente pues ya contamos con la forma general de la densidad, mientras que
52 CAPÍTULO 3. APLICACIÓN
incorporar esta información al proceso Poisson puede resultar demasiado
complicado o incluso imposible en algunos casos pues se perdeŕıan algunas
caracteŕısticas importantes; si contamos con poca información trabajar con
el proceso Poisson resulta adecuado pues no se complica demasiado y es
una buena alternativa a la aleatoriedad espacial completa.
Apéndice A
Resultados de Análisis
En este caṕıtulo se presentan algunos resultados necesarios para el desa-
rrollo del trabajo anterior.
A.1. Teorema de Lebesgue-Radón-Nikodym
En esta sección se presentan resultados de teoŕıa de la medida necesarios
para algunas caracterizaciones que se dieron en el trabajo, únicamente nos
enfocaremos a resultados usando medidas positivas aunque algunos de estos
se tienen también para medidas con signo, como se puede ver en [10].
Teorema A.1.1. Sea (X,F , µ) un espacio de medida, entonces se cumplen
las siguientes propiedades:
a) Si E,F ∈ F y E ⊂ F entonces µ(E) ≤ µ(F ).
b) Si {En}n∈N ⊂ F , entonces µ(
∞⋃
n=1
En) ≤
∞∑
n=1
µ(En).
c) Si {En}n∈N ⊂ F es una sucesión creciente de conjuntos, entonces
µ(
∞⋃
n=1
En) = ĺım
n→∞
µ(En).
53
54 APÉNDICE A. RESULTADOS DE ANÁLISIS
d) Si {En}n∈N ⊂ F es una sucesión decreciente de conjuntos y µ(E1)
es finita, entonces µ(
∞⋂
n=1
En) = ĺım
n→∞
µ(En).
Demostración.
a) Como E ⊂ F y µ es una medida, µ(E) ≤ µ(E) + µ(F \ E) = µ(F ),
por lo tanto µ(E) ≤ µ(F ).
b) Sea {En}n∈N ⊂ F y Fn = En \
n−1⋃
i=1
Ei para n > 1, F1 = E1, entonces
la sucesión {Fn} es de conjuntos disjuntos y
n⋃
i=1
Ei =
n⋃
i=1
Fi para toda
n ∈ N, por lo tanto usando el inciso anterior, tenemos lo siguiente:
µ
( ∞⋃
n=1
En
)
= µ
( ∞⋃
n=1
Fn
)
=
∞∑
n=1
µ(Fn) ≤
∞∑
n=1
µ(En).
c) Sean E0 = ∅ y Fn = En \En−1 para

Continuar navegando