Modelacion-espacial-de-aparicion-de-especies

Matemáticas

•
Exatas

Aprendiendo Matemáticas y Fisica
26/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Matemáticas

654.875 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA 
 DE MÉXICO 
 
 FACULTAD DE CIENCIAS 
 
 
Modelación Espacial de Aparición de Especies 
 
 
 
 
 
 
 
 
 
 
 
T E S I S 
 
 
 QUE PARA OBTENER EL TÍTULO DE: 
 Actuario 
 P R E S E N T A : 
 Adrián Maldonado Hernández 
 
 
 
 
 
 
 
 
 
 
DIRECTOR DE TESIS: 
Dra. Ana Meda Guardiola 
CIUDAD DE MÉXICO, 2019 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
Datos del Jurado 
 
1. Datos del alumno 
Maldonado 
Hernández 
Adrián 
5551062535 
Universidad Nacional Autónoma 
de México 
Facultad de Ciencias 
Actuaría 
 
2. Datos del tutor 
Dra. 
Meda 
Guardiola 
Ana 
 
3. Datos del sinodal 1 
Dr. 
Jegousse 
Arnaud Charles Leo 
 
4. Datos del sinodal 2 
M. en C. 
Barrios 
Vargas 
Juan Martín 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5. Datos del sinodal 3 
M. en C. 
Gil 
Leyva Villa 
María Fernanda 
 
6. Datos del sinodal 4 
Fís. 
Hernández 
Morales 
Jimmy 
 
7. Datos del trabajo escrito 
Modelación Espacial de Aparición 
de Especies 
66 p. 
2019 
 
 
 
 
Agradecimientos
Quiero agredecer a todas las personas que han estado conmigo duran-
te esta etapa de mi vida, comenzando por supuesto con mis amigos y mi
familia ya que sin ellos completar mis metas hubiera sido much́ısimo más
dif́ıcil. Agradezco también a los profesores que tuve a lo largo de la carrera
pues, aunque en un principio no lo supiera apreciar, siempre se aprende
algo nuevo. En especial quisiera agradecer a la profesora Ana por su apo-
yo, tiempo y paciencia durante el tiempo que se llevó a cabo este trabajo,
sobre todo porque en los primeros semestres despertó en mi un interés por
la probabilidad sin el que no hubiera podido concluir la carrera; agradezco
también al profesor Andrés de mi prepa pues despertó en mi un genuino
interés en las matemáticas, de no haberlo conocido probablemente no es-
taŕıa aqúı. Finalmente agradezco al proyecto PAPIME PE102618 pues fue
un gran apoyo para poder concluir este proyecto.
3
4
Resumen
Desde hace algunos años cada vez es más frecuente el uso de modelos
matemáticos para intentar representar y/o modelar distintos fenómenos
biológicos, en este trabajo es de nuestro interés intentar modelar la apari-
ción de especies en una región determinada cuando contamos con informa-
ción geográfica y/o ambiental sobre los lugares donde estas se encuentran.
Al ser un primer acercamiento, únicamente es de nuestro interés saber si
una especie estuvo o no en un punto determinado, sin importar el número
de individuos[9].
En el primer caṕıtulo de la tesis se aborda la teoŕıa sobre el proceso
Poisson espacial no-homogéneo pues, como se muestra en el caṕıtulo, cuan-
do queremos contar realizaciones de un proceso estocástico en un conjunto
es muy útil.
En el segundo caṕıtulo abordamos el problema desde la teoŕıa de la
información [17], intentando buscar una distribución de probabilidad que
sea la que mejor representa al fenómeno intentando que esta sea lo más
parecida que se pueda a una distribución uniforme.
Finalmente en el tercer caṕıtulo se muestra como los resultados de los
caṕıtulos anteriores se adecúan al problema de la modelación de aparición
de especies y se muestra una situación en la que son equivalentes y las
ventajas de usar uno sobre el otro.
5
6
Índice general
1. Proceso Poisson Espacial 1
1.1. Medidas Aleatorias . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1. Proceso Poisson . . . . . . . . . . . . . . . . . . . . . 4
1.2. Medidas Momento . . . . . . . . . . . . . . . . . . . . . . . 12
1.3. Proceso Poisson No Homogéneo . . . . . . . . . . . . . . . . 16
2. Entroṕıa 19
2.1. Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . 20
2.2. Entroṕıa Diferencial . . . . . . . . . . . . . . . . . . . . . . 29
2.3. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4. Entroṕıa Relativa y Verosimilitud . . . . . . . . . . . . . . . 38
3. Aplicación 41
3.1. Modelo Poisson No-Homogéneo . . . . . . . . . . . . . . . . 43
3.1.1. Verosimilitud del Proceso Poisson . . . . . . . . . . 44
3.2. Máxima Entroṕıa . . . . . . . . . . . . . . . . . . . . . . . . 46
A. Resultados de Análisis 53
A.1. Teorema de Lebesgue-Radón-Nikodym . . . . . . . . . . . . 53
B. Resultados Adicionales 61
B.1. Resultados Caṕıtulo 1 . . . . . . . . . . . . . . . . . . . . . 63
B.2. Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . 64
Bibliograf́ıa 67
7
8 ÍNDICE GENERAL
Caṕıtulo 1
Proceso Poisson Espacial
En este caṕıtulo se presentan resultados que sirven para entender por
qué puede ser conveniente usar un Proceso Poisson Espacial para modelar
el fenómeno que nos interesa, que es el de aparición de especies cuando se
tienen únicamente datos de avistamiento en diferentes localidades dentro de
una zona determinada. El problema aparece en un art́ıculo de W. Fithian y
T. Hastie [9]. Se presentan demostraciones sobre la teoŕıa de procesos pun-
tuales espaciales usando como referencias principales libros sobre procesos
puntuales y estad́ıstica espacial [7], [5] además de resultados importantes
de análisis [10].
La teoŕıa sobre procesos puntuales es extremadamente amplia y puede
llegar a ser complicada ya que se pueden obtener muchas generalizaciones
usando resultados fuertes de análisis, sin embargo, para nuestros fines esto
no será necesario pues nos centraremos únicamente en el proceso Poisson
espacial, pues es el que usaré.
De ahora en adelante cuando hablemos de un espacio, se estará conside-
rando Rd con d > 1 pues nos interesa el caso espacial, X será la σ-álgebra
de Borel y trabajamos siempre dentro de subconjuntos compactos X ⊂ Rd
con ν la medida de Lebesgue.
Primero se hablará un poco sobre procesos puntuales en general para
después enfocarnos únicamente en el Poisson y las maneras de caracteri-
zarlo.
Como primer acercamiento, podemos decir que un proceso puntual es
un modelo estocástico sobre la localización de eventos en un subconjunto
1
2 CAPÍTULO 1. PROCESO POISSON ESPACIAL
compacto del espacio si ∈ X con i = 1, ..., k, también podemos decir que
{si}ki=1 es una realización de un proceso estocástico en el espacio. Podemos
también tener procesos puntuales marcados, en cuyo caso para s ∈ Rd
existe una cantidad asociada y ∈ Y , de tal forma que se forma la pareja
(s, y) ∈ A = Rd × Y ; es bastante común encontrar procesos espaciales
marcados donde y representa el tiempo.
Una manera natural de definir a las realizaciones de un proceso puntual
espacial podŕıa ser mediante sus localizaciones, sin embargo, también se
puede usar una medida de conteo sobre los eventos de interés en X. De esta
forma se puede llegar a dos caracterizaciones equivalentes de un proceso
puntual espacial, la primera mediante el uso de medidas aleatorias como
se muestra a continuación y otra mediante la localización de los eventos de
interés, como se puede ver en [5].
1.1. Medidas Aleatorias
Definición 1.1.1. Decimos que µ es una medida localmente finita si para
cada punto x ∈ X existe una vecindadV (x) medible tal que µ(V (x)) es
finita.
Definición 1.1.2. Sea (X,F ) un espacio medible. Entonces una medida
de conteo N sobre X es una medida que tiene las siguientes propiedades:
1. N(A) toma valores en los enteros no negativos para cualquier con-
junto A medible.
2. N es una medida localmente finita.
Las medidas de conteo se pueden escribir de la forma:
N(A) =
n∑
i=1
kiIxi , (1.1)
para una colección numerable de enteros positivos ki y puntos xi ∈ X. Si
ki = 1 para toda i decimos que la medida de conteo es simple.
Entonces, si conocemos N(B) para cada B ∈X , y N(B) es una medida
de conteo simple podŕıamos conocer las localizaciones de los eventos.
1.1. MEDIDAS ALEATORIAS 3
Definición 1.1.3. Sea (X,F ) un espacio medible y (Ω,F ,P) un espacio
de probabilidad. Una medida aleatoria es una función µ : Ω × B → R
tal que para cada ω ∈ Ω, µ(ω, ·) es una medida sobre (X,B) y para cada
A ∈ B, µ(·, A) es una variable aleatoria.
Al igual que en probabilildad, en la notación generalmente se omite
ω, aśı que la medida aleatoria del conjunto A se escribe como la variable
aleatoria µ(A).
Definición 1.1.4. Un proceso puntual espacial es una medida de conteo
aleatoria.
Definición 1.1.5. Decimos que un proceso puntual espacial N es simple
si la medida de conteo es simple.
En esta ocasión consideraremos únicamente procesos simples, pues úni-
camente nos interesa la presencia o ausencia de una especie en un punto
determinado sin importar el número de individuos y esto se puede modelar
en cada punto como una variable aleatoria Bernoulli.
A continuación se introducen algunas definiciones que ayudarán a ca-
racterizar un proceso puntual.
Definición 1.1.6. Medida Atómica. Sea (X,F , µ) un espacio de medida.
Decimos que A ⊂ X es un átomo de µ si se cumple que µ(A) > 0 y para
todo B ⊂ A,B medible, µ(B) < µ(A) implica que µ(B) = 0. Decimos que
una medida es atómica si la medida tiene átomos.
Un ejemplo de una medida atómica es la de Dirac, mientras que uno de
una medida no atómica es la de Lebesgue.
Para los fines de este trabajo el uso de medidas no atómicas es necesario.
Definición 1.1.7. Medida de Radón. Sea (X,B, µ) un espacio de medida.
Se dice que una medida µ es de Radón si para todo B boreliano se tienen
las siguientes propiedades:
µ(B) = sup
A
{µ(A)|A es compacto y A ⊂ B},
µ(B) = ı́nf
C
{µ(C)|C es abierto y B ⊂ C},
µ es localmente finita, es decir como en la definición (1.1.1).
4 CAPÍTULO 1. PROCESO POISSON ESPACIAL
1.1.1. Proceso Poisson
Definición 1.1.8. Sea S = Rd, X la σ-álgebra de Borel con d > 1 y Λ
una medida localmente finita, no atómica sobre S. Un proceso Poisson con
intensidad Λ es un proceso puntual sobre S tal que:
1. Para cada conjunto compacto B ∈ X , N(B) se distribuye Poisson
con media Λ(B)
2. Si B1, ..., Bm son conjuntos disjuntos, entonces N(B1), ..., N(Bm) son
independientes.
Con el siguiente teorema se puede encontrar una caracterización para
el proceso Poisson que resulta bastante útil.
Teorema 1.1.9. Rényi. Sea µ una medida de Radón no-atómica sobre Rd.
Supongamos que N es un proceso simple de tal forma que para cada A que
se puede escribir como unión finita de rectángulos, se tiene:
P[N(A) = 0] = e−µ(A), (1.2)
entonces N es un proceso Poisson de media µ(A).
La demostración del teorema de Rényi será de la siguiente forma; pri-
mero trabajaremos con rectángulos pues conocemos la distribución dentro
de ellos, de esta forma se podrá encontrar la distribución para el proceso
N sobre el conjunto A con las caracteŕısticas que menciona el teorema y
después se usa el teorema de Kurtz para probar la existencia. Antes de
comenzar la demostración, enunciaremos algunas definiciones y resultados.
Definición 1.1.10. Sea µ una medida de Radón no-atómica. Sean n ∈ N,
kn ∈ N. Decimos que una sucesión de particiones finitas {Tn}, donde
Tn = {Ani ; i = 1, ..., kn}, sobre un conjunto A es un sistema de disección
si cumple que:
1. Ani ∩ Anj = ∅ si i 6= j y
kn⋃
i=1
Ani = A, para toda n ∈ N (es decir, Tn
es partición).
1.1. MEDIDAS ALEATORIAS 5
2. A(n−1)i ∩ Anj = ∅ ó Anj para cualesquiera i = 1, ..., k(n−1); j =
1, ..., kn. Es decir, particiones sucesivas son refinamientos de las an-
teriores.
3. Separación de puntos; sean x, y ∈ A, entonces existen n ∈ N e i ∈
{1, ..., kn} tales que x ∈ Ani y y 6∈ Ani .
Gracias a las propiedades de un sistema de disección podemos sacar
algunas conclusiones interesantes que ayudarán a la demostración del teo-
rema (1.1.9). Notemos que podemos crear sucesiones con elementos de
las particiones “centrados” alrededor de un punto x de tal forma que
∞⋂
n=1
An(x) = {x} gracias a las propiedades dos y tres; esto además im-
plica que, para estas sucesiones µ(An(x)) tiende a µ(x) cuando n tiende
a infinito pues µ es una medida finita sobre conjuntos acotados, de esta
manera podemos usar el teorema de continuidad de las medidas. En lo que
sigue, An(x) ∈ Tn denota al conjunto en Tn tal que x ∈ An. Adicional-
mente, como consideramos una medida de Radón no-atómica, tenemos que
µ(An(x)) tiende a cero cuando n tiende a infinito.
Definición 1.1.11. Un anillo R sobre un conjunto X es una familia no
vaćıa de subconjuntos de X tales que:
1. Si A, B ∈ R, entonces A ∪B ∈ R.
2. Si A, B ∈ R, entonces A \B ∈ R.
Definición 1.1.12. Sea (X, X ), donde X es la σ-álgebra de Borel de X.
Llamamos a fN (A) la función de anulación de un proceso N si:
fN (A) = P[N(A) = 0], A ⊂X .
A continuación definimos al operador ∆ de la siguiente forma:
∆(A)Φ(B) = Φ(B)− Φ(A ∪B),
∆(A1, ..., Ak)Φ(B) = ∆(Ak)[∆(A1, ..., A(k−1))Φ(B)], k=1,2,...
donde Φ(·) es una función conjuntista definida sobre un anillo de conjuntos.
6 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Definición 1.1.13. Decimos que una función Φ, definida sobre un ani-
llo de conjuntos es completamente monótona si para cada sucesión de
elementos,{An}n∈N , del anillo se tiene que:
∆(A1, ..., Ak)Φ(B) ≥ 0.
Lema 1.1.14. Sea P0(B) = P[N(B) = 0], entonces para cada k ∈ N y
A1, A2, ..., B borelianos, tenemos que
∆(A1, ..., Ak)P0(B) = P[N(Ai) > 0 (i = 1, ..., k), N(B) = 0].
Demostración. La demostración del lema se hace por inducción, entonces
para k = 1
P[N(A1) > 0, N(B) = 0] = P0(B)− P0(A1 ∪B) = ∆(A1)P0(B).
Suponemos que la hipótesis es válida para k = n, además tenemos que
∆(A1, ..., An)P0(B) = P0(B)−
n∑
i=1
P0(B ∪Ai)
+
∑
i6=j
P0(B ∪Ai ∪Aj) + ...+ (−1)nP0(
n⋃
i=1
Ai ∪B),
(1.3)
y además es igual a P[N(Ai) > 0(i = 1, ..., n), N(B) = 0]. Entonces para
k = n+ 1 tenemos que
∆(A1, ..., A(n+1))P0(B) = ∆(A(n+1))[∆(A1, ..., A(n))P0(B)],
al aplicar ∆(A(n+1)) a la ecuación anterior, se obtiene que
∆(A1, ..., A(n+1))P0(B) = P0(B)−
n+1∑
i=1
P0(B ∪Ai)
+
∑
i6=j
P0(B ∪Ai ∪Aj) + ...
+ (−1)n+1P0(
n+1⋃
i=1
Ai ∪B).
1.1. MEDIDAS ALEATORIAS 7
Definición 1.1.15. Decimos que un espacio métrico es separable si con-
tiene a un subconjunto denso y numerable.
Definición 1.1.16. Decimos que un conjunto es conexo si este no puede
ser escrito como unión disjunta de dos o más subconjuntos abiertos no
vaćıos.
Teorema 1.1.17. Kurtz.[8] Sea ψ una función sobre conjuntos definida
sobre los elementos de un anillo generado por un sistema de disección R
sobre un espacio métrico separable X. Para que exista un proceso puntual
N en X con función de anulación ψ, es necesario y suficiente que:
1. ψ sea completamente monótona,
2. ψ(∅) = 1,
3. ψ(An)→ 1 para cualquier sucesión de conjuntos acotados {An} en el
anillo R para la cual An → ∅ cuando n→∞,
4. Para cada A ∈ R tal que A es acotado:
ĺım
r→∞
P[N(A) ≤ r] = 1. (1.4)
Esta última propiedad se traduce en que el proceso debe ser localmente
finito.
La demostración del teorema de Kurtz se encuentra en [8]p.36-37 y se
comenta en el apéndice.
Ahora podemos comenzar con la demostración del teorema (1.1.9).
Demostración. (Teorema de Rényi.) Sea A un boreliano que es unión finita
de rectángulos, y sea T = {Tn} un sistema de disección sobre rectángulos
borelianos donde, recordemos,Tn = {Ani} es una partición finita (i.e. i =
1, 2, ..., kn para cada n) y Ani es un rectángulo. Entonces, estos rectángulos
cumplen, como consecuencia de las propiedades de un sistema de disección
(1.1.10), lo siguiente:
Ani =
⋃
A(n+1)jpara algunos j, donde A(n+1)j ∈ T(n+1). (1.5)
8 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Sea µ una medida de Radón no-atómica y T un sistema de disección.
Recordemos que, gracias a las propiedades dos y tres del sistema de disec-
ción (1.1.10) y que la medida es no-atómica, µ(An(x)) tiende a cero cuando
n tiende a infinito. YA ver que los conjuntos An(x) forman una sucesión
decreciente para cada x.
Como N es un proceso simple (1.1.5), que a su vez se encuentra dado
por una medida de conteo (1.1.2), definimos:
Ini =
{
1 si N(Ani) > 0,
0 si N(Ani) = 0.
(1.6)
Es decir, una función indicadora sobre el conjunto Ani que nos dice si
hubo alguna realización del evento de interés en este conjunto. Podemos
notar que las indicadoras son variables aleatorias independientes (como ve-
remos en la ecuación (1.8)). Definimos la suma de las funciones indicadoras
de la siguiente forma:
Nn(A) =
kn∑
i=1
Ini , (1.7)
en este caso nos interesa obtener la probabilidad de que no haya realiza-
ciones en el conjunto Ani :
P[Ini = 0 ∀ i ∈ {1, ..., kn}] = P[N(Ani) = 0 ∀ i ∈ {1, ..., kn}]
= P[N(
⋃
i
Ani) = 0] (1.8)
= exp{−µ(
⋃
i
Ani)} (1.9)
= exp{−
∑
i
µ(Ani)} (1.10)
=
∏
i
e−µ(Ani ), (1.11)
donde la igualdad de (1.8) con (1.9) se da por hipótesis del teorema ya que
estamos trabajando con rectángulos y (1.10) es porque los conjuntos son
disjuntos.
Ahora, podemos obtener la función generadora de probabilidad (f.g.p.)
de las funciones indicadoras definidas en (1.6) usando el producto (1.11).
1.1. MEDIDAS ALEATORIAS 9
La f.g.p. para cada función indicadora queda de la siguente forma:
E[zIni ] =
∑
x∈{0,1}
p(x)zx
= P[N(Ani) > 0]z
1 + P[N(Ani) = 0]z
0
= (1− e−µ(Ani ))z + e−µ(Ani )
= z + (1− z)e−µ(Ani ). (1.12)
Ahora, podemos sacar la f.g.p. de Nn(A) =
kn∑
i=1
Ini , pues nos interesa el
conjunto A completo.
E[zNn(A)] = E[z
∑kn
i=1 Ini ]
=
kn∏
i=1
E[zIni ]
=
kn∏
i=1
[z + (1− z)e−µ(Ani )], (1.13)
usando la independencia de las indicadoras {Ini}.
En este caso nos interesa saber qué sucede con el producto (1.13) cuando
0 ≤ z < 1 y n tiende a infinito.
Recordamos primero que µ es de Radón no-atómica; consideremos xi ∈
A para i en los naturales y Ani = An(xi) tal que {xi} =
∞⋂
n=1
Ani . Entonces,
para las sucesiones de conjuntos escogidas anteriormente µ(Ani) tiende a 0
cuando n tiende a infinito.
10 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Cada factor del producto (1.13) converge a e−(1−z)µ(Ani ) (ver B.1) y al
realizarlo obtenemos:
E[zNnA] =
∏
i
[1− (1− z)(1− e−µ(Ani ))]
= exp{−(1− z)
∑
i
µ(Ani)}
= exp{−(1− z)µ(
⋃
i
Ani)}
= exp{−(1− z)µ(A)}, (1.14)
cuando n tiende a infinito.
Dado que N es un proceso simple y la medida de conteo es finita sobre
conjuntos acotados, existe n0 tal que si n ≥ n0, los puntos donde hay
realizaciones se encuentran en diferentes conjuntos Ani , entonces a partir de
n0,Nn(A) = N(A). Además notamos que las variables aleatoriasNn(A) son
monótonas crecientes para n, teniendo como ĺımite N(A) casi seguramente,
aśı que la f.g.p de N(A) es exp{−(1− z)µ(A)}.
Recordando el Teorema de Unicidad (en el apéndice B.0.1) para las
funciones generadoras de momentos, que se puede traducir en la unicidad
de funciones generadoras de probabilidad en el caso discreto, y observando
que la f.g.p de una variable aleatoria Poisson(λ) es exp{(1−z)λ}, podemos
concluir que N(A) es una variable aleatoria Poisson de parámetro µ(A).
Una vez que sabemos qué sucede cuando trabajamos con rectángulos,
nos interesa analizar lo que sucede para borelianos en general, para esto
usaremos el teorema de Kurtz (1.1.17). La idea del teorema de Kurtz es ver
que ciertas caracteŕısticas se cumplan sobre una familia rica de conjuntos
y con esto ver que existe el proceso con la función de anulación descrita.
Rápidamente recordamos que para cada rectángulo del sistema de di-
sección que usamos al cominezo de la demostración, obtuvimos que:
P[N(Ani) = 0] = e
−µ(Ani ).
Recordamos también que si X es un subconjunto conexo de Rd entonces
es también un espacio métrico separable con la métrica de Rd pues este
último lo es.
1.1. MEDIDAS ALEATORIAS 11
Primero observamos que podemos formar un anillo con los rectángulos
Ani del sistema de disección, ya que por las caracteŕısticas del sistema si
tenemos dos conjuntos Ani y Amj con m > n hay dos opciones: Ani ⊃ Amj
o que sean disjuntos.
1. Si Amj ⊂ Ani entonces Ani ∪Amj = Ani y tenemos:
P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0]
= eµ(Ani )
2. Si los conjuntos son disjuntos, entonces:
P[N(Ani ∪Amj ) = 0] = P[N(Ani) = 0, N(Amj ) = 0]
= P[N(Ani) = 0]P[N(Amj ) = 0]
= e−µ(Ani )e−µ(Amj )
= e−µ(Ani∪Amj )
En el caso de la resta de conjuntos:
1. Si Amj ⊂ Ani , por (1.5) podemos escribir a Amj y a Ani como uniones
de rectángulos de manera que Amj =
⋃
α
Am+1α para algunos α en
el conjunto de ı́ndices {1, 2, ..., km+1} y Ani =
⋃
α
Am+1α ∪
⋃
β
Am+1β
para algunos β en el mismo conjunto de ı́ndices y Am+1α∩Am+1β = ∅
para cualesquiera α, β, entonces:
P[N(Ani \Amj ) = 0] = P[N(
⋃
β
Am+1β ) = 0]
= e
−µ(
⋃
β Am+1β )
= e−(µ(Ani\Amj )),
2. Si los conjuntos son disjuntos entonces Ani \Amj = Ani y entonces:
P[N(Ani \Amj ) = 0] = P[N(Ani) = 0]
= e−µ(Ani )
12 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Entonces podemos formar un anillo R con los rectángulos del sistema
de disección, con la misma función de anulación (1.1.12) como la enunciada
en el teorema de Rényi (1.2), de ahora en adelante la llamaremos f0.
Podemos ver que f0 es completamente monótona con el lema (1.1.14).
Además como µ es una medida, tenemos que:
f0(∅) = e−µ(∅) = 1
Para ver que se cumple la tercera propiedad del teorema (1.1.17), recor-
damos primero que cada Ani es acotado desde el sistema de disección pues
el conjunto A sobre el que lo realizamos es acotado, aśı que cada sucesión
{An} es acotada. Ahora si tenemos una sucesión tal que An → ∅ cuando
n → ∞, como µ es una medida de Radón y por la propiedad dos de la
definición de un sistema de disección (1.1.10):
ĺım
n→∞
e−µ(An) = 1
Finalmente la cuarta propiedad, proceso localmente finito, en nuestro
caso viene desde el teorema de Rényi, pues pedimos que el proceso sea
simple y anteriormente hab́ıamos pedido que para este tipo de procesos la
medida de conteo deb́ıa ser localmente finita.
Entonces, gracias al teorema de Kurtz, existe un proceso que tiene como
función de anulación a f0, que como se vio anteriormente (1.14), induce
como función generadora de probabilidad a :
E[zN(A)] = e−(1−z)µ(A), (1.15)
que resulta ser la de una variable aleatoria Poisson. Por lo tanto N es un
proceso Poisson sobre A con media µ(A).
1.2. Medidas Momento
Los momentos de los procesos puntuales son similares a los de las va-
riables aleatorias que ya conocemos y se pueden relacionar con ellas, sin
embargo, aunque hay ciertos aspectos en común, la definición se complica
-como era de esperarse-, pues ahora la interpretación será la de una medida
aleatoria sobre un espacio producto.
1.2. MEDIDAS MOMENTO 13
Definición 1.2.1. Sea n ∈ N, la n-ésima potencia de un proceso puntual
N se define como:
N(B1 × ...×Bn) =
n∏
i=1
N(Bi), (1.16)
donde B1, ..., Bn son borelianos en Rd, no necesariamente disjuntos, que for-
man un producto cartesiano entre n borelianos. Cabe remarcar que N(Bi)
es aleatorio, pues como se hab́ıa mencionado en el caṕıtulo N es una medida
de conteo aleatoria (1.1.4).
De forma alternativa, podemos ver la n-ésima potencia como:
N(B1 × ...×Bn) =
∑
(x1,...,xn)∈N
n∏
i=1
IBi(xi). (1.17)
Aunque las ecuaciones anteriores son equivalentes para de definir la n-
ésima potencia de un proceso puntual, cada una tiene ventajas en cuanto
a su uso. Mientras que la ecuación (1.16) da una idea mucho más sencilla
de la forma en que debe calcularse yserá muy útil al sacar esperanzas,
la manera alternativa (1.17) da una idea más clara sobre la situación en
la que nos encontramos y algunos problemas que podŕıa acarrear como se
verá más adelante.
Una interpretación de (1.17) es que vamos a sumar, sobre todos los pun-
tos que pertenezcan al proceso N , los productos de las indicadoras sobre
cada uno de los borelianos que forman al producto cartesiano; (x1, ..., xn)
son n-tuplas de puntos que pertenecen al proceso. De esta forma pode-
mos ver que calcular las esperanzas puede llegar a complicarse debido a
las repeticiones de los puntos pues los borelianos no necesariamente son
disjuntos.
Los momentos de un proceso puntual se pueden ver como medidas,
recordemos que en nuestro caso, trabajamos en Rd con la σ-álgebra de Borel
y en espacios producto dependiendo del momento que se desee obtener.
Definición 1.2.2. La medida del n-ésimo momento de un proceso puntual
la definimos como la esperanza de la n−ésima potencia de un proceso
puntual:
µ
(n)
N (B1 × ...×Bn) = E[N(B1 × ...×Bn)]. (1.18)
14 CAPÍTULO 1. PROCESO POISSON ESPACIAL
Usando (1.16) tenemos que:
µ
(n)
N (B1 × ...×Bn) = E[N(B1)...N(Bn)]. (1.19)
Interpretando los momentos como medidas sobre espacios producto nos
referiremos a µ
(n)
N (B) como la medida del n-ésimo momento, donde B =
B1 × ...×Bn es un conjunto medible en un espacio producto.
Particularmente, si B1 = ... = Bn al calcular la medida del n-ésimo
momento, obtenemos tal cual el n-ésimo momento de una variable aleatoria:
µ
(n)
N (B
n
1 ) = E[N(B1)n].
Al igual que con variables aleatorias, son de especial interés los prime-
ros dos momentos ya que podemos obtener información muy importante
sobre el proceso; como trabajamos con un proceso Poisson los primeros dos
momentos son conocidos para nosotros:
µ(1)(B) = E[N(B)] = Λ(B), (1.20)
µ(2)(B ×B) = E[N(B)2] = Λ(B)2 + Λ(B), (1.21)
donde la medida del primer momento es la intensidad del proceso y la
medida del segundo momento se obtiene a partir de la varianza pues por
ser Poisson la conocemos y se obtiene de la misma forma que la de una
variable aleatoria:
V ar(N(B)) = µ(2)(B ×B)− µ(1)(B)2. (1.22)
De forma similar podŕıamos obtener la covarianza:
Cov(N(B1)N(B2)) = µ
(2)(B1 ×B2)− µ(1)(B1)µ(1)(B2), (1.23)
sin embargo la medida del segundo momento que aqúı aparece puede ser
dif́ıcil de calcular si los conjuntos B1 y B2 no son disjuntos. Para facilitar
el cálculo podemos reescribirlos como uniones disjuntas:
B1 = B1 ∩B2 ∪B1 \B2,
1.2. MEDIDAS MOMENTO 15
B2 = B1 ∩B2 ∪B2 \B1,
de esta forma, recordando que N es una medida de conteo (ver 1.1.4),
podemos obtener el siguiente resultado:
µ(2)(B1 ×B2) = E[N(B1)N(B2)]
= E[N((B1 ∩B2) ∪B1 \B2)N((B1 ∩B2) ∪B2 \B1)]
= E[N(B1 \B2)]E[N(B2 \B1)] + E[N(B1 ∩B2)2] (1.24)
+ E[N(B2 \B1)]E[N(B1 ∩B2)] + E[N(B1 \B2)]E[N(B1 ∩B2)]
= µ(2)((B1 ∩B2)2) + µ(1)(B1 \B2)µ(1)(B2 \B1) (1.25)
+ µ(1)(B1 \B2)µ(1)(B1 ∩B2) + µ(1)(B2 \B1)µ(1)(B1 ∩B2)
= µ(2)((B1 ∩B2)2) + µ(1)(B1)µ(1)(B2)− µ(1)(B1 ∩B2)2
(1.26)
= µ(1)(B1)µ
(1)(B2) + V ar(N(B1 ∩B2)). (1.27)
Donde (1.24) sucede gracias a que N es una medida y los conjuntos los
pudimos escribir como uniones disjuntas, (1.25) es únicamente reescribir
a las esperanzas anteriores como medidas momento; (1.26) se obtiene al
recordar que µ(A \ B) = µ(A) − µ(A ∩ B) si la medida de A es finita y
por último (1.27) se da por la definición de varianza usada anteriormente
(1.22). Finalmente, remarcamos que para obtener las medidas momento
de órdenes superiores se puede usar el mismo método de descomposición
en uniones disjuntas; es fácil ver que al subir el orden, también crece la
dificultad para obtener la medida momento que deseamos.
En ocasiones en vez de usar la descomposición de los conjuntos se usan
momentos factoriales, como se puede ver en [3] la definición sufre algunos
cambios respecto a la que aqúı se usó, pero desde el principio se trabaja
con conjuntos dijsuntos con las ventajas que esto conlleva.
16 CAPÍTULO 1. PROCESO POISSON ESPACIAL
1.3. Proceso Poisson No Homogéneo
Hemos obtenido resultados sobre un proceso Poisson espacial; sin em-
bargo ahora debemos profundizar en el tipo de proceso que se quiere usar.
Sabemos que condicionado al número de puntos en un proceso Poisson
usual estos se distribuyen uniformemente, esta situación es precisamente la
que queremos evitar pues diŕıa que no conocemos muy bien el fenómeno al
que nos enfrentamos o bien este es “geográficamente” completamente ho-
mogéneo, lo cual permitiŕıa cuestionar la necesidad de utilizar información
geográfica.
Con el fin de permitir situaciones más generales se usará un proceso
Poisson no-homogéneo.
Definición 1.3.1. Definimos la función de intensidad de primer orden λ
de un proceso Poisson como:
λ(s) = ĺım
ν(ds)→0
E[N(ds)]
ν(ds)
, (1.28)
donde ds es una vecindad alrededor de s y ν(ds) su medida de Lebesgue.
Esta función se puede interpretar como la intensidad del proceso res-
pecto a la medida de Lebesgue alrededor de un punto; esta función λ(s)
es la derivada de Radón-Nikodym (A.1.8) de la medida de la media (1.20)
respecto de la medida de Lebesgue, pues podemos ver que si ν(A) = 0
entonces E[N(A)] = 0, pues recordamos que la medida de la media es una
medida de Radón, no atómica.
De manera similar se puede definir la intensidad del k-ésimo orden λ(k)
como:
λ(k)(s1, s2, ..., sk) = ĺım
ν(dsi)→0, i=1,...,k
E[N(ds1 × ds2 × ...× dsk)]
ν(ds1)ν(ds2)...ν(dsk)
.
De lo anterior podemos recordar que la parte superior del cociente es
una medida del k-ésimo momento como se vio en la sección anterior (1.19).
Gracias al teorema de Radón-Nikodym (A.1.8) obtenemos la medida de
la media de la siguiente forma:
µ(A) =
∫
A
λ(s)ds, (1.29)
1.3. PROCESO POISSON NO HOMOGÉNEO 17
donde λ(s) es la intensidad de primer orden del proceso, además a partir
de la definición de esta es claro que es no negativa.
Entonces si λ(s) es una constante para toda s ∈ X, decimos que tenemos
un proceso Poisson homogéneo y su intensidad (medida de la media)
resulta proporcional a la medida de Lebesgue del conjunto, en cambio si la
función no es constante tenemos un proceso Poisson no-homogéneo.
La diferencia entre estos procesos radica en que el homogéneo se usa
cuando se intenta modelar un fenómeno completamente aleatorio en el es-
pacio (CSR por sus siglas en inglés), pues al condicionar sobre el número de
puntos en una región observamos que estos se distribuyen uniformemente
gracias a la función de intensidad; mientras que un proceso no-homogéneo
arroja la idea de que conocemos algún comportamiento geográfico espećıfico
sobre el fenómeno y podemos describir mejor la intensidad de las aparicio-
nes.
A partir de ahora trabajaremos entonces con un proceso Poisson espa-
cial no-homogéneo. Entonces, sea µ una medida de Radón (1.1.7) sobre
X ⊂ Rd y sea B ∈ X , donde X es la σ-álgebra de Borel de X. Por la
sección 1.1, en particular gracias a la función generadora de probabilidad
obtenida en (1.15), el proceso N satisface que:
P[N(B) = n] =
e−µ(B)µ(B)n
n!
, n ∈ N. (1.30)
De manera similar sea λ(s) la intensidad de primer orden del proceso
(1.28), condicionado al numero de puntos del proceso sobre un conjunto
acotado A ∈ X (N(A) = n), estos se distribuyen como una muestra alea-
toria con una función de densidad dada por:
lA(s) = P[S = s|N(A) = n]
=
λ(s)
µ(A)
,
(1.31)
para cada punto s ∈ A, donde µ(A) =
∫
A λ(s)ds. Al condicionar sobre el
número de puntos de A y teniendo una tupla de n miembros sn =(s1, ..., sn),
si ∈ A para i = 1, ..., n, la densidad condicional es:
lA(s1, ..., sn) =
n∏
i=1
λ(si)
µ(A)n
, (1.32)
18 CAPÍTULO 1. PROCESO POISSON ESPACIAL
ya que como se mencionó anteriormente, los puntos se distribuyen como
una muestra aleatoria y entonces la densidad conjunta es la multiplicación
de las densidades de cada punto (1.31) por independencia y siempre que
si 6= sj cuando i 6= j. Nos interesa conocer la distribución conjunta de una
tupla de puntos. Enparticular eso nos permite conocer la distribución de
cada uno por serparado, de esta forma se obtiene:
pA(sn, n) = lA(s1, ..., sn)P[N(A) = n]
=
{
e−µ(A) n = 0,
e−µ(A)
∏n
i=1 λ(si)
n! n ≥ 1,
(1.33)
ya que en el primer caso, cuando n = 0, tenemos que pA((s1, ..., sn), n) =
P[N(A) = 0] y el segundo caso se da al multiplicar (1.30) con (1.32) y
reducir términos.
Por último sumando sobre todos los posibles valores de n e integrando
sobre λ(s) obtenemos que:
pA(sn, 0) +
∞∑
n=1
∫
An
pA(sn, n)dsn = e
−µ(A) +
∞∑
n=1
e−µ(A)
n!
∫
An
n∏
i=1
λ(si)dsn
= e−µ(A) +
∞∑
n=1
e−µ(A)
n!
(∫
A
λ(s)ds
)n
=
∞∑
n=0
e−µ(A)
n!
(∫
A
λ(s)ds
)n
=
∞∑
n=0
e−µ(A)µ(A)n
n!
= 1,
donde la segunda igualdad resulta de separar el producto de las integrales
con su respectivo diferencial y ver que son la misma sobre el conjunto A y
tenemos n de estas, la cuarta igualdad sale recordando (1.29) ya que λ(s)
es la intensidad de primer orden y finalmente aqúı observamos que tenemos
una función de densidad de una variable aleatoria Poisson la cual sabemos
suma uno sobre todo el espacio de estados.
En caṕıtulos posteriores veremos la importancia de los resultados aqúı
obtenidos.
Caṕıtulo 2
Entroṕıa
La Teoŕıa de la Información de Shannon nace (según [18]) a partir de un
art́ıculo publicado en 1948 [17], donde propone, según el t́ıtulo del trabajo
de Shannon, una “Teoŕıa Matemática de la Comunicación”, refiriéndose
espećıficamente a la transmisión de señales. La teoŕıa de la información en
años recientes se ha aplicado en muchos campos, principalmente estudiando
la transmisión, procesamiento y utilización de la información como cada
campo lo interpreta, es por esto que el concepto de información cambia
según el campo de estudio y esto lo hace un poco ambiguo.
En este trabajo nos interesa la entroṕıa de una distribución de probabi-
lidad, pues se puede interpretar como la cantidad promedio de información
que produce una fuente de datos con una distribución determinada. Quere-
mos encontrar una función que sea la que mejor explique o más información
arroje sobre el fenómeno de interés.
2.1. Entroṕıa
La entroṕıa se puede entender como una medida de incertidumbre so-
bre un sistema. En la teoŕıa desarrollada por Shannon, la entroṕıa es una
medida de incertidumbre pero sobre variables aleatorias. Es decir, conocer
la entroṕıa de una variable aleatoria, nos dirá qué tanta información sobre
el experimento se puede encontrar de acuerdo a las probabilidades de cada
estado posible. Esto se discutirá más adelante en el caṕıtulo.
19
20 CAPÍTULO 2. ENTROPÍA
Con fines prácticos hablaremos primero sobre la entroṕıa y algunos
resultados relacionados para variables aleatorias discretas y después lleva-
remos los mismos resultados al caso continuo.
2.1.1. Definiciones
Definición 2.1.1. Sea X una variable aleatoria discreta y p(x) = P[X =
x], x ∈ E, donde E es R o un subconjunto de este. La entroṕıa de X,
H(X) se define como:
H(X) = −
∑
x∈E|p(x)>0
p(x) log(p(x)). (2.1)
Observación: la entroṕıa de una variable aleatoria puede tomar el va-
lor extendido +∞, sin embargo cuando hablemos de resultados que involu-
cren la suma o resta de entroṕıas los consideraremos cuando la operación
se encuentre bien definida.
Generalmente en teoŕıa de la información el logaritmo se usa con base
dos para medir la entroṕıa en bits, sin embargo en nuestro caso no es
necesario y lo tomaremos como logaritmo natural de ahora en adelante,
cuya unidad son nats.
Es fácil ver que la entroṕıa es una esperanza pues:
−
∑
x∈E|p(x)>0
p(x) ln(p(x)) = −E[ln(p(X))].
Observación: algunos autores en vez de hacer la suma sobre el soporte
de la función de masa en cuestión, toman la convención de que 0ln(0) = 0,
lo cual se puede justificar con argumentos de continuidad de la siguiente
forma:
ĺım
x→0+
x ln(x) = ĺım
t→∞
e−t ln(e−t)
= ĺım
t→∞
−t
et
= 0.
(2.2)
De ahora en adelante al conjunto {x ∈ E|p(x) > 0} lo denotaremos
como SX , recordemos que este conjunto es numerable por ahora ya que
trabajamos con variables aleatorias discretas.
2.1. ENTROPÍA 21
Lema 2.1.2. Para toda variable aleatoria X discreta, H(X) ≥ 0.
Demostración. Como 0 < p(x) ≤ 1 y − ln(p(x)) = ln( 1p(x)) se sigue que
ln( 1p(x)) ≥ 0.
Un ejemplo sencillo para entender un poco sobre qué nos está diciendo
la entroṕıa es el siguiente. Comparemos la entroṕıa de una moneda justa
y un dado justo. Haciendo uso de la definición, ya que los estados son
equiprobables, obtenemos el siguiente resultado:
H(moneda) = −2(12) ln(
1
2) = ln(2).
H(dado) = −6(16) ln(
1
6) = ln(6).
Como ln(6) > ln(2) la entroṕıa de la variable aleatoria que representa a
la moneda es menor a la del dado. De manera similar, es fácil ver que si
tenemos dos variables aleatorias uniformes con k y n espacios de estados
respectivamente, si n > k la entroṕıa de Xn será mayor que la de Yk; en-
tonces podemos hacer una vaga conclusión inicial para el caso uniforme,
mientras más grande sea el espacio de estados mayor será la entroṕıa, es
decir habrá mayor incertidumbre sobre el resultado del experimento. Más
adelante se verá que una variable aleatoria uniforme es la de máxima en-
troṕıa para el caso discreto en caso de que el espacio de estados sea finito.
A continuación se introducen algunas definiciones que ayudan al estu-
dio de la relación entre dos o más variables aleatorias (aqúı se mencionan
solamente los casos para dos, sin embargo se puede generalizar) de acuerdo
a la información que se puede obtener con ellas. Recordamos que la suma
se efectúa únicamente sobre el soporte de la variable aleatoria.
Definición 2.1.3. La entroṕıa conjunta entre dos variables aleatorias X
y Y discretas con densidad conjunta p(x, y) se define como:
H(X,Y ) = −
∑
SX
∑
SY
p(x, y) ln(p(x, y)), (2.3)
o bien:
H(X,Y ) = −E[ln(p(X,Y ))].
22 CAPÍTULO 2. ENTROPÍA
De forma similar podemos definir la entroṕıa condicional de dos va-
riables aleatorias. Entonces sean X y Y dos variables aleatorias discretas,
definimos p(y|x) como la probabilidad condicional P[Y = y|X = x]. Y de-
fimos también H(Y |X = x) como
∑
SY
p(y|x) ln(p(y|x)), aqúı consideramos
x fijo.
Definición 2.1.4. La entroṕıa condicional entre dos variables aleatorias
con función de densidad conjunta p(x, y) se define como:
H(Y |X) =
∑
SX
p(x)H(Y |X = x), (2.4)
donde p(x) es la densidad marginal de X. Igual que antes, podemos mani-
pular la ecuación anterior para obtener una forma donde encontremos una
esperanza, aśı (2.4) se convierte en:
H(Y |X) = −
∑
SX
p(x)
∑
SY
p(y|x) ln(p(y|x))
= −
∑
SX
∑
SY
p(x)p(y|x <) ln(p(y|x))
= −E[ln(p(Y |X))]. (2.5)
Una relación interesante entre la entroṕıa conjunta y la condicional es
la siguiente, que una vez vista resulta bastante natural. A este resultado se
le conoce como regla de la cadena
Teorema 2.1.5. Regla de la cadena. Sean X, Y variables aleatorias dis-
cretas. Entonces:
H(X,Y ) = H(X) +H(Y |X). (2.6)
Demostración.
H(X,Y ) = −
∑
SX
∑
SY
p(x, y) ln(p(x, y))
= −
∑
SX
∑
SY
p(x, y) ln(p(y|x)p(x))
2.1. ENTROPÍA 23
= −
∑
SX
∑
SY
p(x, y) ln(p(y|x))−
∑
SX
∑
SY
p(x, y) ln(p(x)),
observamos que la primera doble suma resulta ser la entroṕıa condicional
H(Y |X), además después de sumar sobre SY en la segunda se obtienen las
probabilidades marginales de X y tenemos entonces:
H(X,Y ) = H(Y |X)−
∑
SX
p(x) ln(p(x))
= H(Y |X) +H(X).
A continuación se introducen dos conceptos importantes que se pueden
usar para entender y comparar la relación entre dos distribuciones y entre
dos variables aleatorias respectivamente.
Definición 2.1.6. La entroṕıa relativa o distancia de Kullback-Leibler en-
tre dos funciones de masa de probabilidad p(x) y q(x) respectivamente, se
define como:
D(p||q) =
∑
SX
p(x) ln
p(x)
q(x)
(2.7)
= Ep
[
ln
(
p(X)
q(X)
)]
,
donde la esperanza se calcula bajo la función de masa p(x).
En [14] Kullback dice que la entroṕıa relativa está definida para dos
medidas absolutamentecontinuas (A.1.2) respectivamente, para el caso dis-
creto esto se traduce en que p(xi) = 0 siempre que q(xi) = 0 y viceversa. Si
se da lo anterior gracias al teorema de Radón-Nikodym podemos ver que
p/q es una derivada de Radón-Nikodym. La entroṕıa relativa es una medi-
da de la ’distancia’ entre dos distribuciones (no es una distancia verdadera
pues ni siquiera es simétrica, pero es una buena forma de interpretarlo), es
decir, arroja información sobre la ineficiencia de asumir la distribución q
cuando la p es la verdadera. Otra forma de verlo es que la entroṕıa relativa
nos dirá qué tan equivocados estamos si consideramos a la distribución q
en vez de la p.
24 CAPÍTULO 2. ENTROPÍA
También nos puede interesar la relación entre dos variables aleatorias,
qué tanta información aporta una a la otra para reducir o no la incerti-
dumbre sobre una de estas, aśı se introduce el concepto de información
mutua.
Definición 2.1.7. Sean X y Y dos variables aleatorias con función de
masa conjunta p(x, y) y p(x), p(y) las marginales. La información conjunta
se define como la entroṕıa relativa entre la densidad conjunta y el producto
de las marginales, es decir:
I(X;Y ) = D(p(x, y)||p(x)p(y)), (2.8)
que se puede ver como:
I(X;Y ) =
∑
SX
∑
SY
p(x, y) ln(
p(x, y)
p(x)p(y)
).
La información mutua también se puede escribir como E
[
ln
(
p(X,Y )
p(X)p(Y )
)]
bajo la función de masa de probabilidad conjunta.
La importancia de considerar las marginales corresponde a cuando las
variables aleatorias X y Y son independientes como se verá más adelante.
A continuación presentamos una propiedad que se usará más adelante
en el caṕıtulo:
Lema 2.1.8. Sean X, Y dos variables aleatorias discretas, entonces tene-
mos la siguiente relación:
I(X;Y ) = H(X)−H(X|Y ). (2.9)
Demostración.
I(X;Y ) =
∑
SX
∑
SY
p(x, y) ln
(
p(x, y)
pX(x)pY (y)
)
=
∑
SX
∑
SY
p(x, y) ln
(
p(x, y)
pY (y)
)
−
∑
SX
∑
SY
p(x, y) ln(pX(x))
=
∑
SX
∑
SY
p(x, y) ln
(
pY (y)p(x|y)
pY (y)
)
−
∑
SX
p(x) ln(pX(x)) (2.10)
2.1. ENTROPÍA 25
=
∑
SX
∑
SY
p(x, y) ln(p(x|y)) +H(X)
= H(X)−H(X|Y ), (2.11)
donde (2.10) se da al sumar en la ecuación anterior sobre SY y (2.11) es
debido a la definición de entroṕıa condicional (2.1.4).
Una interrogante que podŕıa surgir es ¿qué pasa si la entroṕıa relativa
o la información mutua resultan ser negativas?, pues la interpretación de
ambas no tendŕıa sentido para las definiciones que se dieron anteriormente.
Afortunadamente esto no puede suceder como se mostrará a continuación.
Teorema 2.1.9. Sean p(x) y q(x) dos funciones de masa de probabilidad.
Entonces:
D(p||q) ≥ 0, (2.12)
la igualdad se obtiene si y sólo si p(x) = q(x) para toda x ∈ X.
Demostración. Recordamos primero que consideramos que la suma corre
únicamente sobre el soporte de X, no importando bajo cual de las funciones
de masa consideramos el sopoprte ya que como se mencionó anteriormente
son absolutamente continuas una respecto de la otra. Demostraremos que
−D(p||q) ≤ 0. Usaremos la desigualdad de Jensen (B.1) que nos dice que
si g es una función convexa entonces:
g(E[X]) ≤ E[g(X)].
−D(p||q) = −
∑
SX
p(x) ln
(
p(x)
q(x)
)
=
∑
SX
p(x) ln
(
q(x)
p(x)
)
≤ ln
∑
SX
p(x)
q(x)
p(x)
 (2.13)
26 CAPÍTULO 2. ENTROPÍA
= ln
∑
SX
q(x)

= ln(1) (2.14)
= 0,
aqúı (2.13) se sigue por la desigualdad de Jensen pues ln es una función
cóncava y (2.14) se da pues q(x) es una función de masa de probabilidad y
recordamos que p y q son absolutamente continuas una respecto de la otra
aśı que el soporte es el mismo para ambas.
Veamos que la igualdad en (2.13) si y sólo si p(x) = q(x) para toda x.
Si p(x) = q(x) para toda x tenemos:
∑
SX
p(x) ln
(
q(x)
p(x)
)
≤ ln
∑
SX
p(x)
q(x)
p(x)
 (2.15)
∑
SX
p(x) ln(1) ≤ ln
∑
SX
p(x)

0 ≤ ln(1)
0 = 0,
donde (2.15) se da gracias a la desigualdad de Jensen (B.1). Supongamos
ahora que tenemos la igualdad en (2.15), entonces:
∑
SX
p(x) ln
(
q(x)
p(x)
)
= ln
∑
SX
q(x)

∑
SX
p(x) ln
(
q(x)
p(x)
)
= 0,
2.1. ENTROPÍA 27
además para tener la igualdad en la desigualdad de Jensen debemos tener
que q(x)p(x) = c para toda x ∈ SX , entonces obtenemos lo siguiente:∑
SX
p(x) ln
(
q(x)
p(x)
)
= ln(c)
∑
SX
p(x)
= ln(c),
por lo tanto c = 1, entonces p(x) = q(x) para toda x ∈ SX .
Corolario 2.1.10. Sean X y Y dos variables aleatorias con función de
densidad conjunta p(x,y), entonces:
I(X;Y ) ≥ 0, (2.16)
la igualdad se da si y sólo si las variables aleatorias son independientes.
Demostración.
I(X;Y ) = D(p(x, y)||p(x)p(y)) ≥ 0 (2.17)
por el teorema anterior. Si las variables son independientes tenemos:
I(X;Y ) = D(p(x, y)||p(x)p(y))
= D(p(x)p(y)||p(x)p(y))
= −
∑
SX
∑
SY
p(x)p(y) ln
p(x)p(y)
p(x)p(y)
= −
∑
SX
∑
SY
p(x)p(y) ln(1)
= 0.
Si D(p(x, y)||p(x)p(y)) = 0 usando el teorema anterior observamos que
p(x, y) = p(x)p(y) lo cual sucede únicamente cuando las variables aleatorias
son independientes.
28 CAPÍTULO 2. ENTROPÍA
Un resultado interesante que se obtiene a partir del teorema anterior y
de 2.1.8) es que condicionar una variable aleatoria respecto de otra no re-
sulta en pérdida de información, es decir la entroṕıa no crece al condicionar;
más bien ocurre lo contrario.
Teorema 2.1.11. Sean X y Y dos variables aleatorias, entonces:
H(X|Y ) ≤ H(X). (2.18)
Demostración. Recordando el lema (2.1.8) observamos que
I(X;Y ) = H(X)−H(X|Y ),
además por el corolario (2.1.10) I(X : Y ) ≥ 0; de esta forma, juntando los
dos resultados tenemos:
H(X|Y ) ≤ H(X).
A continuación se presenta un teorema que da una cota para la entroṕıa
de una variable aleatoria si el espacio de estados es finito.
Teorema 2.1.12. Sea X una variable aleatoria y E su espacio de estados,
|E| su cardinalidad y p(x) = P[X = x] entonces:
H(X) ≤ ln |E|. (2.19)
Demostración. Sea u(x) = 1|E| para toda x ∈ E, la densidad de una variable
aleatoria uniforme, entonces usando la entroṕıa relativa (2.7) tenemos que:
D(p||u) =
∑
SX
p(x) ln
(
p(x)
u(x)
)
=
∑
SX
p(x) ln(p(x))−
∑
SX
p(x) ln(u(x))
= −H(X) +
∑
x
p(x) ln
(
1
u(x)
)
= −H(X) + ln |E|
∑
SX
p(x)
= ln |E| −H(X),
2.2. ENTROPÍA DIFERENCIAL 29
recordando el teorema (2.1.9) tenemos que:
0 ≤ ln |E| −H(X)
H(X) ≤ ln |E|.
Del teorema anterior podemos concluir que para el caso discreto la
distribución de máxima entroṕıa es una uniforme cuando el espacio de
estados es finito.
2.2. Entroṕıa Diferencial
Como se verá más adelante, en el caso de estudio en que nos encontra-
mos discretizar el espacio puede causar algunos problemas, es por eso que
en esta sección hablaremos sobre la entroṕıa diferencial, es decir la entroṕıa
cuando tenemos variables aleatorias continuas. Shannon no desarrolló esta
fórmula sino que simplemente la supuso como se puede ver en [17]. Esta
versión no comparte todas las propiedades que tiene la entroṕıa que se
vieron en la sección anterior, como se verá un poco más adelante.
De ahora en adelante usaremos una notación diferente. Sea X una va-
riable aleatoria tal que su función de distribución F (x) es continua. Más
aún, supondremos que F tiene densidad, esto es, que existe f ≥ 0 tal
que F (x) =
∫ x
−∞ f(t)dt o bien para el caso multivariado F (x1, ..., xk) =∫ x1
−∞ ...
∫ xk
−∞ f(t1, ..., tk)dt1...dtk. Sea SX = {x ∈ R
d|f(x) > 0}, en caso de
no especificarse S será el soporte de las variables aleatorias indicadas..
Definición 2.2.1. La entroṕıa diferencial de la variable aleatoria continua
X con función de densidad f(x) se define como:
h(X) = −
∫
SX
f(x) ln f(x)dx = −E[ln f(X)]. (2.20)
Podemos observar que Shannon simplemente cambió el śımbolo de la
suma por el de la integral, lo cual se traduce en algunos problemas, por
ejemplo, la no negatividad de la entroṕıa no se encuentra en este caso.
30 CAPÍTULO 2. ENTROPÍA
Consideremos una variable aleatoria X que se distribuye uniformemente
sobre sobre el intervalo [0, a], entonces f(x) = 1a , al obtener la entroṕıa
tenemos:h(X) = −
∫ a
0
1
a
ln
(
1
a
)
dx
=
∫ a
0
1
a
ln(a)dx
=
1
a
ln(a)
∫ a
0
dx
= ln(a),
entonces si 0 < a < 1 la entroṕıa resulta negativa, lo cual no tiene sentido
con la interpretación que se tiene de esta.
A continuación introducimos algunas definiciones similares a las del
caso discreto para la entroṕıa diferencial.
Definición 2.2.2. La entroṕıa diferencial de un vector aleatorio X =
(X1, ..., Xn) de variables aleatorias con función de densidad conjunta f(X)
se define como:
h(X) = −
∫
S
f(x) ln(f(x))dx = −E[ln(f(X))]. (2.21)
Definición 2.2.3. Si dos variables aleatorias X, Y tienen función de den-
sidad conjunta f(x, y) y f(y|x) = f(x,y)fX(x) (donde fX(x) es la densidad mar-
ginal de X) es la densidad condicional de Y dada X, la entroṕıa diferencial
condicional se define como:
h(X|Y ) = −
∫
S
f(x, y) ln(f(x|y))dxdy, (2.22)
con un poco de álgebra, como tenemos que f(x|y) = f(x,y)fY (y) , entonces:
h(X|Y ) = h(X,Y )− h(Y ),
que es la misma forma que encontramos en la regla de la cadena (2.6) y se
deben analizar los casos en los que algún término no sea finito.
2.2. ENTROPÍA DIFERENCIAL 31
Definición 2.2.4. La entroṕıa relativa para el caso continuo, si tenemos
dos medidas de probabilidad F , G absolutamente continuas (A.1.2) una
respecto de la otra, se define como:
D(F ||G) =
∫
X
ln
(
dF
dG
)
dF, (2.23)
donde dFdG es la derivada de Radón-Nikodym (A.1.8) de F respecto a G, de
manera similar si µ es una medida sobre X tal que F y G son absolutamente
continuas respecto a µ, f = dFdµ y g =
dG
dµ son las derivadas de Radón-
Nikodym de F y G respecto a µ, entonces tenemos que:
D(F ||G) =
∫
S
f ln
(
f
g
)
dµ.
De ahora en adelante escribirD(f ||g) será equivalente a escribirD(F ||G)
pues trabajamos siempre con la medida de Lebesgue.
Definición 2.2.5. La información mutua entre dos variables aleatorias
continuas X y Y con función de densidad conjunta f(x, y) se define como:
I(X : Y ) =
∫
S
f(x, y) ln
(
f(x, y)
fX(x)fY (y)
)
dxdy. (2.24)
Observación: es interesante ver que las propiedades de las versiones
continuas de las dos definiciones anteriores se mantienen igual a la de sus
versiones discretas.
Teorema 2.2.6. Sean f(x) y g(x) dos funciones de densidad de probabi-
lidad, entonces:
D(f ||g) ≥ 0,
la igualdad se da si y sólo si f = g casi donde sea.
Demostración. Al igual que en el caso discreto (2.1.9) demostraremos que
−D(f ||g) ≤ 0 usando la desigualdad de Jensen.∫
S
f(x) ln
(
g(x)
f(x)
)
dx ≤ ln
∫
S
g(x)dx
= ln(1)
= 0,
32 CAPÍTULO 2. ENTROPÍA
donde la primera desigualdad se da por la desigualdad de Jensen (B.1) y
después usamos el hecho de que f y g son absolutamente continuas una
respecto de la otra y son densidades de probabilidad.
Para verificar la igualdad observamos que si f = g casi donde sea es
inmediato, entonces chequemos el otro caso suponiendo que D(f ||g) = 0 y
usando la desigualdad de Pinsker (B.0.4). Sea (X,F) un espacio medible y
F , G dos distribuciones de probabilidad y f , g sus densidades, entonces:
sup{|F (A)−G(A)|;A ∈ F} ≤
√
1
2
D(f ||g), (2.25)
entonces,
sup{|F (A)−G(A)|;A ∈ F} ≤ 0, (2.26)
como el supremo es cero, entonces tenemos que F (A) = G(A) para todo
A ∈ F, entonces como las distribuciones son iguales concluimos que f =
g.
Corolario 2.2.7. Sean X, Y dos variables aleatorias continuas con fun-
ción de densidad conjunta p(x, y), entonces:
I(X;Y ) ≥ 0,
la igualdad se da si y sólo si las variables aleatorias son independientes.
2.3. Máxima Entroṕıa
Anteriormente en este caṕıtulo se hab́ıa mencionado que la entroṕıa se
interpreta como una medida de incertidumbre.
Por ejemplo, una distribución con mayor entroṕıa tiene menor entroṕıa
relativa con la distribución uniforme. El propósito de maximizar la entroṕıa
es encontrar una función que cumpla con algunas caracteŕısticas que le
pedimos y que además sea la que nos de una noción de aleatoriedad. Pues
si no hay conocimiento espećıfico de un lugar es razonable utilizar una
distribución que no favorezca ninguna región particular.
Entonces, nos enfrentamos al siguiente problema: maximizar la entroṕıa
diferencial sujeta a algunas restricciones.
2.3. MÁXIMA ENTROPÍA 33
En general tratamos de resolver el problema de maximizar h(X), sujeta
a:
f(x) ≥ 0,
∫
S
f(x)dx = 1,
∫
S
f(x)ri(x)dx = αi, i = 1, ..., k.
(2.27)
Donde S = {x ∈ X|f(x) > 0}, ri(x) es una función de x y αi es una
constante, para i = 1, ..., k.
Es fácil ver que las primeras dos restricciones son necesarias pues que-
remos encontrar una función de densidad, mientras que la tercera tiene que
ver con alguna caracteŕıstica que nos interese sobre la variable aleatoria.
Cabe remarcar que la última restricción no es necesaria, sin embargo, me-
diante esta podemos capturar la esperanza de una función sobre el vector
de restricciones, lo cual puede ser de gran utilidad pues ayuda a especificar
la función de mejor manera como se ve en algunos ejemplos más adelante.
Para resolver este problema seguiremos dos pasos, primero encontrar
una función f(x) que cumpla las restricciones y después viendo que esta es
efectivamente, la de máxima entroṕıa.
Primero planteando el problema como uno de multiplicadores de La-
grange, encontramos que el lagrangiano queda de la siguiente forma (escri-
bimos f en lugar de f(x), igual con ri):
L(f) = −
∫
S
f ln(f)dx+ λ0
∫
S
fdx+
k∑
i=1
λi
∫
S
fridx+ C. (2.28)
En la ecuación anterior, encontramos que tenemos un funcional y una
constante sumada, donde agrupamos las restricciones. De esta forma, rees-
cribiendo la ecuación, tenemos:
L(f) = −
∫
S
f · (ln(f)− λ0 −
k∑
i=1
λiri)dx+ C. (2.29)
34 CAPÍTULO 2. ENTROPÍA
Usando la ecuación de Euler-Lagrange (B.3), tomando g = f(ln(f)− λ0 −
k∑
i=1
λiri) y x = (x1, ..., xn), obtenemos:
dg
df
−
n∑
i=1
d
dxi
dg
dfxi
= 0,
y observando que en la función g no se involucran las derivadas parciales
de la función f , se reduce a:
− ln(f) + λ0 +
k∑
i=1
λiri − 1 = 0,
lo cual nos indica que f es una densidad de la forma:
f(x) = exp
{
λ0 − 1 +
k∑
i=1
λiri(x)
}
, (2.30)
entonces debemos escoger λi para i = 0, ..., k de manera apropiada para
satisfacer las restricciones (2.27), algunos ejemplos de esto se realizan más
adelante.
Una vez que encontramos una función candidata para maximizar la
entroṕıa, debemos ver que en efecto la maximiza y que además es única.
Teorema 2.3.1. Distribución de máxima entroṕıa.
Sea fλ(x) = exp
{
λ0 +
k∑
i=1
λiri(x)− 1
}
, x ∈ A, donde fλ se obtuvo de la
forma que se mostró anteriormente. Entonces, fλ es única y maximiza a
h(X) sobre las densidades que satisfacen las restricciones (2.27).
Demostración. Supongamos que existe otra densidad g que también satis-
face las restricciones (2.27), entonces:
hg(X) = −
∫
S
g ln(g)dx
2.3. MÁXIMA ENTROPÍA 35
= −
∫
S
g ln
(
g
fλ
fλ
)
dx
= −
∫
S
g ln
(
g
fλ
)
dx−
∫
S
g ln(fλ)dx
= −D(g||fλ)−
∫
S
g ln(fλ)dx
≤ −
∫
S
g ln(fλ)dx (2.31)
= −
∫
S
g ·
(
λ0 +
k∑
i=1
λiri − 1
)
dx (2.32)
= −
∫
S
fλ ·
(
λ0 +
k∑
i=1
λiri − 1
)
dx (2.33)
= −
∫
S
fλ ln
(
exp
{
λ0 +
k∑
i=1
λiri − 1
})
dx
= hfλ(X),
donde la desigualdad (2.31) es gracias al teorema (2.2.6), D(g||f) ≥ 0;
(2.32) sucede gracias a la forma que teńıa fλ, (2.33) se da ya que tanto fλ
como g cumplen con las restricciones (2.27). De esta forma podemos ver
que en efecto:
hg(X) ≤ hfλ(X). (2.34)
Para terminar, notamos que la unicidad se da ya que la igualdad en
(2.31) se da únicamente si g(x) = fλ(x) casi seguramente pues la entroṕıa
relativa resulta cero únicamente en este caso.
36 CAPÍTULO 2. ENTROPÍA
Para el caso multivariado, como se menciona en [16], para obtener una
distribución de máxima entroṕıa se pueden considerar algunas restricciones
sobre las marginales, sin embargo la forma de la distribución obtenida es
la misma aunque obtener las constantes suele complicarse.
Ejemplo 1: maximizar h(X) sobre el intervalo [a, b] con las siguientes
restricciones:
1. f(x) ≥ 0.
2.
∫b
a f(x)dx = 1.
Primero obtenemos el lagrangiano,
L(f) =
∫ b
a
f · (ln(f − λ0))dx+ C,
al obtener f mediante la forma que se mencionó anteriormente obtene-
mos que f(x) = eλ0−1, ahora debemos encontrar λ0 para que cumpla la
restricción. ∫ b
a
eλ0−1dx = 1
eλ0−1
∫ b
a
dx = 1
eλ0−1(b− a) = 1,
entonces λ0 = 1 + ln
(
1
b−a
)
y al sustituir λ0 en la función obtenemos que
f(x) = 1b−a , es decir si no tenemos restricciones, la distribución de máxima
entroṕıa sobre un intervalo (o sobre un conjunto acotado en el caso de
encontrarnos en dimensiones mayores) es una uniforme.
Ejemplo 2: maximizar h(X) sobre R con las siguientes restricciones:
1. f(x) ≥ 0.
2.
∫∞
−∞ f(x)dx = 1.
3.
∫∞
−∞ xf(x)dx = µ.
2.3. MÁXIMA ENTROPÍA 37
Obteniendo el lagrangiano:
L(f) =
∫ ∞
−∞
f · (ln(f − λ0 − λ1x))dx+ C,
entonces encontramos que f(x) = eλ0−1+λ1x y debemos encontrar λ0, λ1
que cumplan las restricciones. Fijándonos en la segunda restricción obte-
nemos lo siguiente:
eλ0−1
∫ ∞
−∞
eλ1xdx = 1
eλ1x
λ1
∣∣∣∞
−∞
=
1
eλ0−1
,
observamos que no existen λ0, λ1 ∈ R que puedan cumplir con la última
ecuación, aśı que no existe una distribución de máxima entroṕıa para las
condiciones anteriores.
Ejemplo 3: maximizar h(X) sobre R con las siguientes restricciones:
1. f(x) ≥ 0.
2.
∫∞
−∞ f(x)dx = 1.
3.
∫∞
−∞ xf(x)dx = µ.
4.
∫∞
−∞ x
2f(x)dx− µ2 = σ2.
Sea X ′ = X − µ, entonces E[X ′] = 0 y E[X ′2] = σ2, entonces obte-
nemos que f(x) = eλ0−1+λ1x
′2
= aeλ1x
′2
y reconocemos que es una dis-
tribución gaussiana. Para satisfacer las restricciones recordando la forma
de una distribución normal con media cero obtenemos que λ1 = − 12σ2 y
eλ0−1 = 1√
2πσ2
y obtenemos que f(x) = 1√
2πσ2
e− (x−µ)
2
2σ2
.
Por otro lado es interesante ver que al obtener la entroṕıa de una va-
riable aleatoria con distribución N(µ, σ2) la media no importa, aśı que una
familia de normales con la misma varianza comparten entroṕıa como se
muestra a continuación.
38 CAPÍTULO 2. ENTROPÍA
h(X) = −
∫ ∞
−∞
f(x) ln(f(x))dx
= −
∫ ∞
−∞
f(x) ln
(
1√
2πσ2
e−
(x−µ)2
2σ2
)
dx
=
∫ ∞
−∞
f(x) ln(
√
2πσ2)dx+
1
2σ2
∫ ∞
−∞
f(x)(x− µ)2dx
= ln(
√
2πσ2) +
1
2σ2
(∫ ∞
−∞
x2f(x)dx− 2µ
∫ ∞
−∞
xf(x)dx+ µ2
)
= ln(
√
2πσ2) +
1
2σ2
(σ2 + µ2 − 2µ2 + µ2)
= ln(
√
2πσ2) +
1
2
=
1
2
ln(2eπσ2).
En el siguiente caṕıtulo se hallarán funciones de máxima entroṕıa para
el problema en cuestión.
2.4. Entroṕıa Relativa y Verosimilitud
Para finalizar el caṕıtulo, en esta sección se hablará sobre la relación que
tiene la distancia de Kullback-Leibler o entroṕıa relativa con la función de
verosimilitud y aśı ver la utilidad de la primera al comparar dos funciones
de densidad.
Definición 2.4.1. Sea f(x|θ) la función de densidad conjunta de una mues-
tra aleatoria X = (X1, ..., Xn), dado que se observó que X = x. La vero-
similitud del vector de parámetros θ se encuentra dada por la siguiente
función:
L (θ|x1, ..., xn) =
n∏
i=1
f(xi|θ). (2.35)
Que coincide on la densidad conjunta por la independencia. Para esti-
mar los parámetros de una distribución, es comú usar la log-verosimilitud
2.4. ENTROPÍA RELATIVA Y VEROSIMILITUD 39
ya que, en muchas ocasiones, el logaritmo hace que sea más sencillo mani-
pular las expresiones y el análisis es equivalente por la continuidad.
Recordamos que la entroṕıa relativa vista como esperanza es:
Ef
[
ln
(
f(X)
g(X)
)]
= Ef [ln(f(X))]− Ef [ln(g(X))], (2.36)
(ver (2.1.6) y (2.2.4)). Como se hab́ıa mencionado anteriormente la entroṕıa
relativa nos indica la ineficiencia de considerar que la densidad de la variable
aleatoria es g en lugar de f , suponiendo que esta última es la correcta;
podemos considerar entonces que f(x) = f(x|θ) y g(x) = f(x|θ′), siendo θ′
el parámetro variable.
Consideremos ahora la log-verosimilitud negativa (NLL):
NLL(θ′|x1, ..., xn) = −
n∑
i=1
ln(f(xi|θ′)), (2.37)
gracias a la Ley de los Grandes Números tenemos que 1nNLL(θ
′|x1, ..., xn)
converge a E[ln(f(X|θ′))] cuando n tiende a infinito. Esta esperanza apa-
rece en (2.36).
Entonces si nuestra variable es el parámetro de la distribución (θ′), es
equivalente minimizar la entroṕıa relativa a minimizar menos el logaritmo
de la verosimilitud.
Al relacionar (2.36) y (2.37) se obtiene un resultado interesante; maxi-
mizar la verosimilitud con una distribución propuesta aún sin conocer la
real es equivalente a minimizar la entroṕıa relativa entre dos distribucio-
nes suponiendo que una es la real y otra propuesta (que es la misma de
la verosimilitud), aśı cuando no se tiene la distribución real el método de
verosimilitud ayudará a obtener los parámetros más parecidos a los de la
distribución real.
40 CAPÍTULO 2. ENTROPÍA
Caṕıtulo 3
Aplicación
En este caṕıtulo se mostrarán aplicaciones de la teoŕıa que se ha desa-
rrollado anteriormente. El propósito de esta parte es de mostrar una forma
de obtener la intensidad de la distribución de individuos de una especie
dentro de una región [9].
En los últimos años se ha vuelto de gran interés conocer la distribu-
ción geográfica de los individuos de ciertas especies (pueden ser animales
o plantas) incluso en situaciones en las que no se cuenta con mucha infor-
mación o esta es sesgada. Las finalidades de esto pueden ser variadas, por
ejemplo: monitorear especies en peligro de extinción o especies ajenas a
un ecosistema, reacciones de una especie ante cambios en su hábitat, pla-
neación para controlar las poblaciones de ciertas especies (por ejemplo en
zoológicos abiertos).
Recolectar datos sobre los avistamientos de cada individuo en una re-
gión resulta extremadamente complicado debido a un gran número de fac-
tores, por ejemplo contar en repetidas ocasiones a un mismo individuo,
es por esto que se usan los datos de avistamiento de un individuo. Esta
información podŕıa estar muy sesgada al tomar en cuenta avistamientos
reportados por humanos, ya que, evidentemente, hay zonas donde el tráfi-
co de humanos es mucho mayor y en otras es prácticamente inexistente aśı
que la intensidad de avistamientos no representan mediciones uniformes.
Gracias a avances tecnológicos, ahora podemos tener la información reque-
rida sin tener que visitar toda la región de interés pues mediante el uso de
fotograf́ıas aéreas se pueden obtener datos interesantes que no están libres
41
42 CAPÍTULO 3. APLICACIÓN
de problemas. Hay que remarcar que no se usan datos sobre zonas que no
cuentan con registros de apariciones pues no podemos concluir que haya o
no un sujeto ah́ı.
Problema
El principal problema en este caso es saber qué es lo que debemos
estimar. Por un lado se podŕıa sugerir estimar primero la probabilidad de
aparición en una zona, sin embargo resulta en un problema grave, como se
explica a continuación.
Por ejemplo, supongamos que tenemos una región (podemos suponer
que es rectangular para que sea más sencillo) que podemos dividir en cua-
dros más pequeños y fijemos el tamaño de cada uno de estos, de esta forma
obtenemos una cuadŕıcula regular y supongamos también que de alguna
manera contamos con la probabilidad de que haya cuando menos un su-
jeto en cada una de las divisiones. Ahora, si cambiamos el tamaño de los
cuadros y conocemos otra vez la probabilidad de que haya alguna observa-
ción en cada uno esta podŕıa cambiar mucho. Si las divisiones son grandes
podŕıamos estar subestimando algunas regiones y sobreestimando otras,
mientras que si las divisiones son muy pequeñas es posible que algunas
estimaciones sean insignificantes.
Otra forma de abordar el problema puede ser intentar estimar la in-
tensidad de ocurrencia y aśı utilizar modelos continuos en el espacio. De
esta forma se propone el primer modelo en la sección 3.1, pues recordemos
que en este caso estimar la intensidad permite estimar la probabilidad de
ocurrencia. Entonces lo que realmente aportará este modelo será el número
esperado de avistamientos en cada área espećıfica.
En la segunda secciónde este caṕıtulo el problema se intenta resolver
intentando encontrar la función de máxima entroṕıa que mejor describa el
fenómeno de apariciones, sujeta a algunas restricciones que se obtienen con
datos conocidos.
De ahora en adelante X será la región de interés que consideraremos.
X es un subconjunto compacto de R2 o R3 pues puede ser que la altu-
ra sea de interés, por ejemplo si quisiéramos analizar ocurrencias en una
región montañosa, x ∈ X es un punto de interés y z(x) es un vector de
caracteŕısticas de la región geográfica que son de interés para cada caso,
3.1. MODELO POISSON NO-HOMOGÉNEO 43
las cuales pueden ser tan variadas como cosas podamos medir; tenemos n
avistamientos xi ∈ X para i = 1, ..., n, entonces zi = z(xi) es un vector con
las caracteŕısticas de la i-ésima observación.
3.1. Modelo Poisson No-Homogéneo
En este primer modelo se usa un proceso Poisson no-homogéneo. Consi-
deramos un proceso simple ya que únicamente nos interesa si se encuentra
o no un sujeto en un punto determinado.
Para construir el proceso Poisson que se puede usar para modelar el
avistamiento de individuos debemos considerar la función de intensidad de
primer orden (1.3.1):
λ : X → [0,∞),
integrable, cuya interpretación en este caso es que nos indica qué tan fac-
tible es que un avistamiento sea cercano u ocurra exactamente en x ∈ D;
esta función para nuestros fines la consideramos continua, de esta forma
por (1.29) obtenemos que la intensidad del proceso sobre A ⊂ D es:
Λ(A) =
∫
A
λ(x)dx,
donde Λ resulta ser una medida finita (por al teorema de Radón-Nikodym
(A.1.8)) y además es de Radón (A.1.6), obteniendo aśı un proceso Pois-
son espacial no-homogéneo de intensidad Λ. Recordamos además que los
lugares de avistamientos condicionados al número de estos, se distribuyen
independientemente con la siguiente densidad (1.32):
lD =
λ(x)
Λ(D)
.
Una función que cumple las caracteŕısticas que pedimos para λ, y se sue-
le utilizar, es la exponencial, adicionalmente algunos autores, como Warton
y Shepherd en [19], consideran a esta función de la siguiente forma:
λ(x) = eα+<β,z(x)>,
donde α es una constante que sirve para escalar la densidad, β un vector de
pesos, estableciendo una relación log-lineal con los atributos de la especie
44 CAPÍTULO 3. APLICACIÓN
y del lugar y <,> el producto escalar. El vector de atributos resulta de
vital importancia, sin embargo obtenerlo resulta complejo pues se necesita
una gran cantidad de trabajo interdisciplinario y vaŕıa de acuerdo a cada
situación.
Veamos ahora que papeles juegan tanto α como β en el modelo, para
esto analizaremos la verosimilitud de la distribución conjunta del número
de puntos y sus localizaciones.
3.1.1. Verosimilitud del Proceso Poisson
Recordamos (por (1.32))que suponiendo que conocemos n, el número
de total de lugares de avistamiento de la especie, la distribución conjunta
del proceso Poisson no-homogéneo para una n-tupla de puntos se encuentra
dada por:
f((x1, ..., xn), n) =
eΛ(D)
n!
n∏
i=1
λ(xi), (3.1)
en este caso,
λ(xi) = e
α+<β,z(xi)>, i = 1, ..., n,
Λ(D) =
∫
D
eα+<β,z(x)>dx.
La verosimilitud (2.4.1) se encontrará dada por esta misma densidad
conjunta (3.1), entonces la log-verosimilitud es:
l(X,Θ) =
n∑
i=1
(α+ < β, z(xi) >)− eα
∫
D
e<β,z(x)>dx− ln(n!). (3.2)
A continuación se usa el método de máxima verosimilitud para obtener
estimadores de los parámetros de la densidad, derivando respecto a alfa:
∂l
∂α
=
n∑
i=1
1− eα
∫
D
e<β,z(x)>dx,
3.1. MODELO POISSON NO-HOMOGÉNEO 45
obteniendo dos resultados importantes, primero si igualamos a cero la
derivada y colocamos la suma de un lado y la integral del otro, después de
hacer la suma se obtiene:
n = eα
∫
D
e<β,z(x)>dx, (3.3)
y
α = ln(n)− ln(
∫
D
e<β,z(x)>dx), (3.4)
observamos que α juega el papel de una constante de proporcionalidad
para que el resultado de la integral sea n, coincidiendo aśı con el número
de puntos que tenemos.
La segunda derivada de la log-verosimilitud respecto a α es:
∂2l
∂α2
= −eα
∫
D
e<β,z(x)>dx = −Λ(D),
como Λ(D) > 0 siempre, el estimador que obtuvimos para α es el máximo
dado por la función de verosimilitud.
Ahora haciendo el mismo procedimiento para β, sustituyendo (3.3) y
(3.4) en (3.2) y tenemos que:
l(X,Θ) =
n∑
i=1
[ln(n)− ln(
∫
D
e<β,z(x)>dx)+ < β, z(xi) >]− n− ln(n!),
renombrando las constantes (respecto a β) obtenemos la siguiente expre-
sión:
l(X,Θ) =
n∑
i=1
(
< β, z(xi) > −ln(
∫
D
e<β,z(x)>dx)
)
+ C.
Al ser la log-verosimilitud un escalar, al derivar respecto del vector β
(B.2) obtenemos un vector con las derivadas parciales, donde cada una es
de la forma:
∂l
∂βj
=
n∑
i=1
(
zj(xi)−
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
)
,
46 CAPÍTULO 3. APLICACIÓN
para j = 1, ..., k si contamos con un vector z(x) con k caracteŕısticas,
igualando a cero:
0 =
n∑
i=1
zj(xi)−
n∑
i=1
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
1
n
n∑
i=1
zj(xi) =
∫
D e
<β,z(x)>zj(x)dx∫
D e
<β,z(x)>dx
, (3.5)
donde la integral en el denominador es constante respecto a la que se
encuentra en el numerador, obtenemos una densidad de probabilidad de la
siguiente forma:
pλ(x) =
e<β,z(x)>∫
D e
<β,z(x)>dx
. (3.6)
La función pλ cumple con las caracteŕısticas de una densidad de pro-
babilidad y podemos ver que en (3.5) tenemos la esperanza de zj(x) bajo
pλ.
1
n
n∑
i=1
zj(xi) =
∫
D
pλ(x)zj(x)dx = Epλ [zj(x)], (3.7)
para cada j = 1, ..., k. Entonces se debe de encontrar un vector de pesos β
de manera que se cumplan las ecuaciones anteriores.
3.2. Máxima Entroṕıa
En el caṕıtulo anterior (sección (3.2)) se explica cómo obtener distri-
buciones de máxima entroṕıa. En esta sección buscaremos distribuciones
de máxima entroṕıa planteando algunas situaciones generales que pudie-
ran ser de interés; en el primer caso se plantea un problema que llevará a
encontrar una densidad de probabilidad que resulta ser la misma que se
encontró en la sección anterior (3.6), en los posteriores se estudia un poco
la dependencia entre dos variables aleatorias.
Planteamos el siguiente problem: maximizar h(X) sujeto a las siguientes
restricciones:
3.2. MÁXIMA ENTROPÍA 47
∫
D f(x)dx = 1,∫
D z(x)f(x)dx = Z.
Donde z(x) es un vector de caracteŕısticas como se describe al final de (3),
Z es un vector de promedios obtenidos con las observaciones.
Recordando la sección de Máxima Entroṕıa (2.3) por el resultado ob-
tenido en (2.30) encontramos que:
f(x) = exp[λ0+ < λ1, z(x) > −1],
f(x) = e<λ1,z(x)>eλ0−1.
Debemos encontrar entonces λ0 y λ1 que satisfagan las restricciones, en-
tonces:
eλ0−1 =
(∫
D
e<λ1,z(x)>dx
)−1
,
de esta manera se obtiene que
f(x) =
e<λ1,z(x)>∫
D e
<λ1,z(x)>dx
. (3.8)
Entonces se debe encontrar λ1 de tal manera que se cumpla la restric-
ción ∫
D
z(x)f(x)dx = Z, (3.9)
esto es, que λ1 debe ser un vector tal que la esperanza de la distribución sea
igual a los promedios obtenidos con la información que se tiene; podemos
observar además que bajo esta condición encontraremos parámetros de
forma similar a los que se buscan en (3.7).
Las restricciones anteriores pueden ser un buen primer acercamiento,
sin embargo son susceptibles a fallar como lo es cualquier propuesta basada
solamente en el conocimiento de una media: es posible que el punto descrito
por Z no exista o bien que al considerar los promedios se pierda información
importante.
48 CAPÍTULO 3. APLICACIÓN
Vemos entonces que los métodos planteados en este trabajo (Poisson y
entroṕıa) tienen similitudes interesantes. Es importante ver que cada mode-
lo se puede enriquecer de diferente forma, siendo el de máxima entroṕıa más
directo de trabajar escribiendo las restricciones de forma apropiada, que
pueden ser tan variadas como queramos y podamos analizar, pues se obtu-
vo una forma general para la densidad; mientras que en el proceso Poisson
no-homogéneo se debeŕıa trabajar con intensidades de órdenes superiores
(1.3.1) para trabajar con momentos diferentes del primero e incorporarrestricciones adicionales podŕıa resultar complicado.
A continuación se muestran algunos ejemplos donde se aplicará el méto-
do de máxima entroṕıa considerando que existe alguna relación entre las
variables aleatorias. Para el primer caso supongamos que únicamente tene-
mos información geográfica de una región D bidimensional, es decir, no hay
ninguna función que enriquezca al modelo en el vector de caracteŕısticas.
El problema, planteado como uno de maximizar la entroṕıa, es el siguiente:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
DX
xfX(x)dx = µx.
4.
∫
DY
yfY (y)dy = µy.
Donde µx y µy ∈ R, son los promedios de las coordenadas, de x y y res-
pectivamente, de las observaciones. Para poder usar el método propuesto
anteriormente en la sección 3.2 primero debemos tener todas las integra-
les sobre el mismo dominio, aśı reescribiendo las funciones de densidad
marginales obtenemos que:∫
DX
xfX(x)dx =
∫
D
xf(x, y)dydx,∫
DY
yfY (y)dy =
∫
D
yf(x, y)dxdy,
entonces obtenemos que la densidad debe ser de la forma f(x, y) = exp{λ0−
1 + λ1x+ λ2y}.
3.2. MÁXIMA ENTROPÍA 49
A partir de lo anterior se obtiene que con las condiciones que se propu-
sieron para las densidades marginales obtenemos que las variables aleatorias
X y Y deben ser independientes con funciones de densidad f(x) = e
λ1x∫
DX
eλ1x
,
f(y) = e
λ2y∫
DY
eλ2y
respectivamente, donde λ1 y λ2 se escogen de la misma for-
ma que en (3.9).
El ejemplo anterior modelaŕıa un caso muy sencillo y puede fallar rápi-
damente, pues al considerar los promedios de las coordenadas, podŕıamos
estar describiendo puntos intermedios entre las observaciones donde no hay
o no podŕıa haber individuos.
Una situación interesante de analizar es considerar alguna restricción
sobre la covarianza para el mismo caso bidimensional, para aśı considerar
una interacción entre las coordenadas (o bien dos caracteŕısticas), recorda-
mos que Cov(X,Y ) = E[XY ]− E[X]E[Y ], esto es plantear el problema de
la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D xyf(x, y)dxdy −
∫
D xf(x, y)dydx
∫
D yf(x, y)dxdy = σxy.
Este problema resulta complicado de resolver pues al usar el resultado
obtenido en (2.30) después de hacer las factorizaciones adecuadas obtene-
mos que la densidad es de la forma
f(x, y) = exp{λ0 − 1 + λ1(xy − x
∫
D
yf(x, y)dxdy)},
sin embargo al considerar una restricción sobre alguna de las esperanzas el
problema se simplifica pues se planteaŕıa de la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D yf(x, y)dxdy = µy.
50 CAPÍTULO 3. APLICACIÓN
4.
∫
D xyf(x, y)dxdy − µy
∫
D xf(x, y)dydx = σxy.
Como µy es una constante conocida, después de meterla a la integral y
factorizar obtenemos que la densidad es de la forma
f(x, y) = exp{λ0 − 1 + λ1(xy − x)},
debemos encontrar λ0 y λ1 que satisfagan las restricciones.
Los problemas planteados anteriormente son algunos de los casos más
sencillos con los cuales nos podŕıamos encontrar en la vida real, com-
plicándose al considerar un vector de caracteŕısticas z(x) más complejo
ya que puede darse el caso de que las caracteŕısticas sean funciones de las
coordenadas geográficas o que tengan variables aleatorias asociadas.
Consideremos el siguiente problema, considerando D una región bidi-
mensional. Si fuera de interés la distancia de los puntos de la región a uno
determinado (x1, y1) (por ejemplo una fuente de agua), el problema seŕıa
el siguiente:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D
√
(x− x1)2 + (y − y1)2f(x, y)dxdy = k1.
La densidad que se obtiene en este caso es de la forma f(x, y) =
exp{λ0− 1 +λ1
√
(x− x1)2 + (y − y1)2}, sin embargo si en vez de trabajar
con la distancia trabajamos con el cuadrado de esta se obtiene un resultado
interesante:
Maximizar h(X) sujeto a:
1. f(x, y) ≥ 0.
2.
∫
D f(x, y)dxdy = 1.
3.
∫
D((x− x1)
2 + (y − y1)2)f(x, y)dxdy = k2.
Con estas restricciones, la densidad es de la forma f(x, y) = exp{λ0 − 1 +
λ1((x− x1)2 + (y − y1)2)}, observando que eλ0−1 =
∫
D e
λ1((x−x1)2+(y−y1)2)
se obtiene que X y Y son independientes, entonces en algunas ocasiones
3.2. MÁXIMA ENTROPÍA 51
cambiando un poco la restricción el problema se llega a simplificar y a
conseguir resultados importantes como independencia.
Otro caso interesante para analizar es cuando queremos establecer un
ĺımite para alguna de las caracteŕısticas, en este caso z : D → R, el proble-
ma es de la siguiente forma:
Maximizar h(X) sujeto a:
1. f(x) ≥ 0.
2.
∫
D f(x)dx = 1.
3.
∫
D máx(a, z(x))f(x)dx = c.
La densidad de máxima entroṕıa es
f(x) = exp{λ0 − 1 + λ1 máx(a, z(x))},
para encontrar λ1 en la tercera restricción podŕıamos partir la integral en
los conjuntos donde a > z(x) y a ≤ z(x).
Como se mencionó anteriormente las funciones que podemos tener en las
restricciones pueden ser tan complicadas como se deseé y en algunos casos
podemos reescribirlas para que resulte más sencillo trabajar con ellas, sin
embargo no se pude llegar a una generalización pues las funciones pueden
ser muy variadas. Anteriormente se mostraron algunas restricciones que
podŕıan ser interesantes y no demasiado complicadas de trabajar.
Al comparar los dos modelos podemos observar ventajas y desventa-
jas de ambos, el proceso Poisson espacial resulta ser un gran modelo para
contar las apariciones dentro de una región y además podemos estimar la
intensidad de aparición en cada punto; además al estimar los parámetros
por máxima verosimilitud obtenemos que estos deberán cumplir que los
promedios observados sean iguales a las esperanzas teóricas (3.7), sin em-
bargo al trabajar con promedios podŕıamos estar perdiendo información
importante. Por otro lado al trabajar con distribuciones de máxima en-
troṕıa las restricciones que podemos poner a las caracteŕısticas son más
variadas sin perder la parte aleatoria del modelo.
Finalmente concluimos que al contar con más información, que sea fácil
de caracterizar, trabajar con el método de máxima entroṕıa resulta conve-
niente pues ya contamos con la forma general de la densidad, mientras que
52 CAPÍTULO 3. APLICACIÓN
incorporar esta información al proceso Poisson puede resultar demasiado
complicado o incluso imposible en algunos casos pues se perdeŕıan algunas
caracteŕısticas importantes; si contamos con poca información trabajar con
el proceso Poisson resulta adecuado pues no se complica demasiado y es
una buena alternativa a la aleatoriedad espacial completa.
Apéndice A
Resultados de Análisis
En este caṕıtulo se presentan algunos resultados necesarios para el desa-
rrollo del trabajo anterior.
A.1. Teorema de Lebesgue-Radón-Nikodym
En esta sección se presentan resultados de teoŕıa de la medida necesarios
para algunas caracterizaciones que se dieron en el trabajo, únicamente nos
enfocaremos a resultados usando medidas positivas aunque algunos de estos
se tienen también para medidas con signo, como se puede ver en [10].
Teorema A.1.1. Sea (X,F , µ) un espacio de medida, entonces se cumplen
las siguientes propiedades:
a) Si E,F ∈ F y E ⊂ F entonces µ(E) ≤ µ(F ).
b) Si {En}n∈N ⊂ F , entonces µ(
∞⋃
n=1
En) ≤
∞∑
n=1
µ(En).
c) Si {En}n∈N ⊂ F es una sucesión creciente de conjuntos, entonces
µ(
∞⋃
n=1
En) = ĺım
n→∞
µ(En).
53
54 APÉNDICE A. RESULTADOS DE ANÁLISIS
d) Si {En}n∈N ⊂ F es una sucesión decreciente de conjuntos y µ(E1)
es finita, entonces µ(
∞⋂
n=1
En) = ĺım
n→∞
µ(En).
Demostración.
a) Como E ⊂ F y µ es una medida, µ(E) ≤ µ(E) + µ(F \ E) = µ(F ),
por lo tanto µ(E) ≤ µ(F ).
b) Sea {En}n∈N ⊂ F y Fn = En \
n−1⋃
i=1
Ei para n > 1, F1 = E1, entonces
la sucesión {Fn} es de conjuntos disjuntos y
n⋃
i=1
Ei =
n⋃
i=1
Fi para toda
n ∈ N, por lo tanto usando el inciso anterior, tenemos lo siguiente:
µ
( ∞⋃
n=1
En
)
= µ
( ∞⋃
n=1
Fn
)
=
∞∑
n=1
µ(Fn) ≤
∞∑
n=1
µ(En).
c) Sean E0 = ∅ y Fn = En \En−1 para