Logo Studenta

Teora-de-la-informacion-clasica-y-cuantica

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD  NACIONAL 
AUTÓNOMA DE MÉXICO
FACULTAD DE CIENCIAS
LICENCIATURA EN MATEMÁTICAS
Teoría de la Información Clásica y Cuántica
T   E   S   I   S
QUE PARA OBTENER EL TÍTULO DE:
LICENCIATURA EN MATEMÁTICAS
PRESENTA:
JUAN PABLO CHÁVEZ OCHOA
DIRECTOR DE TESIS: DR. MIGUEL 
ARTURO BALLESTEROS MONTERO
2018 
 
CIUDAD UNIVERSITARIA, CDMX
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
1. Datos del alumno 
 Chávez 
 Ochoa 
 Juan Pablo 
 55 96 00 85 
 Universidad Nacional Autónoma de 
 México 
 Facultad de Ciencias 
 311593765 
 
2. Datos del tutor 
 Dr 
 Miguel Arturo 
 Ballesteros 
 Montero 
 
3. Datos de sinodal 1 
 Dr 
 Luis Octavio 
 Silva 
 Pereyra 
 
4. Datos de sinodal 2 
 Dr 
 Francisco Javier 
 Torres 
 Ayala 
 
5. Datos de sinodal 3 
 Dr 
 Rafael René 
 del Río 
 Castillo 
 
6. Datos de sinodal 4 
 Dr 
 Luis Antonio 
 Rincón 
 Solís 
 
7. Datos del trabajo escrito 
 Teoría de la Información Clásica y Cuántica 
 108p 
 2018
 
 
Este trabajo fue posible gracias a la ayuda proveniente de diversos lugares: 
 
Estoy agradecido con la Universidad Nacional Autónoma de México, por la excelente 
preparación y recursos que me ha ofrecido. Durante mi educación en la UNAM adquirí el 
pensamiento científico y la capacidad de razonamiento crítico que forman una parte 
crucial de mi preparación, como científico y como persona. Agradezco mucho los apoyos 
economicos que me fueron proporcionados durante esta etapa, los programas PAPIIT- 
DGAPA UNAM IN103918 y SEP-CONACYT 254062. 
 
Agradezco a mi padre, Francisco Javier, por su orientación y por el incansable apoyo a lo 
largo de la carrera, así como a mi madre, Beatriz Eugenia, por siempre estar disponible 
en momentos de necesidad. Agradezco cariñosamente a mi hermana, María Fernanda, 
por ser una gran amiga y consejera. Estoy enormemente agradecido con mi tío y padrino, 
Juan Carlos. Su ayuda ha facilitado mis estudios de forma inimaginable. 
 
A Jimena, por su apoyo y compañía durante esta difícil etapa. Por demostrarme su cariño 
y amor incondicionales, por ser una gran amiga. Por su ayuda, incluso de las formas más 
inesperadas, le agradezco con todo mi corazón. 
 
A mi asesor, el Dr. Miguel Ballesteros, por ser una inagotable fuente de consejos y por 
haber tomado en sus manos el progreso de mi educación, así como la dirección de este 
trabajo. Su tutela me ha demostrado la importancia del rigor y ha fomentado en mi una 
fuerte noción acerca de lo que es científicamente correcto. 
 
A los miembros de mi Jurado: el Dr. Luis Octavio Silva Pereyra, el Dr. Rafael René del 
Río Castillo, el Dr. Francisco Javier Torres Ayala, y el Dr. Luis Antonio Rincón Solís, por 
haber aceptado la responsabilidad de revisar este trabajo. Al Dr. Rincón le agradezco 
también el haberme introducido al campo de la Teoría de la Información. 
 
Finalmente, quiero agradecer a mis familiares y amigos más cercanos, porque siempre 
puedo contar con ellos, y porque su presencia hace y hará siempre de mi vida una mejor 
experiencia. 
Agradecimientos
Índice general
1. Introducción 3
I Teoŕıa de la Información Clásica 5
2. Conceptos Fundamentales 7
3. Propiedad de equipartición asintótica y Tipicalidad 35
4. Capacidad de canales 43
II Teoŕıa de la Información Cuántica 63
5. Conceptos Fundamentales de la Teoŕıa Cuántica 65
6. Tipicalidad cuántica 103
1
2 ÍNDICE GENERAL
Caṕıtulo 1
Introducción
La presente Tesis está dividida en dos partes: Teoŕıa de la Información
Clásica, y Teoŕıa de la Información Cuántica. La primera parte está basada
principalmente en [2], mientras que la segunda se basa en [8] y [4]. El objetivo
de este trabajo es doble: en primer lugar, se presentan los conceptos clave y
muchos de los resultados más relevantes de ambas teoŕıas de forma rigurosa,
de manera que un estudiante de licenciatura con conocimientos sólidos de
Probabilidad y Álgebra Lineal pueda comprenderlos. En segundo lugar, se
tratan ambas teoŕıas de tal forma que el lector pueda encontrar puntos de
comparación importantes, y que se pueda entender a la Teoŕıa de la Infor-
mación Cuántica como una generalización, o al menos como una extensión
de la Teoŕıa clásica (más en general, se puede ver a la Probabilidad Cuántica
como una generalización de la Teoŕıa de la Probabilidad Clásica.)
En la primera parte se desarrollan los conceptos fundamentales de la
Teoŕıa de la Información Clásica, con el objetivo de desarrollar una teoŕıa
para el concepto de Canal de Comunicación, y culminando en el segundo
Teorema de Shannon, que afirma la existencia de un código que nos per-
mite enviar información a través de un canal ruidoso (en la práctica puede
ser una red de telecomunicaciones inalámbricas o de fibra óptica, por ejem-
plo) de manera óptima, es decir, minimizando los errores de transmisión.
Además de éste Teorema, se presentan resultados relevantes por śı solos co-
mo la Desigualdad de Fano, La Desigualdad de Procesamiento de Datos y
la Propiedad de Equipartición Asintótica. Por cuestiones de espacio, se han
omitido los temas sobre tasas de entroṕıa para procesos estocásticos, fuentes
de información y Teoŕıa de Códigos. Por esta razón, nos limitareos a presen-
tar una versión particular del Teorema de Shannon, que sin embargo ilustra
3
4 CAPÍTULO 1. INTRODUCCIÓN
las ideas generales de éste y sus implicaciones. El lector pude consultar [2] o
[9] para tratamientos informales de estos temas, enfocados en aplicaciones, y
[1] para un tratamiento formal y una prueba formal del Teorema de Shannon
para canales discretos.
En la segunda parte, se desarrollan los conceptos fundamentales de la
Teoŕıa Cuántica. Después de introducir algunos conceptos básicos de Mecáni-
ca Cuántica para sistemas con un número finito de estados, se desarrolla una
teoŕıa de canales cuánticos. De entre los resultados técnicos de ésta parte,
vale la pena destacar el Teorema de Choi-Kraus, que nos da una forma de
descomponer canales cuánticos en una suma de productos de operadores que
cumplen ciertas condiciones, dándo una manera simple de definir canales a
través de dichos operadores. Además del concepto de canal, se definen varios
conceptos análogos a los de la Teoŕıa Clásica como el de Entroṕıa, Distancia
de Kullback-Liebler, Información mutua, etc. Además de esto se presenta
un caṕıtulo sobre Tipicalidad Cuántica. En éste se demuestran muchos re-
sultados con análogos clásicos, y se ilustran algunos puntos de comparación
sutiles. A diferencia de la primera parte, no dedicaremos un tercer caṕıtulo a
una vrsión cuántica del Teorema de Shannon; la Teoŕıa de canales cuánticos
se presenta en conjunto con los fundamentos de la Teoŕıa Cuántica en el pri-
mer caṕıtulo. El desarrollo de la teoŕıa necesaria para deducir un resultado
como éste aumentaŕıa la longitud de este trabajo de forma considerable. Para
un desarrollo completo puede consultarse [8].
Parte I
Teoŕıa de la Información
Clásica
5
Caṕıtulo 2
Conceptos Fundamentales
Definición 1. (Variable Aleatoria Discreta) Sea (Ω,F , P ) un espacio de
probabilidad y sea (X , S) un espacio medible discreto. Una variable aleatoria
(v.a) discreta es una función X :Ω→ X talque X−1 (A) ∈ F ∀A ∈ S.
Definición 2. (Entroṕıa de una v.a. discreta) Sea X una v.a. discreta con
medida de probabilidad P. Definimos la Entroṕıa en base a de X como
Ha (X) := −
∑
x∈X
P (ω ∈ Ω : X (ω) = x) loga P (ω ∈ Ω : X (ω) = x). (2.1)
En esta definición adoptamos la convención de que 0 loga 0 = 0, justificada
por la continuidad de x loga x y el hecho de que ĺımx→0 x loga x = 0. Al con-
junto X le llamamos el alfabeto de X. Si a = 2, decimos que la entroṕıa de X
se mide en bits. A partir de ahora escribiremos log en lugar de log2 y H(X)
en lugar de H2(X).
Definición 3. (Rectángulo medible) Sean (X1, S1), ..., (Xn, Sn) espacios me-
dibles. Un subconjunto R ⊂ X1 × ... × Xn se llama rectángulo medible si es
de la forma R = A1 × ... × An con A1 ∈ S1, ..., An ∈ Sn. Nos referiremos a
A1, ..., An como los lados de R. Denotaremos por S1×...×Sn = {A1×...×An :
A1 ∈ S1, ..., An ∈ Sn} a la familia de rectángulos medibles.
Definición 4. (Espacio medible producto) Sean (X1, S1), ..., (Xn, Sn) espacios
medibles. Definimos el espacio medible producto como la pareja
(X1 × ...×Xn, S1 ⊗ ...⊗ Sn) (2.2)
en donde S1 ⊗ ... ⊗ Sn es la mı́nima σ-álgebra generada por la colección
S1 × ...× Sn.
7
8 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Definición 5. (Vector aleatorio discreto) Sea (Ω,F , P ) un espacio de proba-
bilidad. Sea X : Ω→ X1× ...×Xn una función. Diremos que X es un vector
aleatorio si X−1(A) ∈ F ∀A ∈ S1⊗...⊗Sn. El vector X puede representarse
de la forma X = (X1, ...Xn), donde cada coordenada Xi es una función de Ω
en Xi.
Nota 6. Puede demostrarse que una función (X1, ..., Xn) : Ω→ X1× ...×Xn
es un vector aleatorio si y sólo si cada coordenada Xi : Ω → Xi es una
función F − Si medible, i.e. una variable aleatoria (ver [7], capt. 3).
Definición 7. (Entroṕıa conjunta) Sea (Ω,F , P ) un espacio de probabilidad.
Sean Xi : Ω → Xi, i = 1, 2, ..., n variables aleatorias discretas. Definimos
la entroṕıa conjunta de X1, ..., Xn como la entroṕıa sobre los valores de la
ditribución P del vector aleatorio (X1, ...Xn), es decir
H(X1, ..., Xn) := −
∑
x∈X1×...×Xn
P (ω ∈ Ω : (X1, ...Xn)(ω) = x)
logP (ω ∈ Ω : (X1, ...Xn)(ω) = x)
(2.3)
Notación 8. A partir de este punto escribiremos
P (ω ∈ Ω : (X1, ...Xn)(ω) = (x1, ..., xn)) = P (X1 = x1, ..., Xn = xn) (2.4)
= p(x1, ..., xn) (2.5)
y
P (ω ∈ Ω : Xi(ω) = xi) = P (Xi = xi) (2.6)
= p(xi). (2.7)
También utilizaremos las notaciones (X1, ...Xn) = X
n y (x1, ...xn) = x
n.
Definición 9. (Valor esperado) Sea (Ω,F , P ) un espacio de probabilidad.
Sea X : Ω→ X ⊂ R una v.a. en este espacio, y sea g : X → R una función.
Entonces podemos definir la v.a. g(X) : Ω→ R. Definimos el valor esperado
de g(X) como
EP (g(X)) :=
∑
x∈X
g(x)p(x) (2.8)
Si no existe riesgo de confusión, escribiremos EP = E.
9
Nota 10. Si hacemos g(x) = log 1
p(x)
en la Definición 9, tenemos que
E(g(X)) =
∑
x∈X
p(x) log
1
p(x)
(2.9)
= H(X). (2.10)
Lema 11. Sea X : Ω → X una variable aleatoria discreta (vector aleatorio
discreto) en el espacio (Ω,F , P ). Entonces H(X) ≥ 0.
Demostración. Como 0 ≤ p(x) ≤ 1 para x ∈ X , tenemos que 0 ≤ p(X) ≤ 1,
por lo cual log 1
p(X)
≥ 0. por lo tanto
E
(
log
1
p(X)
)
≥ 0. (2.11)
Definición 12. (Probabilidad condicional) Sea (Ω,F , P ) un espacio de pro-
babilidad, y sea B ∈ F tal que P (B) > 0. Para cada A ∈ F definimos la
probabilidad condicional de A dadoB como
P (A | B) := P (A ∩B)
P (B)
(2.12)
Es fácil ver que P (· | B) es medida de probabilidad. Si X : Ω→ X y Y : Ω→
Y son v.a.s en (Ω,F , P ), podemos definir la cantidad P (X = x | Y = y) para
x ∈ X y y ∈ Y haciendo
A = {X = x} = {ω ∈ Ω : X(ω) = x} (2.13)
B = {Y = y} = {ω ∈ Ω : Y (ω) = y} (2.14)
en la definición de P (A | B), es decir,
P (X = x | Y = y) = P ({X = x} | {Y = y}) (2.15)
En adelante asumremos que P (Y = y) > 0 para y ∈ Y.
Notación 13. En adelante escribiremos P (X = x | Y = y) = p(x | y), si no
es necesario hacer mención de las variables X y Y .
10 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Definición 14. (Entroṕıa condicional) Sea (Ω,F , P ) espacio de probabilidad
y sean X : Ω→ X y Y : Ω→ Y v.a.s en este espacio. Definimos la entroṕıa
condicional de X dada Y como
H(X | Y ) := −
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y) (2.16)
Nota 15. Si hacemos g(x, y) = log 1
p(x,y)
en la definición 9, obtenemos que
E(g(X, Y )) =
∑
x∈X
∑
y∈Y
p(x, y) log
1
p(x, y)
(2.17)
= H(X, Y ), (2.18)
y si hacemos g(x, y) = log 1
p(x|y) en la definición 9, tenemos que
E(g(X, Y )) =
∑
x∈X
∑
y∈Y
p(x, y) log
1
p(x | y)
(2.19)
= H(X | Y ). (2.20)
Teorema 16. (Regla de la cadena) Sean X : Ω → X y Y : Ω → Y v.a.s en
el espacio de probabilidad (Ω,F , P ). Entonces
H(X, Y ) = H(X) +H(Y | X) (2.21)
Demostración. Primero observemos que
P (X = x) = P ({X = x} ∩ Ω) (2.22)
= P
(
{X = x} ∩
⋃
y∈Y
{Y = y}
)
(2.23)
= P
( ⋃
y∈Y
({X = x} ∩ {Y = y})
)
(2.24)
= P
( ⋃
y∈Y
{X = x, Y = y}
)
(2.25)
= P (X = x, Y = y), (2.26)
11
pues Y es discreto. Es decir, p(x) =
∑
y∈Y p(x, y). Entonces
H(X, Y ) = −
∑
x∈X
∑
y∈Y
p(x, y) log p(x, y) (2.27)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)p(x) (2.28)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)−
∑
x∈X
∑
y∈Y
p(x, y) log p(x) (2.29)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)−
∑
x∈X
p(x) log p(x) (2.30)
= H(Y | X) +H(X). (2.31)
Definición 17. (Entroṕıa condicional) Sean X1 : Ω→ X1, . . . , Xn : Ω→ Xn
v.a.s en el espacio de probabilidad (Ω,F , P ). Definimos la entroṕıa condicio-
nal de Xn dadas las variables Xn−1, . . . , X1 como la entroṕıa condicional de
Xn dado el vector (Xn−1, . . . , X1), es decir
H(Xn | Xn−1, . . . , X1) := H(Xn | (Xn−1, . . . , X1)) (2.32)
Teorema 18. (Regla de la cadena) Sean X1 : Ω → X1, . . . , Xn : Ω → Xn
para n ≥ 2 v.a.s en el espacio de probabilidad (Ω,F , P ). Entonces
H(Xn, . . . , X1) = H(X1) +
n∑
i=2
H(Xi | Xi−1, . . . , X1), (2.33)
Demostración. Procedemos por inducción sobre n ≥ 2 El caso base (n = 2)
es la prueba del Teorema 16. Supongamos que el resultado es cierto para
algún natural n ≥ 2. Entonces
H(X1, . . . , Xn, Xn+1) = H((X1, . . . , Xn), Xn+1) (2.34)
= H(Xn+1 | (Xn, . . . , X1)) +H(X1, . . . , Xn) (2.35)
= H(Xn+1 | (Xn, . . . , X1)) (2.36)
+H(X1) +
n∑
i=2
H(Xi | Xi−1, . . . , X1) (2.37)
= H(X1) +
n+1∑
i=2
H(Xi | Xi−1, . . . , X1), (2.38)
12 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
donde la segunda igualdad se sigue del Teorema 16, y la tercera de la hipótesis
de inducción.
Definición 19. (Entroṕıa relativa o distancia de Kullback-Leibler) Sean X :
Ω → X y Y : Ω → X v.a.s en los espacios de probabilidad (Ω,F , P ) y
(Ω,F , Q) respectivamente. Definimos la entroṕıa relativa de X con Y como
D(p || q) :=
∑
x∈X
p(x) log
p(x)
q(x)
(2.39)
Aqúı aceptamos las convenciones 0 log 0
0
= 0, 0 log 0
q
= 0, y p log p
0
= ∞.
Por lo tanto, si existe x ∈ X tal que p(x) > 0 y q(x) = 0, tenemos que
D(p || q) =∞.
Nota 20. Si hacemos g(x) = log p(x)
q(x)
en la definición 9, tenemos que
E(g(x)) =
∑
x∈X
p(x) log
p(x)
q(x)
(2.40)
= D(p || q). (2.41)
Definición 21. (Información mutua) Sea (X, Y ) : Ω → X × Y un vector
aleatorio en el espacio de probabilidad (Ω,F , P ). Sean p(x) y q(y) las dis-
tribuciones marginales de X y Y respectivamente. Definimos la información
mutua de las variables X y Y como la entroṕıa relativa de las distribuciones
p(x, y) y p(x)q(y), es decir,
I(X : Y ) := D(p(x, y) || p(x)q(y)) (2.42)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
p(x)q(y)
(2.43)
Nota 22. Si hacemos g(x, y) = log p(x,y)
p(x)q(y)
en la definición 9, tenemos que
E(g(x, y)) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
p(x)q(y)
(2.44)
= I(X : Y ). (2.45)
Teorema 23. (Propiedades de la Información Mutua) Sea (X, Y ) : Ω →
X ×Y un vector aleatorio en el espacio de probabilidad (Ω,F , P ). Entonces
13
1. I(X : Y ) = H(X)−H(X | Y )
2. I(X : Y ) = H(Y )−H(Y | X)
3. I(X : Y ) = H(X) +H(Y )−H(X, Y )
4. I(X : Y ) = I(Y : X)
5. I(X : X) = H(X)
Demostración. 1. Recordemos que p(x | y) = p(x,y)
p(y)
por definición. Enton-
ces
I(X : Y ) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x,y)
p(x)p(y)
(2.46)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x | y)
p(x)
(2.47)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(x) +
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y)
(2.48)
= −
∑
x∈X
p(x) log p(x)−
(
−
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y)
)
(2.49)
= H(X)−H(X | Y ), (2.50)
donde la penúltima igualdad sucede porque p(x) =
∑
y∈Y p(x, y).
2. Es análoga al inciso anterior, usando que p(y | x) = p(x,y)
p(x)
en lugar de
p(x | y) = p(x,y)
p(y)
.
3. Usando el teorema 16, tenemos que
H(X, Y ) = H(X) +H(Y | Y ). (2.51)
Entonces del inciso anterior tenemos que
I(X : Y ) = H(Y )−H(Y | X) (2.52)
= H(Y ) +H(X)−H(X, Y ). (2.53)
14 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
4. Por definición de la Información Mutua, usando que p(x, y) = p(y, x).
5. Observemos que
p(x, y) = P ({X = x} ∩ {X = y}) = P ({X = x}) = p(x) (2.54)
si x = y, y
p(x, y) = P (∅) = 0 (2.55)
si x 6= y, por lo cual
H(X | X) = −
∑
x∈X
∑
y∈X
p(x, y) log
p(x, y)
p(x)
(2.56)
= −
∑
x∈X
p(x, x) log
p(x, x)
p(x)
(2.57)
= −
∑
x∈X
p(x) log(1) = 0. (2.58)
Por lo tanto, del primer inciso se sigue que
I(X : X) = H(X)−H(X | X) = H(X). (2.59)
Definición 24. (Información mutua condicional) Sea (X, Y, Z) : Ω→ X1 ×
X2×X3 un vector aleatorio en el espacio de probabilidad (Ω,F , P ). Definimos
la información mutua de X y Y dada Z como la cantidad
I(X : Y | Z) := H(X | Z)−H(X | Y, Z). (2.60)
Teorema 25. (Regla de la cadena para la información mutua) Sea (X1, . . . , Xn, Y ) :
Ω → X1 × · · · × Xn × Y un vector aleatorio en el espacio de probabilidad
(Ω,F , P ). Entonces
I(X1, . . . , Xn;Y ) = I(X1;Y ) +
n∑
i=2
I(Xi;Y | Xi−1, . . . , X1). (2.61)
15
Demostración. De los teoremas 18 y 23, tenemos que
I(X1, . . . , Xn : Y ) (2.62)
= H(X1, . . . , Xn)−H(X1, . . . , Xn | Y ) (2.63)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1)−H(X1, . . . , Xn | Y ) (2.64)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1) +H(Y )−H(X1, . . . , Xn, Y ) (2.65)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1) +H(Y )−H(Y ) (2.66)
−
n∑
i=1
H(Xi | Xi−1, . . . , X1, Y ) (2.67)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1)−
n∑
i=1
H(Xi | Xi−1, . . . , X1, Y )
(2.68)
= H(X1)−H(X1 | Y ) +
n∑
i=2
I(Xi : Y | Xi−1, . . . , X1) (2.69)
= I(X1;Y ) +
n∑
i=2
I(Xi : Y | Xi−1, . . . , X1). (2.70)
Teorema 26. Sea (X, Y ) : Ω → X × Y un vector aleatorio en los espacios
de probabilidad (Ω,F , P ) y (Ω,F , Q). Entonces
D(p(x, y) || q(x, y)) = D(p(x) || q(x)) +
∑
x∈X
p(x)D(p(y | x) || q(y | x)).
(2.71)
16 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Demostración.
D(p(x, y) || q(x, y)) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
q(x, y)
(2.72)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(y | x)p(x)
q(y | x)q(x)
(2.73)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
+
∑
x∈X
∑
y∈Y
p(x, y) log
p(y | x)
q(y | x)
(2.74)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
(2.75)
+
∑
x∈X
p(x)
[∑
y∈Y
p(y | x) log p(y | x)
q(y | x)
]
(2.76)
= D(p(x) || q(x)) +
∑
x∈X
p(x)D(p(y | x) || q(y | x)).
(2.77)
Definición 27. (Función real convexa) Sea f : (a, b) → R una función.
Decimos que f es convexa en (a, b) si para cada x1, x2 ∈ (a, b) y 0 ≤ λ ≤ 1,
f(λx1 + (1− λ)x2) ≤ λf(x1) + (1− λ)f(x2), (2.78)
con x1 < x2. Decimos que f es etrictamente convexa si la igualdad se cumple
sólo cuando λ = 1 o λ = 0.
Definición 28. Decimos que f : (a, b)→ R es cóncava si −f es convexa, y
estrictamente cóncava si −f es estrictamente convexa.
Teorema 29. (Desigualdad de Jensen) Sea X : Ω → R una v.a. en el
espacio de probabilidad (Ω,F , P ) con E(X) < ∞, y sea φ : R → R una
función convexa. Entonces
φ(E(X)) ≤ E(φ(X)). (2.79)
Cuando se cumple la igualdad y φ es estrictamente convexa, entonces X es
constante casi seguramente, es decir, X = E(X) c.s.
17
Demostración. Haremos la prueba para el caso discreto, que es el que será
usado más adelante. Sea X : Ω → X ⊂ R una v.a. discreta en (Ω,F , P ).
Procedemos por inducción sobre n =| X |. Para n = 1 el resultado es trivial.
Para n = 2, tenemos por convexidad que
φ(E(X)) = φ(p(x1)x1 + p(x2)x2) (2.80)
= p(x1)φ(x1) + p(x2)φ(x2) (2.81)
= E(φ(X)), (2.82)
pues p(x1) + p(x2) = 1 y p(x1), p(x2) ≥ 0.
Supongamos que el resultado es cierto para n = k − 1. Denotemos por
pi = p(xi), i = 1, . . . , k a los valores de la distribución p(x) de la v.a X
que toma k valores. Entonces {p′1, . . . , p′k−1} con p′i =
pi
1−pk
(pk 6= 1) para
i = 1, . . . , k − 1, es una distribución de probabilidad para una v.a que toma
valores x1, . . . , xk−1. Entonces
φ(E(X)) = φ
(
k∑
i=1
pixi
)
(2.83)
= φ
(
pkxk + (1− pk)
k−1∑
i=1
pi
1− pk
xi
)
(2.84)
≤ pkφ(xk) + (1− pk)φ
(
k−1∑
i=1
pi
1− pk
xi
)
(2.85)
≤ pkφ(xk) + (1− pk)
k−1∑
i=1
pi
1− pk
φ(xi) (2.86)
=
k∑
i=1
piφ(xi) = E(φ(X)), (2.87)
donde la primera desigualdad se sigue del caso n = 2, y la segunda por
hipótesis de inducción. Para la segunda parte del teorema, supongamos queX
toma los valores x1, x2, . . . con probabilidades p1, p2, . . . (para esta parte no
necesitamos que X sea finita), y supongamos que φ es estrictamente convexa.
Supongamos por reducción al absurdo que X no es constante. Es decir, p1 6=
18 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
1, p2 6= 1, . . . Que la igualdad se cumpla implica lo siguiente:
E(φ(X)) = p1φ(x1) + p2φ(x2) + . . . (2.88)
= φ(p1x1 + p2x2 + . . . ) (2.89)
= φ
(
p1x1 + (1− p1)
(
p2
1− p− 1
x2 +
p3
1− p1
x3 + . . .
))
(2.90)
< p1φ(x1) + (1− p1)φ
(
p2
1− p1
x2 +
p3
1− p1
x3 + . . .
)
(2.91)
= p1φ(x1) + p2φ(x2) + (1− p1)(1− p2)φ
(
p3
(1− p1)(1− p2)
x3 + . . .
)
(2.92)
= (2.93)
... (2.94)
= p1φ(x1) + p2φ(x2) + · · · = E(φ(X)), (2.95)
donde la segunda igualdad se da por la hipótesis de que φ(E(X)) = E(φ(X))
y la primera desigualdad por convexidad estricta, e iteramos el proceso. Por
lo tanto E(φ(X)) < φ(E(X)). Esto es una contradicción. Por lo tanto existe
i tal que pi = 1, es decir, X es constante, y E(X) = pixi = 1xi = X c.s.
Recordemos el siguiente hecho del Cálculo:
Teorema 30. Si una función f : I → R de clase C2 tiene segunda derivada
no negativa (positiva), entonces f es convexa (estrictamente convexa) en I.
Teorema 31. Sean p(x) y q(x) dos medidas de probabilidad en el alfabeto
X . Entonces
D(p || q) ≥ 0, (2.96)
y la igualdad se cumple si y sólo si p(x) = q(x) para toda x ∈ X .
19
Demostración. Sea A = {x ∈ X : p(x) > 0}. Entonces
−D(p || q) = −
∑
x∈X
p(x) log
p(x)
q(x)
(2.97)
= −
∑
x∈A
p(x) log
p(x)
q(x)
(2.98)
=
∑
x∈A
p(x) log
q(x)
p(x)
(2.99)
= Ep
(
log
q(x)
p(x)
)
(2.100)
≤ logEp
(
q(x)
p(x)
)
(2.101)
= log
∑
x∈A
p(x)
q(x)
p(x)
(2.102)
= log
∑
x∈A
q(x) (2.103)
≤ log
∑
x∈X
q(x) (2.104)
= log(1) = 0, (2.105)
donde la primera desigualdad se sigue del Teorema 29 y la concavidad de
t → log t en (0, 1] (Teorema 30). Además, t → log t es estrictamente cnvexa
en (0, 1] (Teorema 30). Entonces por el Teorema 29 tenemos que D(p || q) = 0
si y sólo si p(x)
q(x)
= c c.s. con c una constante, si y sólo si p(x)
q(x)
= c para toda
x ∈ X . Es decir, p(x) = cq(x) para toda x ∈ X para alguna constante c.
Entonces ∑
x∈X
q(x) = c
∑
x∈X
= c > 0, (2.106)
por lo cual c = 1. Es decir, q(x) = p(x) para toda x ∈ X .
Definición 32. (Independencia) Sean Xi : Ω → X , i = 1, 2, . . . v.a.s en el
espacio (Ω,F , P ). Sea G1,G2, . . . una sucesión de sub σ-álgebras de F .
1. Para un entero fijo n, decimos que las n σ-álgebras G1, . . . ,Gn son in-
dependientes si
P (A1 ∩ A2 ∩ · · · ∩ An) = P (A1)P (A2) . . . P (An) (2.107)
20 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
para todos A1 ∈ G1, A2 ∈ G2, . . . , An ∈ Gn.
2. Decimos que las n v.a.s X1, . . . , Xn son independientes si las corres-
pondientes σ-álgebras generadas σ(X1), . . . , σ(Xn) son independientes.
3. Decimos que toda la sucesión G1,G2, . . . de σ-álgebras es independiente
si para cada n las σ-álgebras G1, . . . ,Gn son independientes.
4. Decimos que la sucesión de v.a.s {Xi}∞i=1 es independiente si para cada
n, las v.a.s X1, . . . , Xn son independientes.
Nota 33. Consideremos el contexto de la Definición 32, tomando las v.a.s
con valores en un alfabeto (finito). Entonces las v.a.s X1,. . . , Xn son inde-
pendientes si y sólo si
P ({X1 = x1}∩· · ·∩{Xn = xn}) = P ({X1 = x1}) . . . P ({Xn = xn}) (2.108)
para todas x1, . . . , xn ∈ X . De forma abreviada, p(x1, . . . , xn) = p(x1) . . . p(xn).
Corolario 34. Sean X : Ω→ X y Y : Ω→ Y v.a.s en (Ω,F , P ). Entonces
I(X : Y ) ≥ 0, (2.109)
con igualdad si y sólo si p(x, y) = p(x)p(y) (i.e. si X y Y son independientes).
Demostración. Por el teorema 31, tenemos que
I(X : Y ) = D(p(x, y) || p(x)p(y)) ≥ 0, (2.110)
con igualdad si y sólo si p(x, y) = p(x)p(y).
Corolario 35. Sean X : Ω→ X y Y : Ω→ Y v.a.s en los espacios (Ω,F , P )
y (Ω,F , Q). Entonces
D(p(x, y) || q(x, y)) ≥ D(p(x) || q(x)) (2.111)
21
Demostración. Por el Teorema 31 obtenemos que
0 ≤ D(p(y | x) || q(y | x)) (2.112)
=
∑
x∈X
p(x)
∑
y∈Y
p(y | x) log p(y | x)
q(y | x)
(2.113)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)q(x)
q(x, y)p(x)
(2.114)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
q(x, y)
−
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
(2.115)
= D(p(x, y) || q(x, y))−D(p(x) || q(x)). (2.116)
Corolario 36. Sean X : Ω → X , Y : Ω → Y y Z : Ω → Z v.a.s en
(Ω,F , P ). Entonces
1. I(X : Y | Z) ≥ 0
2. I(X : Y | Z) = 0 si y sólo si p(x, y | z) = p(x | z)p(y | z) (i.e. X y Y
son condicionalmente independientes de Z).
Demostración. Observemos que
p(x | y, z) = p(x, y, z)
p(y, z)
(2.117)
=
p(x, y | z)p(z)
p(y | z)p(z)
(2.118)
=
p(x, y | z)
p(y | z)
. (2.119)
Entonces,
22 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
I(X : Y | Z) = H(X | Z)−H(X | Y, Z) (2.120)
=
∑
x,z
p(x, z) log
1
p(x | z)
−
∑
x,y,z
p(x, y, z) log
1
p(x | y, z)
(2.121)
=
∑
x,y,z
p(x, y, z) log
1
p(x | z)
−
∑
x,y,z
p(x, y, z) log
1
p(x | y, z)
(2.122)
=
∑
x,y,z
p(x, y, z) log
1
p(x | z)
+
∑
x,y,z
p(x, y, z) log p(x | y, z)
(2.123)
=
∑
x,y,z
p(x, y, z) log
p(x | y, z)
p(x | z)
(2.124)
=
∑
x,y,z
p(x, y, z) log
p(x, y | z)
p(x | z)p(y | z)
(2.125)
=
∑
z
p(z)
∑
x,y
p(x, y | z) log p(x, y | z)
p(x | z)p(y | z)
(2.126)
=
∑
z
p(z)D(p(x, y | z) || p(x | z)p(y | z)) ≥ 0 (2.127)
con igualdad si y sólo si p(x, y | z) = p(x | z)p(y | z).
Teorema 37. Sea X : Ω→ X v.a. en (Ω,F , P ) con | X |= n. Entonces
1. H(X) ≤ log n
2. Se cumple la igualdad si y sólo si p(x) = 1
n
para toda x ∈ X .
Demostración. 1. Sea u : F → [0, 1] la medida de probabilidad uniforme
en X , es decir, u(x) = 1
n
, x ∈ X . Entonces por el Teorema 31 tenemos
23
que
0 ≤ D(p || u) (2.128)
=
∑
x∈X
p(x) log
p(x)
u(x)
(2.129)
=
∑
x∈X
p(x) log np(x) (2.130)
=
∑
x∈X
p(x) log n+
∑
x∈X
p(x) log p(x) (2.131)
= log n−H(X). (2.132)
2. D(p || u) = 0 si y sólo si p(x) = u(x) para toda x ∈ X , es decir
H(X) = log n si y sólo si p(x) = u(x) para toda x ∈ X .
Teorema 38. (El condicionamiento reduce la entroṕıa) Sean X : Ω → X y
Y : Ω→ X v.a.s en (Ω,F , P ). Entonces
H(X | Y ) ≤ H(X). (2.133)
Demostración. Por el corolario 34 y el teorema 23 tenemos que
0 ≤ I(X : Y ) = H(X)−H(X | Y ). (2.134)
Observemos que por 34, H(X) = H(X | Y ) si y sólo si X y Y son indepen-
dientes.
Teorema 39. Sea (X1, . . . , Xn) : Ω→ X1 × · · · × Xn un vector aleatorio en
(Ω,F , P ). Entonces
H(X1, . . . , Xn) ≤
n∑
i=1
H(Xi) (2.135)
y la igualdad se da si y sólo si X1, . . . , Xn son independientes.
Demostración. Por el Teorema 18, se cumple que
H(X1, . . . , Xn) =
n∑
i=1
H(Xi | Xi−1, . . . , X1). (2.136)
24 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Por el Teorema 38, tenemos que
n∑
i=1
H(Xi | Xi−1, . . . , X1) ≤
n∑
i=1
H(Xi). (2.137)
La igualdad se cumple si y sólo si H(Xi) = H(Xi | Xi−1, . . . , X1), si y
sólo si Xi es independiente de (Xi−1, . . . , X1), si y sólo si p(xi, xi−1, . . . , x1) =
p(xi)p(xi−1, . . . , x1) para i = 1, . . . , n, si y sólo si p(x1, . . . , xn) = p(x1) . . . p(xn),
si y sólo si X1, . . . , Xn son independientes.
Lema 40. (Desigualdad del logaritmo y la suma) Sean a1 ≥ 0, . . . , an ≥ 0 y
b1 ≥ 0, . . . , bn ≥ 0 números reales. Entonces
n∑
i=1
ai log
ai
bi
≥
(
n∑
i=1
ai
)
log
(∑n
i=1 ai
)
(∑n
i=1 bi
) , (2.138)
y la igualdad se cumple si y sólo si ai
bi
es constante para i = 1, . . . , n (definimos
ai
0
:=∞).
Demostración. Sin pérdida de generalidad podemos suponer que ai > 0 y
bi > 0, i = 1, . . . , n, pues consideramos los siguientes casos:
1. Si alguna bi = 0 y ai > 0, el lado izquierdo es infinito, pues ai log
ai
0
:=
∞.
2. Si alguna ai = 0 y bi > 0, el sumando correspondiente en cada lado es
cero, pues 0 log 0
bi
:= 0, y la desigualdad permanece sin cambio.
3. Si ai = 0 y bi = 0, ambos lados de la desigualdad permanecen sin
cambio, pues 0 log 0
0
:= 0.
Entonces supongamos que ai > 0 y bi > 0. Se puede probar (usando el
Teorema 30) que φ(t) = t log t es estrictamente convexa. Por la desigualdad
de Jensen (Teorema 29), si t1, . . . , tn son numeros reales positivos y α1, . . . , αn
son reales en [0, 1] tales que
∑n
i=1 αi = 1, se cumple que
φ
(
n∑
i=1
αiti
)
≤
n∑
i=1
αiφ(ti). (2.139)
25
Tomando αi =
bi∑n
i=1 bi
y ti =
ai
bi
, se obtiene que(
n∑
i=1
ai∑n
i=1 bi
)
log
(
n∑
i=1
ai∑n
i=1 bi
)
≤
n∑
i=1
(
bi∑n
i=1 bi
)
ai
bi
log
ai
bi
, (2.140)
es decir, (∑n
i=1 ai
)
(∑n
i=1 bi
) log
(∑n
i=1 ai
)
(∑n
i=1 bi
) ≤ ∑ni=1 ai log aibi(∑n
i=1 bi
) . (2.141)
Como φ es estrictamente convexa, por 29 tenemos que la igualdad se cumple
si y sólo si t1 = t2 = · · · = tn (v.a. constante), si y sólo si aibi es constante para
i = 1, . . . , n. La rećıproca es directa: si ai
bi
= c para i = 1, . . . , n, entonces el
lado izquierdo es (log c)
∑n
i=1 ai, y el derecho es(
n∑
i=1
ai
)
log
∑n
i=1 ai
1
c
∑n
i=1 ai
= (log c)
n∑
i=1
ai. (2.142)
Teorema 41. La entroṕıa relativa D(p || q) es convexaa vista como función
de los pares (p, q), es decir, si (p1, q1) y (p2, q2) son dos pares de funciones
de probabilidad sobre un alfabeto X . entonces
D(λp1+(1−λ)p2 || λq1+(1−λ)q2) ≤ λD(p1 || q1)+(1−λ)D(p2 || q2) (2.143)
para toda λ ∈ [0, 1].
Demostración. Por definición y aplicando el Lema 40, obtenemos que
D(λp1 + (1− λ)p2 || λq1 + (1− λ)q2) (2.144)
=
∑
x∈X
(λp1(x) + (1− λ)p2(x)) log
λp1(x) + (1− λ)p2(x)
λq1(x) + (1− λ)q2(x)
(2.145)
≤
∑
x∈X
[
λp1(x) log
λp1(x)
λq1
+ (1− λ)p2(x) log
(1− λ)p2(x)
(1− λ)q2(x)
]
(2.146)
= λ
∑
x∈X
p1(x) log
p1(x)
q1(x)
+ (1− λ)
∑
x∈X
p2(x) log
p2(x)
q2(x)
(2.147)
= λD(p1 || q1) + (1− λ)D(p2 || q2). (2.148)
26 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Observemos que por el Lema 40, la igualdad se da si y sólo si
p1,i
q1,i
y
p2,i
q2,i
son
constantes para i = 1, . . . , n =| X |. Como pk,i ≥ 0 y qk,i ≥ 0, k = 1, 2, y
además
∑n
i=1 pk,i = 1 y
∑n
i=1 qk,i = 1, tenemos que la igualdad se da si y sólo
si pk = qk, k = 1, 2.
Corolario 42. En el contexto del Teorema 41, la función p → D(p || q) es
convexa.
Demostración. Sean p1 y p2 funciones de probabilidad en X . Por el Teorema
41 tenemos que
D(λp1 + (1− λ)p2 || q) ≤ λD(p1 || q) + (1− λ)D(p2 || q) (2.149)
haciendo q1 = q2 = q.
Corolario 43. En el contexto del Teorema 41, la función q → D(p || q) es
convexa.
Demostración. Sean q1 y q2 funciones de probabilidad en X . Hacemos p =
p1 = p2 en el Teorema 41, y obtenemos
D(p || λq1 + (1− λ)q2) ≤ λD(p || q1) + (1− λ)D(p || q2). (2.150)
Teorema 44. Consideremos a la entroṕıa como una función de los vectores
de probabilidad p = (p1, . . . , pn) sobre el alfabeto X , es decir, aquellos tales
que pi ≥ 0 y
∑n
i=1 pi = 1. Es decir,
H(p) :=
n∑
i=1
pi log pi (2.151)
para p = (p1, . . . , pn). Entonces p→ H(p) es cóncava.
Demostración. Sea p = (p1, . . . , pn) un vector de probabilidad y se u la dis-
tribución uniforme en X , es decir, u = ( 1
n
, . . . , 1
n
). Por el Teorema 37 sabemos
27
que H(u) = log n. Observemos que
D(p || u) =
n∑
i=1
pi log
pi
ui
=
n∑
i=1
pi log
pi
1
n
=
n∑
i=1
pi log npi
=
n∑
i=1
pi(log n+ log pi)
= log n−H(p).
(2.152)
Por lo tanto, H(p) = log n −D(p || u). Por el corolario 42, p → D(p | u) es
convexa. Por lo tanto, p→ log n−D(p || u) es cóncava.
Nota 45. Lo anterior se puede escribir como
H(λp1 + (1− λ)p2) ≥ λH(p1) + (1− λ)H(p2) (2.153)
para λ ∈ [0,1] y p1, p2 vectores de probabilidad en X .
Definición 46. (Proceso estocástico a tiempo discreto) Un proceso estocásti-
co a tiempo discreto es una colección de v.a.s {Xn : n = 1, 2, . . . } en un
espacio de probabilidad (Ω,F , P ) y donde todas las v.a.s toman valores en
un conjunto S (llamado el espacio de estados).
Definición 47. (Cadena de Markov) Decimos que un proceso estocástico
{Xn}n con espacio de estados discreto es una cadena de Markov si cumple
la propiedad de Markov, es decir,
P (Xn = xn | Xn−1 = xn−1, . . . , X1 = x1) = P (Xn = xn | Xn−1 = xn−1)
(2.154)
para n = 1, 2, . . . En forma abreviada, p(xn | xn−1, . . . , x1) = p(xn | xn−1).
Nota 48. En particular, nos interesa el caso en el que las cadenas están
indexadas por el conjunto {1, 2, 3} y el espacio de estados es un alfabeto
S = X . En este caso, la propiedad de Markov se escribe como p(x3 | x2, x1) =
p(x3 | x2).
28 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Lema 49. En el caso de la Nota 48, la propiedad de Markov es equivalente
a las siguientes identidades:
1. p(x1, x2, x3) = p(x3 | x2)p(x2 | x1)p(x1)
2. p(x1, x3 | x2) = p(x1 | x2)p(x3 | x2).
Demostración. 1. Supongamos la propiedad de Markov. Entonces
p(x1, x2, x3) = p(x3 | x2, x1)p(x1, x2) (2.155)
= p(x3 | x2)p(x1, x2) (2.156)
= p(x3 | x2)p(x2 | x1)p(x1). (2.157)
Para el regreso, supongamos la primera identidad. Entonces
p(x3 | x2, x1) =
p(x1, x2, x3)
p(x1, x2)
(2.158)
=
p(x3 | x2)p(x2 | x1)p(x1)
p(x2, x1)
(2.159)
=
p(x3 | x2)p(x2 | x1)p(x1)
p(x2 | x1)p(x1)
(2.160)
= p(x3 | x2). (2.161)
2. Supongamos la propiedad de Markov. Entonces
p(x1, x3 | x2) =
p(x1, x2, x3)
p(x2)
(2.162)
=
p(x1, x2, x3)
p(x1, x2)
p(x1, x2)
p(x2)
(2.163)
= p(x3 | x1, x2)p(x1 | x2) (2.164)
= p(x3 | x2)p(x1 | x2). (2.165)
29
Para el regreso, supongamos la segunda identidad. Entonces
p(x3 | x1, x2) =
p(x1, x2, x3)
p(x1, x2)
(2.166)
=
p(x1, x2, x3)
p(x1 | x2)p(x2)
(2.167)
=
p(x1, x3 | x2)
p(x1 | x2)
(2.168)
=
p(x3 | x2)p(x1 | x2)
p(x1 | x2)
(2.169)
= p(x3 | x2). (2.170)
Teorema 50. Sea {X1, X2, X3} una cadena de Markov en el espacio (Ω,F , P ),
donde cada v.a. Xi toma valores en el alfabeto X . Entonces
I(X1 : X3 | X2) = 0. (2.171)
Demostración. Por definición y por el Lema 49, segundo inciso, tenemos que
I(X1 : X3 | X2) (2.172)
= H(X1 | X2)−H(X1 | X3, X2) (2.173)
=
∑
x1,x2
p(x1, x2) log
1
p(x1 | x2)
−
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x3, x2)
(2.174)
=
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x2)
−
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x3, x2)
(2.175)
=
∑
x1,x2,x3
p(x1, x2, x3) log
p(x1 | x3, x2)
p(x1 | x2)
(2.176)
=
∑
x1,x2,x3
p(x1, x2, x3) log
p(x1, x3 | x2)
p(x1 | x2)p(x3 | x2)
(2.177)
=
∑
x1,x2,x3
p(x1, x2, x3) log(1) (2.178)
= 0. (2.179)
30 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Teorema 51. (Desigualdad del procesamiento de datos) Sea {X1, X2, X3}
una cadena de Markov en el espacio de probabilidad (Ω,F , P ), donde el es-
pacio de estados es un alfabeto X . Entonces
I(X1 : X2) ≥ I(X1 : X3). (2.180)
Demostración. Por el Teorema 25 tenemos que
I(X2, X3 : X1) = I(X2 : X1) + I(X3 : X1 | X2) (2.181)
I(X3, X2 : X1) = I(X3 : X1) + I(X2 : X1 | X3). (2.182)
Por el Teorema 50 tenemos que I(X3 : X1 | X2) = 0. Además es claro que
I(X2, X3 : X1) = I(X3, X2 : X1). Por lo tanto,
I(X1 : X3) + I(X1 : X2 | X3) = I(X1 : X2). (2.183)
Por el Corolario 36, I(X1 : X2 | X3) ≥ 0. Por lo tanto
I(X1 : X3) ≤ I(X1 : X2). (2.184)
Corolario 52. Sea (X1, X2) : Ω→ X1×X2 un vector aleatorio en (Ω,F , P ).
Sea φ : X1 → X2 función, y sea X3 = φ(X2). Entonces
I(X1 : X2) ≥ I(X1 : φ(X2)). (2.185)
Demostración. Observemos que
{ω ∈ Ω : X2(ω) = x2} = {ω ∈ Ω : (φ(X2(ω)), X2(ω)) = (φ(x2), x2)}.
(2.186)
Por lo tanto, se cumple que
p(x1 | φ(x2), x2) = p(x1 | x2), (2.187)
si y sólo si
p(φ(x2), x2, x1)
p(φ(x2), x2)
=
p(x2, x1)
p(x2)
, (2.188)
si y sólo si
p(φ(x2), x2, x1)
p(x2, x1)
=
p(φ(x2), x2)
p(x2)
, (2.189)
si y sólo si
p(φ(x2) | x2, x1) = p(φ(x2) | x2). (2.190)
Por lo tanto {X1, X2, φ(X3)} es cadena de Markov, y por el Teorema 51 se
sigue el resultado.
31
Corolario 53. Sea {X1, X2, X3} cadena de Markov en (Ω,F , P ). Entonces
I(X1 : X2 | X3) ≤ I(X1 : X2). (2.191)
Demostración. Por el Teorema 25 tenemos que
I(X1 : X2, X3) = I(X1 : X2 | X3) + I(X1 : X3) (2.192)
= I(X1 : X3 | X2) + I(X1 : X2). (2.193)
Como {X1, X2, X3} es cadena de Markov, del Teorema 50 obtenemos que
I(X1 : X3 | X2) = 0. De esto y el desarrollo anterior se sigue que
I(X1 : X2 | X3) ≤ I(X1 : X2). (2.194)
Teorema 54. (Desigualdad de Fano) Sea X : Ω→ X una v.a en el espacio
(Ω,F , P ), tal que | X |= n. Sea Y : Ω → Y v.a. en (Ω,F , P ), y definamos
X̂ := g(Y ) para alguna función g : Y → X , tales que {X, Y, X̂} es una
cadena de Markov. Definamos E : Ω→ {0, 1} como
E := I{X=X̂} =
{
0 si X 6= X̂
1 si X = X̂.
(2.195)
Es claro que E es una v.a. en (Ω,F , P ). Entonces
H(E) + log(n− 1)P (E = 0) ≥ H(X | X̂) ≥ H(X | Y ). (2.196)
A X̂ le llamamos un estimador para X, y a E le llamamos la función de
error.
Demostración. Empezaremos por la desigualdad de la izquierda. Por el Teo-
rema 18 tenemos que
H(E,X | X̂) = H(E,X, X̂)−H(X̂) (2.197)
= H(X | E, X̂) +H(E, X̂)−H(X̂) (2.198)
= H(X | E, X̂) +H(E | X̂). (2.199)
32 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
También,
H(E,X | X̂) = H(E,X, X̂)−H(X̂) (2.200)
= H(E | X, X̂) +H(X, X̂)−H(X̂) (2.201)
= H(E | X, X̂) +H(X | X̂). (2.202)
Como {E = 1} = {X = X̂}, tenemos que
P (E = 1 | X = x, X̂ = x̂) = P (X = X̂ | X = x, X̂ = x̂) (2.203)
=
{
1 si x = x̂
0 si x 6= x̂,
(2.204)
por lo cual
H(E | X, X̂) = −
∑
x∈X
∑
x̂∈X
∑
e=0,1
p(e, x, x̂) log p(e | x, x̂)
= 0.
(2.205)
Por lo tanto H(X | X̂) = H(X | E, X̂) + H(E | X̂). Además H(X | X̂) ≤
H(E) por el Teorema 38. Afirmamos que
H(X | E, X̂) ≤ log(n− 1)P (E = 0). (2.206)
33
Ahora probamos la afirmación:
H(X | E, X̂) = −
∑
x∈X
∑
x̂∈X
∑
e=1,0
p(x, e, x̂) log p(x | e, x̂) (2.207)
= −
∑
x∈X
∑
x̂∈X
p(x,E = 0, x̂) log p(x | E = 0, x̂) (2.208)
−
∑
x∈X
∑
x̂∈X
p(x,E = 1, x̂) log p(x | E = 1, x̂) (2.209)
= −
∑
x∈X
∑
x̂∈X
p(x,E = 0, x̂) log p(x | E = 0, x̂) (2.210)
= −
∑
x∈X
∑
x̂∈X
p(x, x̂ | E = 0)P (E = 0) log p(x | x̂, E = 0)
(2.211)
= −
∑
x 6=x̂
p(x, x̂ | E = 0)P (E = 0) log p(x | x̂, E = 0) (2.212)
= −
∑
x̂∈X
[∑
x 6=x̂
p(x, x̂)P (E = 0) log p(x | x̂)
]
(2.213)
=
∑
x̂∈X
p(x̂)
[
−
∑
x 6=x̂
p(x | x̂) log p(x | x̂)
]
P (E = 0). (2.214)
El término entre corchetes es menor a la entroṕıa de una v.a. en (Ω,F , P )
que toma n − 1 valores, la cuál está acotada por log(n − 1) por el Teorema
37. Por lo tanto
H(X | E, X̂) ≤
∑
x̂∈X
p(x̂)[log(n− 1)]P (E = 0) (2.215)
≤ log(n− 1)P (E = 0). (2.216)
Esto prueba la afirmación. Por lo tanto
H(X | X̂) ≤ log(n− 1)P (E = 0) +H(E). (2.217)
Esto demuestra la desigualdad de la izquierda. Para la desigualdad de la de-
recha observemos que como {X, Y, X̂} es cadena de Markov, por el Teorema
51 tenemos que
I(X : X̂) ≤ I(X : Y ). (2.218)
34 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Recordando que I(X : Y ) = H(X)−H(X | Y ), tenemos que
H(X)−H(X | X̂) ≤ H(X)−H(X | Y ), (2.219)
es decir, H(X | X̂) ≤ H(X | Y ).
Nota 55. 1. Como H(E) ≤ 1 = log 2 por el Teorema 37
P (E = 0) ≥ H(X | Y )−H(E)
log(n− 1)
(2.220)
≥ H(X | Y )− 1
log(n− 1)
. (2.221)
2. Cuando P (E = 0) = 0 (i.e. no hay error), H(X | Y ) = 0.
Caṕıtulo 3
Propiedad de equipartición
asintótica y Tipicalidad
Definición 56. (Convergencia en probabilidad) Sean Xi : Ω → X ⊂ R con
i = 1, 2, . . . v.a.s en (Ω,F , P ), y sea X : Ω → X una v.a. en el mismo
espacio. Decimos que la sucesión {Xi}∞i=1 converge en probabilidad a X si
para toda � > 0 se cumple que
ĺım
n→∞
P (| Xn −X |> �) = 0. (3.1)
Notación 57. Consideremos las v.a.s Xi : Ω → X para i = 1, . . . , n en el
espacio (Ω,F , P ). Entonces podemos denotar por
p(X1, . . . , Xn), (3.2)
p(Xi), (3.3)
a las funciones
ω →p(X1(ω), . . . , Xn(ω)), (3.4)
ω →p(Xi(ω)). (3.5)
Teorema 58. (Propiedad de equipartición asintótica [AEP]) Sea {Xi}∞i=1
una sucesión de v.a.s independientes con valoresen el alfabeto X definidas
en (Ω,F , P ) y tales que E(X1) = E(Xi) <∞ para i = 1, 2, . . . . Entonces
− 1
n
logP (X1, . . . , Xn)→ H(X1) (3.6)
cuando n→∞.
35
36CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
Demostración. Por independencia tenemos que para cada n
P (X1, . . . , Xn) = P (X1) . . . P (Xn). (3.7)
Entonces
− 1
n
logP (X1, . . . , Xn) = −
1
n
log
n∏
i=1
P (Xi) (3.8)
= − 1
n
n∑
i=1
logP (Xi)→ −E(logP (X1)) (3.9)
cuando n → ∞ en probabilidad, en virtud de la Ley débil de los grandes
números. Haciendo g(x) = − log p(x) en la definición 9 y usando la notación
57, tenemos que −E(logP (X1)) = H(X1).
Definición 59. (Cojunto t́ıpico) Sea {Xi}ni=1 una sucesión de v.a.s inde-
pendientes e idénticamente distribuidas (i.i.d) en (Ω,F , P ) con valores en
el alfabeto X . Sea H(X) su entroṕıa. El conjunto �-t́ıpico de la sucesión
X1, . . . , Xn con � > 0 es
A(n)� := {(x1, . . . , xn) ∈ X n | 2−n(H(X)+�) ≤ p(x1, . . . , xn) ≤ 2−n(H(X)−�)}.
(3.10)
Teorema 60. (Propiedades del conjunto t́ıpico) En el contexto de la defini-
ción 59, tenemos que
1. si (x1, . . . , xn) ∈ A(n)� , entonces
H(X)− � ≤ − 1
n
logP (X1, . . . , Xn) ≤ H(X) + �. (3.11)
2. P ((X1, . . . , Xn) ∈ A(n)� ) > 1− � para n suficientemente grande.
3. | A(n)� |≤ 2n(H(X)+�) para n suficientemente grande.
4. | A(n)� |≥ (1− �)2n(H(X)−�) para n suficientemente grande.
Demostración. 1. Sea (x1, . . . , xn) ∈ A(n)� . Entonces
2−n(H(X)+�) ≤ p(x1, . . . , xn) ≤ 2−n(H(X)−�), (3.12)
37
lo que implica que
−n(H(X) + �) ≤ log p(x1, . . . , xn) ≤ −n(H(X)− �), (3.13)
por lo cual
H(X)− � ≤ − 1
n
log p(x1, . . . , xn) ≤ H(X) + �. (3.14)
2. Por el Teorema 58 tenemos que dada � > 0,
1 = ĺım
n→∞
P
(
| − 1
n
logP (X1, . . . , Xn)−H(X) |≤ �
)
(3.15)
= ĺım
n→∞
P
(
− � ≤ − 1
n
logP (X1, . . . , Xn)−H(X) ≤ �
)
(3.16)
= ĺım
n→∞
P
(
2−n(H(X)+�) ≤ P (X1, . . . , Xn) ≤ 2−n(H(X)−�)
)
(3.17)
= ĺım
n→∞
P
(
(X1, . . . , Xn) ∈ A(n)�
)
. (3.18)
Por lo tanto, para n suficientemente grande,
P
(
(X1, . . . , Xn) ∈ A(n)�
)
> 1− �. (3.19)
3. Por la definición de A
(n)
� tenemos que
1 =
∑
xn∈Xn
p(x1, . . . , xn) (3.20)
≥
∑
xn∈A(n)�
p(x1, . . . , xn) (3.21)
≥
∑
xn∈A(n)�
2−n(H(X)+�) (3.22)
= 2−n(H(X)+�) | A(n)� | . (3.23)
38CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
4. Por el segundo inciso, tenemos que para n grande
1− � < P
(
(X1, . . . , Xn) ∈ A(n)�
)
(3.24)
=
∑
xn∈A(n)�
p(x1, . . . , xn) (3.25)
≤
∑
xn∈A(n)�
2−n(H(X)−�) (3.26)
= 2−n(H(X)−�) | A(n)� | . (3.27)
Definición 61. (Tipicalidad conjunta) Sea (X, Y ) : Ω → X × Y un vec-
tor aleatorio en el espacio (Ω,F , P ). Al conjunto de sucesiones �-t́ıpicas
{(xn, yn)} en X n × Yn para � > 0 lo definimos como
A(n)� :=
{
(xn, yn) ∈ X n × Yn : | − 1
n
log p(xn)−H(X) |< �
| − 1
n
log p(yn)−H(Y ) |< �
| − 1
n
log p(xn, yn)−H(X, Y ) |< �
}
.
(3.28)
Teorema 62. (AEP conjunta) Sea {(Xi, Yi)}∞i=1 una sucesión de vectores
aleatorios i.i.d en (Ω,F , P ) con valores en X × Y. Denotemos H(X) :=
H(Xi), H(Y ) := H(Yi), H(X, Y ) := H(Xi, Yi) y I(X : Y ) := I(Xi : Yi) para
i = 1, 2, . . . . Sea � > 0. Entonces
1. Si (xn, yn) ∈ A(n)� , entonces
H(X)− � ≤ − 1
n
log p(xn) ≤ H(X) + � (3.29)
H(Y )− � ≤ − 1
n
log p(yn) ≤ H(Y ) + � (3.30)
H(X, Y )− � ≤ − 1
n
log p(xn, yn) ≤ H(X, Y ) + �. (3.31)
2. P ((Xn, Y n) ∈ A(n)� ) ≥ 1− � para n suficientemente grande.
39
3. | A(n)� |≤ 2n(H(X,Y )+�).
4. Sea (X̂n, Ŷ n) otro vector aleatorio, ahora con distribución p(xn)p(yn)
(es decir, X̂n es independiente de Ŷ n). Entonces
(1− �)2−n(I(X:Y )+3�) ≤ P ((X̂n, Ŷ n) ∈ A(n)� ) ≤ 2−n(I(X:Y )−3�). (3.32)
Demostración. 1. Sea (xn, yn) ∈ A(n)� . Entonces
| − 1
n
log p(xn)−H(X) | < �, (3.33)
| − 1
n
log p(yn)−H(Y ) | < �, y (3.34)
| − 1
n
log p(xn, yn)−H(X, Y ) | < �, (3.35)
es decir,
H(X)− � < − 1
n
log p(xn) < H(X) + � (3.36)
H(Y )− � < − 1
n
log p(yn) < H(Y ) + � (3.37)
H(X, Y )− � < − 1
n
log p(xn, yn) < H(X, Y ) + �. (3.38)
2. Basta probar que P ((Xn, Y n) ∈ A(n)� )→ 1 si n→∞. Por la Ley débil
de los grandes números,
− 1
n
log p(Xn)→ −E(log p(X)) = H(X) (3.39)
cuando n→∞ en probabilidad. Entonces dada δ > 0 existe n1 tal que
para toda n ≥ n1,
P
(
| − 1
n
log p(Xn)−H(X) |≥ �
)
<
δ
3
. (3.40)
De manera similar, por la Ley débil de los grandes números,
− 1
n
log p(Y n)→ −E(log p(Y )) = H(Y ), (3.41)
40CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
y
− 1
n
log p(Xn, Y n)→ −E(log p(X, Y )) = H(X, Y ) (3.42)
en probabilidad. Por lo tanto, existen n2 y n3 tales que para toda
n ≥ n2,
P
(
| − 1
n
log p(Y n)−H(Y ) |≥ �
)
<
δ
3
, (3.43)
y para toda n ≥ n3,
P
(
| − 1
n
log p(Xn, Y n)−H(X, Y ) |≥ �
)
<
δ
3
. (3.44)
Sea n > máx{n1, n2, n3}, y sean
B(n)� =
{
ω ∈ Ω :| − 1
n
log p(Xn(ω))−H(X) |≥ �
}
, (3.45)
C(n)� =
{
ω ∈ Ω :| − 1
n
log p(Y n(ω))−H(X) |≥ �
}
, y (3.46)
D(n)� =
{
ω ∈ Ω :| − 1
n
log p(Xn(ω), Y n(ω))−H(X) |≥ �
}
. (3.47)
Observemos que (Xn, Y n)−1(Ω \ A(n)� ) ⊆ B(n)� ∪ C(n)� ∪D(n)� . Entonces
P ((Xn, Y n) ∈ Ω \ A(n)� ) ≤ P (B(n)� ) + P (C(n)� ) + P (D(n)� ) (3.48)
< δ. (3.49)
Por lo tanto P ((Xn, Y n) ∈ A(n)� ) ≥ 1 − δ para n grande. El resultado
se sigue haciendo δ = �.
41
3. Observemos que para n y � > 0 fijos,
1 =
∑
xn∈Xn
∑
yn∈Yn
p(xn, yn) (3.50)
≥
∑
(xn,yn)∈A(n)�
p(xn, yn) (3.51)
≥
∑
(xn,yn)∈A(n)�
2−n(H(X,Y )+�) (3.52)
=| A(n)� | 2−n(H(X,Y )+�), (3.53)
y por lo tanto
| A(n)� |≤ 2n(H(X,Y )+�). (3.54)
4. Probaremos primero la desigualdad de la derecha. Sean X̂n y Ŷ n inde-
pendientes, pero con las mismas distribuciones que Xn y Y n respecti-
vamente. Entonces
P ((X̂n, Ŷ n) ∈ A(n)� ) =
∑
(xn,yn)∈A(n)�
p(xn)p(yn) (3.55)
≤
∑
(xn,yn)∈A(n)�
2−n(H(X)−�)2−n(H(Y )−�) (3.56)
=| A(n)� | 2−n(H(X)−�)2−n(H(Y )−�) (3.57)
≤ 2n(H(X,Y )+�)2−n(H(X)−�)2−n(H(Y )−�) (3.58)
= 2−n(I(X:Y )−3�) (3.59)
por el segundo inciso y por definición de A
(n)
� . Ahora, para probar la
desigualdad de la izquierda, supongamos que n es lo suficientemente
grande para cumplir que
P ((Xn, Y n) ∈ A(n)� ) ≥ 1− �. (3.60)
42CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
Entonces
1− � ≤ P ((Xn, yn) ∈ A(n)� ) (3.61)
=
∑
(xn,yn)∈A(n)�
p(xn, yn) (3.62)
≤
∑
(xn,yn)∈A(n)�
2−n(H(X,Y )−�) (3.63)
=| A(n)� | 2−n(H(X,Y )−�), (3.64)
y por lo tanto
| A(n)� |≥ (1− �)2n(H(X,Y )−�). (3.65)
Entonces para n grande se cumple que
P ((X̂n, Ŷ n) ∈ A(n)� ) =
∑
(xn,yn)∈A(n)�
p(xn)p(yn) (3.66)
≥
∑
(xn,yn)∈A(n)�
2−n(H(X)+�)2−(H(Y )+�) (3.67)
=| A(n)� | 2−n(H(X)+�)2−n(H(Y )+�) (3.68)
≥ (1− �)2n(H(X,Y )−�)2−n(H(X)+�)2−n(H(Y )+�)
(3.69)
= (1− �)2−n(I(X:Y )+3�). (3.70)
Caṕıtulo 4
Capacidad de canales
Definición 63. (Canal de comunicación discreto) Sean X y Y conjuntos
finitos (que llamaremos alfabetos de entrada y salida respectivamente). Sea
Q : X × Y → [0, 1] una función tal que para cada x ∈ X , Q(x, ·) es una
medida de probabilidad en (Y ,P(Y)). A la terna (X , Q,Y) le llamaremos
canal de comunicación discreto. A la función Q se le conoce comunmente
como kernel de probabilidad discreto.
Definición 64. (v.a.s comunicadas) Sea (X , Q,Y) un canal discreto. Sea
(X, Y ) : Ω → X → Y vector aleatorio en (Ω,F , PX,Y ). Ya observamos
(ver Nota 6) que X y Y son v.a.s, con distribuciones respectivas pX(x) =∑
x pX,Y (x, y) y pY (y) =
∑
y pX,Y (x, y). Decimos que las v.a.s X y Y están
conectadas por el canal (X , Q,Y) si y sólo si
Q(x, y) =
pX,Y (x, y)
pX(x)
(4.1)
para todo (x, y) ∈ X ×Y. Aqúı asumimos sin perder generalidad que pX(x) 6=
0 para toda x ∈ X , pues si existen elementos en el alfabeto de entrada con
probabilidad cero de ocurrencia, pueden considerarse como no pertenecientes
a dicho alfabeto. A X y a Y les llamamos variables de entrada y salida
respectivamente.
Definición 65. (Canal sin memoria discreto) Sea (X1, Y1), (X2, Y2), · · · :
Ω → X × Y una sucesión de vectores aleatorios en (Ω,F , P ). Supongamos
que para cada i = 1, 2, . . . las v.a.s Xi y Yi están conectadas por el canal
de comunicacióndiscreto (X , Q,Y). Decimos que (X , Q,Y) es un canal sin
43
44 CAPÍTULO 4. CAPACIDAD DE CANALES
memoria si para cualesquiera n entero y y1, . . . , yn ∈ Y se cumple la igualdad
P (Y1 = y1, . . ., Yn = yn | Xn = xn)
= P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn),
(4.2)
donde Xn = (X1, . . . , Xn) y x
n = (x1, . . . , xn).
Nota 66. A partir de este punto, siempre que hablemos de un canal de
comunicación, nos estaremos refiriendo a un canal sin memoria discreto.
Definición 67. (Capacidad de un canal) Sea (X , Q,Y) un canal de comu-
nicación. Sea (X, Y ) : Ω → X × Y una función medible en (Ω,F), y consi-
deremos la familia de medidas
pX,Y (x, y) = Q(x, y)pX(x) (4.3)
definida por cada distribución de probabilidad pX en X . Aqúı tomamos pY (y) =∑
x∈X Q(x, y)pX(x) para cada pX . Definimos la capacidad C de (X , Q,Y) co-
mo
C := sup
pX
I(X;Y ), (4.4)
es decir, el supremo de I(X;Y ) vista como función de la variable pX . Obser-
vemos que esta función es acotada, pues
I(X;Y ) = H(X)−H(X | Y ) (4.5)
≤ H(X) (4.6)
≤ log(| X |). (4.7)
Teorema 68. (Propiedades de C) Sea (X , Q,Y) un canal con capacidad C,
y sean X y Y variables de entrada y salida respectivamente. Entonces
1. C ≥ 0.
2. C ≤ mı́n {log | X |, log | Y |}.
3. I(X : Y ) = D(pX(x) || py(y)) es una función continua de pX .
4. I(X : Y ) es una función cóncava de pX .
45
Demostración. 1. Por el Teorema 23, tenemos que I(X : Y ) ≥ 0. Esto
implica que
0 ≤ sup
pX
I(X;Y ) (4.8)
= C. (4.9)
2. Por los teoremas 23 y 37, tenemos que
I(X;Y ) = H(X)−H(X | Y ) (4.10)
≤ H(X) (4.11)
≤ log | X | . (4.12)
Análogamente,
I(X;Y ) = H(Y )−H(Y | X) (4.13)
≤ H(Y ) (4.14)
≤ log | Y | . (4.15)
Por lo tanto,
I(X;Y ) ≤ mı́n {log | X |, log | Y |}. (4.16)
Tomando supremo, obtenemos que
C ≤ mı́n {log | X |, log | Y |}. (4.17)
3. Observemos que
I(X;Y ) =
∑
x∈X
∑
y∈Y
pX,Y (x, y) log
pX,Y (x, y)
pX(x)pY (y)
(4.18)
=
∑
x∈X
∑
y∈Y
Q(x, y)pX(x) log
Q(x, y)pX(x)
pX(x)
∑
x∈X Q(x, y)pX(x)
(4.19)
=
∑
x∈X
∑
y∈Y
pX(x)Q(x, y) logQ(x, y) (4.20)
−
∑
x∈X
∑
y∈Y
pX(x)Q(x, y) log
(∑
x∈X
Q(x, y)pX(x)
)
. (4.21)
46 CAPÍTULO 4. CAPACIDAD DE CANALES
Esta es una función continua de pX , donde consideramos que el con-
junto V ⊂ Rn de todas las distribuciones de probabilidad en X con
la topoloǵıa euclidiana es cerrado y acotado, con n =| X |. Es decir,
pX = (p1, . . . , pn) con pi = pX(i) ≥ 0 para i = 1, . . . , n y
∑n
i=1 pi = 1.
En este caso la función es continua en un conjunto compacto V , por lo
cuál podemos escribir C = máxpX I(X;Y ).
4. Por el Teorema 16 y tenemos que
I(X;Y ) = H(Y )−H(Y | X) (4.22)
= H(Y ) +
∑
x,y
pX,Y (x, y) logQ(x, y) (4.23)
= H(Y ) +
∑
x,y
Q(x, y)pX(x) logQ(x, y) (4.24)
= H(Y ) +
∑
x,y
[Q(x, y) logQ(x, y)]pX(x). (4.25)
Por el Teorema 44, H(Y ) es convexa. Como
pY (y) =
∑
x∈X
Q(x, y)pX(x), (4.26)
pY (y) es función lineal de pX . Q es el kernel que define al canal, y por
lo tanto es una función constante respecto de pX . Por lo tanto, H(Y )
es función cóncava de pX . Por otro lado, el sumando∑
x,y
[Q(x, y) logQ(x, y)]pX(x) (4.27)
es lineal con respecto de pX , pues de nuevo el kernel Q es constante
respecto de pX por ser la función que define al canal. Esto prueba que
I(X;Y ) es función cóncava de pX .
Lema 69. Sea (Xn, Y n) : Ω → X n × Yn función medible en (Ω,F). Sea
P medida en (Ω,F) tal que las entradas de Xn, digamos X1, ..., Xn, son
independientes, y que además cumple con la definición 65. Entonces
P ((Xn, Y n)−1(xn, yn)) = Q(x1, y1) . . . Q(xn, yn)pX(x1) . . . pX(xn), (4.28)
47
donde PX ∈M y (Q,M) es un canal de comunicación para X y Y (es decir,
P es función de PX y de Q).
Demostración.
P ((Xn, Y n)−1(xn, yn)) (4.29)
=P (Y1 = y1, . . . , Yn = yn, X1 = x1, . . . , Xn = xn) (4.30)
=P (Y1 = y1. . . . , Yn = yn | X1 = x1, . . . , Xn = xn)P (X1 = x1, . . . , Xn = xn)
(4.31)
=P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn)P (X1 = x1, . . . , Xn = xn)
(4.32)
=P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn)pX(x1) . . . pX(xn) (4.33)
=Q(x1, y1) . . . Q(xn, yn)pX(X1) . . . pX(xn), (4.34)
donde usamos la Definición 65 en la tercera igualdad.
La prueba del Teorema General de Shannon para canales discretos sin
memoria requiere de conceptos y resultados de la Teoŕıa Ergódica que no son
tratados en este trabajo. Sin embargo, podemos probar este teorema para
una subclase de este tipo de canales:
Definición 70. (Canal Binario Simétrico de parámetro p) Sea p ∈ [0, 1].
El Caanal Binario Simétrico de parámetro p, que denotaremos BSCp, es un
canal de comunicación (X , Q,Y) tal que X = {0, 1} = Y, y
Q(1, 1) = p = Q(0, 0), (4.35)
Q(0, 1) = 1− p = Q(1, 0). (4.36)
Lema 71. (Capacidad del BSCp) La capacidad del canal BSCp es C = 1−
H(p), donde denotaremos en adelante H(p) := −p log(p)− (1−p) log(1−p).
Demostración. Sean X y Y v.a.s comunicadas por el canal BSCp. Observe-
mos que
48 CAPÍTULO 4. CAPACIDAD DE CANALES
H(Y | X) = −
∑
x,y
pX,Y (x, y) logQ(x, y) (4.37)
= −
∑
x,y
pX(x)Q(x, y) logQ(x, y) (4.38)
=
∑
x
pX(x)
[
−
∑
y
Q(x, y) logQ(x, y)
]
(4.39)
=
∑
x
pX(x)H(p) (4.40)
= H(p). (4.41)
Entonces,
I(X;Y ) = H(Y )−H(Y | X) (4.42)
= H(Y )−H(p). (4.43)
Además, si pX(x) =
1
2
para x = 0, 1, entonces
pY (y) =
∑
x
Q(x, y)pX(x) (4.44)
=
1
2
∑
x
Q(x, y) (4.45)
=
1
2
[Q(0, y) +Q(1, y)] (4.46)
=
1
2
(4.47)
para y = 0, 1. Entonces para el BSCp, si pX(x) es uniforme en {0, 1} enton-
ces pY (y) lo es. Por el Teorema 37, si pX(x) es uniforme entonces H(Y ) =
log(2) = 1. Por lo tanto, I(X;Y ) = 1 − H(p) si pX(x) es uniforme. Con-
clúımos que
máx
pX
I(X;Y ) = 1−H(p), (4.48)
pues H(p) es constante y H(Y ) está acotada por 1 y vaŕıa con pX .
49
Lema 72. (Desigualdad de Chernoff) Sea Y : Ω→ R una v.a. en (Ω,F , P )
y s ≥ 0 una constante. Entonces para todo número real a,
P (Y ≥ a) ≤ 2−saEY [2sY ], (4.49)
y
P (Y ≤ a) ≤ 2saEY [2−sY ]. (4.50)
Demostración. Probaremos primero la primera desigualdad. Sea u : R → R
definida por
u(y) :=
{
1 si y ≥ 0
0 si y ≤ 0.
(4.51)
Es claro que para s ≥ 0, u(y − a) ≤ 2s(y−a). Entonces
EY [u(Y − a)] ≤ EY [2s(Y−a)] (4.52)
= 2−saEY [2sY ]. (4.53)
Como
EY [u(Y − a)] = P (Y ≥ a) · 1 + P (Y < a) · 0 (4.54)
= P (Y ≥ a), (4.55)
tenemos que
P (Y ≥ a) ≤ 2−saEY [2sY ]. (4.56)
La segunda desigualdad se obtiene de aplicar la primera a −Y y a −a.
Definición 73. (Distancia de Hamming) Llamaremos distancia de Hamming
a la función ∆ : {0, 1}n → Z definida por
∆(x, y) :=| {i : xi 6= yi} |, (4.57)
donde x = (x1, . . . , xn), y = (y1, . . . , yn). Llamaremos Bola abierta de Ham-
ming con centro x y radio r > 0 al conjunto
B∆(x, r) := {y ∈ {0, 1}n : ∆(x, y) < r}, (4.58)
y Bola cerrada de Hamming con centro x y radio r > 0 aal conjunto
50 CAPÍTULO 4. CAPACIDAD DE CANALES
B∆(x, r) := {y ∈ {0, 1}n : ∆(x, y) ≤ r}. (4.59)
Observemos la dependencia en n de estos conceptos. Definimos el Volumen
de B∆(x, r) como
V ol(x, r) :=| B∆(x, r) |=
dre∑
j=0
(
n
i
)
. (4.60)
Lema 74. (Desigualdad de Hamming) Sea ∆ la distancia de Hamming en
{0, 1}n, y sea 0 ≤ p ≤ 1
2
. Entonces
V ol(x, np) ≤ 2nH(p). (4.61)
Demostración. Primero probaremos la siguiente afirmación:
(1− p)n
( p
1− p
)dnpe
≥ 2−nH(p). (4.62)
Para probar esto, observemos que
2−nH(p) = 2n[log(p)+log(1−p)] (4.63)
= 2log(p
n)2log((1−p)
n) (4.64)
= pn(1− p)n. (4.65)
Además, al ser dnpe ≤ n y p ≤ 1
2
, tenemos que pn ≤ pdpne y (1−p)dnpe ≤ 1.
Entonces
(1− p)n
( p
1− p
)dnpe
− 2−nH(p) = (1− p)n
( p
1− p
)dnpe
− pn(1− p)n (4.66)
=
(1− p)n
(1− p)dnpe
(pdnpe − pn(1− p)dnpe) (4.67)
≥ (1− p)n(pdnpe − pn(1− p)dnpe) (4.68)
= (1− p)n(pdnpe − pn + pn+dnpe) ≥ 0. (4.69)
Esto prueba la afirmación. Entonces podemos calcular:
51
1 = (p+ (1− p))n (4.70)
=
n∑
i=0
(
n
i
)
pi(1− p)n−i (4.71)
=
dnpe∑
i=0
(
n
i
)
pi(1− p)n−i +
n∑
i=dnpe+1
(
n
i
)
pi(1− p)n−i (4.72)
≥
dnpe∑
i=0
(
n
i
)
pi(1− p)n−i (4.73)
=
dnpe∑
i=0
(
n
i
)
(1− p)n
( p
1− p
)i
(4.74)
≥
dnpe∑
i=0
(
n
i
)
(1− p)n
( p
1− p
)dnpe
(4.75)
= (1− p)n
( p1− p
)dnpe
V ol(x, np) (4.76)
≥ 2−nH(p)V ol(x, np), (4.77)
donde la última desigualdad es cierta por la afirmación. En la segunda de-
sigualdad usamos que p
(1−p) ≤ 1. De aqúı se concluye directamente el resul-
tado.
Lema 75. Sean X1, . . . , Xn v.a.s independientes a valores en el alfabeto finito
X y con distribuciones pX1(x1), . . . , pXn(xn). Sean fi : X → R funciones para
i = 1, . . . , n. Entonces
EX
[
n∏
i=1
fi(xi)
]
=
n∏
i=1
EXi [fi(xi)], (4.78)
donde X = (X1, . . . , Xn).
Demostración. Por la independencia de X1, . . . , Xn, la distribución del vector
X es
∏n
i=1 pXi(xi). Entonces
52 CAPÍTULO 4. CAPACIDAD DE CANALES
EX
[
n∏
i=1
fi(Xi)
]
=
∑
x1,...,xn
[
n∏
i=1
fi(xi)
]
n∏
i=1
pXi(xi) (4.79)
=
n∏
i=1
[∑
xi
fi(xi)pXi(xi)
]
(4.80)
=
n∏
i=1
EXi [fi(xi)]. (4.81)
Nota 76. Si f es función real definida en la imagen de una v.a X con
distribución pX(x) y g es función real definida en la imagen de f , entonces
tenemos que
Ef(X)[g(f(X))] =
∑
i
g(i)Pf(X)(f(X) = i) (4.82)
=
∑
x
g(f(x))PX(X = x) (4.83)
= E[g(f(X))]. (4.84)
Lema 77. Si X1, . . . , Xn son v.a.s independientes con valor esperado finito
y X̂ =
∑n
i=1 Xi, entonces
EX̂ [2
sX̂ ] =
n∏
i=1
EXi [2sXi ], (4.85)
para s ∈ R.
Demostración. Aplicando el Lema 75, tenemos que
EX̂ [2
sX̂ ] = EX̂
[
n∏
i=1
2sXi
]
(4.86)
=
n∏
i=1
EXi [2sXi ]. (4.87)
Observemos que podemos cambiar EX , donde X = (X1, . . . , Xn), por EX̂ ,
pues X̂ es función de X.
53
Lema 78. Sea Y : Ω → {0, 1} v.a. tal que PY (Y = 1) = p, y PY (Y = 0) =
1− p, para p ∈ [0, 1], y sea s ∈ R. Entonces
EY [2sY ] ≤ 2p(2
s−1). (4.88)
Demostración.
EY [2sY ] = p2s + (1− p) · 1 (4.89)
= 1 + p(2s − 1) (4.90)
≤ 2p(2s−1), (4.91)
usando que 1 + x ≤ 2x, con x = p(2s − 1).
Lema 79. (Desigualdad aditiva de Chernoff) Sea X̂ =
∑n
i=1Xi con X1, . . . , Xn
v.a.s independientes que se distribuyen como Y en el Lema 78 con parámetros
p1, . . . , pn. Sea µ = EX̂ [X̂] =
∑n
i=1 pi. Entonces
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−( δ
2
2+δ
)µ, (4.92)
para toda δ > 0.
Demostración. Tenemos que
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−s(1+δ)µEX̂ [2
sX̂ ] (4.93)
= 2−s(1+δ)µ
n∏
i=1
EXi [2sXi ] (4.94)
≤ 2−s(1+δ)µ
n∏
i=1
2pi(2
s−1) (4.95)
= 2−s(1+δ)µ2(2
s−1)µ (4.96)
=
(
2δ
(1 + δ)1+δ
)µ
, (4.97)
tomando s = log(1 + δ), donde la primera desigualdad se da aplicando la
Desigualdad dde Chernoff (Lema 72), la primera igualdad por el Lema 77 y
la segunda desigualdad por el Lema 78. Observemos que
54 CAPÍTULO 4. CAPACIDAD DE CANALES
log
(
2δ
(1 + δ)1+δ
)µ
= µ log
(
2δ
(1 + δ)1+δ
)
(4.98)
= µ[δ − (1 + δ) log(1 + δ)] (4.99)
≤ µ
[
δ − (1 + δ)
(
δ
1 + δ
2
)]
(4.100)
= µ
(
−δ2
2 + δ
)
, (4.101)
usando que log(1 + x) ≥ x
1+x
2
. Por lo tanto,(
2δ
(1 + δ)1+δ
)µ
≤ 2−(
δ2
2+δ
)µ. (4.102)
Concluimos que
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−( δ
2
2+δ
)µ. (4.103)
Lema 80. Sean α1, . . . , αn reales no negativos y sean p1, . . . , pn reales no
negativos tales que
∑n
i=1 pi = 1. Entonces
1. mı́ni αi ≤
∑n
i=1 piαi.
2. mı́ni αi ≤ 1n
∑n
i=1 αi.
Demostración. 1. Sea αj = mı́ni αi. Entonces
n∑
i=1
piαi − αj =
n∑
i=1
piαi −
(
n∑
i=1
pi
)
αj (4.104)
=
n∑
i=1
piαi −
n∑
i=1
piαj (4.105)
=
n∑
i=1
pi(αi − αj) (4.106)
≥ 0. (4.107)
55
2. Sea sigue del inciso anterior, con pi =
1
n
para i = 1, . . . , n.
Definición 81. (Variable de error) Consideremos el canal BSCp. Sean X1, . . . , Xn :
Ω → {0, 1} v.a.s independientes e idénticamente distribuidas en (Ω,F , PX),
donde
PX(X = x) :=
{
p si x = 0
1− p si x = 1.
(4.108)
Definimos la variable de error de BSCp como la v.a e : Ω → {0, 1}n con
distribución
Pe(e = x
n) =
n∏
i=1
PX(Xi = xi), (4.109)
donde xn = (x1, . . . , xn). Obsérvese que e depende de n.
Teorema 82. (Teorema de Capacidad de Shannon para BSCp) Para cua-
lesquiera p, ε tales que 0 ≤ p < 1
2
y 0 ≤ ε ≤ 1
2
− p y n suficientemente grande
existen δ = δ(p, ε) > 0 y
1. una función de codificación E : {0, 1}k → {0, 1}n,
2. una función de decodificación D : {0, 1}n → {0, 1}k,
donde k ≤ b(1−H(p+ ε))nc, tales que para cada m ∈ {0, 1}k se cumple
que
Pe(D(E(m) + e) 6= m) ≤ 2−δn. (4.110)
e es la v.a. de error de BSCp. La cantidad de arriba es comunmente conocida
como la Probabilidad de Error en la decodificación.
Demostración. Fijemos n, k y p. Los procedimientos que seguiremos para
encontrar a E y a D son los siguientes:
1. Para E: Sea En,k := {E : {0, 1}k → {0, 1}n}. Sea W : Ω → En,k una
v.a. en (Ω,F , PW ), donde
PW (W = E) :=
1
| En,k |
. (4.111)
56 CAPÍTULO 4. CAPACIDAD DE CANALES
Observemos que | En,k |= (2n)2
k
= 2n2
k
. Podemos asumir sin perder
generalidad que W y e son independientes. Posteriormente usaremos a
la v.a. W y al operador EW para probar la existencia de una función
E que cumple la condición del enunciado. A este procedimiento se le
conoce como ”Método Probabiĺıstico”.
2. Para D: Para cada E ∈ En,k sea DE : {0, 1}n → {0, 1}k dada por
DE(y) := arg mı́n
m
∆(y, E(m)), (4.112)
donde ∆ es la distancia de Hamming en {0, 1}n. Identificamos a las
m ∈ {0, 1}k que minimizan para una misma y (i.e los empates) en la
misma clase de equivalencia. De esta forma, al probar la existencia de E
tenemos de forma inmediata a D = DE. Observemos que esta función
defina a la v.a. DW (y) para cada y.
Ahora fijemosm ∈ {0, 1}k, y seaBW (m)0 := B∆(W (m), (p+ε)n), y para ca-
da E sea B
E(m)
0 := B∆(E(m), (p+ε)n). Analizaremos la v.a. Pe(DW (W (m)+
e) 6= m), que es función de W :
EW [Pe(DW (W (m) + e) 6= m)] (4.113)
=
∑
E
Pe(DE(E(m) + e) 6= m)PW (W = E) (4.114)
=
1
| En,k |
∑
E
Pe(DE(E(m) + e) 6= m) (4.115)
=
1
| En,k |
∑
E
∑
y∈{0,1}k
Pe(E(m) + e = y)I{y:DE(y)6=m}(y). (4.116)
Para cada E tenemos que
57
∑
y∈{0,1}k
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.117)
=
∑
y/∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.118)
+
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.119)
≤ 2−ε2n +
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y), (4.120)
donde la desigualdad se sigue de que I{y:DE(y)6=m}(y) ≤ 1 y de la desigual-
dad de Chernoff aditiva (Lema 79), pues
∑
y/∈BE(m)0
Pe(E(m) + e = y) = Pe(∆(E(m) + e, E(m)) > (p+ ε)n) (4.121)
= Pe(∆(e, 0) > (p+ ε)n) (4.122)
= Pe(∆(e, 0) > np(1 +
ε
p
)), (4.123)
observando que ∆(e, 0) =
∑n
i=1 Xi en Ω, donde X1, . . . , Xn son las v.a.s
de la Definición 81, y que EX̂ [
∑n
i=1Xi] = np, podemos aplicar la Cota Aditiva
de Chernoff con δ = ε
p
, y obtenemos que
Pe(∆(e, 0) > np(1 +
ε
p
)) ≤ 2
−(
ε2
p2
2+ εp
)np
(4.124)
≤ 2−ε2n, (4.125)
pues como ε ≤ 1
2
− p, tenemos que 2p ≤ 1− 2ε, y por lo tanto
58 CAPÍTULO 4. CAPACIDAD DE CANALES
ε2
p2
2 + ε
p
np =
ε2
(2p+ ε)p
np (4.126)
=
ε2n
2p+ ε
(4.127)
≥ ε
2n
1− 2ε+ ε
(4.128)
≥ ε
2n
1− 2ε+ 2ε
(4.129)
= ε2n. (4.130)
Por lo tanto,
EW [Pe(DW (W (m) + e) 6= m)] (4.131)
≤
∑
E
2−ε
2n
| En,k |
+
∑
E
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y)
1
| En,k |
(4.132)
= 2−ε
2n +
∑
y∈BW (m)0
∑
E
Pe(E(m) + e = y)PW (W = E)I{y:DE(y)6=m}(y)
(4.133)
= 2−ε
2n + EW
[ ∑
y∈BW (m)0
Pe(W (m) + e = y)I{y:DW (y)6=m}(y)
]
(4.134)
≤ 2−ε2n + EW
[ ∑
y∈BW (m)0
I{y:DW (y) 6=m}(y)
]
. (4.135)
Observemos que
∑
y∈BW (m)0
I{y:DW (y)6=m}(y) =
∑
y∈{0,1}n
I{y:DW (y)6=m}∩{y:y∈BW (m)0 }. (4.136)
Entonces
59
EW
[ ∑
y∈{0,1}n
I{y:DW (y)6=m}∩{y:y∈BW (m)0 }(y)
]
(4.137)
=
∑
y∈{0,1}n
EW [I{y:DW (y)6=m}∩{y:y∈BW (m)0 } (4.138)
=
∑
y∈{0,1}n
PW (DW (y) 6= m, y ∈ BW (m)0 ) (4.139)
=
∑
y∈{0,1}n
PW
( ⋃
m′ 6=m
{DW (y) = m′} ∩ {y ∈ BW (m)0 }
)
(4.140)
≤
∑
y∈{0,1}n
∑
m′ 6=m
PW (DW (y) = m
′, y ∈ BW (m)0 ) (4.141)
=
∑
y∈{0,1}n
∑
m′ 6=m
PW (W (m
′) ∈ B∆(y, (p+ ε)n)) (4.142)
=
∑
y∈{0,1}n
∑
m′ 6=m
V ol(y, (p+ ε)n)
| En,k |
(4.143)
= 2n
∑
m′ 6=m
V ol(y, (p+ ε)n)
| En,k |
(4.144)
≤ 2n+kV ol(y, (p+ ε)n)
| En,k |
(4.145)
≤ 2n+k 2
H(p+ε)n
| En,k |
(4.146)
=
2n+k2H(p+ε)n
2n2k
(4.147)
= 2n+k+H(p+ε)n−n2
k
(4.148)
≤ 2n+k+H(p+ε)n−n2 (4.149)
= 2k−n+H(p+ε)n (4.150)
= 2k−[1−H(p+ε)]n, (4.151)
donde usamos el Lema 74 en la tercera desigualdad, y el hecho de que
PW es distribución uniforme en la sexta igualdad. Por lotanto,
60 CAPÍTULO 4. CAPACIDAD DE CANALES
EW [Pe(DW (W (m) + e) 6= m)] ≤ 2−ε
2n + 2k−[1−H(p+ε)]n. (4.152)
Por lo tanto existe una pareja (E,DE) tal que
Pe(DE(E(m) + e) 6= m) ≤ 2−ε
2n + 2k−2[1−H(p+ε)]n, (4.153)
pues podemos tomar (E,DE) que satisface
Pe(DE(E(m) + e) 6= m) = mı́n
m
Pe(DE(E(m) + e) 6= m), (4.154)
pues de esta forma el Lema 80 garantiza que
Pe(DE(E(m) + e) 6= m) ≤ EW [Pe(DW (W (m) + e) 6= m)]. (4.155)
Esto prueba el Teorema para m ∈ {0, 1}k fijo. Es decir, para cada m ∈
{0, 1}k existe una pareja (Em, DEm) tal que
Pe(DEm(E
m(m) + e) 6= m) ≤ 2−ε2n + 2k−[1−H(p+ε)]n. (4.156)
Ahora contruimos una pareja (E,DE) que sirva para toda m: Sea A el
conjunto de aquella mitad de las m ∈ {0, 1}k tales que Pe(DEm(Em(m)+e) 6=
m) es más grande. Observemos que | A |= 2k−1. Definimos E : {0, 1}k →
{0, 1}n por E(m) := Em(m), y DE : Im(E) → {0, 1}k por DE(E(m)) :=
DEm(E
m(m)), donde Im(E) ⊂ {0, 1}n es la imagen de E. Entonces para
cada m̄ ∈ {0, 1}k \ A,
Pe(DE(E(m̄) + e) 6= m̄) ≤
1
2k−1
∑
m∈A
Pe(DEm(E
m(m) + e) 6= m) (4.157)
≤ 1
2k−1
∑
m∈A
(2−ε
2n + 2k−[1−H(p+ε)]n) (4.158)
= 2−ε
2n + 2k−[1−H(p+ε)]n, (4.159)
por el Lema 80. Obsérvese que la cantidad 1−H(p + ε) es la capacidad
del canal BSCp+ε, que aproxima a BSCp si hacemos ε→ 0.
61
Nota 83. El papel que juega la distancia de Hamming en la prueba del Teo-
rema anterior es el mismo que juega el concepto de Tipicalidad en la prueba
de la versión general del Teorema de Shannon para canales discretos. Véase
[1].
62 CAPÍTULO 4. CAPACIDAD DE CANALES
Parte II
Teoŕıa de la Información
Cuántica
63
Caṕıtulo 5
Conceptos Fundamentales de la
Teoŕıa Cuántica
Notación 84. (de Dirac) En general trabajaremos con espacios de Hilbert
(complejos y finitos) con producto interior 〈 , 〉. A los elementos de este
espacio los denotaremos con el śımbolo ket, | x〉 ∈ H. El śımbolo bra 〈x |
denota al vector transpuesto conjugado de | x〉, y al producto interior en H
de | x〉 y | y〉 lo denotaremos con el bracket 〈x | y〉. Usaremos el śımbolo
| x〉〈y | para denotar tanto a la matriz que resulta de multiplicar a estos
vectores, como a su operador asosciado.
Notación 85. Sean HA y HB espacios de Hilbert. Al conjunto de operadores
lineales en HA lo denotamos por L(HA), y al conjunto de transformaciones
lineales de HA en HB lo denotamos por L(HA,HB).
Definición 86. (Base completa) Sea H un espacio de Hilbert. Decimos que
una base {| x〉}x∈X de H es completa si satisface la condición∑
x∈X
| x〉〈x |= I, (5.1)
donde I es el operador identidad en H. En el caso de los espacios de Hilbert
de dimensión finita, todas las bases ortonormales son completas.
Definición 87. (Sistema Cuántico) Un sistema cuántico A es una pareja
ordenada (HA, {| x〉}x∈X ), donde HA es un espacio de Hilbert finito de di-
mensión dA =| X |, y {| x〉}x∈X es una base ortonormal de HA. A HA se le
65
66CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
llama espacio de estados. En adelante, sólo consideraremos espacios de esta-
dos isomorfos a Cd, con d un número entero positivo, pero se puede trabajar
con espacios de Hilbert más generales.
Definición 88. (Estado puro) Sea A un sistema cuántico. Un estado puro
es un vector | φ〉 ∈ HA tal que ‖ | φ〉‖2 := 〈φ | φ〉 = 1, es decir, es un vector
de norma unitaria.
Definición 89. (Ensamble de estados) Sea pX(x) una distribiución de pro-
babilidad en el alfabeto finito X . Sea {| φx〉}x∈X un conjunto de estados en
H. A la lista
ε := {pX(x), | φx〉}x∈X (5.2)
le llamamos ensamble de estados, y en este caso decimos que el estado del
sistema es | φx〉 con probabilidad pX(x). En adelante, asumiremos que el
conjunto de estados es una base ortonormal de H.
Definición 90. (Traza) Sea A un operador en un espacio de Hilbert H. La
traza de A es la cantidad
Tr{A} :=
∑
i
〈i | A | i〉, (5.3)
donde {| i〉}i es una base ortonormal de H.
Nota 91. Es elemental ver que la traza es una función lineal en L(H).
Observemos que la traza de un operador A no depende de la base, siempre
que ésta sea ortonormal. Sea {| φj〉}j otra base ortonormal de H. Entonces
67
Tr{A} =
∑
i
〈i | A | i〉 (5.4)
=
∑
i
〈i | A
(∑
j
| φj〉〈φj |
)
| i〉 (5.5)
=
∑
i,j
〈i | A | φj〉〈φj | i〉 (5.6)
=
∑
i,j
〈φj | i〉〈i | A | φj〉 (5.7)
=
∑
j
〈φj |
(∑
i
| i〉〈i |
)
A | φj〉 (5.8)
=
∑
j
〈φj | A | φj〉. (5.9)
Nota 92. Si A, B y C son operadores en un espacio de Hilbert finito H,
entonces Tr{ABC} = Tr{CAB} = Tr{BCA}. Para probar esta afirmación,
consideremos dos bases ortonormales completas de H, digamos {| i〉} y {|
φj〉}. Entonces
Tr{ABC} =
∑
i
〈i | ABC | i〉 (5.10)
=
∑
i,j
〈i | AB | φj〉〈φj | C | i〉 (5.11)
=
∑
i,j
〈φj | C | i〉〈i | AB | φj〉 (5.12)
=
∑
j
〈φj | CAB | φj〉 (5.13)
= Tr{CAB}. (5.14)
La otra igualdad es análoga. A esta propiedad se le conoce como ciclicidad
de la Traza.
Definición 93. (Operador de densidad, o estado mezclado) Sea ε = {pX(x), |
φx〉}x∈X un ensamble finito de estados de H. El operador de densidad asos-
68CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
ciado a ε es
ρ :=
∑
x∈X
pX(x) | φx〉〈φx | . (5.15)
El operador de densidad es una generalización cuántica de la distribución de
probabilidad pX(x) en el alfabeto finito X , como ilustramos en el siguiente
teorema. Obsérvese que ρ = EX(| φX〉〈φX |).
Teorema 94. (Propiedades de ρ) Sea ρ el operador de densidad asosciado
al ensamble ε = {pX(x), | φx〉}x∈X . Entonces
1. ρ tiene traza unitaria, es decir, Tr{ρ} = 1.
2. ρ es hermitiano, es decir ρ = ρ∗, donde ρ∗ es el operador addjunto de
ρ.
3. ρ es positivo definido, es decir, 〈ψ | ρ | ψ〉 ≥ 0 para todo | ψ〉 ∈ H.
Abreviadamente, ρ ≥ 0.
Demostración. 1.
Tr{ρ} = Tr
(∑
x∈X
pX(x) | φx〉〈φx |
)
(5.16)
=
∑
x∈X
pX(x)Tr(| φx〉〈φx |) (5.17)
=
∑
x∈X
pX〈φx | φx〉 (5.18)
=
∑
x∈X
pX(x) = 1. (5.19)
2.
ρ∗ =
(∑
x∈X
pX(x) | φx〉〈φx |
)∗
(5.20)
=
∑
x∈X
pX(x)(| φx〉〈φx |)∗ (5.21)
=
∑
x∈X
pX(x) | φx〉〈φx |= ρ. (5.22)
69
3.
〈ψ | ρ | ψ〉 = 〈ψ |
(∑
x∈X
pX(x) | φx〉〈φx |
)
| ψ〉 (5.23)
=
∑
x∈X
pX(x)〈ψ | φx〉〈φx | ψ〉 (5.24)
=
∑
x∈X
pX(x) | 〈ψ | φx〉 |2≥ 0. (5.25)
Nota 95. Dado un operador ρ en H que cumple las tres propiedades del Teo-
rema 94, podemos usar la descomposición espectral de ρ (que existe porrque
ρ es hermitiano) para recuperar un ensamble ε para el cual ρ es operador de
densidad:
ρ =
∑
x∈X
λx | φx〉〈φx | . (5.26)
Es fácil ver que los eigenvalores λx son probabilidades usándo el Teorema 94:
1 = Tr{ρ} (5.27)
=
∑
x∈X
λxTr({| φx〉〈φx |) (5.28)
=
∑
x∈X
λx. (5.29)
Además,
0 ≤ 〈φx | ρ | φx〉 = λx. (5.30)
El ensamble asosciado seŕıa {λx, | φx〉}x∈X .
Definición 96. (Medición Cuántica) Sea H un espacio de estados de un
sistema cuántico. Una medición cuántica es un conjunto de operadores {Mj}j
en H tales que ∑
j
M∗jMj = IH. (5.31)
Definimos una v.a. J que toma valores en el conjunto de ı́ndices de la medi-
ción; el valor que tome ésta se interpreta como el resultado de la medición.
Definios la probabilidad del evento {J = j} como
pJ(j) := 〈φ |M∗jMj | φ〉 (5.32)
70CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
si el sistema se encuentra en un estado puro | φ〉. Al estado Mj |φ〉√
pJ (j)
se le
llama estado post-medición. Si el estado del sistema es un estado mezclado
ρ, definimos
pJ(j) := Tr{M∗jMjρ}, (5.33)
y el estado
MjρM
∗
j√
pJ (j)
es el estado post-medición.
Definición 97. (Medida a valores en operadores positvos, o POVM) Una
POVM en un espacio de Hilbert H es una colección de operadores {Λj}j en
H tales que
1. Λj ≥ 0 para toda j,
2.
∑
j Λj = IH .
Si el sistema está en un estado puro | ψ〉, la probabilidad de obtener el resul-
tado j al realizar la medición (la POVM) es
pJ(j) = 〈ψ | Λj | ψ〉. (5.34)
Si el sistema está en un estado mezclado ρ, la probabilidad de obtener el
resultado j es
pJ(j) = Tr{Λjρ}. (5.35)
El formalismo de las POVM es útil en situaciónes en las que no se hace
uso del estado post-medición, como sucede a menudo en el contexto de la
transmición de información por canales cuánticos.
Nota 98. Denotamos porD(H) al conjunto de operadores de densidad en H.
La definición 97 nos permite interpretar a los operadores de densidad como
estados del sistema, pues éstos nos ayudan a calcular las probabilidades de
que el sistema esté en un estado del ensamble asosciado. Por esta razón, los
operadores de densidad captan la idea de que en la práctica, es dif́ıcil preparar
un sistema cuántico en un estado particular con presición, y en general el
estado real del sistema sólo se conoce estad́ısticamente (según la distribución
del ensamble).
Definición 99. (Producto tensorial de vectores) Sean HA y HB espacios de
Hilbert finitos con dimensiones dA y dB respectivamente. Sean u ∈ HA y
v ∈ HB. Definimos el producto tensorial de u y v como
u⊗ v := uvT , (5.36)
71
donde vT es el vecotr transpuesto de v. En notación de Dirac,
| φ〉⊗ | ψ〉 :=| φ〉〈ψ | . (5.37)
Observemos que la operación ⊗ entre vectores cumple la relación de bilinea-
lidad, es decir, f(u, v) := u⊗ v es una función bilineal.
Definición 100. (Producto tensorial de espacios) Sean HA y HB espa-
cios de Hilbert finitos con dimensiones n y m respectivamente. Sean EA :=
{e1, . . . , en} y EB := {f1, . . . , fm} bases ortonormales para HA y HB respec-
tivamente. Consideremos el espacio vectorial
V := span{u⊗ v : u ∈ HA y v ∈ HB}. (5.38)
Podemos inducir un producto interior en este espacio como sigue:
〈u⊗ v, x⊗ y〉 := 〈u, x〉A〈v, y〉B. (5.39)
Es fácil ver que éste es un producto interior bien definido, y que el conjunto
EA⊗EB := {e1⊗ f1, . . . , en⊗ fn} es una base ortonormal para éste espacio.
Obsérvese que por bilinealidad, si EA y EB son bases completas, también lo
es EA ⊗ EB.
Definición 101. (Producto tensorial de operadores) Sean HA y HB espacios
de Hilbert finitos. Sean S ∈ L(HA) y T ∈ L(HB) operadores. Definios el
producto tensorial de S y T como la función S ⊗ T ∈ L(HA⊗HB) dada por
la relación
(S ⊗ T )(u, v) := (Su)⊗ (Tv), (5.40)
para u ∈ HA y v ∈ HB. Denotamos por D(HA ⊗HB) al conjunto de oopera-
dores de densidad en HA ⊗HB.
Nota 102. Las definiciones de producto tensorial se extienden de manera
directa a productos de n componentes. Por ejemplo, si u, v y w son vectores
finitos, podemos usar la definición de producto tensorial de dos operadores
(matrices) para definir
u⊗ v ⊗ w := (u⊗ v)⊗ w = u⊗ (v ⊗ w), (5.41)
y seguimos de manera inductiva las mismas construcciones. A los operadores
de densidad en HA ⊗HB les llamamos operadores bipartitas, a los de HA ⊗
HB ⊗HC, tripartitas, etc.
72CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
Notación 103. Cuando sea conveniente, denotaremos al producto de n es-
tados puros por
| 0〉⊗ | 1〉 ⊗ · · · ⊗ | n〉 =| 0〉 | 1〉 · · · | n〉 (5.42)
o por
| 0〉⊗ | 1〉 ⊗ · · · ⊗ | n〉 =| 01 . . . n〉. (5.43)
Además, si estamos trabajando con un espacio conjunto HA ⊗ HB, deno-
taremos frecuentemente a los estados en HA con sub́ındice correpondiente,
digamos | ψ〉A, y a los de HB por | φ〉B. Al operador de densidad | ψ〉A〈ψ |A
lo denotaremos por | ψ〉〈ψ |A, y análogamente para B. Ésta notación la ex-
tendemos a productos tensoriales finitos.
Definición 104. (Estado separable) Decimos que un operador de densidad
bipartita σAB ∈ D(HA ⊗HB) es un estado separable si se puede escribir de
la forma
σAB =
∑
x∈X
pX(x) | ψx〉〈ψx |A ⊗ | φx〉〈φx |B, (5.44)
para alguna distribción de probabilidad pX(x) y conjuntos de estados puros
{| ψx〉A} y {| φx〉B} en los sistemas A y B respectivamente. Obsérvese que
HA y HB se toman con la misma dimensión. Cuando esto sucede decimos
que σAB es un operador cuadrado.
Definición 105. (Estado Entrelazado) Deimos que un estado bipartita (cua-
drado) está entrelazado si no es separable. Esta definición (y su negación) se
extiende directamente a productos tensoriales finitos.
Definición 106. (Traza Parcial) Sea XAB un operador cuadrado en el es-
pacio de Hilbert HA ⊗HB. Sea {| i〉B} base ortonormal completa de HB. La
traza parcial de XAB sobre HB es
TrB{XAB} :=
∑
i
(IA ⊗ 〈i |B)XAB(IA⊗ | i〉B). (5.45)
De forma abreviada,
TrB{XAB} =
∑
i
〈i |B XAB | i〉B. (5.46)
Por un argumento similar al de la observación 91, es fácil ver que la tra-
za parcial es invariante bajo la elección de bases ortonormales completas.
73
La definición de TrA es completamente análoga. Esta definición se extiende
directamente a operadores cuadrados sobre un producto tensorial finito de
espacios de estados. En adelante, sólo consideraremos operadores cuadrados,
es decir, los productos tensoriales de espacios de estados serán productos
tensoriales de un número finito de copias del mismo espacio.
Lema 107. La traza parcial cumple que Tr{XAB} = TrA{TrB{XAB}} =
TrB{TrA{XAB}}.
Demostración. Sean {| i〉A} y {| j〉B} bases ortonormales completas en los
sistemas A yB. Entonces
Tr{XAB} =
∑
i,j
〈i |A 〈j |B XAB | i〉A | j〉B (5.47)
=
∑
i,j
(〈i |A ⊗IB)(IA ⊗ 〈j |B)XAB(IA⊗ | j〉B)(| i〉A ⊗ IB) (5.48)
=
∑
i
(〈i |A ⊗IB)
[∑
j
(IA ⊗ 〈j |B)XAB(IA⊗ | j〉B)
]
(| i〉A ⊗ IB)
(5.49)
= TrA{TrB{XAB}}. (5.50)
La prueba para TrB{TrA{·}} es análoga.
Definición 108. (Operador de densidad local) Sea ρAB ∈ D(HA ⊗ HB).
Definimos el los operadores locales del sistema compuesto AB (con espacio
de estados HA ⊗HB) como
ρA := TrB{ρAB} y ρB := TrA{ρAB}. (5.51)
Esta definición se extiende directamente a productos tensoriales finitos. El
concepto de operador de densidad local capta la idea de que, si se tiene un
sistema compuesto formado por varios sistemas que comparten un estado
conjunto, los estados de cada uno de ellos están directamente relacionados
con (de hecho, están en función de) el estado conjunto.
Nota 109. Es fácil ver que el operador de densidad local es de hecho un
operador de densidad en su sistema, pues
Tr{ρA} = TrA{ρA} (5.52)
= TrA{TrB{ρAB}} (5.53)
= Tr{ρAB} = 1 (5.54)
74CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
por el lema 107. Además, sea | φ〉 ∈ HA ⊗HB. Entonces
〈φ | ρA | φ〉 = 〈φ | TrB{ρAB} | φ〉 (5.55)
= 〈φ |
∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 (5.56)
=
∑
i
〈φ | (IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 ≥ 0 (5.57)
pues
〈φ | (IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 ≥ 0 (5.58)
para cada i. Finalmente, tenemos que
ρ∗A =
[∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B)
]∗
(5.59)
=
∑
i
[ρAB(IA⊗ | i〉B)]∗(IA ⊗ 〈i |B)∗ (5.60)
=
∑
i
(IA ⊗ 〈i |B)ρ∗AB(IA⊗ | i〉B) (5.61)
=
∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) (5.62)
= TrB{ρAB} (5.63)
= ρA, (5.64)
pues ρ∗AB = ρAB al ser operador de densidad.
Teorema 110. (Operadores de densidad) Sean A y B sistemas cuánticos
finitos. Entonces,
1. Sean | x1〉, | x2〉 ∈ HA y | y1〉, | y2〉 ∈ HB Entonces
TrB{| x1〉〈x2 |A ⊗ | y1〉〈y2 |B} =| x1〉〈x2 | 〈y1 | y2〉. (5.65)
La iguadad análoga para TrA también es válida.
2. Sean ρA ∈ D(HA) y σB ∈ D(HB). Entonces
TrB{ρA ⊗ σB} = ρA. (5.66)
la igualdad análoga para TrA taambién es válida.
75
3. Sea X un alfabeto finito, sea pX(x) una distribución de probabilidad en
este alfabeto, y sean ρxA ∈ D(HA) y σxB ∈ D(HB) para toda x. Entonces
TrB
{∑
x
pX(x)ρ
x
A ⊗ σxB
}
=
∑
x
pX(x)ρ
x
A. (5.67)
La igualdad análoga para TrA también es válida.
4. Sean {| x〉}x∈X y {| y〉}y∈Y bases ortonormales completas de HA y
HB respectivamente, con dA =| X | y dB =| Y |. Sea p(x, y) una
distribución en X × Y, y sea
ρ =
∑
x,y
p(x, y) | x〉〈x | ⊗ | y〉〈y | . (5.68)
Entonces
TrB{ρ} =
∑
x
pX(x) | x〉〈x | . (5.69)
La igualdad análoga para TrA también es válida.
Demostración. 1. Sea {| i〉}i base ortonormal completa de HB. Entonces
TrB{| x1〉〈x2 |A ⊗ | y1〉〈y2 |B} (5.70)
=
∑
i
(IA ⊗ 〈i |B) | x1〉〈x2 |A ⊗ | y1〉〈y2 |B (IA⊗ | i〉B) (5.71)
=
∑
i
| x1〉〈x2 |A ⊗〈i |B| y1〉〈y2 | i〉B (5.72)
=| x1〉〈x2 |A ⊗
∑
i
〈i | y1〉〈y2 | i〉B (5.73)
=| x1〉〈x2 |A ⊗
∑
i
〈y1 | i〉〈i | y2〉B (5.74)
=| x1〉〈x2 |A ⊗〈y1 |
∑
i
| i〉〈i || y2〉B (5.75)
=| x1〉〈x2 |A ⊗〈y1 | y2〉B (5.76)
=| x1〉〈x2 |A 〈y1 | y2〉B. (5.77)
La prueba para TrA es análoga.
76CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
2. Sea {| i〉}i base ortonormal completa de HB. Entonces
TrB{ρA ⊗ σB} =
∑
i
(IA ⊗ 〈i |B)ρA ⊗ σB(IA⊗ | i〉B) (5.78)
=
∑
i
ρA ⊗ 〈i | σB | i〉B

Continuar navegando