Teora-de-la-informacion-clasica-y-cuantica

Matemáticas

•
Exatas

Aprendiendo Matemáticas y Fisica
26/7/2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Matemáticas

635.758 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
UNIVERSIDAD  NACIONAL 
AUTÓNOMA DE MÉXICO
FACULTAD DE CIENCIAS
LICENCIATURA EN MATEMÁTICAS
Teoría de la Información Clásica y Cuántica
T   E   S   I   S
QUE PARA OBTENER EL TÍTULO DE:
LICENCIATURA EN MATEMÁTICAS
PRESENTA:
JUAN PABLO CHÁVEZ OCHOA
DIRECTOR DE TESIS: DR. MIGUEL 
ARTURO BALLESTEROS MONTERO
2018 
 
CIUDAD UNIVERSITARIA, CDMX
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
1. Datos del alumno 
 Chávez 
 Ochoa 
 Juan Pablo 
 55 96 00 85 
 Universidad Nacional Autónoma de 
 México 
 Facultad de Ciencias 
 311593765 
 
2. Datos del tutor 
 Dr 
 Miguel Arturo 
 Ballesteros 
 Montero 
 
3. Datos de sinodal 1 
 Dr 
 Luis Octavio 
 Silva 
 Pereyra 
 
4. Datos de sinodal 2 
 Dr 
 Francisco Javier 
 Torres 
 Ayala 
 
5. Datos de sinodal 3 
 Dr 
 Rafael René 
 del Río 
 Castillo 
 
6. Datos de sinodal 4 
 Dr 
 Luis Antonio 
 Rincón 
 Solís 
 
7. Datos del trabajo escrito 
 Teoría de la Información Clásica y Cuántica 
 108p 
 2018
 
 
Este trabajo fue posible gracias a la ayuda proveniente de diversos lugares: 
 
Estoy agradecido con la Universidad Nacional Autónoma de México, por la excelente 
preparación y recursos que me ha ofrecido. Durante mi educación en la UNAM adquirí el 
pensamiento científico y la capacidad de razonamiento crítico que forman una parte 
crucial de mi preparación, como científico y como persona. Agradezco mucho los apoyos 
economicos que me fueron proporcionados durante esta etapa, los programas PAPIIT- 
DGAPA UNAM IN103918 y SEP-CONACYT 254062. 
 
Agradezco a mi padre, Francisco Javier, por su orientación y por el incansable apoyo a lo 
largo de la carrera, así como a mi madre, Beatriz Eugenia, por siempre estar disponible 
en momentos de necesidad. Agradezco cariñosamente a mi hermana, María Fernanda, 
por ser una gran amiga y consejera. Estoy enormemente agradecido con mi tío y padrino, 
Juan Carlos. Su ayuda ha facilitado mis estudios de forma inimaginable. 
 
A Jimena, por su apoyo y compañía durante esta difícil etapa. Por demostrarme su cariño 
y amor incondicionales, por ser una gran amiga. Por su ayuda, incluso de las formas más 
inesperadas, le agradezco con todo mi corazón. 
 
A mi asesor, el Dr. Miguel Ballesteros, por ser una inagotable fuente de consejos y por 
haber tomado en sus manos el progreso de mi educación, así como la dirección de este 
trabajo. Su tutela me ha demostrado la importancia del rigor y ha fomentado en mi una 
fuerte noción acerca de lo que es científicamente correcto. 
 
A los miembros de mi Jurado: el Dr. Luis Octavio Silva Pereyra, el Dr. Rafael René del 
Río Castillo, el Dr. Francisco Javier Torres Ayala, y el Dr. Luis Antonio Rincón Solís, por 
haber aceptado la responsabilidad de revisar este trabajo. Al Dr. Rincón le agradezco 
también el haberme introducido al campo de la Teoría de la Información. 
 
Finalmente, quiero agradecer a mis familiares y amigos más cercanos, porque siempre 
puedo contar con ellos, y porque su presencia hace y hará siempre de mi vida una mejor 
experiencia. 
Agradecimientos
Índice general
1. Introducción 3
I Teoŕıa de la Información Clásica 5
2. Conceptos Fundamentales 7
3. Propiedad de equipartición asintótica y Tipicalidad 35
4. Capacidad de canales 43
II Teoŕıa de la Información Cuántica 63
5. Conceptos Fundamentales de la Teoŕıa Cuántica 65
6. Tipicalidad cuántica 103
1
2 ÍNDICE GENERAL
Caṕıtulo 1
Introducción
La presente Tesis está dividida en dos partes: Teoŕıa de la Información
Clásica, y Teoŕıa de la Información Cuántica. La primera parte está basada
principalmente en [2], mientras que la segunda se basa en [8] y [4]. El objetivo
de este trabajo es doble: en primer lugar, se presentan los conceptos clave y
muchos de los resultados más relevantes de ambas teoŕıas de forma rigurosa,
de manera que un estudiante de licenciatura con conocimientos sólidos de
Probabilidad y Álgebra Lineal pueda comprenderlos. En segundo lugar, se
tratan ambas teoŕıas de tal forma que el lector pueda encontrar puntos de
comparación importantes, y que se pueda entender a la Teoŕıa de la Infor-
mación Cuántica como una generalización, o al menos como una extensión
de la Teoŕıa clásica (más en general, se puede ver a la Probabilidad Cuántica
como una generalización de la Teoŕıa de la Probabilidad Clásica.)
En la primera parte se desarrollan los conceptos fundamentales de la
Teoŕıa de la Información Clásica, con el objetivo de desarrollar una teoŕıa
para el concepto de Canal de Comunicación, y culminando en el segundo
Teorema de Shannon, que afirma la existencia de un código que nos per-
mite enviar información a través de un canal ruidoso (en la práctica puede
ser una red de telecomunicaciones inalámbricas o de fibra óptica, por ejem-
plo) de manera óptima, es decir, minimizando los errores de transmisión.
Además de éste Teorema, se presentan resultados relevantes por śı solos co-
mo la Desigualdad de Fano, La Desigualdad de Procesamiento de Datos y
la Propiedad de Equipartición Asintótica. Por cuestiones de espacio, se han
omitido los temas sobre tasas de entroṕıa para procesos estocásticos, fuentes
de información y Teoŕıa de Códigos. Por esta razón, nos limitareos a presen-
tar una versión particular del Teorema de Shannon, que sin embargo ilustra
3
4 CAPÍTULO 1. INTRODUCCIÓN
las ideas generales de éste y sus implicaciones. El lector pude consultar [2] o
[9] para tratamientos informales de estos temas, enfocados en aplicaciones, y
[1] para un tratamiento formal y una prueba formal del Teorema de Shannon
para canales discretos.
En la segunda parte, se desarrollan los conceptos fundamentales de la
Teoŕıa Cuántica. Después de introducir algunos conceptos básicos de Mecáni-
ca Cuántica para sistemas con un número finito de estados, se desarrolla una
teoŕıa de canales cuánticos. De entre los resultados técnicos de ésta parte,
vale la pena destacar el Teorema de Choi-Kraus, que nos da una forma de
descomponer canales cuánticos en una suma de productos de operadores que
cumplen ciertas condiciones, dándo una manera simple de definir canales a
través de dichos operadores. Además del concepto de canal, se definen varios
conceptos análogos a los de la Teoŕıa Clásica como el de Entroṕıa, Distancia
de Kullback-Liebler, Información mutua, etc. Además de esto se presenta
un caṕıtulo sobre Tipicalidad Cuántica. En éste se demuestran muchos re-
sultados con análogos clásicos, y se ilustran algunos puntos de comparación
sutiles. A diferencia de la primera parte, no dedicaremos un tercer caṕıtulo a
una vrsión cuántica del Teorema de Shannon; la Teoŕıa de canales cuánticos
se presenta en conjunto con los fundamentos de la Teoŕıa Cuántica en el pri-
mer caṕıtulo. El desarrollo de la teoŕıa necesaria para deducir un resultado
como éste aumentaŕıa la longitud de este trabajo de forma considerable. Para
un desarrollo completo puede consultarse [8].
Parte I
Teoŕıa de la Información
Clásica
5
Caṕıtulo 2
Conceptos Fundamentales
Definición 1. (Variable Aleatoria Discreta) Sea (Ω,F , P ) un espacio de
probabilidad y sea (X , S) un espacio medible discreto. Una variable aleatoria
(v.a) discreta es una función X :Ω→ X talque X−1 (A) ∈ F ∀A ∈ S.
Definición 2. (Entroṕıa de una v.a. discreta) Sea X una v.a. discreta con
medida de probabilidad P. Definimos la Entroṕıa en base a de X como
Ha (X) := −
∑
x∈X
P (ω ∈ Ω : X (ω) = x) loga P (ω ∈ Ω : X (ω) = x). (2.1)
En esta definición adoptamos la convención de que 0 loga 0 = 0, justificada
por la continuidad de x loga x y el hecho de que ĺımx→0 x loga x = 0. Al con-
junto X le llamamos el alfabeto de X. Si a = 2, decimos que la entroṕıa de X
se mide en bits. A partir de ahora escribiremos log en lugar de log2 y H(X)
en lugar de H2(X).
Definición 3. (Rectángulo medible) Sean (X1, S1), ..., (Xn, Sn) espacios me-
dibles. Un subconjunto R ⊂ X1 × ... × Xn se llama rectángulo medible si es
de la forma R = A1 × ... × An con A1 ∈ S1, ..., An ∈ Sn. Nos referiremos a
A1, ..., An como los lados de R. Denotaremos por S1×...×Sn = {A1×...×An :
A1 ∈ S1, ..., An ∈ Sn} a la familia de rectángulos medibles.
Definición 4. (Espacio medible producto) Sean (X1, S1), ..., (Xn, Sn) espacios
medibles. Definimos el espacio medible producto como la pareja
(X1 × ...×Xn, S1 ⊗ ...⊗ Sn) (2.2)
en donde S1 ⊗ ... ⊗ Sn es la mı́nima σ-álgebra generada por la colección
S1 × ...× Sn.
7
8 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Definición 5. (Vector aleatorio discreto) Sea (Ω,F , P ) un espacio de proba-
bilidad. Sea X : Ω→ X1× ...×Xn una función. Diremos que X es un vector
aleatorio si X−1(A) ∈ F ∀A ∈ S1⊗...⊗Sn. El vector X puede representarse
de la forma X = (X1, ...Xn), donde cada coordenada Xi es una función de Ω
en Xi.
Nota 6. Puede demostrarse que una función (X1, ..., Xn) : Ω→ X1× ...×Xn
es un vector aleatorio si y sólo si cada coordenada Xi : Ω → Xi es una
función F − Si medible, i.e. una variable aleatoria (ver [7], capt. 3).
Definición 7. (Entroṕıa conjunta) Sea (Ω,F , P ) un espacio de probabilidad.
Sean Xi : Ω → Xi, i = 1, 2, ..., n variables aleatorias discretas. Definimos
la entroṕıa conjunta de X1, ..., Xn como la entroṕıa sobre los valores de la
ditribución P del vector aleatorio (X1, ...Xn), es decir
H(X1, ..., Xn) := −
∑
x∈X1×...×Xn
P (ω ∈ Ω : (X1, ...Xn)(ω) = x)
logP (ω ∈ Ω : (X1, ...Xn)(ω) = x)
(2.3)
Notación 8. A partir de este punto escribiremos
P (ω ∈ Ω : (X1, ...Xn)(ω) = (x1, ..., xn)) = P (X1 = x1, ..., Xn = xn) (2.4)
= p(x1, ..., xn) (2.5)
y
P (ω ∈ Ω : Xi(ω) = xi) = P (Xi = xi) (2.6)
= p(xi). (2.7)
También utilizaremos las notaciones (X1, ...Xn) = X
n y (x1, ...xn) = x
n.
Definición 9. (Valor esperado) Sea (Ω,F , P ) un espacio de probabilidad.
Sea X : Ω→ X ⊂ R una v.a. en este espacio, y sea g : X → R una función.
Entonces podemos definir la v.a. g(X) : Ω→ R. Definimos el valor esperado
de g(X) como
EP (g(X)) :=
∑
x∈X
g(x)p(x) (2.8)
Si no existe riesgo de confusión, escribiremos EP = E.
9
Nota 10. Si hacemos g(x) = log 1
p(x)
en la Definición 9, tenemos que
E(g(X)) =
∑
x∈X
p(x) log
1
p(x)
(2.9)
= H(X). (2.10)
Lema 11. Sea X : Ω → X una variable aleatoria discreta (vector aleatorio
discreto) en el espacio (Ω,F , P ). Entonces H(X) ≥ 0.
Demostración. Como 0 ≤ p(x) ≤ 1 para x ∈ X , tenemos que 0 ≤ p(X) ≤ 1,
por lo cual log 1
p(X)
≥ 0. por lo tanto
E
(
log
1
p(X)
)
≥ 0. (2.11)
Definición 12. (Probabilidad condicional) Sea (Ω,F , P ) un espacio de pro-
babilidad, y sea B ∈ F tal que P (B) > 0. Para cada A ∈ F definimos la
probabilidad condicional de A dadoB como
P (A | B) := P (A ∩B)
P (B)
(2.12)
Es fácil ver que P (· | B) es medida de probabilidad. Si X : Ω→ X y Y : Ω→
Y son v.a.s en (Ω,F , P ), podemos definir la cantidad P (X = x | Y = y) para
x ∈ X y y ∈ Y haciendo
A = {X = x} = {ω ∈ Ω : X(ω) = x} (2.13)
B = {Y = y} = {ω ∈ Ω : Y (ω) = y} (2.14)
en la definición de P (A | B), es decir,
P (X = x | Y = y) = P ({X = x} | {Y = y}) (2.15)
En adelante asumremos que P (Y = y) > 0 para y ∈ Y.
Notación 13. En adelante escribiremos P (X = x | Y = y) = p(x | y), si no
es necesario hacer mención de las variables X y Y .
10 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Definición 14. (Entroṕıa condicional) Sea (Ω,F , P ) espacio de probabilidad
y sean X : Ω→ X y Y : Ω→ Y v.a.s en este espacio. Definimos la entroṕıa
condicional de X dada Y como
H(X | Y ) := −
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y) (2.16)
Nota 15. Si hacemos g(x, y) = log 1
p(x,y)
en la definición 9, obtenemos que
E(g(X, Y )) =
∑
x∈X
∑
y∈Y
p(x, y) log
1
p(x, y)
(2.17)
= H(X, Y ), (2.18)
y si hacemos g(x, y) = log 1
p(x|y) en la definición 9, tenemos que
E(g(X, Y )) =
∑
x∈X
∑
y∈Y
p(x, y) log
1
p(x | y)
(2.19)
= H(X | Y ). (2.20)
Teorema 16. (Regla de la cadena) Sean X : Ω → X y Y : Ω → Y v.a.s en
el espacio de probabilidad (Ω,F , P ). Entonces
H(X, Y ) = H(X) +H(Y | X) (2.21)
Demostración. Primero observemos que
P (X = x) = P ({X = x} ∩ Ω) (2.22)
= P
(
{X = x} ∩
⋃
y∈Y
{Y = y}
)
(2.23)
= P
( ⋃
y∈Y
({X = x} ∩ {Y = y})
)
(2.24)
= P
( ⋃
y∈Y
{X = x, Y = y}
)
(2.25)
= P (X = x, Y = y), (2.26)
11
pues Y es discreto. Es decir, p(x) =
∑
y∈Y p(x, y). Entonces
H(X, Y ) = −
∑
x∈X
∑
y∈Y
p(x, y) log p(x, y) (2.27)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)p(x) (2.28)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)−
∑
x∈X
∑
y∈Y
p(x, y) log p(x) (2.29)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(y | x)−
∑
x∈X
p(x) log p(x) (2.30)
= H(Y | X) +H(X). (2.31)
Definición 17. (Entroṕıa condicional) Sean X1 : Ω→ X1, . . . , Xn : Ω→ Xn
v.a.s en el espacio de probabilidad (Ω,F , P ). Definimos la entroṕıa condicio-
nal de Xn dadas las variables Xn−1, . . . , X1 como la entroṕıa condicional de
Xn dado el vector (Xn−1, . . . , X1), es decir
H(Xn | Xn−1, . . . , X1) := H(Xn | (Xn−1, . . . , X1)) (2.32)
Teorema 18. (Regla de la cadena) Sean X1 : Ω → X1, . . . , Xn : Ω → Xn
para n ≥ 2 v.a.s en el espacio de probabilidad (Ω,F , P ). Entonces
H(Xn, . . . , X1) = H(X1) +
n∑
i=2
H(Xi | Xi−1, . . . , X1), (2.33)
Demostración. Procedemos por inducción sobre n ≥ 2 El caso base (n = 2)
es la prueba del Teorema 16. Supongamos que el resultado es cierto para
algún natural n ≥ 2. Entonces
H(X1, . . . , Xn, Xn+1) = H((X1, . . . , Xn), Xn+1) (2.34)
= H(Xn+1 | (Xn, . . . , X1)) +H(X1, . . . , Xn) (2.35)
= H(Xn+1 | (Xn, . . . , X1)) (2.36)
+H(X1) +
n∑
i=2
H(Xi | Xi−1, . . . , X1) (2.37)
= H(X1) +
n+1∑
i=2
H(Xi | Xi−1, . . . , X1), (2.38)
12 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
donde la segunda igualdad se sigue del Teorema 16, y la tercera de la hipótesis
de inducción.
Definición 19. (Entroṕıa relativa o distancia de Kullback-Leibler) Sean X :
Ω → X y Y : Ω → X v.a.s en los espacios de probabilidad (Ω,F , P ) y
(Ω,F , Q) respectivamente. Definimos la entroṕıa relativa de X con Y como
D(p || q) :=
∑
x∈X
p(x) log
p(x)
q(x)
(2.39)
Aqúı aceptamos las convenciones 0 log 0
0
= 0, 0 log 0
q
= 0, y p log p
0
= ∞.
Por lo tanto, si existe x ∈ X tal que p(x) > 0 y q(x) = 0, tenemos que
D(p || q) =∞.
Nota 20. Si hacemos g(x) = log p(x)
q(x)
en la definición 9, tenemos que
E(g(x)) =
∑
x∈X
p(x) log
p(x)
q(x)
(2.40)
= D(p || q). (2.41)
Definición 21. (Información mutua) Sea (X, Y ) : Ω → X × Y un vector
aleatorio en el espacio de probabilidad (Ω,F , P ). Sean p(x) y q(y) las dis-
tribuciones marginales de X y Y respectivamente. Definimos la información
mutua de las variables X y Y como la entroṕıa relativa de las distribuciones
p(x, y) y p(x)q(y), es decir,
I(X : Y ) := D(p(x, y) || p(x)q(y)) (2.42)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
p(x)q(y)
(2.43)
Nota 22. Si hacemos g(x, y) = log p(x,y)
p(x)q(y)
en la definición 9, tenemos que
E(g(x, y)) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
p(x)q(y)
(2.44)
= I(X : Y ). (2.45)
Teorema 23. (Propiedades de la Información Mutua) Sea (X, Y ) : Ω →
X ×Y un vector aleatorio en el espacio de probabilidad (Ω,F , P ). Entonces
13
1. I(X : Y ) = H(X)−H(X | Y )
2. I(X : Y ) = H(Y )−H(Y | X)
3. I(X : Y ) = H(X) +H(Y )−H(X, Y )
4. I(X : Y ) = I(Y : X)
5. I(X : X) = H(X)
Demostración. 1. Recordemos que p(x | y) = p(x,y)
p(y)
por definición. Enton-
ces
I(X : Y ) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x,y)
p(x)p(y)
(2.46)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x | y)
p(x)
(2.47)
= −
∑
x∈X
∑
y∈Y
p(x, y) log p(x) +
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y)
(2.48)
= −
∑
x∈X
p(x) log p(x)−
(
−
∑
x∈X
∑
y∈Y
p(x, y) log p(x | y)
)
(2.49)
= H(X)−H(X | Y ), (2.50)
donde la penúltima igualdad sucede porque p(x) =
∑
y∈Y p(x, y).
2. Es análoga al inciso anterior, usando que p(y | x) = p(x,y)
p(x)
en lugar de
p(x | y) = p(x,y)
p(y)
.
3. Usando el teorema 16, tenemos que
H(X, Y ) = H(X) +H(Y | Y ). (2.51)
Entonces del inciso anterior tenemos que
I(X : Y ) = H(Y )−H(Y | X) (2.52)
= H(Y ) +H(X)−H(X, Y ). (2.53)
14 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
4. Por definición de la Información Mutua, usando que p(x, y) = p(y, x).
5. Observemos que
p(x, y) = P ({X = x} ∩ {X = y}) = P ({X = x}) = p(x) (2.54)
si x = y, y
p(x, y) = P (∅) = 0 (2.55)
si x 6= y, por lo cual
H(X | X) = −
∑
x∈X
∑
y∈X
p(x, y) log
p(x, y)
p(x)
(2.56)
= −
∑
x∈X
p(x, x) log
p(x, x)
p(x)
(2.57)
= −
∑
x∈X
p(x) log(1) = 0. (2.58)
Por lo tanto, del primer inciso se sigue que
I(X : X) = H(X)−H(X | X) = H(X). (2.59)
Definición 24. (Información mutua condicional) Sea (X, Y, Z) : Ω→ X1 ×
X2×X3 un vector aleatorio en el espacio de probabilidad (Ω,F , P ). Definimos
la información mutua de X y Y dada Z como la cantidad
I(X : Y | Z) := H(X | Z)−H(X | Y, Z). (2.60)
Teorema 25. (Regla de la cadena para la información mutua) Sea (X1, . . . , Xn, Y ) :
Ω → X1 × · · · × Xn × Y un vector aleatorio en el espacio de probabilidad
(Ω,F , P ). Entonces
I(X1, . . . , Xn;Y ) = I(X1;Y ) +
n∑
i=2
I(Xi;Y | Xi−1, . . . , X1). (2.61)
15
Demostración. De los teoremas 18 y 23, tenemos que
I(X1, . . . , Xn : Y ) (2.62)
= H(X1, . . . , Xn)−H(X1, . . . , Xn | Y ) (2.63)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1)−H(X1, . . . , Xn | Y ) (2.64)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1) +H(Y )−H(X1, . . . , Xn, Y ) (2.65)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1) +H(Y )−H(Y ) (2.66)
−
n∑
i=1
H(Xi | Xi−1, . . . , X1, Y ) (2.67)
= H(X1) +
n∑
i=2
H(Xi | Xi=1, . . . , X1)−
n∑
i=1
H(Xi | Xi−1, . . . , X1, Y )
(2.68)
= H(X1)−H(X1 | Y ) +
n∑
i=2
I(Xi : Y | Xi−1, . . . , X1) (2.69)
= I(X1;Y ) +
n∑
i=2
I(Xi : Y | Xi−1, . . . , X1). (2.70)
Teorema 26. Sea (X, Y ) : Ω → X × Y un vector aleatorio en los espacios
de probabilidad (Ω,F , P ) y (Ω,F , Q). Entonces
D(p(x, y) || q(x, y)) = D(p(x) || q(x)) +
∑
x∈X
p(x)D(p(y | x) || q(y | x)).
(2.71)
16 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Demostración.
D(p(x, y) || q(x, y)) =
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
q(x, y)
(2.72)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(y | x)p(x)
q(y | x)q(x)
(2.73)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
+
∑
x∈X
∑
y∈Y
p(x, y) log
p(y | x)
q(y | x)
(2.74)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
(2.75)
+
∑
x∈X
p(x)
[∑
y∈Y
p(y | x) log p(y | x)
q(y | x)
]
(2.76)
= D(p(x) || q(x)) +
∑
x∈X
p(x)D(p(y | x) || q(y | x)).
(2.77)
Definición 27. (Función real convexa) Sea f : (a, b) → R una función.
Decimos que f es convexa en (a, b) si para cada x1, x2 ∈ (a, b) y 0 ≤ λ ≤ 1,
f(λx1 + (1− λ)x2) ≤ λf(x1) + (1− λ)f(x2), (2.78)
con x1 < x2. Decimos que f es etrictamente convexa si la igualdad se cumple
sólo cuando λ = 1 o λ = 0.
Definición 28. Decimos que f : (a, b)→ R es cóncava si −f es convexa, y
estrictamente cóncava si −f es estrictamente convexa.
Teorema 29. (Desigualdad de Jensen) Sea X : Ω → R una v.a. en el
espacio de probabilidad (Ω,F , P ) con E(X) < ∞, y sea φ : R → R una
función convexa. Entonces
φ(E(X)) ≤ E(φ(X)). (2.79)
Cuando se cumple la igualdad y φ es estrictamente convexa, entonces X es
constante casi seguramente, es decir, X = E(X) c.s.
17
Demostración. Haremos la prueba para el caso discreto, que es el que será
usado más adelante. Sea X : Ω → X ⊂ R una v.a. discreta en (Ω,F , P ).
Procedemos por inducción sobre n =| X |. Para n = 1 el resultado es trivial.
Para n = 2, tenemos por convexidad que
φ(E(X)) = φ(p(x1)x1 + p(x2)x2) (2.80)
= p(x1)φ(x1) + p(x2)φ(x2) (2.81)
= E(φ(X)), (2.82)
pues p(x1) + p(x2) = 1 y p(x1), p(x2) ≥ 0.
Supongamos que el resultado es cierto para n = k − 1. Denotemos por
pi = p(xi), i = 1, . . . , k a los valores de la distribución p(x) de la v.a X
que toma k valores. Entonces {p′1, . . . , p′k−1} con p′i =
pi
1−pk
(pk 6= 1) para
i = 1, . . . , k − 1, es una distribución de probabilidad para una v.a que toma
valores x1, . . . , xk−1. Entonces
φ(E(X)) = φ
(
k∑
i=1
pixi
)
(2.83)
= φ
(
pkxk + (1− pk)
k−1∑
i=1
pi
1− pk
xi
)
(2.84)
≤ pkφ(xk) + (1− pk)φ
(
k−1∑
i=1
pi
1− pk
xi
)
(2.85)
≤ pkφ(xk) + (1− pk)
k−1∑
i=1
pi
1− pk
φ(xi) (2.86)
=
k∑
i=1
piφ(xi) = E(φ(X)), (2.87)
donde la primera desigualdad se sigue del caso n = 2, y la segunda por
hipótesis de inducción. Para la segunda parte del teorema, supongamos queX
toma los valores x1, x2, . . . con probabilidades p1, p2, . . . (para esta parte no
necesitamos que X sea finita), y supongamos que φ es estrictamente convexa.
Supongamos por reducción al absurdo que X no es constante. Es decir, p1 6=
18 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
1, p2 6= 1, . . . Que la igualdad se cumpla implica lo siguiente:
E(φ(X)) = p1φ(x1) + p2φ(x2) + . . . (2.88)
= φ(p1x1 + p2x2 + . . . ) (2.89)
= φ
(
p1x1 + (1− p1)
(
p2
1− p− 1
x2 +
p3
1− p1
x3 + . . .
))
(2.90)
< p1φ(x1) + (1− p1)φ
(
p2
1− p1
x2 +
p3
1− p1
x3 + . . .
)
(2.91)
= p1φ(x1) + p2φ(x2) + (1− p1)(1− p2)φ
(
p3
(1− p1)(1− p2)
x3 + . . .
)
(2.92)
= (2.93)
... (2.94)
= p1φ(x1) + p2φ(x2) + · · · = E(φ(X)), (2.95)
donde la segunda igualdad se da por la hipótesis de que φ(E(X)) = E(φ(X))
y la primera desigualdad por convexidad estricta, e iteramos el proceso. Por
lo tanto E(φ(X)) < φ(E(X)). Esto es una contradicción. Por lo tanto existe
i tal que pi = 1, es decir, X es constante, y E(X) = pixi = 1xi = X c.s.
Recordemos el siguiente hecho del Cálculo:
Teorema 30. Si una función f : I → R de clase C2 tiene segunda derivada
no negativa (positiva), entonces f es convexa (estrictamente convexa) en I.
Teorema 31. Sean p(x) y q(x) dos medidas de probabilidad en el alfabeto
X . Entonces
D(p || q) ≥ 0, (2.96)
y la igualdad se cumple si y sólo si p(x) = q(x) para toda x ∈ X .
19
Demostración. Sea A = {x ∈ X : p(x) > 0}. Entonces
−D(p || q) = −
∑
x∈X
p(x) log
p(x)
q(x)
(2.97)
= −
∑
x∈A
p(x) log
p(x)
q(x)
(2.98)
=
∑
x∈A
p(x) log
q(x)
p(x)
(2.99)
= Ep
(
log
q(x)
p(x)
)
(2.100)
≤ logEp
(
q(x)
p(x)
)
(2.101)
= log
∑
x∈A
p(x)
q(x)
p(x)
(2.102)
= log
∑
x∈A
q(x) (2.103)
≤ log
∑
x∈X
q(x) (2.104)
= log(1) = 0, (2.105)
donde la primera desigualdad se sigue del Teorema 29 y la concavidad de
t → log t en (0, 1] (Teorema 30). Además, t → log t es estrictamente cnvexa
en (0, 1] (Teorema 30). Entonces por el Teorema 29 tenemos que D(p || q) = 0
si y sólo si p(x)
q(x)
= c c.s. con c una constante, si y sólo si p(x)
q(x)
= c para toda
x ∈ X . Es decir, p(x) = cq(x) para toda x ∈ X para alguna constante c.
Entonces ∑
x∈X
q(x) = c
∑
x∈X
= c > 0, (2.106)
por lo cual c = 1. Es decir, q(x) = p(x) para toda x ∈ X .
Definición 32. (Independencia) Sean Xi : Ω → X , i = 1, 2, . . . v.a.s en el
espacio (Ω,F , P ). Sea G1,G2, . . . una sucesión de sub σ-álgebras de F .
1. Para un entero fijo n, decimos que las n σ-álgebras G1, . . . ,Gn son in-
dependientes si
P (A1 ∩ A2 ∩ · · · ∩ An) = P (A1)P (A2) . . . P (An) (2.107)
20 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
para todos A1 ∈ G1, A2 ∈ G2, . . . , An ∈ Gn.
2. Decimos que las n v.a.s X1, . . . , Xn son independientes si las corres-
pondientes σ-álgebras generadas σ(X1), . . . , σ(Xn) son independientes.
3. Decimos que toda la sucesión G1,G2, . . . de σ-álgebras es independiente
si para cada n las σ-álgebras G1, . . . ,Gn son independientes.
4. Decimos que la sucesión de v.a.s {Xi}∞i=1 es independiente si para cada
n, las v.a.s X1, . . . , Xn son independientes.
Nota 33. Consideremos el contexto de la Definición 32, tomando las v.a.s
con valores en un alfabeto (finito). Entonces las v.a.s X1,. . . , Xn son inde-
pendientes si y sólo si
P ({X1 = x1}∩· · ·∩{Xn = xn}) = P ({X1 = x1}) . . . P ({Xn = xn}) (2.108)
para todas x1, . . . , xn ∈ X . De forma abreviada, p(x1, . . . , xn) = p(x1) . . . p(xn).
Corolario 34. Sean X : Ω→ X y Y : Ω→ Y v.a.s en (Ω,F , P ). Entonces
I(X : Y ) ≥ 0, (2.109)
con igualdad si y sólo si p(x, y) = p(x)p(y) (i.e. si X y Y son independientes).
Demostración. Por el teorema 31, tenemos que
I(X : Y ) = D(p(x, y) || p(x)p(y)) ≥ 0, (2.110)
con igualdad si y sólo si p(x, y) = p(x)p(y).
Corolario 35. Sean X : Ω→ X y Y : Ω→ Y v.a.s en los espacios (Ω,F , P )
y (Ω,F , Q). Entonces
D(p(x, y) || q(x, y)) ≥ D(p(x) || q(x)) (2.111)
21
Demostración. Por el Teorema 31 obtenemos que
0 ≤ D(p(y | x) || q(y | x)) (2.112)
=
∑
x∈X
p(x)
∑
y∈Y
p(y | x) log p(y | x)
q(y | x)
(2.113)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)q(x)
q(x, y)p(x)
(2.114)
=
∑
x∈X
∑
y∈Y
p(x, y) log
p(x, y)
q(x, y)
−
∑
x∈X
∑
y∈Y
p(x, y) log
p(x)
q(x)
(2.115)
= D(p(x, y) || q(x, y))−D(p(x) || q(x)). (2.116)
Corolario 36. Sean X : Ω → X , Y : Ω → Y y Z : Ω → Z v.a.s en
(Ω,F , P ). Entonces
1. I(X : Y | Z) ≥ 0
2. I(X : Y | Z) = 0 si y sólo si p(x, y | z) = p(x | z)p(y | z) (i.e. X y Y
son condicionalmente independientes de Z).
Demostración. Observemos que
p(x | y, z) = p(x, y, z)
p(y, z)
(2.117)
=
p(x, y | z)p(z)
p(y | z)p(z)
(2.118)
=
p(x, y | z)
p(y | z)
. (2.119)
Entonces,
22 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
I(X : Y | Z) = H(X | Z)−H(X | Y, Z) (2.120)
=
∑
x,z
p(x, z) log
1
p(x | z)
−
∑
x,y,z
p(x, y, z) log
1
p(x | y, z)
(2.121)
=
∑
x,y,z
p(x, y, z) log
1
p(x | z)
−
∑
x,y,z
p(x, y, z) log
1
p(x | y, z)
(2.122)
=
∑
x,y,z
p(x, y, z) log
1
p(x | z)
+
∑
x,y,z
p(x, y, z) log p(x | y, z)
(2.123)
=
∑
x,y,z
p(x, y, z) log
p(x | y, z)
p(x | z)
(2.124)
=
∑
x,y,z
p(x, y, z) log
p(x, y | z)
p(x | z)p(y | z)
(2.125)
=
∑
z
p(z)
∑
x,y
p(x, y | z) log p(x, y | z)
p(x | z)p(y | z)
(2.126)
=
∑
z
p(z)D(p(x, y | z) || p(x | z)p(y | z)) ≥ 0 (2.127)
con igualdad si y sólo si p(x, y | z) = p(x | z)p(y | z).
Teorema 37. Sea X : Ω→ X v.a. en (Ω,F , P ) con | X |= n. Entonces
1. H(X) ≤ log n
2. Se cumple la igualdad si y sólo si p(x) = 1
n
para toda x ∈ X .
Demostración. 1. Sea u : F → [0, 1] la medida de probabilidad uniforme
en X , es decir, u(x) = 1
n
, x ∈ X . Entonces por el Teorema 31 tenemos
23
que
0 ≤ D(p || u) (2.128)
=
∑
x∈X
p(x) log
p(x)
u(x)
(2.129)
=
∑
x∈X
p(x) log np(x) (2.130)
=
∑
x∈X
p(x) log n+
∑
x∈X
p(x) log p(x) (2.131)
= log n−H(X). (2.132)
2. D(p || u) = 0 si y sólo si p(x) = u(x) para toda x ∈ X , es decir
H(X) = log n si y sólo si p(x) = u(x) para toda x ∈ X .
Teorema 38. (El condicionamiento reduce la entroṕıa) Sean X : Ω → X y
Y : Ω→ X v.a.s en (Ω,F , P ). Entonces
H(X | Y ) ≤ H(X). (2.133)
Demostración. Por el corolario 34 y el teorema 23 tenemos que
0 ≤ I(X : Y ) = H(X)−H(X | Y ). (2.134)
Observemos que por 34, H(X) = H(X | Y ) si y sólo si X y Y son indepen-
dientes.
Teorema 39. Sea (X1, . . . , Xn) : Ω→ X1 × · · · × Xn un vector aleatorio en
(Ω,F , P ). Entonces
H(X1, . . . , Xn) ≤
n∑
i=1
H(Xi) (2.135)
y la igualdad se da si y sólo si X1, . . . , Xn son independientes.
Demostración. Por el Teorema 18, se cumple que
H(X1, . . . , Xn) =
n∑
i=1
H(Xi | Xi−1, . . . , X1). (2.136)
24 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Por el Teorema 38, tenemos que
n∑
i=1
H(Xi | Xi−1, . . . , X1) ≤
n∑
i=1
H(Xi). (2.137)
La igualdad se cumple si y sólo si H(Xi) = H(Xi | Xi−1, . . . , X1), si y
sólo si Xi es independiente de (Xi−1, . . . , X1), si y sólo si p(xi, xi−1, . . . , x1) =
p(xi)p(xi−1, . . . , x1) para i = 1, . . . , n, si y sólo si p(x1, . . . , xn) = p(x1) . . . p(xn),
si y sólo si X1, . . . , Xn son independientes.
Lema 40. (Desigualdad del logaritmo y la suma) Sean a1 ≥ 0, . . . , an ≥ 0 y
b1 ≥ 0, . . . , bn ≥ 0 números reales. Entonces
n∑
i=1
ai log
ai
bi
≥
(
n∑
i=1
ai
)
log
(∑n
i=1 ai
)
(∑n
i=1 bi
) , (2.138)
y la igualdad se cumple si y sólo si ai
bi
es constante para i = 1, . . . , n (definimos
ai
0
:=∞).
Demostración. Sin pérdida de generalidad podemos suponer que ai > 0 y
bi > 0, i = 1, . . . , n, pues consideramos los siguientes casos:
1. Si alguna bi = 0 y ai > 0, el lado izquierdo es infinito, pues ai log
ai
0
:=
∞.
2. Si alguna ai = 0 y bi > 0, el sumando correspondiente en cada lado es
cero, pues 0 log 0
bi
:= 0, y la desigualdad permanece sin cambio.
3. Si ai = 0 y bi = 0, ambos lados de la desigualdad permanecen sin
cambio, pues 0 log 0
0
:= 0.
Entonces supongamos que ai > 0 y bi > 0. Se puede probar (usando el
Teorema 30) que φ(t) = t log t es estrictamente convexa. Por la desigualdad
de Jensen (Teorema 29), si t1, . . . , tn son numeros reales positivos y α1, . . . , αn
son reales en [0, 1] tales que
∑n
i=1 αi = 1, se cumple que
φ
(
n∑
i=1
αiti
)
≤
n∑
i=1
αiφ(ti). (2.139)
25
Tomando αi =
bi∑n
i=1 bi
y ti =
ai
bi
, se obtiene que(
n∑
i=1
ai∑n
i=1 bi
)
log
(
n∑
i=1
ai∑n
i=1 bi
)
≤
n∑
i=1
(
bi∑n
i=1 bi
)
ai
bi
log
ai
bi
, (2.140)
es decir, (∑n
i=1 ai
)
(∑n
i=1 bi
) log
(∑n
i=1 ai
)
(∑n
i=1 bi
) ≤ ∑ni=1 ai log aibi(∑n
i=1 bi
) . (2.141)
Como φ es estrictamente convexa, por 29 tenemos que la igualdad se cumple
si y sólo si t1 = t2 = · · · = tn (v.a. constante), si y sólo si aibi es constante para
i = 1, . . . , n. La rećıproca es directa: si ai
bi
= c para i = 1, . . . , n, entonces el
lado izquierdo es (log c)
∑n
i=1 ai, y el derecho es(
n∑
i=1
ai
)
log
∑n
i=1 ai
1
c
∑n
i=1 ai
= (log c)
n∑
i=1
ai. (2.142)
Teorema 41. La entroṕıa relativa D(p || q) es convexaa vista como función
de los pares (p, q), es decir, si (p1, q1) y (p2, q2) son dos pares de funciones
de probabilidad sobre un alfabeto X . entonces
D(λp1+(1−λ)p2 || λq1+(1−λ)q2) ≤ λD(p1 || q1)+(1−λ)D(p2 || q2) (2.143)
para toda λ ∈ [0, 1].
Demostración. Por definición y aplicando el Lema 40, obtenemos que
D(λp1 + (1− λ)p2 || λq1 + (1− λ)q2) (2.144)
=
∑
x∈X
(λp1(x) + (1− λ)p2(x)) log
λp1(x) + (1− λ)p2(x)
λq1(x) + (1− λ)q2(x)
(2.145)
≤
∑
x∈X
[
λp1(x) log
λp1(x)
λq1
+ (1− λ)p2(x) log
(1− λ)p2(x)
(1− λ)q2(x)
]
(2.146)
= λ
∑
x∈X
p1(x) log
p1(x)
q1(x)
+ (1− λ)
∑
x∈X
p2(x) log
p2(x)
q2(x)
(2.147)
= λD(p1 || q1) + (1− λ)D(p2 || q2). (2.148)
26 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Observemos que por el Lema 40, la igualdad se da si y sólo si
p1,i
q1,i
y
p2,i
q2,i
son
constantes para i = 1, . . . , n =| X |. Como pk,i ≥ 0 y qk,i ≥ 0, k = 1, 2, y
además
∑n
i=1 pk,i = 1 y
∑n
i=1 qk,i = 1, tenemos que la igualdad se da si y sólo
si pk = qk, k = 1, 2.
Corolario 42. En el contexto del Teorema 41, la función p → D(p || q) es
convexa.
Demostración. Sean p1 y p2 funciones de probabilidad en X . Por el Teorema
41 tenemos que
D(λp1 + (1− λ)p2 || q) ≤ λD(p1 || q) + (1− λ)D(p2 || q) (2.149)
haciendo q1 = q2 = q.
Corolario 43. En el contexto del Teorema 41, la función q → D(p || q) es
convexa.
Demostración. Sean q1 y q2 funciones de probabilidad en X . Hacemos p =
p1 = p2 en el Teorema 41, y obtenemos
D(p || λq1 + (1− λ)q2) ≤ λD(p || q1) + (1− λ)D(p || q2). (2.150)
Teorema 44. Consideremos a la entroṕıa como una función de los vectores
de probabilidad p = (p1, . . . , pn) sobre el alfabeto X , es decir, aquellos tales
que pi ≥ 0 y
∑n
i=1 pi = 1. Es decir,
H(p) :=
n∑
i=1
pi log pi (2.151)
para p = (p1, . . . , pn). Entonces p→ H(p) es cóncava.
Demostración. Sea p = (p1, . . . , pn) un vector de probabilidad y se u la dis-
tribución uniforme en X , es decir, u = ( 1
n
, . . . , 1
n
). Por el Teorema 37 sabemos
27
que H(u) = log n. Observemos que
D(p || u) =
n∑
i=1
pi log
pi
ui
=
n∑
i=1
pi log
pi
1
n
=
n∑
i=1
pi log npi
=
n∑
i=1
pi(log n+ log pi)
= log n−H(p).
(2.152)
Por lo tanto, H(p) = log n −D(p || u). Por el corolario 42, p → D(p | u) es
convexa. Por lo tanto, p→ log n−D(p || u) es cóncava.
Nota 45. Lo anterior se puede escribir como
H(λp1 + (1− λ)p2) ≥ λH(p1) + (1− λ)H(p2) (2.153)
para λ ∈ [0,1] y p1, p2 vectores de probabilidad en X .
Definición 46. (Proceso estocástico a tiempo discreto) Un proceso estocásti-
co a tiempo discreto es una colección de v.a.s {Xn : n = 1, 2, . . . } en un
espacio de probabilidad (Ω,F , P ) y donde todas las v.a.s toman valores en
un conjunto S (llamado el espacio de estados).
Definición 47. (Cadena de Markov) Decimos que un proceso estocástico
{Xn}n con espacio de estados discreto es una cadena de Markov si cumple
la propiedad de Markov, es decir,
P (Xn = xn | Xn−1 = xn−1, . . . , X1 = x1) = P (Xn = xn | Xn−1 = xn−1)
(2.154)
para n = 1, 2, . . . En forma abreviada, p(xn | xn−1, . . . , x1) = p(xn | xn−1).
Nota 48. En particular, nos interesa el caso en el que las cadenas están
indexadas por el conjunto {1, 2, 3} y el espacio de estados es un alfabeto
S = X . En este caso, la propiedad de Markov se escribe como p(x3 | x2, x1) =
p(x3 | x2).
28 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Lema 49. En el caso de la Nota 48, la propiedad de Markov es equivalente
a las siguientes identidades:
1. p(x1, x2, x3) = p(x3 | x2)p(x2 | x1)p(x1)
2. p(x1, x3 | x2) = p(x1 | x2)p(x3 | x2).
Demostración. 1. Supongamos la propiedad de Markov. Entonces
p(x1, x2, x3) = p(x3 | x2, x1)p(x1, x2) (2.155)
= p(x3 | x2)p(x1, x2) (2.156)
= p(x3 | x2)p(x2 | x1)p(x1). (2.157)
Para el regreso, supongamos la primera identidad. Entonces
p(x3 | x2, x1) =
p(x1, x2, x3)
p(x1, x2)
(2.158)
=
p(x3 | x2)p(x2 | x1)p(x1)
p(x2, x1)
(2.159)
=
p(x3 | x2)p(x2 | x1)p(x1)
p(x2 | x1)p(x1)
(2.160)
= p(x3 | x2). (2.161)
2. Supongamos la propiedad de Markov. Entonces
p(x1, x3 | x2) =
p(x1, x2, x3)
p(x2)
(2.162)
=
p(x1, x2, x3)
p(x1, x2)
p(x1, x2)
p(x2)
(2.163)
= p(x3 | x1, x2)p(x1 | x2) (2.164)
= p(x3 | x2)p(x1 | x2). (2.165)
29
Para el regreso, supongamos la segunda identidad. Entonces
p(x3 | x1, x2) =
p(x1, x2, x3)
p(x1, x2)
(2.166)
=
p(x1, x2, x3)
p(x1 | x2)p(x2)
(2.167)
=
p(x1, x3 | x2)
p(x1 | x2)
(2.168)
=
p(x3 | x2)p(x1 | x2)
p(x1 | x2)
(2.169)
= p(x3 | x2). (2.170)
Teorema 50. Sea {X1, X2, X3} una cadena de Markov en el espacio (Ω,F , P ),
donde cada v.a. Xi toma valores en el alfabeto X . Entonces
I(X1 : X3 | X2) = 0. (2.171)
Demostración. Por definición y por el Lema 49, segundo inciso, tenemos que
I(X1 : X3 | X2) (2.172)
= H(X1 | X2)−H(X1 | X3, X2) (2.173)
=
∑
x1,x2
p(x1, x2) log
1
p(x1 | x2)
−
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x3, x2)
(2.174)
=
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x2)
−
∑
x1,x2,x3
p(x1, x2, x3) log
1
p(x1 | x3, x2)
(2.175)
=
∑
x1,x2,x3
p(x1, x2, x3) log
p(x1 | x3, x2)
p(x1 | x2)
(2.176)
=
∑
x1,x2,x3
p(x1, x2, x3) log
p(x1, x3 | x2)
p(x1 | x2)p(x3 | x2)
(2.177)
=
∑
x1,x2,x3
p(x1, x2, x3) log(1) (2.178)
= 0. (2.179)
30 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Teorema 51. (Desigualdad del procesamiento de datos) Sea {X1, X2, X3}
una cadena de Markov en el espacio de probabilidad (Ω,F , P ), donde el es-
pacio de estados es un alfabeto X . Entonces
I(X1 : X2) ≥ I(X1 : X3). (2.180)
Demostración. Por el Teorema 25 tenemos que
I(X2, X3 : X1) = I(X2 : X1) + I(X3 : X1 | X2) (2.181)
I(X3, X2 : X1) = I(X3 : X1) + I(X2 : X1 | X3). (2.182)
Por el Teorema 50 tenemos que I(X3 : X1 | X2) = 0. Además es claro que
I(X2, X3 : X1) = I(X3, X2 : X1). Por lo tanto,
I(X1 : X3) + I(X1 : X2 | X3) = I(X1 : X2). (2.183)
Por el Corolario 36, I(X1 : X2 | X3) ≥ 0. Por lo tanto
I(X1 : X3) ≤ I(X1 : X2). (2.184)
Corolario 52. Sea (X1, X2) : Ω→ X1×X2 un vector aleatorio en (Ω,F , P ).
Sea φ : X1 → X2 función, y sea X3 = φ(X2). Entonces
I(X1 : X2) ≥ I(X1 : φ(X2)). (2.185)
Demostración. Observemos que
{ω ∈ Ω : X2(ω) = x2} = {ω ∈ Ω : (φ(X2(ω)), X2(ω)) = (φ(x2), x2)}.
(2.186)
Por lo tanto, se cumple que
p(x1 | φ(x2), x2) = p(x1 | x2), (2.187)
si y sólo si
p(φ(x2), x2, x1)
p(φ(x2), x2)
=
p(x2, x1)
p(x2)
, (2.188)
si y sólo si
p(φ(x2), x2, x1)
p(x2, x1)
=
p(φ(x2), x2)
p(x2)
, (2.189)
si y sólo si
p(φ(x2) | x2, x1) = p(φ(x2) | x2). (2.190)
Por lo tanto {X1, X2, φ(X3)} es cadena de Markov, y por el Teorema 51 se
sigue el resultado.
31
Corolario 53. Sea {X1, X2, X3} cadena de Markov en (Ω,F , P ). Entonces
I(X1 : X2 | X3) ≤ I(X1 : X2). (2.191)
Demostración. Por el Teorema 25 tenemos que
I(X1 : X2, X3) = I(X1 : X2 | X3) + I(X1 : X3) (2.192)
= I(X1 : X3 | X2) + I(X1 : X2). (2.193)
Como {X1, X2, X3} es cadena de Markov, del Teorema 50 obtenemos que
I(X1 : X3 | X2) = 0. De esto y el desarrollo anterior se sigue que
I(X1 : X2 | X3) ≤ I(X1 : X2). (2.194)
Teorema 54. (Desigualdad de Fano) Sea X : Ω→ X una v.a en el espacio
(Ω,F , P ), tal que | X |= n. Sea Y : Ω → Y v.a. en (Ω,F , P ), y definamos
X̂ := g(Y ) para alguna función g : Y → X , tales que {X, Y, X̂} es una
cadena de Markov. Definamos E : Ω→ {0, 1} como
E := I{X=X̂} =
{
0 si X 6= X̂
1 si X = X̂.
(2.195)
Es claro que E es una v.a. en (Ω,F , P ). Entonces
H(E) + log(n− 1)P (E = 0) ≥ H(X | X̂) ≥ H(X | Y ). (2.196)
A X̂ le llamamos un estimador para X, y a E le llamamos la función de
error.
Demostración. Empezaremos por la desigualdad de la izquierda. Por el Teo-
rema 18 tenemos que
H(E,X | X̂) = H(E,X, X̂)−H(X̂) (2.197)
= H(X | E, X̂) +H(E, X̂)−H(X̂) (2.198)
= H(X | E, X̂) +H(E | X̂). (2.199)
32 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
También,
H(E,X | X̂) = H(E,X, X̂)−H(X̂) (2.200)
= H(E | X, X̂) +H(X, X̂)−H(X̂) (2.201)
= H(E | X, X̂) +H(X | X̂). (2.202)
Como {E = 1} = {X = X̂}, tenemos que
P (E = 1 | X = x, X̂ = x̂) = P (X = X̂ | X = x, X̂ = x̂) (2.203)
=
{
1 si x = x̂
0 si x 6= x̂,
(2.204)
por lo cual
H(E | X, X̂) = −
∑
x∈X
∑
x̂∈X
∑
e=0,1
p(e, x, x̂) log p(e | x, x̂)
= 0.
(2.205)
Por lo tanto H(X | X̂) = H(X | E, X̂) + H(E | X̂). Además H(X | X̂) ≤
H(E) por el Teorema 38. Afirmamos que
H(X | E, X̂) ≤ log(n− 1)P (E = 0). (2.206)
33
Ahora probamos la afirmación:
H(X | E, X̂) = −
∑
x∈X
∑
x̂∈X
∑
e=1,0
p(x, e, x̂) log p(x | e, x̂) (2.207)
= −
∑
x∈X
∑
x̂∈X
p(x,E = 0, x̂) log p(x | E = 0, x̂) (2.208)
−
∑
x∈X
∑
x̂∈X
p(x,E = 1, x̂) log p(x | E = 1, x̂) (2.209)
= −
∑
x∈X
∑
x̂∈X
p(x,E = 0, x̂) log p(x | E = 0, x̂) (2.210)
= −
∑
x∈X
∑
x̂∈X
p(x, x̂ | E = 0)P (E = 0) log p(x | x̂, E = 0)
(2.211)
= −
∑
x 6=x̂
p(x, x̂ | E = 0)P (E = 0) log p(x | x̂, E = 0) (2.212)
= −
∑
x̂∈X
[∑
x 6=x̂
p(x, x̂)P (E = 0) log p(x | x̂)
]
(2.213)
=
∑
x̂∈X
p(x̂)
[
−
∑
x 6=x̂
p(x | x̂) log p(x | x̂)
]
P (E = 0). (2.214)
El término entre corchetes es menor a la entroṕıa de una v.a. en (Ω,F , P )
que toma n − 1 valores, la cuál está acotada por log(n − 1) por el Teorema
37. Por lo tanto
H(X | E, X̂) ≤
∑
x̂∈X
p(x̂)[log(n− 1)]P (E = 0) (2.215)
≤ log(n− 1)P (E = 0). (2.216)
Esto prueba la afirmación. Por lo tanto
H(X | X̂) ≤ log(n− 1)P (E = 0) +H(E). (2.217)
Esto demuestra la desigualdad de la izquierda. Para la desigualdad de la de-
recha observemos que como {X, Y, X̂} es cadena de Markov, por el Teorema
51 tenemos que
I(X : X̂) ≤ I(X : Y ). (2.218)
34 CAPÍTULO 2. CONCEPTOS FUNDAMENTALES
Recordando que I(X : Y ) = H(X)−H(X | Y ), tenemos que
H(X)−H(X | X̂) ≤ H(X)−H(X | Y ), (2.219)
es decir, H(X | X̂) ≤ H(X | Y ).
Nota 55. 1. Como H(E) ≤ 1 = log 2 por el Teorema 37
P (E = 0) ≥ H(X | Y )−H(E)
log(n− 1)
(2.220)
≥ H(X | Y )− 1
log(n− 1)
. (2.221)
2. Cuando P (E = 0) = 0 (i.e. no hay error), H(X | Y ) = 0.
Caṕıtulo 3
Propiedad de equipartición
asintótica y Tipicalidad
Definición 56. (Convergencia en probabilidad) Sean Xi : Ω → X ⊂ R con
i = 1, 2, . . . v.a.s en (Ω,F , P ), y sea X : Ω → X una v.a. en el mismo
espacio. Decimos que la sucesión {Xi}∞i=1 converge en probabilidad a X si
para toda � > 0 se cumple que
ĺım
n→∞
P (| Xn −X |> �) = 0. (3.1)
Notación 57. Consideremos las v.a.s Xi : Ω → X para i = 1, . . . , n en el
espacio (Ω,F , P ). Entonces podemos denotar por
p(X1, . . . , Xn), (3.2)
p(Xi), (3.3)
a las funciones
ω →p(X1(ω), . . . , Xn(ω)), (3.4)
ω →p(Xi(ω)). (3.5)
Teorema 58. (Propiedad de equipartición asintótica [AEP]) Sea {Xi}∞i=1
una sucesión de v.a.s independientes con valoresen el alfabeto X definidas
en (Ω,F , P ) y tales que E(X1) = E(Xi) <∞ para i = 1, 2, . . . . Entonces
− 1
n
logP (X1, . . . , Xn)→ H(X1) (3.6)
cuando n→∞.
35
36CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
Demostración. Por independencia tenemos que para cada n
P (X1, . . . , Xn) = P (X1) . . . P (Xn). (3.7)
Entonces
− 1
n
logP (X1, . . . , Xn) = −
1
n
log
n∏
i=1
P (Xi) (3.8)
= − 1
n
n∑
i=1
logP (Xi)→ −E(logP (X1)) (3.9)
cuando n → ∞ en probabilidad, en virtud de la Ley débil de los grandes
números. Haciendo g(x) = − log p(x) en la definición 9 y usando la notación
57, tenemos que −E(logP (X1)) = H(X1).
Definición 59. (Cojunto t́ıpico) Sea {Xi}ni=1 una sucesión de v.a.s inde-
pendientes e idénticamente distribuidas (i.i.d) en (Ω,F , P ) con valores en
el alfabeto X . Sea H(X) su entroṕıa. El conjunto �-t́ıpico de la sucesión
X1, . . . , Xn con � > 0 es
A(n)� := {(x1, . . . , xn) ∈ X n | 2−n(H(X)+�) ≤ p(x1, . . . , xn) ≤ 2−n(H(X)−�)}.
(3.10)
Teorema 60. (Propiedades del conjunto t́ıpico) En el contexto de la defini-
ción 59, tenemos que
1. si (x1, . . . , xn) ∈ A(n)� , entonces
H(X)− � ≤ − 1
n
logP (X1, . . . , Xn) ≤ H(X) + �. (3.11)
2. P ((X1, . . . , Xn) ∈ A(n)� ) > 1− � para n suficientemente grande.
3. | A(n)� |≤ 2n(H(X)+�) para n suficientemente grande.
4. | A(n)� |≥ (1− �)2n(H(X)−�) para n suficientemente grande.
Demostración. 1. Sea (x1, . . . , xn) ∈ A(n)� . Entonces
2−n(H(X)+�) ≤ p(x1, . . . , xn) ≤ 2−n(H(X)−�), (3.12)
37
lo que implica que
−n(H(X) + �) ≤ log p(x1, . . . , xn) ≤ −n(H(X)− �), (3.13)
por lo cual
H(X)− � ≤ − 1
n
log p(x1, . . . , xn) ≤ H(X) + �. (3.14)
2. Por el Teorema 58 tenemos que dada � > 0,
1 = ĺım
n→∞
P
(
| − 1
n
logP (X1, . . . , Xn)−H(X) |≤ �
)
(3.15)
= ĺım
n→∞
P
(
− � ≤ − 1
n
logP (X1, . . . , Xn)−H(X) ≤ �
)
(3.16)
= ĺım
n→∞
P
(
2−n(H(X)+�) ≤ P (X1, . . . , Xn) ≤ 2−n(H(X)−�)
)
(3.17)
= ĺım
n→∞
P
(
(X1, . . . , Xn) ∈ A(n)�
)
. (3.18)
Por lo tanto, para n suficientemente grande,
P
(
(X1, . . . , Xn) ∈ A(n)�
)
> 1− �. (3.19)
3. Por la definición de A
(n)
� tenemos que
1 =
∑
xn∈Xn
p(x1, . . . , xn) (3.20)
≥
∑
xn∈A(n)�
p(x1, . . . , xn) (3.21)
≥
∑
xn∈A(n)�
2−n(H(X)+�) (3.22)
= 2−n(H(X)+�) | A(n)� | . (3.23)
38CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
4. Por el segundo inciso, tenemos que para n grande
1− � < P
(
(X1, . . . , Xn) ∈ A(n)�
)
(3.24)
=
∑
xn∈A(n)�
p(x1, . . . , xn) (3.25)
≤
∑
xn∈A(n)�
2−n(H(X)−�) (3.26)
= 2−n(H(X)−�) | A(n)� | . (3.27)
Definición 61. (Tipicalidad conjunta) Sea (X, Y ) : Ω → X × Y un vec-
tor aleatorio en el espacio (Ω,F , P ). Al conjunto de sucesiones �-t́ıpicas
{(xn, yn)} en X n × Yn para � > 0 lo definimos como
A(n)� :=
{
(xn, yn) ∈ X n × Yn : | − 1
n
log p(xn)−H(X) |< �
| − 1
n
log p(yn)−H(Y ) |< �
| − 1
n
log p(xn, yn)−H(X, Y ) |< �
}
.
(3.28)
Teorema 62. (AEP conjunta) Sea {(Xi, Yi)}∞i=1 una sucesión de vectores
aleatorios i.i.d en (Ω,F , P ) con valores en X × Y. Denotemos H(X) :=
H(Xi), H(Y ) := H(Yi), H(X, Y ) := H(Xi, Yi) y I(X : Y ) := I(Xi : Yi) para
i = 1, 2, . . . . Sea � > 0. Entonces
1. Si (xn, yn) ∈ A(n)� , entonces
H(X)− � ≤ − 1
n
log p(xn) ≤ H(X) + � (3.29)
H(Y )− � ≤ − 1
n
log p(yn) ≤ H(Y ) + � (3.30)
H(X, Y )− � ≤ − 1
n
log p(xn, yn) ≤ H(X, Y ) + �. (3.31)
2. P ((Xn, Y n) ∈ A(n)� ) ≥ 1− � para n suficientemente grande.
39
3. | A(n)� |≤ 2n(H(X,Y )+�).
4. Sea (X̂n, Ŷ n) otro vector aleatorio, ahora con distribución p(xn)p(yn)
(es decir, X̂n es independiente de Ŷ n). Entonces
(1− �)2−n(I(X:Y )+3�) ≤ P ((X̂n, Ŷ n) ∈ A(n)� ) ≤ 2−n(I(X:Y )−3�). (3.32)
Demostración. 1. Sea (xn, yn) ∈ A(n)� . Entonces
| − 1
n
log p(xn)−H(X) | < �, (3.33)
| − 1
n
log p(yn)−H(Y ) | < �, y (3.34)
| − 1
n
log p(xn, yn)−H(X, Y ) | < �, (3.35)
es decir,
H(X)− � < − 1
n
log p(xn) < H(X) + � (3.36)
H(Y )− � < − 1
n
log p(yn) < H(Y ) + � (3.37)
H(X, Y )− � < − 1
n
log p(xn, yn) < H(X, Y ) + �. (3.38)
2. Basta probar que P ((Xn, Y n) ∈ A(n)� )→ 1 si n→∞. Por la Ley débil
de los grandes números,
− 1
n
log p(Xn)→ −E(log p(X)) = H(X) (3.39)
cuando n→∞ en probabilidad. Entonces dada δ > 0 existe n1 tal que
para toda n ≥ n1,
P
(
| − 1
n
log p(Xn)−H(X) |≥ �
)
<
δ
3
. (3.40)
De manera similar, por la Ley débil de los grandes números,
− 1
n
log p(Y n)→ −E(log p(Y )) = H(Y ), (3.41)
40CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
y
− 1
n
log p(Xn, Y n)→ −E(log p(X, Y )) = H(X, Y ) (3.42)
en probabilidad. Por lo tanto, existen n2 y n3 tales que para toda
n ≥ n2,
P
(
| − 1
n
log p(Y n)−H(Y ) |≥ �
)
<
δ
3
, (3.43)
y para toda n ≥ n3,
P
(
| − 1
n
log p(Xn, Y n)−H(X, Y ) |≥ �
)
<
δ
3
. (3.44)
Sea n > máx{n1, n2, n3}, y sean
B(n)� =
{
ω ∈ Ω :| − 1
n
log p(Xn(ω))−H(X) |≥ �
}
, (3.45)
C(n)� =
{
ω ∈ Ω :| − 1
n
log p(Y n(ω))−H(X) |≥ �
}
, y (3.46)
D(n)� =
{
ω ∈ Ω :| − 1
n
log p(Xn(ω), Y n(ω))−H(X) |≥ �
}
. (3.47)
Observemos que (Xn, Y n)−1(Ω \ A(n)� ) ⊆ B(n)� ∪ C(n)� ∪D(n)� . Entonces
P ((Xn, Y n) ∈ Ω \ A(n)� ) ≤ P (B(n)� ) + P (C(n)� ) + P (D(n)� ) (3.48)
< δ. (3.49)
Por lo tanto P ((Xn, Y n) ∈ A(n)� ) ≥ 1 − δ para n grande. El resultado
se sigue haciendo δ = �.
41
3. Observemos que para n y � > 0 fijos,
1 =
∑
xn∈Xn
∑
yn∈Yn
p(xn, yn) (3.50)
≥
∑
(xn,yn)∈A(n)�
p(xn, yn) (3.51)
≥
∑
(xn,yn)∈A(n)�
2−n(H(X,Y )+�) (3.52)
=| A(n)� | 2−n(H(X,Y )+�), (3.53)
y por lo tanto
| A(n)� |≤ 2n(H(X,Y )+�). (3.54)
4. Probaremos primero la desigualdad de la derecha. Sean X̂n y Ŷ n inde-
pendientes, pero con las mismas distribuciones que Xn y Y n respecti-
vamente. Entonces
P ((X̂n, Ŷ n) ∈ A(n)� ) =
∑
(xn,yn)∈A(n)�
p(xn)p(yn) (3.55)
≤
∑
(xn,yn)∈A(n)�
2−n(H(X)−�)2−n(H(Y )−�) (3.56)
=| A(n)� | 2−n(H(X)−�)2−n(H(Y )−�) (3.57)
≤ 2n(H(X,Y )+�)2−n(H(X)−�)2−n(H(Y )−�) (3.58)
= 2−n(I(X:Y )−3�) (3.59)
por el segundo inciso y por definición de A
(n)
� . Ahora, para probar la
desigualdad de la izquierda, supongamos que n es lo suficientemente
grande para cumplir que
P ((Xn, Y n) ∈ A(n)� ) ≥ 1− �. (3.60)
42CAPÍTULO 3. PROPIEDAD DE EQUIPARTICIÓN ASINTÓTICA Y TIPICALIDAD
Entonces
1− � ≤ P ((Xn, yn) ∈ A(n)� ) (3.61)
=
∑
(xn,yn)∈A(n)�
p(xn, yn) (3.62)
≤
∑
(xn,yn)∈A(n)�
2−n(H(X,Y )−�) (3.63)
=| A(n)� | 2−n(H(X,Y )−�), (3.64)
y por lo tanto
| A(n)� |≥ (1− �)2n(H(X,Y )−�). (3.65)
Entonces para n grande se cumple que
P ((X̂n, Ŷ n) ∈ A(n)� ) =
∑
(xn,yn)∈A(n)�
p(xn)p(yn) (3.66)
≥
∑
(xn,yn)∈A(n)�
2−n(H(X)+�)2−(H(Y )+�) (3.67)
=| A(n)� | 2−n(H(X)+�)2−n(H(Y )+�) (3.68)
≥ (1− �)2n(H(X,Y )−�)2−n(H(X)+�)2−n(H(Y )+�)
(3.69)
= (1− �)2−n(I(X:Y )+3�). (3.70)
Caṕıtulo 4
Capacidad de canales
Definición 63. (Canal de comunicación discreto) Sean X y Y conjuntos
finitos (que llamaremos alfabetos de entrada y salida respectivamente). Sea
Q : X × Y → [0, 1] una función tal que para cada x ∈ X , Q(x, ·) es una
medida de probabilidad en (Y ,P(Y)). A la terna (X , Q,Y) le llamaremos
canal de comunicación discreto. A la función Q se le conoce comunmente
como kernel de probabilidad discreto.
Definición 64. (v.a.s comunicadas) Sea (X , Q,Y) un canal discreto. Sea
(X, Y ) : Ω → X → Y vector aleatorio en (Ω,F , PX,Y ). Ya observamos
(ver Nota 6) que X y Y son v.a.s, con distribuciones respectivas pX(x) =∑
x pX,Y (x, y) y pY (y) =
∑
y pX,Y (x, y). Decimos que las v.a.s X y Y están
conectadas por el canal (X , Q,Y) si y sólo si
Q(x, y) =
pX,Y (x, y)
pX(x)
(4.1)
para todo (x, y) ∈ X ×Y. Aqúı asumimos sin perder generalidad que pX(x) 6=
0 para toda x ∈ X , pues si existen elementos en el alfabeto de entrada con
probabilidad cero de ocurrencia, pueden considerarse como no pertenecientes
a dicho alfabeto. A X y a Y les llamamos variables de entrada y salida
respectivamente.
Definición 65. (Canal sin memoria discreto) Sea (X1, Y1), (X2, Y2), · · · :
Ω → X × Y una sucesión de vectores aleatorios en (Ω,F , P ). Supongamos
que para cada i = 1, 2, . . . las v.a.s Xi y Yi están conectadas por el canal
de comunicacióndiscreto (X , Q,Y). Decimos que (X , Q,Y) es un canal sin
43
44 CAPÍTULO 4. CAPACIDAD DE CANALES
memoria si para cualesquiera n entero y y1, . . . , yn ∈ Y se cumple la igualdad
P (Y1 = y1, . . ., Yn = yn | Xn = xn)
= P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn),
(4.2)
donde Xn = (X1, . . . , Xn) y x
n = (x1, . . . , xn).
Nota 66. A partir de este punto, siempre que hablemos de un canal de
comunicación, nos estaremos refiriendo a un canal sin memoria discreto.
Definición 67. (Capacidad de un canal) Sea (X , Q,Y) un canal de comu-
nicación. Sea (X, Y ) : Ω → X × Y una función medible en (Ω,F), y consi-
deremos la familia de medidas
pX,Y (x, y) = Q(x, y)pX(x) (4.3)
definida por cada distribución de probabilidad pX en X . Aqúı tomamos pY (y) =∑
x∈X Q(x, y)pX(x) para cada pX . Definimos la capacidad C de (X , Q,Y) co-
mo
C := sup
pX
I(X;Y ), (4.4)
es decir, el supremo de I(X;Y ) vista como función de la variable pX . Obser-
vemos que esta función es acotada, pues
I(X;Y ) = H(X)−H(X | Y ) (4.5)
≤ H(X) (4.6)
≤ log(| X |). (4.7)
Teorema 68. (Propiedades de C) Sea (X , Q,Y) un canal con capacidad C,
y sean X y Y variables de entrada y salida respectivamente. Entonces
1. C ≥ 0.
2. C ≤ mı́n {log | X |, log | Y |}.
3. I(X : Y ) = D(pX(x) || py(y)) es una función continua de pX .
4. I(X : Y ) es una función cóncava de pX .
45
Demostración. 1. Por el Teorema 23, tenemos que I(X : Y ) ≥ 0. Esto
implica que
0 ≤ sup
pX
I(X;Y ) (4.8)
= C. (4.9)
2. Por los teoremas 23 y 37, tenemos que
I(X;Y ) = H(X)−H(X | Y ) (4.10)
≤ H(X) (4.11)
≤ log | X | . (4.12)
Análogamente,
I(X;Y ) = H(Y )−H(Y | X) (4.13)
≤ H(Y ) (4.14)
≤ log | Y | . (4.15)
Por lo tanto,
I(X;Y ) ≤ mı́n {log | X |, log | Y |}. (4.16)
Tomando supremo, obtenemos que
C ≤ mı́n {log | X |, log | Y |}. (4.17)
3. Observemos que
I(X;Y ) =
∑
x∈X
∑
y∈Y
pX,Y (x, y) log
pX,Y (x, y)
pX(x)pY (y)
(4.18)
=
∑
x∈X
∑
y∈Y
Q(x, y)pX(x) log
Q(x, y)pX(x)
pX(x)
∑
x∈X Q(x, y)pX(x)
(4.19)
=
∑
x∈X
∑
y∈Y
pX(x)Q(x, y) logQ(x, y) (4.20)
−
∑
x∈X
∑
y∈Y
pX(x)Q(x, y) log
(∑
x∈X
Q(x, y)pX(x)
)
. (4.21)
46 CAPÍTULO 4. CAPACIDAD DE CANALES
Esta es una función continua de pX , donde consideramos que el con-
junto V ⊂ Rn de todas las distribuciones de probabilidad en X con
la topoloǵıa euclidiana es cerrado y acotado, con n =| X |. Es decir,
pX = (p1, . . . , pn) con pi = pX(i) ≥ 0 para i = 1, . . . , n y
∑n
i=1 pi = 1.
En este caso la función es continua en un conjunto compacto V , por lo
cuál podemos escribir C = máxpX I(X;Y ).
4. Por el Teorema 16 y tenemos que
I(X;Y ) = H(Y )−H(Y | X) (4.22)
= H(Y ) +
∑
x,y
pX,Y (x, y) logQ(x, y) (4.23)
= H(Y ) +
∑
x,y
Q(x, y)pX(x) logQ(x, y) (4.24)
= H(Y ) +
∑
x,y
[Q(x, y) logQ(x, y)]pX(x). (4.25)
Por el Teorema 44, H(Y ) es convexa. Como
pY (y) =
∑
x∈X
Q(x, y)pX(x), (4.26)
pY (y) es función lineal de pX . Q es el kernel que define al canal, y por
lo tanto es una función constante respecto de pX . Por lo tanto, H(Y )
es función cóncava de pX . Por otro lado, el sumando∑
x,y
[Q(x, y) logQ(x, y)]pX(x) (4.27)
es lineal con respecto de pX , pues de nuevo el kernel Q es constante
respecto de pX por ser la función que define al canal. Esto prueba que
I(X;Y ) es función cóncava de pX .
Lema 69. Sea (Xn, Y n) : Ω → X n × Yn función medible en (Ω,F). Sea
P medida en (Ω,F) tal que las entradas de Xn, digamos X1, ..., Xn, son
independientes, y que además cumple con la definición 65. Entonces
P ((Xn, Y n)−1(xn, yn)) = Q(x1, y1) . . . Q(xn, yn)pX(x1) . . . pX(xn), (4.28)
47
donde PX ∈M y (Q,M) es un canal de comunicación para X y Y (es decir,
P es función de PX y de Q).
Demostración.
P ((Xn, Y n)−1(xn, yn)) (4.29)
=P (Y1 = y1, . . . , Yn = yn, X1 = x1, . . . , Xn = xn) (4.30)
=P (Y1 = y1. . . . , Yn = yn | X1 = x1, . . . , Xn = xn)P (X1 = x1, . . . , Xn = xn)
(4.31)
=P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn)P (X1 = x1, . . . , Xn = xn)
(4.32)
=P (Y1 = y1 | X1 = x1) . . . P (Yn = yn | Xn = xn)pX(x1) . . . pX(xn) (4.33)
=Q(x1, y1) . . . Q(xn, yn)pX(X1) . . . pX(xn), (4.34)
donde usamos la Definición 65 en la tercera igualdad.
La prueba del Teorema General de Shannon para canales discretos sin
memoria requiere de conceptos y resultados de la Teoŕıa Ergódica que no son
tratados en este trabajo. Sin embargo, podemos probar este teorema para
una subclase de este tipo de canales:
Definición 70. (Canal Binario Simétrico de parámetro p) Sea p ∈ [0, 1].
El Caanal Binario Simétrico de parámetro p, que denotaremos BSCp, es un
canal de comunicación (X , Q,Y) tal que X = {0, 1} = Y, y
Q(1, 1) = p = Q(0, 0), (4.35)
Q(0, 1) = 1− p = Q(1, 0). (4.36)
Lema 71. (Capacidad del BSCp) La capacidad del canal BSCp es C = 1−
H(p), donde denotaremos en adelante H(p) := −p log(p)− (1−p) log(1−p).
Demostración. Sean X y Y v.a.s comunicadas por el canal BSCp. Observe-
mos que
48 CAPÍTULO 4. CAPACIDAD DE CANALES
H(Y | X) = −
∑
x,y
pX,Y (x, y) logQ(x, y) (4.37)
= −
∑
x,y
pX(x)Q(x, y) logQ(x, y) (4.38)
=
∑
x
pX(x)
[
−
∑
y
Q(x, y) logQ(x, y)
]
(4.39)
=
∑
x
pX(x)H(p) (4.40)
= H(p). (4.41)
Entonces,
I(X;Y ) = H(Y )−H(Y | X) (4.42)
= H(Y )−H(p). (4.43)
Además, si pX(x) =
1
2
para x = 0, 1, entonces
pY (y) =
∑
x
Q(x, y)pX(x) (4.44)
=
1
2
∑
x
Q(x, y) (4.45)
=
1
2
[Q(0, y) +Q(1, y)] (4.46)
=
1
2
(4.47)
para y = 0, 1. Entonces para el BSCp, si pX(x) es uniforme en {0, 1} enton-
ces pY (y) lo es. Por el Teorema 37, si pX(x) es uniforme entonces H(Y ) =
log(2) = 1. Por lo tanto, I(X;Y ) = 1 − H(p) si pX(x) es uniforme. Con-
clúımos que
máx
pX
I(X;Y ) = 1−H(p), (4.48)
pues H(p) es constante y H(Y ) está acotada por 1 y vaŕıa con pX .
49
Lema 72. (Desigualdad de Chernoff) Sea Y : Ω→ R una v.a. en (Ω,F , P )
y s ≥ 0 una constante. Entonces para todo número real a,
P (Y ≥ a) ≤ 2−saEY [2sY ], (4.49)
y
P (Y ≤ a) ≤ 2saEY [2−sY ]. (4.50)
Demostración. Probaremos primero la primera desigualdad. Sea u : R → R
definida por
u(y) :=
{
1 si y ≥ 0
0 si y ≤ 0.
(4.51)
Es claro que para s ≥ 0, u(y − a) ≤ 2s(y−a). Entonces
EY [u(Y − a)] ≤ EY [2s(Y−a)] (4.52)
= 2−saEY [2sY ]. (4.53)
Como
EY [u(Y − a)] = P (Y ≥ a) · 1 + P (Y < a) · 0 (4.54)
= P (Y ≥ a), (4.55)
tenemos que
P (Y ≥ a) ≤ 2−saEY [2sY ]. (4.56)
La segunda desigualdad se obtiene de aplicar la primera a −Y y a −a.
Definición 73. (Distancia de Hamming) Llamaremos distancia de Hamming
a la función ∆ : {0, 1}n → Z definida por
∆(x, y) :=| {i : xi 6= yi} |, (4.57)
donde x = (x1, . . . , xn), y = (y1, . . . , yn). Llamaremos Bola abierta de Ham-
ming con centro x y radio r > 0 al conjunto
B∆(x, r) := {y ∈ {0, 1}n : ∆(x, y) < r}, (4.58)
y Bola cerrada de Hamming con centro x y radio r > 0 aal conjunto
50 CAPÍTULO 4. CAPACIDAD DE CANALES
B∆(x, r) := {y ∈ {0, 1}n : ∆(x, y) ≤ r}. (4.59)
Observemos la dependencia en n de estos conceptos. Definimos el Volumen
de B∆(x, r) como
V ol(x, r) :=| B∆(x, r) |=
dre∑
j=0
(
n
i
)
. (4.60)
Lema 74. (Desigualdad de Hamming) Sea ∆ la distancia de Hamming en
{0, 1}n, y sea 0 ≤ p ≤ 1
2
. Entonces
V ol(x, np) ≤ 2nH(p). (4.61)
Demostración. Primero probaremos la siguiente afirmación:
(1− p)n
( p
1− p
)dnpe
≥ 2−nH(p). (4.62)
Para probar esto, observemos que
2−nH(p) = 2n[log(p)+log(1−p)] (4.63)
= 2log(p
n)2log((1−p)
n) (4.64)
= pn(1− p)n. (4.65)
Además, al ser dnpe ≤ n y p ≤ 1
2
, tenemos que pn ≤ pdpne y (1−p)dnpe ≤ 1.
Entonces
(1− p)n
( p
1− p
)dnpe
− 2−nH(p) = (1− p)n
( p
1− p
)dnpe
− pn(1− p)n (4.66)
=
(1− p)n
(1− p)dnpe
(pdnpe − pn(1− p)dnpe) (4.67)
≥ (1− p)n(pdnpe − pn(1− p)dnpe) (4.68)
= (1− p)n(pdnpe − pn + pn+dnpe) ≥ 0. (4.69)
Esto prueba la afirmación. Entonces podemos calcular:
51
1 = (p+ (1− p))n (4.70)
=
n∑
i=0
(
n
i
)
pi(1− p)n−i (4.71)
=
dnpe∑
i=0
(
n
i
)
pi(1− p)n−i +
n∑
i=dnpe+1
(
n
i
)
pi(1− p)n−i (4.72)
≥
dnpe∑
i=0
(
n
i
)
pi(1− p)n−i (4.73)
=
dnpe∑
i=0
(
n
i
)
(1− p)n
( p
1− p
)i
(4.74)
≥
dnpe∑
i=0
(
n
i
)
(1− p)n
( p
1− p
)dnpe
(4.75)
= (1− p)n
( p1− p
)dnpe
V ol(x, np) (4.76)
≥ 2−nH(p)V ol(x, np), (4.77)
donde la última desigualdad es cierta por la afirmación. En la segunda de-
sigualdad usamos que p
(1−p) ≤ 1. De aqúı se concluye directamente el resul-
tado.
Lema 75. Sean X1, . . . , Xn v.a.s independientes a valores en el alfabeto finito
X y con distribuciones pX1(x1), . . . , pXn(xn). Sean fi : X → R funciones para
i = 1, . . . , n. Entonces
EX
[
n∏
i=1
fi(xi)
]
=
n∏
i=1
EXi [fi(xi)], (4.78)
donde X = (X1, . . . , Xn).
Demostración. Por la independencia de X1, . . . , Xn, la distribución del vector
X es
∏n
i=1 pXi(xi). Entonces
52 CAPÍTULO 4. CAPACIDAD DE CANALES
EX
[
n∏
i=1
fi(Xi)
]
=
∑
x1,...,xn
[
n∏
i=1
fi(xi)
]
n∏
i=1
pXi(xi) (4.79)
=
n∏
i=1
[∑
xi
fi(xi)pXi(xi)
]
(4.80)
=
n∏
i=1
EXi [fi(xi)]. (4.81)
Nota 76. Si f es función real definida en la imagen de una v.a X con
distribución pX(x) y g es función real definida en la imagen de f , entonces
tenemos que
Ef(X)[g(f(X))] =
∑
i
g(i)Pf(X)(f(X) = i) (4.82)
=
∑
x
g(f(x))PX(X = x) (4.83)
= E[g(f(X))]. (4.84)
Lema 77. Si X1, . . . , Xn son v.a.s independientes con valor esperado finito
y X̂ =
∑n
i=1 Xi, entonces
EX̂ [2
sX̂ ] =
n∏
i=1
EXi [2sXi ], (4.85)
para s ∈ R.
Demostración. Aplicando el Lema 75, tenemos que
EX̂ [2
sX̂ ] = EX̂
[
n∏
i=1
2sXi
]
(4.86)
=
n∏
i=1
EXi [2sXi ]. (4.87)
Observemos que podemos cambiar EX , donde X = (X1, . . . , Xn), por EX̂ ,
pues X̂ es función de X.
53
Lema 78. Sea Y : Ω → {0, 1} v.a. tal que PY (Y = 1) = p, y PY (Y = 0) =
1− p, para p ∈ [0, 1], y sea s ∈ R. Entonces
EY [2sY ] ≤ 2p(2
s−1). (4.88)
Demostración.
EY [2sY ] = p2s + (1− p) · 1 (4.89)
= 1 + p(2s − 1) (4.90)
≤ 2p(2s−1), (4.91)
usando que 1 + x ≤ 2x, con x = p(2s − 1).
Lema 79. (Desigualdad aditiva de Chernoff) Sea X̂ =
∑n
i=1Xi con X1, . . . , Xn
v.a.s independientes que se distribuyen como Y en el Lema 78 con parámetros
p1, . . . , pn. Sea µ = EX̂ [X̂] =
∑n
i=1 pi. Entonces
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−( δ
2
2+δ
)µ, (4.92)
para toda δ > 0.
Demostración. Tenemos que
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−s(1+δ)µEX̂ [2
sX̂ ] (4.93)
= 2−s(1+δ)µ
n∏
i=1
EXi [2sXi ] (4.94)
≤ 2−s(1+δ)µ
n∏
i=1
2pi(2
s−1) (4.95)
= 2−s(1+δ)µ2(2
s−1)µ (4.96)
=
(
2δ
(1 + δ)1+δ
)µ
, (4.97)
tomando s = log(1 + δ), donde la primera desigualdad se da aplicando la
Desigualdad dde Chernoff (Lema 72), la primera igualdad por el Lema 77 y
la segunda desigualdad por el Lema 78. Observemos que
54 CAPÍTULO 4. CAPACIDAD DE CANALES
log
(
2δ
(1 + δ)1+δ
)µ
= µ log
(
2δ
(1 + δ)1+δ
)
(4.98)
= µ[δ − (1 + δ) log(1 + δ)] (4.99)
≤ µ
[
δ − (1 + δ)
(
δ
1 + δ
2
)]
(4.100)
= µ
(
−δ2
2 + δ
)
, (4.101)
usando que log(1 + x) ≥ x
1+x
2
. Por lo tanto,(
2δ
(1 + δ)1+δ
)µ
≤ 2−(
δ2
2+δ
)µ. (4.102)
Concluimos que
PX̂(X̂ ≥ (1 + δ)µ) ≤ 2
−( δ
2
2+δ
)µ. (4.103)
Lema 80. Sean α1, . . . , αn reales no negativos y sean p1, . . . , pn reales no
negativos tales que
∑n
i=1 pi = 1. Entonces
1. mı́ni αi ≤
∑n
i=1 piαi.
2. mı́ni αi ≤ 1n
∑n
i=1 αi.
Demostración. 1. Sea αj = mı́ni αi. Entonces
n∑
i=1
piαi − αj =
n∑
i=1
piαi −
(
n∑
i=1
pi
)
αj (4.104)
=
n∑
i=1
piαi −
n∑
i=1
piαj (4.105)
=
n∑
i=1
pi(αi − αj) (4.106)
≥ 0. (4.107)
55
2. Sea sigue del inciso anterior, con pi =
1
n
para i = 1, . . . , n.
Definición 81. (Variable de error) Consideremos el canal BSCp. Sean X1, . . . , Xn :
Ω → {0, 1} v.a.s independientes e idénticamente distribuidas en (Ω,F , PX),
donde
PX(X = x) :=
{
p si x = 0
1− p si x = 1.
(4.108)
Definimos la variable de error de BSCp como la v.a e : Ω → {0, 1}n con
distribución
Pe(e = x
n) =
n∏
i=1
PX(Xi = xi), (4.109)
donde xn = (x1, . . . , xn). Obsérvese que e depende de n.
Teorema 82. (Teorema de Capacidad de Shannon para BSCp) Para cua-
lesquiera p, ε tales que 0 ≤ p < 1
2
y 0 ≤ ε ≤ 1
2
− p y n suficientemente grande
existen δ = δ(p, ε) > 0 y
1. una función de codificación E : {0, 1}k → {0, 1}n,
2. una función de decodificación D : {0, 1}n → {0, 1}k,
donde k ≤ b(1−H(p+ ε))nc, tales que para cada m ∈ {0, 1}k se cumple
que
Pe(D(E(m) + e) 6= m) ≤ 2−δn. (4.110)
e es la v.a. de error de BSCp. La cantidad de arriba es comunmente conocida
como la Probabilidad de Error en la decodificación.
Demostración. Fijemos n, k y p. Los procedimientos que seguiremos para
encontrar a E y a D son los siguientes:
1. Para E: Sea En,k := {E : {0, 1}k → {0, 1}n}. Sea W : Ω → En,k una
v.a. en (Ω,F , PW ), donde
PW (W = E) :=
1
| En,k |
. (4.111)
56 CAPÍTULO 4. CAPACIDAD DE CANALES
Observemos que | En,k |= (2n)2
k
= 2n2
k
. Podemos asumir sin perder
generalidad que W y e son independientes. Posteriormente usaremos a
la v.a. W y al operador EW para probar la existencia de una función
E que cumple la condición del enunciado. A este procedimiento se le
conoce como ”Método Probabiĺıstico”.
2. Para D: Para cada E ∈ En,k sea DE : {0, 1}n → {0, 1}k dada por
DE(y) := arg mı́n
m
∆(y, E(m)), (4.112)
donde ∆ es la distancia de Hamming en {0, 1}n. Identificamos a las
m ∈ {0, 1}k que minimizan para una misma y (i.e los empates) en la
misma clase de equivalencia. De esta forma, al probar la existencia de E
tenemos de forma inmediata a D = DE. Observemos que esta función
defina a la v.a. DW (y) para cada y.
Ahora fijemosm ∈ {0, 1}k, y seaBW (m)0 := B∆(W (m), (p+ε)n), y para ca-
da E sea B
E(m)
0 := B∆(E(m), (p+ε)n). Analizaremos la v.a. Pe(DW (W (m)+
e) 6= m), que es función de W :
EW [Pe(DW (W (m) + e) 6= m)] (4.113)
=
∑
E
Pe(DE(E(m) + e) 6= m)PW (W = E) (4.114)
=
1
| En,k |
∑
E
Pe(DE(E(m) + e) 6= m) (4.115)
=
1
| En,k |
∑
E
∑
y∈{0,1}k
Pe(E(m) + e = y)I{y:DE(y)6=m}(y). (4.116)
Para cada E tenemos que
57
∑
y∈{0,1}k
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.117)
=
∑
y/∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.118)
+
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y) (4.119)
≤ 2−ε2n +
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y), (4.120)
donde la desigualdad se sigue de que I{y:DE(y)6=m}(y) ≤ 1 y de la desigual-
dad de Chernoff aditiva (Lema 79), pues
∑
y/∈BE(m)0
Pe(E(m) + e = y) = Pe(∆(E(m) + e, E(m)) > (p+ ε)n) (4.121)
= Pe(∆(e, 0) > (p+ ε)n) (4.122)
= Pe(∆(e, 0) > np(1 +
ε
p
)), (4.123)
observando que ∆(e, 0) =
∑n
i=1 Xi en Ω, donde X1, . . . , Xn son las v.a.s
de la Definición 81, y que EX̂ [
∑n
i=1Xi] = np, podemos aplicar la Cota Aditiva
de Chernoff con δ = ε
p
, y obtenemos que
Pe(∆(e, 0) > np(1 +
ε
p
)) ≤ 2
−(
ε2
p2
2+ εp
)np
(4.124)
≤ 2−ε2n, (4.125)
pues como ε ≤ 1
2
− p, tenemos que 2p ≤ 1− 2ε, y por lo tanto
58 CAPÍTULO 4. CAPACIDAD DE CANALES
ε2
p2
2 + ε
p
np =
ε2
(2p+ ε)p
np (4.126)
=
ε2n
2p+ ε
(4.127)
≥ ε
2n
1− 2ε+ ε
(4.128)
≥ ε
2n
1− 2ε+ 2ε
(4.129)
= ε2n. (4.130)
Por lo tanto,
EW [Pe(DW (W (m) + e) 6= m)] (4.131)
≤
∑
E
2−ε
2n
| En,k |
+
∑
E
∑
y∈BE(m)0
Pe(E(m) + e = y)I{y:DE(y)6=m}(y)
1
| En,k |
(4.132)
= 2−ε
2n +
∑
y∈BW (m)0
∑
E
Pe(E(m) + e = y)PW (W = E)I{y:DE(y)6=m}(y)
(4.133)
= 2−ε
2n + EW
[ ∑
y∈BW (m)0
Pe(W (m) + e = y)I{y:DW (y)6=m}(y)
]
(4.134)
≤ 2−ε2n + EW
[ ∑
y∈BW (m)0
I{y:DW (y) 6=m}(y)
]
. (4.135)
Observemos que
∑
y∈BW (m)0
I{y:DW (y)6=m}(y) =
∑
y∈{0,1}n
I{y:DW (y)6=m}∩{y:y∈BW (m)0 }. (4.136)
Entonces
59
EW
[ ∑
y∈{0,1}n
I{y:DW (y)6=m}∩{y:y∈BW (m)0 }(y)
]
(4.137)
=
∑
y∈{0,1}n
EW [I{y:DW (y)6=m}∩{y:y∈BW (m)0 } (4.138)
=
∑
y∈{0,1}n
PW (DW (y) 6= m, y ∈ BW (m)0 ) (4.139)
=
∑
y∈{0,1}n
PW
( ⋃
m′ 6=m
{DW (y) = m′} ∩ {y ∈ BW (m)0 }
)
(4.140)
≤
∑
y∈{0,1}n
∑
m′ 6=m
PW (DW (y) = m
′, y ∈ BW (m)0 ) (4.141)
=
∑
y∈{0,1}n
∑
m′ 6=m
PW (W (m
′) ∈ B∆(y, (p+ ε)n)) (4.142)
=
∑
y∈{0,1}n
∑
m′ 6=m
V ol(y, (p+ ε)n)
| En,k |
(4.143)
= 2n
∑
m′ 6=m
V ol(y, (p+ ε)n)
| En,k |
(4.144)
≤ 2n+kV ol(y, (p+ ε)n)
| En,k |
(4.145)
≤ 2n+k 2
H(p+ε)n
| En,k |
(4.146)
=
2n+k2H(p+ε)n
2n2k
(4.147)
= 2n+k+H(p+ε)n−n2
k
(4.148)
≤ 2n+k+H(p+ε)n−n2 (4.149)
= 2k−n+H(p+ε)n (4.150)
= 2k−[1−H(p+ε)]n, (4.151)
donde usamos el Lema 74 en la tercera desigualdad, y el hecho de que
PW es distribución uniforme en la sexta igualdad. Por lotanto,
60 CAPÍTULO 4. CAPACIDAD DE CANALES
EW [Pe(DW (W (m) + e) 6= m)] ≤ 2−ε
2n + 2k−[1−H(p+ε)]n. (4.152)
Por lo tanto existe una pareja (E,DE) tal que
Pe(DE(E(m) + e) 6= m) ≤ 2−ε
2n + 2k−2[1−H(p+ε)]n, (4.153)
pues podemos tomar (E,DE) que satisface
Pe(DE(E(m) + e) 6= m) = mı́n
m
Pe(DE(E(m) + e) 6= m), (4.154)
pues de esta forma el Lema 80 garantiza que
Pe(DE(E(m) + e) 6= m) ≤ EW [Pe(DW (W (m) + e) 6= m)]. (4.155)
Esto prueba el Teorema para m ∈ {0, 1}k fijo. Es decir, para cada m ∈
{0, 1}k existe una pareja (Em, DEm) tal que
Pe(DEm(E
m(m) + e) 6= m) ≤ 2−ε2n + 2k−[1−H(p+ε)]n. (4.156)
Ahora contruimos una pareja (E,DE) que sirva para toda m: Sea A el
conjunto de aquella mitad de las m ∈ {0, 1}k tales que Pe(DEm(Em(m)+e) 6=
m) es más grande. Observemos que | A |= 2k−1. Definimos E : {0, 1}k →
{0, 1}n por E(m) := Em(m), y DE : Im(E) → {0, 1}k por DE(E(m)) :=
DEm(E
m(m)), donde Im(E) ⊂ {0, 1}n es la imagen de E. Entonces para
cada m̄ ∈ {0, 1}k \ A,
Pe(DE(E(m̄) + e) 6= m̄) ≤
1
2k−1
∑
m∈A
Pe(DEm(E
m(m) + e) 6= m) (4.157)
≤ 1
2k−1
∑
m∈A
(2−ε
2n + 2k−[1−H(p+ε)]n) (4.158)
= 2−ε
2n + 2k−[1−H(p+ε)]n, (4.159)
por el Lema 80. Obsérvese que la cantidad 1−H(p + ε) es la capacidad
del canal BSCp+ε, que aproxima a BSCp si hacemos ε→ 0.
61
Nota 83. El papel que juega la distancia de Hamming en la prueba del Teo-
rema anterior es el mismo que juega el concepto de Tipicalidad en la prueba
de la versión general del Teorema de Shannon para canales discretos. Véase
[1].
62 CAPÍTULO 4. CAPACIDAD DE CANALES
Parte II
Teoŕıa de la Información
Cuántica
63
Caṕıtulo 5
Conceptos Fundamentales de la
Teoŕıa Cuántica
Notación 84. (de Dirac) En general trabajaremos con espacios de Hilbert
(complejos y finitos) con producto interior 〈 , 〉. A los elementos de este
espacio los denotaremos con el śımbolo ket, | x〉 ∈ H. El śımbolo bra 〈x |
denota al vector transpuesto conjugado de | x〉, y al producto interior en H
de | x〉 y | y〉 lo denotaremos con el bracket 〈x | y〉. Usaremos el śımbolo
| x〉〈y | para denotar tanto a la matriz que resulta de multiplicar a estos
vectores, como a su operador asosciado.
Notación 85. Sean HA y HB espacios de Hilbert. Al conjunto de operadores
lineales en HA lo denotamos por L(HA), y al conjunto de transformaciones
lineales de HA en HB lo denotamos por L(HA,HB).
Definición 86. (Base completa) Sea H un espacio de Hilbert. Decimos que
una base {| x〉}x∈X de H es completa si satisface la condición∑
x∈X
| x〉〈x |= I, (5.1)
donde I es el operador identidad en H. En el caso de los espacios de Hilbert
de dimensión finita, todas las bases ortonormales son completas.
Definición 87. (Sistema Cuántico) Un sistema cuántico A es una pareja
ordenada (HA, {| x〉}x∈X ), donde HA es un espacio de Hilbert finito de di-
mensión dA =| X |, y {| x〉}x∈X es una base ortonormal de HA. A HA se le
65
66CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
llama espacio de estados. En adelante, sólo consideraremos espacios de esta-
dos isomorfos a Cd, con d un número entero positivo, pero se puede trabajar
con espacios de Hilbert más generales.
Definición 88. (Estado puro) Sea A un sistema cuántico. Un estado puro
es un vector | φ〉 ∈ HA tal que ‖ | φ〉‖2 := 〈φ | φ〉 = 1, es decir, es un vector
de norma unitaria.
Definición 89. (Ensamble de estados) Sea pX(x) una distribiución de pro-
babilidad en el alfabeto finito X . Sea {| φx〉}x∈X un conjunto de estados en
H. A la lista
ε := {pX(x), | φx〉}x∈X (5.2)
le llamamos ensamble de estados, y en este caso decimos que el estado del
sistema es | φx〉 con probabilidad pX(x). En adelante, asumiremos que el
conjunto de estados es una base ortonormal de H.
Definición 90. (Traza) Sea A un operador en un espacio de Hilbert H. La
traza de A es la cantidad
Tr{A} :=
∑
i
〈i | A | i〉, (5.3)
donde {| i〉}i es una base ortonormal de H.
Nota 91. Es elemental ver que la traza es una función lineal en L(H).
Observemos que la traza de un operador A no depende de la base, siempre
que ésta sea ortonormal. Sea {| φj〉}j otra base ortonormal de H. Entonces
67
Tr{A} =
∑
i
〈i | A | i〉 (5.4)
=
∑
i
〈i | A
(∑
j
| φj〉〈φj |
)
| i〉 (5.5)
=
∑
i,j
〈i | A | φj〉〈φj | i〉 (5.6)
=
∑
i,j
〈φj | i〉〈i | A | φj〉 (5.7)
=
∑
j
〈φj |
(∑
i
| i〉〈i |
)
A | φj〉 (5.8)
=
∑
j
〈φj | A | φj〉. (5.9)
Nota 92. Si A, B y C son operadores en un espacio de Hilbert finito H,
entonces Tr{ABC} = Tr{CAB} = Tr{BCA}. Para probar esta afirmación,
consideremos dos bases ortonormales completas de H, digamos {| i〉} y {|
φj〉}. Entonces
Tr{ABC} =
∑
i
〈i | ABC | i〉 (5.10)
=
∑
i,j
〈i | AB | φj〉〈φj | C | i〉 (5.11)
=
∑
i,j
〈φj | C | i〉〈i | AB | φj〉 (5.12)
=
∑
j
〈φj | CAB | φj〉 (5.13)
= Tr{CAB}. (5.14)
La otra igualdad es análoga. A esta propiedad se le conoce como ciclicidad
de la Traza.
Definición 93. (Operador de densidad, o estado mezclado) Sea ε = {pX(x), |
φx〉}x∈X un ensamble finito de estados de H. El operador de densidad asos-
68CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
ciado a ε es
ρ :=
∑
x∈X
pX(x) | φx〉〈φx | . (5.15)
El operador de densidad es una generalización cuántica de la distribución de
probabilidad pX(x) en el alfabeto finito X , como ilustramos en el siguiente
teorema. Obsérvese que ρ = EX(| φX〉〈φX |).
Teorema 94. (Propiedades de ρ) Sea ρ el operador de densidad asosciado
al ensamble ε = {pX(x), | φx〉}x∈X . Entonces
1. ρ tiene traza unitaria, es decir, Tr{ρ} = 1.
2. ρ es hermitiano, es decir ρ = ρ∗, donde ρ∗ es el operador addjunto de
ρ.
3. ρ es positivo definido, es decir, 〈ψ | ρ | ψ〉 ≥ 0 para todo | ψ〉 ∈ H.
Abreviadamente, ρ ≥ 0.
Demostración. 1.
Tr{ρ} = Tr
(∑
x∈X
pX(x) | φx〉〈φx |
)
(5.16)
=
∑
x∈X
pX(x)Tr(| φx〉〈φx |) (5.17)
=
∑
x∈X
pX〈φx | φx〉 (5.18)
=
∑
x∈X
pX(x) = 1. (5.19)
2.
ρ∗ =
(∑
x∈X
pX(x) | φx〉〈φx |
)∗
(5.20)
=
∑
x∈X
pX(x)(| φx〉〈φx |)∗ (5.21)
=
∑
x∈X
pX(x) | φx〉〈φx |= ρ. (5.22)
69
3.
〈ψ | ρ | ψ〉 = 〈ψ |
(∑
x∈X
pX(x) | φx〉〈φx |
)
| ψ〉 (5.23)
=
∑
x∈X
pX(x)〈ψ | φx〉〈φx | ψ〉 (5.24)
=
∑
x∈X
pX(x) | 〈ψ | φx〉 |2≥ 0. (5.25)
Nota 95. Dado un operador ρ en H que cumple las tres propiedades del Teo-
rema 94, podemos usar la descomposición espectral de ρ (que existe porrque
ρ es hermitiano) para recuperar un ensamble ε para el cual ρ es operador de
densidad:
ρ =
∑
x∈X
λx | φx〉〈φx | . (5.26)
Es fácil ver que los eigenvalores λx son probabilidades usándo el Teorema 94:
1 = Tr{ρ} (5.27)
=
∑
x∈X
λxTr({| φx〉〈φx |) (5.28)
=
∑
x∈X
λx. (5.29)
Además,
0 ≤ 〈φx | ρ | φx〉 = λx. (5.30)
El ensamble asosciado seŕıa {λx, | φx〉}x∈X .
Definición 96. (Medición Cuántica) Sea H un espacio de estados de un
sistema cuántico. Una medición cuántica es un conjunto de operadores {Mj}j
en H tales que ∑
j
M∗jMj = IH. (5.31)
Definimos una v.a. J que toma valores en el conjunto de ı́ndices de la medi-
ción; el valor que tome ésta se interpreta como el resultado de la medición.
Definios la probabilidad del evento {J = j} como
pJ(j) := 〈φ |M∗jMj | φ〉 (5.32)
70CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
si el sistema se encuentra en un estado puro | φ〉. Al estado Mj |φ〉√
pJ (j)
se le
llama estado post-medición. Si el estado del sistema es un estado mezclado
ρ, definimos
pJ(j) := Tr{M∗jMjρ}, (5.33)
y el estado
MjρM
∗
j√
pJ (j)
es el estado post-medición.
Definición 97. (Medida a valores en operadores positvos, o POVM) Una
POVM en un espacio de Hilbert H es una colección de operadores {Λj}j en
H tales que
1. Λj ≥ 0 para toda j,
2.
∑
j Λj = IH .
Si el sistema está en un estado puro | ψ〉, la probabilidad de obtener el resul-
tado j al realizar la medición (la POVM) es
pJ(j) = 〈ψ | Λj | ψ〉. (5.34)
Si el sistema está en un estado mezclado ρ, la probabilidad de obtener el
resultado j es
pJ(j) = Tr{Λjρ}. (5.35)
El formalismo de las POVM es útil en situaciónes en las que no se hace
uso del estado post-medición, como sucede a menudo en el contexto de la
transmición de información por canales cuánticos.
Nota 98. Denotamos porD(H) al conjunto de operadores de densidad en H.
La definición 97 nos permite interpretar a los operadores de densidad como
estados del sistema, pues éstos nos ayudan a calcular las probabilidades de
que el sistema esté en un estado del ensamble asosciado. Por esta razón, los
operadores de densidad captan la idea de que en la práctica, es dif́ıcil preparar
un sistema cuántico en un estado particular con presición, y en general el
estado real del sistema sólo se conoce estad́ısticamente (según la distribución
del ensamble).
Definición 99. (Producto tensorial de vectores) Sean HA y HB espacios de
Hilbert finitos con dimensiones dA y dB respectivamente. Sean u ∈ HA y
v ∈ HB. Definimos el producto tensorial de u y v como
u⊗ v := uvT , (5.36)
71
donde vT es el vecotr transpuesto de v. En notación de Dirac,
| φ〉⊗ | ψ〉 :=| φ〉〈ψ | . (5.37)
Observemos que la operación ⊗ entre vectores cumple la relación de bilinea-
lidad, es decir, f(u, v) := u⊗ v es una función bilineal.
Definición 100. (Producto tensorial de espacios) Sean HA y HB espa-
cios de Hilbert finitos con dimensiones n y m respectivamente. Sean EA :=
{e1, . . . , en} y EB := {f1, . . . , fm} bases ortonormales para HA y HB respec-
tivamente. Consideremos el espacio vectorial
V := span{u⊗ v : u ∈ HA y v ∈ HB}. (5.38)
Podemos inducir un producto interior en este espacio como sigue:
〈u⊗ v, x⊗ y〉 := 〈u, x〉A〈v, y〉B. (5.39)
Es fácil ver que éste es un producto interior bien definido, y que el conjunto
EA⊗EB := {e1⊗ f1, . . . , en⊗ fn} es una base ortonormal para éste espacio.
Obsérvese que por bilinealidad, si EA y EB son bases completas, también lo
es EA ⊗ EB.
Definición 101. (Producto tensorial de operadores) Sean HA y HB espacios
de Hilbert finitos. Sean S ∈ L(HA) y T ∈ L(HB) operadores. Definios el
producto tensorial de S y T como la función S ⊗ T ∈ L(HA⊗HB) dada por
la relación
(S ⊗ T )(u, v) := (Su)⊗ (Tv), (5.40)
para u ∈ HA y v ∈ HB. Denotamos por D(HA ⊗HB) al conjunto de oopera-
dores de densidad en HA ⊗HB.
Nota 102. Las definiciones de producto tensorial se extienden de manera
directa a productos de n componentes. Por ejemplo, si u, v y w son vectores
finitos, podemos usar la definición de producto tensorial de dos operadores
(matrices) para definir
u⊗ v ⊗ w := (u⊗ v)⊗ w = u⊗ (v ⊗ w), (5.41)
y seguimos de manera inductiva las mismas construcciones. A los operadores
de densidad en HA ⊗HB les llamamos operadores bipartitas, a los de HA ⊗
HB ⊗HC, tripartitas, etc.
72CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
Notación 103. Cuando sea conveniente, denotaremos al producto de n es-
tados puros por
| 0〉⊗ | 1〉 ⊗ · · · ⊗ | n〉 =| 0〉 | 1〉 · · · | n〉 (5.42)
o por
| 0〉⊗ | 1〉 ⊗ · · · ⊗ | n〉 =| 01 . . . n〉. (5.43)
Además, si estamos trabajando con un espacio conjunto HA ⊗ HB, deno-
taremos frecuentemente a los estados en HA con sub́ındice correpondiente,
digamos | ψ〉A, y a los de HB por | φ〉B. Al operador de densidad | ψ〉A〈ψ |A
lo denotaremos por | ψ〉〈ψ |A, y análogamente para B. Ésta notación la ex-
tendemos a productos tensoriales finitos.
Definición 104. (Estado separable) Decimos que un operador de densidad
bipartita σAB ∈ D(HA ⊗HB) es un estado separable si se puede escribir de
la forma
σAB =
∑
x∈X
pX(x) | ψx〉〈ψx |A ⊗ | φx〉〈φx |B, (5.44)
para alguna distribción de probabilidad pX(x) y conjuntos de estados puros
{| ψx〉A} y {| φx〉B} en los sistemas A y B respectivamente. Obsérvese que
HA y HB se toman con la misma dimensión. Cuando esto sucede decimos
que σAB es un operador cuadrado.
Definición 105. (Estado Entrelazado) Deimos que un estado bipartita (cua-
drado) está entrelazado si no es separable. Esta definición (y su negación) se
extiende directamente a productos tensoriales finitos.
Definición 106. (Traza Parcial) Sea XAB un operador cuadrado en el es-
pacio de Hilbert HA ⊗HB. Sea {| i〉B} base ortonormal completa de HB. La
traza parcial de XAB sobre HB es
TrB{XAB} :=
∑
i
(IA ⊗ 〈i |B)XAB(IA⊗ | i〉B). (5.45)
De forma abreviada,
TrB{XAB} =
∑
i
〈i |B XAB | i〉B. (5.46)
Por un argumento similar al de la observación 91, es fácil ver que la tra-
za parcial es invariante bajo la elección de bases ortonormales completas.
73
La definición de TrA es completamente análoga. Esta definición se extiende
directamente a operadores cuadrados sobre un producto tensorial finito de
espacios de estados. En adelante, sólo consideraremos operadores cuadrados,
es decir, los productos tensoriales de espacios de estados serán productos
tensoriales de un número finito de copias del mismo espacio.
Lema 107. La traza parcial cumple que Tr{XAB} = TrA{TrB{XAB}} =
TrB{TrA{XAB}}.
Demostración. Sean {| i〉A} y {| j〉B} bases ortonormales completas en los
sistemas A yB. Entonces
Tr{XAB} =
∑
i,j
〈i |A 〈j |B XAB | i〉A | j〉B (5.47)
=
∑
i,j
(〈i |A ⊗IB)(IA ⊗ 〈j |B)XAB(IA⊗ | j〉B)(| i〉A ⊗ IB) (5.48)
=
∑
i
(〈i |A ⊗IB)
[∑
j
(IA ⊗ 〈j |B)XAB(IA⊗ | j〉B)
]
(| i〉A ⊗ IB)
(5.49)
= TrA{TrB{XAB}}. (5.50)
La prueba para TrB{TrA{·}} es análoga.
Definición 108. (Operador de densidad local) Sea ρAB ∈ D(HA ⊗ HB).
Definimos el los operadores locales del sistema compuesto AB (con espacio
de estados HA ⊗HB) como
ρA := TrB{ρAB} y ρB := TrA{ρAB}. (5.51)
Esta definición se extiende directamente a productos tensoriales finitos. El
concepto de operador de densidad local capta la idea de que, si se tiene un
sistema compuesto formado por varios sistemas que comparten un estado
conjunto, los estados de cada uno de ellos están directamente relacionados
con (de hecho, están en función de) el estado conjunto.
Nota 109. Es fácil ver que el operador de densidad local es de hecho un
operador de densidad en su sistema, pues
Tr{ρA} = TrA{ρA} (5.52)
= TrA{TrB{ρAB}} (5.53)
= Tr{ρAB} = 1 (5.54)
74CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
por el lema 107. Además, sea | φ〉 ∈ HA ⊗HB. Entonces
〈φ | ρA | φ〉 = 〈φ | TrB{ρAB} | φ〉 (5.55)
= 〈φ |
∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 (5.56)
=
∑
i
〈φ | (IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 ≥ 0 (5.57)
pues
〈φ | (IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) | φ〉 ≥ 0 (5.58)
para cada i. Finalmente, tenemos que
ρ∗A =
[∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B)
]∗
(5.59)
=
∑
i
[ρAB(IA⊗ | i〉B)]∗(IA ⊗ 〈i |B)∗ (5.60)
=
∑
i
(IA ⊗ 〈i |B)ρ∗AB(IA⊗ | i〉B) (5.61)
=
∑
i
(IA ⊗ 〈i |B)ρAB(IA⊗ | i〉B) (5.62)
= TrB{ρAB} (5.63)
= ρA, (5.64)
pues ρ∗AB = ρAB al ser operador de densidad.
Teorema 110. (Operadores de densidad) Sean A y B sistemas cuánticos
finitos. Entonces,
1. Sean | x1〉, | x2〉 ∈ HA y | y1〉, | y2〉 ∈ HB Entonces
TrB{| x1〉〈x2 |A ⊗ | y1〉〈y2 |B} =| x1〉〈x2 | 〈y1 | y2〉. (5.65)
La iguadad análoga para TrA también es válida.
2. Sean ρA ∈ D(HA) y σB ∈ D(HB). Entonces
TrB{ρA ⊗ σB} = ρA. (5.66)
la igualdad análoga para TrA taambién es válida.
75
3. Sea X un alfabeto finito, sea pX(x) una distribución de probabilidad en
este alfabeto, y sean ρxA ∈ D(HA) y σxB ∈ D(HB) para toda x. Entonces
TrB
{∑
x
pX(x)ρ
x
A ⊗ σxB
}
=
∑
x
pX(x)ρ
x
A. (5.67)
La igualdad análoga para TrA también es válida.
4. Sean {| x〉}x∈X y {| y〉}y∈Y bases ortonormales completas de HA y
HB respectivamente, con dA =| X | y dB =| Y |. Sea p(x, y) una
distribución en X × Y, y sea
ρ =
∑
x,y
p(x, y) | x〉〈x | ⊗ | y〉〈y | . (5.68)
Entonces
TrB{ρ} =
∑
x
pX(x) | x〉〈x | . (5.69)
La igualdad análoga para TrA también es válida.
Demostración. 1. Sea {| i〉}i base ortonormal completa de HB. Entonces
TrB{| x1〉〈x2 |A ⊗ | y1〉〈y2 |B} (5.70)
=
∑
i
(IA ⊗ 〈i |B) | x1〉〈x2 |A ⊗ | y1〉〈y2 |B (IA⊗ | i〉B) (5.71)
=
∑
i
| x1〉〈x2 |A ⊗〈i |B| y1〉〈y2 | i〉B (5.72)
=| x1〉〈x2 |A ⊗
∑
i
〈i | y1〉〈y2 | i〉B (5.73)
=| x1〉〈x2 |A ⊗
∑
i
〈y1 | i〉〈i | y2〉B (5.74)
=| x1〉〈x2 |A ⊗〈y1 |
∑
i
| i〉〈i || y2〉B (5.75)
=| x1〉〈x2 |A ⊗〈y1 | y2〉B (5.76)
=| x1〉〈x2 |A 〈y1 | y2〉B. (5.77)
La prueba para TrA es análoga.
76CAPÍTULO 5. CONCEPTOS FUNDAMENTALES DE LA TEORÍA CUÁNTICA
2. Sea {| i〉}i base ortonormal completa de HB. Entonces
TrB{ρA ⊗ σB} =
∑
i
(IA ⊗ 〈i |B)ρA ⊗ σB(IA⊗ | i〉B) (5.78)
=
∑
i
ρA ⊗ 〈i | σB | i〉B