Logo Studenta

Unidad 4 Teoría de la Información y Codificación

¡Este material tiene más páginas!

Vista previa del material en texto

UNIDAD 4 Teoría de la Información y Codificación
Teoría de la Información
La Teoría de la Información es una teoría matemática creada por Claude E. Shannon y Warren Weaver en
el año 1948 y que forma la piedra angular sobre la que se ha desarrollado toda la teoría actual de la
comunicación y la codificación.
La Teoría de la Información se encuentra aún hoy en día en relación con una de las tecnologías en boga,
Internet. Desde el punto de vista social, Internet representa unos significativos beneficios potenciales, ya
que ofrece oportunidades sin precedentes para dar poder a los individuos y conectarlos con fuentes cada
vez más ricas de información digital.
En general, el problema que se plantea de resolver con la Teoría de la Información es la de:
“Poder transmitir información a la máxima velocidad posible por un canal de comunicaciones, con una
mínima cantidad de errores posible”
Shannon se planteó el siguiente problema:
“Dado un conjunto de mensajes posibles que una fuente puede producir, ¿Cómo deben representarse
estos mensajes para que la información sea conducida de la mejor manera sobre un sistema dado con sus
limitaciones físicas inherentes?”
La idea es poder determinar la forma en que esto es posible y si existe alguna cota máxima posible de
alcanzar
La Teoría de la Información es un tema matemático que trata con tres conceptos básicos:
1. La medida de la información
2. La capacidad de un canal de comunicación para transferir información
3. La codificación como un medio de utilizar los canales a toda su capacidad.
Teorema Fundamental de la Teoría de la Información
Estos conceptos están ligados al teorema fundamental de la teoría de la información, que puede resumirse
de la siguiente manera:
“Dada una Fuente de información y un canal de comunicación, existe una técnica de codificación tal que la
información puede ser transmitida sobre el canal a cualquier rapidez menor que la capacidad del canal y
con una frecuencia de errores arbitrariamente pequeña a pesar de la presencia de ruido”
El aspecto sorprendente de este teorema es la transmisión libre de errores sobre un canal ruidoso, lo que
se obtiene por medio de la codificación.
Teoría matemática de las comunicaciones
Shannon desarrolló la “Teoría matemática de las comunicaciones” que tenía como objetivo:
Hacer lo más eficiente posible la transmisión de información, con un número mínimo de errores.
La codificación se emplea para adaptar la fuente al canal para una transferencia de información con un
máximo de confiabilidad. Nos limitaremos a los conceptos de medida de la información y a la capacidad
del canal. Con lo cual se responderá a las siguientes preguntas:
¿Cómo restringen a la transmisión de información las limitaciones físicas fundamentales (ancho de banda
y ruido, etc.)?
¿Existe algo así como un sistema de comunicación ideal y de haberlo cuales serían sus características?
Principios de la transmisión de Información
La Comunicación: es el proceso mediante el cual se transfiere información desde un punto en el espacio y
en el tiempo, denominado “fuente de información”, hasta otro punto denominado “destino de la
información, con el mínimo de pérdidas o perturbaciones.
La reproducción perfecta del mensaje no es posible, pero desde un punto de vista práctico es suficiente
que la reproducción sea hecha con una aproximación o fidelidad que depende de la calidad o fin que se
persiga (QoS?)
En todo caso, en el proceso de transmisión, la información experimentara siempre una cierta degradación,
cuyos límites dependerán del empleo que se haga de dicha información.
Modelo de un Sistema de Transmisión de Información
Fuente de Información: La información o inteligencia a transmitir se origina en la fuente de información.
Esta se materializa como un conjunto (sin entrar en detalles) finito y discreto, de N símbolos o mensajes
distintos e independientes cuyo significado es conocido en el destino.
Hay muchas clases de fuentes de información, incluyendo personas y maquinas, de manera que los
símbolos o mensajes pueden tomar una gran variedad de formas: secuencias de símbolos, letras, una
magnitud que varía en el tiempo, etc. Pero sin importar la naturaleza del mensaje el propósito del sistema
de comunicación es el de proporcionar una réplica más o menos exacta del mismo en el destino.
Transductor de Entrada: Como regla general, el mensaje que se produce en la fuente de información no es
de naturaleza eléctrica y por lo tanto se necesita un transductor o codificador que convierta el mensaje en
una señal compatible con el tipo particular del sistema de transmisión que se empleara. Entonces:
Información es la inteligencia o significado que se va a transmitir, es una entidad INTANGIBLE
Mensaje es la materialización de la información en una cantidad
MENSURABLE.
O sea el mensaje es el soporte de la información y que el número de elementos del conjunto de las
señales de salida del transductor debe ser igual al número de elementos del conjunto de símbolos o
mensajes de la fuente de información.
Ancho de Banda y Potencia de Transmisión: Son dos parámetros de gran importancia. Los sistemas de
comunicación deben diseñarse para utilizar estos dos recursos en la forma más eficiente posible. En
general, es difícil optimizar ambos recursos simultáneamente, o sea, un recurso puede considerarse más
importante o más escaso que el otro. Los canales se los puede así clasificar como “limitados en potencia”
o “limitados en ancho de banda”.
Ejemplos: Los canales telefónicos son canales limitados en ancho de banda, los canales de RF
(inalámbricos) son limitados más en potencia.
La meta ideal en el diseño de un sistema de comunicación es la de transmitir información a la máxima
velocidad con el mínimo de potencia y ancho de banda.
Concepto de Información
Entonces…el propósito de un sistema de comunicación es el de TRANSMITIR INFORMACION.
Sin embargo no se ha especificado lo que realmente significa el término “Información”, y mucho menos
como se la puede cuantificar o medir.
Considérese una situación hipotética que se presenta:
A. Mañana saldrá el sol.
B. Mañana caerá granizo
C. Mañana habrá un sismo
¿Cuál es la información más probable?
Obviamente la declaración A aporta poca información, pues es la más probable.
Intuitivamente, se sabe que el enunciado C contiene gran cantidad de información, pues tiene muy poca
probabilidad de ocurrencia, es decir P(C) << 1
A. Mañana saldrá el sol.
B. Mañana caerá granizo
C. Mañana habrá un sismo
Por consiguiente, P(C) < P(B) < P(A) y la información I(C)> I(B) > I(A) Se observa que cuando menor sea
la probabilidad de un enunciado, mayor es la información aportada por el mismo‚ y por tanto una mayor
incertidumbre o sorpresa en el mensaje.
Es decir que la información es una función inversa a la probabilidad de ocurrencia de un evento.
I = f (1/P), donde f es una función matemática a determinar. Esto conduce a expresar que la medida de la
información esta relacionada con la incertidumbre, la incertidumbre de parte del usuario acerca de cual
será el mensaje.
INCERTIDUMBRE:
refiere a lo desconocido
No se sabe si sucederá
A lo inesperado
A lo imprevisible
LA INFORMACIÓN DISMINUYE LA INCERTIDUMBRE PORQUE APORTA MAYOR CONOCIMIENTO
SOBRE UN TEMA.
PROBABILIDAD:
Se encarga de evaluar todas aquellas actividades en donde se tiene incertidumbre, acerca de los
resultados que se puede esperar.
La probabilidad es una escala entre 0 y 1
Al suceso imposible le corresponde el valor “0”
Al suceso seguro le corresponde el valor “1”
El resto de los sucesos estarán comprendidos entre la escala de 0 y 1. LA PROBABILIDAD
NUNCA PUEDE SER UN VALOR NEGATIVO
LA SUMA DE TODAS LAS PROBABILIDADES EN IGUAL A 1
Concepto de Información: Resumen
En el extremo Transmisor la medida de la información es una indicación de la libertad de elección ejercida
por la fuente en la selección de un mensaje.
Si la fuente puede elegir libremente entre muchos mensajes diferentes, el usuario tendrá una gran
incertidumbreacerca de cuál será el mensaje seleccionado.
Pero si no hay posibilidad de elección, si solo hay un mensaje posible, no hay incertidumbre y en
consecuencia tampoco información.
Es evidente que la medida de información incluye las probabilidades.
Los mensajes de alta probabilidad indican poca incertidumbre del usuario y llevan una pequeña cantidad
de información
Medida de la Información
Entonces la auto información asociada con un evento A seria:
Se debería determinar la función que cumpla los siguientes requerimientos:
Cuando se transmite el mensaje A, el usuario recibe IA unidades de información. Si se transmite también
un segundo mensaje B, la información total recibida debe ser la suma de las auto informaciones: IA+ IB
Podemos hablar entonces de un mensaje compuesto: C = A B
Si A y B son estadísticamente independiente: PC= PA .PB y IC= f (PA .PB)
Pero la información recibida es aun IC= IA+ IB
IC= f (PA) + f (PB)
Por lo tanto: f (PA .PB) = f (PA) + f (PB)
Hartley-1928, demostró que la única función que satisface las cuatro condiciones es una función
logarítmica de la forma:
Así la auto información o información mutua se define como:
La base del logaritmo define la unidad de información. La más usada es la base 2 y su unidad es el bit
(contracción de “binary digit”)
Existen muchas razones para usar esta base 2 para medir información, ya que el experimento aleatorio
más simple que uno puede imaginarse es aquel con dos resultados igualmente probables, como por
ejemplo el de arrojar una moneda no defectuosa al aire y observar los resultados:
El conocimiento de cada resultado tiene asociado a: 1 bit de información
Ejemplo: Una fuente de memoria nula genera dos símbolos cuyas probabilidades son PA=1/4 y PB=3/4,
determinar la auto información de cada símbolo y la cantidad total de información de la fuente.
Ejemplo: Supongamos que una fuente produce los símbolos A, B, C y D con probabilidades:
Si los símbolos son independiente, calcular la información contenida en el mensaje BACA:
Ejemplo: Si se lanza una moneda tres veces seguidas, los ocho resultados (mensajes) equiprobables
podrían ser:
Ejemplo: Consideremos una imagen de televisión formada por una estructura de puntos negros, blancos y
grises, dispuestos en 500 filas y 600 columnas aproximadamente. Admitiremos que cada uno de esos
500 X 600 = 300.000 puntos puede adoptar uno de 10 niveles de brillo diferentes, de manera que puede
haber 10300.000 imágenes distintas de TV. Si todas son igualmente probables, la probabilidad de una imagen
cualquier es igual a 1/ 10300.000 y la cantidad de información que contiene:
IIMG= log21/PIMG = 300.000log2 10 = 996.578 bit ≈ 106 bit
IIMG = 1Mbit
A resolver:
¿Qué cantidad de información contienen la observación de los siguientes objetos?
La tirada de un dado equilibrado.
Hallar la información que se tiene cuando se conoce que la carta de un mazo de 52 cartas es de:
corazones, una figura, una figura de corazones
La elección de una letra de alfabeto español (27 letras)
Enviar la palabra MIGUEL
Entropía
La cantidad de información definida en la ecuación: IA =log2 1/PA(bits)
Ha sido obtenida para un solo mensaje, o sea cuanta información brinda (da) un cierto evento o mensaje,
pero no describe a una fuente que produce un conjunto de diferentes mensajes.
Un sistema de comunicación no está diseñado para transmitir un mensaje en particular, sino para transmitir
TODOS los mensajes posibles producidos por la fuente.
Por consiguiente cuando el flujo de instantáneo de información producido por una fuente es aleatorio, es
mejor describir la información de la fuente en términos de la “información promedio” producida.
Definición. Es un parámetro que nos permite determinar el contenido promedio de información de una
fuente o un mensaje en particular. En un proceso de comunicación, transmitimos usualmente secuencias
largas de símbolos, y estamos más interesados en el contenido promedio de información que la fuente
produce, que en la información contenida en cada símbolo
Un sistema de comunicación está diseñado para aceptar todos los mensajes probables sin distinción de
ocurrencia, por lo tanto, la información promedio que produce una fuente se denomina ENTROPÍA DE LA
FUENTE
Entropía de la fuente:
Ejemplo:
Calcular la entropía asociada a un dado, cuando:
•El dado es “correcto”
•Cuando el dado se manipula de manera de que salga un UNO o un SEIS es el doble de la probabilidad de
las otras caras.
Ejemplo:
Consideremos la información producida por una máquina de escribir de 26 letras y el espacio entre letras,
en otras palabras, la fuente produce 27 símbolos. Si los símbolos tuvieran la misma probabilidad
Redundancia
La mayoría de las fuentes de información producen mensajes que no consisten en una única elección
entre posibilidades de igual probabilidad, sino en elecciones sucesivas entre posibilidades de probabilidad
variable y dependiente. A este tipo de secuencias se les denomina procesos estocásticos.
El caso más típico son las letras y palabras que conforman el lenguaje. El escribir en español constituye un
proceso de elecciones dependientes. Por ejemplo, al formar una palabra se elige una primera letra de
todas las posibles primeras letras con diferentes probabilidades; luego, se elige la segunda letra cuya
probabilidad depende de la primera letra seleccionada, y así sucesivamente hasta formar la palabra
deseada.
Lo mismo ocurre en el caso de las palabras para formar oraciones.
Lo importante aquí es señalar el hecho de que, en la medida que se avanza en la formación de una
palabra u oración, el rango de posibles letras o palabras a ser seleccionadas va disminuyendo y la
probabilidad de que ciertas letras o palabras específicas sean seleccionadas va aumentando. Dicho de
otra forma, “tanto la incertidumbre como la información de las últimas letras de una palabra o de las últimas
palabras de una oración es menor comparada con las primeras”
1.- La mayoría de los mensajes se constituyen a partir de un número limitado de posibilidades, por
ejemplo, sólo 27 letras en el caso de nuestro idioma.
2.- La probabilidad de ocurrencia de una de estas posibilidades dentro de un mensaje depende de las
posibilidades seleccionadas previamente; por ejemplo, la probabilidad de que ocurra la letra "q" luego de
una "p" es O. Son estos dos hechos los que en conjunto determinan que todo mensaje contenga cierto
grado de redundancia. En otras palabras, la redundancia se refiere a que las posibilidades dentro de un
mensaje se repiten, y se repiten de una cierta manera predecible. Mientras mayor sea, entonces, la
redundancia de un mensaje, menor será su incertidumbre y menor la información que contenga
Redundancia de una Fuente
Se dice que una fuente es redundante cuando produce símbolos dependientes, es decir símbolos
adicionales generados que no son necesarios en forma absoluta para producir información. Por ejemplo un
texto en ingles tiene una redundancia de alrededor del 50%, es decir que la mitad de los símbolos son
innecesarios. La redundancia de una fuente puede expresarse como:
Ejemplo: calcular la redundancia de una fuente binaria que tiene P(0)=1/4 y P(1)=3/4.
Rd = [(1-0.8)/1]*100= 20%.
Si P(0)=P(1), Rd = 0%
Entropía: Conceptos
Cuando todos los símbolos son igualmente probables (distribución de probabilidad plana), todos
aportan información relevante y la entropía es máxima.
La entropía también se puede considerar como la cantidad de información promedio que contienen
los símbolos usados.
La entropía puede ser considerada como una medida de la incertidumbre y de la información
necesaria para, en cualquier proceso, poder acotar, reducir o eliminar la incertidumbre
Redundancia es aquello que es predecible o convencional en un mensaje, su opuesto es la
Entropía.
La redundancia es el resultado de una alta probabilidad y la entropía de una baja probabilidad
Un mensaje con baja predecibilidad es entrópico y tiene alto contenido informático
Un mensaje con alta predecibilidad esredundante y tiene bajo contenido informático
Tasa de Información
Supongamos que dos fuentes tienen la misma entropía, pero una es mas rápida que la otra, es decir
produce mas símbolos por unidad de tiempo.
En un periodo dado, mas información será transferida de la fuente mas rápida lo cual coloca necesidades
mayores sobre el sistema de comunicación. Por lo tanto la descripción de una fuente no solo es su
entropía (bit/símbolos), sino también (o mas bien..) su TASA DE INFORMACION media en bits/segundo
(bps).
La tasa de Información de una fuente discreta se define como:
Donde σ es la duración promedio del símbolo:
Por lo tanto 1/σ es igual al número promedio de símbolos por unidad de tiempo
Tasa de Información: Ejemplo
Tasa de Información: Ejemplo
Una fuente produce cuatro símbolos A, B, C y D cuyas probabilidades son:
PA = 0,5, PB = 0,25 PC = 0,125, PD = 0,125
La Entropía de la fuente será:
H = 0,5log2 + 0,25log4 + 0,125log8 + 0,125log8 = 1,75 bit/simbolo
Si los símbolos fueran equiprobables, o sea Pi=1/4, entonces:
H = log4 = 2 bit/simbolo
Ahora los símbolos se producen a una velocidad de r=1000 símbolos/seg, entonces la tasa de información
R será:
D Si los símbolos tienen diferentes probabilidades:
Si los símbolos son equiprobables:
O sea la velocidad R es máxima cuando los símbolos son equiprobables
CONCLUSION???
Codificación de los Mensajes
La Fuente discreta genera, aleatoriamente, mensajes digitales arbitrariamente largos, es decir, secuencias
arbitrariamente largas de símbolos de un cierto alfabeto (alfabeto de la fuente). Es un dispositivo que emite
con regularidad y de forma aleatoria símbolos pertenecientes a un cierto conjunto discreto y finito llamado
alfabeto de la fuente.
El Codificador transforma los mensajes generados por la fuente; es decir, convierte una secuencia de
símbolos dada en otra distinta (en general, con símbolos de un alfabeto también distinto del alfabeto de la
fuente, que se denomina alfabeto de codificación, y que habrá de ser necesariamente igual que el alfabeto
de entrada del canal). Esta transformación, cuyo objetivo es la transmisión fiel y eficiente de los mensajes
de la fuente dada, utilizando el canal dado, deberá hacerse teniendo en cuenta tanto las características
estadísticas de los mensajes de la fuente (es decir, de la fuente) como las del ruido que se produce en el
canal.
El Canal discreto ruidoso realiza, aleatoriamente, una transformación indeseable sobre los mensajes que
lo atraviesan, de forma que el mensaje que recibe el decodificador no es, en general, el mismo que ha
generado el codificador
El Decodificador tiene que adivinar qué mensaje de la fuente corresponde al mensaje recibido, conocidas
las reglas de transformación que aplica el codificador
Codificación de la Fuente
Ahora bien, en la práctica, resulta conveniente aislar el efecto que tiene la fuente en el sistema del efecto
que tiene el canal, descomponiendo el codificador/decodificador.
Un Codificador de Fuente, cuya construcción ha de adaptarse a las características de la fuente de forma
que consiga representar los mensajes de la fuente con el menor número posible de símbolos de un cierto
alfabeto de codificación (típicamente los símbolos que se pueden transmitir por el canal dado)
Un Codificador de Canal, cuya construcción ha de adaptarse a las características del canal de forma que
permita la consecución de una transmisión fiable sobre un canal ruidoso con un coste mínimo.
La descomposición del proceso de codificación en dos subprocesos independientes, codificación de fuente
y codificación de canal, facilita el análisis del sistema, por una parte; y, por otra parte, proporciona una gran
flexibilidad en la implementación, porque hace virtualmente independientes los diseños del codificador de
canal y del codificador de fuente
Conceptos de códigos: El codificador óptimo
Un codificador óptimo es aquel que utiliza el mínimo número de bits para codificar un mensaje de la fuente.
Un codificador óptimo usará:
D Códigos cortos para codificar mensajes frecuentes
D Códigos de mayor longitud para aquellos mensajes que sean menos frecuentes.
De esta forma se optimiza el rendimiento del canal o zona de almacenamiento y el sistema es eficiente en
términos del número de bits para representar los mensajes.
Por ejemplo, el código Morse se aprovecha de este principio para optimizar el número de caracteres a
transmitir a partir del estudio de las letras más frecuentes del alfabeto inglés.
“El código Morse no es un codificador óptimo pero sí asigna a las letras más frecuente código más cortos,
justamente para optimizar su eficiencia”
Entropía: Ejemplos
LA ENTROPÍA DE UNA VARIABLE ALEATORIA ES EL NÚMERO MEDIO DE BITS QUE SE
NECESITARÁN PARA CODIFICAR C/U DE LOS ESTADOS DE LA VARIABLE:
SI SE QUIERE REPRESENTAR (CODIFICAR) LOS DIEZ DÍGITOS DECIMALES USANDO SECUENCIAS
DE BITS:
CON 3 DIGITOS BINARIOS NO ES SUFICIENTE, SE NECESITA MÁS.
SI SE USAN 4 DIGITOS BINARIOS TAL VEZ SEA DEMASIADO.
LA ENTROPÍA DE 10 SUCESOS EQUIPROBABLES ES:
EL VALOR CALCULADO ES EL LÍMITE TEÓRICO, QUE NORMALMENTE NO SE PUEDE
ALCANZAR.
SE PUEDE DECIR QUE NO EXISTE NINGUNA CODIFICACIÓN QUE EMPLEE LONGITUDES
PROMEDIO DE MENSAJE INFERIORES AL NÚMERO CALCULADO.
Podemos construir un codificador óptimo basándonos en la entropía de una variable aleatoria de
información x. En efecto, la entropía nos da el número medio de bits necesarios para codificar el mensaje a
través de un codificador óptimo y por tanto nos determina el límite máximo al que se puede comprimir un
mensaje usando un enfoque símbolo a símbolo sin ninguna pérdida de información (demostrado
analíticamente por Shannon), el límite de compresión (en bits) es igual a la entropía multiplicada por el
largo del mensaje. Reescribiendo la ecuación de cálculo de la entropía podemos decir:
por tanto la información que aporta un determinado símbolo xi,
Esta expresión representa el número necesario de bits para codificar el mensaje xi en el codificador óptimo
y por tanto la entropía también se puede considerar como una medida de la información promedio
contenida en cada símbolo del mensaje.
Supongamos que el número de estados de un mensaje es igual a 3 [M1, M2 y M3], donde la probabilidad
de M1 es 50%, la de M2 25% y la de M3 25%.
Por tanto el codificador óptimo necesita de media 1,5 bits para codificar cualquier valor de X.
Por ejemplo podríamos codificar M1 con "0", M2 con "10" y M2 con "11". Usando este convenio para
codificar el mensaje M1M2M1M1M3M1M2M3 usaríamos "010001101011" y por tanto 12 bits. La longitud
promedio del código seria: ??
Conceptos de códigos: El codificador óptimo
Supongamos que el número de estados de un mensaje es igual a 3 [M1, M2 y M3], donde la probabilidad
de M1 es 50%, la de M2 25% y la de M3 25%.
Por tanto el codificador óptimo necesita de media 1,5 bits para codificar cualquier valor de X.
Por ejemplo podríamos codificar M1 con "0", M2 con "10" y M2 con "11". Usando este convenio para
codificar el mensaje M1M2M1M1M3M1M2M3 usaríamos "010001101011" y por tanto 12 bits. La longitud
promedio del código seria:
L(código) = 0,5 ∗ 1 + 0,25 ∗ 2 + 0,25 ∗ 2 = 1,5 bit
El Algoritmo de Huffman
Supongamos que se dispone de una fuente continua que discretizamos empleando un cuantificador
uniforme con 8 niveles. A continuación codificamos sus salidas, asignándole a cada muestra de entrada un
símbolo compuesto por tres bits. Las probabilidades de cada uno de estos símbolos son: P(000) =0.2,
P(001) =0.01, P(010) =0.4, P(011) =0.04, P(100) =0.1, P(101) =0.02, P(110) =0.07 y P(111) =0.16.
En consecuencia, la entropía de esta fuente es
que es significativamente inferior a los 3 bits por muestra que estamos empleando si tomamos
directamente la salida del codificador. La codificación de Huffman le va asignar a cada cadena de 3 bits
una cadena de longitud variable que minimice el número de bits medio por símbolo.

Otros materiales