Logo Studenta

265-ice

¡Este material tiene más páginas!

Vista previa del material en texto

INSTITUTO POLITÉCNICO NACIONAL 
 
 
 
 
Escuela Superior de Ingeniería Mecánica y Eléctrica 
Unidad “Culhuacan” 
 
Ingeniería en Comunicaciones y Electrónica 
 
SEMINARIO DE TITULACION 
“PROCESAMIENTO DIGITAL DE SEÑALES” 
 
“Telefonía IP y Pruebas de Calidad de Audio (QoS)” 
 
 
 
 
T E S I N A 
Que para obtener el titulo de: 
 
Ingeniero en Comunicaciones y Electrónica 
 
 
 
 Presenta: 
Vargas Bonilla Héctor Ricardo 
 
 
 
Asesores: M. en C. Orlando Beltran Navarro 
 M. en C. Braulio Sanchez Zamora 
 
 
México D.F. Noviembre 2009 
 
 
 
 
 
 
 2
INSTITUTO POLITÉCNICO NACIONAL 
ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA ELÉCTRICA 
UNIDAD CULHUACAN 
 
TESINA 
 
Que para obtener el título de: INGENIERO EN COMUNICACIONES Y 
ELECTRONICA 
 
Por la opción de titulación: SEMINARIO DE TITULACIÓN 
“PROCESAMIENTO DIGITAL DE 
SEÑALES” 
 
Deberán desarrollar: Héctor Ricardo Vargas Bonilla 
 
INTRODUCCION 
 
En los últimos años ha habido una revolución en lo que al mundo de las 
comunicaciones se refiere, este gran cambio está relacionado con la telefonía que ha 
logrado que el planeta entero se mantenga comunicado hace ya más de 150 años, 
cuando el italiano Antonio Meucci inventó el teléfono. Hablamos de emigrar de una 
tecnología de conmutación de circuitos a una de conmutación de paquetes, en otras 
palabras, usar las redes de datos para la transportación de voz y así lograr que tanto voz 
y datos converjan en una sola red. 
 
En esta tesis se revisaran los temas más relevantes de la Telefonía IP así como 
las pruebas realizadas con el objetivo de obtener mediciones del nivel de calidad tanto 
de la telefonía convencional como de la IP y darnos una idea que tanto ha avanzado la 
transmisión en tiempo real en las redes de datos. 
 
CAPITULO I - Introducción a la Tecnología VoIP 
CAPITULO II - Nuevos Servicios y Nuevas Alternativas 
CAPITULO III - Evolución de las Redes Telefónicas 
CAPITULO IV - Descripción de un Sistema de Comunicación de VoIP 
CAPITULO V - Planteamiento de mi Desarrollo 
CAPITULO VI - Reporte y Análisis de Resultados 
 
 
_______________________________ _____________________________ 
M. en C. Orlando Beltrán Navarro M. en C. Braulio Sánchez Zamora 
Coordinador del seminario Asesor 
 
 
 
________________________________ 
Ing. Ignacio Monroy Ostria 
Jefe de carrera de ICE 
 
 
 3
Agradecimientos: 
 
A mi Madre, me has enseñado que con esfuerzo, trabajo y perseverancia puedo lograr 
cualquier meta que me proponga y esto lo has hecho a través de la única forma en la 
que es posible enseñar algo tan grande e importante, el ejemplo. He sido testigo de tu 
crecimiento y de tu lucha día a día por lograr una vida mejor para ti y los tuyos. 
Eres el pilar de mi vida y tu eres a quien debo todos mis logros. Agradezco 
infinitamente a la vida por darme la madre que tengo, por darme a la mejor y más 
grande maestra, y sin duda alguna, la más importante de mi vida. 
 
A mi hermana Mayra, una parte muy importante de que mi hermano y yo seamos 
personas de éxito hoy en día te lo debemos a ti, tu junto con mi mamá hicieron de este 
par de niños, dos adultos de bien, honestos y trabajadores. 
Eres una de las personas más fuertes que conozco (si no es que la mas fuerte) y he 
aprendido a través de ti que cuando la vida te tira, hay que tener la fuerza suficiente para 
levantarse y volverlo intentar. Agradezco inmensamente los sacrificios que pudiste 
haber hecho por mi hermano y por mí y estoy seguro que la vida te recompensara 
porque esta historia simplemente no hubiera sido posible sin ti. 
 
A mi hermano Edgar, no imagino una vida sin ti y doy gracias por que hayas llegado a 
este mundo donde has y seguirás llenando de alegría a muchas personas, porque eso 
eres, la alegría de nuestras vidas. 
La inteligencia no se basa en el desempeño académico o profesional, si no en 
conocernos y no ir en contra de nosotros mismos, simplemente SER y así lograr la 
felicidad, en base a esto, eres la persona más inteligente que conozco y en muchos 
sentidos mi modelo a seguir. 
 
A todas las personas que de uno u otra forma hicieron de esta tesis una realidad, y 
en general a todos aquellos que han sido participes de mi desarrollo tanto profesional 
como personal, la vida siempre nos envía a las personas indicadas y todos dejan 
enseñanzas en nosotros. 
Al Instituto Politécnico Nacional, la institución más querida e importante en mi vida, 
la esperanza de cientos de miles de mexicanos que nos da acceso a una educación de 
calidad, que nos abre ventanas a una mejor vida y nos permite tener una visión diferente 
de la vida. 
 
 
GRACIAS. 
 
 
 
 
 
 
 
 
 
 
 4
Índice 
 
Justificación……………………………………………………………………… 7 
Hipótesis.................................................................................................................. 8 
1 Introducción a la Tecnología VoIP 8 
1.1 Revisión de conceptos sobre las Redes de Datos……………………………. 8 
 1.1.1 Señalización…………………………………………………………..... 8 
 1.1.2 Direccionamiento……………………………………………………….. 9 
 1.1.2.1 Resolución de direcciones………….………………………………. 9 
 1.1.3 Encaminamiento………………………………………………………… 10 
1.2 Modelos de Voz sobre redes de paquetes……………………………………. 11 
 1.2.1 Voz sobre ATM (VoATM)….………………………………………….. 11 
 1.2.1.1 Señalización en VoATM….……………………………………….. 12 
 1.2.1.2 Direccionamiento en VoATM……….……………………………… 13 
 1.2.1.3 Encaminamiento en VoATM……………………………………….. 14 
 1.2.1.4 VoATM y el Retardo…….………………………………………… 14 
 1.2.1.5 Resumen VoATM…………………………………………………... 14 
 1.2.2 Voz sobre Frame Relay (VoFR)………………..……………………….. 14 
 1.2.2.1 Señalización en VoFR………………………………………………. 15 
 1.2.2.2 Direccionamiento en VoFR…….…………………………………… 15 
 1.2.2.3 Resumen VoFR………………………….………………………….. 16 
1.3 Voz sobre IP (VoIP)……………….................................................................. 16 
 1.3.1 Definiciones…………………………………………………………….. 18 
 1.3.2 Historia de VoIP……………………………………………………….. 18 
 1.3.3 Escenarios de VoIP……………….……………………………………… 20 
 1.3.4 Razones para preferir VoIP........................................................................ 21 
 1.3.5 Retos para VoIP………………………….………………………………. 22 
1.4 Protocolo IP…………………………………………………………………. 22 
 1.4.1 Encabezado IP………………………………………………………….. 22 
 1.4.2 Direccionamiento IP…………………..………………………………… 23 
1.5 Factores de VoIP y Calidad de Servicio…………………………………….. 24 
 1.5.1 Periodo de Empaquetamiento y Consideraciones de Ancho de Banda… 24 
 1.5.2 Retardo (Latencia)……………………………..……………………….. 25 
 1.5.3 Jitter…………..…………………………………………………….…… 26 
 1.5.4 Pérdida de paquetes….………………………………………………..… 26 
 1.5.5 Codecs, MOS y PESQ…………………………………………………… 27 
 1.5.6 Supresión de Silencio, Ruido Confortable y VAD….………………….. 31 
 1.5.7 DiffServ y ToS………………….……………………………………….. 31 
2 Nuevos Servicios y Nuevas Alternativas 33 
2.1 Protocolos de VoIP……………..…………………………………………….. 33 
2.2 Modelo de red y protocolos………….………………………………………. 36 
2.3 El plano de datos: RTP/RTCP…………………………..…………………… 38 
 2.3.1 UDP/TCP: el dilema continuidad-fiabilidad………………………..…… 38 
 2.3.2 La necesidad de herramientas complementarias…..……………….……. 40 
 2.3.3 RTP: El protocolo de tiempo real………….……………………….……. 42 
 2.3.3.1 Características de RTP……………………………………..……….. 42 
 2.3.3.2 Descripción del protocolo RTP……………...……………………… 44 
 2.3.3.3 Pequeño léxico de los términos RTP………………….…………….. 46 
2.4 RTCP: El protocolo de control de transporte de tiempo real…………………. 50 
 2.4.1 Principios básicos…………………………………………………….….. 50 
 5
 2.4.2 El formato de los paquetes RTCP……………………………….……… 51 
 2.4.3 Limitación del ancho de banda…………………………………….…… 51 
 2.4.4 La actualización del número de participantes……………………………. 52 
 2.4.5 Asignación del ancho de banda para la descripción de fuente SDES….. 532.5 El plano de control…………………………………………………………… 53 
2.6 El estándar H.323…………………………………….……………………….. 55 
 2.6.1 Elementos de la arquitectura H.323…………….………………………. 56 
 2.6.2 Arquitectura de protocolos H.323………….…………………………… 58 
 2.6.3 Escenarios de llamada en H.323……..………………………………….. 59 
 2.6.3.1 Escenario 1: Llamada básica sin Gatekeepers…….………………… 59 
 2.6.3.2 Llamadas PC-a-teléfono…………………………………….…….… 65 
 2.6.4 H.323 sobre varios dominios……………………..……………………... 71 
 2.6.4.1 Modelo de llamada directa…………………………………………. 72 
 2.6.4.2 Modelo de llamada enrutada…………………………..……………. 72 
2.7 H.323 versión 2………………………………………………………………. 74 
 2.7.1 Tiempo de establecimiento de la llamada………………………………... 74 
 2.7.2 Mensajes generados por la red..…………………………………………. 74 
 2.7.3 Procedimiento rápido de establecimiento de conexión 
 (Fast Setup procedure)…………………………………………………..75 
 2.7.4 Túneles H.245……………………….…………………………………… 77 
 2.7.5 Vuelta al procedimiento normal…………………..…………….……….. 78 
2.8 DTMF……………………………………………………….……………….. 79 
2.9 Fax…………………………………………………………………….…….... 81 
 2.9.1 Breve descripción de la tecnología G3 para el envío de fax………….… 81 
 2.9.2 Transmisión de fax sobre IP (T.38 y T.37)………………….…………… 85 
2.10 Algunas características de H.323v3………………………….……………… 88 
2.11 Protocolo SIP………………….…………………………………………… 88 
 2.11.1 Atributos de SIP………………………………………………………. 90 
 2.11.2 Componentes del Sistema………………………..…………………….. 91 
 2.11.3.1 Sintaxis de una Dirección SIP……………….……….…………… 93 
 2.11.3.2 Soporte SIP para Direcciones E.164….…………………………… 93 
 2.11.3.3 Soporte de la Movilidad………………………………………….… 94 
 2.11.4 Estructura de los Mensajes SIP…………………….………………….... 95 
 2.11.4.1 Línea de partida…..…………………………………………….. 95 
 2.11.4.1.1 Peticiones SIP……………………………………..……..… 95 
 2.11.4.1.2 Respuestas SIP……………………………………………… 96 
 2.11.4.2 Cabeceras SIP……………………….……………….…………. 98 
 2.11.4.2.1 Abreviaciones de los Nombres de las Cabeceras…...…… 102 
 2.11.4.3 Cuerpo de los Mensajes SIP………………………….……… 103 
 2.11.4.3.1 Protocolo de Descripción de Sesión 
 (SDP – Session Description Protocol)……………………. 103 
 2.11.5 Escenarios con SIP...………………………………………………….... 105 
 2.11.5.1 Llamada directa SIP entre puntos finales IP………..…………….. 105 
 2.11.5.2 Llamada directa SIP entre dos Gateways VoIP………..………….. 108 
 2.11.5.3 Registro de Cliente con un Servidor de Registro SIP…….……….. 109 
 2.11.5.4 Actualización de Cliente con un Servidor de Registro SIP……..… 109 
 2.11.5.5 UAC redirigido hacia un Proxy Server…………………….……… 110 
 2.11.5.6 Modificación de una llamada SIP…………………………………. 110 
2.12 SIP y H.323…………………………………………………………………. 111 
 2.12.1 ¿Qué hace SIP y qué no hace H.323?....................................................... 111 
 6
 2.12.2 Futuro de SIP y su relación con H.323………………………..……….. 112 
2.13 SIP para telefonía: SIP-T…………………………………………………… 112 
 2.13.1 Introducción……………….…………………………………………... 112 
 2.13.2 SIP-T para las interconexiones PSTN-IP……………………….……... 113 
 2.13.3 Configuraciones con SIP-T……………………………………..……… 115 
 2.13.3.1 Roles fundamentales en SIP-T……………………………………. 117 
 2.13.3.1.1 Origen…………….….……………………………………….. 117 
 2.13.3.1.2 Terminador……………………………………………………. 118 
 2.13.3.1.3 Proxy……………….…………………………………………. 118 
 2.13.4 Componentes de la propuesta SIP-T……………………..………..…… 118 
 2.13.5 Negociación de los Contenidos SIP………………………….………... 119 
2.14 Protocolo MEGACO (Media Gateway Control Protocol)………….……… 121 
 2.14.1 ¿Por qué un nuevo protocolo?.................................................................. 121 
 2.14.2 ¿Una nueva arquitectura para la telefonía IP?......................................... 123 
 2.14.3 Descripción de MEGACO………………………….……………….… 124 
 2.14.3.1 Funciones de MEGACO……........................…………………….. 127 
 2.14.3.2 Modelo de conexión……………………………………………….. 128 
 2.14.3.3 Comandos de MEGACO…………………………………………. 129 
 2.14.4 Escenarios MEGACO……………………………………………….…. 130 
 2.14.4.1 Llamada entre usuarios con gateways residenciales……………….. 130 
 2.14.4.2 Llamada entre usuarios con trunking gateways …………………… 132 
3 Evolución de las Redes Telefónicas 136 
3.1 Introducción a los Sistemas Telefónicos……………………………….……. 136 
3.2 Conmutación y Multiplexaje en Telefonía Digital………….…………….… 137 
 3.2.1 Conmutación Telefónica……………..…………………………………. 137 
 3.2.2 Multiplexaje en Telefonía Digital…………………..…………………… 138 
 3.2.2.1 Modulación por codificación de pulsos (PCM)……………………... 138 
 3.2.2.2 Multiplexaje por División en el Tiempo…………….……………… 139 
 3.2.2.3 Jerarquía PDH………………………………………………………. 139 
 3.2.2.4 Jerarquía SDH….…………………………………………………... 141 
3.3 Señalización SS7………………………….…………………………………. 143 
 3.3.1 Capas de SS7……………………….…………………………………… 143 
 3.3.2 Estructura de la red SS7…………………………………………………. 145 
3.4 ESTADÍSTICAS Y CIFRAS IMPORTANTES…………………………….. 145 
4 Descripción de un Sistema de Comunicación de VoIP 155 
4.1 Esquema……………………………………………………………….…….. 159 
5 Desarrollo de las pruebas de Audio 160 
5.1 Pruebas de Calidad de Audio Tanto en telefonía Convencional 
(PSTN) Como en telefonía IP (VoIP)…………………………………….……… 160 
6 Reporte y Análisis de Resultados 164 
 
 
Conclusiones……………………………………………………………………… 170 
Bibliografía……………………………………………………………………….. 173 
Índice de Figuras.………………………………………………………………… 175 
Índice de Tablas………………………………….………………………………. 177 
 
 
 
 
 7
Justificación 
 
En los últimos años ha habido una revolución en lo que al mundo de las 
comunicaciones se refiere, este gran cambio está relacionado con la telefonía que ha 
logrado que el planeta entero se mantenga comunicado hace ya mas de 150 años, 
cuando el italiano Antonio Meucci inventó el teléfono. Hablamos de emigrar de una 
tecnología de conmutación de circuitos a una de conmutación de paquetes, en otras 
palabras, usar las redes de datos para la transportación de voz y así lograr que tanto voz 
y datos converjan en una sola red. 
 
Ya que Internet no fue diseñado para transmitir en tiempo real, se tuvieron que 
hacer varias adecuaciones para lograr que la voz viaje sin problemas y en tiempo real a 
través de la red IP, a esto se le conoce como Voz sobre Internet o VoIP por sus 
acrónimos en ingles. 
 
Existen varias compañías alrededor del mundo que ya ofrecen este servicio, 
dentro de las mas importantes se encuentran: Alestra, Avantel, AT&T, Avaya, Mitel, 
entre otras. Dentro de estas se manejan dos grandes tendencias, las compañías que en 
sus principios manejaban la telefonía tradicional y posteriormente incorporaron a sus 
sistemas la telefonía IP y las que inicialmente fueron compañías de telefonía IP y 
después incorporaron la telefonía tradicional. Estadísticamente las compañías que están 
dentro de la primera tendencia mencionada son las que han tenido menos fallas y han 
logrado con mayor éxito la convergencia de estas dos redes. 
 
Actualmente la Red Telefónica Publica Conmutada (Public Switching 
Telephone Network, PSTN) se encuentra brindando servicios de telefonía de buena 
calidad alrededor del mundo, es por esto que se podría generar la siguiente pregunta, 
¿Por qué cambiar algo que funciona y funciona bien?, el emigrar de una telefonía 
convencional a una Telefonía IP tiene varias ventajas. La primera y una de las mas 
importantes, se eliminan los costos de larga distancia, ya que la voz viaja a través de las 
redes de datos, todas las llamadas convergerían en esta nube mundial que es el Internet. 
Otra ventaja importante es la de contar con un mayor número de servicios, ya que los 
datos y la voz viajan a través de la misma red, estos se pueden complementar 
mutuamente y así lograr nuevos servicios comoson: Videoconferencias, video bajo 
demanda, respuesta de voz interactiva (Interactive Voice Response, IVR), 
Telemedicina, etc. Las ventajas son numerosas y aunque podamos mencionar todas y 
cada una de ellas podríamos resumirlas en lo siguiente: Más y mejores servicios a 
menores costos para el usuario final. Con esto no quiero decir que todo sea “Miel sobre 
hojuelas”, el gran sacrificio que se debe hacer, al emigrar de un sistema PSTN a uno de 
VoIP es la Calidad de Servicio o QoS (Quality of Service, por sus siglas en Ingles). Por 
esta razón, en esta tesis se realizaron pruebas de calidad del Audio en cada uno de los 
sistemas antes ya mencionados. 
 
Es por esto que la telefonía IP ha tenido un crecimiento acelerado en los últimos 
años alrededor del mundo. En lo que concierne a nuestro país es necesario mencionar 
que este crecimiento no ha sido tan grande como el de países tecnológicamente más 
avanzados como es el caso de Japón, que es el país que cuenta con el mayor numero de 
suscriptores de telefonía IP en el mundo. En México la inversión que experimentó este 
sector de las comunicaciones (Gral.) en el 2007 fue de 2,548 millones de dólares y en el 
2008 la suma ascendió a 2,677 millones de dólares. Y por supuesto la cantidad de 
 8
ingresos fue mucho mayor que la de inversión, en el 2007 fue de 267,874 Millones de 
Pesos y en el 2008 fue de 275,594 Millones de Pesos (FUENTE: Reporte de ingresos e 
inversión en la industria de Telecomunicaciones. Dirección de Información Estadística 
de Mercados, COFETEL). 
 
En la actualidad se calcula que el 40% de las líneas telefónicas existentes son 
líneas IP y se estima que para el año 2011 la cifra aumente a un 70%. Con esto no 
quiero decir que la telefonía IP vaya a desplazar a la telefonía convencional en un corto 
plazo. Estas 2 grandes redes de comunicación tienen que coexistir (convivir) en la 
actualidad y por un lapso de tiempo aun considerable. Esto debido a que toda la 
infraestructura existente de la Red Telefónica Publica Conmutada no puede ser 
desechada de un día para otro, es mas, la telefonía IP depende hoy en día de dicha 
infraestructura para así poder tener un mayor alcance dentro de la población. 
 
Dado este escenario, esta tesis está enfocada a presentar los elementos relevantes 
de la telefonía IP para su conocimiento y manejo en el contexto del análisis de la etapa 
de transición que vive México en la actualidad con respecto a la migración de una 
Telefonía convencional a una IP. 
 
En el presente trabajo también se mostrará como se encuentra conectada, y que 
equipos ocupa, una pequeña red de VoIP en un laboratorio de una de las compañías mas 
grande de comunicaciones en nuestro país, para ejemplificar de una forma mas clara con 
que tecnología cuenta nuestro país y en que etapa de esta transición nos encontramos. 
 
Hipótesis 
Es posible realizar pruebas MOS (resultado de opinión media) tanto para telefonía IP 
como para la telefonía convencional (PSTN), con el objetivo de comparar los resultados 
y así saber la calidad de servicio que ofrece VoIP con respecto a la PSTN. 
 
CAPITULO I. Introducción a la Tecnología VoIP. 
1.1 Revisión de conceptos sobre las Redes de Datos 
 
Las comunicaciones de datos, al igual que las de voz, se basan en la 
señalización, el direccionamiento y el encaminamiento para transportar información de 
la fuente al destino. 
1.1.1 Señalización 
Cualquier discusión sobre señalización debe hacer notar las diferencias en 
comportamiento de las redes orientadas a conexión frente a las no orientadas a 
conexión. 
 
Redes orientadas a conexión 
Una conexión es un camino lógico entre las estaciones finales fuente y destino. 
El término circuito virtual (VC) se utiliza a menudo para describir este tipo de conexión. 
Ejemplos de circuitos virtuales son las conexiones establecidas en una red ATM 
utilizando circuitos virtuales permanentes (PVCs). 
 
 9
Para establecer una conexión se necesitan una ruta y unos requisitos para dicha 
conexión. Los requisitos de una conexión son un conjunto de peticiones que la estación 
final hace a la red. Por ejemplo, en una red ATM, una petición de circuito virtual puede 
especificar una tasa de datos media, una tasa de datos máxima y un porcentaje de 
pérdida de datos. La red intentará construir el VC especificado, si es que hay recursos 
disponibles. 
Redes no-orientadas a conexión 
Al contrario que las redes orientadas a conexión, las redes no-orientadas a 
conexión no necesitan sesiones de establecimiento y liberación de conexiones. Los 
encaminadores de estas redes aceptan todo el tráfico e intentan enviarlo basándose en la 
filosofía “best-effort”. Los encaminadores pueden priorizar el tráfico, pero no tienen un 
conocimiento global sobre el estado de la red. 
 
Algunos protocolos de redes no-orientadas a conexión, como RSVP (Resource 
Reservation Protocol) comunican los requisitos de sesión al núcleo de la red a la manera 
en que los requerimientos de una conexión se comunican en una red orientada a 
conexión. [1] 
1.1.2 Direccionamiento 
Los arquitectos originales de Internet diseñaron un protocolo y un esquema de 
direccionamiento que hiciera abstracción de las tecnologías subyacentes. Esta 
interoperabilidad permite a los usuarios comunicarse unos con otros sin tener en cuenta 
la red a la que están conectados. Por ejemplo, el esquema de direccionamiento y los 
protocolos TCP/IP permiten a un usuario en una estación Ethernet comunicarse, a través 
de una red X.25, con otra estación final en una LAN Token Ring. 
 
Si se utiliza IP como ejemplo de direccionamiento de Nivel 3, lo que destacan 
son los conceptos de red y de host. Este esquema de direccionamiento incrementa la 
flexibilidad y la escalabilidad de las redes de datos. Ejemplos de aproximaciones a 
direccionamientos por niveles los hay tanto en redes de área local como de área amplia. 
Es importante destacar que los esquemas de direccionamiento por niveles presentan 
grandes diferencias frente a los esquemas de direccionamiento utilizados en las redes de 
voz. 
1.1.2.1 Resolución de direcciones 
Es importante destacar cómo se traducen las direcciones de Nivel 3 a direcciones 
de Nivel 2, ya que este concepto es ajeno a las redes de voz. Existen tres métodos 
diferentes de traducción o resolución de direcciones: 
• Difusión (Broadcast) 
• Servidores de resolución de direcciones 
• Tablas de configuración locales 
 
Difusión (Broadcast) 
En las redes que comparten un medio común, una aproximación evidente es la 
utilización de los mecanismos de difusión. En este caso, cuando una estación conoce la 
dirección de destino IP pero no la dirección Ethernet subyacente a dicha dirección IP de 
destino, la propia estación fuente difunde una petición dirigida a todos los que 
comparten dicho medio. Todos los nodos recibirán el mensaje pero sólo una estación, la 
propietaria de la dirección IP que se quiere resolver, responderá a la fuente con su 
dirección Etehrnet. 
 10
 
Servidores de resolución de direcciones 
El mecanismo de difusión es muy eficiente en LANs no-orientadas a conexión, y 
con medio compartido, pero no es adecuada en redes orientadas a conexión. En el caso 
de ATM, se utiliza un servidor para resolver la dirección ATM a una dirección IP en lo 
que se conoce como “Classical IP over ATM”. Todas las peticiones de direcciones 
desconocidas de nodos ATM se dirigirán al servidor de direcciones que responderá con 
la dirección subyacente ATM correcta. Después de recibir esta dirección subyacente 
ATM, la fuente se comunica directamente con la estación de destino. 
 
Tablas locales de configuración 
Las redes pequeñas pueden ahorrarse cualquiera de los dos tipos anteriores de 
resolución de direcciones si en cada estación final se configuran tablas locales que 
contengan las correctas asociaciones de direcciones de Nivel 3 y direcciones de Nivel 2. 
1.1.3 Encaminamiento 
La determinación de una ruta consiste en el proceso de encontrar el “mejor” 
camino desdela estación fuente a la estación destino. El encaminamiento se utiliza tanto 
en protocolos de Nivel 2 como de Nivel 3. Para determinar una ruta es posible la 
utilización de tablas estáticas pre-programadas en cada conmutador o en cada 
encaminador, así como la utilización de protocolos de encaminamiento dinámico. 
 
1.2 Modelos de Voz sobre redes de paquetes 
Todos los sistemas de voz paquetizada siguen un modelo común, según se 
muestra en la Figura 1-1 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1-1: Modelo de redes de voz paquetizada 
 
La red de transporte de voz paquetizada puede estar basada en IP, Frame Relay 
o ATM. Las fronteras de dicha red son equipos que denominaremos “Agentes de voz”. 
La misión de estos equipos es cambiar la información de voz desde su forma tradicional 
telefónica a un formato adecuado para su transmisión en paquetes. La red podrá 
entonces dirigir los paquetes de voz hacia otros agentes de voz de destino. 
 
Red de datos y voz 
paquetizada 
Agente de 
voz 
Agente de 
voz 
Agente de 
voz 
PBX 
 11
Existen dos modelos básicos para la integración de la voz sobre los datos, 
Transporte frente a Traducción. El modelo de Transporte supone el soporte transparente 
de la voz sobre las actuales redes de datos. Un buen ejemplo es la simulación de líneas 
dedicadas sobre ATM utilizando la emulación de circuitos. 
 
La Traducción supone que la infraestructura de datos es capaz de soportar las 
funciones de voz tradicionales. Por ejemplo, la interpretación de la señalización de voz 
en las redes de datos actuales y la creación de conexiones virtuales conmutadas (SVCs) 
con ATM. Las redes que sigue este modelo de Traducción son mucho más complejas 
que las que siguen el modelo de transporte y su implementación está en plena discusión 
en varios comités de estandarización. [1] 
 
 
 
 
 
 
 
 
 
 
 
Figura 1-2: Modelos de Conectividad/Señalización 
1.2.1 Voz sobre ATM (VoATM) 
El ATM Forum y el ITU especifican diferentes clases de servicio para 
representar los diferentes tipos de tráfico posibles. 
 
Primeramente diseñados para comunicaciones de voz, las clases CBR (Constant 
Bit Rate) y VBR (Variable Bit Rate) se utilizan en el tráfico de tiempo real, y garantizan 
un cierto nivel de servicio. El parámetro CBR, en particular, permite especificar, 
durante el establecimiento de la llamada, el ancho de banda, el retardo extremo a 
extremo y la variación permitida de dicho retardo. 
 
Los parámetros UBR (Unespecified Bit Rate) y ABR (Available Bit Rate) son 
más apropiados para aplicaciones de datos. En particular, UBR no garantiza la entrega 
del tráfico de datos. 
 
El método de transporte de canales de voz sobre redes ATM depende de la 
naturaleza del tráfico. Se han especificado varios tipos de adaptación a ATM, cada uno 
de ellos con sus ventajas y desventajas. La Capa de Adaptación AAL 1 es el método 
más utilizado con servicios CBR. 
 
AAL1 no estructurado toma un flujo continuo de bits y lo coloca en celdas 
ATM. Se trata de un método de adaptación muy utilizado para soportar un flujo E1 de 
extremo a extremo. El problema que presenta es que hay que enviar el flujo E1 
completo, sin tener en cuenta la cantidad actual de canales de voz en uso dentro de él. 
AAL1 estructurado dispone de un puntero en la carga útil (payload) que permite 
PBX 1 
PBX 2 
PBX 3 
PBX 4 
PBX 1 
PBX 2 
PBX 3 
PBX 4 
 12
mantener la estructura DS0 en las celdas ATM. Este método permite una mayor 
eficiencia ya que no consume ancho de banda para canales E0 no utilizados. La opción 
de remapping permite a las redes ATM reunir las celdas estructuradas AAL1 y redirigir 
los canales DS0 hacia los destinos adecuados. Esto elimina la necesidad de conexiones 
virtuales permanentes (PVCs) entre cada posible combinación fuente-destino. La 
principal diferencia con el método no estructurado es que no hace falta construir PVCs a 
lo largo de la red entre frontera y frontera de la red. 
1.2.1.1 Señalización en VoATM 
La Figura 1-3 describe el método de Transporte, en el cual, la señalización de 
voz es transportada transparentemente por la red. 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1-3: Señalización VoATM, Modelo de Transporte 
En este modelo, hay que crear diferentes PVCs para el transporte transparente de 
la voz y de la señalización. Primero, los mensajes de señalización son transportados 
transparentemente sobre la PVC denominada “Señalización no-ATM”, desde una 
estación final a otra. Después, la coordinación entre los sistemas finales permitirá la 
selección de otra PVC para transportar la voz entre ellos. 
 
Como puede deducirse fácilmente, la red ATM no participa en ningún momento 
en la interpretación de la señalización que tiene lugar entre las estaciones finales. Sin 
embargo, como característica de valor añadido, puede destacarse que algunos equipos sí 
son capaces de entender la señalización CAS (señalización en canal asociado) y pueden 
evitar el envío de celdas vacías de voz cuando las estaciones finales han “colgado”. 
 
En contraste, la Figura1-4 muestra ahora el modelo de Traducción (Translate 
model). 
 
 
 
 
 
 
 
 
 
Figura 1-4: Señalización VoATM, Modelo de Traducción 
Red no ATM Red no ATM 
Red ATM 
SVC de voz 
SVC de voz 
PVC de 
señalización 
no ATM 
PVC de 
señalización 
no ATM 
Red no ATM Red no ATM 
Red ATM 
PVC de voz 
PVC de voz 
PVC de 
señalización 
no ATM 
PVC de 
señalización 
no ATM 
 13
En este modelo, la red ATM interpreta la señalización tanto desde los equipos 
no-ATM como desde los ATM. Se crearán conexiones virtuales permanentes (PVCs) 
entre las estaciones finales y la red ATM. Recordemos que en el modelo de Transporte, 
las PVCs se transportan transparentemente por la red ATM. 
Una petición de señalización desde una estación final provocará que la red ATM 
cree un circuito virtual conmutado (SVC) con la calidad de servicio (QoS) apropiada, 
dependiendo de los deseos de dicha estación final. La creación de una SVC, frente a las 
PVCs del modelo anterior, ofrece más ventajas desde tres puntos de vista: 
 
• Las SVCs utilizan más eficientemente el ancho de banda. 
• Los criterios de QoS no necesitan ser constantes; en las PVCs debían mantenerse 
constantes. 
• La posibilidad de conmutación de las llamadas dentro de la red ATM pude llevarnos 
a la sustitución de las PBX de tránsito, e incluso de las de frontera. 
1.2.1.2 Direccionamiento en VoATM 
Los estándares ATM soportan ambos esquemas de direccionamiento, público y 
privado. Ambos esquemas de direccionamiento tienen una longitud de 20 octetos, según 
se muestra en la Figura 1-5 
 
 
 
 
 
 
 
 
 
 
 
Figura 1-5: Direccionamiento ATM 
 
El AFI (Authority and Format Identifier) identifica el formato de 
direccionamiento empleado. Actualmente, existen tres identificadores especificados: 
DCC (Data Country Code), ICD (International Code Designator) y E.164. Cada uno de 
los tres formatos está estandarizado por su comité correspondiente. La segunda parte de 
la dirección es el IDI (Initial Domain Identifier), que únicamente identifica la red del 
abonado. El esquema E.164 posee un IDI mayor puesto que se corresponde con los 15 
dígitos del número ISDN. La parte final, DSP (Domain Specific Part) identifica grupos 
lógicos dentro de estaciones finales ATM. 
 
En el modelo de Transporte no es necesario preocuparse del direccionamiento 
subyacente de la red de voz. Sin embargo, en el modelo de Traducción, la posibilidad 
de comunicar equipos no-ATM con equipos ATM implica un cierto nivel de correlación 
de direcciones. Afortunadamente, ATM soporta el esquema de direccionamiento E.164, 
el mismo sistema empleado por las redes telefónicas en todo el mundo. 
Domain Spacific Part (DSP) 
Initial Domain Identifier (IDI) 
Data Country Code (DCC) and International Code Designator (ICD) 
Domain Spacific Part (DSP) 
Initial Domain Identifier (IDI) 
AFI 
AFI E.164 ATM format 
 14
1.2.1.3 Encaminamiento en VoATM 
ATM utiliza PNNI (Private Network toNetwork Interface), un protocolo de 
encaminamiento “enlace-estado” jerárquico que es escalable para uso global. Además 
de poder determinar la accesibilidad y el encaminamiento en las redes ATM, también es 
posible el establecimiento de llamadas. 
 
Una petición de circuito virtual (VC) provocará una conexión, con ciertos 
requerimientos de QoS, hacia la red ATM. La ruta a través de la red se determina por el 
conmutador ATM fuente basándose en lo que él determina como “mejor” camino a 
través de red, partiendo de la información que obtuvo del protocolo PNNI y de los 
requerimientos de QoS. Cada conmutador a lo largo de la ruta es chequeado para 
comprobar si dispone de los recursos apropiados para la conexión. 
 
Una vez que la conexión está establecida, el tráfico de voz fluirá entre las 
estaciones finales, exactamente igual que si existiese una línea dedicada entre ellas. Es 
importante destacar que la especificación PNNI sólo es apropiada en el ámbito de las 
redes privadas. Si hablamos de redes públicas, el protocolo entre conmutadores se 
denomina B-ICI. 
1.2.1.4 VoATM y el Retardo 
ATM ofrece diversos mecanismos para el control del retardo y de la variación 
del retardo o jittering. 
 
Las capacidades de QoS en ATM permiten especificar peticiones de tráfico de 
flujo de bits constante (constant bit rate) con ancho de banda y variación del retardo 
garantizados. El uso de conexiones virtuales (VC) permite que cada tipo de tráfico sea 
gestionado en colas diferentes y sea tratado con independencia. En el caso del tráfico de 
voz, puede utilizarse una cola de alta prioridad para dicha transmisión. Además, la 
utilización de pequeñas celdas de tamaño fijo reducirá el retardo en las colas y la 
variación en dicho retardo asociada a las longitudes variables de los paquetes. [9] 
1.2.1.5 Resumen VoATM 
ATM es una arquitectura orientada a conexión. Fue creado para, entre otras 
cosas, manejar tráfico sensible al retardo, como la voz. Sus procedimientos de 
señalización, direccionamiento y encaminamiento nos permiten la construcción de una 
red que siga el modelo de Traducción. La función de encaminamiento, en particular, es 
lo bastante “robusta” como para permitir la construcción de conexiones basadas en el 
acuerdo previo sobre un cierto retardo y variación del retardo. 
1.2.2 Voz sobre Frame Relay (VoFR) 
Frame Relay es una tecnología ampliamente difundida, utilizada generalmente 
en el ámbito de las redes de datos corporativas por su flexibilidad en la utilización del 
ancho de banda, accesibilidad a nivel mundial, soporte a mezclas de tráfico diversas y 
madurez de la tecnología. 
 
El servicio Frame Relay está basado en la utilización de conexiones virtuales 
permanentes (PVCs). VoFR es una progresión lógica para las empresas que ya estaban 
utilizando Frame Relay en su transporte de datos. 
 15
1.2.2.1 Señalización en VoFR 
Históricamente, el establecimiento de llamadas con Frame Relay ha sido una 
solución propietaria de cada fabricante. Esto ha significado que los productos de 
diferentes fabricantes no interoperaran entre sí. El Frame Relay Forum FRF.11 
establece un estándar para el establecimiento de llamadas, los tipos de codificación y los 
formatos de los paquetes para transmitir voz sobre Frame Relay, y proporcionar la base 
para la interoperabilidad futura entre los fabricantes. 
1.2.2.2 Direccionamiento en VoFR 
La configuración de direcciones se gestiona a través de tablas estáticas: dígitos 
marcados se corresponden con PVCs específicas. El encaminamiento de la voz depende 
del tipo de protocolo de encaminamiento utilizado para establecer las PVCs y del 
hardware utilizado en la red Frame Relay. El encaminamiento puede basarse en límites 
de ancho de banda, número de saltos, retardos, o combinaciones de estos criterios, pero 
la mayoría de las implementaciones de encaminamiento se basan la maximización de la 
utilización del ancho de banda. 
 
Los dos extremos en el diseño de una red VoFR son: 
 
• Una red completamente mallada de PVCs de voz y datos para minimizar el número 
de saltos en el tránsito por la red y para maximizar la capacidad para establecer 
diferentes calidades de servicio. Una red diseñada de esta forma minimiza el retardo 
y mejora la calidad de la voz, pero ejemplifica la red de más alto costo. 
 
• Muchos proveedores de Frame Relay tarifican basándose en el número de PVCs 
utilizadas. Para reducir el costo, ambos segmentos de voz y datos pueden 
configurarse para que utilicen la misma PVC; reduciendo por tanto el número de 
problemas potenciales derivados de la creación de un salto en el tránsito cuando la 
voz necesita ir de una oficina remota a la otra. Sin embargo, esto impide la 
compresión/descompresión que tiene lugar cuando utilizamos una PBX de tránsito. 
 
Existen mecanismos para minimizar el retardo y la variación del retardo en una 
red Frame Relay. La presencia de grandes tramas de datos en un enlace Frame Relay de 
baja velocidad puede causar retardos inaceptables para tramas sensibles al tiempo. Para 
minimizar este problema, algunos fabricantes implementan tamaños pequeños de tramas 
para ayudar a reducir el retardo y la variación del retardo. 
 
Los métodos para priorizar las tramas de voz frente a las de datos también 
ayudan a reducir el retardo y la variación del retardo. El problema es que tanto estos 
métodos, como los que potencian la utilización de pequeños tamaños de tramas son 
soluciones propietarias de cada fabricante. Para asegurar la calidad de la voz, el CIR 
(Committed Information Rate) en cada PVC debe establecerse convenientemente para 
asegurar que las tramas de voz no serán descartadas. 
 
Frame Relay está bastante difundido y resulta comparativamente asequible. 
Además está ampliamente disponible en todo el mundo. Frame Relay tan sólo es una 
especificación de interfaz, mientras que ATM y TCP/IP son especificaciones de 
arquitecturas. Consecuentemente, es probable que Frame Relay sólo sea utilizado como 
mecanismo de transporte. 
 
 16
Las redes Frame Relay del futuro proporcionarán señalización SVC para el 
establecimiento de llamadas, y pueden permitir, incluso, que los DTEs Frame Relay 
hagan peticiones de calidad de servicio para una llamada lo que mejorará la calidad de 
la voz sobre Frame Relay. [2] 
1.2.2.3 Resumen VoFR 
Frame Relay también puede ser utilizado para la paquetización de voz. Es 
relativamente barato y se encuentra disponible en prácticamente todo el mundo. 
Además, próximamente podrá ofrecer SVCs y soportar QoS. Sin embargo, su carencia 
de un completo sistema de señalización, direccionamiento y encaminamiento evitará, 
seguramente, la implementación de modelos de Traducción, teniéndonos que conformar 
con los de Transporte. 
 
1.3 Voz sobre IP (VoIP) 
 
En la actualidad la Red Telefónica Publica Conmutada (PSTN) se encuentra 
brindando servicios de voz de buena calidad y prácticamente instantáneos alrededor del 
mundo, es por eso que es el sistema telefónico mas ocupado y el cual ha logrado que el 
mundo se mantenga comunicado hace ya mas de 150 años. La red de 
telecomunicaciones actual esta basada en la conmutación de circuitos y es ideal para el 
servicio telefónico de voz, debido a la demanda del mercado se creó hace 20 años la 
RDSI (Red Digital de Servicios Integrados) para manejar voz, datos e imagen, sin 
embargo no fue suficiente ya que fue rebasada rápidamente por otra tecnologías y una 
de estas tecnologías es las redes de datos basadas en el modelo de conmutación de 
paquetes. El cambio necesario es una tecnología que nos ofrezca costos más accesibles 
y una mayor gama de servicios. 
 
Una de las grandes alternativas que se ha analizado para lograr este cambio es el 
usar las redes de datos para la transportación de señales de voz y para dicho objetivo es 
necesario hacer uso del protocolo IP, tecnología conocida como Voz sobre IP o VoIP 
por sus siglas en ingles (Voice over Internet Protocol). El crecimiento de la 
implantación de las redes IP,tanto en local como en remoto, el desarrollo de técnicas 
avanzadas de digitalización de voz, mecanismos de control, priorización de tráfico, 
protocolos de transmisión en tiempo real, así como el estudio de nuevos estándares que 
permitan la calidad de servicio en redes IP, han creado un entorno donde es posible 
transmitir telefonía sobre IP lo que no significará en modo alguno la desaparición de las 
redes telefónicas por conmutación de circuitos, sino que habrá, al menos 
temporalmente, una fase de coexistencia entre ambas. 
 
La telefonía IP nos presenta un gran numero de ventajas en comparación a la 
telefonía tradicional, una de las mas importantes es que no únicamente hablamos de la 
transportación de voz, sino que también podemos manejar datos, imágenes y video lo 
cual nos arroja un numero importante de servicios con los que puede contar una 
telefonía IP, como los son: Música (cualquier tipo de sonido), Respuesta de Voz 
Interactiva (IVR), Audio conferencia, Facsímiles, cámaras digitales, equipo medico, 
video conferencia, televisión, etc. 
 
Pero, ¿Qué es lo que realmente nos ofrece una telefonía IP?, ¿Por que cambiar si 
lo que tenemos funciona bien?. Estamos hablando de una revolución en el mundo de las 
comunicaciones y un cambio de esta índole no es fácil de explicar pero su justificación 
 17
se podría aclarar enunciando ciertas cualidades o ventajas que nos ofrece la telefonía IP, 
dentro de las cuales podemos destacar las siguientes: 
 
• Disminución de costos: En una telefonía convencional el usuario al momento de 
realizar una llamada telefónica se le asigna un canal exclusivamente para el, en 
cambio en la telefonía IP, este canal se divide entre un gran numero de usuarios 
y por lo consiguiente el costo disminuye ya que el canal es aprovechado mas 
eficazmente. Otra razón es que la voz viaja por una red de datos y no importa la 
distancia que recorra, el costo será el mismo, es decir, el usuario final puede 
pagar lo mismo por una llamada de larga distancia que por una llamada local. 
• Flexibilidad: Es importante recordar que el protocolo IP no depende de la capa 
de enlace, lo que permite que el usuario final elije el formato de enlace que mas 
le convenga, en otras palabras, el usuario de VoIP puede elegir entre Ethernet, 
ATM, Frame Relay, xDSL e inclusive puede transportarse a través de líneas 
analógicas. 
• Mas y Mejores Servicios: En la telefonía IP se cuenta con los mismos servicios 
que se tienen en la PSTN (llamada en espera, correo de voz, fax, etcétera) pero 
IP cuenta con servicios que en la telefonía convencional seria imposible de tener 
como son: Video conferencias, llamadas vía Web, Video bajo demanda, 
Extensiones virtuales, etc. Otra ventaja importante es que el protocolo IP 
siempre está en evolución, es decir, constantemente se encuentran aplicaciones 
nuevas con las que puede contar. 
• Estandarización: Con el gran crecimiento que se ha dado en la telefonía IP en 
los últimos años nos hemos visto en la necesidad de crear estándares universales 
y esto ha logrado que los principales proveedores de telecomunicaciones en el 
mundo fabriquen aparatos apegados a las normas de dichos estándares y esto 
conlleva a una completa compatibilidad no importando el fabricante ni modelos, 
y esto lleva a la reducción de costos para el usuario final. 
 
Los teléfonos IP han existido originalmente en forma de software corriendo 
sobre una PC multimedia para la comunicación de bajo costo de PC a PC sobre Internet. 
Los problemas con la calidad del servicio (QoS) asociados con Internet y la plataforma 
PC, resultaron ser pobre en la calidad de voz, excesivo retraso, y la congestión en la red 
provoca pérdida de paquetes. La QoS proporcionada por Internet continúa mejorando 
así como la tecnología está avanzando con enlaces mas rápidos y switches que evitan la 
congestión, conexiones de acceso mas rápido de los usuarios tales como xDSL, cortes 
de baja latencia y nuevos protocolos como RSVP y MPLS técnicas que dan prioridad a 
datos sensibles tales como voz y video. 
 
Además del IP, VoIP utiliza el protocolo Tiempo-Real (RTP) para ayudar a 
asegurarse de que los paquetes sean entregados de una manera oportuna. VoIP tiene 
como principal objetivo asegurar la interoperabilidad entre equipos de diferentes 
fabricantes, fijando aspectos tales como la supresión de silencios, codificación de la voz 
y direccionamiento, y estableciendo nuevos elementos para permitir la conectividad con 
la infraestructura telefónica tradicional. Estos elementos se refieren básicamente a los 
servicios de directorio y a la transmisión de señalización por tonos multifrecuencia 
(DTMF). [5] 
 18
1.3.1 Definiciones 
Voz sobre IP (VoIP) puede definirse como una tecnología que permite el 
transporte de señales de voz sobre datagramas IP, ofreciendo un servicio al usuario de 
comunicación de voz en tiempo real. 
 
Cuando se habla de VoIP, mucha gente piensa en comunicaciones de voz sobre 
Internet. Sin embargo, VoIP es una tecnología que puede implementarse en cualquier 
tipo de red privada que use el protocolo IP para interconectar sus sub-redes. 
 
No debe confundirse el término VoIP con el de “Voice over Packet”. Con éste 
último término nos estamos refiriendo al transporte de voz sobre cualquier red de 
paquetes: IP, ATM o Frame Relay. 
 
Aunque la tecnología suele denominarse “Voz sobre IP”, incluye también el 
transporte de datos “Multimedia” sobre redes IP. Los estándares de VoIP contemplan 
ambos tipos de transporte de datos (por ejemplo, la videoconferencia) ya que los dos 
necesitan un servicio de comunicaciones en tiempo real. 
1.3.2 Historia de VoIP 
Los comienzos de Internet se remontan a 1970. Pronto se convirtió en la 
herramienta de trabajo favorita de los investigadores de todo el mundo. Rápidamente 
experimentaron la necesidad de comunicarse de un modo más “humano”, más directo. 
Para seguir conferencias orales de grupo, implementaron en sus encaminadores el 
direccionamiento multipunto, que racionaliza el envío simultáneo de un mensaje a 
varios destinatarios. El conjunto de estás máquinas representa la red overlay MBONE 
sobre la que se han realizado ya las primeras experiencias de transmisión de video y 
audio. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
F 
 
 
Figura 1-6: Historia de VoIP 
1972 198 1991 1992 1993 1994 1995 1996 1997 1998 
Time
Tasa de 
bits del 
64 kbps 
G.711 
32 
kbps 
G.726 
13 kbps 
GSM 
16 kbps 
G.728 
9.6 
kbps 
(1994) 
5.3 & 6.3 
kbps 
G.723.1 
Velocidad 
del 
Modem 
Pentium 
600 
Pentium 
400 
Pentium 
200 
80386 
80486 
PC 
Procesador 
9.6 kbps 
14.4 kbps 
28.8 kbps
33.4 kbps 
55.6 
kbps 
 19
Las aplicaciones de telefonía o de difusión de audio para microordenadores 
aparecieron a finales de 1994, el año en que Internet explotó en los medios y entre el 
público gracias al desarrollo de las páginas web y los “navegadores”. Estas aplicaciones 
aprovechan los recursos de las tarjetas de sonido para la digitalización de la señal y su 
restitución en forma analógica. Ha sido pues necesario esperar a que el parque de 
ordenadores multimedia fuera lo suficientemente amplio como para incitar a los 
informáticos a crear nuevas herramientas para el gran público. 
 
Los Procesadores Digitales de Señales (DSP) son los encargados de 
proporcionar los recursos necesarios para que los algoritmos de compresión puedan ser 
cada vez mas complejos y eficaces, dado que, un canal de telefonía (RDSI) dispone de 
una tasa de transferencia de 64 Kbps para el transporte de sonido codificado bajo 8 bits 
a una frecuencia de 8 KHz, estas cantidades deben modificarse para lograr que el sonido 
pueda viajar a través de la red (Internet), es aquí cuando los módems aplican estos 
algoritmos de compresión para reducir la tasa de transferencia desde los 14 Kbps hasta 
los 28.8 Kbps. Este proceso es fundamental para que la información pueda viajar en 
Tiempo Real a través de la red. 
 
El “gigante” del procesador de propósitogeneral, Intel, ha ido creando 
procesadores mas adecuados para este tipo de funciones. El Pentium, y más aún el 
Pentium Pro, saben reservar cada vez más recursos a los tratamientos de señales y 
preservan la viabilidad de soluciones enteramente por software. 
 
En 1995, en la aparición del tiempo real en Internet, se dieron las circunstancias 
idóneas para la evolución de esta nueva tecnología (VoIP): una población de internautas 
consecuente, un parque de ordenadores multimedia significativo y los recursos de 
máquinas, aplicaciones y módems necesarios. 
 
El año 1995 asiste a la multiplicación de las ofertas. Numerosas empresas 
abrieron tiendas en línea, ofreciendo descargas gratuitas o pruebas de soluciones de 
telefonía. Algunas han desaparecido ya. Desafortunadamente, todas las aplicaciones de 
telefonía proponían soluciones propietarias que rivalizan en astucia técnica para resolver 
los desafíos del tiempo real. En ausencia de especificaciones estandarizadas, los 
protocolos de transporte, de control y de codificación seguían siendo, generalmente 
incompatibles. El argumento comercial común a todos estos productos era la economía 
de tarifas realizada al utilizar Internet, con frases como: “¡Llame al otro extremo del 
mundo por el precio de una llamada local!”. 
 
En la actualidad, podemos decir que las herramientas están a punto. 
 
Fruto de los trabajos en MBONE, se han propuesto soluciones. Si el emisor 
recibe regularmente informes de escucha de su o sus destinatarios, conocerá casi en 
tiempo real el estado de la red; así como modular su flujo de salida. Conmutará su 
codificador para pasar de una señal poco comprimida y de alta fidelidad a una señal más 
comprimida pero menos generosa en cuanto a recursos. Un difusor de información 
multimedia en tiempo real ya no emitirá a ciegas, soltando paquetes al viento en la red. 
 
Los paquetes llevarán información que facilitará la reconstrucción de la señal y 
de su base temporal; convertirán la red en un contenedor digno de un servicio en tiempo 
real. La sincronización del paquete precisa la hora exacta de su creación; será fácilmente 
 20
reordenado, y su desaparición se reordenará con rapidez. Una etiqueta indicará el tipo 
de datos enviados en el paquete y un número de secuencia lo colocará instantáneamente 
en el flujo de datos. Todas estas especificaciones y otras muchas se encuentran en RTP, 
el Real-time Transport Protocol, adoptado como estándar por el IETF (Internet 
Engineering Task Force, Grupo de Trabajo en Ingeniería de Internet). 
 
La estructura y las especificaciones del IP de nueva generación, el protocolo de 
red básico de Internet, también se han estandarizado. El IPv6 se desplegará 
progresivamente al conjunto de encaminadores en el transcurso de los próximos años. 
Las cabeceras IPv6 contienen un campo de prioridad que permite tratar los datos en 
tiempo real con el cuidado que merecen. El encaminador es quien tomará la iniciativa 
de destruir los paquetes de baja prioridad, preservando el tránsito de la señal más 
prioritaria. Y por si todo esto no basta, un tercer tipo de arma está en reserva. El 
receptor podrá elegir, por sí mismo, el nivel de calidad y la comodidad de la recepción 
en la señal que desee captar, programa de radio, cadena de televisión, etc. Más allá de 
un cierto umbral de exigencia, podrían encontrarse pagando por los recursos que 
consuma; es la base para beneficiarse de un servicio a la carta. Es el protocolo de 
reserva de recursos, RSVP (Resource reSerVation Protocol), que transmite la demanda 
de reserva a todos los encaminadores partiendo del receptor y remontando hasta la 
fuente. [12] 
1.3.3 Escenarios de VoIP 
En VoIP, según se muestra en la 
Figura1-7, suelen describirse cuatro escenarios típicos: 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 1-7: Escenarios de VoIP 
 
1. Teléfono a PC 
Este escenario, de gran interés para los ISPs (Internet Service Provider, 
Proveedor de Servicios de Internet), permitiría, por ejemplo, llamar a un usuario que 
está navegando por Internet. 
 
2. PC a teléfono 
PSTN VoIP
GW
IP 
network 
PC a teléfono Telefono a PC 
 Telefono a Telefono PC a PC 
 
 21
También es conocido por los nombres “click-to-dial” o “surf-and-talk”, 
permitiría a un usuario llamar, por ejemplo a su ISP, y recibir respuestas a sus 
preguntas, mientras continúa navegando por las páginas web. 
 
3. Teléfono a teléfono 
Escenario muy interesante para los operadores telefónicos establecidos. Puesto 
que estos operadores ya poseen una gran red de conmutación de circuitos, les puede 
resultar atractiva la instalación de un Gateway de telefonía IP que les permita 
transportar voz sobre un backbone IP como medio de abaratar los costos de las llamadas 
de larga distancia. Por ello, este escenario es también conocido por el nombre 
“telephony toll bypass”. 
 
4. PC a PC 
Este escenario está particularmente para videoconferencias entre dos o más 
usuarios. 
 
1.3.4 Razones para preferir VoIP 
 
La capacidad de hacer llamadas de voz sobre una red de datos basada en IP. 
Pero, una vez dada la respuesta, se puede argumentar en su contra que, a priori, no 
parece la mejor tecnología para transportar el tráfico de voz. Sin ir más lejos, tenemos 
un candidato ideal en ATM. 
 
ATM es una tecnología multimedia y multiservicio; por tanto, parecería un 
candidato idóneo para el transporte de tráfico de voz y multimedia; al menos, más 
indicado que IP. Recientemente han surgido especificaciones destinadas al tráfico de 
voz sobre ATM (métodos como Constant Bit Rate, vía AAL1, o Variable Bit Rate, vía 
AAL2). Sin embargo, ATM no está ampliamente difundido, especialmente entre las 
pequeñas empresas, y es relativamente caro. Por el contrario, las redes IP están 
ampliamente difundidas en el mundo empresarial, por lo que parece más interesante el 
despliegue de la voz sobre la tecnología IP. 
 
El gran impulso que está teniendo VoIP no se debe tanto a un interés tecnológico 
como a un interés de mercado. En el pasado, el mercado de las telecomunicaciones 
Europeo estaba cerrado por los monopolios nacionales. Sin embargo, la situación ha 
cambiado en la actualidad: un mercado liberalizado está emergiendo con una gran gama 
de nuevos operadores. 
 
Los nuevos operadores no poseen una infraestructura de telecomunicaciones; por 
tanto, para ellos VoIP representa un punto de entrada más fácil al mercado ya que les 
facilita el despliegue de una única red que sea capaz de prestar servicios de “voz” y de 
“datos”. 
 
Las regulaciones actuales consideran VoIP como tráfico de datos, no como 
tráfico de voz, lo cual permite considerar como llamada local cualquier llamada de larga 
distancia cursada a través de redes IP. 
 
El desarrollo de una red IP permitirá tener una red “all-in-one”, que posibilite 
un menor costo de infraestructuras y una mejor utilización del ancho de banda de dicha 
red. Los operadores de telecomunicaciones establecidos también ven las ventajas de 
 22
redes VoIP. No sólo representan una buena opción de reducción de costos en su 
infraestructura, sino una oportunidad para ofrecer nuevos servicios que no son posibles 
sobre redes de circuitos conmutados (por ejemplo, Click-to-talk en aplicaciones de e-
commerce.) 
1.3.5 Retos para VoIP 
Sin embargo, la tecnología VoIP debe afrontar algunos desafíos antes de poder ofrecer 
un servicio de calidad a los usuarios: 
 
• Las nuevas redes VoIP deben permitir la comunicación con las redes telefónicas 
tradicionales. De no ser así, no habrá interconectividad total. 
• Pero, no sólo hace falta interconectividad con las redes tradicionales de voz; ésta 
debe ser transparente al usuario. Por ejemplo, debe ser posible llamar desde un 
teléfono a una PC sin que el llamante tenga que conocer la dirección IP de la 
PC; debería bastar con la simple marcación a un número del directorio 
telefónico. El gran problema al que nos enfrentamos hoy en día es que no en 
todas partes se cuenta con este servicio, en especial,en zonas rurales donde estas 
llamadas no logran ser enlazadas desde una computadora a un teléfono “común” 
ya que no se cuenta con equipo suficiente (media gateways) en las diversas 
centrales telefónicas de las diferentes compañías telefónicas ubicadas en 
distintas ciudades del país. 
• El uso de una nueva tecnología, como VoIP, no debería implicar una pérdida de 
la funcionalidad ofrecida por las redes tradicionales (por ejemplo, el desvío de 
llamada). 
• La calidad de servicio ofrecida por las redes VoIP debería ser similar a la 
ofrecida por las redes telefónicas de conmutación de circuitos. 
• Finalmente, se necesitan estándares que posibiliten la compatibilidad entre los 
diferentes suministradores de equipos. 
 
1.4 Protocolo IP 
 
El protocolo de Internet (IP) es el protocolo mas representativo del modelo OSI 
utilizado para la capa de Internet. La tarea principal de este protocolo es el 
direccionamiento de los llamados datagramas de información, además administra el 
proceso de fragmentación de dichos datagramas, entendiéndose por datagrama la unidad 
de transferencia que utiliza IP. Este protocolo se caracteriza por que por si solo no 
corrige errores ni controla la congestión por lo que no garantiza la entrega en secuencia 
de los datagramas, esto es función del ruteo (encaminamiento) en la red. 
 
1.4.1 Encabezado IP 
 
Ahora bien, estos datagramas tienen cierta información adicional a la de los 
datos que se quieren transportar, esta información sirve para asegurar que el datagrama 
llegue a su destino y es conocida como encabezado. Entre los elementos más 
importantes de este encabezado tenemos: 
 
• Versión: Identifica la versión del protocolo, la más común es la 4, aunque 
también hay IP versión 6. 
• Total Lenght: La longitud total del encabezado y los datos. 
 23
• ToS: Tipo de Servicio, sirve para identificar a los servicios de calidad que se le 
pueden dar. 
• Identificación: Este ID permite hacer único al datagrama. 
• TTL: Tiempo de Vida, es un contador para saber cuanto tiempo lleva el 
datagrama en la red, con esto se evita que esté circulando indefinidamente. 
• Checksum: Genera un código (algoritmo polinomial) para saber si el 
encabezado viaja sin errores. 
• Dirección de Origen y Destino: Para saber de donde viene y hacia donde va 
dirigido el datagrama. 
 
1.4.2 Direccionamiento IP 
 
Cuando un equipo necesita enviar información a otro éste le envía la 
información mediante la dirección IP, la dirección de red, la máscara y la puerta de 
enlace (gateway). IP utiliza una dirección de 32 bits para identificar a un equipo y la red 
a la cual pertenece. Típicamente se divide en 4 números de 8 bits, por ello se tiene 
valores entre 0 y 255. Existen direcciones que por definición se conservan reservadas, 
es decir, que no están en Internet y por lo tanto pueden ser utilizadas para una red 
interna (lntranet), tal es el caso de la red lO.x.x.x ó 169.x.xx, es por ello que todas las 
direcciones pertenecientes a esta red pueden ser utilizadas por cualquiera que no esté 
conectado a Internet sin tener que pedir permiso a un organismo internacional como es 
en el caso de las demás redes. Corno se verá más adelante en esta Tesis, en el proyecto 
que se analiza se utilizó la red 10/8 para llevar la información concerniente a la 
administración de los equipos ya que únicamente se utiliza para comunicación entre 
equipos y esta información nunca “sale” a Internet. 
 
Una dirección está compuesta por dos elementos: el número de red (identificador 
de la red) y la dirección de la interfaz (host). Hay varios formatos para la dirección IP, 
los cuales se diferencian por el tamaño de la red. Los formatos van de la Clase A a la 
Clase E. La Clase se identifica por la secuencia de los primeros 3 bits. La Clase A son 
las redes más grandes van desde la 0.0.0.1 hasta la 126.0.0.0, la Clase B tiene un rango 
de direcciones que va desde la 128.0.0.0 hasta la 191.255.0.0 (la dirección 127.0.0.0 
está reservada para el localhost, es decir, el propio equipo). La Clase C está 
representada por las redes que van desde la 192.0.1.0 hasta la 223.255.255.0, en cuanto 
a la Clase D se utiliza para funciones multicast (difusión entre más de un dispositivo) 
cuyo rango es desde 224.0.0.0 hasta 239.255.235.255. Finalmente la Clase E, aunque se 
usa únicamente para la investigación, va desde la red 240.0.0.0 hasta 247.255.255.255. 
Estas clases corresponden al direccionamiento classful. 
 
 
 
 
 
 
 
 
 
 
 
Fig. 1-8 Clases de direcciones IP (Classful) 
 24
Con la dirección IP establecida, una red tiene la capacidad de decidir si los datos 
permanecerán en la misma red o serán enviados a otro destino, para lo cual se deben 
enviar los paquetes a un default gateway, el cual no es más que un equipo que conoce 
como llegar al equipo con el que se desea tener comunicación, este default gateway 
puede ser una estación de trabajo con funciones de enrutamiento o bien propiamente un 
enrutador. 
 
Ahora bien, es importante mencionar que una red IP incluye una dirección de 
difusión que se refiere a todos los elementos de la red (broadcast). De acuerdo con el 
estándar IP cualquier campo de host que consista únicamente de “unos” esta reservado 
para esta función, con esto se logra que un sistema envíe un solo paquete que será 
difundido por toda la red, ahorrando los recursos de la misma. 
 
También es importante destacar que se tienen limitaciones de direccionamiento 
en classful debido al uso ineficaz de las direcciones IP, esto es debido a que algunas 
direcciones son muy pequeñas (Clase C con sólo 256 host) y otras muy grandes como es 
el caso de la Clase B con 65,536 host, lo que no deja satisfechos a las empresas que 
necesitan pocas direcciones pero más de 256 ya que si optan por un direccionamiento 
clase B desperdiciarían muchas direcciones. Para evitar este problema a una dirección 
IP se le agrega una mascara de red la cual es una plantilla de 32 bits que hace la 
correspondencia uno a uno con la dirección IP, de tal forma que si el bit está en “uno” 
es indicativo de que su correspondiente bit en la dirección IP es parte del número de red, 
si por el contrario el bit está en “cero”, indica que corresponde al host. Con la máscara 
de red se crean las subredes, es decir, redes más pequeñas dentro de una red con 
direccionamiento classful, con esto se crean las direcciones classless. Usualmente la 
máscara de red se expresa por ejemplo 192.168.8.0/24 que también significa que esta 
red tiene un prefijo de host de 8 bits, es decir, el número de red está compuesto por 24 
bits. [8] 
 
1.5 Factores de VoIP y Calidad de Servicio 
 
La calidad es un aspecto fundamental, no importando de que producto o servicio 
hablemos y claro esta, la telefonía IP no es la excepción. Como ya antes fue 
mencionado, en VoIP la voz viaja en redes destinadas a datos y por lo tanto estas no 
fueron diseñadas para transmitir en tiempo real, en consecuencia, se deben tener 
medidas especiales para garantizar la calidad de las llamadas de voz. 
 
Los factores clave que hay que tomar en cuenta para lograr una buena calidad de 
voz son: retardo (debido a la codificación y decodificación, transporte dentro de la red, 
etc.), perdida de paquetes, el jitter, entre otros. 
 
1.5.1 Periodo de Empaquetamiento y Consideraciones de Ancho de Banda 
 
El retardo en una llamada de VoIP es mucho mayor que en una llamada TDM 
tradicional, esto es debido a las razones anteriormente descritas, como la aplicación de 
diversos algoritmos para la compresión y descompresión de la voz. Para usar la red IP 
de una forma eficaz, la voz recibida de TDM cada 125 µs no se manda inmediatamente a 
la red IP, sino que es acumulada por algunos milisegundos y después sale en un paquete 
IP. Teóricamente es posible reducir el retardo por empaquetamiento a unos 
microsegundos pero esto desperdicia ancho de banda en la red IP y por consiguiente no 
 25
3.0
6.6
12.0
50.0
90.0
150.0170.0190.0
4000.0
1.00
10.00
100.001,000.00
10,000.00
PO
TS
IS
D
N
LL
A
M
A
D
A
 N
A
C
IO
N
A
L
M
A
X.
 L
LA
M
A
D
A
D
ET
EC
TA
B
LE
A
C
EP
TA
B
LE
SU
B
M
A
R
IN
O
S
EN
LA
C
ES
 S
A
TE
LI
TA
LE
S
IN
A
C
EP
TA
B
LE
S
es eficaz, la razón es la siguiente: al momento de hacer el empaquetamiento de la voz, a 
cada paquete IP se le debe agregar un encabezado lo cual hace que entre más corto sea 
el periodo de empaquetamiento mayor será la cantidad de encabezados que se genera y 
no sólo de RTP sino un encabezado de Ethernet, uno de IP y uno más de UDP, lo cual 
genera una gran cantidad de tráfico desperdiciando ancho de banda en la red. 
 
De ahí que la planificación de ancho de banda es un aspecto importante en el 
diseño de la red. La capacidad de los enlaces debe ser comparada a los requerimientos 
de ancho de banda, esto con el objetivo de identificar cuellos de botella o capacidad sin 
usar o con bajo uso. El punto de partida para los cálculos de ancho de banda es la 
velocidad de los datos por canal, donde debe ser considerado, no sólo los datos de voz, 
sino también los diferentes encabezados. 
 
Para el diseño de red, debe ser asumida una utilización máxima de enlace del 
90%, por ejemplo un enlace Gigabit Ethernet no debería transportar más de 900 Mbps, 
y un puerto Fast Ethernet no debería transportar más de 90 Mbps. Estos valores 
corresponden a 7140 para canales GE y 714 para canales 100BT si no se tiene 
compresión de voz. 
 
1.5.2 Retardo (Latencia) 
 
El retardo desde un abonado hasta el otro es el factor más importante para la 
calidad vocal. La recomendación G. 114 de la UIT-T establece que un retardo de más de 
90 ms puede ser notado por abonados sensibles, mientras que abonados “normales” 
empezarán a notar un retardo después de los 150 ms. Cuando se mira el retardo de punta 
a punta, en general, este muestra que el factor más importante para el retardo son los 
Media Gateways, asumiendo una red IP que ha sido diseñada correctamente. 
 
 
 
 
 
 
 
Retardo 
En ms 
 
 
 
 
 
 
 
 
 
 
Fig. 1-9 Recomendación G.114 de la UIT-T para el retardo 
 
 26
Los retardos de un sentido más allá de los 150 ms son notables para los 
humanos. Por consiguiente, es de suma importancia minimizar el retardo. Los valores 
de retardo dependen fuertemente de la red específica y la carga de tráfico de la red. 
 
Como el retardo es un factor muy importante para la voz, el backbone de IP 
tiene que soportar mecanismos de prioridad como el Tipo de Servicio (ToS) para 
garantizar el manejo de prioridad en los datos de voz sobre IP sobre el tráfico de datos. 
 
1.5.3 Jitter 
 
El jitter cuantifica los efectos de retardos en la red al arribo de paquetes en el 
receptor. Los paquetes transmitidos a intervalos regulares desde el origen llegan a 
intervalos irregulares al destino. Un jitter excesivo hace a la voz entrecortada y difícil de 
entender. En otras palabras, el jitter es el retardo del retardo. El jitter es calculado en 
base al tiempo entre las llegadas de paquetes sucesivos. 
 
Para contrarrestar los efectos del jitter se crean los buffers del jitter, los cuales 
consisten en buffers de paquetes que retienen paquetes entrantes por una cantidad 
específica de tiempo y son usados para neutralizar los efectos de las fluctuaciones de la 
red y crear un flujo de paquetes sin problemas en el punto de recepción. 
 
 
 
 
 
 
 
 
 
Paquetes a intervalos Paquetes a intervalos 
 Iguales Diferentes 
 
Fig. 1-10 Representación grafica del Jitter 
 
El retardo y el jitter traen como consecuencia la generación de eco en la señal de 
voz, es decir, después de cierto tiempo la señal de voz vuelve a ser escuchada por el 
receptor provocando una molestia ya que en ocasiones el eco puede tener una potencia 
considerablemente alta originando que no se pueda entender el mensaje original. [4] 
 
1.5.4 Pérdida de paquetes 
 
La pérdida de paquetes ocurre típicamente en ráfagas o periódicamente debido a 
una red continuamente congestionada. Pérdidas periódicas del 5 al 10% de todos los 
paquetes vocales transmitidos pueden degradar la calidad vocal significativamente. 
Ráfagas ocasionales de pérdida de paquetes también pueden hacer a la conversación 
difícil de entender, de ahí que se recomienda que una red de datos deba tener una 
pérdida de paquetes menor al 1%. 
 
En el caso de las redes de VoIP no es conveniente la retransmisión de paquetes 
en caso de pérdida de alguno de ellos como es el caso de TCP, esto es debido a los 
1 2 3 Red IP 1 2 3 
 27
problemas que trae consigo la retransmisión, como por ejemplo, un mayor retardo en la 
recepción de la señal, mayor procesamiento en la señal y la necesidad de un mayor 
buffer para almacenar más tiempo la señal de voz. 
 
Estos son los problemas más comunes en las redes de VoIP, pero para cada uno 
de ellos existe una solución como se verá a continuación. 
 
La pérdida de paquetes puede ser un problema aún mayor dependiendo del tipo 
de red de paquetes que esté siendo usada. En redes IP actuales, todos los marcos de voz 
son tratados como datos. Bajo congestión, las ramas de voz serán descartadas al igual 
que las de datos, estas últimas sin embargo no son sensibles al tiempo, y los paquetes 
descartados pueden ser recuperados con la retransmisión, mientras que los paquetes de 
voz no pueden ser tratados de esta manera. 
 
Algunas de las formas para corregir la pérdida de paquetes de voz son interpolar 
los paquetes de voz perdidos al repetir el último paquete recibido durante el intervalo 
cuando el paquete perdido supuestamente debía ser analizado, este esquema es un 
método simple que llena el tiempo entre tramas de voz no continuas, este mecanismo 
trabaja bien cuando la incidencia de tramas perdidas es poco frecuente; si el número de 
paquetes perdidos en una fila o ráfaga es alta no trabaja muy bien. 
 
Otra forma de corregir la pérdida de paquetes es enviar información redundante 
a expensas de la utilización del ancho de banda; esta aproximación hace una réplica y 
envía el n-ésimo paquete de voz con el paquete n+1; este método tiene la ventaja de 
poder corregir la pérdida del paquete exacto, sin embargo, usa más ancho de banda e 
incrementa el retardo. Finalmente para corregir este problema se puede usar una 
aproximación híbrida con ancho de banda menor del codificador de voz para 
proporcionar información redundante que será llevada en el paquete n+1; esto reduce el 
problema de necesidad de ancho de banda extra pero falla en la resolución del problema 
de retardo. [4] 
 
1.5.5 Codecs, MOS y PESQ 
 
Recordemos que la voz tiene un gran ancho de banda, es decir, la cantidad de 
información necesaria para transmitir de manera exitosa voz es mucho mayor que la 
necesaria para transmitir únicamente datos, esto puede saturar a la red de datos, por ello 
se han creado algunos algoritmos para comprimir la voz, dichos algoritmos son 
llamados codificadores de voz o codecs, de tal forma que se disminuye el ancho de 
banda considerablemente, aunque esto impacta directamente en el retardo, esto debido a 
que conlleva un procesamiento de la señal el cual consume tiempo. De ahí que se hayan 
generado una gran cantidad de codecs dependiendo de las necesidades de la red, por ello 
existen las siguientes recomendaciones de la UIT-T: 
 
• G. 711: Esta recomendación especifica la modulación PCM para la codificación 
de señales vocales aplicable a sistemas de transmisión digitales y equipo 
Terminal. En este caso, no hay compresión vocal y la velocidad de transmisión 
es de 64 kbit/s. La G.711 es también aplicable para módem, tonos DTMF y 
señales de fax. 
• G.723: Esta recomendación detalla una representación codificada usada para 
comprimir voz u otras señales de audio componentes de un servicio multimedia 
 28
a una baja velocidad de bits. Este codificador tiene dos velocidades asociadas: 
6.3 kbps, la cual usa la técnica “Cuantificación de Probabilidad Máxima Multi-
pulso (MP-MLQ) y la de 5.3 kbit/s, la cual usa la técnica“Predicción Lineal 
Excitada de Código Algebraico” (ACELP). 
• G.729A: Esta recomendación describe el algoritmo para la codificación de 
señales vocales a 8 kbps basado en la técnica “Predicción Lineal Excitada de 
Código Algebraico de Estructura Conjugada (CS-ACELP). La letra A al final es 
el Anexo que ocupa, también existe el Anexo B. 
• G. 726: Esta recomendación describe la modulación PCM Diferencial Adaptable 
(ADPCM), un algoritmo para la codificación de voz a 16, 24, 32 ó 40 kbps. Este 
algoritmo codifica la diferencia entre amplitud de muestra de audio actual y la 
amplitud se predice y se adapta a la resolución basándose en valores 
diferenciales recientes. 
 
En la siguiente tabla se muestran las características de cada uno de los codecs 
anteriormente mencionados: 
 
Codec Algoritmo Tasa de 
Transmisión 
Kbps 
Retardo 
end-to-
end en ms 
Calidad 
Vocal 
Comentarios 
G.711 PCM 64 <<1 Excelente Sin compresión, 
uso universal 
G.723 ACELP 5.3, 6.3 67 - 97 Bueno Tiene su origen 
para 
videoconferencias
G.729 A ACELP 8 25 - 35 Bueno El mas usado 
por su poco 
retardo y buena 
compresión 
G.726 ADPCM 16, 24, 32, 
40 
60 Bueno Buena calidad y 
Baja complejidad 
Tabla 1-1 – Comparación entre diferentes Codecs 
 
Muy ligado a los codecs tenemos un concepto interesante que es la calidad de la 
voz, la cual es complicada para obtener un valor o determinarla debido a la gran 
cantidad de variables que se tienen, ya que, por ejemplo, es diferente la voz de una 
mujer a la de un hombre, además de que no todos escuchamos las mismas frecuencias 
de la misma forma y muchos otros factores que influyen en lo que escuchamos, por ello 
para medir la calidad de voz la UIT en su recomendación P.800 propone una prueba de 
calidad de voz subjetiva basada en Resultados de Opinión Media (M0S). Dicha 
recomendación está basada en muestras vocales preseleccionadas grabadas de acuerdo a 
la recomendación P.50 que son reproducidas a un grupo mixto de hombres y mujeres 
bajo condiciones controladas. Los resultados dados por el grupo son ponderados para 
dar una puntuación MOS que va desde 1 (a la peor) a 5 (a la mejor), como se muestra en 
la Tabla 1-2. 
 
El problema con la medición del MOS es que, como su nombre lo indica, es 
subjetiva, es de opinión, por lo tanto se necesitaba de una forma más objetiva de 
medirla, aunque esta no represente totalmente la calidad de la voz. Así surge el PESQ 
 29
(Perceptual Evaluation os Speech Quality) como un importante estándar para medir la 
calidad de la voz, dicho estándar se encuentra en la recomendación P.862 de la UIT. 
 
PESQ predice el resultado de la calidad similar a los que se obtienen con el 
MOS, de hecho se calibra contra resultados obtenidos mediante MOS. Con esta 
evaluación se puede tener buena precisión en pruebas de niveles de entrada en un codec, 
errores en el canal de transmisión, perdida de paquetes, ruido ambiental, entre otras. 
Además de que trabaja bien para codecs como G.711, G.729 y G.723. Por ello es’ muy 
utilizado en pruebas de desempeño de codecs, selección de equipo de VoIP y monitoreo 
de la red. 
 
Básicamente lo que se hace en este tipo de pruebas es insertar una señal de voz 
conocida al sistema bajo prueba y comparar la señal de salida con la de entrada (señal 
de referencia). Lo que se compara entre una señal y otra es: 
 
• El nivel de alineación de potencia: Para comparar las señales, la señal de 
referencia y la señal degradada deberían tener el mismo nivel de potencia. 
• Alineación de tiempo: Se analiza que tanta diferencia en tiempo existe entre la 
señal de entrada y la de salida, con esto se puede obtener el retardo. 
• Transformación auditiva: Se obtiene una representación de tiempo y de 
frecuencia de la señal percibida lo que se conoce como sensación superficial. 
• Proceso de molestias: La diferencia entre la sensación superficial y la señal 
degradada es conocido como error superficial, él cual muestra las diferencias 
audibles introducidas por el sistema bajo prueba. 
 
Este análisis proporciona los errores en el sistema, los cuales son convertidos en 
puntuaciones de calidad de voz. Esta puntuación esta basada en la escala de la calidad 
de escucha, la cual es la anteriormente mencionada MOS cuya escala es: 
 
MOS Resultado de 
Opinión
Esfuerzo para 
Escuchar
Volumen 
5 Excelente No se requiere 
esfuerzo para 
escuchar. 
Mucho más alto de 
lo preferido. 
4 Bueno Es necesario un 
poco de Atención, 
pero no se requiere 
esfuerzo. 
Más fuerte de lo 
Preferido. 
3 Justo Se requiere un 
esfuerzo moderado 
Preferido 
2 Pobre Se requiere un 
esfuerzo 
considerable 
Más bajo de lo 
preferido. 
1 Malo No se entiende el 
mensaje 
Mucho mas bajo de 
lo preferido. 
Tabla 1-2 – Resultados de Opinión Media (MOS) para la voz. 
 
 
 30
Como se analizó anteriormente, existe diversos codecs, cada uno con diferentes 
algoritmos de compresión de voz y diferentes tasas de transmisión, es por ello que como 
es de esperarse, los niveles de MOS aceptables para cada uno de ellos sea diferente. A 
continuación se muestran los valores de MOS aceptables para los codec anteriormente 
vistos: 
 
3.9
3.6 3.4
0
0.5
1
1.5
2
2.5
3
3.5
4
MOS
G.711 G.729 G.726
Codec
MOS VS Codec
 
Fig. 1-11 – MOS VS Codec 
 
Así mismo, este valor de MOS aceptable varía dependiendo de la cantidad de 
veces que los paquetes de voz sean codificados, ya que entre más veces se procese la 
señal, menor será la calidad de la voz. Es de esperarse que no siempre se procese la voz 
una sola vez, de hecho. lo más común es hacerlo dos veces, la primera para convertirlo 
de señal de voz digital a paquetes de voz y la segunda para hacer el proceso inverso, 
esto debido a que el destino pudiera ser otro teléfono de la red PSTN. En la Figura 1-12 
se muestra el valor de MOS aceptable para los codecs anteriormente vistos cuando se 
tienen varias codificaciones. Note que, por ejemplo, G.729 x 2 significa que la señal de 
voz fue codificada con G.729 y después decodificada antes de alcanzar al usuario final. 
 
0
0.5
1
1.5
2
2.5
3
3.5
4
MOS
G.729 G.729 x G.726 G.729 x 2 G.729 x 3
 
Fig. 1-12 – MOS de varios procesos de codificación y descodificación. 
 
 
 31
1.5.6 Supresión de Silencio, Ruido Confortable y VAD 
 
Una conversación típica tiene entre un 35 % y un 50 % de silencio, por eso para 
disminuir la carga en la red se ha creado un dispositivo capaz de detectar los periodos de 
silencio para así eliminarlos, con lo cual se ahorra un gran porcentaje del ancho de 
banda utilizado. Este dispositivo es el conocido como Detector de Actividad de Voz o 
VAD por sus siglas en inglés. El mecanismo de supresión de silencio puede ser 
realizado a nivel del codec de audio, por ejemplo, el Anexo A de la recomendación 
G.723.l de la UIT-T introduce una estrategia de supresión de silencio para el codec 
G.723.l. Sin embargo, no existen mecanismos similares en otros codecs tales como 
G.711. 
 
El problema surge cuando realmente no se envía ningún dato en la llamada, 
cuando se suprime el silencio de forma total. Esto debido, en primer lugar, a que el 
receptor (humano) tiene la sensación de que la llamada se ha cortado o que perdió la 
comunicación con el otro extremo. Además, si ningún dato es enviado en la 
conversación se puede escuchar un “clic” resultante del cambio de los niveles de señal 
entre el sonido previamente enviado (conversación) y el silencio insertado cuando el 
sistema no tiene nada más que enviar. 
 
Para evitar los vacíos de información, los momentos en los que no hay 
conversación tienen que ser llenados con un ruido confortable, el cual contiene un 
mensaje compuesto por un único octeto de bits que le indican al receptor que debe 
reproducir un ruido a un nivel especificado. Este mensaje deberá ser enviado el 
principio de un periodo de silencio, el cual obviamente indica la transición de una 
conversación a silencio. 
La supresión de silencio y los mecanismos de generación de ruido confortable

Continuar navegando