Logo Studenta

Analisis-espectral-y-simulacion-de-las-vocales---1998---Ingenieria-Electronica

¡Este material tiene más páginas!

Vista previa del material en texto

I N S T I T U T O P O L I T E C N I C O N A C I O N A L 
E S C U E L A SUPERIOR DE INGENIERIA MECANICA Y E L E C T R I C A 
SCCCIOfl bl CSTM5I0S bl P 0 5 Q M D 0 C WVESTIQÍ3CIQK 
ANALISIS ESPECTRAL Y SIMULACION DE LAS 
VOCALES DEL IDIOMA ESPAÑOL 
T E S I S QUE PARA O B T E N E R E L GRADO D E 
MAESTRO E N CIENCIAS E N INGENIERIA E L E C T R O N I C A , 
OPCION INSTRUMENTACION. 
P R E SENTA 
EDMUNDO S A N C H E Z S A L G U E R O 
Forma DEPI / 9 
DIRECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN 
DIVISIÓN DE ESTUDIOS DE POSGRADO 
ACTA DE REVISIÓN DE TESIS 
7 1 6 1 0 I 0 I i\ 1 5 
Número de registro 
En la ciudad de M é x i c o , D. F . , siendo las 1 2 : 0 0 horas del día 30 del mes de 
^ B R I L de 1998 > s e reua&ton,los miembros de l aQpi i s ión Revisorade Tesis designada 
por el Colegio de Profesores de E s t ^ ^ ^ P ó s g f a d p e fayestigg^iójy' Ú A E . S . I . H . E . para 
DRA. ANA MARIA MARTINEZ ENRmíítTE I N V E S T , G A C , O N M. EN C. RAUL PEÑA RIVERO 
E L P R E S I D E N J E - D E L COLEGIO 
/i Ht¿& fiacOiec, 
cm u#t qncut ccviitic y ledfeefo. 
/i SU* WÍ., 
cm cupto*. 
sss 
fin áiemfine m nti cona^m. 
Indice. 
Indice de Figuras. 
Nomenclatura. 
Resumen. 
Abstract. 
Introducción. 
Objetivo. 
Justificación. 
Contenido del trabajo. 
1. E l proceso de producción de la voz. 
1.1 E l mecanismo de producción de la voz. 
1.2 Los fonemas. ... 
1.3 Los sonidos de voz. 
1.3.1 Estructura acústica. 
1.3.1.1 Vocales. 
1.3.1.2 Consonantes. 
1.4 Modelos acústicos. 
2. Análisis espectral. ... 
2.1 E l espectrógrafo de sonido. 
2.2 Análisis espectral de corta duración. 
2.3 Ventanas. 
3. Síntesis de voz. 
3.1 Sintetizadores por formantes. ... 
4. Resultados. 
Conclusiones. 
Apéndice A. 
Bibliografía. 
ibones os vngw&is 
1.1 Corte sagital del aparato vocal humano. 
1.2 Diagrama esquemático del aparato vocal. 
1.3 Configuración del conducto vocal. 
1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales, 
(b) Analogía eléctrica correspondiente. 
1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas. 
2.1 Modelo simplificado de la producción de la voz. 
2.2 Sonogramas de banda ancha de las vocales del idioma español 
producidos por un espectrógrafo de sonido. 
2.3 Sonogramas de banda estrecha de las vocales del idioma español 
producidos por un espectrógrafo de sonido. 
2.4 Diagrama esquemático de un espectrógrafo de sonido. 
2.5 Espectro de una ventana rectangular. 
2.6 Evaluación sucesiva del espectro. 
2.7 Ventana espectral de Hamming. 
3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes. 
3.2 Modelo del mecanismo de producción de voz. ... 
3.3 Diagrama a bloques del Sintetizador de Klatt. ... 
3.4 Resonador digital. 
4.1 Espectro de una señal en tres dimensiones. 
4.2 Representación de un espectrograma digital. 
4.3 Espectrograma para la vocal a (palabra baba). ... 
4.4 Espectrograma para la vocal e (palabra bebe). ... 
4.5 Espectrograma para la vocal / (palabra vivó). ... 
4.6 Espectrograma para la vocal o (palabra bobo). ... 
4.7 Espectrograma para la vocal u (palabra buba). ... 
4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ... 
wrones vs vngu&ts 
1.1 Corte sagital del aparato vocal humano. 
1.2 Diagrama esquemático del aparato vocal. 
1.3 Configuración del conducto vocal. 
1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales, 
(b) Analogía eléctrica correspondiente. 
1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas. 
2.1 Modelo simplificado de la producción de la voz. 
2.2 Sonogramas de banda ancha de las vocales del idioma español 
producidos por un espectrógrafo de sonido. 
2.3 Sonogramas de banda estrecha de las vocales del idioma español 
producidos por un espectrógrafo de sonido. 
2.4 Diagrama esquemático de un espectrógrafo de sonido. 
2.5 Espectro de una ventana rectangular. 
2.6 Evaluación sucesiva del espectro. 
2.7 Ventana espectral de Hamming. 
3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes. 
3.2 Modelo del mecanismo de producción de voz. ... 
3.3 Diagrama a bloques del Sintetizador de Klatt. ... 
3.4 Resonador digital. 
4.1 Espectro de una señal en tres dimensiones. 
4.2 Representación de un espectrograma digital. ... 
4.3 Espectrograma para la vocal a (palabra baba). ... 
4.4 Espectrograma para la vocal e (palabra bebe). ... 
4.5 Espectrograma para la vocal / (palabra vivó). ... 
4.6 Espectrograma para la vocal o (palabra bobo). ... 
4.7 Espectrograma para la vocal u (palabra buba). ... 
4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ... 
Pag. 
4.9 Gráficas representativas de la porción estable de la vocal e y promedio, 
para una pronunciación del locutor 1. ... ... ... ... 64 
4.10 Gráficas promedio de las cinco pronunciaciones de la vocal e y promedio 
total para el locutor 1. ... ... ... ... 64 
4.11 Gráfica total resultante de la pronunciación de los tres locutores 
para la vocal e, que indica sus frecuencias formánticas. ... ... 65 
4.12 Modelo para generar los sonidos vocálicos. ... ... ... 67 
A. 1 Vocal A. Parte estable de la vocal. Promedio de una pronunciación. 
Promedio de cinco pronunciaciones. Promedio total. ... ... 72 
A.2 Vocal E . Parte estable de la vocal. Promedio de una pronunciación. 
Promedio de cinco pronunciaciones. Promedio total. ... ... 73 
A.3 Vocal I . Parte estable de la vocal. Promedio de una pronunciación. 
Promedio de cinco pronunciaciones. Promedio total. ... ... 74 
A.4. Vocal O. Parte estable de la vocal. Promedio de una pronunciación. 
Promedio de cinco pronunciaciones. Promedio total. ... ... 75 
A.5 Vocal U. Parte estable de la vocal. Promedio de una pronunciación. 
Promedio de cinco pronunciaciones. Promedio total. ... ... 76 
iii 
U G Velocidad volumétrica del flujo de aire a través del orificio glotal. 
U M Velocidad volumétrica acústica del flujo de aire en la boca. 
U N Velocidad volumétrica acústica del flujo de aire en los orificios nasales. 
P s Presión del sonido. 
Fn Frecuencias formánticas o formantes. 
/ Longitud total promedio del conducto vocal. 
p Variación de la presión del sonido en un tubo acústico. 
u Variación de la velocidad del volumen del flujo de aire. 
p Densidad del aire. 
c Velocidad de propagación del sonido. 
A Area de la sección transversal de un tubo acústico o función de área. 
y Amplitud de la deformación de las paredes de un tubo acústico. 
S Perímetro de un tubo acústico. 
m Masa de las paredes de un tubo acústico. 
b Resistencia mecánica de las paredes de un tubo acústico. 
k Rigidez de las paredes de un tubo acústico. 
/• Resistencia del flujo de aire. 
. (o Frecuencia de la onda acústica. 
Va (jco) Función de transferencia de un tubo acústico uniforme sin pérdidas. 
x(nT) Señal muestreada uniformemente. 
x(t) Función analógica. 
/ Tiempo. 
X(k) Muestras espectrales. 
W"K Función exponencial. 
N Número de muestras de una señal digital. 
MT Separación entre muestras sucesivas de una señal digital. 
T[ ] Transformación aplicada a una señal de voz. 
/'v 
w( ) Ventana de análisis. 
WR ( ) Ventana rectangular. 
Wh ( ) Ventana de Hamming. 
y(nT) Muestras a la salida de un resonador digital. 
/ Frecuencia de la onda acústica en Hertz. 
BW Ancho de banda de los formantes. 
T Período de muestreo. 
v 
La comunicación hablada ha sido siempre de gran interés para el ser humano. Muchos 
esfuerzos se han dedicado a su conocimiento y comprensión, desde los análisis articulatorios 
hasta los fonéticos y más recientemente con la ayuda de las computadoras digitales se han 
podido calcular algoritmos que antes eran prácticamente imposibles de desarrollar debido a la 
gran cantidad de operaciones que involucran. Estas representaciones matemáticas sirven de 
base para el análisis y la síntesis de la voz. Una ayuda importante en el análisis de la voz es el 
espectrograma de sonido, el cual representa una visualización de tiempo-frecuencia-intensidaddel espectro de corta duración, desarrollado por medio del algoritmo de la Transformada 
Rápida de Fourier. 
E l propósito de esta tesis es determinar las tres primeras frecuencias formánticas de las 
vocales del idioma español hablado en la Ciudad de México, mediante el uso de espectrogramas 
digitales generados por medio del análisis de Fourier de corta duración. 
Los valores obtenidos fueron comprobados por medio de la síntesis, a través del uso del 
sintetizador por formantes de Klatt, utilizando sólo la parte correspondiente a los resonadores 
en cascada. 
vi 
Speech communication has always been of great interest for human being. Many efforts 
have been dedicated to its knowledge and understanding, since articulatory to phonetic analysis 
and recen'tly, with digital computers aid, it has been able to calcúlate algorithms that were 
almost impossible to develop before due to the great quantity of operations that they involve. 
Such mathematical representations serve as the basis for the analysis and synthesis of speech. 
An important aid in the analysis of speech is the sound spectrogram, which represents a time-
frequency-intensity display of the short-time spectrum, implemented by the Fast Fourier 
transform algorithm. 
The purpose of this thesis is to determine the first three formant frequencies for spanish 
vowels speaking in México City, through the use of digital spectrograms generated by mean of 
the short time Fourier analysis. 
The obtained valúes were verified by mean of synthesis, through the use of the Klatt's 
formant synthesizer, making use only of the section corresponding to cascade resonators. 
v/7 
wmzovTieen&n 
Uno de los principales medios de comunicación del ser humano es la voz. Un modo de 
caracterizar la voz es en términos de la forma de la onda acústica, lo que es muy útil en aplica-
ciones prácticas. E l estudio de la voz implica un conocimiento indirecto de otras funciones co-
mo: la percepción, el aprendizaje, la memoria y la inteligencia. 
L a acústica fonética del habla incluye en un amplio sentido la teoría de la voz como un 
conocimiento de ondas y como la voz se produce y se escucha. L a aplicación de la fonética 
acústica es muy importante en los estudios descriptivos de una lengua o de un dialecto. La fo-
nética acústica surgió pocos años antes de la segunda guerra mundial. Anteriormente la fonética 
era totalmente fisiológica o articulatoria y con el conocimiento anatómico de los órganos de fo-
nación se pudieron realizar descripciones de los sonidos de la voz definidos por su producción 
dentro del conducto vocal. R. Jakobson, G. Fant, M. Gunnar y M. Halle en su obra 
"Preliminaries to Speech Analysis" [1] cambian totalmente el panorama, ya que establecen toda 
una serie de estudios basados exclusivamente en los rasgos acústicos de las realizaciones fone-
máticas. A partir de esta obra se consideran principalmente los estudios basados en los rasgos 
acústicos de los sonidos. Desde el punto de vista de la ingeniería, la voz se trata como una for-
ma de onda definida por las variaciones de la presión sonora en un punto frente al orador. E l 
estudio del aspecto exterior de los fenómenos fonológicos hace que el análisis acústico se des-
taque en primer plano, ya que es la imagen acústica y no la imagen motriz la que es enfocada 
por el sujeto hablante. 
La fonética acústica se encarga de estudiar las componentes que conforman la onda so-
nora de los sonidos articulados y de buscar cual o cuales de ellos son imprescindibles para su 
reconocimiento. 
Uno de los principales propósitos del análisis de la voz es extraer los aspectos o pará-
metros que representen características importantes en la forma de onda. Los dos principlaes pa-
rámetros acústicos de la voz, en el sentido de que son parámetros del conducto vocal, son los 
formantes y la frecuencia fundamental. 
Con el desarrollo de instrumentos de medición y de la informática se han podido cono-
cer objetivamente las características o las cualidades de los sonidos (cantidad, intensidad, fre-
cuencia fundamental y estructura formántica); características que antes eran prácticamente im-
posibles de analizar y que se establecían subjetivamente en base a la percepción de los investi-
gadores. 
Hay una abundante bibliografía aplicada a lenguas que no son el español (principalmente 
el inglés); pero su desigualdad es bastante manifiesta, ya que las variantes alofónicas del español 
son más numerosas. Establecer de un modo definitivo y por igual-las características de una len-
gua como la nuestra es una labor ardua y larga. 
A pesar de que los principales fenómenos fónicos de Hispanoamérica encuentran una 
representación adecuada en los trabajos realizados en nuestra lengua [6], la mayoría de éstos 
pertenecen al español europeo. Los sonidos analizados en este trabajo pertenecen al español de 
México y particularmente al hablado en la Ciudad de México y los resultados obtenidos son sa-
tisfactorios; sin embargo queda mucho por hacer, como por ejemplo, analizar los mismos soni-
dos para cada una de las diversas regiones de nuestro país. 
Mucho tiempo se especuló sobre la aplicabilidad de técnicas digitales en muchas áreas 
del procesamiento de señales; sin embargo, fue hasta mediados de los 60's que comenzó a sur-
gir una teoría más formal del procesamiento digital de señales. Un gran impulso se dio en este 
campo con un método propuesto por Cooley & Tukey (1965) [9] para computar la Transfor-
mada Discreta de Fourier. A esta serie de técnicas se les conoce como la Transformada Rápida 
de Fourier, que reduce el tiempo de cálculo de la Transformada Discreta de Fourier. 
E l resultado de estos desarrollos ha llevado a una gran variedad de aplicaciones en los 
problemas de procesamiento de señales, desde los espectros de baja frecuencia en sismología, 
los espectros acústicos del sonar y la voz, hasta los espectros de vídeo de los sistemas de radar. 
Algunas de las aplicaciones más importantes del procesamiento digital de señales han 
sido en el área del procesamiento de la voz, incluyendo el análisis espectral, los sintetizadores 
de voz, los sistemas de predicción lineal y los sistemas de respuesta de voz por computadora. 
2 
Objetivó: 
E l objetivo de esta tesis es determinar, a través de espectrogramas digitales, la frecuen-
cia aproximada de los tres primeros formantes de las vocales del idioma español hablado en la 
Ciudad de México. 
Justificación: 
Dado que la mayoría de los estudios de nuestro idioma han sido efectuados para el es-
pañol europeo y de que existe una gran variabilidad en su pronunciación en las diferentes zonas 
geográficas en donde se habla; con este trabajo se pretende obtener algunos parámetros repre-
sentativos de los sonidos vocálicos del español hablado en la Ciudad de México que aporten, 
aunque en pequeña escala, algo al conocimiento universal de nuestra lengua. 
Contenido del trabajo: 
La tesis se divide en cinco capítulos, dentro de los que se abordan los conceptos nece-
sarios para el desarrollo del trabajo mismo; así como los resultados y conclusiones a los que se 
llegó. 
En el Capítulo 1 se da un panorama de como se produce la voz en el aparato vocal hu-
mano, las unidades básicas que conforman un lenguaje, los diferentes sonidos de voz y el mode-
lo acústico del conducto vocal humano. 
En el Capítulo 2 se hace la descripción de las herramientas matemáticas que dan lugar a 
los espectrogramas digitales para el análisis y caracterización de las señales de voz. 
E l Capítulo 3 da una breve descripción de los métodos de síntesis de voz; así como de 
las configuraciones generales de los sintetizadores de voz y en particular el sintetizador por 
formantes utilizado para corroborar los resultados obtenidos mediante el análisis de diversas 
señales de voz. 
3 
En el Capítulo 4 se exponen los espectrogramas digitales de algunas señales, específi-
camente las partes correspondientesa los sonidos vocálicos . 
Finalmente se hacen algunas conclusiones y recomendaciones para trabajos posteriores 
que pudieran llevar a una mejor caracterización de los sonidos analizados. 
E l presente trabajo forma parte de las investigaciones que en el área del procesamiento 
de las señales de voz se desarrollan en el Laboratorio de Investigación en Procesamiento de 
Señales (LIPSE) de la E S I M E en el Instituto Politécnico Nacional de México, con la finalidad 
crear tecnología nacional en el área mencionada. 
4 
EL PROCESO DE PRODUCCION DE LA VOZ 
Para poder aplicar las técnicas del procesamiento digital de señales a los problemas de la 
comunicación hablada, es muy importante entender los fundamentos del proceso de la produc-
ción de la voz; así como también considerar los diferentes tipos de sonidos que existen en la 
\ 
voz humana. 
Al considerar el proceso de la comunicación hablada, es útil pensar en el mensaje repre-
sentado en alguna forma abstracta en el cerebro de un orador. A través de un proceso complejo 
de producción del habla, la información en el mensaje se convierte en señal acústica. E l mensaje 
se convierte primero en señales nerviosas que controlan el mecanismo articulatorio (el movi-
miento de la lengua, la boca, etc.), efectúan una secuencia de gestos y dan como resultado una 
forma de onda acústica que contiene la información del mensaje. 
E l habla transporta información simultánea de al menos tres clases: lingüística, sociolin-
gúística y personal. La más importante es la información lingüística que es considerada como el 
significado de la expresión. La información sociolingüística nos indica que un orador proviene 
de una determinada región y clase socioeconómica. L a información personal identifica al orador 
en cuanto a las características de su voz y hábitos articulatorios. 
7.1 EL MECANISMO DE PRODUCCION DE LA VOZ. 
E l aparato fonador del hombre está íntimamente ligado con el aparato respiratorio. L a 
fonación se lleva a efecto por el aparato humano diseñado para respirar y comer. Los órganos 
que forman el aparato respiratorio más los órganos de la boca tienen participación en la pro-
ducción de la voz. En la figura 1.1 se muestra un corte sagital del aparato vocal humano. 
Las estructuras que componen el aparato respiratorio pueden clasificarse en vías 
5 
respiratorias y vías de conducción. Las vías respiratorias son aquellas partes relacionadas direc-
tamente con el intercambio de gases (principalmente los pulmones). Las vías de conducción 
proveen un medio por el cual el aire puede entrar o salir y son de particular interés para el es-
tudio de la voz, éstas son: las cavidades orales y nasales, la faringe, la laringe, el esófago y la 
tráquea. 
Figura 1.1. Corte sagital del aparato vocal humano. 
* La tráquea, es un conducto cuasi-cilíndrico de aproximadamente 12 cm de longitud y de 1.5 
a 2 cm de diámetro [3]. Su extremidad superior soporta a la laringe y su extremidad inferior se 
divide en dos ramas o bronquios de longitudes y secciones desiguales que permiten el paso del 
aire a los pulmones. 
6 
* La laringe es un conducto cartilaginoso que por un extremo se comunica con la faringe y por 
el otro con la tráquea. Sirve para el paso del aire, siendo a su vez el órgano productor de soni-
dos, los que al ser modificados posteriormente por las cámaras supra e infralaríngeas dan como 
resultado la voz humana. En la producción de algunos de los sonidos participan las cuerdas vo-
cales; cuando se encuentran en tensión, el aire espirado las hace oscilar y como resultado se 
producen los sonidos vocalizados. En el lenguaje articulado también participan la lengua, la 
cavidad bucal, los labios y la cavidad nasal [2]. En el interior de la laringe se encuentran las 
cuerdas vocales superiores e inferiores, separadas las derechas de las izquierdas por un espacio 
alargado que se denomina glotis. Entre las cuerdas vocales superiores e inferiores existe un es-
pacio llamado ventrículo de la laringe. Las cuerdas vocales superiores son dos láminas aplana-
das que se extienden desde el ángulo entrante del cartílago tiroides hasta la cara anteroexterna 
del aritenoides; miden alrededor de 20 mm de longitud en el hombre y presentan dos caras y 
dos bordes [3]. La cara superior forma parte de la porción supraglótica; la inferior corresponde 
al ventrículo de la laringe. E l borde externo se continúa con el pliegue aritenoepiglótico y el in-
terno es libre y forma con el lado opuesto un espacio triangular de base posterior. Las cuerdas 
están constituidas por un pliegue de la mucosa laríngea que contiene en su espesor al ligamento 
tiroaritenoideo superior. Las cuerdas vocales inferiores también son aplanadas y se extienden 
del ángulo entrante del tiroides a la apófisis vocal del aritenoides. Miden de 20 a 25 mm de 
longitud en el hombre y así como las superiores, presentan dos caras y dos bordes [3]. L a cara 
superior, horizontal, forma el piso del ventrículo; la inferior forma parte de la porción subglóti-
ca. E l borde externo, grueso, corresponde a la cara interna del cartílago tiroides y al músculo ti-
roaritenoideo inferior; el borde interno, libre y delgado, forma con el lado opuesto un espacio 
que tiene la forma de triángulo isósceles de base posterior, llamado glotis. E l esqueleto de estas 
cuerdas vocales inferiores lo forma el ligamento tiroaritenoideo inferior y poseen además un 
fascículo del músculo tiroaritenoideo. E l triángulo que constituyen las cuerdas vocales inferio-
res es más estrecho que el limitado por las superiores. Desde el punto de vista funcional, son las 
cuerdas vocales inferiores las esenciales para la fonación, las superiores se pueden considerar 
como partes accesorias. Al respirar sin fonación las cuerdas vocales se separan al máximo; en 
tanto que cuando hay una presión bajo la glotis entran en vibración. 
7 
* La glotis es el espacio comprendido entre los bordes libres de las cuerdas vocales inferiores; 
sus dimensiones varían con los movimientos. En estado normal (sin fonación), la glotis mide en 
su base de 7 a 8 mm en el hombre y de 5 a 6 mm en la mujer [3]. La glotis se abre y cierra se-
gún las necesidades de la emisión de voz y también con las fases respiratorias. L a presión de ai-
re subglótica y las variaciones temporales del área glotal determinan la velocidad del volumen 
del flujo de aire glotal expelido hacia el conducto vocal. 
* El esófago es el conducto que va desde la faringe hasta el estómago. Se encuentra dirigido 
verticalmente y desciende por la parte inferior del cuello y el toráx hasta el diafragma, lo atra-
viesa, llega a la parte superior de la cavidad abdominal y desemboca en el estómago. Su diáme-
tro en estado de distensión no presenta un calibre uniforme. 
* La faringe sirve para el paso de los alimentos de la cavidad bucal al estómago y para el paso 
del aire de la cavidad nasal a la laringe. 
* El conducto vocal se considera como un tubo acústico de sección no uniforme, que comienza 
en la glotis y termina en los labios; y su forma varia con respecto al tiempo. E l conducto vocal 
consiste de la faringe y la boca y su longitud total promedio en el hombre adulto es aproxima-
damente 17.5 cm. E l área de su sección transversal está determinada por la colocación de la 
lengua, labios, mandíbulas y el velo del paladar; y puede variar de cero (cierre completo) a 
alrededor de 20 cm2'. Una cavidad auxiliar, el conducto nasal, se puede acoplar al conducto 
vocal por la acción del velo del paladar, para producir los sonidos nasales del habla. E l conduc-
to nasal comienza en el velo del paladar y termina en los orificios nasales. En los sonidos no na-
sales el velo del paladar cierra la cavidad nasal y ningún sonido se radia por los orificios nasales. 
En la producción normal de la voz, la cavidad del pecho se expande y se contrae empu-
jando aire desde los pulmones. E l flujo de aire de los pulmones pasaa través de las cuerdas vo-
cales. Si las cuerdas vocales están separadas, como es normal durante la respiración, el flujo de 
aire de los pulmones tendrá paso libre relativamente hacia la faringe y la boca y/o la cavidad na-
sal. Si las cuerdas vocales se ajustan y tensan (como en los sonidos sonoros) de forma que haya 
un paso angosto entre ellas, el flujo de aire hará que se succionen entre si. Tan pronto como 
éstas se junten no habrá flujo de aire y la presión bajo ellas aumentará hasta que se separen otra 
vez. E l flujo de aire entre ellas hace que se succionen nuevamente y el ciclo vibratorio continua-
rá modulando el aire en soplos o pulsos discretos. E l flujo de aire expelido se percibe como 
voz. Con el cambio de posición de los diferentes articuladores durante el habla continua, la 
forma de las diferentes cavidades cambia drásticamente. 
1.2 LOS FONEMAS. 
L a información comunicada a través del habla es intrínsecamente de naturaleza discreta; 
es decir que se puede representar por una concatenación de elementos de un conjunto finito de 
símbolos llamados fonemas. Cada lengua tiene sus propios fonemas distintivos. 
L a unidad básica para describir como la voz lleva información lingüística es el fonema 
[4]. E l fonema es el elemento básico del lenguaje hablado, que corresponde aproximadamente a 
un carácter alfabético en el texto escrito. Aproximadamente se puede decir que un fonema es 
un grupo de sonidos similares, pero no idénticos, que difieren uno del otro de acuerdo al con-
texto en el que ocurren; que tienen una función distintiva y que no pueden descomponerse en 
una sucesión de segmentos que posean tal función. Estrictamente un fonema no es un sonido, 
sino una abstracción para un conjunto de sonidos. Los miembros individuales de este conjunto 
se llaman alófanos, es decir, un alófono son las diferentes formas en que se puede pronunciar 
un fonema. En un lenguaje, el conjunto de fonemas son el conjunto de unidades que se requie-
ren para representar expresiones de una forma no ambigua. 
Los fonemas son unidades lingüísticas que no tienen significación por si mismas; pero 
con una función diferenciadora capaz de cambiar el significado de un morfema, una palabra o 
una frase cuando se les reemplaza por otro. E l ensamble de fonemas según las leyes particulares 
de cada lengua permite reconstruir palabras habladas; sin embargo la asociación de varios fo-
nemas no da necesariamente una palabra comprensible. La yuxtaposición de dos fonemas con-
duce únicamente a la percepción de dos sonidos separados por un tiempo muerto; en tanto que 
la transición de un fonema a otro es lo que lo hace inteligible. E l número de fonemas varía para 
9 
cada lengua, su número típico está entre 30 y 50 [5]; en español existen 28, de los cuales cinco 
tienen función vocálica y los demás función consonántica. 
Los fonemas están constituidos y se identifican por medio de sus rasgos distintivos [6]: 
prosódicos (tono, fuerza e intensidad), intrínsecos de sonoridad (vocálico, no vocálico, conso-
nántico, nasal, etc.), e intrínsecos de tonalidad (grave, bemolizado, etc.); es así que los rasgos 
distintivos son los últimos constituyentes de una lengua. 
Las vocales tienen el rasgo distintivo vocálico que desde el punto de vista acústico se 
caracteriza por la presencia de una estructura formántica netamente definida; en tanto que des-
de el punto de vista articulatorio, este rasgo se debe principalmente a una excitación producida 
al nivel de la glotis y la ausencia de obstáculos al paso del aire fonador a través de las cavidades 
supraglóticas. La posición de los dos o tres primeros formantes proporciona la identificación 
de las vocales. 
Las consonantes poseen el rasgo consonántico, que se muestra bajo el efecto de una 
disminución de la energía total y por la presencia de no resonancia en su espectro. E l rasgo 
consonántico se caracteriza por la presencia de un obstáculo en las cavidades supraglóticas. 
1.3 LOS SONIDOS DE VOZ. 
E l lenguaje fonético articulado propio del hombre consiste de un conjunto específico de 
ruidos espiratorios y también inspiratorios que se generan en el conducto vocal y que pueden 
combinarse o no con los sonidos faríngeos y bucales, de lo que proviene la voz articulada. Por 
tanto, en la formación de las palabras la parte predominante corresponde al conducto vocal. 
La figura 1.2 muestra un diagrama esquemático del mecanismo de producción de la voz 
en el humáno. E l diagrama incluye el sistema subglotal, compuesto por los pulmones, bronquios 
y tráquea. Este sistema subglotal funciona como fuente de energía para la producción de la voz. 
La voz es simplemente una onda acústica radiada por este sistema cuando el aire es expelido 
desde los pulmones y el flujo de aire resultante es perturbado por una constricción en alguna 
10 
parte del conducto vocal. 
Los pulmones están representados por el depósito de aire a la izquierda. Los músculos 
de la caja torácica elevan el aire en los pulmones a una presión subglótica; esta presión expele 
un flujo de aire con velocidad volumétrica U G a través del orificio glotal y se produce una pre-
sión local de Bernoulli [7]. Las cuerdas vocales representadas como un oscilador mecánico 
actúan como una función de las presiones subglótica y de Bernoulli. Los conductos vocal y na-
sal se muestran como tubos cuya sección transversal cambia con la distancia. Las velocidades 
volumétricas acústicas de la boca y los orificios nasales son U M y. U N respectivamente. La pre-
sión del sonido Ps al frente de la boca es aproximadamente una superposición lineal de las deri-
vadas con respecto al tiempo de U M y de UN. 
Figura 1.2. Diagrama esquemático del aparato vocal. 
E l sonido se puede generar en el sistema vocal en tres formas de acuerdo a su forma de 
excitación. Los sonidos sonoros se producen elevando la presión del aire en los pulmones, for-
zando el flujo a través de la glotis con la tensión de las cuerdas vocales ajustada de tal forma 
que vibren, produciendo pulsos de aire cuasiperiódicos de amplio ancho de banda que excitan al 
conducto vocal. A mayor tensión de las cuerdas vocales, la frecuencia fundamental de la voz es 
más alta. La frecuencia fundamental varía de persona a persona: 350 Hz para niños, 250 Hz pa-
ra mujeres y 125 Hz para hombres aproximadamente. Los sonidos fricativos (no sonoros) se 
generan formando una constricción (obstrucción) en algún punto del conducto vocal, general-
mente hacia el final de la boca, y forzando el aire a través de la constricción a alta velocidad pa-
ra producir turbulencia creando una fuente de ruido. Los sonidos explosivos resultan de hacer 
un cierre completo hacia el frente del conducto vocal, generando una presión junto al cierre y 
soltándola abruptamente. 
Cuando se genera un sonido, éste se propaga por los tubos que representan los conduc-
tos vocal y nasal, figura 1.2, y el espectro de frecuencia se forma por la frecuencia selectiva de 
los tubos. Así, el sistema vocal actúa como un filtro variante en el tiempo que impone sus ca-
racterísticas resonantes sobre las fuentes, estructurando la señal acústica. 
Según Fant [8] la onda del lenguaje es la respuesta de los sistemas de filtros del conduc-
to vocal a una o más fuentes de sonido. 
Los diferentes sonidos se forman variando la forma del conducto vocal. Al cambiar de 
posición los órganos articulatorios, forman en la región supraglótica cavidades resonantes de 
volumen y forma diferentes; al ser diferentes, su respuesta en frecuencia también es diferente y 
por tanto también el espectro de la onda que salga del resonador. 
Las frecuencias de resonancia del conducto vocal se llaman frecuencias formánticas o 
formantes. Cada forma del conducto vocal tiene un único conjunto de frecuencias formánticas 
y los sonidos característicos de un lenguaje tienen de modo perceptivo posiciones formánticas 
características. En el lenguaje continuo,las resonancias formánticas varían conforme varía la 
forma del conducto vocal. 
Las frecuencias de los formantes pueden variar dependiendo de cada individuo. Las va-
riaciones individuales se deben en gran parte a la diferencia en el tamaño de la cabeza. Un suje-
to con una cavidad vocal grande producirá frecuencias formánticas más bajas, que aquellos con 
cabeza pequeña. Las mujeres tienen frecuencias formánticas 17% más altas en promedio que las 
de los hombres [4]. En general, las frecuencias formánticas mantienen la misma relación una de 
12 
otra, aunque pueden desplazarse en frecuencia dependiendo del sujeto. Dos vocales pueden te-
ner la misma calidad fonética; pero diferentes frecuencias formánticas. Hay muchos factores 
que afectan los anchos de banda de los formantes: las pérdidas por radiación desde la boca, las 
pérdidas por vibración de las paredes del conducto vocal, la viscosidad y las pérdidas durante la 
apertura de la glotis. Durante las vocales, la variación de los anchos de banda debida a la varia-
ción de la forma del conducto vocal no es suficientemente grande como para tener una impor-
tancia subjetiva. 
Debido al tamaño promedio del conducto vocal humano (17.5 cm) se tienen formantes 
en frecuencias que son múltiplos impares de un cuarto de la longitud de onda [7], ésto es: 
( 2 « - l ) c 
K= 4 / ; n= 1,2,3, (1.1) 
donde: c es la velocidad de propagación del sonido en el aire. 
/ es la longitud promedio del conducto vocal humano. 
F„ son las frecuencias de resonancia del conducto vocal (formantes). 
Por tanto, la primer resonancia ocurre en: 
c 35000 cmls 
F= = —• = 500 Hz (12) 
1 4/ 4(17.5) cm K ' 
Perceptivamente, sólo los tres primeros formantes son importantes para determinar el 
sonido que se escucha [9]. Los formantes más altos son necesarios para producir sonidos de 
calidad aceptable. 
1.3.1 E S T R U C T U R A ACUSTICA. 
L a lingüística estudia los rasgos distintivos o característicos de los fonemas; sin embar-
go, es suficiente considerar en una caracterización acústica de los sonidos el lugar y forma de 
articulación, las formas de onda y las caracterizaciones espectrográficas de los sonidos. 
13 
En el español hay dos clases de sonidos: vocales y consonantes. Cada una de éstas se 
puede dividir en subclases relacionadas con la forma y lugar de articulación dentro del conducto 
vocal. 
1.3.1.1 Vocales. 
Los sonidos vocálicos son los que más interés han despertado en las investigaciones 
acústicas, desarrollándose desde hace más de un siglo innumerables teorías para clarificar su 
naturaleza acústica. 
Todos los sonidos de las vocales son sonoros; es decir que se producen con la vibración 
de las cuerdas vocales, con el conducto vocal relativamente fijo. L a forma en que varía el área 
de la sección transversal a lo largo del conducto vocal determina las frecuencias de resonancia 
del conducto (formantes) y por tanto el sonido que se produce. L a dependencia del área de la 
sección transversal con la distancia a lo largo del conducto se denomina función de área del 
conducto vocal. Para cada vocal, esta función de área se determina por la posición de la lengua, 
mandíbulas, labios y velo del paladar. Así, cada sonido vocálico se puede caracterizar por la 
función de área que se utiliza en su producción; sin embargo, esta caracterización es imprecisa 
debido a las diferencias intrínsecas entre los conductos vocales de cada persona. Una represen-
tación alternativa es en términos de las frecuencias de resonancia del conducto vocal, aunque 
también se espera una gran variabilidad entre diferentes sujetos. 
Las resonancias que caracterizan el timbre de una vocal resultan de la filtración que su-
fre el tono glotal (vibración de las cuerdas vocales) al pasar por la boca y por las cavidades 
guturales; es decir, la boca se comporta como un filtro que no deja pasar nada más que ciertas 
vibraciones salidas de la glotis. Las frecuencias que la boca deja pasar son diferentes para cada 
vocal, debido principalmente a que las cavidades resonantes que las filtran cambian de forma 
y/o de dimensiones. 
Al ponerse en vibración las cuerdas vocales producen una onda compuesta. Si se man-
tuviese la misma frecuencia fundamental, cada uno de los sonidos vocálicos que se emitiesen 
tendría exactamente la misma configuración. 
14 
Todas las vocales poseen los rasgos vocálico, continuo, sonoro y no-consonántico. Lo 
que diferencia a una vocal de otra u otras, aunque la frecuencia de sus componentes sea igual, 
es la distinta estructuración de sus armónicos (ancho de banda e intensidad), cuya percepción se 
denomina-timbre. De todos los armónicos componentes, serán reforzados aquellos cuyas fre-
cuencias coincidan con las frecuencias de resonancia de las distintas cavidades resonantes del 
conducto vocal, y estas cavidades varían con la articulación de cada sonido. Cada conjunto de 
armónicos reforzados es un formante. Las vocales se identifican por una relativa estabilidad en 
la frecuencia de los formantes y por tener mayor concentración de energía que las consonantes 
abajo de los 1000 Hz. Además, en general tienen mayor intensidad que los sonidos consonánd-
oos. 
De todos los formantes, los tres primeros (Fi , F2, F2) son indispensables para la per-
cepción de cada vocal. Los formantes superiores (individuales) dependen de: 
a) La configuración faringo-bucal de cada sujeto. Las mujeres y los hombres difieren más en la 
longitud total de la faringe que en la de la boca. Las frecuencias formánticas de los niños son 
más altas que las de la voz femenina y éstas a su vez, más altas que las de los hombres. 
b) De la lengua o dialecto, conforme las diferencias anatómicas individuales o sociales y según 
los hábitos educativos. 
Los formantes individuales ponen de manifiesto el carácter del hablante, su condición 
social, sexo, edad, estado de ánimo, etc. En un mismo individuo los formantes individuales va-
rían según: (a) la frecuencia fundamental; (b) la intensidad de la voz; (c) las intensiones expresi-
vas; (d) sus condiciones auditivas, o las condiciones acústicas del lugar donde hable. 
Aunque no existen bases teóricas suficientes para establecer correlaciones estrechas en-
tre el mecanismo articulatorio y la posición de los formantes en el espectro vocálico, existen 
tendencias observadas experimentalmente entre las frecuencias de los formantes y los paráme-
tros articulatorios (posición de la constricción lingual, tamaño de la constricción formada por la 
lengua y dimensiones de la abertura labial). Stevens y House [10] llegaron a las siguientes con-
clusiones: 
15 
- E l formante F\ es alto cuando existe una estrecha constricción de la lengua cerca de la glotis y 
una abertura bucal amplia y deslabializada, vocal [a]; y viceversa, vocales [i, u]. 
- E l formante F2 aumenta su frecuencia a medida que la constricción se adelanta en la cavidad 
bucal desde la glotis, o a medida que la abertura labial aumenta. L a frecuencia de este formante 
baja al disminuir la abertura labial y que la constricción lingual se aproxime a la glotis. 
- E l formante F3 aumenta su frecuencia en menor grado que el F2j, conforme la constricción 
avanza desde la glotis y aumenta el tamaño y deslabialización de la abertura bucal. Disminuye 
su frecuencia con una abertura labial pequeña y si la constricción lingual se aproxima a la glotis. 
Las vocales del idioma español se identifican frecuentemente por los tres primeros for-
mantes. Los dos primeros formantes bastan para caracterizar el timbre de todas las vocales y 
para asegurar su percepción; de éstos, el F2 tiene mayor importancia en la inteligibilidad vocáli-
ca. E l tercer formante juega un papel importante en las vocales que tienen el F2 a una frecuen-
cia elevada, F2 y F3 están muy próximos [i, e]. Los formantes situados por encima de los 3500 
Hz no juegan prácticamente ningún papel en la caracterización lingüística de las vocales; con-tribuyen básicamente el timbre individual de las mismas. La identificación lingüística de las vo-
cales no depende totalmente de la frecuencia absoluta de los formantes, sino de la frecuencia 
relativa a la estructura total de los formantes del sujeto hablante. Esta estructura puede variar 
ligeramente de una persona a otra. 
A pesar de las investigaciones realizadas hasta ahora con respecto al sistema vocálico 
español, no se ha llegado a conclusiones totalmente satisfactorias, debido a la complejidad y 
amplitud de los materiales que es necesario analizar. Entre algunos de estos trabajos se encuen-
tran: 
- R. B . Skelton [11] analiza las vocales en palabras aisladas y no llega a soluciones concretas. 
- Daniel N. Cárdenas [12] analiza un amplio número de vocales de dos informantes, un colom-
biano y un mexicano, llegando a la conclusión de que existe una amplia gama de variaciones 
alofónicas para un fonema dado. 
16 
- Joseph H. Matluck [13] hizo un análisis acústico sobre las realizaciones de [é] en la Ciudad de 
México sin resultados concretos. 
- R. B . Skelton [14] analiza grabaciones de palabras aisladas emitidas por veinte hispanos varo-
nes e intenta mostrar que la semejanza que se produce entre las realizaciones de las diferentes 
vocales reside más bien en la percepción auditiva que en las cualidades físicas de los sonidos 
emitidos. 
- M. Guirao y A. M. B . Manrique [15] analizan cinco fonemas vocálicos pronunciados de ma-
nera aislada, comparando resultados con el análisis de las vocales en los contextos b - d y p - s. 
- M. Bernales [16] compara veinte realizaciones vocálicas (vocales aisladas, precedidas de s, 
seguidas de s y entre dos s), sin conclusiones. 
- Páez Urdaneta [ 17] analiza 52 realizaciones de los tres fonemas / i , e, a/ en palabras aisladas 
leídas por un ecuatoriano, sin conclusiones válidas. 
- Quilis y Esgueva [18] analizan los cinco formantes vocálicos en posición fonética normal (la 
vocal situada entre dos consonantes labiales), estableciendo un triángulo vocálico para la lengua 
española. 
- Rodríguez, Olabe et al. [5] establecen valores para los formantes de las cinco vocales a través 
de la síntesis. 
1.3.1.2 Consonantes. 
Las consonantes son ruidos que se originan en diversos puntos del conducto vocal. Se 
pronuncian generalmente con la asociación de una vocal. E l sonido ocurre en diversos puntos 
del conducto vocal contra los que tropieza y fricciona el flujo de aire, en tanto que las cavida-
des próximas resuenan; por lo cual, las consonantes se pueden clasificar de acuerdo al lugar y 
forma de la obstrucción generada en el conducto vocal. En el aspecto acústico, la percepción 
de una consonante depende de los cambios apreciables en la frecuencia de los formantes. 
17 
- Explosivas orales. 
El-término consonantes explosivas se debe al hecho de que el momento más audible es 
el de la explosión. Las características que las distinguen fundamentalmente son: (a) la interrup-
ción total en la emisión del sonido; (b) la explosión que sigue a esta interrupción; (c) la rapidez 
de las transiciones de los formantes de las vocales precedentes y siguientes. En el español hay 
seis fonemas explosivos orales: tres sonoros / b, d, g / y tres sordos / p, t, k /. 
Las explosivas sonoras son producidas por un cierre total en alguna parte del conducto 
vocal. En el periodo en el que la constricción es total, no hay sonido radiado por los labios; sin 
embargo, hay una pequeña cantidad de energía de baja frecuencia radiándose a través de las pa-
redes de la garganta, lo que ocurre cuando las cuerdas vocales vibran, aún cuando el conducto 
vocal esté cerrado en algún punto. 
Las explosivas sordas son similares a las explosivas sonoras, excepto que durante el pe-
riodo de cierre total del conducto, las cuerdas vocales no vibran. Después del periodo del cie-
rre, mientras que el aire se libera, hay un breve intervalo de fricción seguido por un periodo de 
aspiración antes de que comience la excitación sonora. 
- Explosivas nasales. 
Las consonantes nasales /m, n, ñl se producen con excitación glotal y el conducto vocal 
totalmente contraído en algún punto. E l velo del paladar se baja, tal que el aire pasa a través del 
conducto nasal. L a cavidad oral contraída hacia el frente está acoplada acústicamente a la farin-
ge; entonces la boca actúa como una cavidad resonante que atrapa la energía acústica en ciertas 
frecuencias naturales. En las explosivas nasales existe una concentración de energía de baja fre-
cuencia. 
- Fricativas. 
Desde el punto de vista acústico, reciben este nombre por ser lo más audible de ellas la 
fricción que produce el aire al pasar a través de la estrechez formada entre dos órganos 
articulatorios. En el español existen ocho sonidos consonánticos fricativos / f, 9, s, x, 3, 8, y, j /. 
Estas consonantes poseen un ruido de fricción que constituye una de sus principales caracterís-
ticas. Las fricativas presentan zonas de resonancia que dependen del grado de constricción de 
los órganos articulatorios, pudiéndose distinguir resonancias en las zonas de bajas frecuencias o 
en las zonas de altas frecuencias. 
Algunos ejemplos de las fricativas de resonancias bajas son: [ 3 ] en bo¿>a, [ 8 ] en veda, 
[ y ] en ve^a y [ j ] en saya. Para el caso de las fricativas de resonancias altas se tienen: [ f ] en 
a/an, [ 9 ] en azada, [ s ] en embolsar y [ x ] en ca/a. 
- Africadas. 
Estas consonantes se caracterizan porque en su emisión intervienen dos momentos: uno 
de interrupción, similar al de las explosivas, seguido de otro constrictivo. E l español posee dos: 
una sorda [ch] y otra sonora [y]. 
- Liquidas. 
E l término consonante líquida incluye las consonantes [1, u, r, rr], laterales y vibrantes. 
Pueden tener rasgos vocálicos y consonánticos, su estructura formántica es similar a la de las 
vocales; pero difiere de éstas en que la frecuencia del formante fundamental es menor y su 
intensidad global también es menor. 
1.4 MODELOS ACUSTICOS. 
Los modelos de tubos acústicos para la producción de la voz han sido estudiados du-
rante un gran número de años [8, 19, 20, 21]. Estos estudios han demostrado que de una forma 
de tubo dada se pueden obtener sus frecuencias de resonancia. Las suposiciones básicas para 
derivar un modelo de tubo acústico del conducto vocal [22] son: 
19 
1) E l conducto vocal se supone que consiste de n secciones de igual longitud interconectadas. 
Cada sección individual es de área uniforme. 
2) La dimensión transversal de cada sección es pequeña comparada con una longitud de onda, 
de tal forma que las ondas acústicas dentro del conducto vocal se pueden ver como ondas pla-
nas y unidimensionales para frecuencias menores a los 5 KHz [23]. En este caso, sólo el área de 
la sección transversal y el perímetro a lo largo de la longitud del conducto vocal determinan sus 
características acústicas. 
3) Las secciones son rígidas, tales que las pérdidas internas debidas a vibración de paredes, vis-
cosidad y conducción de calor en la superficie de las paredes del conducto vocal se pueden 
omitir, ya que sus efectos se manifiestan solamente como un ligero incremento en el ancho de 
banda de los formantes [24]. 
4) E l comportamiento del conducto vocal se puede determinar para frecuencias abajo de los 5 
KHz resolviendo las ecuaciones de onda de una dimensión, estas ecuaciones están en función 
del tiempo y del espacio. Estas soluciones dan una función de transferencia que relaciona 
muestras de la velocidad del volumen de aire de la fuente glotal con la velocidad del volumen 
de aire de salida en los labios y establecen las frecuencias de resonancia del sistema [8, 25]. Las 
frecuencias de los primeros tres formantes para la mayoría de las vocales se pueden calcular 
aproximadamente de las dimensiones del conducto vocal, considerándolo como secciones cilin-
dricas en serie. 
5) E l modelo es lineal y desacoplado de la glotis.6) Los efectos del conducto nasal se pueden ignorar. 
Considerando que el conducto vocal está formado por un tubo acústico no uniforme de 
sección transversal variante con el tiempo, figura 1.3, con paredes no rígidas, con propagación 
de ondas planas a lo largo de él; la presión p(x,t) y la velocidad del volumen u(x,f) dentro del 
tubo están gobernados por tres ecuaciones diferenciales parciales: la ecuación de movimiento, 
la ecuación de continuidad y la ecuación de vibración de las paredes [23]. 
20 
d p
 + - £ - £ í - + " Q (1.3) dx dt A 
du d Ap dA dSy ÁS + —r—+ / =0 (1.4) 
dx dt pe2 dt dt 
d2y dy 
m - r t + b-f- + ky = 0 (1.5) 
dt dt 
donde: 
p = p(x,t) es la variación de la presión del sonido en el tubo. 
u = u(x,t) es la variación de la velocidad del volumen del flujo de aire. 
p = 1.14 x 10' g/cm es la densidad del aire en el tubo a la temperatura del cuerpo hu-
mano [20]. 
c = 3.53 x JO4 cm/s es la velocidad de propagación del sonido en el aire a la tempera-
tura del cuerpo humano [20]. 
A = A(x,t) es el valor del área de la sección transversal del tubo (función de 
área). 
y = y(x,t) es la amplitud de la deformación de las paredes, debida a la pre-
sión del sonido dentro del tubo. 
S = S(x,t) es el perímetro del tubo. 
r = r(x,t) es la resistencia del flujo de aire, debida a la viscosidad del aire y 
a una pérdida cinética que depende de la velocidad del volumen. 
m es la masa de las paredes por unidad de longitud. 
21 
b es la resistencia mecánica de las paredes por unidad de longitud. 
k es la rigidez de las paredes por unidad de longitud. 
Los coeficientes m, b y k se suponen constantes y uniformes a lo largo del conducto vocal. 
M x) 
Glot is Labios 
Figura 1.3. Configuración del conducto vocal. 
Las ecuaciones diferenciales parciales (1.3), (1.4) y (1.5) gobiernan a las ondas acústi-
cas dentro de un tubo solamente. La propagación del sonido dentro del tubo depende de como 
sus extremos están relacionados con el mundo externo, ésto se especifica por las condiciones 
de frontera. 
Suponiendo un tubo acústico de paredes rígidas y sin pérdidas debidas a conducción 
térmica o viscosidad en el aire, ni en las paredes del tubo; la ecuación (1.5) se reduce a cero y 
las ecuaciones (1.3) y (1.4) se reducen a [26, 27]: 
dp d(uJA) ( 1 6 a ) 
dx y dt 
du 1 d(pA) dA 
+ dx pe' dt dt 
(1.6b) 
L a solución de las ecuaciones (1.6) es complicada y requiere de conocer los valores de 
la presión y la velocidad del volumen en la región limitada por la glotis y por los labios; además 
22 
se debe conocer la función de área, que en general cambia con el tiempo. Sin embargo, conside-
rando que para los sonidos continuos A(x,t) no cambia con el tiempo, se puede utilizar un mo-
delo simple en el que la función de área del conducto vocal se suponga constante en x y en /, 
por ejemplo circular. 
L a figura 1.4a muestra un tubo de sección transversal uniforme excitado por una fuente 
ideal de velocidad del volumen del fluido. Esta fuente ideal se representa por un pistón de alta 
impedancia que se mueve en cualquier dirección, independientemente de las variaciones de 
presión dentro del tubo. Se supone también que en el extremo abierto del tubo no hay variación 
de la presión del aire, sólo de la velocidad del volumen; lo que se observa más fácilmente por 
medio de la teoría de líneas de transmisión, recordando que un tubo de sección transversal 
uniforme es análogo a una sección de línea de transmisión, dado que la resistencia acústica, la 
masa y la compliancia se distribuyen a lo largo del tubo, de la misma forma que lo hacen la re-
sistencia, la inductancia y la capacitancia a lo largo de la línea; además de la correspondiente 
analogía entre la presión y la velocidad del volumen en el tubo acústico, con el voltaje y la co-
rriente en la línea de transmisión. Usando estas analogías, el tubo acústico uniforme se compor-
ta de forma idéntica a una línea de transmisión uniforme sin pérdidas, excitada en un extremo 
por una fuente de corriente ( / (0,/) = ic (t)) y cortocircuitada en el otro ( v (/,/) = 0 ) ; es decir, 
que en este lugar las variaciones de voltaje son nulas, a similitud de lo que ocurre con la presión 
del aire en el extremo abierto del tubo (p(l,t) = 0 ), figura 1.4b. A pesar de que estas condicio-
nes son imposibles de llevarse a efecto en la realidad, las soluciones resultantes tienen mucho en 
común con modelos más reales; por lo que se pueden construir modelos más generales median-
te una sucesión de tubos uniformes. 
Considerando que la función de área es invariante con el tiempo; es decir, A = A(x,t) es 
una constante, las ecuaciones (1.6) se reducen a: 
dp p d u 
(1.7a) 
dx A dt 
du A d p 
(1.7b) 
dx pe2 dt 
23 
+ 
\ 
x = O 
lG (00 t v(/,o = o 
x = 0 x = l 
X = l 
(a) (b) 
Figura 1.4. (a) Tubo uniforme sin pérdidas, con terminaciones ideales, 
(b) Analogía eléctrica correspondiente. 
Derivando ambas ecuaciones con respecto a x: 
d'p p d f du 
dx1 A dt \ dx , 
d 
A dt 
A dp 
K pe dt 
(1.8a) 
d2u 
dx2 
_A d_ 
pe2 dt 
f *> ^ dp_ 
dx pc-
d 
dt 
p du 
A dt 
(1.8b) 
Entonces de acuerdo con las ecuaciones (1.8), las ecuaciones (1.7) se pueden escribir como: 
d2 p 1 d2 p 
dx2 c2 dt 
d2u 1 d2u 
dx2 c2 dt2 
(1.9a) 
(1.9b) 
que son ecuaciones diferenciales lineales con variables separables [28], cuya solución tiene la 
forma: 
u = XT (1.10) 
24 
donde X sólo es función de x y T sólo es función de t. Denotando las derivadas como: 
d2 X .. d2T .. 
1~=X ; -—T=T 
dx2 ' dt2 
Sustituyendo u de (1.10) en (1.9b): 
XT = -\-Xf (1.11) 
c 
de donde: 
X 1 T 
X c2 T 
igualando ambos términos de (1.12) a la misma constante: 
X 
c2 T 
La solución para la ecuación (1.13) es: 
y para la ecuación (1.14): 
(1.12) 
V =-k2 O - » ) 
1 1 -k2 0.14) 
X = Ae-Jkx + B ejkx (1.15a) 
T=Cemt (1.15b) 
25 
donde: 
m (1.16) 
Considerando variaciones armónicas en el tiempo; podemos hacer m = jco , por lo que de la 
ecuación (1.16) se obtiene: 
c (1.17) 
Por tanto, de acuerdo con (1.10), la solución de la ecuación (1.9b) será: 
u(x,t) = Dx e''** eja" - D2 e ^ eJa" (1.18) 
y similarmente para la ecuación (1.9a): 
pe f (Ü co ^ 
£>, e'^X eja" +D2 e 7 ' eia" 
J 
(1.19) 
Cada uno de los términos en el lado derecho de las ecuaciones (1.18) y (1.19) se puede 
interpretar como ondas viajando en la dirección positiva (de la glotis a los labios) y negativa 
respectivamente, relacionadas mediante las condiciones de frontera. Suponiendo que la condi-
ción de frontera para u(x,t) en x = 0 (terminación glotal) es [29]: 
u(0,t) = uG(t) = UG(co)eJO" (1.20) 
es decir, que el tubo está excitado por una variación exponencial compleja de la velocidad del 
volumen de frecuencia co y amplitud compleja UG (CÚ)- Y además en la terminación de los la-
bios: 
26 
p(l,t) = o (1.21) 
De las ecuaciones (1.18) y (1.19) se encuentran las constantes D i y D2, considerando que: 
en donde: 
u(0,t) = UG(co)eJO" = D, -D2 
DX =UG(Ú)) + D2 (1.22) 
y para: 
p(l,t) = 0 pe 
mi 
D, e]a" e' e + D2 eja" e (1.23) 
sustituyendo Dx de (1.22) y despejando D2: 
0)1 
-i— 
D2 col col (1.24) 
sustituyendo (1.24) en (1.22): 
0)1 
a = 
UG(co)e 
1 0)1 0)1 
J— 
e +e 
(1.25) 
Sustituyendo las ecuaciones (1.24) y (1.25) en la ecuación (1.18), se tiene que la solución en 
estado estable sinusoidal para la velocidad del volumen del flujo de aire es: 
. , cos(cu( / -x) /c) 
«(x,0 = UG(co) eJ"' 
COSI 
(1.26) 
k c ) 
27 
De la ecuación (1.26) se tiene que la velocidad del volumen en los labios es: 
u(l,t) = U(l,a>)e'a" 
= UG(co)e JCOl 
eos 
col 
V c ) 
(1.27) 
La relación entre las respuestas en frecuencia de las velocidades del volumen de aire en 
la entrada y la salida del sistema de la figura 1.4a, de acuerdo con la ecuación (1.27) es: 
U{l,co) 
UG(co) 
1 
7~T\ - Va (ja) col 
eos 
(1.28) 
\ c J 
Graficando esta función para valores de / = 17.5 cm y c = 35000 cm/s se obtiene la 
gráfica de la figura1.5. 
Esta función tiene un número infinito de polos espaciados uniformemente; éstos polos 
son las frecuencias naturales o de resonancia del sistema. Estas frecuencias de resonancia son 
las llamadas frecuencias formánticas consideradas en la producción de la voz. 
20 logio | Va feo) 
OC 
A 00 A 00 A 
00 
A 
OO 
A 
KHz 
Figura 1.5. Respuesta en frecuencia de un tubo uniforme sin pérdidas. 
22 
Las ecuaciones anteriores consideran que no hay pérdida de energía en el tubo; pero en 
realidad existe pérdida debido a la fricción viscosa entre el aire y las paredes del tubo, la con-
ducción de calor entre las paredes del tubo y la vibración de las paredes del tubo. 
Si se toma en cuenta que las paredes del conducto vocal vibran debido a las variaciones 
de la presión del aire en su interior, el área de su sección transversal varía con respecto a su 
valor nominal Ao (x,t), ésto es: 
A(x,t) = A0(x,t) + SA(x,t) (1.29) 
Sustituyendo esta condición en las ecuaciones (1.6) y resolviendo las ecuaciones, se ha obser-
vado [26, 30] que: (a) las frecuencias centrales son ligeramente más altas que para el caso sin 
pérdidas; (b) los valores pico no son infinitos y los anchos de banda de las resonancias no son 
cero. Estos efectos son más pronunciados a bajas frecuencias. 
Los efectos de la fricción viscosa y la conducción térmica son menores que los efectos 
debidos a la vibración de las paredes, observándose [25] que: (a) las frecuencias centrales de-
crecen; (b) los anchos de banda se incrementan principalmente en las frecuencias altas. 
L a radiación en los labios también influye, ocasionando una pérdida en las altas fre-
cuencias y una disminución en las frecuencias de resonancia (formantes) [29]. 
29 
e/tpnnuo 2 
ANALISIS ESPECTRAL 
En muchas áreas de la ciencia y de la ingeniería, la representación de señales mediante 
sinusoides o exponenciales complejas lleva a soluciones adecuadas de problemas o fenómenos 
físicos. Estas representaciones (representaciones de Fourier) son útiles en el procesamiento de 
señales porque ponen en evidencia ciertas propiedades de la señal que no son tan evidentes en 
la señal original. E l análisis de la voz es esencialmente la imple'mentación de algoritmos que 
procesan una onda acústica recibida por un micrófono, en parámetros útiles. E l conocimiento 
de la producción de la voz y las descripciones fonéticas o articulatorias guían algunos aspectos 
del análisis y la forma de los algoritmos para saber que tipo de análisis se debe efectuar. La re-
presentación de la voz en el dominio de la frecuencia es de gran utilidad. 
Para muchos propósitos se considera el modelo de producción de voz de la figura 2.1. 
Este tiene una excitación que es de naturaleza periódica durante la producción de sonidos sono-
ros; en tanto que para los sonidos no sonoros es ruido blanco. En el dominio del tiempo la voz 
a la salida de los filtros es la convolución de la excitación con la respuesta al impulso de los fil-
tros del conducto vocal. En el dominio de la frecuencia el espectro de la señal de voz a la salida 
es el producto del espectro de la excitación y el espectro de los filtros. 
EXCITACIÓN VOZ 
Sonora 
> 
No sonora 
Figura 2.1. Modelo simplificado de la producción de la voz. 
Filtros del 
Conducto Vocal > 
30 
En el análisis de una onda se indican gráficamente las amplitudes y frecuencias de cada 
una de sus ondas constituyentes, a lo cual se le denomina espectro de sonido. 
Los parámetros acústicos de la mayoría de los sonidos de la voz se pueden determinar 
por análisis espectrográfico. Las características espectrales de variación con el tiempo de la se-
ñal de voz se pueden observar gráficamente por medio de espectrogramas de sonido en los 
cuales, el eje vertical corresponde a la frecuencia y el horizontal al tiempo, la obscuridad del 
patrón es proporcional a la energía de la señal. Los espectrogramas nos proporcionan la estruc-
tura formántica de los sonidos de voz. Las frecuencias de resonancia del conducto vocal 
(formantes) se muestran como bandas anchas oscuras. Las regiones sonoras se caracterizan por 
una apariencia estriada debido a la periodicidad temporal de la forma de onda; en tanto que los 
intervalos no sonoros están llenos sólidamente. 
E l análisis espectral puede ser de banda ancha o de banda estrecha. En los espectrogra-
mas de banda ancha se pueden percibir perfectamente los formantes, figura 2.2. En los espec-
trogramas de banda estrecha aparecen todos los armónicos componentes de la señal de voz, 
destacándose aquellos que corresponden a los formantes, figura 2.3. 
Los espectrogramas de sonido analógicos han sido una herramienta principal en las in-
vestigaciones de voz. En la actualidad, usando técnicas de procesamiento digital de señales, los 
espectrogramas se pueden generar en forma más rápida, obteniéndose así espectrogramas digi-
tales. 
2.1 EL ESPECTROGRAFO DE SONIDO. 
Durante muchos años se utilizaron en el dominio de la acústica experimental los proce-
dimientos articulatorios y fisiológicos para el análisis de la voz, debido a que la electroacústica 
prácticamente no existía. Diversos investigadores comenzaron la búsqueda de algún dispositivo 
que hiciera visibles los sonidos del habla, con la finalidad de que el ojo pudiera obtener infor-
mación de éstos de manera similar a como lo hace el oído en forma audible [31]. 
31 
El desarrollo de la electroacústica permitió la creación de toda una serie de aparatos pa-
ra aplicación en la investigación fonética, como: el oscilógrafo, el mingógrafo, el espectrógrafo 
y el magnetófono, etc. 
E l espectrógrafo de sonido es un instrumento que tiene como objetivo la descomposi-
ción automática de la onda sonora de voz en cada uno de sus componentes de frecuencia (algo 
equivalente al análisis de Fourier) en función del tiempo y su presentación en forma de espec-
trograma. Así se obtuvieron patrones espectrográficos de sonidos para diferentes palabras pro-
nunciadas por un mismo locutor y para palabras iguales pronunciadas por diferentes locutores, 
dando evidencia de que estos patrones eran leíbles. 
Un espectrógrafo de sonido clásico, figura 2.4, es un instrumento que analiza una banda 
de frecuencias de una onda compleja de voz a un tiempo y graba las variaciones de intensidad 
de cada banda en forma ordenada sobre un papel. Como resultado se tiene el patrón de un so-
nido en sus tres dimensiones fundamentales: frecuencia, intensidad y tiempo. Estos patrones 
son llamados genéricamente espectrogramas de sonido. Las figuras 2.2 y 2.3 son ejemplos de 
estos espectrogramas; en este caso para las vocales del idioma español. 
En la figura 2.4, cuando el interruptor se encuentra en la posición A se puede grabar 
una muestra de voz de corta duración (2 segundos) sobre una cinta magnética. Después el inte-
rruptor se mueve a la posición B y la grabación sobre la cinta magnética se reproduce una y 
otra vez. La muestra de voz va a la entrada de un filtro variable F, cuya frecuencia de sintonía 
se ajusta para cada repetición de la muestra de voz. La salida del filtro se conecta a la aguja que 
se encuentra sobre la superficie de un papel eléctricamente sensible enrollado sobre un cilindro. 
Cada vez que la señal pasa por el filtro, el cilindro rota y aparece un anillo delgado de oscuri-
dad variable. En la siguiente rotación del cilindro, la frecuencia del filtro se incrementa y la 
aguja se desplaza verticalmente, apareciendo otro anillo contiguo al primero. Después de mu-
chas rotaciones, el papel muestra en dos dimensiones la gráfica del contenido de energía de la 
señal, como una función de la frecuencia y del tiempo para el sonido grabado. L a intensidad es-
pectral de la señal se muestra por el grado de oscuridad. Todo este proceso dura aproximada-
mente 10 minutos [32]. 
32 
(ZHH ) * l o u a r t o s j j 
Figura 2.2. Sonogramas de banda ancha de las vocales del idioma español 
producidos por unespectrógrafo de sonido [6]. 
33 
( Z HX ) 17 i ^ u a n o a j j 
Figura 2.3. Sonogramas de banda estrecha de las vocales del idioma español 
producidos por un espectrógrafo de sonido [6]. 
Grabación magnética 
Disco con cinta 
.magnética 
Unidad de 
grabación y 
reproducción 
Espectrograma 
Micrófono 
Grabación del 
espectrograma 
Aguj a de 
grabación 
Filtro 
variable 
Enlace mecánico 
Figura 2.4 Diagrama esquemático de un espectrógafo de sonido. 
2.2 ANALISIS ESPECTRAL DE CORTA DURACION 
E l análisis espectral es un área importante en el procesamiento de señales digitales y 
consiste básicamente en el cálculo de la Transformada de Fourier para la estimación de la den-
sidad de potencia espectral de señales. Cuando la Transformada de Fourier se aplica a secuen-
cias de longitud finita, se denomina Transformada Discreta de Fourier (TDF) . 
La TDF es la transformación básica utilizada en el análisis en el dominio de la frecuencia 
de señales discretas en el tiempo, tales como la señal de voz. Para evaluar la T D F de una mane-
ra más rápida y eficiente que el hacerlo directamente se usa el algoritmo computacional deno-
minado Transformada Rápida de Fourier (TRF), con el cual se logra una importante disminu-
ción en el número de operaciones de cálculo. 
Para el caso de las señales de voz, el análisis espectral nos proporciona información de 
35 
las frecuencias de resonancia del conducto vocal y de la estructura armónica correspondiente a 
la excitación. 
Un parámetro importante en el análisis de la voz es el ancho de banda. Un ancho de 
banda de 4 - 5 KHz es bastante adecuado tanto para sonidos sonoros, como para sonidos no 
sonoros. 
Otro parámetro importante en el procesamiento de la voz es la frecuencia de muestreo. 
La frecuencia de muestreo mínima es dos veces la máxima frecuencia que tenga la señal 
(frecuencia de Nyquist), para que la señal analógica original pueda ser recobrada de la versión 
muestreada a través de la Transformada de Fourier inversa. Así si el ancho de banda efectivo de 
la señal de voz es 5 KHz, el muestreo debe ser como mínimo a 10 KHz. 
Al pronunciar una palabra hay cambios entre las secciones sonoras y las no sonoras. L a 
forma de onda cambia en una proporción que depende de los cambios en la posición de los arti-
culadores, esta proporción (tasa de articulación) es relativamente baja con un ancho de banda 
no mayor a 100 Hz. Esto es muy importante porque significa que la señal de voz se puede ana-
lizar con parámetros que varían lentamente y dan una representación más compacta que la de la 
onda original. También significa que si la onda se analiza en periodos cortos de tiempo (de 
1/100 s ó 10 ms), ésta se puede suponer constante sobre estos intervalos [4]. 
Las señales de voz no son exactamente periódicas, aunque la forma de onda de un pe-
riodo particular generalmente se parece a uno precedente o a uno siguiente. Por tanto la supo-
sición fundamental de la Transformada Discreta de Fourier de que la onda es periódica no se 
justifica realmente; sin embago, la señal es cuasiperiódica, ya que los cambios de periodo a pe-
riodo no son tan grandes [33]. 
L a TDF de una secuencia de duración finita x(nT) para 0 < n < N - 1 se define como 
[9]: 
N-1 2x nk 
X{k)=^x(nT)e'~ ; k = 0,1, ,N - 1 (2.1) 
n = 0 
36 
donde x(nT) corresponde a las muestras igualmente espaciadas de la función analógica x(t), su-
poniendo que han sido muestreadas de acuerdo al Teorema de Nyquist. Haciendo: 
W = WN=e~'N y x(nT) = x(ri) (2.2) 
la ecuación (2.1) se puede reescribir como: 
N-I 
X(k)=Y.x(n)Wnk . (2.3) 
n = 0 
W"k es periódica con periodo N, es decir: 
^ n . m m k . l N ) = w n k . ^ / = Q, ± 1 (2.4) 
E l cálculo directo de la TDF requiere muchas operaciones ya que muchos de los cálcu-
los son redundantes, entonces se utiliza la Transformada Rápida de Fourier ( T R F ) . L a T R F está 
basada en la observación de que existen muchas simetrías en la TDF. L a idea de la T R F es 
romper la secuencia original de N puntos en dos secuencias cortas. Las T D F de estas secuen-
cias se pueden combinar para dar la TDF de la secuencia original de N puntos. Se supone que 
N es una potencia de 2. Estas dos secuencias de N/2 puntos se dividen en pares e impares, 
x\ («) y x 2 («), respectivamente: 
x, (n) = x(2ri) ; « = 0,1, ,(N/2) - \ 
(2.5) 
x2(«) = x(2« +1) ; n = 0,1, (N/2) - 1 
Entonces la ecuación (2.3) se puede escribir como: 
X(k) = £ x(2n) W'nk + £ x(2« + 1) W^X)k (2.6) 
n = 0 Í? = 0 
37 
y dado que: 
V J 
(2.7) 
y denotando los datos pares como xi («) y los impares como x 2 («), en (2.6): 
x(k) = £ x, (n) w* + wkN £ x 2 (») w; (2.8) 
(2.9) 
X\ (k) y A"2 (A:) se ven como las TDF de N/2 puntos de xi («) y x 2 («). 
Si N es grande el proceso se repite para evaluar transformadas de N/4 puntos, dividien-
do las secuencias xi («) y x2(«) de la ecuación (2.9) en miembros pares e impares, es decir: 
donde A(k) es la 'TDF de N/4 puntos de los miembros pares y similarmente B(k) de los miem-
bros impares. E l proceso continua hasta tener dos puntos. 
E l proceso anterior se llama escalamiento en tiempo, ya que en cada etapa del proceso 
la secuencia de entrada se divide en secuencias más pequeñas. Existe otra forma de la T R F lla-
mada escalamiento en frecuencia, en la que los coeficientes de la TDF se dividen en muchos 
conjuntos en lugar de hacerlo con las muestras de la señal de entrada. 
Durante la producción continua de la voz, la forma de la cavidad vocal no es fija y las 
resonancias varían para poder producir diferentes sonidos. Dado que estas variaciones no son 
tan rápidas es razonable ver a este sistema como estacionario en un tiempo corto por lo que la 
Xfk) = A(k) + WkB(k) 
(2.10) 
= A(k) + W¿" B(k) 
3Í 
Transformada de Fourier normal no es tan significativa; sin embargo, el análisis espectral de 
corta duración es una aproximación válida en el procesamiento de la voz [9, 29]. En el análisis 
de corta duración, segmentos cortos de la señal de voz son aislados y procesados como si fue-
ran segmentos aislados de un sonido sostenido con propiedades fijas; a cada uno se le aplica la 
Transformada de Fourier [47], Generalmente estos segmentos se traslapan uno con otro [34]. 
En general, se ha supuesto que el oído humano lleva a efecto este tipo de análisis tiempo-
frecuencia de la voz. 
La Transformada de Fourier de un segmento corto de la señal de voz refleja las carac-
terísticas de excitación y de las frecuencias formánticas de ese segmento. Este tipo de proce-
samiento da una secuencia dependiente del tiempo que sirve como representación de la señal de 
voz. Esta técnica de corta duración se puede representar como [29]: 
00 
Q(P)= ^T[x(m))w(n-m) (211) 
donde T[x(m)] es una transformación aplicada a la señal de voz, que se multiplica por una ven-
tana que se va deslizando a lo largo de la señal. La ventana es equivalente a filtrar la señal con 
un filtro lineal. 
Los resultados dependen de las propiedades de la ventana. Si la ventana de análisis 
cambia, cambiarán todas las secciones de corta duración y por lo tanto su Transformada de 
Fourier. Cuando la ventana temporal se incrementa en longitud, se mejora la resolución en fre-
cuencia y la estructura armónica se hace más evidente. Cuando la ventana temporal es más es-
trecha se obtiene una mejor resolución en tiempo a expensas de la resolución espectral. Debido 
a ésto, es común en el análisis espectral de la voz utilizar [35]: 
a) Análisis de banda estrecha, que corresponde a una buena resolución en frecuencia y baja re-
solución en tiempo. 
b) Análisis espectral de banda ancha, que proporciona una buena resolución en tiempo y baja 
resolución en frecuencia. 
39 
Si las ventanas se aplican sin traslape, una parte significativa de la señal se ignora debi-
do a que las ventanas exhiben valores pequeños cerca de sus fronteras. Por tanto, para evitar la 
pérdida de datos en el análisis espectral de cortaduración, las ventanas se deben traslapar. E l 
traslape es generalmente del 50% al 75% [36]. 
De acuerdo con lo mencionado anteriormente, el cálculo de la ecuación (2.1) da sólo 
una sección espectral en un tiempo / = (N - \)T. Para obtener un análisis espectral de corta du-
ración, se debe efectuar el cálculo en instantes sucesivos de tiempo multiplicando la señal por 
una ventana. Entonces de acuerdo con la ecuación (2.11), la ecuación (2.1) se puede expresar 
como: 
N-\ litnk 
Xr (k) = £ w(nT) x(nT-rMT) e ' ^ (2-12) 
n = 0 
La ecuación 2.12 se puede ver como la salida de un banco de filtros, cada uno actuando 
alrededor de la frecuencia seleccionada. Xr (k) es la energía de la señal de voz en un tiempo nT 
y a la frecuencia w. Por todo lo anterior, el análisis de Fourier de corta duración se puede ejecu-
tar fácilmente usando la TRF. 
Dádo que la ecuación (2.1) está restringida al cálculo de una longitud finita de datos, 
ésto implica que en esta ecuación existe implícitamente una ventana temporal rectangular de 
anchura NT, cuyo espectro de frecuencia se muestra en la figura 2.5. 
wR(f) 
F r ecuenc i a 
Figura 2.5. Espectro de una ventana rectangular. 
40 
L a ecuación (2.12) corresponde al desarrollo del análisis espectral de secciones sucesi-
vas de la señal de voz espaciadas un tiempo MT; por tanto, Xr (k) representa el cálculo de la 
Transformada Discreta de Fourier de una sección de la función temporal, empezando en 
t = rMTy terminando en t = rMT- (N- \)T, como se muestra en la figura 2.6. 
, T ^ Tiempo Ventana r 
n u rvUVvJVvv - T R F 
F—A Tiempo 
í \ a a [ T \ a AA / w -
T R F 
T R F —» 
Figura 2.6. Evaluación sucesiva del espectro. 
2.3 VENTANAS. 
Las características deseables de una ventana son: 
1. Anchura del lóbulo principal pequeña en su respuesta en frecuencia. 
2. Los lóbulos laterales deben decrecer rápidamente. 
Existen muchos tipos de ventanas con diferentes características espectrales, entre las 
que se encuentran: la ventana rectangular, la triangular, la de Hanning, la de Hamming, la de 
Blackman, la de Kaiser y otras más. Sin embargo, la más utilizada para el análisis de señales de 
voz es la ventana de Hamming. 
41 
* Ventana Rectangular (Dirichlet). 
Esta ventana se considera como la base de referencia en el estudio de otras ventanas y 
está definida como: 
WR(k) = \ ; para\k\< N/2 
(2.13) 
= 0 ; cualquier otro caso. 
Esta es una función abrupta en el dominio del tiempo y equivale a aplicar igual peso a 
todas las muestras en el intervalo especificado. 
L a función dentro de una ventana rectangular tendrá discontinuidades en los bordes. Las 
altas frecuencias asociadas con los bordes de la ventana causan una considerable distorsión del 
espectro, lo que se puede mejorar usando ventanas con terminaciones menos abruptas. 
L a respuesta en frecuencia de esta ventana, figura 2.5, es: 
s en ( ; r / ) 
E l ancho del lóbulo principal es 2/N. Los ceros de la función ocurren en las frecuencias 
/ = / / N, con / entero. Los principales lóbulos laterales tienen una atenuación de alrededor de 
13 dB con respecto al lóbulo principal [37, 38]. 
* Ventana de Hamming. 
Esta ventana está definida por: 
2nk i i N 
WH(k) = a+(\-a)cos—jj- ; \k\< — 
= 0 ; cualquier otro caso. 
(2.15) 
42 
que es una función más uniforme en el dominio del tiempo. Con a = 0.5 se obtiene la ventana 
de Hanning. Si a = 0.54 se tiene la ventana de Hamming. Con a = 1 se obtiene la ventana rec-
tangular. 
En el dominio de la frecuencia se tiene: 
sen n f N 
WH (/) = a ~— + 
H K J J sen K f 
+ 
1 - g sen x N(f -l/N) 
2 ) sen n ( / - 1/N) 
1 - a s e n / r A ( / + \/N) 
~~2 J sen /r ( / + l/N) 
(2.16) 
E l ancho de banda de esta ventana es aproximadamente el doble (4/N) que el de una 
ventana rectangular de la misma longitud, figura 2.7; en tanto que la atenuación de sus máxi-
mos lóbulos secundarios es de alrededor de 43 dB con respecto al lóbulo principal, además de 
que los lóbulos secundarios lejanos al lóbulo principal no decaen tán rápidamente como en la 
ventana rectangular [39]. En ambos casos su atenuación es independiente de su duración. 
MU 
O 2/N 
Frecuencia 
Figura 2.7. Ventana espectral de Hamming. 
A pesar de que la respuesta en frecuencia de la ventana rectangular tiene un lóbulo 
principal más angosto que la ventana de Hamming, sus grandes lóbulos laterales interactúan en 
43 
el espacio entre los armónicos reforzándolos o cancelándolos; razón por la cual rara vez se usa 
en el análisis espectral de la voz. Como la ventana de Hamming tiene un corte más suave, ésta 
se usa comúnmente en el análisis espectral de la voz. 
44 
e A p n m u o 3 
SINTESIS DE VOZ 
Los espectrogramas nos proporcionan la representación de los componentes acústicos 
de la onda sonora con toda su complejidad; sin embargo, sólo a través de la síntesis se puede 
saber que parámetro o parámetros contribuyen al reconocimiento de una unidad fonética. Los 
estudios de síntesis de voz han demostrado que los primeros tres formantes son de principal 
importancia en la representación de la voz, ya que contribuyen a su inteligibilidad. 
Los primeros experimentos documentados para simular la voz humana de los que se tie-
ne noticia se realizaron en la segunda mitad del siglo X V I I I [40]; esta simulación se efectuaba 
por medio de dispositivos mecánicos. En la actualidad los experimentos consisten en desarrollar 
modelos eléctricos o electrónicos (hardware y/o software) principalmente. Con el avance de la 
tecnología y el advenimiento de los procesadores digitales de señales se ha conseguido que el 
procesamiento de los algoritmos matemáticos necesarios para simular la voz se efectúe prácti-
camente en tiempo real. 
Para llevar a cabo la síntesis de voz se han desarrollado diversas técnicas, como son: 
1. La síntesis por elementos fonéticos. Esta técnica se basa en el ensamble de fonemas según las 
leyes particulares de cada lengua. Para producir una palabra inteligible se deben considerar las 
transiciones entre un fonema y otro. 
2. La síntesis por formantes. Los sintetizadores por formantes hacen uso de filtros resonantes 
que permiten el paso de una banda de frecuencias, correspondiente a un formante determinado, 
obtenido mediante el análisis espectral. 
3. L a síntesis articulatoria. Se basa en la realización de una analogía eléctrica del conducto vo-
cal humano por medio de líneas de transmisión eléctricas, constituidas de secciones conectadas 
en cascada, formadas por inductancias, resistencias y capacitancias. 
45 
4. La síntesis por codificación lineal predictiva. Las características de respuesta del aparato fo-
nador se representan por medio de filtros digitales recursivos, que predicen su salida en cada 
momento a partir de las salidas previas. Las señales de voz quedan representadas por códigos 
numéricos ( predictores). 
3.1 SINTETIZADORES POR FORMANTES. 
En los sintetizadores por formantes la distribución espectral de los sonidos está dada 
por la relación tiempo-frecuencia, o sea que se puede controlar en cada momento la intensidad 
y frecuencia de los formantes. Estos sintetizadores se basan en el principio de que los elementos 
significativos de los sonidos del lenguaje radican en las variaciones de frecuencia de los resona-
dores bucales. 
Existen en general dos tipos de configuraciones de sintetizadores por formantes: la con-
figuración en paralelo y la configuración en cascada, figura 3.1. 
En la configuración en paralelo la frecuencia e intensidad de cada formante se controla 
por separado, cada resonador está precedido por un control de amplitud que determina la am-
plitud relativa de cada pico espectral; tanto para sonidos sonoros, como para sonidos no sono-
ros. 
En la conexión en cascada, las amplitudes relativas de los formantes para las vocales se 
obtienen sin la necesidad de un control de amplitud para cada formante, la salida del primer re-
sonador es la entrada

Continuar navegando