Analisis-espectral-y-simulacion-de-las-vocales---1998---Ingenieria-Electronica

•

IPN

Todos los Materiales

24/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Introducción al Derecho I

136.035 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

I N S T I T U T O P O L I T E C N I C O N A C I O N A L
E S C U E L A SUPERIOR DE INGENIERIA MECANICA Y E L E C T R I C A
SCCCIOfl bl CSTM5I0S bl P 0 5 Q M D 0 C WVESTIQÍ3CIQK
ANALISIS ESPECTRAL Y SIMULACION DE LAS
VOCALES DEL IDIOMA ESPAÑOL
T E S I S QUE PARA O B T E N E R E L GRADO D E
MAESTRO E N CIENCIAS E N INGENIERIA E L E C T R O N I C A ,
OPCION INSTRUMENTACION.
P R E SENTA
EDMUNDO S A N C H E Z S A L G U E R O
Forma DEPI / 9
DIRECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN
DIVISIÓN DE ESTUDIOS DE POSGRADO
ACTA DE REVISIÓN DE TESIS
7 1 6 1 0 I 0 I i\ 1 5
Número de registro
En la ciudad de M é x i c o , D. F . , siendo las 1 2 : 0 0 horas del día 30 del mes de
^ B R I L de 1998 > s e reua&ton,los miembros de l aQpi i s ión Revisorade Tesis designada
por el Colegio de Profesores de E s t ^ ^ ^ P ó s g f a d p e fayestigg^iójy' Ú A E . S . I . H . E . para
DRA. ANA MARIA MARTINEZ ENRmíítTE I N V E S T , G A C , O N M. EN C. RAUL PEÑA RIVERO
E L P R E S I D E N J E - D E L COLEGIO
/i Ht¿& fiacOiec,
cm u#t qncut ccviitic y ledfeefo.
/i SU* WÍ.,
cm cupto*.
sss
fin áiemfine m nti cona^m.
Indice.
Indice de Figuras.
Nomenclatura.
Resumen.
Abstract.
Introducción.
Objetivo.
Justificación.
Contenido del trabajo.
1. E l proceso de producción de la voz.
1.1 E l mecanismo de producción de la voz.
1.2 Los fonemas. ...
1.3 Los sonidos de voz.
1.3.1 Estructura acústica.
1.3.1.1 Vocales.
1.3.1.2 Consonantes.
1.4 Modelos acústicos.
2. Análisis espectral. ...
2.1 E l espectrógrafo de sonido.
2.2 Análisis espectral de corta duración.
2.3 Ventanas.
3. Síntesis de voz.
3.1 Sintetizadores por formantes. ...
4. Resultados.
Conclusiones.
Apéndice A.
Bibliografía.
ibones os vngw&is
1.1 Corte sagital del aparato vocal humano.
1.2 Diagrama esquemático del aparato vocal.
1.3 Configuración del conducto vocal.
1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales,
(b) Analogía eléctrica correspondiente.
1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas.
2.1 Modelo simplificado de la producción de la voz.
2.2 Sonogramas de banda ancha de las vocales del idioma español
producidos por un espectrógrafo de sonido.
2.3 Sonogramas de banda estrecha de las vocales del idioma español
producidos por un espectrógrafo de sonido.
2.4 Diagrama esquemático de un espectrógrafo de sonido.
2.5 Espectro de una ventana rectangular.
2.6 Evaluación sucesiva del espectro.
2.7 Ventana espectral de Hamming.
3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes.
3.2 Modelo del mecanismo de producción de voz. ...
3.3 Diagrama a bloques del Sintetizador de Klatt. ...
3.4 Resonador digital.
4.1 Espectro de una señal en tres dimensiones.
4.2 Representación de un espectrograma digital.
4.3 Espectrograma para la vocal a (palabra baba). ...
4.4 Espectrograma para la vocal e (palabra bebe). ...
4.5 Espectrograma para la vocal / (palabra vivó). ...
4.6 Espectrograma para la vocal o (palabra bobo). ...
4.7 Espectrograma para la vocal u (palabra buba). ...
4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ...
wrones vs vngu&ts
1.1 Corte sagital del aparato vocal humano.
1.2 Diagrama esquemático del aparato vocal.
1.3 Configuración del conducto vocal.
1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales,
(b) Analogía eléctrica correspondiente.
1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas.
2.1 Modelo simplificado de la producción de la voz.
2.2 Sonogramas de banda ancha de las vocales del idioma español
producidos por un espectrógrafo de sonido.
2.3 Sonogramas de banda estrecha de las vocales del idioma español
producidos por un espectrógrafo de sonido.
2.4 Diagrama esquemático de un espectrógrafo de sonido.
2.5 Espectro de una ventana rectangular.
2.6 Evaluación sucesiva del espectro.
2.7 Ventana espectral de Hamming.
3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes.
3.2 Modelo del mecanismo de producción de voz. ...
3.3 Diagrama a bloques del Sintetizador de Klatt. ...
3.4 Resonador digital.
4.1 Espectro de una señal en tres dimensiones.
4.2 Representación de un espectrograma digital. ...
4.3 Espectrograma para la vocal a (palabra baba). ...
4.4 Espectrograma para la vocal e (palabra bebe). ...
4.5 Espectrograma para la vocal / (palabra vivó). ...
4.6 Espectrograma para la vocal o (palabra bobo). ...
4.7 Espectrograma para la vocal u (palabra buba). ...
4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ...
Pag.
4.9 Gráficas representativas de la porción estable de la vocal e y promedio,
para una pronunciación del locutor 1. ... ... ... ... 64
4.10 Gráficas promedio de las cinco pronunciaciones de la vocal e y promedio
total para el locutor 1. ... ... ... ... 64
4.11 Gráfica total resultante de la pronunciación de los tres locutores
para la vocal e, que indica sus frecuencias formánticas. ... ... 65
4.12 Modelo para generar los sonidos vocálicos. ... ... ... 67
A. 1 Vocal A. Parte estable de la vocal. Promedio de una pronunciación.
Promedio de cinco pronunciaciones. Promedio total. ... ... 72
A.2 Vocal E . Parte estable de la vocal. Promedio de una pronunciación.
Promedio de cinco pronunciaciones. Promedio total. ... ... 73
A.3 Vocal I . Parte estable de la vocal. Promedio de una pronunciación.
Promedio de cinco pronunciaciones. Promedio total. ... ... 74
A.4. Vocal O. Parte estable de la vocal. Promedio de una pronunciación.
Promedio de cinco pronunciaciones. Promedio total. ... ... 75
A.5 Vocal U. Parte estable de la vocal. Promedio de una pronunciación.
Promedio de cinco pronunciaciones. Promedio total. ... ... 76
iii
U G Velocidad volumétrica del flujo de aire a través del orificio glotal.
U M Velocidad volumétrica acústica del flujo de aire en la boca.
U N Velocidad volumétrica acústica del flujo de aire en los orificios nasales.
P s Presión del sonido.
Fn Frecuencias formánticas o formantes.
/ Longitud total promedio del conducto vocal.
p Variación de la presión del sonido en un tubo acústico.
u Variación de la velocidad del volumen del flujo de aire.
p Densidad del aire.
c Velocidad de propagación del sonido.
A Area de la sección transversal de un tubo acústico o función de área.
y Amplitud de la deformación de las paredes de un tubo acústico.
S Perímetro de un tubo acústico.
m Masa de las paredes de un tubo acústico.
b Resistencia mecánica de las paredes de un tubo acústico.
k Rigidez de las paredes de un tubo acústico.
/• Resistencia del flujo de aire.
. (o Frecuencia de la onda acústica.
Va (jco) Función de transferencia de un tubo acústico uniforme sin pérdidas.
x(nT) Señal muestreada uniformemente.
x(t) Función analógica.
/ Tiempo.
X(k) Muestras espectrales.
W"K Función exponencial.
N Número de muestras de una señal digital.
MT Separación entre muestras sucesivas de una señal digital.
T[ ] Transformación aplicada a una señal de voz.
/'v
w( ) Ventana de análisis.
WR ( ) Ventana rectangular.
Wh ( ) Ventana de Hamming.
y(nT) Muestras a la salida de un resonador digital.
/ Frecuencia de la onda acústica en Hertz.
BW Ancho de banda de los formantes.
T Período de muestreo.
v
La comunicación hablada ha sido siempre de gran interés para el ser humano. Muchos
esfuerzos se han dedicado a su conocimiento y comprensión, desde los análisis articulatorios
hasta los fonéticos y más recientemente con la ayuda de las computadoras digitales se han
podido calcular algoritmos que antes eran prácticamente imposibles de desarrollar debido a la
gran cantidad de operaciones que involucran. Estas representaciones matemáticas sirven de
base para el análisis y la síntesis de la voz. Una ayuda importante en el análisis de la voz es el
espectrograma de sonido, el cual representa una visualización de tiempo-frecuencia-intensidaddel espectro de corta duración, desarrollado por medio del algoritmo de la Transformada
Rápida de Fourier.
E l propósito de esta tesis es determinar las tres primeras frecuencias formánticas de las
vocales del idioma español hablado en la Ciudad de México, mediante el uso de espectrogramas
digitales generados por medio del análisis de Fourier de corta duración.
Los valores obtenidos fueron comprobados por medio de la síntesis, a través del uso del
sintetizador por formantes de Klatt, utilizando sólo la parte correspondiente a los resonadores
en cascada.
vi
Speech communication has always been of great interest for human being. Many efforts
have been dedicated to its knowledge and understanding, since articulatory to phonetic analysis
and recen'tly, with digital computers aid, it has been able to calcúlate algorithms that were
almost impossible to develop before due to the great quantity of operations that they involve.
Such mathematical representations serve as the basis for the analysis and synthesis of speech.
An important aid in the analysis of speech is the sound spectrogram, which represents a time-
frequency-intensity display of the short-time spectrum, implemented by the Fast Fourier
transform algorithm.
The purpose of this thesis is to determine the first three formant frequencies for spanish
vowels speaking in México City, through the use of digital spectrograms generated by mean of
the short time Fourier analysis.
The obtained valúes were verified by mean of synthesis, through the use of the Klatt's
formant synthesizer, making use only of the section corresponding to cascade resonators.
v/7
wmzovTieen&n
Uno de los principales medios de comunicación del ser humano es la voz. Un modo de
caracterizar la voz es en términos de la forma de la onda acústica, lo que es muy útil en aplica-
ciones prácticas. E l estudio de la voz implica un conocimiento indirecto de otras funciones co-
mo: la percepción, el aprendizaje, la memoria y la inteligencia.
L a acústica fonética del habla incluye en un amplio sentido la teoría de la voz como un
conocimiento de ondas y como la voz se produce y se escucha. L a aplicación de la fonética
acústica es muy importante en los estudios descriptivos de una lengua o de un dialecto. La fo-
nética acústica surgió pocos años antes de la segunda guerra mundial. Anteriormente la fonética
era totalmente fisiológica o articulatoria y con el conocimiento anatómico de los órganos de fo-
nación se pudieron realizar descripciones de los sonidos de la voz definidos por su producción
dentro del conducto vocal. R. Jakobson, G. Fant, M. Gunnar y M. Halle en su obra
"Preliminaries to Speech Analysis" [1] cambian totalmente el panorama, ya que establecen toda
una serie de estudios basados exclusivamente en los rasgos acústicos de las realizaciones fone-
máticas. A partir de esta obra se consideran principalmente los estudios basados en los rasgos
acústicos de los sonidos. Desde el punto de vista de la ingeniería, la voz se trata como una for-
ma de onda definida por las variaciones de la presión sonora en un punto frente al orador. E l
estudio del aspecto exterior de los fenómenos fonológicos hace que el análisis acústico se des-
taque en primer plano, ya que es la imagen acústica y no la imagen motriz la que es enfocada
por el sujeto hablante.
La fonética acústica se encarga de estudiar las componentes que conforman la onda so-
nora de los sonidos articulados y de buscar cual o cuales de ellos son imprescindibles para su
reconocimiento.
Uno de los principales propósitos del análisis de la voz es extraer los aspectos o pará-
metros que representen características importantes en la forma de onda. Los dos principlaes pa-
rámetros acústicos de la voz, en el sentido de que son parámetros del conducto vocal, son los
formantes y la frecuencia fundamental.
Con el desarrollo de instrumentos de medición y de la informática se han podido cono-
cer objetivamente las características o las cualidades de los sonidos (cantidad, intensidad, fre-
cuencia fundamental y estructura formántica); características que antes eran prácticamente im-
posibles de analizar y que se establecían subjetivamente en base a la percepción de los investi-
gadores.
Hay una abundante bibliografía aplicada a lenguas que no son el español (principalmente
el inglés); pero su desigualdad es bastante manifiesta, ya que las variantes alofónicas del español
son más numerosas. Establecer de un modo definitivo y por igual-las características de una len-
gua como la nuestra es una labor ardua y larga.
A pesar de que los principales fenómenos fónicos de Hispanoamérica encuentran una
representación adecuada en los trabajos realizados en nuestra lengua [6], la mayoría de éstos
pertenecen al español europeo. Los sonidos analizados en este trabajo pertenecen al español de
México y particularmente al hablado en la Ciudad de México y los resultados obtenidos son sa-
tisfactorios; sin embargo queda mucho por hacer, como por ejemplo, analizar los mismos soni-
dos para cada una de las diversas regiones de nuestro país.
Mucho tiempo se especuló sobre la aplicabilidad de técnicas digitales en muchas áreas
del procesamiento de señales; sin embargo, fue hasta mediados de los 60's que comenzó a sur-
gir una teoría más formal del procesamiento digital de señales. Un gran impulso se dio en este
campo con un método propuesto por Cooley & Tukey (1965) [9] para computar la Transfor-
mada Discreta de Fourier. A esta serie de técnicas se les conoce como la Transformada Rápida
de Fourier, que reduce el tiempo de cálculo de la Transformada Discreta de Fourier.
E l resultado de estos desarrollos ha llevado a una gran variedad de aplicaciones en los
problemas de procesamiento de señales, desde los espectros de baja frecuencia en sismología,
los espectros acústicos del sonar y la voz, hasta los espectros de vídeo de los sistemas de radar.
Algunas de las aplicaciones más importantes del procesamiento digital de señales han
sido en el área del procesamiento de la voz, incluyendo el análisis espectral, los sintetizadores
de voz, los sistemas de predicción lineal y los sistemas de respuesta de voz por computadora.
2
Objetivó:
E l objetivo de esta tesis es determinar, a través de espectrogramas digitales, la frecuen-
cia aproximada de los tres primeros formantes de las vocales del idioma español hablado en la
Ciudad de México.
Justificación:
Dado que la mayoría de los estudios de nuestro idioma han sido efectuados para el es-
pañol europeo y de que existe una gran variabilidad en su pronunciación en las diferentes zonas
geográficas en donde se habla; con este trabajo se pretende obtener algunos parámetros repre-
sentativos de los sonidos vocálicos del español hablado en la Ciudad de México que aporten,
aunque en pequeña escala, algo al conocimiento universal de nuestra lengua.
Contenido del trabajo:
La tesis se divide en cinco capítulos, dentro de los que se abordan los conceptos nece-
sarios para el desarrollo del trabajo mismo; así como los resultados y conclusiones a los que se
llegó.
En el Capítulo 1 se da un panorama de como se produce la voz en el aparato vocal hu-
mano, las unidades básicas que conforman un lenguaje, los diferentes sonidos de voz y el mode-
lo acústico del conducto vocal humano.
En el Capítulo 2 se hace la descripción de las herramientas matemáticas que dan lugar a
los espectrogramas digitales para el análisis y caracterización de las señales de voz.
E l Capítulo 3 da una breve descripción de los métodos de síntesis de voz; así como de
las configuraciones generales de los sintetizadores de voz y en particular el sintetizador por
formantes utilizado para corroborar los resultados obtenidos mediante el análisis de diversas
señales de voz.
3
En el Capítulo 4 se exponen los espectrogramas digitales de algunas señales, específi-
camente las partes correspondientesa los sonidos vocálicos .
Finalmente se hacen algunas conclusiones y recomendaciones para trabajos posteriores
que pudieran llevar a una mejor caracterización de los sonidos analizados.
E l presente trabajo forma parte de las investigaciones que en el área del procesamiento
de las señales de voz se desarrollan en el Laboratorio de Investigación en Procesamiento de
Señales (LIPSE) de la E S I M E en el Instituto Politécnico Nacional de México, con la finalidad
crear tecnología nacional en el área mencionada.
4
EL PROCESO DE PRODUCCION DE LA VOZ
Para poder aplicar las técnicas del procesamiento digital de señales a los problemas de la
comunicación hablada, es muy importante entender los fundamentos del proceso de la produc-
ción de la voz; así como también considerar los diferentes tipos de sonidos que existen en la
\
voz humana.
Al considerar el proceso de la comunicación hablada, es útil pensar en el mensaje repre-
sentado en alguna forma abstracta en el cerebro de un orador. A través de un proceso complejo
de producción del habla, la información en el mensaje se convierte en señal acústica. E l mensaje
se convierte primero en señales nerviosas que controlan el mecanismo articulatorio (el movi-
miento de la lengua, la boca, etc.), efectúan una secuencia de gestos y dan como resultado una
forma de onda acústica que contiene la información del mensaje.
E l habla transporta información simultánea de al menos tres clases: lingüística, sociolin-
gúística y personal. La más importante es la información lingüística que es considerada como el
significado de la expresión. La información sociolingüística nos indica que un orador proviene
de una determinada región y clase socioeconómica. L a información personal identifica al orador
en cuanto a las características de su voz y hábitos articulatorios.
7.1 EL MECANISMO DE PRODUCCION DE LA VOZ.
E l aparato fonador del hombre está íntimamente ligado con el aparato respiratorio. L a
fonación se lleva a efecto por el aparato humano diseñado para respirar y comer. Los órganos
que forman el aparato respiratorio más los órganos de la boca tienen participación en la pro-
ducción de la voz. En la figura 1.1 se muestra un corte sagital del aparato vocal humano.
Las estructuras que componen el aparato respiratorio pueden clasificarse en vías
5
respiratorias y vías de conducción. Las vías respiratorias son aquellas partes relacionadas direc-
tamente con el intercambio de gases (principalmente los pulmones). Las vías de conducción
proveen un medio por el cual el aire puede entrar o salir y son de particular interés para el es-
tudio de la voz, éstas son: las cavidades orales y nasales, la faringe, la laringe, el esófago y la
tráquea.
Figura 1.1. Corte sagital del aparato vocal humano.
* La tráquea, es un conducto cuasi-cilíndrico de aproximadamente 12 cm de longitud y de 1.5
a 2 cm de diámetro [3]. Su extremidad superior soporta a la laringe y su extremidad inferior se
divide en dos ramas o bronquios de longitudes y secciones desiguales que permiten el paso del
aire a los pulmones.
6
* La laringe es un conducto cartilaginoso que por un extremo se comunica con la faringe y por
el otro con la tráquea. Sirve para el paso del aire, siendo a su vez el órgano productor de soni-
dos, los que al ser modificados posteriormente por las cámaras supra e infralaríngeas dan como
resultado la voz humana. En la producción de algunos de los sonidos participan las cuerdas vo-
cales; cuando se encuentran en tensión, el aire espirado las hace oscilar y como resultado se
producen los sonidos vocalizados. En el lenguaje articulado también participan la lengua, la
cavidad bucal, los labios y la cavidad nasal [2]. En el interior de la laringe se encuentran las
cuerdas vocales superiores e inferiores, separadas las derechas de las izquierdas por un espacio
alargado que se denomina glotis. Entre las cuerdas vocales superiores e inferiores existe un es-
pacio llamado ventrículo de la laringe. Las cuerdas vocales superiores son dos láminas aplana-
das que se extienden desde el ángulo entrante del cartílago tiroides hasta la cara anteroexterna
del aritenoides; miden alrededor de 20 mm de longitud en el hombre y presentan dos caras y
dos bordes [3]. La cara superior forma parte de la porción supraglótica; la inferior corresponde
al ventrículo de la laringe. E l borde externo se continúa con el pliegue aritenoepiglótico y el in-
terno es libre y forma con el lado opuesto un espacio triangular de base posterior. Las cuerdas
están constituidas por un pliegue de la mucosa laríngea que contiene en su espesor al ligamento
tiroaritenoideo superior. Las cuerdas vocales inferiores también son aplanadas y se extienden
del ángulo entrante del tiroides a la apófisis vocal del aritenoides. Miden de 20 a 25 mm de
longitud en el hombre y así como las superiores, presentan dos caras y dos bordes [3]. L a cara
superior, horizontal, forma el piso del ventrículo; la inferior forma parte de la porción subglóti-
ca. E l borde externo, grueso, corresponde a la cara interna del cartílago tiroides y al músculo ti-
roaritenoideo inferior; el borde interno, libre y delgado, forma con el lado opuesto un espacio
que tiene la forma de triángulo isósceles de base posterior, llamado glotis. E l esqueleto de estas
cuerdas vocales inferiores lo forma el ligamento tiroaritenoideo inferior y poseen además un
fascículo del músculo tiroaritenoideo. E l triángulo que constituyen las cuerdas vocales inferio-
res es más estrecho que el limitado por las superiores. Desde el punto de vista funcional, son las
cuerdas vocales inferiores las esenciales para la fonación, las superiores se pueden considerar
como partes accesorias. Al respirar sin fonación las cuerdas vocales se separan al máximo; en
tanto que cuando hay una presión bajo la glotis entran en vibración.
7
* La glotis es el espacio comprendido entre los bordes libres de las cuerdas vocales inferiores;
sus dimensiones varían con los movimientos. En estado normal (sin fonación), la glotis mide en
su base de 7 a 8 mm en el hombre y de 5 a 6 mm en la mujer [3]. La glotis se abre y cierra se-
gún las necesidades de la emisión de voz y también con las fases respiratorias. L a presión de ai-
re subglótica y las variaciones temporales del área glotal determinan la velocidad del volumen
del flujo de aire glotal expelido hacia el conducto vocal.
* El esófago es el conducto que va desde la faringe hasta el estómago. Se encuentra dirigido
verticalmente y desciende por la parte inferior del cuello y el toráx hasta el diafragma, lo atra-
viesa, llega a la parte superior de la cavidad abdominal y desemboca en el estómago. Su diáme-
tro en estado de distensión no presenta un calibre uniforme.
* La faringe sirve para el paso de los alimentos de la cavidad bucal al estómago y para el paso
del aire de la cavidad nasal a la laringe.
* El conducto vocal se considera como un tubo acústico de sección no uniforme, que comienza
en la glotis y termina en los labios; y su forma varia con respecto al tiempo. E l conducto vocal
consiste de la faringe y la boca y su longitud total promedio en el hombre adulto es aproxima-
damente 17.5 cm. E l área de su sección transversal está determinada por la colocación de la
lengua, labios, mandíbulas y el velo del paladar; y puede variar de cero (cierre completo) a
alrededor de 20 cm2'. Una cavidad auxiliar, el conducto nasal, se puede acoplar al conducto
vocal por la acción del velo del paladar, para producir los sonidos nasales del habla. E l conduc-
to nasal comienza en el velo del paladar y termina en los orificios nasales. En los sonidos no na-
sales el velo del paladar cierra la cavidad nasal y ningún sonido se radia por los orificios nasales.
En la producción normal de la voz, la cavidad del pecho se expande y se contrae empu-
jando aire desde los pulmones. E l flujo de aire de los pulmones pasaa través de las cuerdas vo-
cales. Si las cuerdas vocales están separadas, como es normal durante la respiración, el flujo de
aire de los pulmones tendrá paso libre relativamente hacia la faringe y la boca y/o la cavidad na-
sal. Si las cuerdas vocales se ajustan y tensan (como en los sonidos sonoros) de forma que haya
un paso angosto entre ellas, el flujo de aire hará que se succionen entre si. Tan pronto como
éstas se junten no habrá flujo de aire y la presión bajo ellas aumentará hasta que se separen otra
vez. E l flujo de aire entre ellas hace que se succionen nuevamente y el ciclo vibratorio continua-
rá modulando el aire en soplos o pulsos discretos. E l flujo de aire expelido se percibe como
voz. Con el cambio de posición de los diferentes articuladores durante el habla continua, la
forma de las diferentes cavidades cambia drásticamente.
1.2 LOS FONEMAS.
L a información comunicada a través del habla es intrínsecamente de naturaleza discreta;
es decir que se puede representar por una concatenación de elementos de un conjunto finito de
símbolos llamados fonemas. Cada lengua tiene sus propios fonemas distintivos.
L a unidad básica para describir como la voz lleva información lingüística es el fonema
[4]. E l fonema es el elemento básico del lenguaje hablado, que corresponde aproximadamente a
un carácter alfabético en el texto escrito. Aproximadamente se puede decir que un fonema es
un grupo de sonidos similares, pero no idénticos, que difieren uno del otro de acuerdo al con-
texto en el que ocurren; que tienen una función distintiva y que no pueden descomponerse en
una sucesión de segmentos que posean tal función. Estrictamente un fonema no es un sonido,
sino una abstracción para un conjunto de sonidos. Los miembros individuales de este conjunto
se llaman alófanos, es decir, un alófono son las diferentes formas en que se puede pronunciar
un fonema. En un lenguaje, el conjunto de fonemas son el conjunto de unidades que se requie-
ren para representar expresiones de una forma no ambigua.
Los fonemas son unidades lingüísticas que no tienen significación por si mismas; pero
con una función diferenciadora capaz de cambiar el significado de un morfema, una palabra o
una frase cuando se les reemplaza por otro. E l ensamble de fonemas según las leyes particulares
de cada lengua permite reconstruir palabras habladas; sin embargo la asociación de varios fo-
nemas no da necesariamente una palabra comprensible. La yuxtaposición de dos fonemas con-
duce únicamente a la percepción de dos sonidos separados por un tiempo muerto; en tanto que
la transición de un fonema a otro es lo que lo hace inteligible. E l número de fonemas varía para
9
cada lengua, su número típico está entre 30 y 50 [5]; en español existen 28, de los cuales cinco
tienen función vocálica y los demás función consonántica.
Los fonemas están constituidos y se identifican por medio de sus rasgos distintivos [6]:
prosódicos (tono, fuerza e intensidad), intrínsecos de sonoridad (vocálico, no vocálico, conso-
nántico, nasal, etc.), e intrínsecos de tonalidad (grave, bemolizado, etc.); es así que los rasgos
distintivos son los últimos constituyentes de una lengua.
Las vocales tienen el rasgo distintivo vocálico que desde el punto de vista acústico se
caracteriza por la presencia de una estructura formántica netamente definida; en tanto que des-
de el punto de vista articulatorio, este rasgo se debe principalmente a una excitación producida
al nivel de la glotis y la ausencia de obstáculos al paso del aire fonador a través de las cavidades
supraglóticas. La posición de los dos o tres primeros formantes proporciona la identificación
de las vocales.
Las consonantes poseen el rasgo consonántico, que se muestra bajo el efecto de una
disminución de la energía total y por la presencia de no resonancia en su espectro. E l rasgo
consonántico se caracteriza por la presencia de un obstáculo en las cavidades supraglóticas.
1.3 LOS SONIDOS DE VOZ.
E l lenguaje fonético articulado propio del hombre consiste de un conjunto específico de
ruidos espiratorios y también inspiratorios que se generan en el conducto vocal y que pueden
combinarse o no con los sonidos faríngeos y bucales, de lo que proviene la voz articulada. Por
tanto, en la formación de las palabras la parte predominante corresponde al conducto vocal.
La figura 1.2 muestra un diagrama esquemático del mecanismo de producción de la voz
en el humáno. E l diagrama incluye el sistema subglotal, compuesto por los pulmones, bronquios
y tráquea. Este sistema subglotal funciona como fuente de energía para la producción de la voz.
La voz es simplemente una onda acústica radiada por este sistema cuando el aire es expelido
desde los pulmones y el flujo de aire resultante es perturbado por una constricción en alguna
10
parte del conducto vocal.
Los pulmones están representados por el depósito de aire a la izquierda. Los músculos
de la caja torácica elevan el aire en los pulmones a una presión subglótica; esta presión expele
un flujo de aire con velocidad volumétrica U G a través del orificio glotal y se produce una pre-
sión local de Bernoulli [7]. Las cuerdas vocales representadas como un oscilador mecánico
actúan como una función de las presiones subglótica y de Bernoulli. Los conductos vocal y na-
sal se muestran como tubos cuya sección transversal cambia con la distancia. Las velocidades
volumétricas acústicas de la boca y los orificios nasales son U M y. U N respectivamente. La pre-
sión del sonido Ps al frente de la boca es aproximadamente una superposición lineal de las deri-
vadas con respecto al tiempo de U M y de UN.
Figura 1.2. Diagrama esquemático del aparato vocal.
E l sonido se puede generar en el sistema vocal en tres formas de acuerdo a su forma de
excitación. Los sonidos sonoros se producen elevando la presión del aire en los pulmones, for-
zando el flujo a través de la glotis con la tensión de las cuerdas vocales ajustada de tal forma
que vibren, produciendo pulsos de aire cuasiperiódicos de amplio ancho de banda que excitan al
conducto vocal. A mayor tensión de las cuerdas vocales, la frecuencia fundamental de la voz es
más alta. La frecuencia fundamental varía de persona a persona: 350 Hz para niños, 250 Hz pa-
ra mujeres y 125 Hz para hombres aproximadamente. Los sonidos fricativos (no sonoros) se
generan formando una constricción (obstrucción) en algún punto del conducto vocal, general-
mente hacia el final de la boca, y forzando el aire a través de la constricción a alta velocidad pa-
ra producir turbulencia creando una fuente de ruido. Los sonidos explosivos resultan de hacer
un cierre completo hacia el frente del conducto vocal, generando una presión junto al cierre y
soltándola abruptamente.
Cuando se genera un sonido, éste se propaga por los tubos que representan los conduc-
tos vocal y nasal, figura 1.2, y el espectro de frecuencia se forma por la frecuencia selectiva de
los tubos. Así, el sistema vocal actúa como un filtro variante en el tiempo que impone sus ca-
racterísticas resonantes sobre las fuentes, estructurando la señal acústica.
Según Fant [8] la onda del lenguaje es la respuesta de los sistemas de filtros del conduc-
to vocal a una o más fuentes de sonido.
Los diferentes sonidos se forman variando la forma del conducto vocal. Al cambiar de
posición los órganos articulatorios, forman en la región supraglótica cavidades resonantes de
volumen y forma diferentes; al ser diferentes, su respuesta en frecuencia también es diferente y
por tanto también el espectro de la onda que salga del resonador.
Las frecuencias de resonancia del conducto vocal se llaman frecuencias formánticas o
formantes. Cada forma del conducto vocal tiene un único conjunto de frecuencias formánticas
y los sonidos característicos de un lenguaje tienen de modo perceptivo posiciones formánticas
características. En el lenguaje continuo,las resonancias formánticas varían conforme varía la
forma del conducto vocal.
Las frecuencias de los formantes pueden variar dependiendo de cada individuo. Las va-
riaciones individuales se deben en gran parte a la diferencia en el tamaño de la cabeza. Un suje-
to con una cavidad vocal grande producirá frecuencias formánticas más bajas, que aquellos con
cabeza pequeña. Las mujeres tienen frecuencias formánticas 17% más altas en promedio que las
de los hombres [4]. En general, las frecuencias formánticas mantienen la misma relación una de
12
otra, aunque pueden desplazarse en frecuencia dependiendo del sujeto. Dos vocales pueden te-
ner la misma calidad fonética; pero diferentes frecuencias formánticas. Hay muchos factores
que afectan los anchos de banda de los formantes: las pérdidas por radiación desde la boca, las
pérdidas por vibración de las paredes del conducto vocal, la viscosidad y las pérdidas durante la
apertura de la glotis. Durante las vocales, la variación de los anchos de banda debida a la varia-
ción de la forma del conducto vocal no es suficientemente grande como para tener una impor-
tancia subjetiva.
Debido al tamaño promedio del conducto vocal humano (17.5 cm) se tienen formantes
en frecuencias que son múltiplos impares de un cuarto de la longitud de onda [7], ésto es:
( 2 « - l ) c
K= 4 / ; n= 1,2,3, (1.1)
donde: c es la velocidad de propagación del sonido en el aire.
/ es la longitud promedio del conducto vocal humano.
F„ son las frecuencias de resonancia del conducto vocal (formantes).
Por tanto, la primer resonancia ocurre en:
c 35000 cmls
F= = —• = 500 Hz (12)
1 4/ 4(17.5) cm K '
Perceptivamente, sólo los tres primeros formantes son importantes para determinar el
sonido que se escucha [9]. Los formantes más altos son necesarios para producir sonidos de
calidad aceptable.
1.3.1 E S T R U C T U R A ACUSTICA.
L a lingüística estudia los rasgos distintivos o característicos de los fonemas; sin embar-
go, es suficiente considerar en una caracterización acústica de los sonidos el lugar y forma de
articulación, las formas de onda y las caracterizaciones espectrográficas de los sonidos.
13
En el español hay dos clases de sonidos: vocales y consonantes. Cada una de éstas se
puede dividir en subclases relacionadas con la forma y lugar de articulación dentro del conducto
vocal.
1.3.1.1 Vocales.
Los sonidos vocálicos son los que más interés han despertado en las investigaciones
acústicas, desarrollándose desde hace más de un siglo innumerables teorías para clarificar su
naturaleza acústica.
Todos los sonidos de las vocales son sonoros; es decir que se producen con la vibración
de las cuerdas vocales, con el conducto vocal relativamente fijo. L a forma en que varía el área
de la sección transversal a lo largo del conducto vocal determina las frecuencias de resonancia
del conducto (formantes) y por tanto el sonido que se produce. L a dependencia del área de la
sección transversal con la distancia a lo largo del conducto se denomina función de área del
conducto vocal. Para cada vocal, esta función de área se determina por la posición de la lengua,
mandíbulas, labios y velo del paladar. Así, cada sonido vocálico se puede caracterizar por la
función de área que se utiliza en su producción; sin embargo, esta caracterización es imprecisa
debido a las diferencias intrínsecas entre los conductos vocales de cada persona. Una represen-
tación alternativa es en términos de las frecuencias de resonancia del conducto vocal, aunque
también se espera una gran variabilidad entre diferentes sujetos.
Las resonancias que caracterizan el timbre de una vocal resultan de la filtración que su-
fre el tono glotal (vibración de las cuerdas vocales) al pasar por la boca y por las cavidades
guturales; es decir, la boca se comporta como un filtro que no deja pasar nada más que ciertas
vibraciones salidas de la glotis. Las frecuencias que la boca deja pasar son diferentes para cada
vocal, debido principalmente a que las cavidades resonantes que las filtran cambian de forma
y/o de dimensiones.
Al ponerse en vibración las cuerdas vocales producen una onda compuesta. Si se man-
tuviese la misma frecuencia fundamental, cada uno de los sonidos vocálicos que se emitiesen
tendría exactamente la misma configuración.
14
Todas las vocales poseen los rasgos vocálico, continuo, sonoro y no-consonántico. Lo
que diferencia a una vocal de otra u otras, aunque la frecuencia de sus componentes sea igual,
es la distinta estructuración de sus armónicos (ancho de banda e intensidad), cuya percepción se
denomina-timbre. De todos los armónicos componentes, serán reforzados aquellos cuyas fre-
cuencias coincidan con las frecuencias de resonancia de las distintas cavidades resonantes del
conducto vocal, y estas cavidades varían con la articulación de cada sonido. Cada conjunto de
armónicos reforzados es un formante. Las vocales se identifican por una relativa estabilidad en
la frecuencia de los formantes y por tener mayor concentración de energía que las consonantes
abajo de los 1000 Hz. Además, en general tienen mayor intensidad que los sonidos consonánd-
oos.
De todos los formantes, los tres primeros (Fi , F2, F2) son indispensables para la per-
cepción de cada vocal. Los formantes superiores (individuales) dependen de:
a) La configuración faringo-bucal de cada sujeto. Las mujeres y los hombres difieren más en la
longitud total de la faringe que en la de la boca. Las frecuencias formánticas de los niños son
más altas que las de la voz femenina y éstas a su vez, más altas que las de los hombres.
b) De la lengua o dialecto, conforme las diferencias anatómicas individuales o sociales y según
los hábitos educativos.
Los formantes individuales ponen de manifiesto el carácter del hablante, su condición
social, sexo, edad, estado de ánimo, etc. En un mismo individuo los formantes individuales va-
rían según: (a) la frecuencia fundamental; (b) la intensidad de la voz; (c) las intensiones expresi-
vas; (d) sus condiciones auditivas, o las condiciones acústicas del lugar donde hable.
Aunque no existen bases teóricas suficientes para establecer correlaciones estrechas en-
tre el mecanismo articulatorio y la posición de los formantes en el espectro vocálico, existen
tendencias observadas experimentalmente entre las frecuencias de los formantes y los paráme-
tros articulatorios (posición de la constricción lingual, tamaño de la constricción formada por la
lengua y dimensiones de la abertura labial). Stevens y House [10] llegaron a las siguientes con-
clusiones:
15
- E l formante F\ es alto cuando existe una estrecha constricción de la lengua cerca de la glotis y
una abertura bucal amplia y deslabializada, vocal [a]; y viceversa, vocales [i, u].
- E l formante F2 aumenta su frecuencia a medida que la constricción se adelanta en la cavidad
bucal desde la glotis, o a medida que la abertura labial aumenta. L a frecuencia de este formante
baja al disminuir la abertura labial y que la constricción lingual se aproxime a la glotis.
- E l formante F3 aumenta su frecuencia en menor grado que el F2j, conforme la constricción
avanza desde la glotis y aumenta el tamaño y deslabialización de la abertura bucal. Disminuye
su frecuencia con una abertura labial pequeña y si la constricción lingual se aproxima a la glotis.
Las vocales del idioma español se identifican frecuentemente por los tres primeros for-
mantes. Los dos primeros formantes bastan para caracterizar el timbre de todas las vocales y
para asegurar su percepción; de éstos, el F2 tiene mayor importancia en la inteligibilidad vocáli-
ca. E l tercer formante juega un papel importante en las vocales que tienen el F2 a una frecuen-
cia elevada, F2 y F3 están muy próximos [i, e]. Los formantes situados por encima de los 3500
Hz no juegan prácticamente ningún papel en la caracterización lingüística de las vocales; con-tribuyen básicamente el timbre individual de las mismas. La identificación lingüística de las vo-
cales no depende totalmente de la frecuencia absoluta de los formantes, sino de la frecuencia
relativa a la estructura total de los formantes del sujeto hablante. Esta estructura puede variar
ligeramente de una persona a otra.
A pesar de las investigaciones realizadas hasta ahora con respecto al sistema vocálico
español, no se ha llegado a conclusiones totalmente satisfactorias, debido a la complejidad y
amplitud de los materiales que es necesario analizar. Entre algunos de estos trabajos se encuen-
tran:
- R. B . Skelton [11] analiza las vocales en palabras aisladas y no llega a soluciones concretas.
- Daniel N. Cárdenas [12] analiza un amplio número de vocales de dos informantes, un colom-
biano y un mexicano, llegando a la conclusión de que existe una amplia gama de variaciones
alofónicas para un fonema dado.
16
- Joseph H. Matluck [13] hizo un análisis acústico sobre las realizaciones de [é] en la Ciudad de
México sin resultados concretos.
- R. B . Skelton [14] analiza grabaciones de palabras aisladas emitidas por veinte hispanos varo-
nes e intenta mostrar que la semejanza que se produce entre las realizaciones de las diferentes
vocales reside más bien en la percepción auditiva que en las cualidades físicas de los sonidos
emitidos.
- M. Guirao y A. M. B . Manrique [15] analizan cinco fonemas vocálicos pronunciados de ma-
nera aislada, comparando resultados con el análisis de las vocales en los contextos b - d y p - s.
- M. Bernales [16] compara veinte realizaciones vocálicas (vocales aisladas, precedidas de s,
seguidas de s y entre dos s), sin conclusiones.
- Páez Urdaneta [ 17] analiza 52 realizaciones de los tres fonemas / i , e, a/ en palabras aisladas
leídas por un ecuatoriano, sin conclusiones válidas.
- Quilis y Esgueva [18] analizan los cinco formantes vocálicos en posición fonética normal (la
vocal situada entre dos consonantes labiales), estableciendo un triángulo vocálico para la lengua
española.
- Rodríguez, Olabe et al. [5] establecen valores para los formantes de las cinco vocales a través
de la síntesis.
1.3.1.2 Consonantes.
Las consonantes son ruidos que se originan en diversos puntos del conducto vocal. Se
pronuncian generalmente con la asociación de una vocal. E l sonido ocurre en diversos puntos
del conducto vocal contra los que tropieza y fricciona el flujo de aire, en tanto que las cavida-
des próximas resuenan; por lo cual, las consonantes se pueden clasificar de acuerdo al lugar y
forma de la obstrucción generada en el conducto vocal. En el aspecto acústico, la percepción
de una consonante depende de los cambios apreciables en la frecuencia de los formantes.
17
- Explosivas orales.
El-término consonantes explosivas se debe al hecho de que el momento más audible es
el de la explosión. Las características que las distinguen fundamentalmente son: (a) la interrup-
ción total en la emisión del sonido; (b) la explosión que sigue a esta interrupción; (c) la rapidez
de las transiciones de los formantes de las vocales precedentes y siguientes. En el español hay
seis fonemas explosivos orales: tres sonoros / b, d, g / y tres sordos / p, t, k /.
Las explosivas sonoras son producidas por un cierre total en alguna parte del conducto
vocal. En el periodo en el que la constricción es total, no hay sonido radiado por los labios; sin
embargo, hay una pequeña cantidad de energía de baja frecuencia radiándose a través de las pa-
redes de la garganta, lo que ocurre cuando las cuerdas vocales vibran, aún cuando el conducto
vocal esté cerrado en algún punto.
Las explosivas sordas son similares a las explosivas sonoras, excepto que durante el pe-
riodo de cierre total del conducto, las cuerdas vocales no vibran. Después del periodo del cie-
rre, mientras que el aire se libera, hay un breve intervalo de fricción seguido por un periodo de
aspiración antes de que comience la excitación sonora.
- Explosivas nasales.
Las consonantes nasales /m, n, ñl se producen con excitación glotal y el conducto vocal
totalmente contraído en algún punto. E l velo del paladar se baja, tal que el aire pasa a través del
conducto nasal. L a cavidad oral contraída hacia el frente está acoplada acústicamente a la farin-
ge; entonces la boca actúa como una cavidad resonante que atrapa la energía acústica en ciertas
frecuencias naturales. En las explosivas nasales existe una concentración de energía de baja fre-
cuencia.
- Fricativas.
Desde el punto de vista acústico, reciben este nombre por ser lo más audible de ellas la
fricción que produce el aire al pasar a través de la estrechez formada entre dos órganos
articulatorios. En el español existen ocho sonidos consonánticos fricativos / f, 9, s, x, 3, 8, y, j /.
Estas consonantes poseen un ruido de fricción que constituye una de sus principales caracterís-
ticas. Las fricativas presentan zonas de resonancia que dependen del grado de constricción de
los órganos articulatorios, pudiéndose distinguir resonancias en las zonas de bajas frecuencias o
en las zonas de altas frecuencias.
Algunos ejemplos de las fricativas de resonancias bajas son: [ 3 ] en bo¿>a, [ 8 ] en veda,
[ y ] en ve^a y [ j ] en saya. Para el caso de las fricativas de resonancias altas se tienen: [ f ] en
a/an, [ 9 ] en azada, [ s ] en embolsar y [ x ] en ca/a.
- Africadas.
Estas consonantes se caracterizan porque en su emisión intervienen dos momentos: uno
de interrupción, similar al de las explosivas, seguido de otro constrictivo. E l español posee dos:
una sorda [ch] y otra sonora [y].
- Liquidas.
E l término consonante líquida incluye las consonantes [1, u, r, rr], laterales y vibrantes.
Pueden tener rasgos vocálicos y consonánticos, su estructura formántica es similar a la de las
vocales; pero difiere de éstas en que la frecuencia del formante fundamental es menor y su
intensidad global también es menor.
1.4 MODELOS ACUSTICOS.
Los modelos de tubos acústicos para la producción de la voz han sido estudiados du-
rante un gran número de años [8, 19, 20, 21]. Estos estudios han demostrado que de una forma
de tubo dada se pueden obtener sus frecuencias de resonancia. Las suposiciones básicas para
derivar un modelo de tubo acústico del conducto vocal [22] son:
19
1) E l conducto vocal se supone que consiste de n secciones de igual longitud interconectadas.
Cada sección individual es de área uniforme.
2) La dimensión transversal de cada sección es pequeña comparada con una longitud de onda,
de tal forma que las ondas acústicas dentro del conducto vocal se pueden ver como ondas pla-
nas y unidimensionales para frecuencias menores a los 5 KHz [23]. En este caso, sólo el área de
la sección transversal y el perímetro a lo largo de la longitud del conducto vocal determinan sus
características acústicas.
3) Las secciones son rígidas, tales que las pérdidas internas debidas a vibración de paredes, vis-
cosidad y conducción de calor en la superficie de las paredes del conducto vocal se pueden
omitir, ya que sus efectos se manifiestan solamente como un ligero incremento en el ancho de
banda de los formantes [24].
4) E l comportamiento del conducto vocal se puede determinar para frecuencias abajo de los 5
KHz resolviendo las ecuaciones de onda de una dimensión, estas ecuaciones están en función
del tiempo y del espacio. Estas soluciones dan una función de transferencia que relaciona
muestras de la velocidad del volumen de aire de la fuente glotal con la velocidad del volumen
de aire de salida en los labios y establecen las frecuencias de resonancia del sistema [8, 25]. Las
frecuencias de los primeros tres formantes para la mayoría de las vocales se pueden calcular
aproximadamente de las dimensiones del conducto vocal, considerándolo como secciones cilin-
dricas en serie.
5) E l modelo es lineal y desacoplado de la glotis.6) Los efectos del conducto nasal se pueden ignorar.
Considerando que el conducto vocal está formado por un tubo acústico no uniforme de
sección transversal variante con el tiempo, figura 1.3, con paredes no rígidas, con propagación
de ondas planas a lo largo de él; la presión p(x,t) y la velocidad del volumen u(x,f) dentro del
tubo están gobernados por tres ecuaciones diferenciales parciales: la ecuación de movimiento,
la ecuación de continuidad y la ecuación de vibración de las paredes [23].
20
d p
+ - £ - £ í - + " Q (1.3) dx dt A
du d Ap dA dSy ÁS + —r—+ / =0 (1.4)
dx dt pe2 dt dt
d2y dy
m - r t + b-f- + ky = 0 (1.5)
dt dt
donde:
p = p(x,t) es la variación de la presión del sonido en el tubo.
u = u(x,t) es la variación de la velocidad del volumen del flujo de aire.
p = 1.14 x 10' g/cm es la densidad del aire en el tubo a la temperatura del cuerpo hu-
mano [20].
c = 3.53 x JO4 cm/s es la velocidad de propagación del sonido en el aire a la tempera-
tura del cuerpo humano [20].
A = A(x,t) es el valor del área de la sección transversal del tubo (función de
área).
y = y(x,t) es la amplitud de la deformación de las paredes, debida a la pre-
sión del sonido dentro del tubo.
S = S(x,t) es el perímetro del tubo.
r = r(x,t) es la resistencia del flujo de aire, debida a la viscosidad del aire y
a una pérdida cinética que depende de la velocidad del volumen.
m es la masa de las paredes por unidad de longitud.
21
b es la resistencia mecánica de las paredes por unidad de longitud.
k es la rigidez de las paredes por unidad de longitud.
Los coeficientes m, b y k se suponen constantes y uniformes a lo largo del conducto vocal.
M x)
Glot is Labios
Figura 1.3. Configuración del conducto vocal.
Las ecuaciones diferenciales parciales (1.3), (1.4) y (1.5) gobiernan a las ondas acústi-
cas dentro de un tubo solamente. La propagación del sonido dentro del tubo depende de como
sus extremos están relacionados con el mundo externo, ésto se especifica por las condiciones
de frontera.
Suponiendo un tubo acústico de paredes rígidas y sin pérdidas debidas a conducción
térmica o viscosidad en el aire, ni en las paredes del tubo; la ecuación (1.5) se reduce a cero y
las ecuaciones (1.3) y (1.4) se reducen a [26, 27]:
dp d(uJA) ( 1 6 a )
dx y dt
du 1 d(pA) dA
+ dx pe' dt dt
(1.6b)
L a solución de las ecuaciones (1.6) es complicada y requiere de conocer los valores de
la presión y la velocidad del volumen en la región limitada por la glotis y por los labios; además
22
se debe conocer la función de área, que en general cambia con el tiempo. Sin embargo, conside-
rando que para los sonidos continuos A(x,t) no cambia con el tiempo, se puede utilizar un mo-
delo simple en el que la función de área del conducto vocal se suponga constante en x y en /,
por ejemplo circular.
L a figura 1.4a muestra un tubo de sección transversal uniforme excitado por una fuente
ideal de velocidad del volumen del fluido. Esta fuente ideal se representa por un pistón de alta
impedancia que se mueve en cualquier dirección, independientemente de las variaciones de
presión dentro del tubo. Se supone también que en el extremo abierto del tubo no hay variación
de la presión del aire, sólo de la velocidad del volumen; lo que se observa más fácilmente por
medio de la teoría de líneas de transmisión, recordando que un tubo de sección transversal
uniforme es análogo a una sección de línea de transmisión, dado que la resistencia acústica, la
masa y la compliancia se distribuyen a lo largo del tubo, de la misma forma que lo hacen la re-
sistencia, la inductancia y la capacitancia a lo largo de la línea; además de la correspondiente
analogía entre la presión y la velocidad del volumen en el tubo acústico, con el voltaje y la co-
rriente en la línea de transmisión. Usando estas analogías, el tubo acústico uniforme se compor-
ta de forma idéntica a una línea de transmisión uniforme sin pérdidas, excitada en un extremo
por una fuente de corriente ( / (0,/) = ic (t)) y cortocircuitada en el otro ( v (/,/) = 0 ) ; es decir,
que en este lugar las variaciones de voltaje son nulas, a similitud de lo que ocurre con la presión
del aire en el extremo abierto del tubo (p(l,t) = 0 ), figura 1.4b. A pesar de que estas condicio-
nes son imposibles de llevarse a efecto en la realidad, las soluciones resultantes tienen mucho en
común con modelos más reales; por lo que se pueden construir modelos más generales median-
te una sucesión de tubos uniformes.
Considerando que la función de área es invariante con el tiempo; es decir, A = A(x,t) es
una constante, las ecuaciones (1.6) se reducen a:
dp p d u
(1.7a)
dx A dt
du A d p
(1.7b)
dx pe2 dt
23
+
\
x = O
lG (00 t v(/,o = o
x = 0 x = l
X = l
(a) (b)
Figura 1.4. (a) Tubo uniforme sin pérdidas, con terminaciones ideales,
(b) Analogía eléctrica correspondiente.
Derivando ambas ecuaciones con respecto a x:
d'p p d f du
dx1 A dt \ dx ,
d
A dt
A dp
K pe dt
(1.8a)
d2u
dx2
_A d_
pe2 dt
f *> ^ dp_
dx pc-
d
dt
p du
A dt
(1.8b)
Entonces de acuerdo con las ecuaciones (1.8), las ecuaciones (1.7) se pueden escribir como:
d2 p 1 d2 p
dx2 c2 dt
d2u 1 d2u
dx2 c2 dt2
(1.9a)
(1.9b)
que son ecuaciones diferenciales lineales con variables separables [28], cuya solución tiene la
forma:
u = XT (1.10)
24
donde X sólo es función de x y T sólo es función de t. Denotando las derivadas como:
d2 X .. d2T ..
1~=X ; -—T=T
dx2 ' dt2
Sustituyendo u de (1.10) en (1.9b):
XT = -\-Xf (1.11)
c
de donde:
X 1 T
X c2 T
igualando ambos términos de (1.12) a la misma constante:
X
c2 T
La solución para la ecuación (1.13) es:
y para la ecuación (1.14):
(1.12)
V =-k2 O - » )
1 1 -k2 0.14)
X = Ae-Jkx + B ejkx (1.15a)
T=Cemt (1.15b)
25
donde:
m (1.16)
Considerando variaciones armónicas en el tiempo; podemos hacer m = jco , por lo que de la
ecuación (1.16) se obtiene:
c (1.17)
Por tanto, de acuerdo con (1.10), la solución de la ecuación (1.9b) será:
u(x,t) = Dx e''** eja" - D2 e ^ eJa" (1.18)
y similarmente para la ecuación (1.9a):
pe f (Ü co ^
£>, e'^X eja" +D2 e 7 ' eia"
J
(1.19)
Cada uno de los términos en el lado derecho de las ecuaciones (1.18) y (1.19) se puede
interpretar como ondas viajando en la dirección positiva (de la glotis a los labios) y negativa
respectivamente, relacionadas mediante las condiciones de frontera. Suponiendo que la condi-
ción de frontera para u(x,t) en x = 0 (terminación glotal) es [29]:
u(0,t) = uG(t) = UG(co)eJO" (1.20)
es decir, que el tubo está excitado por una variación exponencial compleja de la velocidad del
volumen de frecuencia co y amplitud compleja UG (CÚ)- Y además en la terminación de los la-
bios:
26
p(l,t) = o (1.21)
De las ecuaciones (1.18) y (1.19) se encuentran las constantes D i y D2, considerando que:
en donde:
u(0,t) = UG(co)eJO" = D, -D2
DX =UG(Ú)) + D2 (1.22)
y para:
p(l,t) = 0 pe
mi
D, e]a" e' e + D2 eja" e (1.23)
sustituyendo Dx de (1.22) y despejando D2:
0)1
-i—
D2 col col (1.24)
sustituyendo (1.24) en (1.22):
0)1
a =
UG(co)e
1 0)1 0)1
J—
e +e
(1.25)
Sustituyendo las ecuaciones (1.24) y (1.25) en la ecuación (1.18), se tiene que la solución en
estado estable sinusoidal para la velocidad del volumen del flujo de aire es:
. , cos(cu( / -x) /c)
«(x,0 = UG(co) eJ"'
COSI
(1.26)
k c )
27
De la ecuación (1.26) se tiene que la velocidad del volumen en los labios es:
u(l,t) = U(l,a>)e'a"
= UG(co)e JCOl
eos
col
V c )
(1.27)
La relación entre las respuestas en frecuencia de las velocidades del volumen de aire en
la entrada y la salida del sistema de la figura 1.4a, de acuerdo con la ecuación (1.27) es:
U{l,co)
UG(co)
1
7~T\ - Va (ja) col
eos
(1.28)
\ c J
Graficando esta función para valores de / = 17.5 cm y c = 35000 cm/s se obtiene la
gráfica de la figura1.5.
Esta función tiene un número infinito de polos espaciados uniformemente; éstos polos
son las frecuencias naturales o de resonancia del sistema. Estas frecuencias de resonancia son
las llamadas frecuencias formánticas consideradas en la producción de la voz.
20 logio | Va feo)
OC
A 00 A 00 A
00
A
OO
A
KHz
Figura 1.5. Respuesta en frecuencia de un tubo uniforme sin pérdidas.
22
Las ecuaciones anteriores consideran que no hay pérdida de energía en el tubo; pero en
realidad existe pérdida debido a la fricción viscosa entre el aire y las paredes del tubo, la con-
ducción de calor entre las paredes del tubo y la vibración de las paredes del tubo.
Si se toma en cuenta que las paredes del conducto vocal vibran debido a las variaciones
de la presión del aire en su interior, el área de su sección transversal varía con respecto a su
valor nominal Ao (x,t), ésto es:
A(x,t) = A0(x,t) + SA(x,t) (1.29)
Sustituyendo esta condición en las ecuaciones (1.6) y resolviendo las ecuaciones, se ha obser-
vado [26, 30] que: (a) las frecuencias centrales son ligeramente más altas que para el caso sin
pérdidas; (b) los valores pico no son infinitos y los anchos de banda de las resonancias no son
cero. Estos efectos son más pronunciados a bajas frecuencias.
Los efectos de la fricción viscosa y la conducción térmica son menores que los efectos
debidos a la vibración de las paredes, observándose [25] que: (a) las frecuencias centrales de-
crecen; (b) los anchos de banda se incrementan principalmente en las frecuencias altas.
L a radiación en los labios también influye, ocasionando una pérdida en las altas fre-
cuencias y una disminución en las frecuencias de resonancia (formantes) [29].
29
e/tpnnuo 2
ANALISIS ESPECTRAL
En muchas áreas de la ciencia y de la ingeniería, la representación de señales mediante
sinusoides o exponenciales complejas lleva a soluciones adecuadas de problemas o fenómenos
físicos. Estas representaciones (representaciones de Fourier) son útiles en el procesamiento de
señales porque ponen en evidencia ciertas propiedades de la señal que no son tan evidentes en
la señal original. E l análisis de la voz es esencialmente la imple'mentación de algoritmos que
procesan una onda acústica recibida por un micrófono, en parámetros útiles. E l conocimiento
de la producción de la voz y las descripciones fonéticas o articulatorias guían algunos aspectos
del análisis y la forma de los algoritmos para saber que tipo de análisis se debe efectuar. La re-
presentación de la voz en el dominio de la frecuencia es de gran utilidad.
Para muchos propósitos se considera el modelo de producción de voz de la figura 2.1.
Este tiene una excitación que es de naturaleza periódica durante la producción de sonidos sono-
ros; en tanto que para los sonidos no sonoros es ruido blanco. En el dominio del tiempo la voz
a la salida de los filtros es la convolución de la excitación con la respuesta al impulso de los fil-
tros del conducto vocal. En el dominio de la frecuencia el espectro de la señal de voz a la salida
es el producto del espectro de la excitación y el espectro de los filtros.
EXCITACIÓN VOZ
Sonora
>
No sonora
Figura 2.1. Modelo simplificado de la producción de la voz.
Filtros del
Conducto Vocal >
30
En el análisis de una onda se indican gráficamente las amplitudes y frecuencias de cada
una de sus ondas constituyentes, a lo cual se le denomina espectro de sonido.
Los parámetros acústicos de la mayoría de los sonidos de la voz se pueden determinar
por análisis espectrográfico. Las características espectrales de variación con el tiempo de la se-
ñal de voz se pueden observar gráficamente por medio de espectrogramas de sonido en los
cuales, el eje vertical corresponde a la frecuencia y el horizontal al tiempo, la obscuridad del
patrón es proporcional a la energía de la señal. Los espectrogramas nos proporcionan la estruc-
tura formántica de los sonidos de voz. Las frecuencias de resonancia del conducto vocal
(formantes) se muestran como bandas anchas oscuras. Las regiones sonoras se caracterizan por
una apariencia estriada debido a la periodicidad temporal de la forma de onda; en tanto que los
intervalos no sonoros están llenos sólidamente.
E l análisis espectral puede ser de banda ancha o de banda estrecha. En los espectrogra-
mas de banda ancha se pueden percibir perfectamente los formantes, figura 2.2. En los espec-
trogramas de banda estrecha aparecen todos los armónicos componentes de la señal de voz,
destacándose aquellos que corresponden a los formantes, figura 2.3.
Los espectrogramas de sonido analógicos han sido una herramienta principal en las in-
vestigaciones de voz. En la actualidad, usando técnicas de procesamiento digital de señales, los
espectrogramas se pueden generar en forma más rápida, obteniéndose así espectrogramas digi-
tales.
2.1 EL ESPECTROGRAFO DE SONIDO.
Durante muchos años se utilizaron en el dominio de la acústica experimental los proce-
dimientos articulatorios y fisiológicos para el análisis de la voz, debido a que la electroacústica
prácticamente no existía. Diversos investigadores comenzaron la búsqueda de algún dispositivo
que hiciera visibles los sonidos del habla, con la finalidad de que el ojo pudiera obtener infor-
mación de éstos de manera similar a como lo hace el oído en forma audible [31].
31
El desarrollo de la electroacústica permitió la creación de toda una serie de aparatos pa-
ra aplicación en la investigación fonética, como: el oscilógrafo, el mingógrafo, el espectrógrafo
y el magnetófono, etc.
E l espectrógrafo de sonido es un instrumento que tiene como objetivo la descomposi-
ción automática de la onda sonora de voz en cada uno de sus componentes de frecuencia (algo
equivalente al análisis de Fourier) en función del tiempo y su presentación en forma de espec-
trograma. Así se obtuvieron patrones espectrográficos de sonidos para diferentes palabras pro-
nunciadas por un mismo locutor y para palabras iguales pronunciadas por diferentes locutores,
dando evidencia de que estos patrones eran leíbles.
Un espectrógrafo de sonido clásico, figura 2.4, es un instrumento que analiza una banda
de frecuencias de una onda compleja de voz a un tiempo y graba las variaciones de intensidad
de cada banda en forma ordenada sobre un papel. Como resultado se tiene el patrón de un so-
nido en sus tres dimensiones fundamentales: frecuencia, intensidad y tiempo. Estos patrones
son llamados genéricamente espectrogramas de sonido. Las figuras 2.2 y 2.3 son ejemplos de
estos espectrogramas; en este caso para las vocales del idioma español.
En la figura 2.4, cuando el interruptor se encuentra en la posición A se puede grabar
una muestra de voz de corta duración (2 segundos) sobre una cinta magnética. Después el inte-
rruptor se mueve a la posición B y la grabación sobre la cinta magnética se reproduce una y
otra vez. La muestra de voz va a la entrada de un filtro variable F, cuya frecuencia de sintonía
se ajusta para cada repetición de la muestra de voz. La salida del filtro se conecta a la aguja que
se encuentra sobre la superficie de un papel eléctricamente sensible enrollado sobre un cilindro.
Cada vez que la señal pasa por el filtro, el cilindro rota y aparece un anillo delgado de oscuri-
dad variable. En la siguiente rotación del cilindro, la frecuencia del filtro se incrementa y la
aguja se desplaza verticalmente, apareciendo otro anillo contiguo al primero. Después de mu-
chas rotaciones, el papel muestra en dos dimensiones la gráfica del contenido de energía de la
señal, como una función de la frecuencia y del tiempo para el sonido grabado. L a intensidad es-
pectral de la señal se muestra por el grado de oscuridad. Todo este proceso dura aproximada-
mente 10 minutos [32].
32
(ZHH ) * l o u a r t o s j j
Figura 2.2. Sonogramas de banda ancha de las vocales del idioma español
producidos por unespectrógrafo de sonido [6].
33
( Z HX ) 17 i ^ u a n o a j j
Figura 2.3. Sonogramas de banda estrecha de las vocales del idioma español
producidos por un espectrógrafo de sonido [6].
Grabación magnética
Disco con cinta
.magnética
Unidad de
grabación y
reproducción
Espectrograma
Micrófono
Grabación del
espectrograma
Aguj a de
grabación
Filtro
variable
Enlace mecánico
Figura 2.4 Diagrama esquemático de un espectrógafo de sonido.
2.2 ANALISIS ESPECTRAL DE CORTA DURACION
E l análisis espectral es un área importante en el procesamiento de señales digitales y
consiste básicamente en el cálculo de la Transformada de Fourier para la estimación de la den-
sidad de potencia espectral de señales. Cuando la Transformada de Fourier se aplica a secuen-
cias de longitud finita, se denomina Transformada Discreta de Fourier (TDF) .
La TDF es la transformación básica utilizada en el análisis en el dominio de la frecuencia
de señales discretas en el tiempo, tales como la señal de voz. Para evaluar la T D F de una mane-
ra más rápida y eficiente que el hacerlo directamente se usa el algoritmo computacional deno-
minado Transformada Rápida de Fourier (TRF), con el cual se logra una importante disminu-
ción en el número de operaciones de cálculo.
Para el caso de las señales de voz, el análisis espectral nos proporciona información de
35
las frecuencias de resonancia del conducto vocal y de la estructura armónica correspondiente a
la excitación.
Un parámetro importante en el análisis de la voz es el ancho de banda. Un ancho de
banda de 4 - 5 KHz es bastante adecuado tanto para sonidos sonoros, como para sonidos no
sonoros.
Otro parámetro importante en el procesamiento de la voz es la frecuencia de muestreo.
La frecuencia de muestreo mínima es dos veces la máxima frecuencia que tenga la señal
(frecuencia de Nyquist), para que la señal analógica original pueda ser recobrada de la versión
muestreada a través de la Transformada de Fourier inversa. Así si el ancho de banda efectivo de
la señal de voz es 5 KHz, el muestreo debe ser como mínimo a 10 KHz.
Al pronunciar una palabra hay cambios entre las secciones sonoras y las no sonoras. L a
forma de onda cambia en una proporción que depende de los cambios en la posición de los arti-
culadores, esta proporción (tasa de articulación) es relativamente baja con un ancho de banda
no mayor a 100 Hz. Esto es muy importante porque significa que la señal de voz se puede ana-
lizar con parámetros que varían lentamente y dan una representación más compacta que la de la
onda original. También significa que si la onda se analiza en periodos cortos de tiempo (de
1/100 s ó 10 ms), ésta se puede suponer constante sobre estos intervalos [4].
Las señales de voz no son exactamente periódicas, aunque la forma de onda de un pe-
riodo particular generalmente se parece a uno precedente o a uno siguiente. Por tanto la supo-
sición fundamental de la Transformada Discreta de Fourier de que la onda es periódica no se
justifica realmente; sin embago, la señal es cuasiperiódica, ya que los cambios de periodo a pe-
riodo no son tan grandes [33].
L a TDF de una secuencia de duración finita x(nT) para 0 < n < N - 1 se define como
[9]:
N-1 2x nk
X{k)=^x(nT)e'~ ; k = 0,1, ,N - 1 (2.1)
n = 0
36
donde x(nT) corresponde a las muestras igualmente espaciadas de la función analógica x(t), su-
poniendo que han sido muestreadas de acuerdo al Teorema de Nyquist. Haciendo:
W = WN=e~'N y x(nT) = x(ri) (2.2)
la ecuación (2.1) se puede reescribir como:
N-I
X(k)=Y.x(n)Wnk . (2.3)
n = 0
W"k es periódica con periodo N, es decir:
^ n . m m k . l N ) = w n k . ^ / = Q, ± 1 (2.4)
E l cálculo directo de la TDF requiere muchas operaciones ya que muchos de los cálcu-
los son redundantes, entonces se utiliza la Transformada Rápida de Fourier ( T R F ) . L a T R F está
basada en la observación de que existen muchas simetrías en la TDF. L a idea de la T R F es
romper la secuencia original de N puntos en dos secuencias cortas. Las T D F de estas secuen-
cias se pueden combinar para dar la TDF de la secuencia original de N puntos. Se supone que
N es una potencia de 2. Estas dos secuencias de N/2 puntos se dividen en pares e impares,
x\ («) y x 2 («), respectivamente:
x, (n) = x(2ri) ; « = 0,1, ,(N/2) - \
(2.5)
x2(«) = x(2« +1) ; n = 0,1, (N/2) - 1
Entonces la ecuación (2.3) se puede escribir como:
X(k) = £ x(2n) W'nk + £ x(2« + 1) W^X)k (2.6)
n = 0 Í? = 0
37
y dado que:
V J
(2.7)
y denotando los datos pares como xi («) y los impares como x 2 («), en (2.6):
x(k) = £ x, (n) w* + wkN £ x 2 (») w; (2.8)
(2.9)
X\ (k) y A"2 (A:) se ven como las TDF de N/2 puntos de xi («) y x 2 («).
Si N es grande el proceso se repite para evaluar transformadas de N/4 puntos, dividien-
do las secuencias xi («) y x2(«) de la ecuación (2.9) en miembros pares e impares, es decir:
donde A(k) es la 'TDF de N/4 puntos de los miembros pares y similarmente B(k) de los miem-
bros impares. E l proceso continua hasta tener dos puntos.
E l proceso anterior se llama escalamiento en tiempo, ya que en cada etapa del proceso
la secuencia de entrada se divide en secuencias más pequeñas. Existe otra forma de la T R F lla-
mada escalamiento en frecuencia, en la que los coeficientes de la TDF se dividen en muchos
conjuntos en lugar de hacerlo con las muestras de la señal de entrada.
Durante la producción continua de la voz, la forma de la cavidad vocal no es fija y las
resonancias varían para poder producir diferentes sonidos. Dado que estas variaciones no son
tan rápidas es razonable ver a este sistema como estacionario en un tiempo corto por lo que la
Xfk) = A(k) + WkB(k)
(2.10)
= A(k) + W¿" B(k)
3Í
Transformada de Fourier normal no es tan significativa; sin embargo, el análisis espectral de
corta duración es una aproximación válida en el procesamiento de la voz [9, 29]. En el análisis
de corta duración, segmentos cortos de la señal de voz son aislados y procesados como si fue-
ran segmentos aislados de un sonido sostenido con propiedades fijas; a cada uno se le aplica la
Transformada de Fourier [47], Generalmente estos segmentos se traslapan uno con otro [34].
En general, se ha supuesto que el oído humano lleva a efecto este tipo de análisis tiempo-
frecuencia de la voz.
La Transformada de Fourier de un segmento corto de la señal de voz refleja las carac-
terísticas de excitación y de las frecuencias formánticas de ese segmento. Este tipo de proce-
samiento da una secuencia dependiente del tiempo que sirve como representación de la señal de
voz. Esta técnica de corta duración se puede representar como [29]:
00
Q(P)= ^T[x(m))w(n-m) (211)
donde T[x(m)] es una transformación aplicada a la señal de voz, que se multiplica por una ven-
tana que se va deslizando a lo largo de la señal. La ventana es equivalente a filtrar la señal con
un filtro lineal.
Los resultados dependen de las propiedades de la ventana. Si la ventana de análisis
cambia, cambiarán todas las secciones de corta duración y por lo tanto su Transformada de
Fourier. Cuando la ventana temporal se incrementa en longitud, se mejora la resolución en fre-
cuencia y la estructura armónica se hace más evidente. Cuando la ventana temporal es más es-
trecha se obtiene una mejor resolución en tiempo a expensas de la resolución espectral. Debido
a ésto, es común en el análisis espectral de la voz utilizar [35]:
a) Análisis de banda estrecha, que corresponde a una buena resolución en frecuencia y baja re-
solución en tiempo.
b) Análisis espectral de banda ancha, que proporciona una buena resolución en tiempo y baja
resolución en frecuencia.
39
Si las ventanas se aplican sin traslape, una parte significativa de la señal se ignora debi-
do a que las ventanas exhiben valores pequeños cerca de sus fronteras. Por tanto, para evitar la
pérdida de datos en el análisis espectral de cortaduración, las ventanas se deben traslapar. E l
traslape es generalmente del 50% al 75% [36].
De acuerdo con lo mencionado anteriormente, el cálculo de la ecuación (2.1) da sólo
una sección espectral en un tiempo / = (N - \)T. Para obtener un análisis espectral de corta du-
ración, se debe efectuar el cálculo en instantes sucesivos de tiempo multiplicando la señal por
una ventana. Entonces de acuerdo con la ecuación (2.11), la ecuación (2.1) se puede expresar
como:
N-\ litnk
Xr (k) = £ w(nT) x(nT-rMT) e ' ^ (2-12)
n = 0
La ecuación 2.12 se puede ver como la salida de un banco de filtros, cada uno actuando
alrededor de la frecuencia seleccionada. Xr (k) es la energía de la señal de voz en un tiempo nT
y a la frecuencia w. Por todo lo anterior, el análisis de Fourier de corta duración se puede ejecu-
tar fácilmente usando la TRF.
Dádo que la ecuación (2.1) está restringida al cálculo de una longitud finita de datos,
ésto implica que en esta ecuación existe implícitamente una ventana temporal rectangular de
anchura NT, cuyo espectro de frecuencia se muestra en la figura 2.5.
wR(f)
F r ecuenc i a
Figura 2.5. Espectro de una ventana rectangular.
40
L a ecuación (2.12) corresponde al desarrollo del análisis espectral de secciones sucesi-
vas de la señal de voz espaciadas un tiempo MT; por tanto, Xr (k) representa el cálculo de la
Transformada Discreta de Fourier de una sección de la función temporal, empezando en
t = rMTy terminando en t = rMT- (N- \)T, como se muestra en la figura 2.6.
, T ^ Tiempo Ventana r
n u rvUVvJVvv - T R F
F—A Tiempo
í \ a a [ T \ a AA / w -
T R F
T R F —»
Figura 2.6. Evaluación sucesiva del espectro.
2.3 VENTANAS.
Las características deseables de una ventana son:
1. Anchura del lóbulo principal pequeña en su respuesta en frecuencia.
2. Los lóbulos laterales deben decrecer rápidamente.
Existen muchos tipos de ventanas con diferentes características espectrales, entre las
que se encuentran: la ventana rectangular, la triangular, la de Hanning, la de Hamming, la de
Blackman, la de Kaiser y otras más. Sin embargo, la más utilizada para el análisis de señales de
voz es la ventana de Hamming.
41
* Ventana Rectangular (Dirichlet).
Esta ventana se considera como la base de referencia en el estudio de otras ventanas y
está definida como:
WR(k) = \ ; para\k\< N/2
(2.13)
= 0 ; cualquier otro caso.
Esta es una función abrupta en el dominio del tiempo y equivale a aplicar igual peso a
todas las muestras en el intervalo especificado.
L a función dentro de una ventana rectangular tendrá discontinuidades en los bordes. Las
altas frecuencias asociadas con los bordes de la ventana causan una considerable distorsión del
espectro, lo que se puede mejorar usando ventanas con terminaciones menos abruptas.
L a respuesta en frecuencia de esta ventana, figura 2.5, es:
s en ( ; r / )
E l ancho del lóbulo principal es 2/N. Los ceros de la función ocurren en las frecuencias
/ = / / N, con / entero. Los principales lóbulos laterales tienen una atenuación de alrededor de
13 dB con respecto al lóbulo principal [37, 38].
* Ventana de Hamming.
Esta ventana está definida por:
2nk i i N
WH(k) = a+(\-a)cos—jj- ; \k\< —
= 0 ; cualquier otro caso.
(2.15)
42
que es una función más uniforme en el dominio del tiempo. Con a = 0.5 se obtiene la ventana
de Hanning. Si a = 0.54 se tiene la ventana de Hamming. Con a = 1 se obtiene la ventana rec-
tangular.
En el dominio de la frecuencia se tiene:
sen n f N
WH (/) = a ~— +
H K J J sen K f
+
1 - g sen x N(f -l/N)
2 ) sen n ( / - 1/N)
1 - a s e n / r A ( / + \/N)
~~2 J sen /r ( / + l/N)
(2.16)
E l ancho de banda de esta ventana es aproximadamente el doble (4/N) que el de una
ventana rectangular de la misma longitud, figura 2.7; en tanto que la atenuación de sus máxi-
mos lóbulos secundarios es de alrededor de 43 dB con respecto al lóbulo principal, además de
que los lóbulos secundarios lejanos al lóbulo principal no decaen tán rápidamente como en la
ventana rectangular [39]. En ambos casos su atenuación es independiente de su duración.
MU
O 2/N
Frecuencia
Figura 2.7. Ventana espectral de Hamming.
A pesar de que la respuesta en frecuencia de la ventana rectangular tiene un lóbulo
principal más angosto que la ventana de Hamming, sus grandes lóbulos laterales interactúan en
43
el espacio entre los armónicos reforzándolos o cancelándolos; razón por la cual rara vez se usa
en el análisis espectral de la voz. Como la ventana de Hamming tiene un corte más suave, ésta
se usa comúnmente en el análisis espectral de la voz.
44
e A p n m u o 3
SINTESIS DE VOZ
Los espectrogramas nos proporcionan la representación de los componentes acústicos
de la onda sonora con toda su complejidad; sin embargo, sólo a través de la síntesis se puede
saber que parámetro o parámetros contribuyen al reconocimiento de una unidad fonética. Los
estudios de síntesis de voz han demostrado que los primeros tres formantes son de principal
importancia en la representación de la voz, ya que contribuyen a su inteligibilidad.
Los primeros experimentos documentados para simular la voz humana de los que se tie-
ne noticia se realizaron en la segunda mitad del siglo X V I I I [40]; esta simulación se efectuaba
por medio de dispositivos mecánicos. En la actualidad los experimentos consisten en desarrollar
modelos eléctricos o electrónicos (hardware y/o software) principalmente. Con el avance de la
tecnología y el advenimiento de los procesadores digitales de señales se ha conseguido que el
procesamiento de los algoritmos matemáticos necesarios para simular la voz se efectúe prácti-
camente en tiempo real.
Para llevar a cabo la síntesis de voz se han desarrollado diversas técnicas, como son:
1. La síntesis por elementos fonéticos. Esta técnica se basa en el ensamble de fonemas según las
leyes particulares de cada lengua. Para producir una palabra inteligible se deben considerar las
transiciones entre un fonema y otro.
2. La síntesis por formantes. Los sintetizadores por formantes hacen uso de filtros resonantes
que permiten el paso de una banda de frecuencias, correspondiente a un formante determinado,
obtenido mediante el análisis espectral.
3. L a síntesis articulatoria. Se basa en la realización de una analogía eléctrica del conducto vo-
cal humano por medio de líneas de transmisión eléctricas, constituidas de secciones conectadas
en cascada, formadas por inductancias, resistencias y capacitancias.
45
4. La síntesis por codificación lineal predictiva. Las características de respuesta del aparato fo-
nador se representan por medio de filtros digitales recursivos, que predicen su salida en cada
momento a partir de las salidas previas. Las señales de voz quedan representadas por códigos
numéricos ( predictores).
3.1 SINTETIZADORES POR FORMANTES.
En los sintetizadores por formantes la distribución espectral de los sonidos está dada
por la relación tiempo-frecuencia, o sea que se puede controlar en cada momento la intensidad
y frecuencia de los formantes. Estos sintetizadores se basan en el principio de que los elementos
significativos de los sonidos del lenguaje radican en las variaciones de frecuencia de los resona-
dores bucales.
Existen en general dos tipos de configuraciones de sintetizadores por formantes: la con-
figuración en paralelo y la configuración en cascada, figura 3.1.
En la configuración en paralelo la frecuencia e intensidad de cada formante se controla
por separado, cada resonador está precedido por un control de amplitud que determina la am-
plitud relativa de cada pico espectral; tanto para sonidos sonoros, como para sonidos no sono-
ros.
En la conexión en cascada, las amplitudes relativas de los formantes para las vocales se
obtienen sin la necesidad de un control de amplitud para cada formante, la salida del primer re-
sonador es la entrada