Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
I N S T I T U T O P O L I T E C N I C O N A C I O N A L E S C U E L A SUPERIOR DE INGENIERIA MECANICA Y E L E C T R I C A SCCCIOfl bl CSTM5I0S bl P 0 5 Q M D 0 C WVESTIQÍ3CIQK ANALISIS ESPECTRAL Y SIMULACION DE LAS VOCALES DEL IDIOMA ESPAÑOL T E S I S QUE PARA O B T E N E R E L GRADO D E MAESTRO E N CIENCIAS E N INGENIERIA E L E C T R O N I C A , OPCION INSTRUMENTACION. P R E SENTA EDMUNDO S A N C H E Z S A L G U E R O Forma DEPI / 9 DIRECCIÓN DE ESTUDIOS DE POSGRADO E INVESTIGACIÓN DIVISIÓN DE ESTUDIOS DE POSGRADO ACTA DE REVISIÓN DE TESIS 7 1 6 1 0 I 0 I i\ 1 5 Número de registro En la ciudad de M é x i c o , D. F . , siendo las 1 2 : 0 0 horas del día 30 del mes de ^ B R I L de 1998 > s e reua&ton,los miembros de l aQpi i s ión Revisorade Tesis designada por el Colegio de Profesores de E s t ^ ^ ^ P ó s g f a d p e fayestigg^iójy' Ú A E . S . I . H . E . para DRA. ANA MARIA MARTINEZ ENRmíítTE I N V E S T , G A C , O N M. EN C. RAUL PEÑA RIVERO E L P R E S I D E N J E - D E L COLEGIO /i Ht¿& fiacOiec, cm u#t qncut ccviitic y ledfeefo. /i SU* WÍ., cm cupto*. sss fin áiemfine m nti cona^m. Indice. Indice de Figuras. Nomenclatura. Resumen. Abstract. Introducción. Objetivo. Justificación. Contenido del trabajo. 1. E l proceso de producción de la voz. 1.1 E l mecanismo de producción de la voz. 1.2 Los fonemas. ... 1.3 Los sonidos de voz. 1.3.1 Estructura acústica. 1.3.1.1 Vocales. 1.3.1.2 Consonantes. 1.4 Modelos acústicos. 2. Análisis espectral. ... 2.1 E l espectrógrafo de sonido. 2.2 Análisis espectral de corta duración. 2.3 Ventanas. 3. Síntesis de voz. 3.1 Sintetizadores por formantes. ... 4. Resultados. Conclusiones. Apéndice A. Bibliografía. ibones os vngw&is 1.1 Corte sagital del aparato vocal humano. 1.2 Diagrama esquemático del aparato vocal. 1.3 Configuración del conducto vocal. 1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales, (b) Analogía eléctrica correspondiente. 1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas. 2.1 Modelo simplificado de la producción de la voz. 2.2 Sonogramas de banda ancha de las vocales del idioma español producidos por un espectrógrafo de sonido. 2.3 Sonogramas de banda estrecha de las vocales del idioma español producidos por un espectrógrafo de sonido. 2.4 Diagrama esquemático de un espectrógrafo de sonido. 2.5 Espectro de una ventana rectangular. 2.6 Evaluación sucesiva del espectro. 2.7 Ventana espectral de Hamming. 3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes. 3.2 Modelo del mecanismo de producción de voz. ... 3.3 Diagrama a bloques del Sintetizador de Klatt. ... 3.4 Resonador digital. 4.1 Espectro de una señal en tres dimensiones. 4.2 Representación de un espectrograma digital. 4.3 Espectrograma para la vocal a (palabra baba). ... 4.4 Espectrograma para la vocal e (palabra bebe). ... 4.5 Espectrograma para la vocal / (palabra vivó). ... 4.6 Espectrograma para la vocal o (palabra bobo). ... 4.7 Espectrograma para la vocal u (palabra buba). ... 4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ... wrones vs vngu&ts 1.1 Corte sagital del aparato vocal humano. 1.2 Diagrama esquemático del aparato vocal. 1.3 Configuración del conducto vocal. 1.4 (a) Tubo uniforme sin pérdidas, con terminaciones ideales, (b) Analogía eléctrica correspondiente. 1.5 Respuesta en frecuencia de un tubo uniforme sin pérdidas. 2.1 Modelo simplificado de la producción de la voz. 2.2 Sonogramas de banda ancha de las vocales del idioma español producidos por un espectrógrafo de sonido. 2.3 Sonogramas de banda estrecha de las vocales del idioma español producidos por un espectrógrafo de sonido. 2.4 Diagrama esquemático de un espectrógrafo de sonido. 2.5 Espectro de una ventana rectangular. 2.6 Evaluación sucesiva del espectro. 2.7 Ventana espectral de Hamming. 3.1 Configuraciones en paralelo y cascada. Sintetizadores por formantes. 3.2 Modelo del mecanismo de producción de voz. ... 3.3 Diagrama a bloques del Sintetizador de Klatt. ... 3.4 Resonador digital. 4.1 Espectro de una señal en tres dimensiones. 4.2 Representación de un espectrograma digital. ... 4.3 Espectrograma para la vocal a (palabra baba). ... 4.4 Espectrograma para la vocal e (palabra bebe). ... 4.5 Espectrograma para la vocal / (palabra vivó). ... 4.6 Espectrograma para la vocal o (palabra bobo). ... 4.7 Espectrograma para la vocal u (palabra buba). ... 4.8 Porción estable de la vocal e. Columnas utilizadas: 2, 3 y 4. ... Pag. 4.9 Gráficas representativas de la porción estable de la vocal e y promedio, para una pronunciación del locutor 1. ... ... ... ... 64 4.10 Gráficas promedio de las cinco pronunciaciones de la vocal e y promedio total para el locutor 1. ... ... ... ... 64 4.11 Gráfica total resultante de la pronunciación de los tres locutores para la vocal e, que indica sus frecuencias formánticas. ... ... 65 4.12 Modelo para generar los sonidos vocálicos. ... ... ... 67 A. 1 Vocal A. Parte estable de la vocal. Promedio de una pronunciación. Promedio de cinco pronunciaciones. Promedio total. ... ... 72 A.2 Vocal E . Parte estable de la vocal. Promedio de una pronunciación. Promedio de cinco pronunciaciones. Promedio total. ... ... 73 A.3 Vocal I . Parte estable de la vocal. Promedio de una pronunciación. Promedio de cinco pronunciaciones. Promedio total. ... ... 74 A.4. Vocal O. Parte estable de la vocal. Promedio de una pronunciación. Promedio de cinco pronunciaciones. Promedio total. ... ... 75 A.5 Vocal U. Parte estable de la vocal. Promedio de una pronunciación. Promedio de cinco pronunciaciones. Promedio total. ... ... 76 iii U G Velocidad volumétrica del flujo de aire a través del orificio glotal. U M Velocidad volumétrica acústica del flujo de aire en la boca. U N Velocidad volumétrica acústica del flujo de aire en los orificios nasales. P s Presión del sonido. Fn Frecuencias formánticas o formantes. / Longitud total promedio del conducto vocal. p Variación de la presión del sonido en un tubo acústico. u Variación de la velocidad del volumen del flujo de aire. p Densidad del aire. c Velocidad de propagación del sonido. A Area de la sección transversal de un tubo acústico o función de área. y Amplitud de la deformación de las paredes de un tubo acústico. S Perímetro de un tubo acústico. m Masa de las paredes de un tubo acústico. b Resistencia mecánica de las paredes de un tubo acústico. k Rigidez de las paredes de un tubo acústico. /• Resistencia del flujo de aire. . (o Frecuencia de la onda acústica. Va (jco) Función de transferencia de un tubo acústico uniforme sin pérdidas. x(nT) Señal muestreada uniformemente. x(t) Función analógica. / Tiempo. X(k) Muestras espectrales. W"K Función exponencial. N Número de muestras de una señal digital. MT Separación entre muestras sucesivas de una señal digital. T[ ] Transformación aplicada a una señal de voz. /'v w( ) Ventana de análisis. WR ( ) Ventana rectangular. Wh ( ) Ventana de Hamming. y(nT) Muestras a la salida de un resonador digital. / Frecuencia de la onda acústica en Hertz. BW Ancho de banda de los formantes. T Período de muestreo. v La comunicación hablada ha sido siempre de gran interés para el ser humano. Muchos esfuerzos se han dedicado a su conocimiento y comprensión, desde los análisis articulatorios hasta los fonéticos y más recientemente con la ayuda de las computadoras digitales se han podido calcular algoritmos que antes eran prácticamente imposibles de desarrollar debido a la gran cantidad de operaciones que involucran. Estas representaciones matemáticas sirven de base para el análisis y la síntesis de la voz. Una ayuda importante en el análisis de la voz es el espectrograma de sonido, el cual representa una visualización de tiempo-frecuencia-intensidaddel espectro de corta duración, desarrollado por medio del algoritmo de la Transformada Rápida de Fourier. E l propósito de esta tesis es determinar las tres primeras frecuencias formánticas de las vocales del idioma español hablado en la Ciudad de México, mediante el uso de espectrogramas digitales generados por medio del análisis de Fourier de corta duración. Los valores obtenidos fueron comprobados por medio de la síntesis, a través del uso del sintetizador por formantes de Klatt, utilizando sólo la parte correspondiente a los resonadores en cascada. vi Speech communication has always been of great interest for human being. Many efforts have been dedicated to its knowledge and understanding, since articulatory to phonetic analysis and recen'tly, with digital computers aid, it has been able to calcúlate algorithms that were almost impossible to develop before due to the great quantity of operations that they involve. Such mathematical representations serve as the basis for the analysis and synthesis of speech. An important aid in the analysis of speech is the sound spectrogram, which represents a time- frequency-intensity display of the short-time spectrum, implemented by the Fast Fourier transform algorithm. The purpose of this thesis is to determine the first three formant frequencies for spanish vowels speaking in México City, through the use of digital spectrograms generated by mean of the short time Fourier analysis. The obtained valúes were verified by mean of synthesis, through the use of the Klatt's formant synthesizer, making use only of the section corresponding to cascade resonators. v/7 wmzovTieen&n Uno de los principales medios de comunicación del ser humano es la voz. Un modo de caracterizar la voz es en términos de la forma de la onda acústica, lo que es muy útil en aplica- ciones prácticas. E l estudio de la voz implica un conocimiento indirecto de otras funciones co- mo: la percepción, el aprendizaje, la memoria y la inteligencia. L a acústica fonética del habla incluye en un amplio sentido la teoría de la voz como un conocimiento de ondas y como la voz se produce y se escucha. L a aplicación de la fonética acústica es muy importante en los estudios descriptivos de una lengua o de un dialecto. La fo- nética acústica surgió pocos años antes de la segunda guerra mundial. Anteriormente la fonética era totalmente fisiológica o articulatoria y con el conocimiento anatómico de los órganos de fo- nación se pudieron realizar descripciones de los sonidos de la voz definidos por su producción dentro del conducto vocal. R. Jakobson, G. Fant, M. Gunnar y M. Halle en su obra "Preliminaries to Speech Analysis" [1] cambian totalmente el panorama, ya que establecen toda una serie de estudios basados exclusivamente en los rasgos acústicos de las realizaciones fone- máticas. A partir de esta obra se consideran principalmente los estudios basados en los rasgos acústicos de los sonidos. Desde el punto de vista de la ingeniería, la voz se trata como una for- ma de onda definida por las variaciones de la presión sonora en un punto frente al orador. E l estudio del aspecto exterior de los fenómenos fonológicos hace que el análisis acústico se des- taque en primer plano, ya que es la imagen acústica y no la imagen motriz la que es enfocada por el sujeto hablante. La fonética acústica se encarga de estudiar las componentes que conforman la onda so- nora de los sonidos articulados y de buscar cual o cuales de ellos son imprescindibles para su reconocimiento. Uno de los principales propósitos del análisis de la voz es extraer los aspectos o pará- metros que representen características importantes en la forma de onda. Los dos principlaes pa- rámetros acústicos de la voz, en el sentido de que son parámetros del conducto vocal, son los formantes y la frecuencia fundamental. Con el desarrollo de instrumentos de medición y de la informática se han podido cono- cer objetivamente las características o las cualidades de los sonidos (cantidad, intensidad, fre- cuencia fundamental y estructura formántica); características que antes eran prácticamente im- posibles de analizar y que se establecían subjetivamente en base a la percepción de los investi- gadores. Hay una abundante bibliografía aplicada a lenguas que no son el español (principalmente el inglés); pero su desigualdad es bastante manifiesta, ya que las variantes alofónicas del español son más numerosas. Establecer de un modo definitivo y por igual-las características de una len- gua como la nuestra es una labor ardua y larga. A pesar de que los principales fenómenos fónicos de Hispanoamérica encuentran una representación adecuada en los trabajos realizados en nuestra lengua [6], la mayoría de éstos pertenecen al español europeo. Los sonidos analizados en este trabajo pertenecen al español de México y particularmente al hablado en la Ciudad de México y los resultados obtenidos son sa- tisfactorios; sin embargo queda mucho por hacer, como por ejemplo, analizar los mismos soni- dos para cada una de las diversas regiones de nuestro país. Mucho tiempo se especuló sobre la aplicabilidad de técnicas digitales en muchas áreas del procesamiento de señales; sin embargo, fue hasta mediados de los 60's que comenzó a sur- gir una teoría más formal del procesamiento digital de señales. Un gran impulso se dio en este campo con un método propuesto por Cooley & Tukey (1965) [9] para computar la Transfor- mada Discreta de Fourier. A esta serie de técnicas se les conoce como la Transformada Rápida de Fourier, que reduce el tiempo de cálculo de la Transformada Discreta de Fourier. E l resultado de estos desarrollos ha llevado a una gran variedad de aplicaciones en los problemas de procesamiento de señales, desde los espectros de baja frecuencia en sismología, los espectros acústicos del sonar y la voz, hasta los espectros de vídeo de los sistemas de radar. Algunas de las aplicaciones más importantes del procesamiento digital de señales han sido en el área del procesamiento de la voz, incluyendo el análisis espectral, los sintetizadores de voz, los sistemas de predicción lineal y los sistemas de respuesta de voz por computadora. 2 Objetivó: E l objetivo de esta tesis es determinar, a través de espectrogramas digitales, la frecuen- cia aproximada de los tres primeros formantes de las vocales del idioma español hablado en la Ciudad de México. Justificación: Dado que la mayoría de los estudios de nuestro idioma han sido efectuados para el es- pañol europeo y de que existe una gran variabilidad en su pronunciación en las diferentes zonas geográficas en donde se habla; con este trabajo se pretende obtener algunos parámetros repre- sentativos de los sonidos vocálicos del español hablado en la Ciudad de México que aporten, aunque en pequeña escala, algo al conocimiento universal de nuestra lengua. Contenido del trabajo: La tesis se divide en cinco capítulos, dentro de los que se abordan los conceptos nece- sarios para el desarrollo del trabajo mismo; así como los resultados y conclusiones a los que se llegó. En el Capítulo 1 se da un panorama de como se produce la voz en el aparato vocal hu- mano, las unidades básicas que conforman un lenguaje, los diferentes sonidos de voz y el mode- lo acústico del conducto vocal humano. En el Capítulo 2 se hace la descripción de las herramientas matemáticas que dan lugar a los espectrogramas digitales para el análisis y caracterización de las señales de voz. E l Capítulo 3 da una breve descripción de los métodos de síntesis de voz; así como de las configuraciones generales de los sintetizadores de voz y en particular el sintetizador por formantes utilizado para corroborar los resultados obtenidos mediante el análisis de diversas señales de voz. 3 En el Capítulo 4 se exponen los espectrogramas digitales de algunas señales, específi- camente las partes correspondientesa los sonidos vocálicos . Finalmente se hacen algunas conclusiones y recomendaciones para trabajos posteriores que pudieran llevar a una mejor caracterización de los sonidos analizados. E l presente trabajo forma parte de las investigaciones que en el área del procesamiento de las señales de voz se desarrollan en el Laboratorio de Investigación en Procesamiento de Señales (LIPSE) de la E S I M E en el Instituto Politécnico Nacional de México, con la finalidad crear tecnología nacional en el área mencionada. 4 EL PROCESO DE PRODUCCION DE LA VOZ Para poder aplicar las técnicas del procesamiento digital de señales a los problemas de la comunicación hablada, es muy importante entender los fundamentos del proceso de la produc- ción de la voz; así como también considerar los diferentes tipos de sonidos que existen en la \ voz humana. Al considerar el proceso de la comunicación hablada, es útil pensar en el mensaje repre- sentado en alguna forma abstracta en el cerebro de un orador. A través de un proceso complejo de producción del habla, la información en el mensaje se convierte en señal acústica. E l mensaje se convierte primero en señales nerviosas que controlan el mecanismo articulatorio (el movi- miento de la lengua, la boca, etc.), efectúan una secuencia de gestos y dan como resultado una forma de onda acústica que contiene la información del mensaje. E l habla transporta información simultánea de al menos tres clases: lingüística, sociolin- gúística y personal. La más importante es la información lingüística que es considerada como el significado de la expresión. La información sociolingüística nos indica que un orador proviene de una determinada región y clase socioeconómica. L a información personal identifica al orador en cuanto a las características de su voz y hábitos articulatorios. 7.1 EL MECANISMO DE PRODUCCION DE LA VOZ. E l aparato fonador del hombre está íntimamente ligado con el aparato respiratorio. L a fonación se lleva a efecto por el aparato humano diseñado para respirar y comer. Los órganos que forman el aparato respiratorio más los órganos de la boca tienen participación en la pro- ducción de la voz. En la figura 1.1 se muestra un corte sagital del aparato vocal humano. Las estructuras que componen el aparato respiratorio pueden clasificarse en vías 5 respiratorias y vías de conducción. Las vías respiratorias son aquellas partes relacionadas direc- tamente con el intercambio de gases (principalmente los pulmones). Las vías de conducción proveen un medio por el cual el aire puede entrar o salir y son de particular interés para el es- tudio de la voz, éstas son: las cavidades orales y nasales, la faringe, la laringe, el esófago y la tráquea. Figura 1.1. Corte sagital del aparato vocal humano. * La tráquea, es un conducto cuasi-cilíndrico de aproximadamente 12 cm de longitud y de 1.5 a 2 cm de diámetro [3]. Su extremidad superior soporta a la laringe y su extremidad inferior se divide en dos ramas o bronquios de longitudes y secciones desiguales que permiten el paso del aire a los pulmones. 6 * La laringe es un conducto cartilaginoso que por un extremo se comunica con la faringe y por el otro con la tráquea. Sirve para el paso del aire, siendo a su vez el órgano productor de soni- dos, los que al ser modificados posteriormente por las cámaras supra e infralaríngeas dan como resultado la voz humana. En la producción de algunos de los sonidos participan las cuerdas vo- cales; cuando se encuentran en tensión, el aire espirado las hace oscilar y como resultado se producen los sonidos vocalizados. En el lenguaje articulado también participan la lengua, la cavidad bucal, los labios y la cavidad nasal [2]. En el interior de la laringe se encuentran las cuerdas vocales superiores e inferiores, separadas las derechas de las izquierdas por un espacio alargado que se denomina glotis. Entre las cuerdas vocales superiores e inferiores existe un es- pacio llamado ventrículo de la laringe. Las cuerdas vocales superiores son dos láminas aplana- das que se extienden desde el ángulo entrante del cartílago tiroides hasta la cara anteroexterna del aritenoides; miden alrededor de 20 mm de longitud en el hombre y presentan dos caras y dos bordes [3]. La cara superior forma parte de la porción supraglótica; la inferior corresponde al ventrículo de la laringe. E l borde externo se continúa con el pliegue aritenoepiglótico y el in- terno es libre y forma con el lado opuesto un espacio triangular de base posterior. Las cuerdas están constituidas por un pliegue de la mucosa laríngea que contiene en su espesor al ligamento tiroaritenoideo superior. Las cuerdas vocales inferiores también son aplanadas y se extienden del ángulo entrante del tiroides a la apófisis vocal del aritenoides. Miden de 20 a 25 mm de longitud en el hombre y así como las superiores, presentan dos caras y dos bordes [3]. L a cara superior, horizontal, forma el piso del ventrículo; la inferior forma parte de la porción subglóti- ca. E l borde externo, grueso, corresponde a la cara interna del cartílago tiroides y al músculo ti- roaritenoideo inferior; el borde interno, libre y delgado, forma con el lado opuesto un espacio que tiene la forma de triángulo isósceles de base posterior, llamado glotis. E l esqueleto de estas cuerdas vocales inferiores lo forma el ligamento tiroaritenoideo inferior y poseen además un fascículo del músculo tiroaritenoideo. E l triángulo que constituyen las cuerdas vocales inferio- res es más estrecho que el limitado por las superiores. Desde el punto de vista funcional, son las cuerdas vocales inferiores las esenciales para la fonación, las superiores se pueden considerar como partes accesorias. Al respirar sin fonación las cuerdas vocales se separan al máximo; en tanto que cuando hay una presión bajo la glotis entran en vibración. 7 * La glotis es el espacio comprendido entre los bordes libres de las cuerdas vocales inferiores; sus dimensiones varían con los movimientos. En estado normal (sin fonación), la glotis mide en su base de 7 a 8 mm en el hombre y de 5 a 6 mm en la mujer [3]. La glotis se abre y cierra se- gún las necesidades de la emisión de voz y también con las fases respiratorias. L a presión de ai- re subglótica y las variaciones temporales del área glotal determinan la velocidad del volumen del flujo de aire glotal expelido hacia el conducto vocal. * El esófago es el conducto que va desde la faringe hasta el estómago. Se encuentra dirigido verticalmente y desciende por la parte inferior del cuello y el toráx hasta el diafragma, lo atra- viesa, llega a la parte superior de la cavidad abdominal y desemboca en el estómago. Su diáme- tro en estado de distensión no presenta un calibre uniforme. * La faringe sirve para el paso de los alimentos de la cavidad bucal al estómago y para el paso del aire de la cavidad nasal a la laringe. * El conducto vocal se considera como un tubo acústico de sección no uniforme, que comienza en la glotis y termina en los labios; y su forma varia con respecto al tiempo. E l conducto vocal consiste de la faringe y la boca y su longitud total promedio en el hombre adulto es aproxima- damente 17.5 cm. E l área de su sección transversal está determinada por la colocación de la lengua, labios, mandíbulas y el velo del paladar; y puede variar de cero (cierre completo) a alrededor de 20 cm2'. Una cavidad auxiliar, el conducto nasal, se puede acoplar al conducto vocal por la acción del velo del paladar, para producir los sonidos nasales del habla. E l conduc- to nasal comienza en el velo del paladar y termina en los orificios nasales. En los sonidos no na- sales el velo del paladar cierra la cavidad nasal y ningún sonido se radia por los orificios nasales. En la producción normal de la voz, la cavidad del pecho se expande y se contrae empu- jando aire desde los pulmones. E l flujo de aire de los pulmones pasaa través de las cuerdas vo- cales. Si las cuerdas vocales están separadas, como es normal durante la respiración, el flujo de aire de los pulmones tendrá paso libre relativamente hacia la faringe y la boca y/o la cavidad na- sal. Si las cuerdas vocales se ajustan y tensan (como en los sonidos sonoros) de forma que haya un paso angosto entre ellas, el flujo de aire hará que se succionen entre si. Tan pronto como éstas se junten no habrá flujo de aire y la presión bajo ellas aumentará hasta que se separen otra vez. E l flujo de aire entre ellas hace que se succionen nuevamente y el ciclo vibratorio continua- rá modulando el aire en soplos o pulsos discretos. E l flujo de aire expelido se percibe como voz. Con el cambio de posición de los diferentes articuladores durante el habla continua, la forma de las diferentes cavidades cambia drásticamente. 1.2 LOS FONEMAS. L a información comunicada a través del habla es intrínsecamente de naturaleza discreta; es decir que se puede representar por una concatenación de elementos de un conjunto finito de símbolos llamados fonemas. Cada lengua tiene sus propios fonemas distintivos. L a unidad básica para describir como la voz lleva información lingüística es el fonema [4]. E l fonema es el elemento básico del lenguaje hablado, que corresponde aproximadamente a un carácter alfabético en el texto escrito. Aproximadamente se puede decir que un fonema es un grupo de sonidos similares, pero no idénticos, que difieren uno del otro de acuerdo al con- texto en el que ocurren; que tienen una función distintiva y que no pueden descomponerse en una sucesión de segmentos que posean tal función. Estrictamente un fonema no es un sonido, sino una abstracción para un conjunto de sonidos. Los miembros individuales de este conjunto se llaman alófanos, es decir, un alófono son las diferentes formas en que se puede pronunciar un fonema. En un lenguaje, el conjunto de fonemas son el conjunto de unidades que se requie- ren para representar expresiones de una forma no ambigua. Los fonemas son unidades lingüísticas que no tienen significación por si mismas; pero con una función diferenciadora capaz de cambiar el significado de un morfema, una palabra o una frase cuando se les reemplaza por otro. E l ensamble de fonemas según las leyes particulares de cada lengua permite reconstruir palabras habladas; sin embargo la asociación de varios fo- nemas no da necesariamente una palabra comprensible. La yuxtaposición de dos fonemas con- duce únicamente a la percepción de dos sonidos separados por un tiempo muerto; en tanto que la transición de un fonema a otro es lo que lo hace inteligible. E l número de fonemas varía para 9 cada lengua, su número típico está entre 30 y 50 [5]; en español existen 28, de los cuales cinco tienen función vocálica y los demás función consonántica. Los fonemas están constituidos y se identifican por medio de sus rasgos distintivos [6]: prosódicos (tono, fuerza e intensidad), intrínsecos de sonoridad (vocálico, no vocálico, conso- nántico, nasal, etc.), e intrínsecos de tonalidad (grave, bemolizado, etc.); es así que los rasgos distintivos son los últimos constituyentes de una lengua. Las vocales tienen el rasgo distintivo vocálico que desde el punto de vista acústico se caracteriza por la presencia de una estructura formántica netamente definida; en tanto que des- de el punto de vista articulatorio, este rasgo se debe principalmente a una excitación producida al nivel de la glotis y la ausencia de obstáculos al paso del aire fonador a través de las cavidades supraglóticas. La posición de los dos o tres primeros formantes proporciona la identificación de las vocales. Las consonantes poseen el rasgo consonántico, que se muestra bajo el efecto de una disminución de la energía total y por la presencia de no resonancia en su espectro. E l rasgo consonántico se caracteriza por la presencia de un obstáculo en las cavidades supraglóticas. 1.3 LOS SONIDOS DE VOZ. E l lenguaje fonético articulado propio del hombre consiste de un conjunto específico de ruidos espiratorios y también inspiratorios que se generan en el conducto vocal y que pueden combinarse o no con los sonidos faríngeos y bucales, de lo que proviene la voz articulada. Por tanto, en la formación de las palabras la parte predominante corresponde al conducto vocal. La figura 1.2 muestra un diagrama esquemático del mecanismo de producción de la voz en el humáno. E l diagrama incluye el sistema subglotal, compuesto por los pulmones, bronquios y tráquea. Este sistema subglotal funciona como fuente de energía para la producción de la voz. La voz es simplemente una onda acústica radiada por este sistema cuando el aire es expelido desde los pulmones y el flujo de aire resultante es perturbado por una constricción en alguna 10 parte del conducto vocal. Los pulmones están representados por el depósito de aire a la izquierda. Los músculos de la caja torácica elevan el aire en los pulmones a una presión subglótica; esta presión expele un flujo de aire con velocidad volumétrica U G a través del orificio glotal y se produce una pre- sión local de Bernoulli [7]. Las cuerdas vocales representadas como un oscilador mecánico actúan como una función de las presiones subglótica y de Bernoulli. Los conductos vocal y na- sal se muestran como tubos cuya sección transversal cambia con la distancia. Las velocidades volumétricas acústicas de la boca y los orificios nasales son U M y. U N respectivamente. La pre- sión del sonido Ps al frente de la boca es aproximadamente una superposición lineal de las deri- vadas con respecto al tiempo de U M y de UN. Figura 1.2. Diagrama esquemático del aparato vocal. E l sonido se puede generar en el sistema vocal en tres formas de acuerdo a su forma de excitación. Los sonidos sonoros se producen elevando la presión del aire en los pulmones, for- zando el flujo a través de la glotis con la tensión de las cuerdas vocales ajustada de tal forma que vibren, produciendo pulsos de aire cuasiperiódicos de amplio ancho de banda que excitan al conducto vocal. A mayor tensión de las cuerdas vocales, la frecuencia fundamental de la voz es más alta. La frecuencia fundamental varía de persona a persona: 350 Hz para niños, 250 Hz pa- ra mujeres y 125 Hz para hombres aproximadamente. Los sonidos fricativos (no sonoros) se generan formando una constricción (obstrucción) en algún punto del conducto vocal, general- mente hacia el final de la boca, y forzando el aire a través de la constricción a alta velocidad pa- ra producir turbulencia creando una fuente de ruido. Los sonidos explosivos resultan de hacer un cierre completo hacia el frente del conducto vocal, generando una presión junto al cierre y soltándola abruptamente. Cuando se genera un sonido, éste se propaga por los tubos que representan los conduc- tos vocal y nasal, figura 1.2, y el espectro de frecuencia se forma por la frecuencia selectiva de los tubos. Así, el sistema vocal actúa como un filtro variante en el tiempo que impone sus ca- racterísticas resonantes sobre las fuentes, estructurando la señal acústica. Según Fant [8] la onda del lenguaje es la respuesta de los sistemas de filtros del conduc- to vocal a una o más fuentes de sonido. Los diferentes sonidos se forman variando la forma del conducto vocal. Al cambiar de posición los órganos articulatorios, forman en la región supraglótica cavidades resonantes de volumen y forma diferentes; al ser diferentes, su respuesta en frecuencia también es diferente y por tanto también el espectro de la onda que salga del resonador. Las frecuencias de resonancia del conducto vocal se llaman frecuencias formánticas o formantes. Cada forma del conducto vocal tiene un único conjunto de frecuencias formánticas y los sonidos característicos de un lenguaje tienen de modo perceptivo posiciones formánticas características. En el lenguaje continuo,las resonancias formánticas varían conforme varía la forma del conducto vocal. Las frecuencias de los formantes pueden variar dependiendo de cada individuo. Las va- riaciones individuales se deben en gran parte a la diferencia en el tamaño de la cabeza. Un suje- to con una cavidad vocal grande producirá frecuencias formánticas más bajas, que aquellos con cabeza pequeña. Las mujeres tienen frecuencias formánticas 17% más altas en promedio que las de los hombres [4]. En general, las frecuencias formánticas mantienen la misma relación una de 12 otra, aunque pueden desplazarse en frecuencia dependiendo del sujeto. Dos vocales pueden te- ner la misma calidad fonética; pero diferentes frecuencias formánticas. Hay muchos factores que afectan los anchos de banda de los formantes: las pérdidas por radiación desde la boca, las pérdidas por vibración de las paredes del conducto vocal, la viscosidad y las pérdidas durante la apertura de la glotis. Durante las vocales, la variación de los anchos de banda debida a la varia- ción de la forma del conducto vocal no es suficientemente grande como para tener una impor- tancia subjetiva. Debido al tamaño promedio del conducto vocal humano (17.5 cm) se tienen formantes en frecuencias que son múltiplos impares de un cuarto de la longitud de onda [7], ésto es: ( 2 « - l ) c K= 4 / ; n= 1,2,3, (1.1) donde: c es la velocidad de propagación del sonido en el aire. / es la longitud promedio del conducto vocal humano. F„ son las frecuencias de resonancia del conducto vocal (formantes). Por tanto, la primer resonancia ocurre en: c 35000 cmls F= = —• = 500 Hz (12) 1 4/ 4(17.5) cm K ' Perceptivamente, sólo los tres primeros formantes son importantes para determinar el sonido que se escucha [9]. Los formantes más altos son necesarios para producir sonidos de calidad aceptable. 1.3.1 E S T R U C T U R A ACUSTICA. L a lingüística estudia los rasgos distintivos o característicos de los fonemas; sin embar- go, es suficiente considerar en una caracterización acústica de los sonidos el lugar y forma de articulación, las formas de onda y las caracterizaciones espectrográficas de los sonidos. 13 En el español hay dos clases de sonidos: vocales y consonantes. Cada una de éstas se puede dividir en subclases relacionadas con la forma y lugar de articulación dentro del conducto vocal. 1.3.1.1 Vocales. Los sonidos vocálicos son los que más interés han despertado en las investigaciones acústicas, desarrollándose desde hace más de un siglo innumerables teorías para clarificar su naturaleza acústica. Todos los sonidos de las vocales son sonoros; es decir que se producen con la vibración de las cuerdas vocales, con el conducto vocal relativamente fijo. L a forma en que varía el área de la sección transversal a lo largo del conducto vocal determina las frecuencias de resonancia del conducto (formantes) y por tanto el sonido que se produce. L a dependencia del área de la sección transversal con la distancia a lo largo del conducto se denomina función de área del conducto vocal. Para cada vocal, esta función de área se determina por la posición de la lengua, mandíbulas, labios y velo del paladar. Así, cada sonido vocálico se puede caracterizar por la función de área que se utiliza en su producción; sin embargo, esta caracterización es imprecisa debido a las diferencias intrínsecas entre los conductos vocales de cada persona. Una represen- tación alternativa es en términos de las frecuencias de resonancia del conducto vocal, aunque también se espera una gran variabilidad entre diferentes sujetos. Las resonancias que caracterizan el timbre de una vocal resultan de la filtración que su- fre el tono glotal (vibración de las cuerdas vocales) al pasar por la boca y por las cavidades guturales; es decir, la boca se comporta como un filtro que no deja pasar nada más que ciertas vibraciones salidas de la glotis. Las frecuencias que la boca deja pasar son diferentes para cada vocal, debido principalmente a que las cavidades resonantes que las filtran cambian de forma y/o de dimensiones. Al ponerse en vibración las cuerdas vocales producen una onda compuesta. Si se man- tuviese la misma frecuencia fundamental, cada uno de los sonidos vocálicos que se emitiesen tendría exactamente la misma configuración. 14 Todas las vocales poseen los rasgos vocálico, continuo, sonoro y no-consonántico. Lo que diferencia a una vocal de otra u otras, aunque la frecuencia de sus componentes sea igual, es la distinta estructuración de sus armónicos (ancho de banda e intensidad), cuya percepción se denomina-timbre. De todos los armónicos componentes, serán reforzados aquellos cuyas fre- cuencias coincidan con las frecuencias de resonancia de las distintas cavidades resonantes del conducto vocal, y estas cavidades varían con la articulación de cada sonido. Cada conjunto de armónicos reforzados es un formante. Las vocales se identifican por una relativa estabilidad en la frecuencia de los formantes y por tener mayor concentración de energía que las consonantes abajo de los 1000 Hz. Además, en general tienen mayor intensidad que los sonidos consonánd- oos. De todos los formantes, los tres primeros (Fi , F2, F2) son indispensables para la per- cepción de cada vocal. Los formantes superiores (individuales) dependen de: a) La configuración faringo-bucal de cada sujeto. Las mujeres y los hombres difieren más en la longitud total de la faringe que en la de la boca. Las frecuencias formánticas de los niños son más altas que las de la voz femenina y éstas a su vez, más altas que las de los hombres. b) De la lengua o dialecto, conforme las diferencias anatómicas individuales o sociales y según los hábitos educativos. Los formantes individuales ponen de manifiesto el carácter del hablante, su condición social, sexo, edad, estado de ánimo, etc. En un mismo individuo los formantes individuales va- rían según: (a) la frecuencia fundamental; (b) la intensidad de la voz; (c) las intensiones expresi- vas; (d) sus condiciones auditivas, o las condiciones acústicas del lugar donde hable. Aunque no existen bases teóricas suficientes para establecer correlaciones estrechas en- tre el mecanismo articulatorio y la posición de los formantes en el espectro vocálico, existen tendencias observadas experimentalmente entre las frecuencias de los formantes y los paráme- tros articulatorios (posición de la constricción lingual, tamaño de la constricción formada por la lengua y dimensiones de la abertura labial). Stevens y House [10] llegaron a las siguientes con- clusiones: 15 - E l formante F\ es alto cuando existe una estrecha constricción de la lengua cerca de la glotis y una abertura bucal amplia y deslabializada, vocal [a]; y viceversa, vocales [i, u]. - E l formante F2 aumenta su frecuencia a medida que la constricción se adelanta en la cavidad bucal desde la glotis, o a medida que la abertura labial aumenta. L a frecuencia de este formante baja al disminuir la abertura labial y que la constricción lingual se aproxime a la glotis. - E l formante F3 aumenta su frecuencia en menor grado que el F2j, conforme la constricción avanza desde la glotis y aumenta el tamaño y deslabialización de la abertura bucal. Disminuye su frecuencia con una abertura labial pequeña y si la constricción lingual se aproxima a la glotis. Las vocales del idioma español se identifican frecuentemente por los tres primeros for- mantes. Los dos primeros formantes bastan para caracterizar el timbre de todas las vocales y para asegurar su percepción; de éstos, el F2 tiene mayor importancia en la inteligibilidad vocáli- ca. E l tercer formante juega un papel importante en las vocales que tienen el F2 a una frecuen- cia elevada, F2 y F3 están muy próximos [i, e]. Los formantes situados por encima de los 3500 Hz no juegan prácticamente ningún papel en la caracterización lingüística de las vocales; con-tribuyen básicamente el timbre individual de las mismas. La identificación lingüística de las vo- cales no depende totalmente de la frecuencia absoluta de los formantes, sino de la frecuencia relativa a la estructura total de los formantes del sujeto hablante. Esta estructura puede variar ligeramente de una persona a otra. A pesar de las investigaciones realizadas hasta ahora con respecto al sistema vocálico español, no se ha llegado a conclusiones totalmente satisfactorias, debido a la complejidad y amplitud de los materiales que es necesario analizar. Entre algunos de estos trabajos se encuen- tran: - R. B . Skelton [11] analiza las vocales en palabras aisladas y no llega a soluciones concretas. - Daniel N. Cárdenas [12] analiza un amplio número de vocales de dos informantes, un colom- biano y un mexicano, llegando a la conclusión de que existe una amplia gama de variaciones alofónicas para un fonema dado. 16 - Joseph H. Matluck [13] hizo un análisis acústico sobre las realizaciones de [é] en la Ciudad de México sin resultados concretos. - R. B . Skelton [14] analiza grabaciones de palabras aisladas emitidas por veinte hispanos varo- nes e intenta mostrar que la semejanza que se produce entre las realizaciones de las diferentes vocales reside más bien en la percepción auditiva que en las cualidades físicas de los sonidos emitidos. - M. Guirao y A. M. B . Manrique [15] analizan cinco fonemas vocálicos pronunciados de ma- nera aislada, comparando resultados con el análisis de las vocales en los contextos b - d y p - s. - M. Bernales [16] compara veinte realizaciones vocálicas (vocales aisladas, precedidas de s, seguidas de s y entre dos s), sin conclusiones. - Páez Urdaneta [ 17] analiza 52 realizaciones de los tres fonemas / i , e, a/ en palabras aisladas leídas por un ecuatoriano, sin conclusiones válidas. - Quilis y Esgueva [18] analizan los cinco formantes vocálicos en posición fonética normal (la vocal situada entre dos consonantes labiales), estableciendo un triángulo vocálico para la lengua española. - Rodríguez, Olabe et al. [5] establecen valores para los formantes de las cinco vocales a través de la síntesis. 1.3.1.2 Consonantes. Las consonantes son ruidos que se originan en diversos puntos del conducto vocal. Se pronuncian generalmente con la asociación de una vocal. E l sonido ocurre en diversos puntos del conducto vocal contra los que tropieza y fricciona el flujo de aire, en tanto que las cavida- des próximas resuenan; por lo cual, las consonantes se pueden clasificar de acuerdo al lugar y forma de la obstrucción generada en el conducto vocal. En el aspecto acústico, la percepción de una consonante depende de los cambios apreciables en la frecuencia de los formantes. 17 - Explosivas orales. El-término consonantes explosivas se debe al hecho de que el momento más audible es el de la explosión. Las características que las distinguen fundamentalmente son: (a) la interrup- ción total en la emisión del sonido; (b) la explosión que sigue a esta interrupción; (c) la rapidez de las transiciones de los formantes de las vocales precedentes y siguientes. En el español hay seis fonemas explosivos orales: tres sonoros / b, d, g / y tres sordos / p, t, k /. Las explosivas sonoras son producidas por un cierre total en alguna parte del conducto vocal. En el periodo en el que la constricción es total, no hay sonido radiado por los labios; sin embargo, hay una pequeña cantidad de energía de baja frecuencia radiándose a través de las pa- redes de la garganta, lo que ocurre cuando las cuerdas vocales vibran, aún cuando el conducto vocal esté cerrado en algún punto. Las explosivas sordas son similares a las explosivas sonoras, excepto que durante el pe- riodo de cierre total del conducto, las cuerdas vocales no vibran. Después del periodo del cie- rre, mientras que el aire se libera, hay un breve intervalo de fricción seguido por un periodo de aspiración antes de que comience la excitación sonora. - Explosivas nasales. Las consonantes nasales /m, n, ñl se producen con excitación glotal y el conducto vocal totalmente contraído en algún punto. E l velo del paladar se baja, tal que el aire pasa a través del conducto nasal. L a cavidad oral contraída hacia el frente está acoplada acústicamente a la farin- ge; entonces la boca actúa como una cavidad resonante que atrapa la energía acústica en ciertas frecuencias naturales. En las explosivas nasales existe una concentración de energía de baja fre- cuencia. - Fricativas. Desde el punto de vista acústico, reciben este nombre por ser lo más audible de ellas la fricción que produce el aire al pasar a través de la estrechez formada entre dos órganos articulatorios. En el español existen ocho sonidos consonánticos fricativos / f, 9, s, x, 3, 8, y, j /. Estas consonantes poseen un ruido de fricción que constituye una de sus principales caracterís- ticas. Las fricativas presentan zonas de resonancia que dependen del grado de constricción de los órganos articulatorios, pudiéndose distinguir resonancias en las zonas de bajas frecuencias o en las zonas de altas frecuencias. Algunos ejemplos de las fricativas de resonancias bajas son: [ 3 ] en bo¿>a, [ 8 ] en veda, [ y ] en ve^a y [ j ] en saya. Para el caso de las fricativas de resonancias altas se tienen: [ f ] en a/an, [ 9 ] en azada, [ s ] en embolsar y [ x ] en ca/a. - Africadas. Estas consonantes se caracterizan porque en su emisión intervienen dos momentos: uno de interrupción, similar al de las explosivas, seguido de otro constrictivo. E l español posee dos: una sorda [ch] y otra sonora [y]. - Liquidas. E l término consonante líquida incluye las consonantes [1, u, r, rr], laterales y vibrantes. Pueden tener rasgos vocálicos y consonánticos, su estructura formántica es similar a la de las vocales; pero difiere de éstas en que la frecuencia del formante fundamental es menor y su intensidad global también es menor. 1.4 MODELOS ACUSTICOS. Los modelos de tubos acústicos para la producción de la voz han sido estudiados du- rante un gran número de años [8, 19, 20, 21]. Estos estudios han demostrado que de una forma de tubo dada se pueden obtener sus frecuencias de resonancia. Las suposiciones básicas para derivar un modelo de tubo acústico del conducto vocal [22] son: 19 1) E l conducto vocal se supone que consiste de n secciones de igual longitud interconectadas. Cada sección individual es de área uniforme. 2) La dimensión transversal de cada sección es pequeña comparada con una longitud de onda, de tal forma que las ondas acústicas dentro del conducto vocal se pueden ver como ondas pla- nas y unidimensionales para frecuencias menores a los 5 KHz [23]. En este caso, sólo el área de la sección transversal y el perímetro a lo largo de la longitud del conducto vocal determinan sus características acústicas. 3) Las secciones son rígidas, tales que las pérdidas internas debidas a vibración de paredes, vis- cosidad y conducción de calor en la superficie de las paredes del conducto vocal se pueden omitir, ya que sus efectos se manifiestan solamente como un ligero incremento en el ancho de banda de los formantes [24]. 4) E l comportamiento del conducto vocal se puede determinar para frecuencias abajo de los 5 KHz resolviendo las ecuaciones de onda de una dimensión, estas ecuaciones están en función del tiempo y del espacio. Estas soluciones dan una función de transferencia que relaciona muestras de la velocidad del volumen de aire de la fuente glotal con la velocidad del volumen de aire de salida en los labios y establecen las frecuencias de resonancia del sistema [8, 25]. Las frecuencias de los primeros tres formantes para la mayoría de las vocales se pueden calcular aproximadamente de las dimensiones del conducto vocal, considerándolo como secciones cilin- dricas en serie. 5) E l modelo es lineal y desacoplado de la glotis.6) Los efectos del conducto nasal se pueden ignorar. Considerando que el conducto vocal está formado por un tubo acústico no uniforme de sección transversal variante con el tiempo, figura 1.3, con paredes no rígidas, con propagación de ondas planas a lo largo de él; la presión p(x,t) y la velocidad del volumen u(x,f) dentro del tubo están gobernados por tres ecuaciones diferenciales parciales: la ecuación de movimiento, la ecuación de continuidad y la ecuación de vibración de las paredes [23]. 20 d p + - £ - £ í - + " Q (1.3) dx dt A du d Ap dA dSy ÁS + —r—+ / =0 (1.4) dx dt pe2 dt dt d2y dy m - r t + b-f- + ky = 0 (1.5) dt dt donde: p = p(x,t) es la variación de la presión del sonido en el tubo. u = u(x,t) es la variación de la velocidad del volumen del flujo de aire. p = 1.14 x 10' g/cm es la densidad del aire en el tubo a la temperatura del cuerpo hu- mano [20]. c = 3.53 x JO4 cm/s es la velocidad de propagación del sonido en el aire a la tempera- tura del cuerpo humano [20]. A = A(x,t) es el valor del área de la sección transversal del tubo (función de área). y = y(x,t) es la amplitud de la deformación de las paredes, debida a la pre- sión del sonido dentro del tubo. S = S(x,t) es el perímetro del tubo. r = r(x,t) es la resistencia del flujo de aire, debida a la viscosidad del aire y a una pérdida cinética que depende de la velocidad del volumen. m es la masa de las paredes por unidad de longitud. 21 b es la resistencia mecánica de las paredes por unidad de longitud. k es la rigidez de las paredes por unidad de longitud. Los coeficientes m, b y k se suponen constantes y uniformes a lo largo del conducto vocal. M x) Glot is Labios Figura 1.3. Configuración del conducto vocal. Las ecuaciones diferenciales parciales (1.3), (1.4) y (1.5) gobiernan a las ondas acústi- cas dentro de un tubo solamente. La propagación del sonido dentro del tubo depende de como sus extremos están relacionados con el mundo externo, ésto se especifica por las condiciones de frontera. Suponiendo un tubo acústico de paredes rígidas y sin pérdidas debidas a conducción térmica o viscosidad en el aire, ni en las paredes del tubo; la ecuación (1.5) se reduce a cero y las ecuaciones (1.3) y (1.4) se reducen a [26, 27]: dp d(uJA) ( 1 6 a ) dx y dt du 1 d(pA) dA + dx pe' dt dt (1.6b) L a solución de las ecuaciones (1.6) es complicada y requiere de conocer los valores de la presión y la velocidad del volumen en la región limitada por la glotis y por los labios; además 22 se debe conocer la función de área, que en general cambia con el tiempo. Sin embargo, conside- rando que para los sonidos continuos A(x,t) no cambia con el tiempo, se puede utilizar un mo- delo simple en el que la función de área del conducto vocal se suponga constante en x y en /, por ejemplo circular. L a figura 1.4a muestra un tubo de sección transversal uniforme excitado por una fuente ideal de velocidad del volumen del fluido. Esta fuente ideal se representa por un pistón de alta impedancia que se mueve en cualquier dirección, independientemente de las variaciones de presión dentro del tubo. Se supone también que en el extremo abierto del tubo no hay variación de la presión del aire, sólo de la velocidad del volumen; lo que se observa más fácilmente por medio de la teoría de líneas de transmisión, recordando que un tubo de sección transversal uniforme es análogo a una sección de línea de transmisión, dado que la resistencia acústica, la masa y la compliancia se distribuyen a lo largo del tubo, de la misma forma que lo hacen la re- sistencia, la inductancia y la capacitancia a lo largo de la línea; además de la correspondiente analogía entre la presión y la velocidad del volumen en el tubo acústico, con el voltaje y la co- rriente en la línea de transmisión. Usando estas analogías, el tubo acústico uniforme se compor- ta de forma idéntica a una línea de transmisión uniforme sin pérdidas, excitada en un extremo por una fuente de corriente ( / (0,/) = ic (t)) y cortocircuitada en el otro ( v (/,/) = 0 ) ; es decir, que en este lugar las variaciones de voltaje son nulas, a similitud de lo que ocurre con la presión del aire en el extremo abierto del tubo (p(l,t) = 0 ), figura 1.4b. A pesar de que estas condicio- nes son imposibles de llevarse a efecto en la realidad, las soluciones resultantes tienen mucho en común con modelos más reales; por lo que se pueden construir modelos más generales median- te una sucesión de tubos uniformes. Considerando que la función de área es invariante con el tiempo; es decir, A = A(x,t) es una constante, las ecuaciones (1.6) se reducen a: dp p d u (1.7a) dx A dt du A d p (1.7b) dx pe2 dt 23 + \ x = O lG (00 t v(/,o = o x = 0 x = l X = l (a) (b) Figura 1.4. (a) Tubo uniforme sin pérdidas, con terminaciones ideales, (b) Analogía eléctrica correspondiente. Derivando ambas ecuaciones con respecto a x: d'p p d f du dx1 A dt \ dx , d A dt A dp K pe dt (1.8a) d2u dx2 _A d_ pe2 dt f *> ^ dp_ dx pc- d dt p du A dt (1.8b) Entonces de acuerdo con las ecuaciones (1.8), las ecuaciones (1.7) se pueden escribir como: d2 p 1 d2 p dx2 c2 dt d2u 1 d2u dx2 c2 dt2 (1.9a) (1.9b) que son ecuaciones diferenciales lineales con variables separables [28], cuya solución tiene la forma: u = XT (1.10) 24 donde X sólo es función de x y T sólo es función de t. Denotando las derivadas como: d2 X .. d2T .. 1~=X ; -—T=T dx2 ' dt2 Sustituyendo u de (1.10) en (1.9b): XT = -\-Xf (1.11) c de donde: X 1 T X c2 T igualando ambos términos de (1.12) a la misma constante: X c2 T La solución para la ecuación (1.13) es: y para la ecuación (1.14): (1.12) V =-k2 O - » ) 1 1 -k2 0.14) X = Ae-Jkx + B ejkx (1.15a) T=Cemt (1.15b) 25 donde: m (1.16) Considerando variaciones armónicas en el tiempo; podemos hacer m = jco , por lo que de la ecuación (1.16) se obtiene: c (1.17) Por tanto, de acuerdo con (1.10), la solución de la ecuación (1.9b) será: u(x,t) = Dx e''** eja" - D2 e ^ eJa" (1.18) y similarmente para la ecuación (1.9a): pe f (Ü co ^ £>, e'^X eja" +D2 e 7 ' eia" J (1.19) Cada uno de los términos en el lado derecho de las ecuaciones (1.18) y (1.19) se puede interpretar como ondas viajando en la dirección positiva (de la glotis a los labios) y negativa respectivamente, relacionadas mediante las condiciones de frontera. Suponiendo que la condi- ción de frontera para u(x,t) en x = 0 (terminación glotal) es [29]: u(0,t) = uG(t) = UG(co)eJO" (1.20) es decir, que el tubo está excitado por una variación exponencial compleja de la velocidad del volumen de frecuencia co y amplitud compleja UG (CÚ)- Y además en la terminación de los la- bios: 26 p(l,t) = o (1.21) De las ecuaciones (1.18) y (1.19) se encuentran las constantes D i y D2, considerando que: en donde: u(0,t) = UG(co)eJO" = D, -D2 DX =UG(Ú)) + D2 (1.22) y para: p(l,t) = 0 pe mi D, e]a" e' e + D2 eja" e (1.23) sustituyendo Dx de (1.22) y despejando D2: 0)1 -i— D2 col col (1.24) sustituyendo (1.24) en (1.22): 0)1 a = UG(co)e 1 0)1 0)1 J— e +e (1.25) Sustituyendo las ecuaciones (1.24) y (1.25) en la ecuación (1.18), se tiene que la solución en estado estable sinusoidal para la velocidad del volumen del flujo de aire es: . , cos(cu( / -x) /c) «(x,0 = UG(co) eJ"' COSI (1.26) k c ) 27 De la ecuación (1.26) se tiene que la velocidad del volumen en los labios es: u(l,t) = U(l,a>)e'a" = UG(co)e JCOl eos col V c ) (1.27) La relación entre las respuestas en frecuencia de las velocidades del volumen de aire en la entrada y la salida del sistema de la figura 1.4a, de acuerdo con la ecuación (1.27) es: U{l,co) UG(co) 1 7~T\ - Va (ja) col eos (1.28) \ c J Graficando esta función para valores de / = 17.5 cm y c = 35000 cm/s se obtiene la gráfica de la figura1.5. Esta función tiene un número infinito de polos espaciados uniformemente; éstos polos son las frecuencias naturales o de resonancia del sistema. Estas frecuencias de resonancia son las llamadas frecuencias formánticas consideradas en la producción de la voz. 20 logio | Va feo) OC A 00 A 00 A 00 A OO A KHz Figura 1.5. Respuesta en frecuencia de un tubo uniforme sin pérdidas. 22 Las ecuaciones anteriores consideran que no hay pérdida de energía en el tubo; pero en realidad existe pérdida debido a la fricción viscosa entre el aire y las paredes del tubo, la con- ducción de calor entre las paredes del tubo y la vibración de las paredes del tubo. Si se toma en cuenta que las paredes del conducto vocal vibran debido a las variaciones de la presión del aire en su interior, el área de su sección transversal varía con respecto a su valor nominal Ao (x,t), ésto es: A(x,t) = A0(x,t) + SA(x,t) (1.29) Sustituyendo esta condición en las ecuaciones (1.6) y resolviendo las ecuaciones, se ha obser- vado [26, 30] que: (a) las frecuencias centrales son ligeramente más altas que para el caso sin pérdidas; (b) los valores pico no son infinitos y los anchos de banda de las resonancias no son cero. Estos efectos son más pronunciados a bajas frecuencias. Los efectos de la fricción viscosa y la conducción térmica son menores que los efectos debidos a la vibración de las paredes, observándose [25] que: (a) las frecuencias centrales de- crecen; (b) los anchos de banda se incrementan principalmente en las frecuencias altas. L a radiación en los labios también influye, ocasionando una pérdida en las altas fre- cuencias y una disminución en las frecuencias de resonancia (formantes) [29]. 29 e/tpnnuo 2 ANALISIS ESPECTRAL En muchas áreas de la ciencia y de la ingeniería, la representación de señales mediante sinusoides o exponenciales complejas lleva a soluciones adecuadas de problemas o fenómenos físicos. Estas representaciones (representaciones de Fourier) son útiles en el procesamiento de señales porque ponen en evidencia ciertas propiedades de la señal que no son tan evidentes en la señal original. E l análisis de la voz es esencialmente la imple'mentación de algoritmos que procesan una onda acústica recibida por un micrófono, en parámetros útiles. E l conocimiento de la producción de la voz y las descripciones fonéticas o articulatorias guían algunos aspectos del análisis y la forma de los algoritmos para saber que tipo de análisis se debe efectuar. La re- presentación de la voz en el dominio de la frecuencia es de gran utilidad. Para muchos propósitos se considera el modelo de producción de voz de la figura 2.1. Este tiene una excitación que es de naturaleza periódica durante la producción de sonidos sono- ros; en tanto que para los sonidos no sonoros es ruido blanco. En el dominio del tiempo la voz a la salida de los filtros es la convolución de la excitación con la respuesta al impulso de los fil- tros del conducto vocal. En el dominio de la frecuencia el espectro de la señal de voz a la salida es el producto del espectro de la excitación y el espectro de los filtros. EXCITACIÓN VOZ Sonora > No sonora Figura 2.1. Modelo simplificado de la producción de la voz. Filtros del Conducto Vocal > 30 En el análisis de una onda se indican gráficamente las amplitudes y frecuencias de cada una de sus ondas constituyentes, a lo cual se le denomina espectro de sonido. Los parámetros acústicos de la mayoría de los sonidos de la voz se pueden determinar por análisis espectrográfico. Las características espectrales de variación con el tiempo de la se- ñal de voz se pueden observar gráficamente por medio de espectrogramas de sonido en los cuales, el eje vertical corresponde a la frecuencia y el horizontal al tiempo, la obscuridad del patrón es proporcional a la energía de la señal. Los espectrogramas nos proporcionan la estruc- tura formántica de los sonidos de voz. Las frecuencias de resonancia del conducto vocal (formantes) se muestran como bandas anchas oscuras. Las regiones sonoras se caracterizan por una apariencia estriada debido a la periodicidad temporal de la forma de onda; en tanto que los intervalos no sonoros están llenos sólidamente. E l análisis espectral puede ser de banda ancha o de banda estrecha. En los espectrogra- mas de banda ancha se pueden percibir perfectamente los formantes, figura 2.2. En los espec- trogramas de banda estrecha aparecen todos los armónicos componentes de la señal de voz, destacándose aquellos que corresponden a los formantes, figura 2.3. Los espectrogramas de sonido analógicos han sido una herramienta principal en las in- vestigaciones de voz. En la actualidad, usando técnicas de procesamiento digital de señales, los espectrogramas se pueden generar en forma más rápida, obteniéndose así espectrogramas digi- tales. 2.1 EL ESPECTROGRAFO DE SONIDO. Durante muchos años se utilizaron en el dominio de la acústica experimental los proce- dimientos articulatorios y fisiológicos para el análisis de la voz, debido a que la electroacústica prácticamente no existía. Diversos investigadores comenzaron la búsqueda de algún dispositivo que hiciera visibles los sonidos del habla, con la finalidad de que el ojo pudiera obtener infor- mación de éstos de manera similar a como lo hace el oído en forma audible [31]. 31 El desarrollo de la electroacústica permitió la creación de toda una serie de aparatos pa- ra aplicación en la investigación fonética, como: el oscilógrafo, el mingógrafo, el espectrógrafo y el magnetófono, etc. E l espectrógrafo de sonido es un instrumento que tiene como objetivo la descomposi- ción automática de la onda sonora de voz en cada uno de sus componentes de frecuencia (algo equivalente al análisis de Fourier) en función del tiempo y su presentación en forma de espec- trograma. Así se obtuvieron patrones espectrográficos de sonidos para diferentes palabras pro- nunciadas por un mismo locutor y para palabras iguales pronunciadas por diferentes locutores, dando evidencia de que estos patrones eran leíbles. Un espectrógrafo de sonido clásico, figura 2.4, es un instrumento que analiza una banda de frecuencias de una onda compleja de voz a un tiempo y graba las variaciones de intensidad de cada banda en forma ordenada sobre un papel. Como resultado se tiene el patrón de un so- nido en sus tres dimensiones fundamentales: frecuencia, intensidad y tiempo. Estos patrones son llamados genéricamente espectrogramas de sonido. Las figuras 2.2 y 2.3 son ejemplos de estos espectrogramas; en este caso para las vocales del idioma español. En la figura 2.4, cuando el interruptor se encuentra en la posición A se puede grabar una muestra de voz de corta duración (2 segundos) sobre una cinta magnética. Después el inte- rruptor se mueve a la posición B y la grabación sobre la cinta magnética se reproduce una y otra vez. La muestra de voz va a la entrada de un filtro variable F, cuya frecuencia de sintonía se ajusta para cada repetición de la muestra de voz. La salida del filtro se conecta a la aguja que se encuentra sobre la superficie de un papel eléctricamente sensible enrollado sobre un cilindro. Cada vez que la señal pasa por el filtro, el cilindro rota y aparece un anillo delgado de oscuri- dad variable. En la siguiente rotación del cilindro, la frecuencia del filtro se incrementa y la aguja se desplaza verticalmente, apareciendo otro anillo contiguo al primero. Después de mu- chas rotaciones, el papel muestra en dos dimensiones la gráfica del contenido de energía de la señal, como una función de la frecuencia y del tiempo para el sonido grabado. L a intensidad es- pectral de la señal se muestra por el grado de oscuridad. Todo este proceso dura aproximada- mente 10 minutos [32]. 32 (ZHH ) * l o u a r t o s j j Figura 2.2. Sonogramas de banda ancha de las vocales del idioma español producidos por unespectrógrafo de sonido [6]. 33 ( Z HX ) 17 i ^ u a n o a j j Figura 2.3. Sonogramas de banda estrecha de las vocales del idioma español producidos por un espectrógrafo de sonido [6]. Grabación magnética Disco con cinta .magnética Unidad de grabación y reproducción Espectrograma Micrófono Grabación del espectrograma Aguj a de grabación Filtro variable Enlace mecánico Figura 2.4 Diagrama esquemático de un espectrógafo de sonido. 2.2 ANALISIS ESPECTRAL DE CORTA DURACION E l análisis espectral es un área importante en el procesamiento de señales digitales y consiste básicamente en el cálculo de la Transformada de Fourier para la estimación de la den- sidad de potencia espectral de señales. Cuando la Transformada de Fourier se aplica a secuen- cias de longitud finita, se denomina Transformada Discreta de Fourier (TDF) . La TDF es la transformación básica utilizada en el análisis en el dominio de la frecuencia de señales discretas en el tiempo, tales como la señal de voz. Para evaluar la T D F de una mane- ra más rápida y eficiente que el hacerlo directamente se usa el algoritmo computacional deno- minado Transformada Rápida de Fourier (TRF), con el cual se logra una importante disminu- ción en el número de operaciones de cálculo. Para el caso de las señales de voz, el análisis espectral nos proporciona información de 35 las frecuencias de resonancia del conducto vocal y de la estructura armónica correspondiente a la excitación. Un parámetro importante en el análisis de la voz es el ancho de banda. Un ancho de banda de 4 - 5 KHz es bastante adecuado tanto para sonidos sonoros, como para sonidos no sonoros. Otro parámetro importante en el procesamiento de la voz es la frecuencia de muestreo. La frecuencia de muestreo mínima es dos veces la máxima frecuencia que tenga la señal (frecuencia de Nyquist), para que la señal analógica original pueda ser recobrada de la versión muestreada a través de la Transformada de Fourier inversa. Así si el ancho de banda efectivo de la señal de voz es 5 KHz, el muestreo debe ser como mínimo a 10 KHz. Al pronunciar una palabra hay cambios entre las secciones sonoras y las no sonoras. L a forma de onda cambia en una proporción que depende de los cambios en la posición de los arti- culadores, esta proporción (tasa de articulación) es relativamente baja con un ancho de banda no mayor a 100 Hz. Esto es muy importante porque significa que la señal de voz se puede ana- lizar con parámetros que varían lentamente y dan una representación más compacta que la de la onda original. También significa que si la onda se analiza en periodos cortos de tiempo (de 1/100 s ó 10 ms), ésta se puede suponer constante sobre estos intervalos [4]. Las señales de voz no son exactamente periódicas, aunque la forma de onda de un pe- riodo particular generalmente se parece a uno precedente o a uno siguiente. Por tanto la supo- sición fundamental de la Transformada Discreta de Fourier de que la onda es periódica no se justifica realmente; sin embago, la señal es cuasiperiódica, ya que los cambios de periodo a pe- riodo no son tan grandes [33]. L a TDF de una secuencia de duración finita x(nT) para 0 < n < N - 1 se define como [9]: N-1 2x nk X{k)=^x(nT)e'~ ; k = 0,1, ,N - 1 (2.1) n = 0 36 donde x(nT) corresponde a las muestras igualmente espaciadas de la función analógica x(t), su- poniendo que han sido muestreadas de acuerdo al Teorema de Nyquist. Haciendo: W = WN=e~'N y x(nT) = x(ri) (2.2) la ecuación (2.1) se puede reescribir como: N-I X(k)=Y.x(n)Wnk . (2.3) n = 0 W"k es periódica con periodo N, es decir: ^ n . m m k . l N ) = w n k . ^ / = Q, ± 1 (2.4) E l cálculo directo de la TDF requiere muchas operaciones ya que muchos de los cálcu- los son redundantes, entonces se utiliza la Transformada Rápida de Fourier ( T R F ) . L a T R F está basada en la observación de que existen muchas simetrías en la TDF. L a idea de la T R F es romper la secuencia original de N puntos en dos secuencias cortas. Las T D F de estas secuen- cias se pueden combinar para dar la TDF de la secuencia original de N puntos. Se supone que N es una potencia de 2. Estas dos secuencias de N/2 puntos se dividen en pares e impares, x\ («) y x 2 («), respectivamente: x, (n) = x(2ri) ; « = 0,1, ,(N/2) - \ (2.5) x2(«) = x(2« +1) ; n = 0,1, (N/2) - 1 Entonces la ecuación (2.3) se puede escribir como: X(k) = £ x(2n) W'nk + £ x(2« + 1) W^X)k (2.6) n = 0 Í? = 0 37 y dado que: V J (2.7) y denotando los datos pares como xi («) y los impares como x 2 («), en (2.6): x(k) = £ x, (n) w* + wkN £ x 2 (») w; (2.8) (2.9) X\ (k) y A"2 (A:) se ven como las TDF de N/2 puntos de xi («) y x 2 («). Si N es grande el proceso se repite para evaluar transformadas de N/4 puntos, dividien- do las secuencias xi («) y x2(«) de la ecuación (2.9) en miembros pares e impares, es decir: donde A(k) es la 'TDF de N/4 puntos de los miembros pares y similarmente B(k) de los miem- bros impares. E l proceso continua hasta tener dos puntos. E l proceso anterior se llama escalamiento en tiempo, ya que en cada etapa del proceso la secuencia de entrada se divide en secuencias más pequeñas. Existe otra forma de la T R F lla- mada escalamiento en frecuencia, en la que los coeficientes de la TDF se dividen en muchos conjuntos en lugar de hacerlo con las muestras de la señal de entrada. Durante la producción continua de la voz, la forma de la cavidad vocal no es fija y las resonancias varían para poder producir diferentes sonidos. Dado que estas variaciones no son tan rápidas es razonable ver a este sistema como estacionario en un tiempo corto por lo que la Xfk) = A(k) + WkB(k) (2.10) = A(k) + W¿" B(k) 3Í Transformada de Fourier normal no es tan significativa; sin embargo, el análisis espectral de corta duración es una aproximación válida en el procesamiento de la voz [9, 29]. En el análisis de corta duración, segmentos cortos de la señal de voz son aislados y procesados como si fue- ran segmentos aislados de un sonido sostenido con propiedades fijas; a cada uno se le aplica la Transformada de Fourier [47], Generalmente estos segmentos se traslapan uno con otro [34]. En general, se ha supuesto que el oído humano lleva a efecto este tipo de análisis tiempo- frecuencia de la voz. La Transformada de Fourier de un segmento corto de la señal de voz refleja las carac- terísticas de excitación y de las frecuencias formánticas de ese segmento. Este tipo de proce- samiento da una secuencia dependiente del tiempo que sirve como representación de la señal de voz. Esta técnica de corta duración se puede representar como [29]: 00 Q(P)= ^T[x(m))w(n-m) (211) donde T[x(m)] es una transformación aplicada a la señal de voz, que se multiplica por una ven- tana que se va deslizando a lo largo de la señal. La ventana es equivalente a filtrar la señal con un filtro lineal. Los resultados dependen de las propiedades de la ventana. Si la ventana de análisis cambia, cambiarán todas las secciones de corta duración y por lo tanto su Transformada de Fourier. Cuando la ventana temporal se incrementa en longitud, se mejora la resolución en fre- cuencia y la estructura armónica se hace más evidente. Cuando la ventana temporal es más es- trecha se obtiene una mejor resolución en tiempo a expensas de la resolución espectral. Debido a ésto, es común en el análisis espectral de la voz utilizar [35]: a) Análisis de banda estrecha, que corresponde a una buena resolución en frecuencia y baja re- solución en tiempo. b) Análisis espectral de banda ancha, que proporciona una buena resolución en tiempo y baja resolución en frecuencia. 39 Si las ventanas se aplican sin traslape, una parte significativa de la señal se ignora debi- do a que las ventanas exhiben valores pequeños cerca de sus fronteras. Por tanto, para evitar la pérdida de datos en el análisis espectral de cortaduración, las ventanas se deben traslapar. E l traslape es generalmente del 50% al 75% [36]. De acuerdo con lo mencionado anteriormente, el cálculo de la ecuación (2.1) da sólo una sección espectral en un tiempo / = (N - \)T. Para obtener un análisis espectral de corta du- ración, se debe efectuar el cálculo en instantes sucesivos de tiempo multiplicando la señal por una ventana. Entonces de acuerdo con la ecuación (2.11), la ecuación (2.1) se puede expresar como: N-\ litnk Xr (k) = £ w(nT) x(nT-rMT) e ' ^ (2-12) n = 0 La ecuación 2.12 se puede ver como la salida de un banco de filtros, cada uno actuando alrededor de la frecuencia seleccionada. Xr (k) es la energía de la señal de voz en un tiempo nT y a la frecuencia w. Por todo lo anterior, el análisis de Fourier de corta duración se puede ejecu- tar fácilmente usando la TRF. Dádo que la ecuación (2.1) está restringida al cálculo de una longitud finita de datos, ésto implica que en esta ecuación existe implícitamente una ventana temporal rectangular de anchura NT, cuyo espectro de frecuencia se muestra en la figura 2.5. wR(f) F r ecuenc i a Figura 2.5. Espectro de una ventana rectangular. 40 L a ecuación (2.12) corresponde al desarrollo del análisis espectral de secciones sucesi- vas de la señal de voz espaciadas un tiempo MT; por tanto, Xr (k) representa el cálculo de la Transformada Discreta de Fourier de una sección de la función temporal, empezando en t = rMTy terminando en t = rMT- (N- \)T, como se muestra en la figura 2.6. , T ^ Tiempo Ventana r n u rvUVvJVvv - T R F F—A Tiempo í \ a a [ T \ a AA / w - T R F T R F —» Figura 2.6. Evaluación sucesiva del espectro. 2.3 VENTANAS. Las características deseables de una ventana son: 1. Anchura del lóbulo principal pequeña en su respuesta en frecuencia. 2. Los lóbulos laterales deben decrecer rápidamente. Existen muchos tipos de ventanas con diferentes características espectrales, entre las que se encuentran: la ventana rectangular, la triangular, la de Hanning, la de Hamming, la de Blackman, la de Kaiser y otras más. Sin embargo, la más utilizada para el análisis de señales de voz es la ventana de Hamming. 41 * Ventana Rectangular (Dirichlet). Esta ventana se considera como la base de referencia en el estudio de otras ventanas y está definida como: WR(k) = \ ; para\k\< N/2 (2.13) = 0 ; cualquier otro caso. Esta es una función abrupta en el dominio del tiempo y equivale a aplicar igual peso a todas las muestras en el intervalo especificado. L a función dentro de una ventana rectangular tendrá discontinuidades en los bordes. Las altas frecuencias asociadas con los bordes de la ventana causan una considerable distorsión del espectro, lo que se puede mejorar usando ventanas con terminaciones menos abruptas. L a respuesta en frecuencia de esta ventana, figura 2.5, es: s en ( ; r / ) E l ancho del lóbulo principal es 2/N. Los ceros de la función ocurren en las frecuencias / = / / N, con / entero. Los principales lóbulos laterales tienen una atenuación de alrededor de 13 dB con respecto al lóbulo principal [37, 38]. * Ventana de Hamming. Esta ventana está definida por: 2nk i i N WH(k) = a+(\-a)cos—jj- ; \k\< — = 0 ; cualquier otro caso. (2.15) 42 que es una función más uniforme en el dominio del tiempo. Con a = 0.5 se obtiene la ventana de Hanning. Si a = 0.54 se tiene la ventana de Hamming. Con a = 1 se obtiene la ventana rec- tangular. En el dominio de la frecuencia se tiene: sen n f N WH (/) = a ~— + H K J J sen K f + 1 - g sen x N(f -l/N) 2 ) sen n ( / - 1/N) 1 - a s e n / r A ( / + \/N) ~~2 J sen /r ( / + l/N) (2.16) E l ancho de banda de esta ventana es aproximadamente el doble (4/N) que el de una ventana rectangular de la misma longitud, figura 2.7; en tanto que la atenuación de sus máxi- mos lóbulos secundarios es de alrededor de 43 dB con respecto al lóbulo principal, además de que los lóbulos secundarios lejanos al lóbulo principal no decaen tán rápidamente como en la ventana rectangular [39]. En ambos casos su atenuación es independiente de su duración. MU O 2/N Frecuencia Figura 2.7. Ventana espectral de Hamming. A pesar de que la respuesta en frecuencia de la ventana rectangular tiene un lóbulo principal más angosto que la ventana de Hamming, sus grandes lóbulos laterales interactúan en 43 el espacio entre los armónicos reforzándolos o cancelándolos; razón por la cual rara vez se usa en el análisis espectral de la voz. Como la ventana de Hamming tiene un corte más suave, ésta se usa comúnmente en el análisis espectral de la voz. 44 e A p n m u o 3 SINTESIS DE VOZ Los espectrogramas nos proporcionan la representación de los componentes acústicos de la onda sonora con toda su complejidad; sin embargo, sólo a través de la síntesis se puede saber que parámetro o parámetros contribuyen al reconocimiento de una unidad fonética. Los estudios de síntesis de voz han demostrado que los primeros tres formantes son de principal importancia en la representación de la voz, ya que contribuyen a su inteligibilidad. Los primeros experimentos documentados para simular la voz humana de los que se tie- ne noticia se realizaron en la segunda mitad del siglo X V I I I [40]; esta simulación se efectuaba por medio de dispositivos mecánicos. En la actualidad los experimentos consisten en desarrollar modelos eléctricos o electrónicos (hardware y/o software) principalmente. Con el avance de la tecnología y el advenimiento de los procesadores digitales de señales se ha conseguido que el procesamiento de los algoritmos matemáticos necesarios para simular la voz se efectúe prácti- camente en tiempo real. Para llevar a cabo la síntesis de voz se han desarrollado diversas técnicas, como son: 1. La síntesis por elementos fonéticos. Esta técnica se basa en el ensamble de fonemas según las leyes particulares de cada lengua. Para producir una palabra inteligible se deben considerar las transiciones entre un fonema y otro. 2. La síntesis por formantes. Los sintetizadores por formantes hacen uso de filtros resonantes que permiten el paso de una banda de frecuencias, correspondiente a un formante determinado, obtenido mediante el análisis espectral. 3. L a síntesis articulatoria. Se basa en la realización de una analogía eléctrica del conducto vo- cal humano por medio de líneas de transmisión eléctricas, constituidas de secciones conectadas en cascada, formadas por inductancias, resistencias y capacitancias. 45 4. La síntesis por codificación lineal predictiva. Las características de respuesta del aparato fo- nador se representan por medio de filtros digitales recursivos, que predicen su salida en cada momento a partir de las salidas previas. Las señales de voz quedan representadas por códigos numéricos ( predictores). 3.1 SINTETIZADORES POR FORMANTES. En los sintetizadores por formantes la distribución espectral de los sonidos está dada por la relación tiempo-frecuencia, o sea que se puede controlar en cada momento la intensidad y frecuencia de los formantes. Estos sintetizadores se basan en el principio de que los elementos significativos de los sonidos del lenguaje radican en las variaciones de frecuencia de los resona- dores bucales. Existen en general dos tipos de configuraciones de sintetizadores por formantes: la con- figuración en paralelo y la configuración en cascada, figura 3.1. En la configuración en paralelo la frecuencia e intensidad de cada formante se controla por separado, cada resonador está precedido por un control de amplitud que determina la am- plitud relativa de cada pico espectral; tanto para sonidos sonoros, como para sonidos no sono- ros. En la conexión en cascada, las amplitudes relativas de los formantes para las vocales se obtienen sin la necesidad de un control de amplitud para cada formante, la salida del primer re- sonador es la entrada
Compartir