Logo Studenta

Modelamiento da Técnica Vocal

¡Este material tiene más páginas!

Vista previa del material en texto

1 
Modelamiento de la técnica vocal musical lírica 
analizando patrones en formantes 
de la voz humana 
2 
3 
Modelamiento de la técnica vocal musical lírica 
analizando patrones en 
formantes de la voz humana 
Proyecto De Grado 
Presentado al 
Departamento de Ingeniería eléctrica y electrónica 
Presentado por 
Camilo Ernesto Motta Zambrano 
Autor 
Alba G. Ávila Bernal 
Asesor 
Para optar por el título de: 
Ingeniero Electrónico 
Universidad de los Andes 
Ingeniería eléctrica y electrónica 
Julio de 2010 
4 
5 
Dedicado a la persona que más amo en el mundo 
Aquella fuente de pasión por la vida, justicia, y profesionalismo, 
Aquella por quien jamás voy a desfallecer 
A quien doy gracias por su comprensión 
Mi madre
6 
Prefacio y agradecimientos 
La motivación principal de empezar una investigación como esta fue siempre sentir el orgullo 
de aportar al mundo no solo desde el punto de vista ingenieril sino también desde el punto de 
vista artístico, que gracias a Dios, a la educación y el amor de mi Madre, ha estado presente en 
mí. Agradezco mucho a la Doctora Alba Ávila Bernal por haberme dado la oportunidad de 
abordar este estudio, confiar en mis aptitudes para desarrollarlo, y sobretodo creer en la 
ingeniería como colaboradora e incentivadora de desarrollo en áreas tan humanamente 
llenadoras como lo son la música el arte y las humanidades. 
Una de las ventajas más grandes de este estudio fue la interdisciplinariedad a la cual estuvieron 
ligadas las facultades de Ingeniería Electrónica y Música de la universidad de los Andes. La 
primera lo demostró al darme la posibilidad de contar con el mejor equipo técnico para 
desarrollar las grabaciones en ese espacio mágico casi inimaginable, que fue mi casa durante 
estos 6 meses: La cámara anecóica. Infinitas gracias a esta facultad, y al profesor Juan Carlos 
Bohórquez a quien tanto interrumpí solicitando la cámara anecóica para grabar cantantes liricos, 
mientras él y su grupo de investigación desarrollaban pruebas electromagnéticas en ese lugar. 
La facultad de Música, Artes y Humanidades sin quedarse atrás confió en la habilidad de un 
uniandino apasionado por el canto y su ciencia, y le colaboro en todo lo que estuvo a su 
alcance. Agradezco inmensamente a mis Maestros de canto: la Doctora y Maestra Carolina 
Gamboa Hoyos, la Maestra María Clara Serrano, y el Maestro Andrés Silva, por sus 
aclaraciones y guías relacionadas con la anatomía del aparato fonatorio y su relación con la 
técnica vocal musical lírica. 
Infinitas gracias a los estudiantes de canto de la universidad de los andes: Las sopranos Paola 
Monroy, Ingrid Delgadillo, Mónica Danilov, Paulina Arango, Meliza Metzger. Los bajos 
Carlos Daniel Soler y Juan Hernández. 
Asimismo quiero agradecer de sobremanera a los cantantes colaboradores, miembros del coro 
de la Opera de Colombia y estudiantes de canto de la facultad de música de la Universidad 
Central, la cual disfruta del mejor programa de canto lirico de Bogotá, gracias a su directora, la 
Maestra Sarah Cullins. A quien también agradezco inmensamente por facilitar la gestión de 
grabación de sus estudiantes. Específicamente quiero agradecer a los siguientes cantantes de la 
universidad central: Las Sopranos Ana María Moreno, Carolina Montilla, Vanessa Cera, Ana 
María Ruge. El tenor Camilo Delgado. 
De igual forma quiero agradecer la colaboración del Tenor Carlos Gómez y la soprano Elizabeth 
Guzmán, alumnos del Maestro Carlos Godoy, de la Pontificia Universidad Javeriana. 
Reitero mi sentido de gratitud a todos los colaboradores de este proyecto esperando que se siga 
manifestando en los estudiantes de ingeniería de la Universidad de los Andes, el estudio e 
interés por la Tecnología Musical, que en la actualmente está teniendo gran influencia en la 
industria artística y pide a gritos los aportes de la ingeniería. 
7 
8 
Índice general 
Prefacio y agradecimientos VI 
Introducción X 
Objetivos Generales XI 
 
Objetivos específicos XI 
1. Teoría básica de la producción de la voz 13
1.1. Producción y fisiología de la voz……………………………………………… 13 
1.2. Tipos de sonidos producidos por el tracto vocal……………………………… 14 
 1.3. La señal de la voz: Formantes y frecuencia fundamental……………………. 14 
1.4. Relación con la técnica vocal como motivación de la investigación………… 14 
 2. Toma de datos 16 
2.1 Ambientes de grabación……………………………………………………….... 16 
 2.2 Equipos de grabación………………………………………………………….... 16 
 2.2.1 Transductor…………………………………………………………... 16 
 2.2.1.1 Otras ventajas……………………………………………… 17 
 2.2.2 Interfaz AUDIO/MIDI de grabación………………………………..... 18 
 2.3 Ventajas del tipo del tipo de grabaciones escogidas……………………………. 19 
 2.4 Selección de cantantes y metodología de grabación……………………………. 20 
 2.4.1 Porque tiene sentido la grabación de errores no intencionados en 
 este estudio?.................................................................................................... 20 
 2.4.2 Tipos de sonidos grabados……………………………………………. 20 
 
 3. Pre-procesamiento, Análisis, y extracción de características en los datos 25 
3.1 Segmentos analizados…………………………………………………………… 25 
3.2 Software utilizado y sus características en el procesamiento…………………… 26 
3.3 Primeras consideraciones tomadas en cuenta para mejorar aún más la calidad 
de las grabaciones…………………………………………………………………… 26 
3.4 Métodos utilizados en la extracción de características…………………………. 27 
3.4.1 Análisis en el dominio del tiempo……………………………………. 27 
 3.4.1.1 Componentes de la envolvente en tiempo…………………. 27 
 3.4.1.2 Primer Método: Transformada de Hilbert…………………. 27 
 3.4.1.3 Relación de la transformada de Hilbert con las partes 
 De la envolvente y su aplicación al estudio………………………... 28 
3.4.1.4 Aporte al vector de características del algoritmo de 
entrenamiento……………………………………………………….. 29 
 3.4. 2 Análisis en el dominio de la frecuencia……………………………… 30 
 3.4.2.1 Segundo Método: Aproximación de formantes a partir de 
 Formantes a partir de sumas de picos gaussianos…………………… 31 
3.4.2.1.1 Prueba de precisión del método…………….......... 32 
9 
 3.4.2.1.2 Aporte al vector de características del clasificador. 34 
3.4.3 Tercer Método: LPC (Linear Predictive Coding)……………………... 34 
 3.4.3.1 Teoría básica del método…………………………………... 34 
 3.4.3.2 Caracterización del método…………………………………. 35 
3.4.3.3 Posibles debilidades del método……………………………. 36 
3.4.3.4 Importancia histórica del método…………………………… 36 
3.4.3.5 Lectura del método para la extracción de características…… 36 
3.4.3.6 Aplicación a una grabación, como ejemplo y prueba de 
Precisión del método………………………………………………... 37 
3.4.3.7 Aporte al vector de características del clasificador……….... 40 
 3.4.4 Cuarto Método: Cepstrum…………………………………………….. 41 
 3.4.4.1 Caracterización del método………………………………… 41 
 3.4.4.2 Lectura del método para extracción de características……… 42 
3.4.4.3 Aporte al vector de características del clasificador………… 42 
3.4.4.4 Aplicación del método a una grabación como ejemplo……. 43 
 3.4.5 Análisis en Tiempo-Frecuencia……………………………………….. 45 
3.4.5.1 Distribuciones de energía…………………………………… 45
 3.4.5.2 Quinto Método: Distribuciones de Tiempo-Frecuencia de 
Wigner Ville y espectrograma……………………………………… 45 
3.4.5.3. Utilidad al proyecto y aporte al vector de características…. 47 
4. Entrenamiento de algoritmos clasificadores 49 
4.1 Teoría básica de algoritmos de clasificación……………………………. 49 
 4.2 Vector de características y división de datos…………………………… 51 
 4.3 Primer clasificador implementado………………………………………. 51 
 4.3.1 Metodología aplicada en el primer clasificador………………52 
 4.3.2 Inconvenientes en número de datos y errores………………… 52 
 4.3.3 Resultados en el conjunto de datos de prueba………………... 52 
 4.4 Entrenamiento de una Maquina de Soporte Vectorial como 
 Segundo clasificador………………………………………………………… 53 
 4.4.1 Mitologías y sus resultados…………………………………… 54 
 4.4.1.1 Primer entrenamiento………………………………. 54 
 4.4.1.2 Segundo entrenamiento…………………………….. 55 
5. Conclusiones y trabajo a futuro 58 
5.1 Conclusiones……………………………………………………………. 58 
 5.2 Trabajo a futuro………………………………………………………… 59 
Bibliografía 60 
Bibliografía consultada y recomendada (no referenciada) 62 
A. Extracción de características 63 
A.1 Código……………………………………………………………………… 63 
 A.1.1 verespectro.m………………………………………………………… 63 
 A.1.2 campana.m…………………………………………………………… 64 
 A. 1.3 Prueba_Caracteristicas.m…………………………………………… 67 
10 
Introducción
El tratamiento y reconocimiento de características en el discurso humano como señal o 
“speech” ha sido objetivo de muchas investigaciones, con aplicación en distintas áreas de la 
ingeniería. Por ejemplo en comunicaciones, para saber en qué banda promedio de frecuencia se 
encuentra el espectro de voces de una región habitada a la que se esté brindando servicios de 
telecomunicación, para así amplificar o atenuar según se necesite y mejorar la calidad de 
escucha. Es tal el interés por mejorar el error en la caracterización de este tipo de señal que 
varias técnicas y algoritmos se han aplicado también en el área musical y el procesamiento de 
audio. 
Numerosos investigadores han realizado trabajos relacionados con clasificación y 
reconocimiento de características en speech y música.Por ejemplo, Foote [1] empleó técnicas 
espectrales para distinguir entre voz y música con un alto grado de exactitud, Perry Cook [2]
estructuro un modelo físicamente parametrizado del tracto vocal para hacer síntesis de la voz 
durante el canto. Los análisis tenidos en cuenta para realizar dicho modelo se han seguido 
utilizando y complementando en los últimos años para fines más específicos, como por ejemplo 
la investigación hecha por Zhenli Yu y P.C. Ching [3] quienes lograron determinar con un error 
muy bajo formas del tracto vocal a partir del análisis de frecuencias formantes, teoría de 
perturbación y el método de interpolación. 
Este proyecto está enfocado hacia la caracterización y clasificación de 4 errores generalmente 
encontrados en la práctica de la técnica vocal musical lirica la cual propone ciertas normas de 
respiración y una serie de lineamientos para la buena educación de la voz, basados en cambiar la 
posición de ciertas partes del cuerpo como la boca, los labios, el maxilar, y la lengua. La idea de 
este proceso es hacer que el cantante cree una sincronización entre estos movimientos y la 
calidad de sonido emitido. Esta última característica puede verse como algo muy subjetivo, pero 
generalmente se trata de un sonido continuo, con potencia predominante, y rico en armónicos. 
El mejor ejemplo de un sonido rico en armónicos es aquel producido por un piano de cola 
cuando se pulsa una de las teclas. Esto hace que ocurra una perturbación en una cuerda y 
empiecen a través de ella a viajar millones de ondas que se encuentran y superponen dando 
origen a un sonido muy particular agradable al oído. Caso contrario al sonido generado por una 
organeta electrónica, el cual se escuchara un poco “seco” o tal vez incompleto en comparación 
al caso anterior ya que es un tono producido por un oscilador electrónico que asemeja un tono 
puro. 
Este estudio combina las características principales de la anatomía del aparato fonatorio 
relacionadas con la técnica vocal musical lírica y técnicas de análisis y síntesis de la voz 
humana, tales como la Transformada Cepstrum y LPC (linear predictive coding), explotando en 
ambas su poder de caracterización de sonidos sonoros (voiced sounds) y sus nociones de 
procesar el habla como salida de un sistema LTI que representa al tracto vocal. Asimismo utiliza 
la transformada de Hilbert y la auto-correlación de la señal con sigo misma como arma para 
encontrar los segmentos de la señal del habla dominados por sonidos sonoros. 
Se realiza una aproximación en frecuencia de cada formante de las señales en el dominio de la 
frecuencia de una forma muy particular explotando la naturaleza de las partes de la envolvente 
en tiempo y su relación con la dinámica de la voz cantada. 
Por último se recurre al análisis en tiempo-frecuencia más específicamente al análisis PSD de 
frecuencias vecinas en espectrograma y cambios de gradiente en los picos vecinos en 
distribuciones Wigner-Ville de tiempo-frecuencia [7].
De todas estas herramientas anteriormente nombradas se obtuvo el conjunto de datos de 
entrenamiento y prueba utilizados en la clasificación de cada error. 
11 
Objetivo General 
Entrenar un algoritmo inteligente que reciba datos procesados de una grabación de voz cantada 
con ciertas características, y clasifique con cierta probabilidad de acierto en cuál de los 
siguientes 4 errores raíz de la técnica vocal, esa voz está incurriendo: 
Canto de garganta, Canto nasal, Canto con poca y constante apertura de la boca, Canto con 
lengua levantada o si se está aplicando una técnica vocal adecuada. Esta última categoría sería 
una opción más de las posibles que tendría el algoritmo para clasificar los datos de entrada, es 
decir se tendrían 5 categorías de clasificación en total. 
Objetivos Específicos 
• Estudiar a fondo el proceso de producción de la voz, teniendo en cuenta aspectos 
como la fisiología de los aparatos del cuerpo humano que intervienen, tipos de 
sonidos que se generan, su relación con la técnica vocal, y diferencias principales 
entre el discurso humano (Speech) y la voz cantada.
• Estudiar, encontrar y Aplicar herramientas de análisis en tiempo y frecuencia, entre 
otros algoritmos usados actualmente para el tratamiento de la voz con el objetivo de 
caracterizar de la mejor forma comportamientos específicos de los 4 errores raíz de 
la técnica vocal lírica, mencionados anteriormente. 
• Llevar a cabo sesiones de registro de voces de distintos tipos teniendo en cuenta 
aspectos definitivos para una buena calidad de grabación como tipos de 
transductores, interfaz y software de recepción de datos, recinto de grabación, 
técnicas de ubicación espacial de micrófonos, entre otras. 
• Estructurar un modelo de obtención de datos que caractericen los aspectos 
estudiados más importantes de la voz cantada. Aplicar este modelo a las 
grabaciones tomadas para así obtener un banco de datos numéricos que entrene el 
algoritmo inteligente. 
• Dividir el banco de datos obtenido en conjunto de datos de entrenamiento y 
conjunto de datos de prueba, entrenar el algoritmo inteligente con el primer 
conjunto y estimar con el segundo conjunto el nivel de predicción del 
algoritmo entrenado. Si el nivel de clasificación no es lo suficientemente 
bueno se procederá a cambiar parámetros de entrenamiento propios del 
algoritmo. 
12 
13 
Capítulo 1 
Teoría básica de la producción 
 de la voz 
Es de suma importancia hacer explícitas las características más importantes en el 
comportamiento del aparato fonatorio, y su relación con el proceso de producción de la voz 
cantada. Esto sustentara la forma en la que se abordaron algunos métodos utilizados durante la 
toma de datos. 
1.1. Producción y fisiología de la voz 
Aunque este proceso natural en el cuerpo humano involucra varios sistemas en su desarrollo, 
dos son esencialmente los más importantes. Estos son el “aparato respiratorio” y “el aparato 
fonatorio”. Todo empieza en los pulmones donde a través de la inhalación sealmacena el aire, 
que luego va a ser retirado mediante compresión de las paredes de este órgano. Durante la 
exhalación y a través de los bronquios el aire pasa de los pulmones a la tráquea para empezar su 
recorrido hacia afuera del cuerpo humano. Antes de llegar a la laringe el aire pasa por la glotis 
que es la cavidad cartilaginosa donde están contenidas las cuerdas bucales. Estas a diferencia de 
la apariencia cordófona que se pensaría tienen, son 4 pliegues a forma de labios que intervienen 
en el paso del aire. Dos de estas llamadas superiores, no intervienen en la producción de la voz, 
y las inferiores si lo hacen. Estas cuerdas bucales inferiores deforman el flujo lineal de aire que 
sube por la tráquea haciendo que se forme una onda, que será la señal original del proceso. La 
siguiente grafica hace explicito el proceso: 
Figura 1. Modelo simple del aparato fonatorio 
14 
Como el modelo anterior lo describe luego de formarse la señal fuente, esta pasa por la cavidad 
faríngea donde se producen pequeñas turbulencias, para luego pasar a la cavidad nasal o a la 
cavidad bucal. Este paso se da con mayor dificultad a la cavidad nasal debido a las posición 
característica del “velo” y a la estreches que presenta esta cavidad, es por esto que un sonido 
nasal es tan particular y puede identificarse con facilidad. En la cavidad bucal pueden 
presentarse turbulencias pequeñas debido a la posición momentánea en la que se encuentren sus 
partes. Lo que hace que se las características del sonido también cambien. 
 1.2. Tipos de sonidos producidos por el tracto vocal 
En el estudio de la voz se identifican dos tipos de sonidos: “Sonidos Sonoros” (Voiced Sounds) 
y “Sonidos Sordos” (Unvoiced Sounds). Se le da uno de estos dos nombres a los sonidos 
dependiendo de dónde se origina la fonación de los mismos. Los sonidos de todas las vocales y 
algunas consonantes como “m” ,”n” ,”l” que son producidos en un 90% por las cuerdas bucales, 
son “sonoros”, mientras que las otras consonantes como “f” ,”s”, ”t” son “sordos”. En sonidos 
sordos la fuente de fonación no son las cuerdas bucales si no turbulencias extremas provocadas 
por ciertos segmentos del tracto vocal. Las consonantes más difíciles de clasificar por su tipo de 
sonido son “z” y “v”, ya que poseen ambos tipos de sonoridad (sonora y sorda). 
 1.3. La señal de la voz: Formantes y frecuencia 
fundamental 
Como resultado de la vibración de las cuerdas bucales al pasar el flujo de aire a la altura de la 
glotis, se presentan cambios de presión de aire en el tracto vocal. La frecuencia y la magnitud 
originales de estas perturbaciones de aire forman la señal de la voz. Recordemos que esta señal, 
que se origina a la altura de la glotis, debe recorrer todavía el resto del tracto vocal, este 
recorrido final, consiste en pasar por otras cavidades supra-glóticas resonadoras y atenuadoras 
de frecuencias. Dichas cavidades tienen varias frecuencias naturales, es decir que vibran si 
entran en contacto con ciertas frecuencias, por lo tanto cuando la señal pasa por estas cavidades, 
las frecuencias que acompañan a la frecuencia original de la señal también llamada frecuencia 
fundamental o “pitch”, se refuerzan en amplitud. Al mirar el espectro de una señal de voz se 
pueden apreciar varios picos, el más pronunciado estará ubicado en la frecuencia fundamental y 
el resto, en frecuencias correspondientes a múltiplos enteros de esta llamadas armónicos, los 
cuales van decreciendo su amplitud con el aumento de la frecuencia. Estos armónicos no 
aparecen como una línea vertical sola, si no como varias alrededor de esa frecuencia que es 
múltiplo entero de la fundamental (Ver figura 15). A este conjunto de picos y pronunciamientos 
alrededor de un armónico se le conoce como formante. La forma en la que las amplitudes están 
distribuidas en los formantes es lo que caracteriza el color de voz de una persona, ya que brinda 
información de que frecuencias están siendo reforzadas en su tracto vocal, y esto puede cambiar 
por razones anteriormente expuestas si la forma de las cavidades supra-glóticas cambia. Estos 
cambios que se producen durante la práctica de la técnica vocal son el objetivo de este estudio. 
1.4. Relación con la técnica vocal como motivación 
De la investigación.
Como se hizo explicito anteriormente, el paso del flujo de aire a través de todo el tracto vocal se 
ve sometido a varios tipos de deformación debido a las cavidades y órganos por los cuales tiene 
15 
que pasar antes de volverse sonido externo. La técnica vocal se basa en el entrenamiento y 
sincronización de movimientos de órganos del cuerpo humano que deforman el tracto 
vocal de cierta forma para que se generen sonidos externos agradables a la percepción del 
ser humano, comenzando desde el diafragma con su presión sobre los pulmones hasta las 
cavidades, nasal y bocal. 
Las siguientes son las características más importantes de un cuerpo humano entrenado con 
técnica vocal lirica: 
• Durante la inhalación el diafragma se acostumbra a bajar y actúa como válvula de 
entrada de aire, haciendo presión sobre la parte alta del pulmón que está llena, 
generando más espacio. 
• La boca debe tener una apretura proporcional a la frecuencia del sonido que se esté 
emitiendo: Si se está cantando una nota alta, la boca debe tener una apertura amplia, en 
cambio, sí se canta una nota grave (en la escala del piano, cualquier nota de la primera o 
segunda octava) la apertura de la boca debe ser más pequeña. 
• La lengua debe ir siempre detrás de los dientes para incrementar el tamaño de la 
cavidad faríngea y asimismo la capacidad del cantante de hacer notas más altas sin que 
suenen forzadas o de garganta. Esto además ayuda a disminuir el estrés en la mandíbula 
que es muy común en cantantes amateur. 
• El “paladar blando” o “velo del paladar” debe estar siempre levantado para evitar que el 
aire ingreses a la cavidad nasal y se produzca su sonido característico y a veces molesto. 
• El sonido no debe nunca hacer fonación con “golpe de glotis”. Es decir voz de garganta 
que es una voz que no es producida en sincronización con la presión del diafragma en 
los pulmones si no por esfuerzo neto de garganta. 
Todo esto demuestra que el tracto vocal completo actúa como caja resonadora y atenuadora 
(filtro) de frecuencias formantes que van sumándose a la perturbación de aire creada en la glotis 
y que finalmente se convierte en la voz. Este estudio de cambios en dichas frecuencias 
formantes y sonidos en ondas acústicas grabadas, son los agentes principales estudiados en este 
proyecto con el fin de caracterizar los cuatro errores raíz (que desencadenan el resto de errores) 
de la técnica vocal: Canto de garganta, canto nasal, Canto con poca y constante apertura de 
la boca, y canto con lengua levantada. 
 Por ultimo cabe aclarar que la ventaja más grande de este estudio es que los sonidos 
cantados, aun siendo estimados como errores en la técnica vocal, son “sonidos sonoros”, lo 
que hace que se puedan utilizar herramientas de análisis lineal y se obtengan buenos 
resultados como se verá más adelante. 
16 
Capítulo 2 
Toma de datos 
En esta sección se hacen explícitos todos y cada uno de los aspectos tomados en cuenta en la 
toma de datos o grabación de las voces, mencionando procesos como selección de ambientes y 
equipos de grabación, selección de voces, tipos de sonidos a grabar, etc., siempre dejando en 
claro que todos estos procedimientos son fundamentales para tener una alta calidad en los datos, 
lo que se traduce en disminuir distintos tipos de ruido que pueden intervenir en una sesión de 
grabación aun teniendo equipos apropiados para tal fin. 
 2.1. Ambientes de grabación
Es claro que los datos a analizar serian archivos de audio con grabaciones de cantantes cuyas 
voces tuviesen ciertas características. Las grabaciones debían hacerse en un espacio donde no 
hubiese ruido ni por fuentes externas ni por características acústicas malasdel sitio. Por esta 
razón se decidió tomar los datos en una cámara anecóica, donde aplicar las mejores técnicas de 
grabación y utilizar excelentes equipos, iba a atenuar significativamente la magnitud de las 
reflexiones tempranas (reverberación y eco) y el ruido de las mediciones no sería una limitante a 
futuro en la obtención de características y pre-procesamiento de las señales. 
2.2. Equipos de grabación 
2.2.1 Transductor 
Siempre es de suma importancia saber los criterios de selección de los equipos a utilizar en 
distintas aplicaciones de grabación. En este caso se necesitaba un tipo de transductor o 
micrófono cuya respuesta en frecuencia en la banda en la que se fuese a trabajar, no pudiese 
atenuar o amplificar de forma no lineal información valiosa en la caracterización de cada uno 
de las 4 errores. Por esta razón se eligieron micrófonos Omnidireccionales Behringer ECM8000 
cuya imagen, patrón polar y respuesta en frecuencia se muestran a continuación: 
Figura 2. Micrófono Omnidireccional Behringer ECM8000 
17 
Figura 3. Patrón Polar Behringer ECM800 
Figura 4. Respuesta en frecuencia del transductor 
 De las figuras anteriores se pueden deducir los beneficios y la conveniencia del uso de este 
transductor: 
• De su patrón polar se deduce que es uniformemente sensible es decir que recoge 
aproximadamente la misma cantidad de sonido en todas las direcciones. 
• Posee una respuesta plana en un rango de frecuencias amplio y muy apropiado para 
esta investigación ya que la respuesta empieza a amplificar frecuencias desde los 2500 
Hz, que es un valor extremo alto, en el canto lirico, alcanzado con dificultad por 
cantantes, aun en el registro de voz femenina, por lo tanto no se iba a alcanzar ya que la 
idea era tomar grabaciones en rangos donde las voces estuviesen más cómodas y así 
obtener buenos resultados. 
• Como se puede apreciar en la figura 4, la respuesta en frecuencia plana es cada vez es 
más grande si la distancia entre la fuente sonora y el micrófono está por encima de 1 
metro. Esto hace que se tenga un rango de trabajo en frecuencia seguro (que no habrá 
amplificación o atenuación en los que se grabe) más amplio y que todo lo grabado 
quede en ese rango.
2.2.1.1. Otras ventajas: 
A parte de las excelentes características técnicas que ofrecía este transductor, una de sus 
principales ventajas fue su costo, ya que estaba muy por debajo del resto de micrófonos de 
medición profesional con factores similares. En segunda instancia era un micrófono de 
tecnología de “condensador”: Son los micrófonos de mejor calidad, muy sensibles, que miden 
voltajes producidos por cambios en la separación entre placas metálicas que ocurren con las 
vibraciones de ondas acústicas. 
18 
2.2.2 Interfaz Audio/MIDI de grabación 
Una interfaz de grabación es un elemento comúnmente usado en la ingeniería de sonido y en 
grabaciones caseras para obtener excelentes registros de sonido ya que este dispositivo posee 
circuitos de muestreo mucho más efectivos que los de una tarjeta de sonido convencional de 
computador y puede trabajar recibiendo y enviando datos a un computador controlador a 
grandes velocidades lo que hace que la probabilidad de perdida de información sea muy baja, en 
otras palabras que la grabación sea de alta calidad. 
La interfaz audio/MIDI utilizada en este caso fue una Fast Track Pro de M-Audio pequeña, con 
dos entradas de micrófono XLR de las cuales solo se utilizó una. El resto de especificaciones de 
este dispositivo se hacen explicitas en la página web de M-Audio [10]. A continuación se 
presenta un diagrama de visión frontal y trasera de este elemento: 
Figura.5 Vista frontal y trasera de una interfaz de grabación 
Fast Track Pro de M-Audio. 
El control de este dispositivo se realiza a través del software “Protools M-powered 7.4” de 
“Digidesign” que se instala en un computador que tenga ciertos requerimientos mínimos de 
funcionamiento [11] y el cual se comunica con la interfaz a través de un cable USB de 
periférico o tipo B. De esta forma el diagrama esquemático del sistema total de toma de datos 
seria el siguiente: 
Figura 6. Diagrama esquemático del sistema general de toma de datos 
A continuación se hace explicita una representación real del sistema total de grabación: 
����������
��	
����

��������
����
���� ������
�����
19 
Figura 7. Representación real de conexión del sistema de toma de datos 
En conclusión sistema general de grabación utilizado estuvo compuesto por una interfaz 
AUDIO/MIDI y un computador que controlaba por puerto USB las características de la señal de 
entrada al micrófono a través del software “Protools M-Powered 7.4” de Digi Design, Uno de 
los software más utilizados en estudios de grabación ya que trae una interface gráfica de 
manipulación de archivos que permite abrir varios canales de grabación a la ves y apreciar 
visualmente la forma de onda de las grabaciones. Además ofrece la opción de obtener 
grabaciones en múltiples formatos, tazas de muestreo, y magnitud en bits etc. (Ver figuras 7 y 
8). 
2.3. Ventajas del tipo de grabaciones escogidas 
En este caso se decidió que las grabaciones fuesen archivos de audio tipo .WAV generados con 
una taza de muestreo de 44.1Khz. La razón por la cual se hiso esto es por la compatibilidad que 
tiene este tipo de archivo con software de procesamiento de información numérica como Matlab 
y Mathemtica. Además se escogió esa taza de muestreo ya que era una de las más elevadas 
ofrecidas por Protools M-Powered y porque que estaba muy por encima de la frecuencia 
máxima que puede alcanzar una soprano (la voz humana más aguda existente) en esta aplicación 
lo que permitía según el teorema de Shannon-Nyquist [12] dar certeza de tener un muestreo 
adecuado. Otra gran ventaja de escoger esta taza de muestreo es que el tamaño de los archivos 
es adecuado (no es tan grande) y permite realizar el procesamiento de las grabaciones en 
tiempos cortos, ya que si se aumentaba este último parámetro a 99Khz (que es el siguiente valor 
20 
posible ofrecido por el software) el tamaño de los archivos hubiese sido bastante grande y el 
análisis de los mismos se complicaría debido a los tiempos de procesamiento computacional. 
2.4. Selección de cantantes y metodología de 
grabación 
Recordemos que el objetivo principal del proyecto es el de tomar datos numéricos obtenidos 
de un pre-procesamiento hecho a grabaciones de voz y decir a cuál de los 4 errores estudiados 
pertenecen o si hace parte de un quinto grupo perteneciente a una técnica vocal adecuada. Para 
este último grupo de clasificación era necesario grabar cantantes con técnica vocal muy 
entrenada, desarrollada, y apropiada, para tenerla como base en el modelo. El tipo de cantantes 
que brindan estas características son cantantes profesionales y semi-profesionales (estudiantes 
de canto lirico de últimos semestres). Los datos que se le darían al algoritmo como errores de la 
técnica vocal se grabaron de personas sin ningún tipo de conocimiento en canto y también de 
cantantes entrenados. 
2.4.1 ¿Porque tiene sentido la grabación de 
errores no intencionados en este estudio? 
Es claro que debe ser distinta la forma en la que ocurre un error intencionado y no intencionado, 
pero la naturaleza del sonido y la distribución de energía por armónicos en ambos casos en un 
estado estable debe ser muy similar por esta razón en la grabación de los errores se indicaba la 
forma en la que cada persona debía emitir el error basando dicha explicación en experiencias de 
maestros de canto de la universidad de los Andes y teoría de técnica vocal lírica, y luego se 
analizaba la distribución de energía en armónicos comparando la grabación en su estado estable 
con el estado transitorio , también llamado en el audio “attack”. Que es el ataque de una 
envolvente de sonido. Este tema se cubre de forma más profunda, más adelante en la extracción 
de características. 
2.4.2 Tipos de sonidos grabados 
En cantolirico existen hay 4 voces principales en orden ascendente de registro (rango de 
frecuencia que cierta voz puede emitir): Bajos (divididos entre Bajo y Barítono), Tenores 
(subdivisión: Tenor 1 y 2), Contraltos (Mujeres con capacidad de cantar sonidos por debajo de 
los 400Hz), y sopranos (Subdivisión: Mesosoprano, y Soprano). 
De las anteriores categorías se tomó datos de 9 sopranos, 5 tenores, 2 bajos, y 4 contraltos de los 
cuales 13 son semi-profesionales y 7 son maestros en canto lirico. 
La metodología seguida para grabar las voces fue la siguiente: 
� Se ubicaba al cantante a un poco más de un metro de distancia del micrófono para asegurar 
que lo grabado estuviese en el rango de respuesta plana del micrófono. 
21 
� Se le solicitaba hacer una escala mayor ascendente y retornar haciendo una escala mayor 
descendente en el registro que fuese más cómodo para él (ella), con intervalos de un 
segundo entre cada nota o sonido emitido de la escala para que la separación de los audios 
pudiera hacerse más cómodamente en el software (ver formas de los audio en Figura 10). 
� Esta escala debía realizarse pronunciando la vocal “a” que es en general la más cómoda en 
el canto lirico. Y la vocal con mayor porcentaje de “sonido Sonoro”. 
� Los sonidos de las escalas anteriores no podían sobrepasar el límite máximo de frecuencias 
de 2500Hz, valor que según la notación musical franco-Belga pertenece a un sonido 
producido en la pulsación de la tecla “Re# 6”, es decir “Re sostenido” de la sexta octava de 
un piano. 
� Una escala completa comprendía 16 sonidos separados por silencios previamente 
mencionados: 8 sonidos de la semi-escala ascendente y los mismos 8 de la semi-escala 
descendente. Cada cantante realizo escalas completas emitiendo en cada una todos los 
sonidos con uno de los 4 tipos de error analizados o con una técnica vocal adecuada. De esta 
forma, por cada cantante, se obtenían 6 escalas o más, es decir un mínimo de 96 sonidos por 
cada tipo de error, los cuales a su vez se dividieron para aumentar el tamaño del conjunto de 
datos de entrenamiento como se verá más a fondo en el capítulo de entrenamiento del 
algoritmo inteligente. 
A continuación se muestran imágenes de dos sesiones de toma de datos en cámara anecóica: 
Figura 8. Sesión de grabación: Ingrid Delgadillo, 
Soprano profesional Universidad de los Andes. 
22 
Figura 9. Sesión de grabación: Paola Monroy, 
Soprano profesional Universidad de los Andes. 
Las siguientes son representaciones graficas de sesiones de grabación en el software Protools 
M-Powered de Digi-Design: 
Figura 10. Sesión de grabación desde Protools- M-Powered 
23 
Figura 11. Sesión de grabación desde Protools M-Powered 
Como se puede apreciar en las figuras 10 y 11, en cada sesión de grabación se creaban 5 tracks 
distintos (canales horizontales), uno para cada error analizado, y uno extra para toma de datos 
de voz “con tecnica vocal adecuada”. De esta forma se podian grabar varias muestras de cada 
clase y de forma separada lo que facilitaba su edición e importación a otros software. En la 
figura 11, que es un zoom de la figura 10, de la primera escala grabada de cada error, se 
pueden apreciar los 16 audios los cuales, aumentan en amplitud a medida que la nota 
(frecuencia) de la escala es mayor, esto se debe a la tendencia que tienen los seres humanos 
de cantar con mayor volumen notas musicales altas y vicebersa.
24 
25 
Capítulo 3 
Pre-procesamiento, análisis y 
extracción de características en 
los datos 
En el presente capítulo se harán explicitas todas las técnicas usadas en este estudio para extraer 
características de las grabaciones de voz. La mayoría son métodos matemáticos existentes 
aplicados en el tratamiento de la voz, excepto uno que es la aproximación del espectro en 
frecuencia del attack y sustain de las señales, a través de picos gaussianos sumados. 
Se recomienda estudiar el apéndice de este documento con el fin de relacionar la teoría 
que se cubrirá a continuación en este capítulo, con el código programado en Matlab para 
extraer las características numéricamente. 
 3.1. Segmentos analizados 
Los audios analizados fueron cada una de las partes de las escalas hechas por los cantantes. La 
escala completa (16 sonidos de) quedaba registrada, a través de Protools M-Powered, en un 
archivo .WAV. Estos archivos eran importados desde el software “Nero Waveditor 8” en el 
cual se eliminaban los silencios, se cortaban y extraían los 16 audios por separado así: 
Figura 12. Corte y extracción de cada sonido de la escala en “Nero Waveditor 8” 
Una vez obtenidos los audios, cada uno se guardaba también como archivo .WAV, para que 
pudieran ser exportados y procesados en Matlab. 
26 
3.2. Software utilizado y sus características en el 
procesamiento 
Todo el procesamiento de datos y extracción de características de los archivos de audio digital 
en formato WAV obtenidos en Protools M-Powered se hiso en Matlab, gracias a su herramienta 
de importación de archivos de este tipo: “Wavread”. Esta herramienta descomponía cada audio 
cortado previamente en un arreglo de amplitudes cuyo tamaño N cumplía la condición: 
 ��
�� � � (1) 
 Donde �	 es la duración de la señal en segundos y 
� es el periodo de muestreo en segundos, 
que en este caso es igual al inverso de 44100 Hz, es decir 22.676 � seg. 
Como se puede apreciar en la expresión matemática, el tamaño N del arreglo de amplitudes 
podía crecer notablemente si se aumentaba la frecuencia de muestreo ( 
� � �
�� ) lo que se 
Convertiría en una limitante a futuro en cuanto a tiempo de p procesamiento se refiere. 
 
3.3. Primeras Consideraciones tomadas en cuenta 
para obtener calidad en las grabaciones 
En los procesos de grabación profesional siempre se lleva a cabo un filtraje posterior de las 
grabaciones para eliminar frecuencias no deseadas que están por debajo de 170 Hz causadas por 
vibraciones de los equipos de medida. En este caso aplico dicho proceso de filtraje lo cual no 
solo atenuó dichas frecuencias parasitas de los elementos de medición si no también ruidos 
entre 70 Hz y 86 Hz que estaban interviniendo y que provenían de motores que trabajaban en 
laboratorios de mecánica vecinos a la cámara anecóica. 
Por esta razón, antes de llevarse a cabo la extracción de características de cada uno de los 
audios, el filtro pasa-altas que debía aplicarse debía tener una respuesta en frecuencia lo más 
plana posible tanto en magnitud como en fase ya que un mal filtro podría llegar a cambiar la 
naturaleza de los datos, hacerlos ruidosos y complicar tremendamente la función de 
clasificación de los mismos. El diseño del filtro tubo las siguientes características: 
- Filtro FIR Butterworth de grado 20. 
- Con un error en respuesta plana (en cero db) tanto en magnitud como en fase de 
máximo �0.23 db, y una pendiente en zona de transición de 24db por década.
Atenuación en banda de rechazo de -20db. 
3.4 Métodos utilizados para la extracción de 
características
Las siguientes subsecciones hacen explicitas todas y cada una de las herramientas, 
transformadas y algoritmos aplicados a las grabaciones, usadas en la obtención de información 
27 
con la que se dio lugar al conjunto de datos de entrenamiento y prueba del algoritmo de 
clasificación. 
En la mayoría de casos, se hace una introducción teórica del funcionamiento del método y se 
aplica a uno de los audios para clarificar la forma en la que se extrajeron los datos de dicho 
método. En los casos en los que sea posible se procederá a establecer porcentajes de error y otro 
tipo de estadísticas que demuestren la eficacia de cada método. 
3.4.1 Análisis en el dominio del tiempo
3.4.1.1 Componentes de la envolvente en tiempo 
Los sonidos sonoros de la voz generalmente presentan una forma particular y envolvente en 
tiempo. Por supuesto los audios grabados en este estudio no fueron la excepción.En el 
tratamiento de audio y señales se identifican 4 partes de esta envolvente de la siguiente forma: 
Figura 13. Partes de la envolvente del sonido en tiempo. 
El número uno recibe como nombre “Attack”, el número dos “Release”, el número tres 
“sustain” y el 4to y ultimo “Decay”. 
El “attack” es un periodo de tiempo pequeño en el que varias partes del tracto vocal 
experimentan cambios progresivos en forma y posición hasta alcanzar en cierto momento una 
estructura cómoda y estable que le permita seguir durante el “Sustain” imprimiendo energía al 
sonido producido por esa última configuración del tracto lograda en el attack. Durante ese 
proceso progresivo de cambio, se activan formantes frecuenciales, unas con más energía que 
otras, las cuales se dejan notar en la salida del sonido. 
Esta característica aporta información muy valiosa a este estudio ya que sugiere la relación de 
energía de formantes producidos durante el attack con aquellos producidos en el “sustain” como 
fuente de extracción de características. 
3.4.1.2 Primer Método: Transformada de 
Hilbert 
Esta es una de las herramientas más utilizadas en el análisis temporal de una señal para hallar el 
porcentaje de sonido Sonoro que hay dentro de ella a través de la obtención de la envolvente en 
28 
tiempo [27]. Esta transformada toma una señal �� muestreada con cierto periodo 
�, y devuelve 
una señal analítica � de la forma: 
� � �� � �� (2) 
Es decir suma una parte imaginaria ��, que no es más que una versión de � desfasada 90� de la 
señal original. En otras palabras esta transformada aplicada a “cosenos” arrojaría “senos” y 
viceversa. La suma de esta señal �� tiene la intención de hacer de la señal original �� una señal 
analítica. Recordemos que las señales analíticas son aquellas cuyas componentes frecuenciales 
negativas han sido filtradas lo que hace más factible su descomposición y representación en 
términos de combinaciones lineales de muestras pasadas de la misma señal. 
3.4.1.3 Relación de la transformada de Hilbert y 
partes de la envolvente y su aplicación al estudio 
En este estudio se calcularon los valores máximos y mínimos de la dispersión de la 
transformada de Hilbert [27] manejando unidades correctamente para así hallar los tiempos de 
inicio y conclusión del segmento de la señal que tuvo mayor porcentaje de sonidos sonoros. 
Al graficar la identificación de estos dos instantes calculados, sobre varias grabaciones en 
tiempo se encontró lo siguiente: 
Figura 14. Izq. Error de garganta, Der. Canto adecuado de una soprano, 
Ab. Canto adecuado de un bajo. 
29 
Las gráficas de estos tres casos presentaban una división casi perfecta de la señal en tiempo de 
su Attack y Sustain, lo cual de entrada se vio bastante curioso, ya que lo que se quería graficar 
era la ubicación temporal de la componente de voz sonora más representativa de la señal. De 
este análisis se obtuvo una herramienta muy valiosa para el resto del proceso de investigación: 
la obtención del attack y sustain de forma separada lo que facilitaba muchísimo la 
programación de un algoritmo que dividiera las señal en estos dos segmentos, tomara 
características de los mismos y las relacionara, todo esto de forma automática sin recurrir 
a manipulación manual de las señales, lo cual generaba un ahorro de tiempo considerable 
y hacia el algoritmo cada vez más robusto.
3.4.1.4. Aporte al vector de características del 
algoritmo de entrenamiento 
Relación en segundos entre la duración del segmento de mayor contenido de sonido sonoro y la 
duración total de la señal. 
30 
3.4.2. Análisis en el dominio de la 
frecuencia 
Esta fue la característica más explotada de todas ya que aporto la mayor cantidad de 
características al vector final de clasificación. 
En primer lugar se procedió a graficar los espectros en el attack y sustain de varias grabaciones 
con el fin de visualizar posibles cambios o tendencias en el comportamiento de los armónicos y 
formantes. La siguiente grafica es un ejemplo de este proceso: 
Figura 15. Espectro en frecuencia de una mujer cantando con voz de garganta. En rojo los 
formantes del Sustain y en verde los formantes del attack 
La grafica de la figura 11 pertenece a una voz femenina emitiendo sonido con error de 
garganta. El espectro rojo pertenece al sustain, y el verde pertenece al attack. Se confirma que 
hay mucha más energía en el sustain que en el attack para cada armónico. Pero si nos fijamos, 
esta distribución de energía no tiene un patrón claro de comparación entre el attack y el sustain 
es decir la diferencia entre la altura y el ancho del formante (proporcional a la energía del 
mismo y a las frecuencias que lo acompañan) no es constante o comparable con cierto patrón a 
simple vista. Por ejemplo si concentramos nuestra atención en el armónico fundamental, es 
decir el que está ubicado alrededor de los 700Hz en el caso de la gráfica, se puede ver que la 
forma en la que se activan frecuencias vecinas alrededor es mayor y distinta a como se produce 
en el resto de formantes. Otro aspecto a notar es que la mayoría de formantes del attack (línea 
verde) no están centrados en la mitad de los formantes del sustain (línea roja), es decir es tan 
ligeramente desplazados. 
Asimismo se podría llegar a decir que siempre la energía de las formantes es mayor en el 
sustain que en el attack pero el estudio realizado a otros tipos de error evidencio lo contrario, tal 
y como se ve en la siguiente grafica de espectro de la misma cantante, pero haciendo los errores 
de boca y garganta: 
31 
Figura 16. Espectro en frecuencia para el error de boca 
Las dos graficas superiores pertenecen a error de boca y las dos inferiores a error de garganta. 
Las gráficas de la izquierda son la representación en frecuencia en el attack y las dos de la 
derecha en el sustain. En ambos errores se pueden apreciar diferencias bastante notables en la 
energía del mismo armónico en ambos periodos de tiempo analizados: casos en los que el 
formante se activa con cierta energía predominante, y de repente pierde más del 60 % de la 
misma durante el sustain donde la mayoría de formantes crecen en intensidad. 
Todos estos tipos de diferencias, cambios y comportamientos específicos en los formantes 
fueron el blanco en esta extracción de características en el dominio de la frecuencia. 
3.4.2.1 Segundo Método: Aproximaciones de 
formantes a partir de sumas de picos gaussianos 
Luego de evidenciarse cambios entre la energía de armónicos entre el sustain y el attack se 
implementaron aproximaciones de los formantes en ambos espectros, como suma de picos 
gaussianos. Es decir cada formante se aproximaba a través del modelo ‘Gauss8’ ofrecido en el 
“Fitting Toolbox” de Matlab que aproxima cada formante como suma de 8 picos (máximo valor 
ofrecido) gaussianos. La expresión que representa el modelo “Gauss8” es la siguiente: 
 �� = ∑ �� ∙ �� !"#$%&'
(& )*+,� (3) 
Donde ��, -� , y .� son los parámetros que arroja Matlab de cada uno de los 8 picos que se usaron 
para aproximar cada formante y como se verá más adelante fueron la base para la extracción de 
características en el dominio de la frecuencia. Cabe aclarar que se explotó la forma en la que 
los armónicos de la voz se repiten en múltiplos enteros de la frecuencia fundamental para 
32 
ubicarlos automáticamente en un espectro de voz y poder hacer la respectiva 
aproximación. Esto se hizo a través del método de detección de pitch con Cepstrum [29].
 La siguiente es la gráfica de aproximación del espectro en frecuencia de un tenor cantando con 
técnica vocal adecuada: 
Figura17. Aproximación gaussiana de una espectro en frecuencia 
El eje horizontal esta en Hz y el vertical es amplitud normalizada. La Línea magenta es la 
representación real del espectro en frecuenciaen el attack y la azul es su aproximación 
gaussiana. Es el mismo caso del sustain en la línea verde, que es la representación real, con su 
respectiva aproximación, la línea negra. Aparentemente en ciertos intervalos la aproximación es 
muy buena pero en otros no lo es tanto. La ventaja es que la aproximación es mucho mejor en 
los intervalos donde hay formantes que donde no los hay. 
La aproximación se hace calculando, el rango de frecuencias en el que se aplica la transformada 
de Fourier, la frecuencia fundamental o “pitch” (que es el intervalo frecuencial que hay entre 
cada armónico), y calculando intervalos entre puntos medios de la distancia entre cada 
formante, estos datos se le asignaron al modelo y este retorno la aproximación. . 
3.4.2.1.1 Prueba de precisión del método 
El parámetro que se tuvo en cuenta para medir la precisión de la aproximación a partir de picos 
gaussianos fue el error en la energía de cada formante en la representación artificial con 
respecto a la energía real. Recordemos que Matlab tiene varios modelos gaussianos Gauss1, 
Gauss2, etc., los cuales se diferencian únicamente en la cantidad de gaussianas sumadas que 
desea utilizar para hacer la aproximación. En este caso se utilizaron varios modelos con la idea 
de que podría llegarse a encontrar uno que presentara un error bajo de aproximación y que no 
tuviera tantas gaussianas para así reducir un poco el costo computacional pero en realidad el 
tiempo que tardaba el modelo en hacer la aproximación con el número máximo que ofrecía el 
33 
modelo, es decir “Gauss8”, no era grande, y si reducía mucho el error tal como se aprecia en las 
siguientes graficas: 
Figura18. Error promedio de aproximación hasta el i-ésimo armónico o formante aplicando 
varios modelos de aproximación gaussiana en espectro de frecuencia de una voz masculina 
 Aplicando técnica vocal de forma adecuada. 
Las gráficas anteriores representan el error promedio en la energía de cada aproximación hasta 
el i-ésimo armónico o formante aplicando varios modelos de aproximación gaussiana en 
espectro de frecuencia de una voz masculina emitiendo sonido con error nasal que fue el peor de 
los casos obtenido. 
 La línea verde hace referencia al sustain y la magenta al attack. Finalmente como se supuso, el 
grado más alto de aproximación (8) presento el mejor error por lo que se decidió rescatar para 
este estudio. 
Cabe aclarar que la figura 12 tiene picos muy prolongados en los últimos armónicos, no porque 
el método sea muy malo o sea inestable, si no debido a que el modelo de aproximación seguía 
trabajando sobre zonas de la transformada de Fourier que son muy inestables y muy ruidosas 
donde por supuesto la labor de “fitting gaussiano” se complica muchísimo. Pero como se ve en 
la gráfica del centro a la derecha, en los armónicos tenidos en cuenta, el error en su energía 
estuvo alrededor del 4.5%. 
34 
3.4.2.1.2 Aporte al vector de características del 
clasificador 
Matlab al hacer la aproximación arrojaba 3 coeficientes por cada una de las 8 gaussianas que 
había utilizado para la aproximación de un solo armónico, estos coeficientes eran 3: ��
(amplitud de la gaussiana proporcional a la energía del formante), .� (apertura de la gaussiana: 
proporcional al rango de frecuencias vecinas del formante), y -� (la media o frecuencia central 
del formante). En el caso de las medias se calculó el promedio de las 8 del attack, se restó con el 
promedio de las ocho del sustain (del mismo formante) y se tomó valor absoluto de dicha 
diferencia, como una medida de desfase del formante durante esos dos periodos. En el caso de 
las aperturas de las gaussianas, se calcularon las desviaciones estándar de las 8 del attack y de 
las 8 del sustain y se hiso la división, al igual que con las amplitudes pero de nuevo calculando 
el promedio entre ellas. 
Es decir por cada audio teniendo en cuenta que se tomaban los 20 formantes más 
representativos del espectro, se obtenía una colección de 60 características para el vector de 
clasificación. 
3.4.3. Tercer Método: LPC 
(Linear Predictive Coding) 
3.4.3.1 Teórica básica del método 
LPC o Codificación por Predicción Lineal como su propio nombre lo indica es un método de 
predicción utilizado en el tratamiento de la voz más específicamente en síntesis y compresión 
de esta particular señal. Este método se basa en las siguientes suposiciones: 
-El proceso de producción de la voz en el aparato fonatorio se lleva a cabo a través de la unión 
de dos funciones importantes: La función de una fuente productora de una señal original (aire 
pasando por la glotis y cuerdas bucales) y la función de un sistema deformador de dicha señal 
(tracto vocal). 
- Se asume siempre que la señal de la voz es la salida de un sistema lineal e invariante en el 
tiempo, es decir que se puede hallar una representación de la misma convolucionando la 
respuesta impulso y la entrada al sistema 
LPC analiza la señal de la voz estimando frecuencias formantes, removiendo sus efectos de la 
señal y estimando la intensidad y frecuencia de la señal original producida en la glotis. Este 
proceso inverso de remover formantes se llama “filtrado inverso”, y las partes sobrantes de 
35 
señal son llamadas residuos las cuales comúnmente se guardan, junto con las formantes para 
lograr el proceso inverso (síntesis de la voz): Se usan los residuos para crear una señal fuente, y 
asimismo las formantes para crear un filtro (que caracteriza el tracto vocal). Esta señal 
interactúa con el filtro dando lugar a una representación de la señal de la voz. Debido a que la 
voz es una señal no estacionaria y varia con el tiempo este proceso se realiza por partes a través 
de una segmentación de la señal de 30 a 50 cuadros por segundo. 
3.4.3.2 Caracterización del método 
 Teniendo una señal muestreada S[n], se estima la k-èsima muestra de la señal, �̂ utilizando una 
combinación lineal de “0” muestras anteriores a la que se está calculando de la siguiente 
manera: 
 �̂ � ∑ �12� �34 5 67 (4) 
De esta forma se puede hablar de una expresión del error de predicción de la siguiente forma: 
�347 � �347 5 �̂347 � �347 5 ∑ �12� �34 5 67 (5) 
Si obtenemos la transformada Z de la señal discreta de error obtenemos la siguiente expresión: 
 8"9' � :"9' 5 ∑ �12� :"9'9 1 (6) 
Y factorizando el término :"9', obtenemos: 
 8"9' � :"9' 5 ;1 5 ∑ �12� 9 1= (7) 
Que da lugar a una expresión característica de un sistema discreto de entrada, salida y función 
de transferencia característica: 
 8"9' � :"9'>"9' (8) 
 ;1 5 ∑ �12� 9 1= � >"9' (9) 
Donde la función de transferencia >"9' representa un filtro todo-cero donde los coeficientes �1
, corresponden a ceros en el plano z del filtro. El número “0” hace referencia al orden del filtro 
y por esta razón entre más grande sea este entero mayor será el poder de predicción de este 
método. Comúnmente, en análisis de “speech” este número se toma con 10 o 20 ya que de esta 
forma se asegura un balance adecuado entre tiempo computacional y calidad de predicción. 
36 
Es importante recalcar la importancia que tiene la ubicación de los coeficientes adentro del 
círculo unitario centrado en el origen del plano z, para asegurar estabilidad del sistema y 
mejorar el nivel de error de predicción. 
3.4.3.3 Posibles debilidades del método 
LPC se usa frecuentemente en la transmisión de características de envolvente espectral. Por esta 
razón un sistema que implemente este método debe ser muy robusto en cuanto a transmisión se 
refiere. Ya que como previamentese analizó, LPC calcula coeficientes �6 que caracterizan la 
función de transferencia, la transmisión directa de estos coeficientes no es conveniente ya que 
este proceso los hace muy sensitivos a errores, estos errores pueden distorsionar por completo el 
espectro o peor aún hacer muy inestable el filtro de predicción.
3.4.3.4 Importancia Histórica del método 
 Aunque este método ha venido siendo reemplazado por otros más avanzados en el área de 
procesamiento del discurso humano como LAR (log Area Ratios), o LSP (line Spectrum Pairs) 
es una excelente herramienta para caracterizar el porcentaje de sonido sonoro (voiced Sound) 
que hay en grabaciones del habla a través de características en magnitud y fase del filtro, sin 
caer en limitantes considerables de proceso computacional. 
3.4.3.5 Lectura del método para la extracción 
de características 
La sección de LPC que brinda más información de los sonidos sonoros es la función de 
transferencia evaluada en frecuencias formantes encontradas, que caracterizan al filtro tanto en 
magnitud como en fase. 
-Otra forma de obtener información es en la energía de las frecuencias formantes con respecto la 
frecuencia fundamental o pitch. 
- Por último el error de predicción del filtro, más específicamente el espectro de los residuos, es 
una de las principales fuentes de información de este método. Si la desviación estándar de las 
amplitudes del espectro de residuo es pequeña quiere decir que gran cantidad de componentes 
del segmento de habla son sonidos sonoros, pero si por el contrario esta cantidad es grande 
quiere decir que la mayoría de sonidos presentes son sonidos sordos. 
37 
3.4.3.6. Aplicación a una grabación, como ejemplo, 
y prueba de precisión del método 
Luego de haber cubierto las principales características de este método, cuyo objetivo principal 
es simular el tracto vocal como una función de transferencia, se hará explícito a continuación un 
ejemplo de los resultados de procesamiento LPC en una de las grabaciones, pertenecientes a 
una voz emitiendo sonido con error de lengua. 
Se importó la señal al workspace de Matlab donde se aplicó el algoritmo LPC de predicción 
(cuyo código esta en los anexos), este arrojo los coeficientes �1 que minimizan el error de 
predicción y son los coeficientes del denominador de la función de transferencia que 
caracterizan el tracto vocal de la persona grabada en el archivo. Se hallaron las raíces de dicho 
polinomio que son los polos de esa función de transferencia. Los polos que estaban contenidos 
en el círculo unitario en el plano Z y que hacen estable al filtro se grafican a continuación: 
Figura 19. Polos de la función de transferencia de un filtro predictor luego de aplicarse el 
algoritmo LPC. 
Estos polos son las frecuencias formantes que se están activando durante la fonación de esta 
persona. Es por esto que es importante graficar la distribución espectral de potencia y la 
magnitud de la función de transferencia en estas frecuencias: 
38 
Figura 20. Función de transferencia LPC alrededor de formantes 
Figura 21. PSD alrededor de formantes 
Por lo que se puede observar, al igual que en la función de transferencia, las formantes, 
indicadas mediante líneas punteadas, aparecen como mínimos y máximos locales con 
distribuciones de energía inestables en las frecuencias formantes bajas y un poco más estable en 
las altas. Por supuesto estas dinámicas de energía alrededor de las frecuencias formantes se 
tuvieron en cuenta en la extracción de características de este método. 
39 
Por último es conveniente graficar el error de predicción junto con la señal reconstruida para 
tener un índice de la calidad del filtro que se construyó para la caracterización de dicha voz: 
Figura 22. Señal reconstruida luego de aplicar un filtro de orden 10 y hacer la predicción a 
través del método LPC. 
Figura 23. Señal original y señal reconstruida luego de aplicar un filtro de orden 10 y hacer la 
predicción a través del método LPC. 
40 
Las dos figuras anteriores demuestran la buena predicción que se obtuvo con LPC: La figura 22 
muestra es la diferencia o resta entre la señal original y su predicción hecha con LPC cuyo 
máximo no sobrepasa las 0.018 unidades, y está en la misma escala de amplitud de la figura 23. 
Es necesario aclarar que en la figura 23 aparecen la señal reconstruida y la original las cuales 
están desfasadas en una unidad para poder observarlas. Los visos rojos son partes de la señal 
reconstruida sobre la cual esta superpuesta la gráfica de la señal original. Esto da una idea de lo 
precisa que es esta herramienta en la caracterización de la voz cantada que es exactamente la 
que se está analizando. 
3.4.3.7. Aporte al vector de características del 
clasificador
-La ganancia en frecuencias formantes del filtro de aproximación y el nivel de desfase en esas 
mismas frecuencias. 
-El error promedio de predicción de la señal. 
41 
3.4.4. Cuarto Método: CEPSTRUM 
Esta es una de las transformadas más usadas en el procesamiento y obtención de información de 
la señal de voz de una persona. La palabra “Cepstrum”, viene de la palabra “Spectrum” o 
“espectro” (descomposición de una señal ondulatoria en el dominio frecuencial). Se hace este 
intercambio de letras en las primeras silabas debido a las características de este método de 
empezar caracterizando con una función, en el dominio del tiempo, el sistema de producción de 
la voz, pasar al dominio frecuencial aplicar ciertas propiedades matemáticas y volver al 
dominio del tiempo pero obteniendo distintos valores en los ejes de representación. 
Al igual que LPC, este método tiene la noción de separar la señal de excitación o señal original 
fuente (donde se encuentra información del tono y segmentación de palabras), de la función de 
transferencia (que caracteriza el tracto vocal de la persona), y de considerar el habla como la 
salida de un sistema LTI. Para considerar este método se debe tener presente que se debe 
incurrir en la aplicación del proceso de de-convolución. 
Como se analizó previamente, en el habla humana se identifican dos tipos de sonidos: Los 
“sonoros” y los “sordos” (voiced and Unvoiced Sounds). Los primeros hacen referencia a 
sonidos en los que el tracto vocal no imprime mayor resistencia mientras que en los segundos, 
agentes como la boca, la cavidad nasal, los labios, entre otros, ayudan a que se deformen 
considerablemente. 
3.4.4.1 Caracterización del Método: 
La forma matemática utilizada por el Cepstrum para caracterizar la separación del habla en dos 
partes separables para su análisis como sistema es la siguiente: 
?"@' � A B"C'D"@ 5 C'EC2
� (10) 
Donde h(t) representa la respuesta impulso del sistema (tracto vocal) , g(t) la señal producida 
por la glotis, y x(t) el habla como tal o la señal a la salida del sistema. 
El sistema anterior es una convolución en tiempo entre ?"@'y B"@', es decir que en frecuencia 
puede expresarse como una multiplicación de estas dos así: 
 �"F' � G"F'�"F' (11) 
Si se aplica valor absoluto, y posteriormente logaritmo a ambos lados de la ecuación para 
separar las dos partes obtenemos lo siguiente: 
42 
 HIB|�"F'| � HIB|G"F'| � HIB|�"F'| (12) 
Por ultimo aplicando transformada de Fourier a ambos lados de la ecuación se obtiene una 
expresión bastante interesante: 
 K � HIB|�"F'| � K � HIB|G"F'| � K � HIB|�"F'| (13) 
El eje horizontal es llamado “quefrency” y también está en unidades de tiempo. 
3.4.4.2 Lectura del método para extracción de 
características
-Las contribuciones al Cepstrum producidas por excitaciones periódicas ocurren en múltiplos 
enteros del periodo fundamental. 
- Luego de obtener el Cepstrum de una señal, uno de los procedimientos más utilizados para 
extraer información de sonidos sonoros en el segmento dehabla que se esté analizando, es el de 
análisis de periodicidad y densidad de energía en picos de este espectro que vayan apareciendo 
en las ventanas o cuadros de análisis de la señal. 
Para la extracción de información de sonidos sordos, se hace un análisis de las pendientes 
prolongadas que aparecen al comienzo de la gráfica Cepstrum de una señal de habla. 
3.4.4.3 Aporte al vector de características del 
clasificador 
-Relaciones entre los picos del attack y el sustain, generados en cada ventana de análisis de 5ms. 
-El promedio de las pendientes al inicio de cada representación Cepstrum del attack 
únicamente, de cada audio. 
43 
3.4.4.4 Aplicación del método a una grabación 
como ejemplo
Luego de importar la señal a Matlab se aplicó el algoritmo Cepstrum en varias ventanas de 5ms 
en las cuales se pueden apreciar las formantes que van apareciendo caracterizando los 
fragmentos de sonido sonoro en la señal, y los fragmentos de sonidos sordos caracterizados por 
la pendiente inicial que aparece en cada ventana. Las siguientes son algunas ventanas de análisis 
del Cepstrum aplicando a una voz masculina emitiendo sonido con error de apertura pequeña y 
constante de boca: 
Figura 24. Ventana Cepstrum 1 
Figura 25. Ventana Cepstrum 5 
44 
Figura 26. Ventana Cepstrum 23 
Figura 27. Ventana Cepstrum 44 
El registro de cambios significativos en cada ventana se va realizando de tal forma que la 
información detallada describa lo mejor posible el contenido de la señal. 
45 
3.4.5 Análisis en Tiempo-Frecuencia
3.4.5.1 Distribuciones de energía
Estas son sin duda de las herramientas más utilizadas en el análisis de señales no estacionarias 
tal como lo es la voz humana. Básicamente son herramientas útiles para saber en qué instantes 
de tiempo están apareciendo las frecuencias de una señal y con qué energía lo están haciendo. 
El objetivo de esta herramienta es distribuir la energía de la señal sobre las dos variables 
descriptivas: Tiempo y frecuencia. 
Como la energía de una señal ? se puede obtener a parte de la magnitud al cuadrado de la 
propia señal y o de su transformada de Fourier 
8L � A |?"@'|MNO
 O E@ � A |�"P'|MNO
 O EP (14) 
|?"@'|M y |�"P'|M se pueden interpretar como densidades de energía. Por lo tanto se puede 
hablar de una densidad de energía conjunta en tiempo y frecuencia QL"@, P' de la siguiente 
forma: 
 8L � A A QL"@, P'NO
 O
NO
 O E@ EP (15) 
Debido a que la energía es una función cuadrática, las distribuciones de tiempo frecuencia serán 
en general representaciones cuadráticas. 
Las siguientes dos propiedades marginales deben ser cumplidas también por una densidad de 
energía: 
A QL"@, P'NO
 O E@ � |�"P'|M (16) 
A QL"@, P'NO
 O EP � |?"@'|M (17) 
En otras palabras, esto quiere decir que si se integra la densidad de energía en tiempo-
frecuencia a lo largo de una variable, obtenemos la densidad de energía correspondiente a la otra 
variable. [13], [14], [15], [16], [17]. 
3.4.5.2. Quinto Método: Distribuciones de 
Tiempo-Frecuencia de Wigner Ville y Espectrograma 
Estas distribuciones hacen parte de la clase de distribuciones de Cohen, las cuales satisfacen las 
condiciones (15) y (16) y tienen algunas restricciones adicionales sobre QL en las cuales los 
principios de covarianza son de mucha importancia, tal y como se hace explícito en la 
referencias “Covariant by translations in time and in frecuency” [14]. 
Una distribución de tiempo-frecuencia de Wigner Ville se define como: 
46 
RL"@, P' � A ?"@ � C/2'NO
 O ?∗ V@ 5 W
MX � YMZ[WEC (18)
Que es equivalente a: 
RL"@, P' � A �"P � \/2'NO
 O �∗ VP 5 ]
MX � YMZ]^E\ (19)
Estas distribuciones satisfacen una gran cantidad de propiedades matemáticas convenientes 
[18]. En particular las distribuciones de Wigner Ville trabajan solo con valores reales, conservan 
desplazamientos en tiempo y frecuencia además de que satisfacen las propiedades marginales 
(16) y (17). 
 El espectrograma hace parte de la clase de distribuciones de Cohen ya que es cuadrática, es 
covariante con tiempo y frecuencia y conserva la energía (ecuación (15)). Sin embrago, tomar el 
cuadrado de la magnitud de una “descomposición atómica”, que es la clase de distribución de 
este método, es una característica restrictiva para hacer una representación cuadrática, ya que 
esta definición presenta el inconveniente de que las propiedades marginales (16) y (17) no se 
satisfacen. La teoría básica consultada de este método se extrajo de la siguiente referencia [17]. 
3.4.5.3. Utilidad al proyecto y aporte al vector de 
características
En este caso se utilizó le herramienta “spectrogram” de Matlab la cual retorna una matriz T: 
tiempo, otra f: frecuencia, una tercera S, con la información de energía. Teniendo esta 
información se aplicó la técnica “Filterbank” [20], comúnmente usada en la extracción de 
características del discurso humano e identificación de voces. Se utilizó para crear una especie 
de bancos de energía promedio en el ancho de banda más usado para cada error y en cada 
grabación. Básicamente se calculó el promedio de energía por grupos de 10 frecuencias vecinas 
(10 columnas para no hacer tan pesado el costo computacional) y así luego calcular la 
dispersión de energía en cada uno de estos grupos: 
Figura 28. Espectrograma de error de lengua masculino en F-T 
47 
Figura 29. Espectrograma de error de lengua masculino en 3D 
Cabe aclarar que en las anteriores graficas el eje de tiempo no está siendo en segundos si no en 
muestras de la señal siendo consistente con la relación (1). 
En el caso de las distribuciones de Wigner Ville se tomaron puntos medios entre picos sucesivos 
de la distribución en el attack y sustain de la señal (en la banda de frecuencias de mayor 
impacto) y así se hizo un promedio de las magnitudes de los gradientes que arrojaba Matlab en 
estos intervalos, con el fin de hacer un cálculo de desviación estándar de estas magnitudes y 
relacionarlas. 
48 
49 
Capítulo 4 
Entrenamiento del algoritmo 
Clasificador 
Este capítulo hace explicito todo el proceso de entrenamiento de los algoritmos tomados en 
cuenta para este estudio. Primero se darán unas bases teóricas de la forma en la que se tratan los 
problemas de clasificación en este tipo de algoritmo, luego se darán especificaciones de las 
dimensiones de los datos y otras decisiones tomadas sobre los mismos para tratar de llevar el 
porcentaje de error de clasificación a un nivel bajo. Por último se hacen explícitos los mejores 
resultados obtenidos en los entrenamientos más representativos de los algoritmos con los datos. 
 4.1. Teoría básica de algoritmos de 
clasificación 
 En todos los algoritmos de clasificación se debe tener siempre claro el número y el tipo de 
clases en las que se quiere separar los datos, la mayoría de problemas solo presentan división 
binaria es decir casos en los que el clasificador debe decir si el dato pertenece a una de solo dos 
clases. Pero existen problemas de mayor complejidad en los que el algoritmo debe decidir si el 
dato pertenece a una de más de 2 clases como en este caso, ya que se trabajara con cinco clases. 
Los datos de entrada al algoritmo son vectores de cierta dimensión. Esta dimensión viene dada 
por la cantidad de características que se ha decidido explotar del fenómeno que se está 
estudiando. En este estudio, la dimensión de los datos estará dada por todas las técnicas de 
procesamiento de señal de voz cantada cubiertas en el capítulo 3. Cada técnica puede aportar 
una o más dimensiones a cada vector. Es por esto que en una de las subsecciones de este 
capítulo se hace explicito el vector de características para saber la dimensión del mismo y que 
componentes pertenecen a cada técnicavista en el capítulo anterior. 
Luego de tener los datos etiquetados, y convertidos en vectores, se toman datos al azar para 
formar dos grupos: El conjunto de datos de entrenamiento y El conjunto de datos de prueba. 
El primer conjunto está destinado para sea utilizado por el algoritmo, y este pueda proponer un 
clasificador en la dimensión de los datos, mientras que el segundo está destinado para validar o 
calcular el error de clasificación ofrecido por ese clasificador. 
Dependiendo del algoritmo que se esté aplicando, se usan métodos avanzados de optimización 
distintos sobre los datos de prueba para entrenarse, es de decir para sugerir un modelo de que va 
cambiando hasta encontrar uno que minimiza el error de clasificación, aquí es donde finalmente 
50 
propone un clasificador en la dimensión de los datos. Por ejemplo en el caso de dos dimensiones 
el clasificador puede ser una recta, una parábola, una hipérbole mientras que para tres 
dimensiones puede ser un plano y para más dimensiones un hiperplano, dependiendo de la 
ubicación de los datos en la dimensión de los mismos y de que tan complicado sea separarlos. 
Los siguientes son ejemplos de dos algoritmos distintos de clasificación aplicados a dos 
conjuntos de datos generados artificialmente con Matlab, los cuales siguen distribuciones 
gaussianas distintas: 
Figura 30. Red neuronal de una capa y una neurona separando dos conjuntos de datos 
generados en Matlab, los cuales siguen distribuciones gaussianas distintas. 
Figura 31. Clasificador cuadrático óptimo de Bayes separando dos conjuntos de datos 
generados en Matlab, los cuales siguen distribuciones gaussianas distintas. 
51 
Como se puede apreciar, en el primer caso la clasificación de bastante buena y relativamente 
fácil para cualquier algoritmo clasificador aparentemente debido a que el vector de medias de la 
distribución de datos rojos como de azules son están bastaste alejados entre sí (medias_azul= 
[0.30746, 0.490829], medias_rojo= [3.36934, 2.141]). 
En el segundo caso debido a que las medias de las dos distribución no están tan alejadas entre sí 
(medias_azul = [0.324776, 0.469763], medias_rojo = [1.48357, 1.95307]) , la 
clasificación se torna un poco más complicada y es por esto que el clasificador propuesto por el 
algoritmo es cuadrático. 
 4.2. Vector de características y división de 
los datos 
En este estudio la dimensión de los datos es mucho mayor que en el ejemplo por esta razón no 
se puedo graficar los clasificadores y se aplicaron otros métodos que utilizan algoritmos más 
poderosos de optimización en el auto-entrenamiento.
Un dato en este estudio será un vector de características obtenido del procesamiento a un audio 
extraído de cada escala cantada por los cantantes, tal y como se vio en el capítulo 2. 
Luego de recolectar los datos con todas las herramientas de análisis se obtuvo un conjunto de 
6012 datos, de lo cuales 5000 se destinaron para entrenamiento y 1012 para prueba. El vector 
de características es decir la forma de cada dato de entrada al algoritmo quedo de la siguiente 
forma: 
Figura 32. Vector de características resultante de cada audio. 
Aunque esta fue la estructura de los datos originalmente, como se verá más adelante, se cambió 
para mejorar el error 
. 
 4.3. Primer clasificador implementado 
 El primer clasificador implementado fue un “Estimador de mínima distancia”[9], aplicando 
matrices de covarianza media sobre todas las clases, hallando las distancias mínimas de 
Mahalanobis[9] de cada clase para cada vector de características y por ultimo hallando la matriz 
de confusión. 
52 
 4.3.1. Metodología aplicada en el primer 
clasificador 
La etiquetación de cada uno de los datos (vector de características) para la identificación de los 
mismos por parte del algoritmo entrenador, se realizó de la siguiente forma: 
Clase Etiqueta 
Técnica Adecuada 1 
Error de apertura de boca 2 
Error lengua 3 
Canto Nasal 4 
Canto Garganta 5
Tabla 1. Etiquetado de cada vector de características 
4.3.2. Inconvenientes en número de datos y 
errores
Debido a que en un comienzo los porcentajes de precisión de clasificación correcta 
(probabilidad de que se tome cualquier dato al azar y se clasifique adecuadamente por el 
algoritmo clasificador) eran bastante pequeños, del orden de 0.25%, se decidió ampliar el 
conjunto de datos de prueba y entrenamiento así: Aplicar un algoritmo que dividiera el 
segmento de cada audio entre el attack y el sustain en dos segmentos iguales. Es decir, se 
obtuvo un conjunto de datos casi duplicado (11946 datos). 
Como estos datos necesitaban de la información del attack de la grabación a la que pertenecían 
para realizar el procesamiento completo especificado anteriormente, simplemente se 
mantendrían igual para los dos, ya que en cierta forma son datos que provienen del mismo 
cantante o de la misma fuente de distribución de información. 
4.3.3. Resultados en el conjunto de datos de 
prueba
Luego de aumentar considerablemente el tamaño del conjunto de datos, el número de épocas 
(pasadas sobre los datos), y los límites de error de los ciclos condicionales programados para los 
cuales el algoritmo podía parar de trabajar, se obtuvo los siguientes porcentajes de error: 
53 
Tabla 2. Resultados de clasificación 
Como se puede apreciar, el mejor porcentaje de clasificación obtenido sobre los datos de 
prueba fue de 0.675%, lo cual fue bastante malo pero no significo una limitante para el siguiente 
clasificador basado en SVM, como se verá a continuación. 
4.4. Entrenamiento de una máquina de soporte 
vectorial como segundo clasificador 
Se utilizó el algoritmo de clasificación multiclase “uno contra todos” [8][21] de SVM [22][23] 
[24], variando el número de validaciones cruzadas y otros parámetros importantes dependiendo 
del entrenamiento que se llevara a cabo. La etiquetación de cada dato en este caso se hacía de la 
siguiente forma: 
Tabla 3. Etiquetación de cada vector de características para entrenar con el algoritmo “uno 
contra todos” de SVM. 
Dato con error de: Etiqueta 
Técnica Adecuada 1 -1 -1 -1 -1 
Apertura de boca -1 1 -1 -1 -1 
Lengua -1 -1 1 -1 -1 
Canto Nasal -1 -1 -1 1 -1 
Canto Garganta -1 -1 -1 -1 1 
54 
Luego de llevar a cabo esta etiquetación sobre todos los datos manteniendo el conjunto de datos 
casi duplicado como se hizo con el anterior clasificador, se procedió a hacer los respectivos 
entrenamientos. 
4.4.1. Metodologías y sus resultados 
En la clasificación con SVM se utilizó el algoritmo Multiclase [25] ya implementado en la 
librería de libre acceso de objetos para SVM de Matlab: “The Spider” [26]. 
4.4.1.1. Primer entrenamiento 
En esta modalidad se tomó el 80% de datos para entrenamiento y el 20% restante como datos 
de prueba, e mantuvo. La siguiente tabla hace explícitos los resultados obtenidos y los 
parámetros tenidos en cuenta en cada entrenamiento (cabe aclarar que cada casilla del error 
total obtenido es hace referencia al error en el conjunto de datos de entrenamiento y se obtenía 
haciendo el promedio sobre los resultados de las validaciones cruzadas): 
Parámetro 1trai
n 
2 train 3 train 4 train 
# Validaciones 
cruzadas 
15 19 16 19 
C 1000 500 100 10 
Kernel Poly Poly Gau Poly 
%Error de 
clasificación 
78.50 66.53 70.46 61.40 
Tabla 4. Resultados obtenidos aplicando SVM- multiclass 
Parámetro 5trai
n
6 train 7 train 8 train 
# Validaciones 
cruzadas
19 18 18 19 
C 5 1 0,5 0.1 
Kernel Poly Poly Gau Poly
%Error de 
clasificación
57.77 57.53 58.25 58.02 
Tabla 4. Resultados obtenidos aplicando SVM- multiclass 
Donde “C” es la constante de penalización del error del algoritmo de clasificación en el caso no 
separable de SVM. “Poly” y “Gau” hacen referencia a los kernels polinomial y gaussiano 
utilizados en la clasificación por SMV. 
Notablemente el nivel de predicción fue bastante malo en esta ronda de entrenamientos por tal 
razón antes que incurrir en tiempos grandes de

Continuar navegando