Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
RECONOCIMIENTO AUTOMATICO DE LA EMOCIONES EN EL HABLA INTRODUCCION El reconocimiento automático de la emoción a través del habla es un tema de investigación muy importante porque permite mejorar la interacción entre el humano y la computadora a través de la detección automática de emociones por medio del habla. 2 A través del habla se expresa implícitamente el estado emocional de una persona por medio de características relevantes de la voz como la energía, la frecuencia del tono, los coeficientes de predicción lineal (LPC), predicción lineal de los coeficientes cepstrales (LPCC), Coeficientes Cepstrales de Frecuencia Mel (MFCC) y coeficientes dinámicos del espectro de energía de mel (MEDC) 3 Un sistemas de reconocimiento automático de emoción del habla es distinto a un sistemas de reconocimiento automático del habla porque no trata de identificar qué se dice sino cómo se lo dice. Ejemplos de usos: -sistema del tablero del coche donde la información del estado mental del conductor proporcionó quizá para iniciar su seguridad. -En el centro de llamadas remoto automático, se utiliza para detectar a tiempo la insatisfacción de los clientes. -En el campo de E-learning (capacitación, formación y educación a través de internet), identificar a los estudiantes "emoción oportuna y hacer el tratamiento adecuado puede mejorar la calidad de la enseñanza. 4 DESARROLLO BASE DE DATOS DEL HABLA Para el entrenamiento y testeo del sistema se usaran dos bases de datos referidos al habla emocional de las personas, una corresponde a una base de datos alemana de berlin y la otra corresponde a una base de datos china. La base de datos de Berlín contenía 406 muestras de voz para cinco clases de emoción de las cuales se elegen tres; tristeza 62 muestras, felicidad 71 muestras, neutra 79 muestras. La base de datos china contiene 1500 muestras de voz para las tres clases de emociones mencionadas, 500 para cada una. 5 SISTEMA DE RECONOCIMIENTO DE LA EMOCION DEL HABLA el objetivo es reconocer el estado emocional identificando ciertos características que contienen información emocional de la voz y ayuden a concluir en cierta emocion. El sistema de reconocimiento emocional se compones de cuatro modulos principales: entrada de voz, extracción de características, clasificación basada en SVM y salida de emoción. 6 7 EXTRACCION DE CARACTERISTICAS Se usaran las características mas relevantes de la voz las cuales son la energía, el tono de la voz, Coeficientes Cepstrales en las Frecuencias de Mel (MFCC) y coeficientes dinámicos del espectro de energía de mel (MEDC), predicción lineal de los coeficiente cepstrales (LPCC). ENERGIA se utiliza la función a corto plazo para extraer el valor de la energía en cada cuadro de voz y asi obtener datos estadísticos en cada muestra calculando así el valor medio, valor máximo, varianza, rango de variación, contorno de energía. 8 TONO Tiene información sobre la emoción, ya que depende de la tensión de los pliegues vocales y la presión subglotica del aire, por lo que el valor medio de tono, varianza, rango de variación y el contorno es diferente en estados emocionales básicos. La tonalidad de la voz cambia conforme a estado emocional por ejemplo: – alegría: tono alto – tristeza: tono grave 9 PREDICCION LINEAL DE LOS COEFICIENTES DE CEPSTRALES (LPCC) Los coeficientes cepstrales (LPCC) se obtienen a partir de los Coeficientes de Predicción Lineal (LPC) 10 COEFICIENTES DE PREDICCION LINEAL (LPC) La señal de la voz s[n] se puede calcular en función de P muestras anteriores s[n-1], s[n-2], …, s[n-P] donde f es una función lineal 11 Despejando, la voz puede modelarse como una combinación lineal de P muestras anteriores más una señal de error. 12 Coeficientes de predicción lineal: Son aquellos que minimizan el error cuadrático medio de predicción (la energía del error de predicción). 13 PREDICCION LINEAL DE LOS COEFICIENTES CEPSTRALES (LPCC) Los coeficientes cepstrales LPCC incorpora las características de un canal particular de habla, y con diferente discurso emocional tendrá diferentes características de canal, por lo que podemos extraer estos coeficientes característica para identificar las emociones contenidas en el habla. 14 Los coeficientes de predicción lineal LPC son necesarios para el cálculo de los coeficientes cepstrales LPCC mediante la ecuación. Se observa como los coeficientes de predicción lineal que modelan la señal de voz pueden ser utilizadas para estimar los coeficientes cepstrales para el reconocimientos en el habla. 15 COEFICIENTES CEPSTRALES DE FRECUENCIA DE MEL (MFCC) En las escalas de las frecuencias de mell es un coeficiente de la representación del habla basado en la percepción auditiva humana que posee buena capacidad de la distinción, anti ruido. MFCC se calculan comúnmente de la siguiente forma. 16 COEFICIENTES DINAMICOS DE ESPECTROS DE ENERGIA DE MEL (MEDC) El proceso de obtención de MEDC es idéntico que al MFCC. Con la diferencia en que aquí se toma la media logarítmica de las energías después del banco de filtros y envoltura de frecuencias a partir de eso se calcula la primera y la segunda diferencia sobre esta característica 17 EXPERIMENTO Y RESULTADOS El rendimiento del sistema de reconocimiento de la emoción del habla es influenciado por muchos factores, especialmente la calidad de las muestras de voz, las características extraídas y el algoritmo de clasificación. 18 ALGORITMO DE CLASIFICASION: SVM Debido a que SVM es un algoritmo de aprendizaje de supervisado simple, eficiente, y muy utilizado en el reconocimiento de patrones y problemas de clasificación, y con datos limitados, puede tener un rendimiento de clasificación muy buena en comparación con otros clasificadores. 19 MODELOS DE ENTRENAMIENTOS Con las características mas relevantes de la voz para la detección de emoción se arman distintos modelos de entrenamiento y se analiza la exactitud de reconocimiento. Tabla 1 combinaciones diferentes de parámetros 20 MODELO DE ENTRENAMIENTO COMBINACION DE PARAMETROS Modelo 1 Energía + Tono Modelo 2 MFCC + MEDC Modelo 3 MFCC + MEDC + LPCC Modelo 4 MFCC + MEDC + Energia Modelo 5 MFCC + MEDC + Energia + Tono RESULTADOS EXPERIMENTALES Para cada modelo, se divide el conjunto de muestras en dos subconjuntos, entrenamiento y pruebas. El subconjunto de entrenamiento es del 90%, y el 10% como el subconjunto de la prueba. 21 Tabla 2 muestra los modelos "tasa de validación cruzada y tasa de reconocimiento basada en la base de datos de Berlin Emotion. 22 MODELO DE ENTRENAMIENTO COMBINACION DE CARACTERISTICAS TASA DE VALIDACION CRUZADA TASA DE RECONOCIMIENTO Modelo 1 Energía + Tono 66,6667% 33,3333% Modelo 2 MFCC + MEDC 90,1538% 86,6667% Modelo 3 MFCC + MEDC + LPCC 72,5275% 86,6667% Modelo 4 MFCC + MEDC + Energia 95,0549% 91,3043% Modelo 5 MFCC + MEDC + Energia + Tono 94,5055% 90% La Tabla 3 muestra los modelos "tasa de validación cruzada y tasa de reconocimiento basada en la Base de Datos Chino SJTU. Se observan distintos valores en la tasa de validación cruzada y de reconocimiento dependiendo del modelo que se trate. 23 MODELO DE ENTRENAMIENTO COMBINACION DE CARACTERISTICAS TASA DE VALIDACION CRUZADA TASA DE RECONOCIMIENTO Modelo 2 MFCC + MEDC 88,6168% 80,4763% Modelo 4 MFCC + MEDC + Energía 95,1852% 95,0874% Base de datos de Berlín El modelo 1 tiene los más bajos resultados de desempeño , al usar la energía y el tono, esto puede deberse a que son simples rasgos prosódicos con poco número de dimensiones. La tasa de exactitud para la combinación de características de MFCC y MEDC (modelo 2) es mayor en comparación con Model1. Reconoce mejor tres estados emocionales estándar. Al añadir la característica LPCC (modelo 3), el rendimientodel modelo se reduce lo que puede resultar de la redundancia característica. El modelo 4 es el optimo(MFCC + MEDC + Energy), su tasa de validación cruzada es casi del 95% para el reconocimiento. La razón es que contiene características prosódicas y de espectro, y aportan características emocionales. 24 En la base de datos china, la combinación de funciones de MFCC + MEDC + Energy (modelo 4) tiene el mejor rendimiento. La tasa de validación cruzada y la tasa de precisión son casi del 95%, mejor que en la base de datos alemana, lo que significa que la característica de la energía desempeña un papel importante en el reconocimiento del habla china. 25 CONCLUSIONES Y TRABAJOS FUTUROS Para diferentes combinaciones de características emocionales se obtienen distintas tasas de reconocimiento emocional, y la sensibilidad de estas características en diferentes lenguas varia. se debe ajustar las características a tales situaciones. 26 El porcentaje de reconocimiento de emociones del sistema, que sólo utiliza las características del espectro del habla, es ligeramente superior al que sólo utiliza las características prosódicas del habla. Y el sistema que utiliza las características tanto espectrales como prosódicas es mejor que el que sólo usa las características del espectro o prosódicas. Mientras tanto, el porcentaje de reconocimiento del que usa la energía, el tono, las características LPCC MFCC y MEDC es ligeramente inferior al que sólo utiliza la energía, el tono MFCC y las características MEDC. Esto puede ser debido por la redundancia de la característica. Extraer las características más relevantes del habla y mejorar la precisión del reconocimiento emocional es nuestro trabajo futuro. Se necesita más trabajo para mejorar el sistema para que pueda usarse mejor en el reconocimiento de emociones en el habla en tiempo real. 27 CONCLUSIONES PROPIAS DEL GRUPO Si bien como clasificador se utiliza SVM debido a su simplicidad y eficiencia no implica que se trate del mejor método debido a que podrían modificarse las proporciones de entrenamiento y prueba para poder optimizar el clasificado de dicho método, además de que podrían aplicarse otros métodos como redes neuronales (RN) o clasificador bayesiano de máxima verosimilitud (MLC) los cuales ajustando sus determinados parámetros se pueden obtener el mejor rendimiento de clasificación o aplicar ensamble de predictores. Cabe destacar que es recomendable usar una base de datos más genérica que involucre muestras de voz de distintas regiones ya que cada uno tiene distintas características en su forma de hablar por lo cual haría que el sistema sea más genérico ante cualquier tipo de voz. 28 29 MUCHAS GRACIAS..! PREGUNTAS..? 30
Compartir