Logo Studenta

IAC2017_PF_GRUPO_4

¡Este material tiene más páginas!

Vista previa del material en texto

RECONOCIMIENTO AUTOMATICO DE LA EMOCIONES EN EL HABLA
INTRODUCCION
 El reconocimiento automático de la emoción a través del habla es un tema de investigación muy importante porque permite mejorar la interacción entre el humano y la computadora a través de la detección automática de emociones por medio del habla.
2
A través del habla se expresa implícitamente el estado emocional de una persona por medio de características relevantes de la voz como la energía, la frecuencia del tono, los coeficientes de predicción lineal (LPC), predicción lineal de los coeficientes cepstrales (LPCC), Coeficientes Cepstrales de Frecuencia Mel (MFCC) y coeficientes dinámicos del espectro de energía de mel (MEDC)
3
Un sistemas de reconocimiento automático de emoción del habla es distinto a un sistemas de reconocimiento automático del habla porque no trata de identificar qué se dice sino cómo se lo dice.
 
Ejemplos de usos:
 -sistema del tablero del coche donde la información del estado mental del conductor proporcionó quizá para iniciar su seguridad. 
 -En el centro de llamadas remoto automático, se utiliza para detectar a tiempo la insatisfacción de los clientes. 
 -En el campo de E-learning  (capacitación, formación y educación a través de internet), identificar a los estudiantes "emoción oportuna y hacer el tratamiento adecuado puede mejorar la calidad de la enseñanza. 
4
DESARROLLO
BASE DE DATOS DEL HABLA
Para el entrenamiento y testeo del sistema se usaran dos bases de datos referidos al habla emocional de las personas, una corresponde a una base de datos alemana de berlin y la otra corresponde a una base de datos china.
 La base de datos de Berlín contenía 406 muestras de voz para cinco clases de emoción de las cuales se elegen tres; tristeza 62 muestras, felicidad 71 muestras, neutra 79 muestras. 
La base de datos china contiene 1500 muestras de voz para las tres clases de emociones mencionadas, 500 para cada una.
5
SISTEMA DE RECONOCIMIENTO DE LA EMOCION DEL HABLA
el objetivo es reconocer el estado emocional identificando ciertos características que contienen información emocional de la voz y ayuden a concluir en cierta emocion.
 
El sistema de reconocimiento emocional se compones de cuatro modulos principales: entrada de voz, extracción de características, clasificación basada en SVM y salida de emoción.
6
7
EXTRACCION DE CARACTERISTICAS
 Se usaran las características mas relevantes de la voz las cuales son la energía, el tono de la voz, Coeficientes Cepstrales en las Frecuencias de Mel (MFCC) y coeficientes dinámicos del espectro de energía de mel (MEDC), predicción lineal de los coeficiente cepstrales (LPCC).
 
ENERGIA
se utiliza la función a corto plazo para extraer el valor de la energía en cada cuadro de voz y asi obtener datos estadísticos en cada muestra calculando así el valor medio, valor máximo, varianza, rango de variación, contorno de energía.
8
TONO
Tiene información sobre la emoción, ya que depende de la tensión de los pliegues vocales y la presión subglotica del aire, por lo que el valor medio de tono, varianza, rango de variación y el contorno es diferente en estados emocionales básicos. La tonalidad de la voz cambia conforme a estado emocional por ejemplo:
	– alegría: tono alto
	– tristeza: tono grave 
9
PREDICCION LINEAL DE LOS COEFICIENTES DE CEPSTRALES (LPCC)
Los coeficientes cepstrales (LPCC) se obtienen a partir de los Coeficientes de Predicción Lineal (LPC)
10
COEFICIENTES DE PREDICCION LINEAL (LPC) 
La señal de la voz s[n] se puede calcular en función de P muestras anteriores s[n-1], s[n-2], …, s[n-P] 
 
donde f es una función lineal
11
Despejando, la voz puede modelarse como una combinación lineal de P muestras anteriores más una señal de error.
12
Coeficientes de predicción lineal: Son aquellos que minimizan el error cuadrático medio de predicción (la energía del error de predicción).
13
PREDICCION LINEAL DE LOS COEFICIENTES CEPSTRALES (LPCC)
 Los coeficientes cepstrales LPCC incorpora las características de un canal particular de habla, y con diferente discurso emocional tendrá diferentes características de canal, por lo que podemos extraer estos coeficientes característica para identificar las emociones contenidas en el habla.
14
Los coeficientes de predicción lineal LPC son necesarios para el cálculo de los coeficientes cepstrales LPCC mediante la ecuación.
Se observa como los coeficientes de predicción lineal que modelan la señal de voz pueden ser utilizadas para estimar los coeficientes cepstrales para el reconocimientos en el habla.
15
COEFICIENTES CEPSTRALES DE FRECUENCIA DE MEL (MFCC)
En las escalas de las frecuencias de mell es un coeficiente de la representación del habla basado en la percepción auditiva humana que posee buena capacidad de la distinción, anti ruido. MFCC se calculan comúnmente de la siguiente forma.
16
COEFICIENTES DINAMICOS DE ESPECTROS DE ENERGIA DE MEL (MEDC)
El proceso de obtención de MEDC es idéntico que al MFCC. Con la diferencia en que aquí se toma la media logarítmica de las energías después del banco de filtros y envoltura de frecuencias a partir de eso se calcula la primera y la segunda diferencia sobre esta característica
17
EXPERIMENTO Y RESULTADOS
El rendimiento del sistema de reconocimiento de la emoción del habla es influenciado por muchos factores, especialmente la calidad de las muestras de voz, las características extraídas y el algoritmo de clasificación. 
18
ALGORITMO DE CLASIFICASION: SVM
Debido a que SVM es un algoritmo de aprendizaje de supervisado simple, eficiente, y muy utilizado en el reconocimiento de patrones y problemas de clasificación, y con datos limitados, puede tener un rendimiento de clasificación muy buena en comparación con otros clasificadores. 
19
 MODELOS DE ENTRENAMIENTOS
Con las características mas relevantes de la voz para la detección de emoción se arman distintos modelos de entrenamiento y se analiza la exactitud de reconocimiento.
 
 Tabla 1 combinaciones diferentes de parámetros
20
	MODELO DE 
ENTRENAMIENTO	COMBINACION DE PARAMETROS
	Modelo 1	Energía + Tono 
	Modelo 2	MFCC + MEDC
	Modelo 3 	MFCC + MEDC + LPCC
	Modelo 4	MFCC + MEDC + Energia
	Modelo 5	MFCC + MEDC + Energia + Tono
RESULTADOS EXPERIMENTALES
 Para cada modelo, se divide el conjunto de muestras en dos subconjuntos, entrenamiento y pruebas. El subconjunto de entrenamiento es del 90%, y el 10% como el subconjunto de la prueba.
21
Tabla 2 muestra los modelos "tasa de validación cruzada y tasa de reconocimiento basada en la base de datos de Berlin Emotion.
22
	MODELO DE 
ENTRENAMIENTO	 COMBINACION
 DE 
 CARACTERISTICAS	TASA DE VALIDACION CRUZADA	TASA DE RECONOCIMIENTO
	Modelo 1	Energía + Tono 	66,6667%	33,3333%
	Modelo 2	MFCC + MEDC	90,1538%	86,6667%
	Modelo 3 	MFCC + MEDC + LPCC	72,5275%	86,6667%
	Modelo 4	MFCC + MEDC + Energia	95,0549%	91,3043%
	Modelo 5	MFCC + MEDC + Energia + Tono	94,5055%	90%
La Tabla 3 muestra los modelos "tasa de validación cruzada y tasa de reconocimiento basada en la Base de Datos Chino SJTU.
Se observan distintos valores en la tasa de validación cruzada y de reconocimiento dependiendo del modelo que se trate.
23
	MODELO DE 
ENTRENAMIENTO	 COMBINACION
 DE 
 CARACTERISTICAS 	TASA DE VALIDACION CRUZADA	TASA DE RECONOCIMIENTO
	Modelo 2	MFCC + MEDC	88,6168%	80,4763%
	Modelo 4	MFCC + MEDC + Energía	95,1852%	95,0874%
Base de datos de Berlín 
El modelo 1 tiene los más bajos resultados de desempeño , al usar la energía y el tono, esto puede deberse a que son simples rasgos prosódicos con poco número de dimensiones.
 
La tasa de exactitud para la combinación de características de MFCC y MEDC (modelo 2) es mayor en comparación con Model1. Reconoce mejor tres estados emocionales estándar.
 
Al añadir la característica LPCC (modelo 3), el rendimientodel modelo se reduce lo que puede resultar de la redundancia característica. 
 
El modelo 4 es el optimo(MFCC + MEDC + Energy), su tasa de validación cruzada es casi del 95% para el reconocimiento. La razón es que contiene características prosódicas y de espectro, y aportan características emocionales.
24
 
En la base de datos china, la combinación de funciones de MFCC + MEDC + Energy (modelo 4) tiene el mejor rendimiento. La tasa de validación cruzada y la tasa de precisión son casi del 95%, mejor que en la base de datos alemana, lo que significa que la característica de la energía desempeña un papel importante en el reconocimiento del habla china.
25
 CONCLUSIONES Y TRABAJOS FUTUROS
 
Para diferentes combinaciones de características emocionales se obtienen distintas tasas de reconocimiento emocional, y la sensibilidad de estas características en diferentes lenguas varia. se debe ajustar las características a tales situaciones.
 
26
El porcentaje de reconocimiento de emociones del sistema, que sólo utiliza las características del espectro del habla, es ligeramente superior al que sólo utiliza las características prosódicas del habla. Y el sistema que utiliza las características tanto espectrales como prosódicas es mejor que el que sólo usa las características del espectro o prosódicas. Mientras tanto, el porcentaje de reconocimiento del que usa la energía, el tono, las características LPCC MFCC y MEDC es ligeramente inferior al que sólo utiliza la energía, el tono MFCC y las características MEDC. Esto puede ser debido por la redundancia de la característica.
 
Extraer las características más relevantes del habla y mejorar la precisión del reconocimiento emocional es nuestro trabajo futuro. Se necesita más trabajo para mejorar el sistema para que pueda usarse mejor en el reconocimiento de emociones en el habla en tiempo real.
27
 CONCLUSIONES PROPIAS DEL GRUPO
 
Si bien como clasificador se utiliza SVM debido a su simplicidad y eficiencia no implica que se trate del mejor método debido a que podrían modificarse las proporciones de entrenamiento y prueba para poder optimizar el clasificado de dicho método, además de que podrían aplicarse otros métodos como redes neuronales (RN) o clasificador bayesiano de máxima verosimilitud (MLC) los cuales ajustando sus determinados parámetros se pueden obtener el mejor rendimiento de clasificación o aplicar ensamble de predictores.
 
Cabe destacar que es recomendable usar una base de datos más genérica que involucre muestras de voz de distintas regiones ya que cada uno tiene distintas características en su forma de hablar por lo cual haría que el sistema sea más genérico ante cualquier tipo de voz.
28
29
MUCHAS GRACIAS..!
PREGUNTAS..?
30

Continuar navegando