Logo Studenta

Reconocimiento de emociones en el habla usado SVM

¡Estudia con miles de materiales!

Vista previa del material en texto

Reconocimiento de emociones en el habla usado SVM
Yixiong Pan, Peipei Shen and Liping Shen
Departamento de Informática
Shanghai JiaoTong University, Shanghai, China
Resumen
El reconocimiento de emociones en el habla (Speech Emotion Recognition, SER) es un tema de investigación apasionante en el ámbito de la interacción entre computadoras y humanos (Human Computer Interaction, HCI). En este paper, reconocemos tres estados emocionales: feliz, triste y neutral. Las características exploradas incluyen: energía, tono, coeficientes espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), coeficientes cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, MFCC) y coeficientes dinámicos del espectro de energía de mel (Mel-Energy Spectrum Dynamic Coefficients, MEDC). Una base de datos en Berlín de discursos emocionales y nuestras bases de datos emocionales chinas se utilizan para entrenar el clasificador SVM. Finalmente se comparan y explican los resultados para las diferentes combinaciones de las características y en diferentes bases de datos. Los resultados experimentales globales revelan que la combinación de características MFCC + MEDC + Energía tiene la mayor tasa de exactitud tanto en la base de datos china (91,3%) como en la base de datos de Berlin (95,1%).
Palabras claves: Emociones en el habla; Reconocimiento automático de emociones; SVM; Energía; Tono; LPCC; MFCC; MEDC
1. Introducción
El reconocimiento automático de emociones en el habla es un tema de investigación muy activo en el ámbito de la interacción entre computadoras y humanos (Human Computer Interaction, HCI) y tiene una amplia gama de aplicaciones. Se puede utilizar en el tablero de los automóviles donde la información del estado mental del conductor puede ser proporcionada para iniciar su seguridad. En los call center, para detectar a tiempo la insatisfacción de los clientes. En el campo del E-learning (capacitación, formación y educación a través de internet), la identificación oportuna de la motivación de los estudiantes y el tratamiento adecuado pueden mejorar la calidad de la enseñanza. Hoy en día, en el E-learning los maestros y los estudiantes suelen estar separados en espacio y tiempo, lo que puede conducir a la falta de intercambio de emociones. Y el profesor no puede ajustar su método de enseñanza y su contenido de acuerdo a la motivación de los alumnos. Por ejemplo, cuando hay una discusión en grupo en línea, si los estudiantes están interesados ​​en la discusión, serán activos y mostrarán su emoción positiva. Por el contrario, si les angustia o no están interesados ​​en ella, mostrarán la emoción opuesta. Si detectamos la información de las emociones y damos una retroalimentación útil al docente, esto ayudará al docente a ajustar el plan de enseñanza y a aumentar la eficiencia del aprendizaje.
En los últimos años, se ha realizado una gran cantidad de investigaciones para reconocer la emoción del humano usando la información del habla. Muchas bases de datos de voz se construyen en la investigación de emociones en el habla, tales como BDES (Berlin Database of Emotional Speech, base de datos de Berlín de discursos emocionales) que fué fundada por el departamento de tecnología acústica de la Universidad Técnica de Berlín [1] (lo explicaremos más en la sección 2), DES (Danish Emotional Speech, discurso emocional danés) es un conjunto de discursos daneses establecido por la Universidad de Aalborg, Dinamarca [2]. Los datos son oraciones y palabras que se encuentran entre dos segmentos silenciosos. Por ejemplo “Nej”(No), “Ja(Sí), “Kommeddig” (Ven conmigo!). La cantidad total de datos son 500 segmentos de habla (sin interrupciones de silencio), que son expresados por cuatro actores profesionales, dos hombres y dos mujeres. El habla o discurso es expresado en 5 estados emocionales, tales como ira, felicidad, neutral, tristeza y sorpresa.
Muchos investigadores han propuesto características importantes que contienen información acerca de la emoción en el habla, tales como la energía, la frecuencia del tono [2], la frecuencia de formantes (un formante es el pico de intensidad en el espectro de un sonido) [3], los coeficientes de predicción lineal (Linear Prediction Coefficients, LPC), los coeficientes espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), los coeficientes cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, MFCC) y su primera derivada [4]. Además, muchos investigadores han explorado varios métodos de clasificación, como las redes neuronales (Neural Networks, NN), el modelo de mezcla gaussiana (Gaussian Mixture Model, GMM), el modelo oculto de Markov (Hidden Markov Model, HMM), el clasificador bayesiano de máxima verosimilitud (Maximum Likelihood Bayesian Classifier, MLC), Kernel Regression and K-nearest Neighbors (KNN) y máquinas de vectores de soporte (SVM) [7].
En este paper, utilizamos la base de datos de emociones de Berlín y la base de datos de emociones china SJTU construida por nosotros mismos para entrenar y probar nuestro sistema automático de reconocimiento de emociones en el habla. La prosodia y las características espectrales se han utilizado extensamente en el reconocimiento de emociones en el habla. En este paper, comparamos la tasa de reconocimiento utilizando las características de energía, tono, LPCC, MFCC y MEDC y sus diferentes combinaciones.
2. Base de Datos de Habla
En nuestros experimentos se utilizan dos bases de datos de habla emocional: la base de datos alemana de Berlín y la base de datos china SJTU. La base de datos de Berlín se utiliza ampliamente en el reconocimiento de emociones en el habla [7]. Es fácilmente accesible y muy documentada. Hoy en día la mayoría de las bases de datos que utilizamos no son chinas, y hay una carencia de bases de datos china, que hace difícil el reconocimiento de emociones en el habla chino. Así que diseñamos y construimos nuestra propia base de datos de habla china.
3. Sistema de Reconocimiento de Emociones en el Habla
El reconocimiento de emociones en el habla tiene como objetivo identificar automáticamente el estado emocional de un ser humano a partir de su voz. Se basa en el análisis en profundidad del mecanismo de generación de la señal de voz, extrayendo algunas características de la voz que contienen información de la emoción del hablante y eligiendo métodos apropiados de reconocimiento de patrones para identificar los estados emocionales. Al igual que los sistemas de reconocimiento de patrones típicos, nuestro sistema de reconocimiento de emociones en el habla contiene cuatro módulos principales: entrada de la voz, extracción de las características, clasificación utilizando SVM y salida del estado emocional (Figura 1).
	
	Figura 1. Sistema de Reconocimiento de Emociones en el Habla
4. Extracción de las Características
En investigaciones recientes, se extraen muchas características comunes, tales como la velocidad en el habla, la energía, el tono, el formante (el formante es el pico de intensidad en el espectro de un sonido) y algunas características del espectro, por ejemplo los coeficientes de predicción lineal (Linear Prediction Coefficients, LPC), los coeficientes espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), los coeficientes cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, MFCC) y su primera derivada.
4.1. Energía y Características Relacionadas
La energía es la característica básica y más importante en la señal de voz. Con el fin de obtener las estadísticas de la característica de energía, utilizamos la función a corto plazo para extraer el valor de la energía en cada cuadro de voz. Entonces podemos obtener las estadísticas de energía en toda la muestra del habla calculando la energía, como valor medio, valor máximo, varianza, rango de variación, contorno de energía [2].
4.2. Tono y Características Relacionadas
La señal de tono es otra característica importante en el reconocimiento emociones en elhabla. La frecuencia de vibración de la voz se denomina frecuencia fundamental F0 o frecuencia de tono. La señal de tono también se llama forma de onda glotal; esta tiene información sobre la emoción, ya que depende de la tensión de los pliegues vocales y la presión subglotal del aire, por lo que el valor medio, la varianza, el rango de variación y el contorno del tono es diferente en siete estados emocionales básicos.
4.3. Coeficientes Espectrales de Predicción Lineal (LPCC)
LPCC incorpora características de un canal particular del habla, y la misma persona con diferentes discursos emocionales tendrá diferentes características del canal, por lo que podemos extraer estos coeficientes característicos para identificar las emociones contenidas en el habla. El método computacional de LPCC suele ser una recurrencia del cálculo de los coeficientes de predicción lineal (LPC), que es según el modelo de todos los polos (o all-pole model).
4.4. Coeficientes Cepstrales en las Frecuencias de Mel (MFCC)
La escala de frecuencia de Mel es la característica más utilizada del habla, con un simple cálculo, una buena capacidad de distinción, anti-ruido y otras ventajas [11]. MFCC en la región de baja frecuencia tiene una buena resolución de frecuencia, y la validez al ruido también es muy buena, pero la precisión del coeficiente a alta frecuencia no es satisfactoria. En nuestra investigación, extraemos los primeros 12 órdenes de los coeficientes MFCC. El proceso de cálculo de MFCC se muestra en la Figura 2.
	
	Figura 2. Proceso de Cálculo de MFCC
4.5. Coeficientes Dinámicos del Espectro de Energía de Mel (MEDC)
El proceso de extracción de MEDC es similar al de MFCC. La única diferencia en el proceso de extracción es que el MEDC toma la media logarítmica de las energías después del filtro de filtros de Mel y envoltura de frecuencia, mientras que el MFCC toma el logaritmo después del filtro de filtros de Mel y envoltura de frecuencia. Después de esto, también calculamos la primera y segunda diferencia sobre esta característica.
	
	Figura 3. Proceso de Cálculo de MEDC
5. Experimento y Resultados
El rendimiento del sistema de reconocimiento de emociones en el habla está influenciado por muchos factores, especialmente la calidad de las muestras de voz, las características extraídas y el algoritmo de clasificación. Este artículo analiza la precisión del sistema en los dos primeros aspectos con un gran número de pruebas y experimentos.
5.1. Algoritmo de Clasificación SVM
Dado que SVM es un algoritmo de aprendizaje automatizado simple y eficiente, y es ampliamente utilizado para el reconocimiento de patrones y en los problemas de clasificación, y en condiciones de datos de entrenamiento limitado, puede tener un rendimiento de clasificación muy bueno en comparación con otros clasificadores [4]. Por lo tanto, hemos optado en este documento por SVM para clasificar las emociones en el habla.
5.2. Modelos de Entrenamiento
La base de datos de Berlin Emotion contiene 406 archivos de voz para cinco tipos de emociones. Elegimos tres de ella. Los tipos de emociones triste, feliz y neutral tienen 62, 71 y 79 pronunciaciones de voz, respectivamente. Mientras que nuestra propia base de datos (base de datos de emociones china SJTU) contiene 1500 archivos de voz para tres tipos de emociones. Hay 500 pronunciaciones de voz para cada tipo de emoción, respectivamente. Utilizamos ambas bases de datos, combinando diferentes características para construir diferentes modelos de entrenamiento, y analizar su exactitud de reconocimiento. La Tabla 1 muestra las diferentes combinaciones de las características en el experimento.
	
	Tabla 1. Diferentes Combinaciones de los Parámetros de Función de Voz
5.3. Resultados Experimentales
Utilizamos la librería libsvm en Matlab para realizar la validación cruzada (cross validation) de los modelos y analizar los resultados. En el experimento, elegimos el tono, la energía, el MFCC, su diferencia de primer orden, su diferencia de segundo orden y el MEDC, así como también su diferencia de primer y segundo orden y sus combinaciones para extraer las características. Para cada emoción, dividimos las expresiones de voz en dos subconjuntos, subconjunto de entrenamiento y subconjunto de pruebas. El número de expresiones de voz para el subconjunto de entrenamiento es del 90%, y el 10% para el subconjunto de pruebas. La Tabla 2 muestra los porcentajes de validación cruzada y reconocimiento de los modelos, basada en la base de datos de Berlin Emotion.
	
	Tabla 2. Porcentajes de Validación Cruzada y Reconocimiento en Base al Modelo Alemán
La Tabla 3 muestra los porcentajes de validación cruzada y reconocimiento de los modelos, basada en la base de datos china SJTU.
	
	Tabla 3. Porcentajes de Validación Cruzada y Reconocimiento en Base al Modelo Chino
Como se muestra en la Tabla 2 y en la Tabla 3, la combinación de diferentes características da como resultado porcentajes diferentes de exactitud en el reconocimiento. Para la base de datos de Berlín, la combinación de las características Energía y Tono tiene el peor porcentaje de reconocimiento, que sólo puede reconocer un estado emocional. Eso puede ser porque estos dos son simples caracteristicas prosódicas con poco número de dimensiones. El porcentaje de exactitud para la combinación de las características MFCC y MEDC es mayor en comparación con el modelo 1. Puede reconocer mejor los tres estados emocionales estándares. También añadimos la característica LPCC, pero el rendimiento del modelo se reduce lo que puede resultar en redundancia de la característica. La mejor combinación de características es MFCC + MEDC + Energía, para la cual el porcentaje de validación cruzada puede ser tan alta como el 95% en el reconocimiento no en tiempo real. La razón de este alto rendimiento es que contiene características prosódicas así como también características de espectro, y las características tienen excelentes calidades emocionales. Para la base de datos china, la combinación de las características MFCC + MEDC + Energía también muestra un buen rendimiento. El porcentaje de validación cruzada es tan alta como el 95%, y el porcentaje de precisión en el reconocimiento también es alrededor del 95%. Esta combinación funciona mejor que en la base de datos alemana, lo que significa que la característica de Energía desempeña un papel importante en el reconocimiento de emociones en el habla china.
6. Conclusiones y Trabajos Futuros
Podemos concluir que, una combinación diferente de rasgos característicos emocionales puede conducir a diferentes porcentajes en el reconocimiento de emociones, y la sensibilidad de estas características en diferentes lenguas también es diferente. Así que tenemos que ajustar nuestras características a tales situaciones.
Como puede verse en el experimento, el porcentaje de reconocimiento de emociones del sistema, que sólo utiliza las características del espectro del habla, es ligeramente superior al que sólo utiliza las características prosódicas del habla. Y el sistema que utiliza las características tanto espectrales como prosódicas es mejor que el que sólo usa las características del espectro o prosódicas. Mientras tanto, el porcentaje de reconocimiento del que usa la energía, el tono, las características LPCC MFCC y MEDC es ligeramente inferior al que sólo utiliza la energía, el tono MFCC y las características MEDC. Esto puede ser debido por la redundancia de la característica.
Extraer las características más relevantes del habla y mejorar la precisión del reconocimiento emocional es nuestro trabajo futuro. Se necesita más trabajo para mejorar el sistema para que pueda usarse mejor en el reconocimiento de emociones en el habla en tiempo real.
Referencias
[1] http://www.expressive-speech.net/, Berlin emotional speech database.
[2] D. Ververidis, C. Kotropoulos, and I. Pitas, “Automatic emotional speech classification”, in Proc. 2004 IEEE Int. Conf. Acoustics, Speech and Signal Processing, vol. 1, pp. 593-596, Montreal, May2004.
[3] Xiao, Z., E. Dellandrea, Dou W., Chen L., “Features extraction and selection for emotional speech classification”. 2005 IEEE Conference on Advanced Video and Signal Based Surveillance (AVSS), pp.411-416, Sept 2005.
[4] T.-L. Pao, Y.-T. Chen, J.-H. Yeh, P.-J. Li, “Mandarin emotional speech recognition based on SVM and NN”, Proceedings of the 18th International Conference on Pattern Recognition (ICPR‟06), vol. 1, pp. 1096-1100, September 2006.
[5] Xia Mao, Lijiang Chen, Liqin Fu, “Multi-level Speech Emotion Recognition Based on HMM and ANN”, 2009 WRI World Congress, Computer Science and Information Engineering, pp.225-229, March 2009.
[6] B. Schuller, G. Rigoll, M. Lang, “Hidden Markov model-based speech emotion recognition”, Proceedings of the IEEE ICASSP Conference on Acoustics, Speech and Signal Processing, vol.2, pp. 1-4, April 2003.
[7] Yashpalsing Chavhan, M. L. Dhore, Pallavi Yesaware, “Speech Emotion Recognition Using Support Vector Machine”, International Journal of Computer Applications, vol.1, pp.6-9, February 2010.
[8] Zhou Y, Sun Y, Zhang J, Yan Y, “Speech Emotion Recognition Using Both Spectral and Prosodic Features”, ICIECS 2009. International Conference on Information Engineering and Computer Science, pp.1-4, Dec. 2009.
[9] An X, Zhang X, “Speech Emotion Recognition Based on LPMCC”, Sciencepaper Online. 2010.
[10] D. Ververidis and C. Kotropoulos, "Emotional Speech Recognition: Resources, features and methods", Elsevier Speech communication, vol. 48, no. 9, pp. 1162-1181, September, 2006.
[11] Han Y, Wang G, Yang Y, “Speech emotion recognition based on MFCC”, Journal of ChongQing University of Posts and Telecommunications (Natural Science Edition), 20(5), 2008.
[12] Chih-Chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines, 2001. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[13] Lin Y, Wei G, “Speech emotion recognition based on HMM and SVM”. Proceedings of 2005 International Conference on Machine Learning and Cybernetics, vol.8, pp. 4898-4901. Agu 2005.
[14] Peipei Shen, Zhou Changjun, Xiong Chen. "Automatic Speech Emotion Recognition using Support Vector Machine," Electronic and Mechanical Engineering and Information Technology (EMEIT), 2011 International Conference on , vol.2, no., pp.621-625, 12-14 Aug. 2011.
[15] http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S09, MASC (Mandarin Affective Speech).
Autores
	
	Yixiong Pan
Actualmente es una estudiante graduada en E-learning Lab en Shanghai JiaoTong University. Investigación sobre el reconocimiento de emociones en el habla.
	
	Peipei Shen
Estudiante de posgrado en E-learning Lab en Shanghai JiaoTong University. Investigación sobre el reconocimiento de emociones en el habla.
	
	Liping Shen
Profesor Adjunto en E-learning Lab en Shanghai JiaoTong University. Investigación sobre tecnologías de aprendizaje omnipresente, computación en red y reconocimiento de emociones en el habla.

Continuar navegando