Logo Studenta

Reconocimiento de emociones en el habla usando SVM

¡Estudia con miles de materiales!

Vista previa del material en texto

Reconocimiento de emociones en el habla usado SVM 
 
Yixiong Pan, Peipei Shen and Liping Shen 
Departamento de Informática 
Shanghai JiaoTong University, Shanghai, China 
 
Resumen 
 
El reconocimiento de emociones en el habla (Speech Emotion Recognition, SER) es un 
tema de investigación apasionante en el ámbito de la interacción entre computadoras y 
humanos (Human Computer Interaction, HCI). En este paper, reconocemos tres estados 
emocionales: feliz, triste y neutral. Las características exploradas incluyen: energía, tono, 
coeficientes espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), 
coecientes cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, 
MFCC) y coeficientes dinámicos del espectro de energía de mel (Mel-Energy Spectrum 
Dynamic Coefficients, MEDC). Una base de datos en Berlín de discursos emocionales y 
nuestras bases de datos emocionales chinas se utilizan para entrenar el clasificador SVM. 
Finalmente se comparan y explican los resultados para las diferentes combinaciones de las 
características y en diferentes bases de datos. Los resultados experimentales globales 
revelan que la combinación de características MFCC + MEDC + Energía tiene la mayor tasa 
de exactitud tanto en la base de datos china (91,3%) como en la base de datos de Berlin 
(95,1%). 
 
Palabras claves: Emociones en el habla; Reconocimiento automático de emociones; SVM; 
Energía; Tono; LPCC; MFCC; MEDC 
 
1. Introducción 
 
El reconocimiento automático de emociones en el habla es un tema de investigación muy 
activo en el ámbito de la interacción entre computadoras y humanos (Human Computer 
Interaction, HCI) y tiene una amplia gama de aplicaciones. Se puede utilizar en el tablero de 
los automóviles donde la información del estado mental del conductor puede ser 
proporcionada para iniciar su seguridad. En los call center, para detectar a tiempo la 
insatisfacción de los clientes. En el campo del E-learning (capacitación, formación y 
educación a través de internet), la identificación oportuna de la motivación de los 
estudiantes y el tratamiento adecuado pueden mejorar la calidad de la enseñanza. Hoy en 
día, en el E-learning los maestros y los estudiantes suelen estar separados en espacio y 
tiempo, lo que puede conducir a la falta de intercambio de emociones. Y el profesor no 
puede ajustar su método de enseñanza y su contenido de acuerdo a la motivación de los 
alumnos. Por ejemplo, cuando hay una discusión en grupo en línea, si los estudiantes están 
interesados ​​en la discusión, serán activos y mostrarán su emoción positiva. Por el contrario, 
si les angustia o no están interesados ​​en ella, mostrarán la emoción opuesta. Si detectamos 
la información de las emociones y damos una retroalimentación útil al docente, esto ayudará 
al docente a ajustar el plan de enseñanza y a aumentar la eficiencia del aprendizaje. 
 
En los últimos años, se ha realizado una gran cantidad de investigaciones para reconocer la 
emoción del humano usando la información del habla. Muchas bases de datos de voz se 
construyen en la investigación de emociones en el habla, tales como BDES (Berlin 
Database of Emotional Speech, base de datos de Berlín de discursos emocionales) que fué 
fundada por el departamento de tecnología acústica de la Universidad Técnica de Berlín [1] 
(lo explicaremos más en la sección 2), DES (Danish Emotional Speech, discurso emocional 
danés) es un conjunto de discursos daneses establecido por la Universidad de Aalborg, 
Dinamarca [2]. Los datos son oraciones y palabras que se encuentran entre dos segmentos 
silenciosos. Por ejemplo “Nej”(No), “Ja(Sí), “Kommeddig” (Ven conmigo!). La cantidad total 
de datos son 500 segmentos de habla (sin interrupciones de silencio), que son expresados 
por cuatro actores profesionales, dos hombres y dos mujeres. El habla o discurso es 
expresado en 5 estados emocionales, tales como ira, felicidad, neutral, tristeza y sorpresa. 
Muchos investigadores han propuesto características importantes que contienen 
información acerca de la emoción en el habla, tales como la energía, la frecuencia del tono 
[2], la frecuencia de formantes (un formante es el pico de intensidad en el espectro de un 
sonido) [3], los coeficientes de predicción lineal (Linear Prediction Coefficients, LPC), los 
coeficientes espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), los 
coecientes cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, 
MFCC) y su primera derivada [4]. Además, muchos investigadores han explorado varios 
métodos de clasificación, como las redes neuronales (Neural Networks, NN), el modelo de 
mezcla gaussiana (Gaussian Mixture Model, GMM), el modelo oculto de Markov (Hidden 
Markov Model, HMM), el clasificador bayesiano de máxima verosimilitud (Maximum 
Likelihood Bayesian Classifier, MLC), Kernel Regression and K-nearest Neighbors (KNN) y 
máquinas de vectores de soporte (SVM) [7]. 
En este paper, utilizamos la base de datos de emociones de Berlín y la base de datos de 
emociones china SJTU construida por nosotros mismos para entrenar y probar nuestro 
sistema automático de reconocimiento de emociones en el habla. La prosodia y las 
características espectrales se han utilizado extensamente en el reconocimiento de 
emociones en el habla. En este paper, comparamos la tasa de reconocimiento utilizando las 
características de energía, tono, LPCC, MFCC y MEDC y sus diferentes combinaciones. 
 
2. Base de Datos de Habla 
 
En nuestros experimentos se utilizan dos bases de datos de habla emocional: la base de 
datos alemana de Berlín y la base de datos china SJTU. La base de datos de Berlín se 
utiliza ampliamente en el reconocimiento de emociones en el habla [7]. Es fácilmente 
accesible y muy documentada. Hoy en día la mayoría de las bases de datos que utilizamos 
no son chinas, y hay una carencia de bases de datos china, que hace difícil el 
reconocimiento de emociones en el habla chino. Así que diseñamos y construimos nuestra 
propia base de datos de habla china. 
 
3. Sistema de Reconocimiento de Emociones en el Habla 
 
El reconocimiento de emociones en el habla tiene como objetivo identificar automáticamente 
el estado emocional de un ser humano a partir de su voz. Se basa en el análisis en 
profundidad del mecanismo de generación de la señal de voz, extrayendo algunas 
características de la voz que contienen información de la emoción del hablante y eligiendo 
métodos apropiados de reconocimiento de patrones para identificar los estados 
emocionales. Al igual que los sistemas de reconocimiento de patrones típicos, nuestro 
sistema de reconocimiento de emociones en el habla contiene cuatro módulos principales: 
entrada de la voz, extracción de las características, clasificación utilizando SVM y salida del 
estado emocional (Figura 1). 
 
Figura 1. Sistema de Reconocimiento de Emociones en el Habla 
 
4. Extracción de las Características 
 
En investigaciones recientes, se extraen muchas características comunes, tales como la 
velocidad en el habla, la energía, el tono, el formante (el formante es el pico de intensidaden el espectro de un sonido) y algunas características del espectro, por ejemplo los 
coeficientes de predicción lineal (Linear Prediction Coefficients, LPC), los coeficientes 
espectrales de predicción lineal (Linear Predictive Spectrum Coding, LPCC), los coecientes 
cepstrales en las frecuencias de mel (Mel-Frequency Spectrum Coefficients, MFCC) y su 
primera derivada. 
 
4.1. Energía y Características Relacionadas 
 
La energía es la característica básica y más importante en la señal de voz. Con el fin de 
obtener las estadísticas de la característica de energía, utilizamos la función a corto plazo 
para extraer el valor de la energía en cada cuadro de voz. Entonces podemos obtener las 
estadísticas de energía en toda la muestra del habla calculando la energía, como valor 
medio, valor máximo, varianza, rango de variación, contorno de energía [2]. 
 
4.2. Tono y Características Relacionadas 
 
La señal de tono es otra característica importante en el reconocimiento emociones en el 
habla. La frecuencia de vibración de la voz se denomina frecuencia fundamental F0 o 
frecuencia de tono. La señal de tono también se llama forma de onda glotal; esta tiene 
información sobre la emoción, ya que depende de la tensión de los pliegues vocales y la 
presión subglotal del aire, por lo que el valor medio, la varianza, el rango de variación y el 
contorno del tono es diferente en siete estados emocionales básicos. 
 
4.3. Coeficientes Espectrales de Predicción Lineal (LPCC) 
 
LPCC incorpora características de un canal particular del habla, y la misma persona con 
diferentes discursos emocionales tendrá diferentes características del canal, por lo que 
podemos extraer estos coeficientes característicos para identificar las emociones 
contenidas en el habla. El método computacional de LPCC suele ser una recurrencia del 
cálculo de los coeficientes de predicción lineal (LPC), que es según el modelo de todos los 
polos (o all-pole model). 
 
4.4. Coecientes Cepstrales en las Frecuencias de Mel (MFCC) 
 
La escala de frecuencia de Mel es la característica más utilizada del habla, con un simple 
cálculo, una buena capacidad de distinción, anti-ruido y otras ventajas [11]. MFCC en la 
región de baja frecuencia tiene una buena resolución de frecuencia, y la validez al ruido 
también es muy buena, pero la precisión del coeficiente a alta frecuencia no es satisfactoria. 
En nuestra investigación, extraemos los primeros 12 órdenes de los coeficientes MFCC. El 
proceso de cálculo de MFCC se muestra en la Figura 2. 
 
Figura 2. Proceso de Cálculo de MFCC 
 
4.5. Coeficientes Dinámicos del Espectro de Energía de Mel (MEDC) 
 
El proceso de extracción de MEDC es similar al de MFCC. La única diferencia en el proceso 
de extracción es que el MEDC toma la media logarítmica de las energías después del filtro 
de filtros de Mel y envoltura de frecuencia, mientras que el MFCC toma el logaritmo 
después del filtro de filtros de Mel y envoltura de frecuencia. Después de esto, también 
calculamos la primera y segunda diferencia sobre esta característica. 
 
 
Figura 3. Proceso de Cálculo de MEDC 
 
5. Experimento y Resultados 
 
El rendimiento del sistema de reconocimiento de emociones en el habla está influenciado 
por muchos factores, especialmente la calidad de las muestras de voz, las características 
extraídas y el algoritmo de clasificación. Este artículo analiza la precisión del sistema en los 
dos primeros aspectos con un gran número de pruebas y experimentos. 
 
5.1. Algoritmo de Clasificación SVM 
 
Dado que SVM es un algoritmo de aprendizaje automatizado simple y eficiente, y es 
ampliamente utilizado para el reconocimiento de patrones y en los problemas de 
clasificación, y en condiciones de datos de entrenamiento limitado, puede tener un 
rendimiento de clasificación muy bueno en comparación con otros clasificadores [4]. Por lo 
tanto, hemos optado en este documento por SVM para clasificar las emociones en el habla. 
 
5.2. Modelos de Entrenamiento 
 
La base de datos de Berlin Emotion contiene 406 archivos de voz para cinco tipos de 
emociones. Elegimos tres de ella. Los tipos de emociones triste, feliz y neutral tienen 62, 71 
y 79 pronunciaciones de voz, respectivamente. Mientras que nuestra propia base de datos 
(base de datos de emociones china SJTU) contiene 1500 archivos de voz para tres tipos de 
emociones. Hay 500 pronunciaciones de voz para cada tipo de emoción, respectivamente. 
Utilizamos ambas bases de datos, combinando diferentes características para construir 
diferentes modelos de entrenamiento, y analizar su exactitud de reconocimiento. La Tabla 1 
muestra las diferentes combinaciones de las características en el experimento. 
 
Tabla 1. Diferentes Combinaciones de los Parámetros de Función de Voz 
 
5.3. Resultados Experimentales 
 
Utilizamos la librería libsvm en Matlab para realizar la validación cruzada (cross validation) 
de los modelos y analizar los resultados. En el experimento, elegimos el tono, la energía, el 
MFCC, su diferencia de primer orden, su diferencia de segundo orden y el MEDC, así como 
también su diferencia de primer y segundo orden y sus combinaciones para extraer las 
características. Para cada emoción, dividimos las expresiones de voz en dos subconjuntos, 
subconjunto de entrenamiento y subconjunto de pruebas. El número de expresiones de voz 
para el subconjunto de entrenamiento es del 90%, y el 10% para el subconjunto de pruebas. 
La Tabla 2 muestra los porcentajes de validación cruzada y reconocimiento de los modelos, 
basada en la base de datos de Berlin Emotion. 
 
Tabla 2. Porcentajes de Validación Cruzada y Reconocimiento en Base al Modelo 
Alemán 
La Tabla 3 muestra los porcentajes de validación cruzada y reconocimiento de los modelos, 
basada en la base de datos china SJTU. 
 
Tabla 3. Porcentajes de Validación Cruzada y Reconocimiento en Base al Modelo 
Chino 
Como se muestra en la Tabla 2 y en la Tabla 3, la combinación de diferentes características 
da como resultado porcentajes diferentes de exactitud en el reconocimiento. Para la base 
de datos de Berlín, la combinación de las características Energía y Tono tiene el peor 
porcentaje de reconocimiento, que sólo puede reconocer un estado emocional. Eso puede 
ser porque estos dos son simples caracteristicas prosódicas con poco número de 
dimensiones. El porcentaje de exactitud para la combinación de las características MFCC y 
MEDC es mayor en comparación con el modelo 1. Puede reconocer mejor los tres estados 
emocionales estándares. También añadimos la característica LPCC, pero el rendimiento del 
modelo se reduce lo que puede resultar en redundancia de la característica. La mejor 
combinación de características es MFCC + MEDC + Energía, para la cual el porcentaje de 
validación cruzada puede ser tan alta como el 95% en el reconocimiento no en tiempo real. 
La razón de este alto rendimiento es que contiene características prosódicas así como 
también características de espectro, y las características tienen excelentes calidades 
emocionales. Para la base de datos china, la combinación de las características MFCC + 
MEDC + Energía también muestra un buen rendimiento.El porcentaje de validación cruzada 
es tan alta como el 95%, y el porcentaje de precisión en el reconocimiento también es 
alrededor del 95%. Esta combinación funciona mejor que en la base de datos alemana, lo 
que significa que la característica de Energía desempeña un papel importante en el 
reconocimiento de emociones en el habla china. 
 
6. Conclusiones y Trabajos Futuros 
 
Podemos concluir que, una combinación diferente de rasgos característicos emocionales 
puede conducir a diferentes porcentajes en el reconocimiento de emociones, y la 
sensibilidad de estas características en diferentes lenguas también es diferente. Así que 
tenemos que ajustar nuestras características a tales situaciones. 
Como puede verse en el experimento, el porcentaje de reconocimiento de emociones del 
sistema, que sólo utiliza las características del espectro del habla, es ligeramente superior al 
que sólo utiliza las características prosódicas del habla. Y el sistema que utiliza las 
características tanto espectrales como prosódicas es mejor que el que sólo usa las 
características del espectro o prosódicas. Mientras tanto, el porcentaje de reconocimiento 
del que usa la energía, el tono, las características LPCC MFCC y MEDC es ligeramente 
inferior al que sólo utiliza la energía, el tono MFCC y las características MEDC. Esto puede 
ser debido por la redundancia de la característica. 
Extraer las características más relevantes del habla y mejorar la precisión del 
reconocimiento emocional es nuestro trabajo futuro. Se necesita más trabajo para mejorar el 
sistema para que pueda usarse mejor en el reconocimiento de emociones en el habla en 
tiempo real. 
 
Referencias 
 
[1] ​http://www.expressive-speech.net/​, Berlin emotional speech database. 
[2] D. Ververidis, C. Kotropoulos, and I. Pitas, “Automatic emotional speech classification”, in 
Proc. 2004 IEEE Int. Conf. Acoustics, Speech and Signal Processing, vol. 1, pp. 593-596, 
Montreal, May 2004. 
[3] Xiao, Z., E. Dellandrea, Dou W., Chen L., “Features extraction and selection for 
emotional speech classification”. 2005 IEEE Conference on Advanced Video and Signal 
Based Surveillance (AVSS), pp.411-416, Sept 2005. 
[4] T.-L. Pao, Y.-T. Chen, J.-H. Yeh, P.-J. Li, “Mandarin emotional speech recognition based 
on SVM and NN”, Proceedings of the 18th International Conference on Pattern Recognition 
(ICPR‟06), vol. 1, pp. 1096-1100, September 2006. 
[5] Xia Mao, Lijiang Chen, Liqin Fu, “Multi-level Speech Emotion Recognition Based on HMM 
and ANN”, 2009 WRI World Congress, Computer Science and Information Engineering, 
pp.225-229, March 2009. 
[6] B. Schuller, G. Rigoll, M. Lang, “Hidden Markov model-based speech emotion 
recognition”, Proceedings of the IEEE ICASSP Conference on Acoustics, Speech and Signal 
http://www.expressive-speech.net/
Processing, vol.2, pp. 1-4, April 2003. 
[7] Yashpalsing Chavhan, M. L. Dhore, Pallavi Yesaware, “Speech Emotion Recognition 
Using Support Vector Machine”, International Journal of Computer Applications, vol.1, 
pp.6-9, February 2010. 
[8] Zhou Y, Sun Y, Zhang J, Yan Y, “Speech Emotion Recognition Using Both Spectral and 
Prosodic Features”, ICIECS 2009. International Conference on Information Engineering and 
Computer Science, pp.1-4, Dec. 2009. 
[9] An X, Zhang X, “Speech Emotion Recognition Based on LPMCC”, Sciencepaper Online. 
2010. 
[10] D. Ververidis and C. Kotropoulos, "Emotional Speech Recognition: Resources, features 
and methods", Elsevier Speech communication, vol. 48, no. 9, pp. 1162-1181, September, 
2006. 
[11] Han Y, Wang G, Yang Y, “Speech emotion recognition based on MFCC”, Journal of 
ChongQing University of Posts and Telecommunications (Natural Science Edition), 20(5), 
2008. 
[12] Chih-Chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines, 
2001. Software available at ​http://www.csie.ntu.edu.tw/~cjlin/libsvm​. 
[13] Lin Y, Wei G, “Speech emotion recognition based on HMM and SVM”. Proceedings of 
2005 International Conference on Machine Learning and Cybernetics, vol.8, pp. 4898-4901. 
Agu 2005. 
[14] Peipei Shen, Zhou Changjun, Xiong Chen. "Automatic Speech Emotion Recognition 
using Support Vector Machine," Electronic and Mechanical Engineering and Information 
Technology (EMEIT), 2011 International Conference on , vol.2, no., pp.621-625, 12-14 Aug. 
2011. 
[15] ​http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S09​, MASC 
(Mandarin Affective Speech). 
 
Autores 
 
Yixiong Pan 
 
Actualmente es una estudiante graduada en E-learning Lab en 
Shanghai JiaoTong University. Investigación sobre el 
reconocimiento de emociones en el habla. 
 
http://www.csie.ntu.edu.tw/~cjlin/libsvm
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2007S09
 
Peipei Shen 
 
Estudiante de posgrado en E-learning Lab en Shanghai 
JiaoTong University. Investigación sobre el reconocimiento de 
emociones en el habla. 
 
 
Liping Shen 
 
Profesor Adjunto en E-learning Lab en Shanghai JiaoTong 
University. Investigación sobre tecnologías de aprendizaje 
omnipresente, computación en red y reconocimiento de 
emociones en el habla.

Continuar navegando