Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
INSTITUTO POLITÉCNICO NACIONAL ESCUELA SUPERIOR DE INGENIERÍA MECÁNICA Y ELÉCTRICA Unidad Zacatenco RECONOCIMIENTO DE MICROEXPRESIONES UTILIZANDO PCA TESIS PARA OBTENER EL TÍTULO DE INGENIERO EN COMUNICACIONES Y ELECTRÓNICA P R E S E N T A: José Carlos Castro Reyes Jesús Gonzalo Sámano Rodríguez ASESORES: Dra. María Elena Acevedo Mosqueda Dr. Marco Antonio Acevedo Mosqueda Dr. Jesús Jaime Moreno Escobar MÉXICO, D. F. Junio de 2016 Asesores Dra. María Elena Acevedo Mosqueda Técnicos Academia de Computación Departamento Académico de Ingeniería en Comunicaciones y Electrónica Escuela Superior de Ingeniería Mecánica y Eléctrica Instituto Politécnico Nacional Dr. Marco Antonio Acevedo Mosqueda Sección de estudios de posgrado Maestría en comunicaciones y electrónica Escuela Superior de Ingeniería Mecánica y Eléctrica Instituto Politécnico Nacional Asesor Dr. Jesús Jaime Moreno Escobar Metodológico Academia de Computación Departamento Académico de Ingeniería en Comunicaciones y Electrónica Escuela Superior de Ingeniería Mecánica y Eléctrica Instituto Politécnico Nacional i Dedicatoria Quiero dedicar esta tesis a mi familia ya que por sus consejos, apoyo y paciencia, todo lo que soy hoy es gracias a ellos José Carlos Castro Reyes. A mis Padres, Abuelitos y a mi Hermano Jesús Gonzalo Sámano Rodríguez ii iii Agradecimientos Agradezco a dios por permitirme llegar a esta etapa de mi vida y por las bendiciones recibidas. A mis padres por su constante motivación, apoyo, amor y por haberme forjado como la persona que soy ahora; muchos de mis logros se los debo a ustedes. Un agradecimiento singular a la Dra. María Elena Acevedo Mosqueda y al Dr. Marco Antonio Acevedo Mosqueda por su apoyo y correcciones realizadas durante el desarrollo de este trabajo. José Carlos Castro Reyes. iv Primeramente, agradezco a Ha-Shem por darme la vida cada día, por la inteligencia que me ha brindado y el talento que me confirió תודה רבה השם A mi padre Arturo Sámano, por todo el apoyo brindado y sus consejos en el área profesional. A mi madre Catalina Rodríguez por aguantar las desveladas que tuve en este camino, por su apoyo y consejos brindados, gracias mamá, sin ti no hubiera llegado hasta donde estoy. Muchas gracias a mis padres A mi hermano Luis Sámano, gracias por estar siempre conmigo, por ayudarme a despejar mi mente cuando estaba estresado, sin ti no tendría la alegría que ahora tengo, gracias por tu ayuda en la realización de este proyecto, por tu paciencia cuando tenía mucho trabajo que hacer. Muchas gracias hermano A mi abuelita Cirila Castro, Muchas gracias abue por todo tu apoyo, por estar ahí cuando lo necesite, sin ti no había llegado hasta donde estoy muchas gracias. A mi abuelito Alberto Sámano, gracias por tus consejos, por tus platicas, me ayudaste a pensar siempre y no rendirme, gracias por tus experiencias que compartimos, por tu cariño y por todas esas veces que siempre me ayudaste en mis trabajos escolares. Gracias abuelitos A mi abuelito Ismael Rodríguez, gracias por esas veces que siempre hablabas de tu nieto en que estudia en el IPN, me motivaba a ser mejor cada día, gracias por tus platicas y por tu apoyo. Te quiero Abue A mis tíos que siempre estuvieron apoyándome y dando consejos, estaré eternamente agradecido. Gracias por todo A mis primos y primas que siempre estuvieron apoyándome, gracias a ustedes por ayudarme siempre. Muchas gracias A mis asesores la Dr. Elena Acevedo, Dr. Marco Acevedo por todos sus consejos y sus motivaciones, gracias por la confianza y fe que tuvieron con nosotros. Muchas gracias Al Dr. Jaime Moreno, por apoyarnos en las revisiones y consejos para mejorar el proyecto, por el apoyo para mejorar nuestra presentación. Muchas gracias Siempre estaré agradecido Jesús Gonzalo Sámano Rodríguez v Abstract The area of psychology that is responsible for making the recognition of microexpressions presents the problem of having a margin of error when making the process particularly for staff who have basic training microexpressions recognition. Therefore, in this paper a computational tool that will support the area of psychology in order to obtain better results when making the recognition of microexpression was designed, this tool uses the PCA method, a database consisting of images four facial expressions: happiness, disgust, surprise, sadness are the program to recognize achievement, Matlab was also used to develop the program we check the research of Dr. Paul Ekman where, described the parameters of each expression. vi vii Resumen El área de la psicología que se encarga de realizar el reconocimiento de microexpresiones. La cual presenta el problema de tener un margen de error al momento de realizar dicho proceso en especial para el personal que tiene el entrenamiento básico de reconocimiento de microexpresiones. Por este motivo en este trabajo se diseña una herramienta computacional que servirá de apoyo al área de psicología con la finalidad de obtener mejores resultados al momento de realizar el reconocimiento de la microexpresion. Esta herramienta utiliza principalmente el método PCA y una base de datos formada por imágenes de cuatro expresiones faciales: felicidad, asco, sorpresa, tristeza que son las que el programa logro reconocer. También se utilizó el software Matlab para desarrollar el programa y se consultó la investigación del doctor del Dr.Paul Ekman, donde describen los parámetros de cada expresión. viii ix Glosario PNG Portable Network Graphics (Gráficos de red portátiles). JPG Join Photographic Experts Group (Grupo conjunto de expertos en fotografía). JPEG Join Photographic Experts Group (Grupo conjunto de expertos en fotografía). RGB Red, Green, Blue (Rojo, Verde, Azul). FACS Facial Action Coding System (Sistema de codificación facial). AU Actions Units (Unidades de acción). EMFACS Emotional Facial Action Coding System (Sistema de codificación de emoción facial). FACSAID Facial Action Coding System Affect Interpretation Dictionary (Diccionario de interpretación de sistemas de codificación facial). FR Face Recognition (Reconocimiento facial). FRT Face Recognition Technologies (Tecnologías de reconocimiento facial). PCA Principal Components Analysis (Análisis de componentes principales). LDA Linear Discriminant Analysis (Análisis lineal discriminante). EBGM Elastic Bunch Graph Matching (Correspondencia entre agrupaciones de grafos elásticos). x LBP Local Binary Pattern (Patron binario local). LBP-TOP Local Binary Pattern on Three Orthogonal Planes (Patron binario local en tres planos ortogonales). VB Visual Basic (Básica Visualización). SDK Software Development Kit (Kit de desarrollo de software). AAM Active Appearance Model (Modelo de Apariencia Activa). ASM Active Shape Model (Modelo de forma activa). LPPLocality Preserving Projections (Proyecciones preservadas de localidad). DCT Discrete Cosine Transform (Transformada discreta del coseno). xi Contenido Lista de figuras ......................................................................................................................... xv Lista de tablas .......................................................................................................................... xix 1 Introducción ............................................................................................................................ 1 1.1 Planteamiento del problema .............................................................................................. 1 1.2 Justificación ...................................................................................................................... 2 1.3 Hipótesis ........................................................................................................................... 2 1.4 Objetivo general ................................................................................................................ 3 1.5 Objetivos particulares ...................................................................................................... 3 1.6 Alcance del proyecto ........................................................................................................ 3 1.7 Tesis del Proyecto ............................................................................................................. 4 2 Expresiones faciales, historia y métodos de reconocimiento ................................................. 5 2.1 Expresiones faciales .......................................................................................................... 5 2.2 Expresiones faciales espontaneas e involuntaria: Microexpresiones................................ 6 2.3 La sonrisa de Duchenne .................................................................................................... 6 2.4 Las microexpresiones: enfoque de Darwin a Ekman ....................................................... 9 2.5 Emociones: culturales e innatas ...................................................................................... 10 2.6 Expresiones faciales universales ..................................................................................... 12 2.7 Sistema de codificación de acción facial ( FACS ) ........................................................ 18 2.7.1 Nomenclatura para Unidades de Acción ............................................................... 19 2.8 Historia del reconocimiento facial ................................................................................. 21 2.9 Reconocimiento facial .................................................................................................... 24 2.10 Enfoques predominantes............................................................................................... 25 a) Análisis de Componentes Principales ........................................................................ 25 b) Análisis Lineal Discriminantes .................................................................................. 26 c) Correspondencia entre Agrupaciones de Grafos Elásticos........................................ 27 d) FacesSDK .................................................................................................................. 29 e) Modelo de Apariencia Actica .................................................................................... 31 f) Modelo de Forma Activa ........................................................................................... 32 xii g) Proyecciones Preservadas de Localidad .......................................................................... 33 2.11 Principales trabajos sobre reconocimiento de expresiones .......................................... 35 3 Análisis de componentes principales y elementos matemáticos .......................................... 37 3.1 Análisis de componentes principales .............................................................................. 37 3.2 Imagen promedio ............................................................................................................ 37 3.3 Normalizar o centrar la imagen ...................................................................................... 38 3.4 Matriz de covarianza ....................................................................................................... 38 3.5 Matriz de covarianza reducida ......................................................................................... 39 3.6 Eigenvector ...................................................................................................................... 39 3.7 Mapeo deEigenvectores ................................................................................................... 40 3.8 Distancia euclidiana ......................................................................................................... 41 4 Analisis de componentes principales .................................................................................... 43 4.1 Selección de la base de datos y conversión en vectores ................................................. 43 4.2 Obtención de la imagen promedio ................................................................................. 44 4.3 Imágenes normalizadas ................................................................................................... 44 4.4 Matriz de covarianza y obtención de eigenvectores ....................................................... 45 4.5 Mapeo de los eigenvectores ............................................................................................ 45 4.6 Obtención de los componentes principales ..................................................................... 45 4.7 Cálculo de los componentes principales de la imagen de prueba ................................... 46 4.8 Reconocimiento de la imagen......................................................................................... 46 5 Experimento y resultados ..................................................................................................... 47 5.1 Equipo de desarrollo del software .................................................................................. 47 5.2 Interfaz grafica ................................................................................................................ 47 5.2.1 Base de datos ......................................................................................................... 48 5.2.2 Imagen de prueba .................................................................................................. 49 5.2.3 Inicio ...................................................................................................................... 51 5.3 Especificaciones de la base de datos ............................................................................. 52 xiii 5.4 Parámetros en el uso del software ................................................................................ 52 5.5 Experimentos ................................................................................................................ 53 5.5.1 Experimento 1 ....................................................................................................... 53 5.5.2 Experimento 2 ....................................................................................................... 54 5.5.3 Experimento 3 .......................................................................................................55 5.5.4 Experimento 4 ....................................................................................................... 57 5.5.5 Experimento 5 ....................................................................................................... 59 5.5.6 Experimento 6 ....................................................................................................... 61 5.5.7 Experimento 7 ....................................................................................................... 62 5.5.8 Experimento 8 ....................................................................................................... 63 5.6 Resultados ....................................................................................................................... 65 6 Conclusiones ......................................................................................................................... 67 6.1 Conclusiones finales ..................................................................................................... 67 6.2 Trabajo a futuro ............................................................................................................ 67 6.3 Contribuciones .............................................................................................................. 68 Anexo A .................................................................................................................................... 69 Anexo B .................................................................................................................................... 73 Referencias ............................................................................................................................... 85 xiv xv Lista de Figuras Figura 1.1: Ejemplo de expresiones faciales. Figura 1.2: Etapas que el sistema de reconocimiento realiza. Figura 2.1: Expresiones faciales de una persona. Figura 2.2: Anatomía y acción muscular. Figura 2.3: Doctor Guillaume Duchenne aplicando descargas eléctricas a un hombre Figura 2.4: Músculos en movimiento durante una sonrisa. Figura 2.5: Ejemplo de sonrisa de Duchenne. Figura 2.6: Científicos destacados en el estudio de las emociones. Figura 2.7: Expresiones universales propuestas por Paul Ekman. Figura 2.8: Microexpresión de Sorpresa. Figura 2.9: Microexpresión de Miedo. Figura 2.10: Microexpresión de Asco. Figura 2.11: Microexpresión de Enojo. Figura 2.12: Microexpresión de Felicidad. Figura 2.13: Microexpresión de Tristeza. Figura 2.14: Combinación de Unidades de Acción, demostrando expresiones similares entre animales y humano. Figura 2.15: Demostración de algunas Unidades de Acción. Figura 2.16: Algunos métodos de clasificación. Figura 2.17: Imagen 2D, mapa de profundidad y representación 3D del modelo. xvi Figura 2.18: Detección de la posición y distancia de los ojos a través del método de convolución. Figura 2.19: Eigenfaces estándar. Los vectores de los rasgos son derivados utilizando Eigenfaces. Figura 2.20: Ejemplo de seis clases usando LDA. Figura 2.21: Correspondencia entre agrupaciones de grafos elásticos. Figura 2.22: Reconocimiento de los 66 puntos en los rostros. Figura 2.23: Detección de del rostro en tiempo real. Figura 2.24: Obtención del rostro de una persona para su posterior procesamiento Figura 2.25: Ejemplo de malla en AAM Figura 2.26: Búsqueda de una cara utilizando el Modelo de Forma Activa Figura 2.27: En esta imagen podemos ver como a diferencia de PCA, en LPP se conserva la estructura local de los datos. Figura 3.1: Imagen promedio. Figura 3.2: Representación del proceso para normalizar una imagen. Figura 3.3: Vectores propios en una transformación. Figura 3.4: Representación del proceso de mapeo. Figura 4.1: Transformación de una imagen a vector. Figura 4.2: Imagen promedio de la boca. Figura 4.3: Imagen de prueba. Figura 5.1: Sistema de Reconocimiento de Microexpresiones. Figura 5.2: Botón para cargar la Base de datos. Figura 5.3: Imágenes de la base de datos seleccionada. Figura 5.4: Botón para cargar la imagen de prueba. Figura 5.5: Selección de la imagen de prueba. Figura 5.6: Recorte del área de interés. xvii Figura 5.7: Resultado del recorte de la imagen de prueba. Figura 5.8: Botón para iniciar el reconocimiento de microexpresiones. Figura 5.9: Microexpresión detectada. Figura 5.10: Ejemplo de una imagen de la base de datos. Figura 5.11: Imagen de prueba. Figura 5.12: Resultado. Figura 5.13: Imagen de la base de datos. Figura 5.14: Imagen de la base de datos nueva. Figura 1 anexo B: Imagen de felicidad Figura 2 anexo B: Imagen de sorpresa Figura 3 anexo B: Imagen de asco Figura 4 anexo B: Imagen de tristeza xviii xix Lista de Tablas Tabla 2.1: Microexpresiones y sus Unidades de Acción. Tabla 2.2: Principales trabajos indicando los parámetros más importantes de cada uno. Tabla 5.1: Posición de la microexpresión en el vector del experimento 2. Tabla 5.2: Resultados de la microexpresión de sorpresa del experimento 2. Tabla 5.3: Resultados de la microexpresión de felicidad del experimento 2 Tabla 5.4: Resultados de la microexpresión de tristeza del experimento 2. Tabla 5.5: Posición de la microexpresión en el vector del experimento 3. Tabla 5.6: Resultados de la microexpresión de sorpresa del experimento 3. Tabla 5.7: Resultados de la microexpresión de felicidad del experimento 3. Tabla 5.8: Resultados de la microexpresión de tristeza del experimento 3. Tabla 5.9: Resultados de la microexpresión de enfado del experimento 3. Tabla 5.10: Posición de la microexpresión en el vector del experimento 4. Tabla 5.11: Resultados de la microexpresión de felicidad del experimento 4. Tabla 5.12: Resultados de la microexpresión de sorpresa del experimento 4. Tabla 5.13: Resultados de la microexpresión de tristeza del experimento 4. Tabla 5.14: Resultados de la microexpresión de enfado del experimento 4. Tabla 5.15: Resultados de la microexpresión de asco del experimento 4. xx Tabla 5.16: Resultados de la microexpresión de asco del experimento 5. Tabla 5.17: Resultados de la microexpresión de felicidad del experimento 5. Tabla 5.18: Resultados de la microexpresión de sorpresa del experimento 5. Tabla 5.19: Resultados de la microexpresión de tristeza del experimento 5. Tabla 5.20: Resultados de la microexpresión de felicidad del experimento 6. Tabla 5.21: Resultados de la microexpresión de sorpresa del experimento 6. Tabla 5.22: Resultados de la microexpresión de tristeza del experimento 6. Tabla 5.23: Resultados de la microexpresión de asco del experimento 6. Tabla 5.24: Resultados de la microexpresión de felicidad del experimento 7. Tabla 5.25: Resultados de la microexpresión de sorpresa del experimento 7 Tabla 5.26: Resultados de la microexpresión de asco del experimento 8. Tabla 5.27: Resultados de la microexpresión de felicidad del experimento 8. Tabla 5.28: Resultados de la microexpresión de sorpresa del experimento 8. Tabla 5.29: Resultados de la microexpresión de tristeza del experimento 8. Tabla 5.30: Relación de resultados del experimento 8. Tabla 5.31: Tabla de resultados de diferentes trabajos relacionados con el reconocimiento de microexpresiones. Tabla 5.32: Tabla comparativa de resultados de microexpresiones. Tabla 5.33: Tabla comparativa. .Tabla 1 Anexo A: Frecuencia de aparición de las AU en la base de datos CK+ Tabla 2 Anexo A: Descripción de la microexpresión en términos de Unidades de Acción Faciales. 1 Capítulo 1 Introducción 1.1 Planteamiento del problema Los humanos utilizan los rostros para reconocer individuos,algunas veces también se conoce cómo se siente una persona, esto es gracias a las expresiones faciales. Las expresiones faciales ayudan a entender un poco más, cómo se siente una persona, si está feliz, triste o si siente rechazo hacia alguien o una situación. La psicología les da un nuevo aire a las expresiones faciales, ya que, dependiendo de éstas se dictamina un diagnóstico el cual indique que la persona esté mintiendo. Las expresiones faciales han alcanzado una importancia a tal grado que ahora se requiere la ayuda de sistemas informáticos para obtener datos más precisos. Por ejemplo, reconocer cuando una persona realmente tiene asco o siente enojo, muchas veces no somos capaces de reconocer con gran acierto de cual se trata ya que son muy similares, Figura 1. a) Expresión de asco b) Expresión de enojo Figura 1.1: Ejemplo de expresiones faciales. 1. Introducción 2 El reconocimiento de rostros por medios computacionales, forma parte del área denominada Biometría. Para lograr este procesamiento se emplean algoritmos de reconocimiento facial que usan modelos geométricos simples. A pesar de los grandes avances que ha tenido el reconocimiento facial basado en computadoras, hasta el día de hoy no existe un método que tenga 100% de precisión. Este trabajo contribuirá a que la precisión de reconocimiento facial mejore para la ayuda de psicólogos en el área de reconocimiento de expresiones facial. 1.2 Justificación Este proyecto reconoce expresiones faciales, apoyando al área de psicología proporcionando la expresión facial de la persona, la cual es comparada con la que el psicólogo reconoció, para finalmente indicar que microexpresión presenta la persona. El sistema utiliza la ayuda de un administrador para cargar la base de datos y la imagen de prueba para reconocer la expresión facial. Utilizando análisis de componentes principales el cual es un método que utiliza una base matemática comprobada con lo cual su margen de error disminuye considerablemente a comparación de los otros métodos para finalmente determinar a qué expresión facial corresponde dicha imagen. Las etapas que realiza el sistema de reconocimiento se representa en la Figura 1.2. Figura 1.2: Etapas que el sistema de reconocimiento realiza. 1.3 Hipótesis El reconocimiento de expresiones faciales por computadora apoyará a los psicólogos a reconocer las expresiones para solución de algún problema del paciente determinando si el paciente tiene odio, ira etc. Para el reconocimiento facial se diseñará un software en el cual se utilicen los métodos necesarios para lograr tener un porcentaje de éxito arriba del 80% sin descuidar parámetros relacionados con el procesamiento como: el tiempo que tarda el programa en entregar una respuesta ya que se requiere del resultado en el menor tiempo posible. Entrada Salida Proceso Reconocimiento de la expresión facial Imagen de prueba Texto indicando que expresión facial se reconoció Imagen de una persona con la misma expresión facial que la imagen de prueba Salida 1.4 Objetivo general 3 1.4 Objetivo general Diseñar una herramienta de apoyo para los psicólogos relacionados con el reconocimiento de expresiones faciales. 1.5 Objetivos particulares Identificar las bases e historia del reconocimiento facial, junto con los diferentes métodos que existen, para realizar el detector de expresiones faciales. Describir los elementos que se utilizan para el reconocimiento facial de una imagen de prueba contra una base de datos de imágenes. Explicar el algoritmo empleado para realizar el reconocimiento de expresiones faciales, así como mostrar el funcionamiento de la interfaz gráfica del software. Comparar que el funcionamiento del sistema contra otros trabajos similares, mediante pruebas y reportar los resultados obtenidos. 1.6 Alcance del proyecto Este trabajo está limitado a reconocer 4 de 7 expresiones faciales universales, propuestas por el Dr. Paul Ekman. Las expresiones faciales reconocidas son: Asco Felicidad Sorpresa Tristeza Utilizar imágenes con las siguientes características: Para la base de datos: Formato PNG Imágenes en escala de grises de 8 bits Para las imágenes de prueba: PNG Imágenes en escala de grises de 8 bits Imágenes con valores de color de 24 bit 1.7 Tesis del proyecto 4 1.7 Tesis del proyecto El área de la psicología que se encarga de realizar el reconocimiento de expresiones presenta el problema de tener un margen de error al momento de realizar dicho proceso. Por este motivo este trabajo propone el diseño de una herramienta computacional que servirá de apoyo al área de psicología. Cuya finalidad de obtener resultados favorables al momento de realizar el reconocimiento de la microexpresión. El software desarrollado utiliza el método de análisis de componentes principales, una base de datos formada por imágenes de 4 expresiones faciales: felicidad, asco, sorpresa, tristeza, también se utilizó el software Matlab para desarrollar el programa. El reconocimiento de expresiones faciales se basa en la investigación del Dr.Paul Ekman, en la cual se describen los parámetros de cada expresión, también fue necesario consultar la historia de las expresiones faciales principalmente los trabajos de: C.Darwin.[2] Guillaume Duchenne.[6] Haggard e Isaacs.[1] Para lograr hacer el reconocimiento facial utilizando el método de análisis de componentes principales es necesario considerar varios elementos para su aplicación: Obtención de la imagen promedio. Sección (3.2) Matriz de covarianza. Sección (3.4) Eigenvectores y eigenvalores.(3.6) Distancia euclidiana.(3.8) Para hacer las pruebas es necesario trabajar con cada una de las expresiones por separado y adicionar después una por una el resto de las expresiones esto es con la finalidad de detectar el porcentaje de reconocimiento tanto individual y con todas. 5 Capítulo 2 Expresiones faciales, historia y métodos de reconocimiento. 2.1 Expresiones faciales La expresión facial, en los humanos, es uno de los medios más importantes para manifestar emociones y estados de ánimo, como la felicidad, tristeza, enojo, por mencionar algunos. A partir del conocimiento y de la observación de las expresiones faciales, se consegue una mejor comprensión de lo que los demás nos comunica. El rostro, por ser en muchas ocasiones el reflejo de nuestras emociones, también lo es en cierto grado de nuestra conducta. En este sentido, la capacidad de discriminar las emociones a través de la expresión facial favorece, para saber en realidad como se siente una persona. El rostro humano tiene una gran riqueza respecto a la capacidad de expresar emociones y sentimientos, Figura 2.1. En la cara hay más de 20 músculos que participan en la expresividad emocional. Hay expresiones que son innatas, automáticas e involuntarias, mientras que otras son culturales, aprendidas y controlables hasta cierto punto. Figura 2.1: Expresiones faciales de una persona 2.2 Expresiones faciales espontáneas e involuntarias: Microexpresiones 6 2.2 Expresiones faciales espontáneas e involuntarias: Microexpresiones Una Microexpresión se produce por un breve movimiento involuntario de los músculos faciales, Figura 2.2. La mayoría de las personas no son capaces de controlar estas contracciones espontáneas e involuntarias de sus músculos que son provocadas directamente por sus emociones. a) Anatomía Muscular b) Acción Muscular Figura 2.2: Anatomía y acción muscular 2.3 La sonrisa de Duchenne Uno de los primeros experimentos fue realizado por el Doctor Guillaume Duchenne de Boulogne [6], que aplicaba pequeñas descargas eléctricas en los músculos faciales para generar determinadas expresiones,Figura 2.3. Gracias a sus aportaciones se sabe que el músculo orbicular, de difícil control voluntario, produce las características arrugas alrededor de los ojos que sólo aparecen cuando nuestra sonrisa es genuina y no fingida. 2 Expresiones faciales, historia y métodos de reconocimiento. 7 Figura 2.3: Doctor Guillaume Duchenne aplicando descargas eléctricas a un hombre. La sonrisa genuina de Duchenne es un tipo de sonrisa que involucra la contracción de los músculos cigomático mayor y menor cerca de la boca, los cuales elevan la comisura de los labios y el músculo orbicular cerca de los ojos. Su contracción eleva las mejillas y produce arrugas alrededor de los ojos. La razón de que ésta sonrisa sea tan distinta a la voluntaria tiene su origen en las diferencias neurológicas de su funcionamiento. La respuesta muscular que genera una sonrisa espontánea es producto de un impulso generado en los ganglios basales como respuesta a procesos del sistema límbico. En cambio, la sonrisa voluntaria tiene origen en la corteza motora, Figura 2.4. 2 Expresiones faciales, historia y métodos de reconocimiento. 8 a) Sonrisa forzada b) Sonrisa genuina Figura 2.4: Músculos en movimiento durante una sonrisa. Observando este tipo de detalles se sabe cuándo una persona está fingiendo una sonrisa o cuándo ésta es genuina. Una de las expresiones más valoradas es la sonrisa. La sonrisa es la expresión facial que vincula al bienestar y la alegría. Sin embargo, también en el caso de la sonrisa la podemos fingir transmitiendo a la otra persona un estado afectivo que no tiene por qué ser concordante con el verdadero estado de ánimo, Figura 2.5. Figura 2.5: Ejemplo de sonrisa de Duchenne. El músculo que circunda los ojos no obedece a la voluntad; solo se pone en juego mediante un sentimiento verdadero, una emoción agradable. Su inercia, en la sonrisa, delata a un falso amigo. Guillaume Duchenne 2.4 Las microexpresiones: Enfoque de Darwin a Ekman 9 2.4 Las microexpresiones: Enfoque de Darwin a Ekman El primero que escribió sobre microexpresiones fue Charles Darwin en el libro: La Expresión de las Emociones en Hombres y Animales, publicado en 1872. Darwin señaló la naturaleza universal de las expresiones faciales, menciona los músculos utilizados en las mismas y los compara con las emociones de los animales. Posteriormente en 1960, William S. Condon fue pionero en el estudio de las interacciones a nivel de las fracciones de segundo. En su famoso proyecto de investigación, se puso a estudiar segmentos de película de un cuarto y de medio segundo, fotograma a fotograma, en donde cada fotograma representa 1/25 de segundo. Después de estudiar este segmento de la película durante un año y medio, pudo distinguir micromovimientos de interacción, como el de una mujer que movía su hombro exactamente al mismo tiempo que su marido movía las manos, lo que, combinados, producían microritmos. Las microexpresiones se descubren por primera vez por Haggard e Isaacs en los años sesenta [1]. En su estudio de 1966, Haggard e Isaacs comentan cómo descubrieron estas micromomentáneas expresiones mientras escaneaban fotogramas de películas de sesiones de psicoterapia, buscando indicadores de comunicación no verbal entre el terapeuta y el paciente. Ekman y Friesen realizaron importantes avances en la investigación de las expresiones faciales y confirmaron que estas siete emociones básicas se muestran de la misma manera en cualquier parte del mundo: 1. Ira. 2. Asco. 3. Miedo. 4. Tristeza. 5. Felicidad. 6. Sorpresa. 7. Desprecio. La investigación de Paul Ekman en el estudio de las emociones y su relación con las expresiones faciales llevó el trabajo de Darwin al siguiente nivel demostrando que las expresiones faciales de las emociones no son determinadas culturalmente, sino de origen biológico y universal en todas las culturas humanas. 2.5 Emociones: Culturales e innatas 10 2.5 Emociones: Culturales e innatas El ámbito de las emociones no es una ciencia exacta. Desde Darwin, el estudio de las expresiones universales ha preocupado a la comunidad científica, entre los que destacan Paul Ekman, psicólogo en el estudio de las emociones y su relación con la expresión facial, y Ray Birdwhistell. Figura 2.6. Antropólogo fundador de la kinésica o la interpretación de los movimientos corporales. a) Ray Birdwhistell b) Paul Ekman Figura 2.6: Científicos destacados en el estudio de las emociones. 2 Expresiones faciales, historia y métodos de reconocimiento 11 Ekman considera que, en efecto, hay gestos universales: felicidad, tristeza, miedo, enojo, sorpresa y asco que son representadas en la Figura 2.7. Las personas de todo el mundo se ríen cuando están alegres o quieren parecerlo y fruncen el ceño cuando están enojados o pretenden estarlo. El papel de la cultura es disimularlos, exagerarlos, ocultarlos o suprimirlos por completo. Birdwhistell, en cambio, sostiene que a pesar de que algunas expresiones anatómicas son similares en todas las personas, el significado difiere según la cultura a la que pertenezcan. Figura 2.7: Expresiones universales propuestas por Paul Ekman Al igual que Ekman, la mayor parte de los científicos considera que, como mínimo, algunas expresiones sí son universales. La prueba más citada por quienes sostienen tal afirmación es el estudio realizado en niños ciegos de nacimiento. Se ha comprobado que todos los recién nacidos expresan una especie de sonrisa a partir de las cinco semanas de vida, incluso si son ciegos. Los niños ciegos de nacimiento también ríen, lloran, fruncen el ceño y adoptan expresiones típicas de ira, temor o tristeza. 2.6 Expresiones Faciales Universales 12 2.6 Expresiones Faciales Universales Paul Ekman definió seis microexpresiones universales, aunque años más tarde los amplió a 17. Estos fueron los primeros: La sorpresa es definida por Ekman como otra de las emociones básicas, y por lo tanto es innata, universal y adaptativa. La sorpresa, Figura 2.8, surge a partir del descubrimiento de algo inesperado y dura tan sólo unos segundos. Es la emoción más breve de todas, y va seguida inmediatamente de otra emoción como el miedo, la alegría, la rabia, el alivio o el asco. Figura 2.8: Microexpresión de Sorpresa Principales características: Cejas levantadas, colocándose curvas y elevadas. Piel estirada debajo de las cejas. Arrugas horizontales surcan la frente. Parpados abiertos; párpado superior levantado y párpado inferior bajado; el blanco del ojo suele verse por encima del iris, aunque en ocasiones también se coloca por debajo. La mandíbula cae, abierta, de modo que los labios y los dientes quedan separados, pero no hay tensión ni estiramiento de la boca. 2. Expresiones faciales, historia y métodos de reconocimiento 13 El miedo, Figura 2.9, es una de las emociones que Ekman definió como básica, y como tal, se trata de una emoción universal y adaptativa. El miedo es un conjunto de sensaciones que aparecen tras un estímulo o situación amenazante. Su función es avisar de un posible peligro y preparar al organismo para huir y/o atacar. Figura 2.9: Microexpresión de Miedo Principales características: Cejas levantadas y contraídas al mismo tiempo. Las arrugas de la frente se sitúan en el centro y no extendidas por toda la frente. Párpado superior levantado, mostrando la esclerótica, con el párpado inferior en tensión y alzado. Boca abierta y labios o bien tensos y ligeramente contraídos hacía atrás o bien estrechados y contraídos hacia atrás. 2. Expresiones faciales, historia y métodos de reconocimiento 14 El asco, Figura 2.10, es considerado por Ekman una emoción básica, y la describe como un sentimientode aversión. Aversión al sabor, olor, visión, oído, tacto e incluso pensamiento de algo ofensivo y desagradable para nosotros. También pueden provocarnos asco ciertas acciones o incluso ideas. Figura 2.10: Microexpresión de Asco Principales características: Labio superior levantado. Labio inferior también levantado y empujando hacia arriba el labio superior, o bien tirado hacia abajo y ligeramente hacia adelante. Nariz arrugada. Mejillas levantadas. Aparecen líneas debajo del párpado inferior, y el párpado está levantado, pero no tenso. Cejas bajas, empujando hacia abajo al párpado superior. 2. Expresiones faciales, historia y métodos de reconocimiento 15 El enojo, Figura 2.11, es otra de las emociones básicas, siguiendo la definición de Paul Ekman. Y como básica es adaptativa, universal e independiente de la cultura. Su función es doble: por un lado, nos activa para el ataque o la lucha, mientras que por otro lado hace que emitamos señales no verbales amenazantes para informar al enemigo de que estamos listos para atacar. Figura 2.11: Microexpresión de Enojo Principales características: Cejas bajas y contraídas al mismo tiempo. Líneas verticales entre las cejas. Párpado inferior tenso; puede estar levantado o no. Párpado superior tenso y pudiendo estar bajo o no por la acción de las cejas. Mirada dura en los ojos, que pueden parecer hinchados. Labios en una de estas dos posiciones básicas: mutuamente apretados, con las comisuras rectas o bajas; o bien abiertos, tensos y en forma cuadrangular, como si gritaran. Las pupilas pueden estar dilatadas, aunque esta posición no es exclusiva de la expresión facial de enojo, y puede adoptarse también en la de tristeza. Ambigüedad, a menos que el enojo se registre en las tres zonas faciales. 2. Expresiones faciales, historia y métodos de reconocimiento 16 La felicidad, Figura 2.12, es una más de las emociones que Ekman definió como básicas, lo cual implica que es universal y adaptativa. El papel principal de la alegría, ha sido favorecer la disposición del ser humano a relacionarse y vincularse socialmente. La sensación de bienestar generada por la alegría también promueve altos niveles de energía y disposición a la acción constructiva. Figura 2.12: Microexpresión de Felicidad Principales características: Comisuras de los labios hacia atrás y arriba. La boca puede estar abierta o no, con o sin exposición de dientes. Una arruga (naso-labial) baja desde la nariz hasta el borde exterior, más allá de la comisura de los labios. Mejillas levantadas. Aparecen arrugas por debajo del párpado inferior que puede estar levantado, pero no tenso. Las arrugas denominadas pata de gallo van hacia afuera desde los ángulos externos de los ojos (en estas fotos, cubiertas por el cabello). 2. Expresiones faciales, historia y métodos de reconocimiento 17 La tristeza, Figura 2.13, es otra de las emociones básicas, según la definición de Paul Ekman. Y como el resto de emociones básicas es universal, adaptativa e independiente de la cultura. La función de la tristeza es llevarnos a un estado de recogimiento que dé lugar a la reflexión. Figura 2.13: Microexpresión de Tristeza Principales características: Los ángulos interiores de los ojos hacia arriba. La piel de las cejas forma un triángulo, con el ángulo interior superior. El ángulo interior del párpado superior aparece levantado. Las comisuras de los labios se inclinan hacia abajo o los labios tiemblan. 2.7 Sistema de Codificación de Acción Facial (FACS) 18 2.7 Sistema de Codificación de Acción Facial (FACS) Ekman co-desarrolló el Sistema de Codificación de Acción Facial (FACS- Facial Action Coding System) con Wallace Friesen V. en 1976. El FACS es un método para clasificar los movimientos asociados a los músculos de la cara, fue ideado como un sistema de carácter general para medir toda conducta facial visible en cualquier contexto, sin limitarse, a las acciones relacionadas con la emoción. El FACS especifica las unidades mínimas no sólo según las posibles acciones anatómicas sino también según los movimientos que pueden distinguirse con facilidad. En vez de nombrar los músculos individualmente, se especifican Unidades de Acción (Action units, AU), referidas a áreas del rostro cuyo movimiento puede apreciarse con relativa facilidad. El Doctor Paul Ekman decidió agrupar los músculos en esas Unidades de Acción, de tal manera que fuese más fácil su clasificación. Aún con esta aproximación simplificada es posible contar más de 10.000 expresiones faciales distintas. Además, la combinación de ciertas AU, nos pueden dar como resultado una emoción que no entra en el estudio de Microexpresiones Universales. El FACS original ha sido modificado para analizar los movimientos faciales en varios primates, la combinación de unidades de acción se presentan en expresiones parecidas a la de los animales por ejemplo chimpancés. Figura 2.14. Más recientemente, se adaptado para una especie doméstica, el perro. Por lo tanto, FACS se puede utilizar para comparar los repertorios faciales a través de especies debido a su base anatómica Figura 2.14: Combinación de Unidades de Acción, demostrando expresiones similares entre animales y humanos. 2 Expresiones faciales, historia y métodos de reconocimiento 19 El uso de FACS se ha propuesto para su uso en el análisis del Trastorno depresivo mayor, y la medición del dolor en pacientes que no pueden expresarse verbalmente. EMFACS, Emotional Facial Action Coding System (Sistema de codificación de emoción facial) y FACSAID Facial Action Coding System Affect Interpretation Dictionary (Diccionario de interpretación de sistemas de codificación facial) consideran solo acciones faciales relacionadas a la emoción. Como ejemplo: la emoción de tristeza requiere de la suma de las Unidades de Acción: 1, 4 y 15 para que se pueda expresar, lo mismo sucede con el resto de las microexpresiones y sus Unidades de Acción correspondientes, Tabla 2.1. Tabla 2.1: Microexpresiones y sus Unidades de Acción Emoción Unidades de Acción Tristeza 1+4+15 Sorpresa 1+2+5B+26 Miedo 1+2+4+5+7+20+26 Felicidad 6+12 Asco 9+15+16 Desprecio R12A+R14A Enojo 4+5+7+23 El FACS es lento de aprender y utilizar, ya que requiere la visión repetida y a cámara lenta de las acciones faciales, no siendo adecuado, por tanto, para un proceso de codificación rápido. Las personas expertas en el tema, muchas veces llegan a una conclusión correcta sobre la microexpresión a leer, esto es gracias a su experiencia en el ámbito. 2.7.1 Nomenclatura para Unidades de Acción Unidades de Acción (AU): Son las acciones fundamentales de músculos o grupos individuales de los mismos. Nominadores de acción: Son movimientos unitarios que pueden implicar las acciones de varios grupos musculares (por ejemplo, un movimiento hacia adelante empujando de la mandíbula). La base muscular para estas acciones no se ha especificado y comportamientos específicos no han sido distinguidos con la mayor precisión para la Unidad de Acción. Las intensidades de AU se anotan añadiendo las letras A-E (para la intensidad mínima- máxima) y números para la unidad de acción, por ejemplo, AU 1A es la traza más débil de AU 1 y AU 1E es la máxima intensidad posible para el gesto facial, Figura 2.15. 2 Expresiones faciales, historia y métodos de reconocimiento 20 La notación de intensidad es la siguiente: A - Mínimo B - Leve C - Pronunciado D - Severo o extremo E – Máximo Como ejemplos: la notación AU1 se presenta cuando se levanta la ceja interior y la notación AU9 se presenta al momento de arrugar la nariz. Cada notación tiene una representación distinta, Figura 2.15. Figura 2.15: Demostración de algunas Unidadesde Acción. 2.8 Historia del reconocimiento facial 21 2.8 Historia del reconocimiento facial El reconocimiento facial automatizado es relativamente un concepto nuevo. Desarrollado en los años 60, el primer sistema semiautomático para reconocimiento facial requería del administrador para localizar rasgos (como ojos, orejas, nariz y boca) en las fotografías antes de que éste calcule distancias a puntos de referencia en común, los cuales eran comparados luego con datos de referencia. Hay dos familias de técnicas de reconocimiento facial: técnicas basadas en la apariencia y técnicas basadas en modelos. Las técnicas basadas en apariencia están formadas por otros grupos que son el lineal y no lineal, el lineal abarca métodos específicos para la detección facial que son: PCA, DCT, LPP, LDA, mientras que el segundo grupo no lineal solo tiene dos métodos: KPCA e ISOMAP. Los basados en modelo están de igual forma subdivididos en dos grupos: 2D y 3D, el 2D cuenta con dos métodos: EBG y AAM mientras que el 3D solo cuanta con un método: 3D MM. Figura 2.16. Figura 2.16: Algunos métodos de clasificación 2 Expresiones faciales, historia y métodos de reconocimiento 22 Los sistemas basados en la apariencia se utilizan directamente sobre las imágenes sin hacer uso de modelos 3D. Estos tipos de sistemas representan un objeto en función de diferentes vistas del mismo. En estos sistemas cada imagen se representa como un punto en un sub- espacio vectorial, de forma que la comparación entre la imagen de test y las imágenes de referencia se realiza en el sub-espacio vectorial caras. El objetivo de estos algoritmos es clasificar las diferentes caras en el nuevo sub-espacio, pero para ello será necesario entrenar previamente el sistema con imágenes de diferentes caras con diferentes vistas. Por otro lado, están los sistemas basados en modelos, Figura 2.17.Los cuales intentan construir un modelo lo más descriptivo posible de la cara humana capaz de detectar con precisión las variaciones faciales. Figura 2.17: Imagen 2D, mapa de profundidad y representación 3D del modelo. Estos sistemas tratan de obtener características biométricas de las imágenes para realizar el reconocimiento de distancia entre ojos, grosor de la nariz, Figura 2.18. Habitualmente estas técnicas requieren de imágenes de gran resolución. Cuando se utilizan estos sistemas, el algoritmo sabe con antelación el objeto que ha de representar y lo que intenta hacer es que corresponda la cara real con el modelo. El proceso que se suele seguir cuando se usan estas técnicas está formado por tres pasos: Construcción del modelo. Ajustar el modelo a la imagen de test. Utilizar los parámetros del modelo ajustado para calcular la similitud entre la imagen de test y las imágenes de referencia para realizar el reconocimiento. 2 Expresiones faciales, historia y métodos de reconocimiento 23 Figura 2.18: Detección de la posición y distancia de los ojos a través del método de convolución Algunas de las ventajas e inconvenientes de los sistemas basados en la apariencia frente a los basados en modelos son las siguientes: Ventajas: Más rápidos. Requieren de un menor tamaño de las imágenes. Inconvenientes: Más afectados por cambios en la orientación o expresión de la cara. Más dificultades frente a cambios en la iluminación. No requieren de un conocimiento previo de las imágenes. Mayor complejidad. Las tecnologías de reconocimiento de caras (face recognition technologies o FRT) son un área de investigación muy activa en los últimos años que engloba varias disciplinas como el procesado de imagen, redes neuronales, reconocimiento de patrones (patern recognition) y visión por computadora. Tiene varias aplicaciones potenciales, tanto comerciales como de seguridad, como por ejemplo la identificación de fotos de carnets, pasaportes o identificación en tiempo real de personas desde imágenes de cámaras de vigilancia. El reconocimiento de caras, aunque fácilmente realizable por las personas, es difícilmente implementarla de una manera totalmente automatizada en computadora. El objetivo de un sistema de reconocimiento de caras es, generalmente, el siguiente: dada una imagen de una cara desconocida (o imagen de test) encontrar una imagen de la misma cara en un conjunto de imágenes conocidas (conjunto de entrenamiento). Las mayores dificultades a las que se puede enfrentar un sistema de reconocimiento de caras son: las variaciones en la expresión de las caras, las variaciones en las condiciones de iluminación y las rotaciones en profundidad. Las rotaciones en profundidad son aquellas en que la cara no gira en el plano de la imagen y por lo tanto parte de la cara puede quedar oculta. 2.9 Reconocimiento facial 24 2.9 Reconocimiento facial A pesar de la gran variedad de sistemas existentes, todo sistema de FR puede dividirse en tres partes: Pre-procesado de las imágenes: consiste en intentar compensar todo lo que puede provocar que dos imágenes de la misma cara sean diferentes. Esto incluye normalizar el tamaño y el contraste de la imagen. A veces también se intentan compensar los cambios de iluminación, la rotación y otras características de la imagen que pueden perjudicar los resultados del sistema. Existe una buena cantidad de investigaciones dedicadas únicamente en esta parte, debido a su complejidad. Extracción de características: en esta fase se extraen una serie de valores característicos de cada imagen, como pueden ser los coeficientes de algún desarrollo, la salida de un filtro, etc. Independientemente de su origen estos valores deben intentar caracterizar con la mayor exactitud cada cara (lo que se considera eficiencia) y, al mismo tiempo, deben tener capacidad de discriminación. Esto significa que los valores extraídos de las imágenes de una cara y los de las imágenes de otras caras deben formar dos grupos lo más compactos y separados posibles. Comparación de características: se comparan los valores característicos de la imagen de test (la que se quiere reconocer) con los de las imágenes de entrenamiento y se calcula una medida de semejanza. Los métodos van desde la distancia euclidiana (considerando que el conjunto de valores característicos forma un vector) a otros mucho más sofisticados. La imagen de entrenamiento que más semejante sea a la de test se considerará que es de la misma persona. Las técnicas de reconocimiento de caras se clasifican en tres tipos, en función de los métodos utilizados para la extracción de las características de la cara: 1) Técnicas basadas en la extracción de características geométricas de la cara como las posiciones relativas y dimensiones de ciertos elementos de la cara (cejas, ojos, nariz, boca y contorno de la barbilla principalmente). 2) Técnicas basadas en procedimientos de emparejamiento de plantillas (template matching), en las que zonas de la imagen son comparadas con zonas equivalentes de otra imagen utilizando alguna distancia (distancia Euclidiana) para poder calibrar su grado de semejanza o discrepancia. Los sistemas que utilizan este tipo de técnicas carecen de la fase de extracción de características, ya que utilizan directamente la información de niveles de gris (o color) de los pixeles de la imagen. 2 Expresiones faciales, historia y métodos de reconocimiento 25 3) Técnicas basadas en la aplicación de transformadas: las características de la imagen son los coeficientes resultantes de aplicar algún procedimiento numérico o alguna transformada, como la transformada Karhunen-Loeve. 2.10. Enfoques predominantes Hay dos enfoques predominantes en el problema de reconocimiento facial: El geométrico (basado en rasgos) y el fotométrico (basado en lo visual). Conforme a que el interés investigador en reconocimiento facial continuó,se desarrollaron algoritmos diferentes, de los cuales se consideran los más importantes en la literatura del reconocimiento facial: Análisis de componentes principales (Principal Components Analysis, PCA) Análisis lineal discriminante (Linear Discriminant Analysis, LDA) Correspondencia entre agrupaciones de grafos elásticos (Elastic Bunch Graph Matching, EBGM). Kit de desarrollo de software facial (Face Software Development Kit, FaceSDK). Modelo de Apariencia Activa (Active Appearance Model, AAM). Modelo de forma activa (Active Shape Model, ASM). Proyecciones preservadas de localidad (Locality Preserving Projections, LPP). a) Análisis de componentes principales PCA, (Principal Component Analysis) comúnmente referida al uso de Eigenfaces, es la técnica impulsada por Kirby & Sirivich en 1988. Con PCA, el sondeo y la galería de imágenes deben ser del mismo tamaño y deben ser normalizadas previamente para alinear los ojos y bocas de los sujetos en las imágenes. La aproximación de PCA es luego utilizado para reducir la dimensión de los datos por medio de fundamentos de compresión de datos y revela la más efectiva estructura de baja dimensión de los patrones faciales. Esta reducción en las dimensiones quita información que no es útil y descompone de manera precisa la estructura facial en componentes ortogonales (no correlativos) conocidos como Eigenfaces. Cada imagen facial puede ser representada como una suma ponderada (vector de rasgo) de los eigenfaces, las cuales son almacenadas en un conjunto 1D. Una imagen de sondeo es comparada con una galería de imágenes midiendo la distancia entre sus respectivos vectores de rasgos. La aproximación PCA típicamente requiere la cara completa de frente para ser presentada cada vez; de otra forma la imagen dará un resultado de bajo rendimiento. La ventaja primaria de esta técnica es que puede reducir los datos necesarios para identificar el individuo a 1/1000 de los datos presentados. 2 Expresiones faciales, historia y métodos de reconocimiento 26 Figura 2.19: Eigenfaces estándar. Los vectores de los rasgos son derivados utilizando Eigenfaces. b) Análisis lineal discriminante LDA, (Linear Discriminant Analysis) es una aproximación estadística para clasificar muestras de clases desconocidas basadas en ejemplos de entrenamiento con clases conocidas, Figura 2.20. Esta técnica tiene la intención de maximizar la varianza entre clases (ej. Entre usuarios) y minimizar la varianza de cada clase (Ej. De cada usuario). En la figura 2.20 donde cada bloque representa una clase, hay grandes variaciones entre clases, pero pequeñas en cada clase. Cuando se trata con datos faciales de alta dimensión, esta técnica enfrenta el problema de muestras de tamaño pequeño que surge donde hay un número pequeño de ejemplos de entrenamiento comparados a la dimensión del espacio de muestra. Figura 2.20: Ejemplo de seis clases usando LDA. c) Correspondencia entre agrupaciones de grafos elásticos 27 c) Correspondencia entre agrupaciones de grafos elásticos EBGM, (Elastic Bunch Graph Matching) tiene en cuenta que las imágenes faciales reales tienen muchas características no lineales que no son tratadas en los métodos lineales de análisis discutidos previamente, tales como variaciones en la iluminación (Iluminación de exteriores vs. Interior fluorescente), postura (frontal vs. inclinada) y expresión (sonrisa vs. ceño fruncido). Una transformada wavelet crea una arquitectura de enlace dinámico que proyecta el rostro sobre la planilla elástica. El Jet Gabor es un nodo en la planilla elástica, manifestado por círculos en la imagen debajo. El cual describe el comportamiento de la imagen alrededor de un píxel, Figura 2.21. Este es el resultado de una convolución de la imagen con un filtro Gabor, el cual es usado para detectar formas y extraer características utilizando procesamiento de imagen. (Una convolución expresa la suma de solapamientos de las funciones en la mezcla de funciones entre sí). El reconocimiento está basado en la similitud de la respuesta del filtro Gabor a cada nodo Gabor. Este método biológicamente basado utilizando filtros Gabor es un proceso ejecutado en la corteza visual de los mamíferos más grandes. La dificultad con este método es el requerimiento de la precisa localización del punto de referencia el cual puede ser algunas veces logrado combinando los métodos PCA y LDA. Figura 2.21: Correspondencia entre agrupaciones de grafos elásticos. La extracción de características faciales es el paso más crítico en reconocimiento de expresiones, tenemos que extraer la expresión facial con claridad y eficacia a fin de reconocer la expresión con mayor precisión posible. Las investigaciones en función de la extracción de la expresión basadas en secuencias de imágenes dinámicas son mucho menos que de las imágenes estáticas. Debido a la corta duración y la pequeña intensidad de la micro-expresión, la extracción de características de micro-expresiones basadas en las imágenes dinámicas se convierten en una tarea muy difícil. 2. Expresiones faciales, historia y métodos de reconocimiento. 28 No hay nuevos métodos para la extracción de micro-expresión. La mayoría optan por hacer un procesamiento más sutil en las secuencias de micro-expresión. Luego se utilizan los métodos de extracción de características de la expresión ordinaria para extraer las características. A través del estudio a fondo de la base de datos, se utiliza el LBP-TOP para la extracción de características, este método fue presentado por Guoying Zhao equipo de la universidad de Oulu en Finlandia, 2007.El propósito era superar la insuficiente que LBP al utilizar una secuencia de procesamiento de imágenes y hacer el cálculo más simplificado. Muchos sistemas utilizan hoy en día como el sistema de la cascada de P. Viola y M. Jones, en un primer momento se utilizó debido a su velocidad y fiabilidad en tiempo, en la actualidad debido a que ha sido ampliamente aplicado en productos tales como Matlab y OpenCV. En particular, el detector de Viola y Jones no puede lidiar bien con caras no frontales, tiene una tasa bastante alta de falsos positivos, es decir, que identifica objetos o elementos del fondo como una cara. Un modelo similar fue propuesto para la tarea específica de detección de rostros por Orozco y B. Martínez. Esto se traduce en un mejor rendimiento y una ejecución más rápida expensas de la detección del punto facial. Algunos otros métodos son la distancia de Cook y la distancia de Mahalanobis, de los cuales hay tres tipos: la comparación con la media de la muestra, la comparación con la observación más cercana, y la comparación con cada observación, un problema que se presenta es cuando algunos valores pueden mostrar micro-expresiones. En los últimos años, algunos investigadores han comenzado a reconocer micro-expresión utilizando algoritmos Polikovsky, se les permitió a diez estudiantes universitarios mostrar micro-expresiones y utilizar una cámara de 200 cuadros por segundo para grabar. Ellos identificaron con éxito 13 tipos de micro-expresiones permitiendo a los participantes ver los videos y luego se les pidió que las imitaran. Ellos usando el modo de tensión y de presión para detectar micro-expresiones lograron distinguir las que eran exageradas. d) Kit de desarrollo de software facial. 29 d) Kit de desarrollo de software facial. FaceSDK, (Face Software Development Kit) es una biblioteca multiplataforma que permite a Microsoft Visual C + +, C #, VB.NET, Java y los desarrolladores de Delphi crear una variedad de aplicaciones que requieren el reconocimiento de rostros rápida y precisa y la identificación. Emplea algoritmos sofisticados para detectar y rastrear los rasgos faciales de forma rápida y fiable mostrando las coordenadas de 66 puntos de característicasfaciales, incluyendo ojos, contornos de ojos, cejas, contorno de los labios, punta de la nariz y así sucesivamente, Figura 2.22, la detección funciona en tiempo real, Figura 2.23. Figura 2.22: Reconocimiento de los 66 puntos en los rostros. Figura 2.23: Detección del rostro en tiempo real. 2. Expresiones faciales, historia y métodos de reconocimiento. 30 La biblioteca de identificación de la cara se puede utilizar en la creación de imágenes ópticas y soluciones de procesamiento de video, aplicaciones web y sistemas de automatización de acceso biométricos. El sistema se utiliza ampliamente en la supervisión de seguridad, control de acceso y sistemas de vigilancia. El SDK ha sido utilizado por la industria del entretenimiento para crear animaciones en tiempo real, Figura 2.24. Figura 2.24: obtención del rostro de una persona para su posterior procesamiento. FaceSDK está diseñado para llevarse a cabo igualmente bien bajo diferentes condiciones de iluminación. Funciona bien bajo la luz del día, fluorescente y la iluminación incandescente. Cuando se prueba en una base de datos, la biblioteca identifica correctamente los individuos en el 93.9% de los casos. e) Modelo de Apariencia Activa 31 e) Modelo de Apariencia Activa AAM, (Active Appearance Model, AAM) permiten reproducir de forma sintética imágenes de superficies que incluyen deformaciones no rígidas y cambios de apariencia. Están basados en la obtención, mediante una fase de entrenamiento, de un modelo estadístico de la forma y la apariencia del objeto de interés. En un AAM la forma es descrita mediante un conjunto de N puntos característicos (Parámetros de forma), que determinan una malla, Figura 2.25. Figura 2.25: Ejemplo de malla en AAM El proceso completo de análisis de una imagen mediante AAM, está constituido por dos fases principales: 1) Fase de construcción del modelo AAM (entrenamiento) 2) Fase de ajuste del modelo AAM (reconocimiento). La fase de construcción del modelo abarca diferentes tareas: la elección de las imágenes de entrenamiento, elección de puntos de control adecuados, marcado de las imágenes, alineamiento y normalización del conjunto de entrenamiento, cálculo del modelo estadístico de forma y cálculo del modelo estadístico de textura. Esta etapa se realiza una sola vez. Una vez que se ha obtenido el modelo, se puede utilizar tantas veces como sea necesario. La fase de ajuste toma de punto de partida el modelo ya construido e intenta ajustarlo sobre el objeto de una imagen nueva. Para llevar a cabo esto, la forma o contorno medio de nuestro modelo será proyectado sobre la imagen. Mediante sucesivas iteraciones, se va deformando modificando los parámetros dentro de los límites establecidos, de manera que nunca deje de ser un ejemplo válido. Cuando acaba este proceso de ajuste, el contorno resultante será una realización del modelo con unos parámetros únicos y que se ajustará lo más posible a la imagen origen. f) Modelo de forma activa 32 f) Modelo de forma activa El modelo estructural que define ASM, (Active Shape Model) está compuesto por tres elementos: i) un modelo de contorno, ii) un modelo de apariencia y iii) un algoritmo de búsqueda para ajustar el modelo mediante la minimización de una función de coste. Modelo de contorno. El objetivo del modelo de contorno es asegurar que la segmentación produce contornos válidos para la región facial. El modelo de contorno viene dado por los componentes principales de los vectores definidos por las marcas de referencia. Una región facial queda definida mediante n marcas que se pueden agrupar para formar vectores de contorno de la forma. Modelo de Apariencia. El modelo de apariencia se limita al borde de la región facial sobre la imagen en escala de grises y es la derivada normalizada en la dirección perpendicular al contorno de la misma. Su objetivo es asegurar que la segmentación localiza el rostro en una posición donde la estructura de la imagen a los lados (o dentro) del contorno es similar a la estructura de las imágenes de entrenamiento. El modelo de apariencia que define la estructura de la imagen alrededor de cada marca se obtiene a partir de un perfil de píxeles muestreados en las direcciones perpendiculares al contorno. La dirección perpendicular a la marca se obtiene rotando 90º el vector formado por las marcas. Algoritmo de Búsqueda. El contorno de la región facial se ajusta mediante un proceso iterativo que comienza en el contorno medio. En cada iteración, cada marca se mueve n posiciones en la dirección perpendicular al contorno y se coloca en la posición que ofrece la menor distancia de Mahalanobis. Tras la actualización de las marcas, el modelo se desplaza a las nuevas posiciones. A continuación, en la Figura 2.26, se muestra un ejemplo de la búsqueda de una cara utilizando el Modelo de Forma Activa. Figura 2.26: Búsqueda de una cara utilizando el Modelo de Forma Activa. g) Proyecciones preservadas de localidad 33 g) Proyecciones preservadas de localidad LPP, (Locality Preserving Projections) es un algoritmo lineal que del mismo modo que PCA realiza una reducción dimensional de los datos. Al tratarse de un algoritmo lineal es rápido y útil para aplicaciones prácticas. Una de las propiedades que lo diferencian de PCA es que conserva la estructura global de los datos que se utilizan, Figura 2.27. De este modo los ‘vecinos’ para un dato en concreto serán los mismos en el espacio original, de alta dimensionalidad, y en el nuevo subespacio de baja dimensionalidad. Al conservarse la estructura local de los datos, las imágenes pertenecientes a un mismo individuo estarán cercanas entre si y alejadas de las de otros individuos, es decir, hay una discriminación entre clases, Figura 2.28. Figura 2.27: En esta imagen podemos ver como a diferencia de PCA, en LPP se conserva la estructura local de los datos. Figura 2.28: Representación de la estructura de los datos en el nuevo subespacio. Este ejemplo está formado por 5 personas y cuatro imágenes por persona. 2. Expresiones faciales, historia y métodos de reconocimiento 34 Este método presenta algunos inconvenientes. Uno de ellos, aunque para el caso de este estudio no afecta, es la dificultad de recuperar los datos originales a partir de los datos proyectados al nuevo subespacio, esto se debe al hecho de hacer uso de bases no ortogonales. Por otro lado, este método es interesante por diferentes perspectivas: Los mapas están diseñados para minimizar algún criterio objetivo procedente de las técnicas lineales clásicas. Como LPP preserva la estructura local de los datos, el sistema tendrá los mismos ‘vecinos’ en el espacio de baja dimensionalidad que en el de alta. LPP es un método lineal, lo que hace que sea rápido y conveniente para aplicaciones prácticas. LPP está definida para todos los casos, a diferencia de las técnicas de reducción no lineales que solo están definidos para el conjunto de datos de entrenamiento, de manera que al tener un nuevo dato LPP es capaz de representarlo en el nuevo subespacio sin tener que recalcularse las matrices de proyección. 2.11 Principales trabajos sobre reconocimiento de expresiones 35 2.11 Principales trabajos sobre reconocimiento de expresiones En el trabajo de Sungkyu Noh, Hanhoon Park, Yoonjong Jin, y Jong-II Park se presenta un método de reconocimiento de expresiones faciales utilizando el análisis de energía de movimiento de función adaptativa. El método se simplifica y evita complicadas representaciones del modelo de la cara o algoritmos caros para estimar los movimientos faciales.El método que se propone utiliza un modelo basado en la acción de la cara, simplificado la complejidad de todo el proceso de análisis de la expresión y el reconocimiento facial, estimando los movimientos faciales en una rentable forma. Shyi-Chyi Cheng, Ming-Yao Chen, Hong-Yi Chang, Tzu-Chuan Chou presentan un sistema de reconocimiento de expresiones faciales automático que utiliza un algoritmo de aprendizaje basado en la semántica mediante el proceso de jerarquía analítica (AHP). En la fase de reconocimiento, sólo las características de bajo nivel se utilizan para clasificar la emoción de una imagen de la cara de entrada. Los esquemas de aprendizaje semántico propuestos proporcionan una manera de cerrar la brecha entre el concepto semántico de alto nivel y las características de bajo nivel para el reconocimiento automático expresión facial. En el trabajo de T. Xiang, M.K.H. Leung∗, S.Y. Cho propone un enfoque eficaz para reconocimiento de expresiones faciales que analiza una secuencia de imágenes en lugar de una sola imagen. La transformada de Fourier se utiliza para extraer las características para representar una expresión. La representación se procesa adicionalmente usando el C fuzzy mediante cálculos para generar un modelo espacio-temporal para cada tipo de expresión. Sungsoo Park, Daijin Kim, este trabajo propone un nuevo método de reconocimiento de expresiones faciales que utiliza la ampliación de movimiento para transformar expresiones sutiles en las correspondientes exageradas. Este proceso consiste en cuatro pasos: En primer lugar, el modelo de apariencia activa (AAM) extrae 70 puntos característicos faciales. El segundo lugar, la secuencia de imagen de la cara está alineada con tres puntos de función (dos ojos y la punta de la nariz). En tercer lugar, los vectores de movimiento de 27 puntos característicos se calculan. Por último, las expresiones faciales exageradas se obtienen de los vectores de movimiento del aumento de los 27 puntos característicos. Teng Sha, MingliSong, JiajunBu, ChunChen, DachengTao, en este trabajo se propone un enfoque de dos etapas, una de selección y otra para elegir las características más completas y discriminativas del reconocimiento de expresiones faciales en 3D. En la etapa de selección, utilizan un algoritmo novedoso de filtro basado en corte normalizado (NCBF), para seleccionar la alta y baja redundancia relevante de características geométricas localizadas (GLF) y funciones de curvatura de la superficie (SCF). En la etapa para elegir las características, PCA se lleva a cabo en el GLF seleccionado y SCF. Por último, el GLF procesado y SCF se fusionan para conseguir detectar la expresión facial. 2. Expresiones faciales, historia y métodos de reconocimiento 36 Caifeng Shan, Shaogang Gong, Peter W. McOwanlogran en su trabajo se logra la obtención de una representación facial efectiva a partir de imágenes de rostros originales, lo que es un paso importante para el reconocimiento de expresiones faciales exitosa. En ese trabajo se ha valorado empíricamente la representación facial basado en características locales estadísticas, patrones binarios locales, para el reconocimiento de la expresión facial persona independiente. La información de los trabajos se resumió considerando los siguientes datos: Referencia, análisis e identificación, base de datos, tipo de expresiones reconocidas y precisión. Tabla 2.2 Tabla 2.2: Principales trabajos indicando los parámetros más importantes de cada uno. Referencia Análisis e identificación Base de datos Tipo de expresión reconocidas Precisión Noh et al (2007) Adaptive Facial, Feature Region, Detection and Feature-Adaptive, Motion Energy JAFFE Ira, asco, miedo, felicidad, sorpresa 75.40% Cheng et al (2007) Analytical Hierarchy Process (AHP) JAFFE Ira, felicidad,sorpresa 85.20% Xiang et al (2008) FCM Cohn- Kanade Ira, asco, miedo, felicidad 88.80% Park and Kim (2009) Diferential-AAM SFED 2007 Ira, felicidad, sorpresa 88.12% Shan et al (2009) LBP, Boosted-LBP y Gabor Cohn- Kanade, JAFFE y MMI Ira, asco, miedo, sorpresa 89.72% Sha et al (2011) GLF,PCA,SCF y FS BU-3DFE Ira, asco, miedo, felicidad, sorpresa 83.50% 37 Capítulo 3 Análisis de componentes principales y elementos matemáticos 3.1 Análisis de componentes principales Un problema central en el análisis de datos multivariantes es la reducción de la dimensionalidad: si es posible describir con precisión los valores de p variables por un peque ̃no subconjunto r < p de ellas, se habrá reducido la dimensión del problema a costa de una peque ̃na perdida de información. La técnica de componentes principales es debida a Hotelling (1933), aunque sus orígenes se encuentran en los ajustes ortogonales por mínimos cuadrados introducidos por K. Pearson (1901). Es una técnica estadística con el objetivo de estudiar las relaciones que se presentan entre p variables correlacionadas (que miden información común) se puede transformar el conjunto original de variables en otro conjunto de nuevas variables no correlacionadas entre sí (que no se repita o exista redundancia en la información) llamado conjunto de componentes principales. 3.2 Imagen promedio La imagen promedio, Figura 3.1, es la suma de cada una de las imágenes que conforman la base de datos y el resultado es dividido entre la cantidad de ellos, el proceso se realiza una vez que todas las imágenes son convertidas a vectores. Figura 3.1: Imagen promedio 3.3 Normalizar o centrar la imagen 38 3.3 Normalizar o centrar la imagen Se llama centrar o Normalizar al proceso de restarles la imagen promedio (�̅� ) a cada una de los elementos de la base de datos(𝑥1). Este proceso, Figura 3.2, se realiza para eliminar las características comunes entre imágenes y solo dejar las características únicas de cada una (𝐴1). 3.4 Matriz de covarianza En estadística, una matriz de varianza-covarianza es una forma de representar las relaciones entre un conjunto de dos o más variables. Se trata de un arreglo cuadrado de números, con un número de filas y columnas equivalente al número de variables. Las varianzas se escriben en la diagonal principal desde el extremo superior izquierdo al extremo inferior derecho y las covarianzas en el resto de las celdas de la matriz. La varianza de una variable es una medida de qué tan extendida se encuentra su distribución. La covarianza entre dos variables es una medida de la fuerza con la que están relacionadas. La matriz de covarianza se obtiene con la siguiente ecuación. Se puede simplificar a 𝐾𝑥 = 𝐴 ∗ 𝐴′, dado que los vectores y valores propios de una matriz y los de una matriz dividida por un escalar son iguales. = 𝐴1 𝑥1 − �̅� 𝐾𝑥(𝑇𝑖, 𝑇𝑗) = 1 𝑁 ∑(𝑇𝑖 − �̅�)(𝑇𝑖 − �̅�)′ 𝑁 𝑖=1 = [ 𝜎11 𝜎21 ⋯ 𝜎1𝑛 𝜎21 𝜎22 ⋯ 𝜎2𝑛 ⋮ ⋮ ⋱ ⋮ 𝜎𝑛1 𝜎𝑛2 ⋯𝜎𝑛𝑛] Figura 3.2: Representación del proceso para normalizar una imagen. 3.5 Matriz de covarianza reducida 39 3.5 Matriz de covarianza reducida La matriz de covarianza es demasiado grande por lo tanto se necesitaría un equipo de cómputo con un alto nivel de procesamiento y mucho tiempo para poder trabajar con ella, así que se calcula la matriz de covarianza reducida invirtiendo la multiplicación: 𝐾𝑥=𝐴∗𝐴′ 𝐾𝑟 =𝐴′∗𝐴 3.6 Eigenvector Eigenvectores y eigenvalores También son conocidos como vectores y valores propios de una matriz cuadrada. Dada una transformación lineal A, un vector ℯ ≠ 0 es un eigenvector de A si satisface la ecuación 𝐴ℯ = 𝜆ℯ para algún escalar 𝜆, llamado eigenvalor de A correspondiente a cada eigenvector. Dada una matriz simétrica A, la matriz
Compartir