Reconocimiento Facial a través Del Procesamiento Estadístico De Imágenes

Pedagogía

•
Outros

Yesenia Nuñez
7/9/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Pedagogía

677.817 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Universidad de Los Andes
Facultad de Ciencias Económicas y Sociales
Instituto de Estadı́stica Aplicada y Computación IEAC
RECONOCIMIENTO FACIAL A TRAVÉS DEL
PROCESAMIENTO ESTADISTICO DE IMÁGENES
Lic. Jairo Julián Ochoa
Tutor: Dr. José Luciano Maldonado
Enero, 2015
c©2015 Universidad de Los Andes, Mérida - Venezuela
Dedicatoria
A Dios, por demostrar su inmensa gloria en cada instante
A Yasmin, por existir y ser mi compañera de vida
A Giulianna, por ser mi más preciado tesoro
A Josefina, por su lucha tenaz y don de la vida
II
Agradecimientos
A mi tutor, Dr. José Luciano Maldonado, quién con sus sabios consejos e inestimable cali-
dad humana contribuyó enormemente en alcanzar esta meta.
A todos mis docentes de la Maestrı́a
A todo el equipo administrativo del IEAC
Al santuario de ideales, nuestra Universidad de Los Andes
III
RECONOCIMIENTO FACIAL A TRAVÉS DEL
PROCESAMIENTO ESTADÍSTICO DE IMÁGENES
Lic. Jairo Julián Ochoa
Resumen: En este trabajo de investigación se realizó reconocimiento de rostros mediante
los Modelos Ocultos de Markov en combinación con la Transformada Discreta de Onda. Para
ello se construyó una base de datos de rostros contentiva de 100 fotografı́as de cinco individuos
y se extrajeron los coeficientes de aproximación de cinco regiones del rostro que se convirtieron
en las secuencias de entrenamiento de los modelos. Se combinaron diversos niveles de descom-
posición de las imágenes, familias wavelets y número de estados en los Modelos Ocultos de
Markov. En las pruebas experimentales la tasa de reconocimiento varió de acuerdo con la ar-
quitectura de los modelos empleados, oscilando entre 20% para aquellos con mayor número de
estados y bajo nivel de descomposición y 100% para modelos con menor número de estados y
altos niveles de descomposición. Estos resultados son un indicativo de la potencia que dichos
modelos poseen y demostraron ser una herramienta adecuada para el desarrollo de aplicaciones
de este tipo, superando otras tecnologı́as.
Palabras clave: Modelos Ocultos de Markov, Transformada Discreta de Onda, Reconoci-
miento de Rostros, Wavelets.
IV
ÍNDICE GENERAL
1. Descripción del Proyecto Desarrollado 1
1.1. Reconocimiento facial a partir de imágenes . . . . . . . . . . . . . . . . . . . 2
1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Objetivos de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Organización del documento de tesis . . . . . . . . . . . . . . . . . . . . . . . 11
2. Fundamento Teórico 12
2.1. Imágenes y Pı́xeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Imagen digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Tipos de imágenes digitales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Los Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . 19
V
ÍNDICE GENERAL
2.4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2. Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3. Tres problemas fundamentales de los MOM . . . . . . . . . . . . . . . 22
2.4.4. Métodos de Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.5. Tipos de Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . 29
2.4.6. Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Descripción de las pruebas de reconocimiento 41
3.1. Construcción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1. Descripción de la base de datos utilizada . . . . . . . . . . . . . . . . 42
3.1.2. Captura de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.3. Preprocesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . 44
3.2. Extracción de caracterı́sticas de las fotografı́as . . . . . . . . . . . . . . . . . . 45
3.3. Entrenamiento de los MOM . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4. Reconocimiento mediante los MOM . . . . . . . . . . . . . . . . . . . . . . . 48
3.5. Descripción del software utilizado . . . . . . . . . . . . . . . . . . . . . . . . 51
4. Resultados del reconocimiento automático de rostros 53
4.1. Pruebas de reconocimiento globales . . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Mejores modelos obtenidos para el reconocimiento . . . . . . . . . . . . . . . 57
5. Conclusiones y Recomendaciones 58
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
VI
ÍNDICE GENERAL
5.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
A. Anexo: Códigos de computadora 65
VII
ÍNDICE DE FIGURAS
1.1. Diagrama de bloques del proceso de reconocimiento de rostros por computadora 5
2.1. Efecto del proceso de cuantización en imágenes digitales . . . . . . . . . . . . 15
2.2. Ejemplo de una imagen digital binaria de un rostro humano . . . . . . . . . . 16
2.3. Ejemplo de una imagen digital de un rostro humano en escala de grises con K
= 256 intensidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4. Ejemplo de una imagen digital de un rostro humano en color verdadero . . . . 18
2.5. Estructura general de un Modelo Oculto de Markov . . . . . . . . . . . . . . . 21
2.6. Diseño de enrejado del algoritmo Forward-Backward . . . . . . . . . . . . . . 24
2.7. El paso de inducción en el algoritmo Forward-Backward . . . . . . . . . . . . 26
2.8. Topologia ergódica de los MOM utilizados . . . . . . . . . . . . . . . . . . . 30
2.9. Extracción de caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10. Proceso de extracción de coeficientes de la imagen . . . . . . . . . . . . . . . 37
VIII
ÍNDICE DE FIGURAS
2.11. Función de escala y función wavelet db1 . . . . . . . . . . . . . . . . . . . . . 39
2.12. Función de escala y función wavelet db2 . . . . . . . . . . . . . . . . . . . . . 39
2.13. Función de escala y función wavelet db4 . . . . . . . . . . . . . . . . . . . . . 40
2.14. Función de escala y función wavelet db10 . . . . . . . . . . . . . . . . . . . . 40
3.1. Esquema de captura de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Base de datos de rostros original . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Transformación a escala de grises . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4. Delimitación de las regiones del rostro . . . . . . . . . . . . . . . . . . . . . . 45
3.5. Proceso de extracción de caracterı́sticas . . . . . . . . . . . . . . . . . . . . . 46
3.6. Proceso de entrenamiento de los MOM . . . . . . . . . . . . . . . . . . . . . . 48
3.7. Algoritmo reconocimiento de las regiones del rostro . . . . . . . . . . . . . . . 50
IX
ÍNDICE DE TABLAS
2.1. Valores de escala de grises . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1. Ejemplo de Reconocimiento de los MOM . . . . . . . . . . . . . . . . . . . . 51
4.1. Reconocimiento global de MOM de 3 estados . . . . . . . . . . . . . . . . . . 54
4.2. Reconocimiento global de MOM de 5 estados . . . . . . . . . . . . . . . . . . 55
4.3. Reconocimiento global de MOM de 7 estados . . . . . . . . . . . . . . . . . . 56
4.4. Modelos con mejor desempeño en reconocimiento . . . . . . . . . . . . . . . . 57
X
CAPÍTULO 1
DESCRIPCIÓN DEL PROYECTO
DESARROLLADO
El cerebro humano es capaz de realizar un sinnúmero de tareas complejas de forma au-
tomática empleando para ello información procedente del exterior. Se sabe que el reconocimien-
to de rostros en los humanos es una actividad altamente especializada de procesos neuronales
que ocurren en las porcionesventrales occipito-temporales y en los lóbulos medios temporales
del cerebro. Es allı́ donde converge un amplio espectro de estı́mulos de casi, o si no, todos los
sentidos (Zhao et al., 2003). El entrenamiento y la capacidad cognitiva del individuo son ele-
mentos centrales en la habilidad para reconocer rostros (Wilson and Keil, 1999). Sin embargo,
esta capacidad humana tiene limitaciones como por ejemplo en el número de rostros que, en
1
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
promedio, una persona puede recordar (Zhao et al., 2003).
Por otro lado, la implementación o emulación del reconocimiento de rostros a través de
computadoras se ha convertido en los últimos años en una de las aplicaciones mas importantes
del análisis de imágenes, orientándose hacia la autenticación biométrica, sistemas de vigilan-
cia, la interacción humano-computador, los sistemas de control de accesos entre otros, (Li and
Jain, 2004). La utilización de dispositivos de captura como cámaras fotográficas, cámaras de
video y, mas recientemente, cámaras web, hacen del rostro una herramienta perfecta para la
autenticación y clasificación biométrica, dado su carácter no invasivo, de fácil acceso y bajo
costo.
1.1. Reconocimiento facial a partir de imágenes
Básicamente, el reconocimiento de rostros mediante computadora es un problema de visión
artificial en el que interviene un gran número de factores, que van desde el propio dispositi-
vo con el cual se captura la imagen, pasando por las condiciones como iluminación, pose del
individuo respecto del objetivo de la cámara, accesorios (anteojos, bigotes, barba, sombreros),
distancia del objetivo, expresiones faciales, entre otros. De acuerdo con (Méndez and Garcı́a,
2008), las variaciones de iluminación pueden generar imágenes muy diferentes de un mismo
rostro. También, el cambio de posición es una de las principales causas de variabilidad en el
reconocimiento de rostros (Sarfraz et al., 2010), (Zhao et al., 2003).
En general, el reconocimiento de rostros se divide en dos escenarios: (1) verificación ó au-
tenticación, (2) identificación ó reconocimiento (Li and Jain, 2004). La etapa de verificación
2
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
consiste en la aceptación o el rechazo de una identidad predefinida, es decir, sabiendo que la
imagen se corresponde con un individuo conocido, un sistema verificador debe estar en capa-
cidad de “verificar” que esta identidad se encuentre en sus registros. El reconocimiento por su
parte tiene como entrada un rostro “desconocido” y sobre la base del entrenamiento del sistema,
éste debe estar en la capacidad de distinguir o reconocer a cuales de los rostros que se encuen-
tra en sus registros pertenece. En resumen, la verificación responde a la pregunta ¿pertenece la
imagen mostrada al individuo Z?, mientras que el reconocimiento responde a la pregunta ¿A
qué identidad pertenece la imagen?. Este trabajo de investigación está enfocado exclusivamente
en el proceso de reconocimiento.
Normalmente, el reconocimiento de rostros pasa por tres etapas conocidas en la literatura
como: detección, extracción de caracterı́sticas y reconocimiento. Inicialmente se parte de una
imagen de una escena cualquiera. Sobre la base de la información contenida en esta imagen,
la etapa de detección consiste en determinar la presencia de un rostro. En los comienzos de la
investigación de reconocimiento de rostros a partir de imágenes, esta etapa supuso un problema
complejo que, en la actualidad, está prácticamente resuelto, e incluso existen en el mercado
un gran número de aplicaciones en teléfonos celulares y cámaras fotográficas, entre otros. Asi,
se sustenta la afirmación que en condiciones de buen entrenamiento, los computadores son
eficientes en la detección de rostros (Zhao et al., 2003).
Una vez detectado el rostro, la siguiente etapa consiste en la extracción de caracterı́sticas
que sirven como insumo al sistema reconocedor. Puntos, lineas, o áreas especı́ficas del rostro
pueden ser utilizadas como clave para el entrenamiento o modelado de un rostro en particular.
Estudios psicológicos han indicado que los humanos reconocen el rostro mediante la utili-
3
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
zación de caracterı́sticas holı́sticas y/o locales. A pesar de su débil desempeño en escenarios no
controlados, los métodos holı́sticos (ó globales) como las autocaras de Turk y Pentland, (Zhao
et al., 2003), emplean todo el rostro como entrada puesto que, como argumenta Sarfraz (Sarfraz
et al., 2010), siendo el rostro una clase de objeto, es necesario discriminar y encontrar pequeños
detalles que revelen las diferencias entre distintos rostros. Para ello, evidentemente, cada pixel
en la imagen debe ser utilizado, de allı́ el concepto global. Estos métodos tienen la desventaja
de ser computacionalmente complejos. Por ejemplo, una imagen de sólo 100x100 pixeles puede
considerarse como un punto en el espacio 10.000 dimensional. Por su parte, y como argumenta
Gottumukkal y Asari (2004), citado por (Sarfraz et al., 2010) los métodos locales de extrac-
ción de caracterı́sticas buscan la reducción de la dimensionalidad antes descrita a través de la
aplicación de transformaciones matemáticas que conserven, lo más que se pueda, el contenido
subyacente en la imagen. Se ha argumentado que estos métodos no varı́an con la pose, la direc-
ción de la iluminación y la expresión facial y, por tanto, son utilizados para la zonificación de la
imagen en áreas reconocibles fı́sicamente como la boca, nariz, ojos, mentón u otras. Dentro de
este grupo de métodos se encuentran la transformada discreta de onda TDO, la Transformada
Discreta de Coseno TDC, los filtros bidimensionales de Gabor, entre otros.
Finalmente, y como se dijo anteriormente, el reconocimiento facial busca determinar la
identidad del rostro contenido en la imagen. Este proceso, sin embargo, pasa previamente por
la definición del modelo (matemático o estadı́stico), que servirá como base estructural para el
proceso de identificación (Simeon, 2005). En este sentido, mas adelante se indicarán las razones
por las cuales los Modelos Ocultos de Markov (MOM), se constituyen en una herramienta
estadı́stica eficiente y robusta en problemas de reconocimiento de rostros.
4
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
En esta investigación se abordaron problemas como: la construcción de una base de datos de
rostros y su pre-procesamiento, la extracción de caracterı́sticas de las imágenes y la construcción
de MOM para la distinguir identidades dentro de un conjunto de individuos.
En general, el proceso de reconocimiento de rostros tiene una estructura como la que se
muestra en el esquema presentado en la figura 1.1:
Figura 1.1: Diagrama de bloques del proceso de reconocimiento de rostros por computadora
1.2. Antecedentes
La investigación cientı́fica sobre la utilización del rostro como medida biométrica se re-
monta a los trabajos de Francis Galton en 1.888 (Zhao et al., 2003). Sin embargo, el trabajo
seminal de Kanade en 1973 (Zhao et al., 2003) marca el inicio de las investigaciones del reco-
nocimiento automático de rostros mediante el uso del computador. En 1990, Kirby y Sirovich
desarrollaron el método conocido como eigenfaces (autocaras) basado en el Análisis de Com-
ponentes Principales. Esta metodologı́a, ası́ como el Análisis Lineal Discriminante y el método
del Emparejamiento de Grafos Elásticos se fundamentaban casi exclusivamente en aspectos
5
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
simétricos y geométricos, por ejemplo, las distancias entre atributos como ojos, comisuras de
labios, triangulación nariz-ojos, entre otros, para la clasificación de rostros (Simeon, 2005).
Por otro lado, si bien es cierto que las aplicaciones de los MOM han sido muy exitosas
particularmenteen el reconocimiento de voz y huellas digitales (también medidas biométricas),
no fue sino hasta el año de 1994 cuando Samaria y Young publican el primer trabajo sobre
reconocimiento de rostros empleando los MOM. En su investigación, utilizan la información de
la intensidad contenida en cada pixel de las imágenes como insumo para el entrenamiento de
modelos unidimensionales Left-Right (1D-LR) en los que cada estado modelaba una región del
rostro (Samaria, 1994). Cada estado emitı́a sı́mbolos de acuerdo con una distribución normal
multivariante y las filas de las imágenes eran empleadas como vector de caracterı́sticas. En ese
momento, las tasas de reconocimiento reportadas fueron del 84% superando el método de las
autocaras de Kirby y Sirovich. Ese mismo año, Samaria extiende el concepto e introduce una
variante, los MOM pseudo 2D (P2D), manteniendo la topologı́a LR y la distribución de emisión
de sı́mbolos descrita arriba, es decir, un P2D-LR. Este tipo de modelo consiste en un arreglo
de estados, en el que en cada región existı́a un estado final con dos posibles transiciones, a
otro estado dentro de su propia región o a la siguiente región (Samaria, 1994). Los resultados
obtenidos fueron superiores a los reportados por los métodos existentes a la fecha.
En el año 1996, Nefian y Hayes introdujeron la Transformada Discreta de Coseno (TDC)
como método de extracción de caracterı́sticas que mejoró la tasa de reconocimiento, puesto
que, como demostró Nefian, las intensidades de pixeles no constituyen la forma mas robusta de
representación de una imagen, al tiempo de ser computacionalmente mas costosa (Nefian and
Hayes, 1996). Un cambio importante de Nefian (1999), respecto de Samaria, fue la definición
6
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
de los MOM embebidos manteniendo, sin embargo, la topologı́a LR. En este tipo de modelo,
cada región del rostro es a su vez un MOM, y a diferencia de Samaria no existe un estado final
en cada región. Las regiones del rostro son denominados superestados que se conectan en la
forma tradicional LR. Este tipo de modelo es conocido como Embbeded Hidden Markov Model
(EHMM) (Nefian, 1999). Con esta metodologı́a, Nefian obtuvo tasas de reconocimiento muy
altas y la velocidad de reconocimiento se incrementó significativamente gracias a la selección
de un pequeño número de coeficientes de la TDC.
La introducción de Nefian y Hayes de la TDC marcó el inicio de la utilización de transfor-
maciones de la información contenida en la imágen como herramienta que mejora sustancial-
mente el reconocimiento. Como ellos mismos argumentaron, la TDC tiene la ventaja que los
coeficientes que reproducen la imagen tienden a ser pequeños y los grandes se concentran en la
bajas frecuencias y por otro lado, estos coeficientes son menos sensibles al ruido, rotaciones y
cambios en la iluminación (Nefian, 1999).
Estos dos trabajos sentaron las bases para la aparición progresiva y sostenida de investiga-
ciones en el área, como por ejemplo: (Kohir and Desai, 1998), (Eickeler, 2002), (Othman and
Aboulnasr, 2000), (Wallhoff et al., 2001), (Bicego et al., 2003), (Le and Li, 2003), (Simeon,
2005), (Gao et al., 2009), entre otros.
Ahora bien, mucho se ha discutido, aunque no se ha llegado a un acuerdo, sobre la combi-
nación más adecuada - dimensión-tipologı́a-distribución de emisión de sı́mbolos - en los MOM
para el reconocimiento de rostros. Sobre la base del trabajo de Samaria y Young de 1994 y em-
pleando la TDC de Nefian, (Kohir and Desai, 1998) reporta tasas de reconocimiento de 99,5%
en los MOM ergódicos 1D + TDC desarrollados, empleando la base de datos de 40 indivi-
7
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
duos del Olivetti Research Laboratory (ORL), con cinco imágenes por individuo para la fase de
entrenamiento y cinco mas para la fase de reconocimiento.
Posteriormente, investigadores como Le (2003) introdujeron el uso de la Transformada Dis-
creta de Onda,(TDO) como herramienta para la extracción de caracterı́sticas y reducción de la
complejidad computacional. Le (2003) reportó tasas de reconocimiento de 100% con un MOM
unidimensional + TDO, en comparación con el 95% obtenido por Samaria con el modelo P2D.
El tiempo de reconocimiento fue 800 veces mayor que el reportado por Samaria. En compara-
ción con el modelo P2D + TDC de Eickeler (2000), la tasa de reconocimiento fue igual (100%),
sin embargo, el tiempo de reconocimiento fue cinco veces mas rápido. En este mismo sentido y
en comparación con el modelo 1D + TDC de Kohir y col. (2000) se alcanzan tasas de reconoci-
miento del 100% pero con un tiempo de reconocimiento siete veces mayor.
Por su lado, Bicego y col. (2003) obtiene tasas de reconocimiento entre 95,4 y 100% en
un modelo 1D + TDO de acuerdo con el número de coeficientes retenidos y el porcentaje de
solapamiento entre las bandas de imágenes. Los resultados de Bicego le permiten afirmar que
los MOM son muy eficientes y efectivos en el modelado de rostros y, que en combinación con
la TDO, se mejora sustancialmente el reconocimiento.
Linlin (2007), afirma que la TDC es sensible a factores como iluminación, expresión y pose
y que para su utilización se requiere gran cantidad de entrenamiento en bases de datos pequeñas.
Mas recientemente (Abbas and Farhan, 2012), empleando MOM ergódicos unidimensionales
en combinación con la TDO obtuvieron resultados del 100% en el reconocimiento en la base
de datos ORL.
En lo que respecta a la distribución de probabilidad de emisión de sı́mbolos, en gran par-
8
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
te de los trabajos desarrollados en el área predomina la utilización de distribuciones continuas
(Gaussianas). Sin embargo, trabajos como los de (Wallhoff et al., 2001), (Le and Li, 2003) y
Lihaipeng (2010) obtuvieron resultados por encima del 95% empleando distribuciones discre-
tas.
También se han utilizado otras metodologı́as en combinación con los MOM. R-Quiong y
col. (2003) hacen uso de redes neuronales polinomiales con MOM 2D, tanto para la detección
de rostros, como para el reconocimiento. La tasa de detección alcanzó un 81,25% mientras que
el reconocimiento reportado fue 95,7%.
El trabajo de investigación desarrollado en la ejecución del proyecto descrito, se fundamentó
en la utilización de MOM unidimensionales ergódicos, con distribución de emisión de sı́mbolos
discreta en combinación con la TDO.
9
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
1.3. Objetivos de la investigación
1.3.1. Objetivo general
Realizar pruebas de reconocimiento de imágenes faciales a través de herramientas es-
tadı́sticas, entre éstas la conocida como Modelos Ocultos de Markov.
1.3.2. Objetivos especı́ficos
Estudiar las técnicas empleadas para el análisis de imágenes.
Construir una base de datos venezolana de rostros para la experimentación.
Emplear la transformada discreta de onda para la extracción de caracterı́sticas.
Utilizar la topologı́a ergódica como arquitectura básica de los Modelos Ocultos de Mar-
kov.
Entrenar MOM para modelar rostros.
Realizar pruebas de reconocimiento de rostros.
Generar conclusiones.
10
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
1.4. Organización del documento de tesis
Este documento esta organizado de la siguiente manera. En el capı́tulo 2 se detallan las prin-
cipales definiciones y herramientas teóricas empleadas a lo largo de la investigación, haciendo
énfasis en los MOM, principales topologı́as y su utilización en el modelado de imágenes. Se
define también la TDO y su importancia en la extracción de caracterı́sticas necesarias para el
proceso de construcción de MOM. En el capı́tulo 3, se muestra la metodologı́a empleada en la
captura de imágenes de rostros y la creación de una pequeña base de datos, ası́ como también
el proceso de entrenamiento, extracción de caracterı́sticasy elección de la arquitectura de los
modelos. En el capı́tulo 4 se detallan los principales resultados obtenidos. En el capı́tulo 5 se
muestran las conclusiones y las recomendaciones producto del trabajo desarrollado.
11
CAPÍTULO 2
FUNDAMENTO TEÓRICO
En este capı́tulo se introducen algunos conceptos y definiciones teóricas necesarias para
comprender el desarrollo de la investigación llevada a cabo. Se incluyen las definiciones propias
del procesamiento de imágenes y algunas propiedades de éstas. Se introducen asimismo los
Modelos Ocultos de Markov como herramienta probabilı́stica útil en el reconocimiento facial
y la Transformada Discreta de Onda necesaria en el proceso de extracción de caracterı́sticas de
las imágenes.
2.1. Imágenes y Pı́xeles
Desde el punto de vista matemático, las imágenes son arreglos bidimensionales de valores
de intensidad que varı́an estadı́sticamente de forma local y que resultan de diferentes combina-
12
CAPÍTULO 2. FUNDAMENTO TEÓRICO
ciones de caracterı́sticas abruptas como bordes y regiones contrastantes homogéneas, (González
and Woods, 2002).
2.2. Imagen digital
En general, una imagen puede definirse como toda función f (x,y), donde x y y son coor-
denadas espaciales y la amplitud de f , en cualquier par de coordenadas (x,y), se denomina
intensidad en ese punto, (González and Woods, 2002). Una imagen puede ser contı́nua o discre-
ta de acuerdo con los valores de x, y, y f . Cuando x, y y los valores de amplitud de f son todas
cantidades finitas y discretas, se dice entonces que f (x,y) es una imagen digital.
Cuando se utilizan dispositivos como cámaras fotográficas, ocurren dos procesos que per-
miten la conversión de la imagen, que para el ojo humano es completamente contı́nua, en un
imagen discreta o digital; la discretización de los valores de las coordenadas x y y, llamado
tambien muestreo o sampling y la discretización de los valores de la amplitud, proceso cono-
cido como cuantización. El muestreo y la cuantización tienen como resultado una matriz de
números reales. Cada uno de esos elementos de la matriz son conocidos como picture elements,
elementos de imágen o más comúnmente pı́xeles. Si en el proceso de muestreo la imagen tiene
M filas y N columnas, se dice entonces que la imagen es de tamaño MxN pı́xeles o simplemente
MxN. Si f (x,y) puede dividirse en K intervalos, se dice entonces que la imagen tiene K niveles
de intensidad.
De lo anterior se desprende que una imagen digital no es mas que una matriz en la que
cada pı́xel contribuye, con su nivel de intensidad, a la formación del o los objetos que el ojo
13
CAPÍTULO 2. FUNDAMENTO TEÓRICO
humano interpreta como tales. De esta manera, una imagen digital se puede representar de forma
compacta como:
f (x,y) =

f (0,0) f (0,1) . . . f (0,N−1)
f (1,0) f (1,1) . . . f (1,N−1)
...
...
...
f (M−1,0) f (M−1,1) . . . f (M−1,N−1)
 (2.1)
Desde una definición mas formal, los procesos de muestreo y cuantización pueden ser des-
critos de la forma siguiente: Sean Z y R el conjunto de los números enteros y reales respecti-
vamente. El muestreo puede verse como la partición del plano xy en una malla o enrejado, de
forma tal que las coordenadas del centro de cada recuadro es un par de elementos del producto
cartesiano Z2, el cual es el conjunto de todos los pares ordenados (zi,zj), con zi y zj enteros de Z.
De esta manera, f (x,y) es una imagen digital si (x,y) son enteros de Z2 y f es una función que
asigna un valor de gris (que es un número real del conjunto R) a cada par coordenado f (x,y).
En el caso en que R es reemplazado por Z, la función f (x,y) se convierte en bidimensional,
puesto que tantos los valores de coordenadas como de amplitud son números enteros.
En la figura 2.1 se muestran dos representaciones de una misma imagen. Del lado izquierdo
se aprecia la imagen tal y como es representada por el ojo humano. En el lado derecho, el
resultado de la asignación de intensidades de grises a cada pixel producto de la cuantizacı́ón en
una cámara fotográfica.
En una imagen digital no existen limitaciones en cuanto a los valores de M y N, pero si en
lo que respecta al número de niveles de grises (K) representados en la cuantización, que por lo
general vienen expresados en potencias de 2, de la siguiente manera:
14
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.1: Efecto del proceso de cuantización en imágenes digitales
K = 2L (2.2)
donde L representa el número de bits de la imagen.
Por otro lado, el número de bits requeridos para almacenar una imagen digital esta repre-
sentado por:
b = MxNxL (2.3)
Asi, por ejemplo una imagen de M = N = 512 y 256 niveles de grises (L = 8bits) es
2.097.152 bits, es decir, de 2Mb, lo cual implica que, para el almacenamiento de una gran canti-
dad de imágenes, es necesario disponer de suficiente espacio en disco y memoria de computador
para las fases de procesamiento.
15
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.3. Tipos de imágenes digitales
En el área del procesamiento de imágenes se pueden identificar varios tipos que, dependien-
do de la aplicación y las necesidades de almacenamiento, pueden ser útiles en el reconocimiento
de rostros. La clasificación depende de las caracterı́sticas del conjunto R:
Imágenes binarias: Es el tipo más básico de imagen digital. Llamadas también lógicas,
son arreglos bidimensionales que asignan un único valor numérico del conjunto discreto
0,1 a cada pixel en la imágen. Un fax es un ejemplo de una imagen binaria. Sin embargo,
en el procesamiento de rostros su uso es muy limitado debido a la escasa información
que provee. En la figura 2.2 es posible observar sólo dos valores en cada pixel; blanco y
negro.
Figura 2.2: Ejemplo de una imagen digital binaria de un rostro humano
Imágenes de intensidad o escala de grises: Son arreglos bidimensionales en los que el
valor de cada pixel está representado por la intensidad en escalas de grises, que depen-
diendo del número K, puede variar entre los 4 y 256 valores. Al incrementar la cantidad
de grises, se observan mejores detalles en la imagen.
16
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Tabla 2.1: Valores de escala de grises
L K Valores de R
1 2 (0,1)
2 4 (0,1,2,3)
3 8 (0,1,2,3,4,5,6,7)
4 16 (0,1,2, . . . , 14, 15)
5 32 (0,1,2, . . . , 30, 31)
6 64 (0,1,2, . . . , 62, 63)
7 128 (0,1,2, . . . , 126, 127)
8 256 (0,1,2, . . . , 254, 255)
En la figura 2.3, cada pı́xel está representado por un número entero entre 0 y 255, pues se
trata de una imagen con 256 tonos de grises.
El cuadro 2.1. muestra la cantidad de tonalidades de grises diferentes de acuerdo con los
valores de L. Para imágenes de (L = 8bits) se generan 256 tonos de grises.
Figura 2.3: Ejemplo de una imagen digital de un rostro humano en escala de grises con K =
256 intensidades
Imágenes de color verdadero o truecolor: Son arreglos tridimensionales que asignan tres
valores numéricos (un vector) a cada pixel, cada valor corresponde a los componentes del
canal de imagen rojo, verde y azul (RGB en inglés). Desde el punto de vista conceptual,
pueden ser consideradas como tres planos bidimensionales distintos de dimensión CxR,
17
CAPÍTULO 2. FUNDAMENTO TEÓRICO
donde R es el número de filas y C es el número de columnas de la imagen. Estas imágenes
se almacenan en L = 24 bits, 8 bits para cada componente RGB, lo cual permite la defini-
ción K = 224 = 16777216 colores. Una representación de una imagen en color verdadero
o TrueColor se muestra en la figura 2.4. Nótese el detalle de los elementos que componen
la imagen.
Figura 2.4: Ejemplo de una imagen digital de un rostro humano en color verdadero
18
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4. Los Modelos Ocultos de Markov
Los Modelos Ocultos de Markov, (MOM), se constituyen como una herramienta proba-
bilı́stica aplicable al análisis de datos con variabilidad temporal y espacial. Son ampliamente
conocidos y utilizados enel área del reconocimiento del habla, huellas dactilares, reconoci-
miento de textos, reconocimiento de patrones musicales y en la resolución de problemas de
clasificación. En general, un MOM es capaz de modelar secuencias estocásticas no estacio-
narias, cuyas propiedades estadı́sticas subyacen en las transiciones entre diferentes procesos
estacionarios, (Koutroumbas and Theodoridis, 2009).
2.4.1. Definición
Un MOM modela un proceso estocático bajo el enfoque de coexistencia de dos procesos
estocáticos, en el cual uno de ellos no puede observarse de manera directa (de allı́ el adjetivo
oculto) y que sólo puede modelarse a través del conocimiento de otro proceso estocástico que
reproduce una secuencia de observaciones. Para el estudio de los MOM, en lo sucesivo se
utilizará la nomenclatura de (Rabiner, 1989) con algunas modificaciones debidas a (Ibe, 2009).
// Supóngase que si S = {Sn,n = 1,2, . . .} es un proceso estocástico y Ω = {Ωk,k = 1,2, . . .} es
una función de S, entonces S es un proceso Oculto de Markov (o Modelo Oculto de Markov) que
es observado a través de Ω y, por tal razón, Ωk = f (Sk) para alguna función f. En este sentido,
se puede considerar a S como el proceso de estados que está oculto y Ω como el proceso de
observaciones que puede ser observado.
De forma general, un MOM queda completamente definido cuando se conoce la péntatupla
19
CAPÍTULO 2. FUNDAMENTO TEÓRICO
(S,Ω,A,B,π) donde:
S = s1,s2, . . . ,sN es un conjunto finito de N estados.
Ω = o1,o2, . . . ,oM es un conjunto finito de M sı́mbolos u observaciones diferentes.
A = ai j es la matriz de probabilidades de transición de estados, donde ai j es la probabili-
dad que el proceso pase de un estado si a otro estado s j
B = bi(ok) son las probabilidades de observación, donde bi(ok) es la probabilidad que el
sı́mbolo ok sea emitido cuando el proceso se encuentra en el estado si
π = πi son las probabilidades iniciales, es decir, indican la probabilidad que el proceso se
inicie en el estado si
De esta forma, un Modelo Oculto de Markov requiere la especificación de dos parámetros
N y M, y tres medidas de probabilidad A, B y π. Estas tres medidas de probabilidad se pueden
condensar de forma compacta en el modelo:
λ = (A,B,π) (2.4)
De forma esquemática, un MOM puede ser visto de acuerdo con la figura 2.5. Se desea
determinar la probabilidad de que los sı́mbolos observados O1, O2 y O3 hayan sido generadas
por los estados no observados S1, S2 y S3 respectivamente.
2.4.2. Supuestos
Se define Q = {qt}Tt=0 como la secuencia oculta de estados en el intervalo 0≤ t ≤ T , donde,
como ya se indicó más arriba qt ∈ S. En los MOM hay tres supuestos esenciales, los cuales se
20
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.5: Estructura general de un Modelo Oculto de Markov
indican a continuación:
1. Propiedad Markoviana: Este supuesto establece que el siguiente estado depende única-
mente del estado actual en el que se encuentra el proceso, lo que en términos de las
probabilidades de transición es:
P(qt+1 = j|qt = i,qt−1 = l,qt−2 = m, . . . ,q0 = n) = P(qt+1 = j|qt = i) = pi j (2.5)
Todo proceso estocástico que cumpla con esta propiedad es conocido como proceso mar-
koviano de primer orden. Sin embargo, en la práctica, un estado cualquiera depende de
los k estados anteriores. Este tipo de proceso es conocido como proceso estocástico de
orden k.
2. Estacionariedad: Este supuesto establece independencia entre las probabilidades de tran-
sición de estados y el tiempo en el que las transiciones ocurren. En otras palabras, las
21
CAPÍTULO 2. FUNDAMENTO TEÓRICO
probabilidades de transición de estados se mantienen iguales para cualquier momento t.
Ası́, para dos momentos de tiempo t1 y t2 se tiene que:
P(qt1+1 = j|qt1 = i) = P(qt2+1 = j|qt2 = i) = αi j (2.6)
3. Independencia: En este caso se asume que la observación actual o resultado es estadı́sti-
camente independiente de las observaciones previas. Es decir, si se tiene la secuencia de
observaciones O = o1,o2, . . . ,oT , entonces:
P(O|q1.q2, . . . ,qT ,λ) =
T
∏
t=1
P(ot |qt ,λ) (2.7)
2.4.3. Tres problemas fundamentales de los MOM
Los MOM enfrentan tres problemas fundamentales que deben ser resueltos para su aplica-
ción en situaciones reales.
1. El problema de evaluación: Dada una secuencia de observaciones de tamaño T, O =
o1,o2, . . . ,oT y el modelo λ = (A,B,π): ¿Cómo se puede calcular de forma eficiente
la probabilidad que el modelo haya generado la secuencia de observaciones, es decir,
P[O|λ]?
2. El problema de identificación de la mejor secuencia de estados: Dada una secuen-
cia de observaciones de tamaño T, O = o1,o2, . . . ,oT y el modelo λ = (A,B,π): ¿Cómo
22
CAPÍTULO 2. FUNDAMENTO TEÓRICO
seleccionar una secuencia de estados Q = q1,q2, . . . ,qT óptima que explique las observa-
ciones generadas? Dicho de otro modo, ¿Cuál es la secuencia de estados que con mayor
probabilidad generó la secuencia observada?
3. El problema de entrenamiento: Dada una secuencia de observaciones de tamaño T,
O= o1,o2, . . . ,oT , ¿Cuáles son los valores de A,B,π que, con mayor probabilidad generan
la secuencia de observaciones.?
2.4.4. Métodos de Solución
En función del problema que se desea resolver existen diversos métodos para lograr el obje-
tivo. El problema de evaluación es resuelto mediante el algoritmo forward-backward, el proble-
ma de identificación de la mejor secuencia de estados a través del algoritmo de Viterbi, mientras
que el problema de entrenamiento se logra resolver, tanto con el algoritmo de Baum-Welch co-
mo con el algoritmo de Viterbi.
Para comprender los algoritmos mencionados anteriormente es conveniente pensar que el pro-
ceso estocástico generador de las observaciones es un arreglo matricial de orden N x T tal y
como se muestra en la figura 2.6.
2.4.4.1. El problema de evaluación
El algoritmo forward-backward se constituye como una herramienta eficiente para la solu-
ción del problema de evaluacion y está fundamentado en la propiedad de los procesos estocásti-
cos de primer orden; cualquier información anterior al último estado desde donde ocurrió una
23
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.6: Diseño de enrejado del algoritmo Forward-Backward
transición al estado actual, no aporta mayor información en torno a la transición al siguiente es-
tado. Para el cálculo de la probabilidad P(O|λ) se definen las llamadas variables forward αt(i)
como la probabilidad que, para un modelo dado λ, se genere la primera parte de la secuencia
hasta Ot y en el tiempo t se alcance el estado i. Ası́:
αt(i) = P(O1,O2, . . . ,Ot ,qt = Si|λ) t = 1, . . . ,T ; i = 1, . . . ,N (2.8)
Esto es, αt(i) es la probabilidad de estar en el estado si en el tiempo t después de haber
observado la secuencia (o1,o2, . . . ,ot).
En el proceso de inicialización, es decir en el tiempo t = 1, las probabilidades α1(i) se
calculan a través del producto entre la probabilidad que el proceso se inicie en el estado i, πi
y la probabilidad que se genere el primer elemento observado de la secuencia, bi(o1) en ese
estado.
αt=1(i) = πibi(o1) ∀1≤ i≤ N, t = 1 (2.9)
24
CAPÍTULO 2. FUNDAMENTO TEÓRICO
La variable forward αt+1( j) se obtiene como la suma de todas las probabilidades αt(i)
sobre todos los posibles estados predecesores inmediatos y la inclusión de las probabilidades de
transición definidas por ai j. Adicionalmente, la observación Ot+1 debe ser generada a través de
la probabilidad de emisión b j(ot+1).
Se asume que las observaciones son independientes. El algoritmo forward-backward fun-
ciona de la siguiente manera:
Sea: αt(i) = P(o1,o2, . . . ,ot ,st = i|λ) y βt(i) = P(ot+1,ot+2, . . . ,oT |st = i,λ)
Inicialización:
α1(i) = πibi(o1),qquad1≤ i≤ N (2.10)
Inducción:
αt+1( j) = {
N
∑
i=1
αt(i)ai j}b j(ot+1) 1≤ t ≤ T −1,1≤ j ≤ N (2.11)
La figura figura 2.7, esquematiza el paso clave del algoritmo. El estado S j puedeser
alcanzado en el tiempo t +1 desde N posibles estados en el tiempo t.
Finalización:
P(O|λ) =
N
∑
i=1
αT (i) (2.12)
2.4.4.2. El problema de identificación de la mejor secuencia de estados
El segundo problema de los MOM intenta buscar la mejor (u óptima) secuencia de estados
asociadas a una secuencia de observaciones a partir de un modelo dado λ. Dado que existen
25
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.7: El paso de inducción en el algoritmo Forward-Backward
diversos criterios de optimalidad, entre ellos la elección de la secuencia de estados que con
mayor probabilidad produzca la secuencia de observaciones, el algoritmo de Viterbi maximiza
simultáneamente la probabilidad conjunta P[Q,O] y la probabilidad condicional P[Q|O]. El
algoritmo define la variable δt(i) como:
δt(i) = maxq1,q2,...,qt−1{P[q1,q2, . . . ,qt−1,qt = si,o1,o2, . . . ,ot−1,ot |λ]} (2.13)
Esto es, δt(i) es la mayor probabilidad a lo largo de una ruta única que toma en cuenta las
26
CAPÍTULO 2. FUNDAMENTO TEÓRICO
primeras t observaciones y finaliza en el estado si. Es decir, es la probabilidad de la ruta de
estados mas probable de la secuencia parcial de observaciones. Otra variable ψt( j) almacena el
estado que representa la ruta más probable. Esto es:
ψt( j) = argmax1≤i≤N{δt−1ai j} (2.14)
El algoritmo Viterbi funciona de acuerdo a lo siguiente:
1. Inicialización:
δ1(i) = πibi(o1) 1≤ i≤ N (2.15)
ψ1(i) = 0 (2.16)
2. Recursión:
δt( j) = max1≤i≤Nδt−1(i)ai jb j(ot) 1≤ j ≤ N, 2≤ t ≤ T (2.17)
ψt( j) = argmax1≤i≤Nδt−1(i)ai j 1≤ j ≤ N, 2≤ t ≤ T (2.18)
3. Finalización:
P∗ = max1≤ j≤N{δT (i){Q∗ = argmax1≤ j≤N{δT (i)} (2.19)
4. Captura de la secuencia de estados:
Q∗ = ψt+1(Q∗t+1) t = T −1,T −2, . . . ,1 (2.20)
27
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.4.3. El problema de entrenamiento
El problema de entrenamiento tiene que ver con el ajuste de los parámetros del MOM, de
manera que el conjunto de observaciones, normalmente denominado conjunto de entrenamien-
to, sea representado de forma óptima por el modelo. Nuevamente, se trata de un problema de
optimización que por lo general sigue el curso del criterio de máxima verosimilitud, el cuál bus-
ca los parámetros que maximizan la probabilidad de representar una secuencia de observaciones
dada. Esto es, se busca la solución de:
λ
∗ = argmaxλP[O|λ] (2.21)
No existe método conocido que analı́ticamente maximice P[O|λ] de forma global. Sin em-
bargo, existe una forma a partir de la cuál es posible hallar una solución local a P[O|λ]. Este
método, conocido como el algoritmo Baum-Welch es un caso especial del método Expectation-
Maximization (EM), (Fink, 2008).
El algoritmo comienza estableciendo valores iniciales a los parámetros A,B y π, los cua-
les pueden ser elegidos de un conocimiento previo o de alguna distribución uniforme. Luego,
empleando el modelo actual, se consideran todas las posibles secuencias de estado para cada
conjunto de entrenamiento con la finalidad de obtener las estimaciones de A,B y π. El procedi-
miento se repite hasta que no haya cambios significativos en los parámetros del modelo actual.
Al igual que el problema 1, se emplean las variables forward y backward. Recordemos que αt(i)
es la probabilidad de estar en el estado si en el tiempo t después de haber observado la secuencia
o1,o2, . . . ,ot y βt( j) es la probabilidad condicional de la observación parcial ot+1,ot+2, . . . ,oT
28
CAPÍTULO 2. FUNDAMENTO TEÓRICO
dado que el modelo se encuentra en el el estado si en el tiempo t, (Ibe, 2009). Al igual que en
el algoritmo Viterbi, se define la variable γt(i) que es la probabilidad de estar en el estado si en
el tiempo t dada la secuencia de observaciones completa del modelo. Sumando estas cantidades
sobre t se obtiene el número de transiciones hechas desde el estado si.
γt(i) = P(St = i|O,λ) =
αt(i)βt(i)
P(O|λ
) =
αt(i)ai jb j(Ot+1)βt+1( j)
∑
N
i=1 αt(i)βt(i)
(2.22)
Finalmente, se definen las variables ηt(i, j) como la probabilidad de estar en el estado si en
el tiempo t y en el estado s j en el tiempo t+1 dada la secuencia de observaciones y el modelo
de la forma siguiente:
ηi, j = P(qt = si,qt+1 = s j|O,λ) =
P(qt = si,qt+1 = s j,O|λ)
P(O|λ)
(2.23)
La teorı́a del método EM establece que luego de cada iteración puede suceder una de las
dos siguientes condiciones: λ̂ es mas probable que λ en el sentido que P[O|λ̂]> P[O|λ] ó se ha
alcanzado un punto estacionario de la función de verosimilitud en el cual λ̂ = λ, (Fink, 2008)
2.4.5. Tipos de Modelos Ocultos de Markov
Los MOM pueden ser clasificados de acuerdo con la naturaleza de la distribución de las pro-
babilidades de emisión de sı́mbolos B. Si las observaciones vk son cantidades discretas entonces
B es una función de masa de probabilidad y por tanto el modelo es llamado MOM Discreto. En
caso contrario el MOM será contı́nuo.
29
CAPÍTULO 2. FUNDAMENTO TEÓRICO
De acuerdo con la forma como están conectados los estados, los modelos pueden ser ergódi-
cos, cuando todos y cada uno de los estados se conecta con los restantes, esto significa que
ai, j > 0 para todo i,j. Otra topologı́a empleada es la Left-Right. En este caso, las transiciones
comienzan en un estado INICIAL y van transcurriendo al estado contiguo hasta llegar a un
estado FINAL.
En este trabajo de investigación se utilizó una topologı́a ergódica en todos los modelos y su
representación es la que se muestra en la figura 2.8:
1
25
4 3
a11
a22
a25
a53 a42
a14 a31
a24
a32 a23
a34
a43
a45
a54
a51
a15
a12
a21
a13a41
a35
a52
a33a44
a55
Figura 2.8: Topologia ergódica de los MOM utilizados
30
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.5.1. Métodos de extracción de caracterı́sticas
En la literatura dedicada al reconocimiento de rostros, una de las preguntas principales rela-
cionadas con la extracción de caracterı́sticas es: ¿Cuáles valores numéricos son necesarios para
entrenar efectivamente el clasificador basado en un MOM?. En la actualidad los métodos mas
utilizados para la extracción de caracterı́sticas son: Intensidades de pı́xeles, la Transformada
Discreta de Onda y la Transformada Discreta de Coseno. La utilización de las intensidades de
pı́xeles demostró no ser tan eficiente como la Transformada Discreto de Coseno en el recono-
cimiento de rostros. Sin embargo, esta transformación tiene la desventaja de no ser invariante a
cambios en la iluminación como se dijo en secciones anteriores.
2.4.6. Transformada Wavelet
La teorı́a de wavelets ha sido una de las herramientas más populares para el procesamiento
de señales durante las últimas dos décadas. Ofrece una metodologı́a para generar bancos de
filtros ortogonales de soporte contı́nuo compacto a través del diseño de bancos de filtros de
tiempo discreto finito con frecuencias y resoluciones múltiples. Sus aplicaciones van desde la
compresión de señales, pasando por la implantación de dispositivos médicos como marcapasos
y desfribiladores, hasta el desarrollo de transmisores de ultrafrecuencia y el análisis multireso-
lución de imágenes.
La Transformada Wavelet o Transformada de Onda mapea la función f (t) en L2(R) en
otra señal Wf (a,b) en L2(R2) donde (a,b) son contı́nuos y se llaman parámetros de escala y
traslación.
31
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.6.1. Transformada Contı́nua de Onda
La onda madre ψ(t) junto con sus parámetros de escala y traslación (a,b) generan la defini-
ción de la base de la Transformada de Onda en el dominio de tiempo y frecuencia de la forma
siguiente:
ψab(t) =
1√
a
ψ
(
t−b
a
)
↔Ψab(Ω) =
√
aΨ(aΩ)e
− jbΩ (2.24)
De esta manera, la Transformada Continua de Onda (TCO) de f (t) queda definida como:
Wf (a,b) = 〈 f (t),ψab(t)〉=
∫
∞
−∞
f (t)ψab(t)dt (2.25)
donde la Transformada satisface las condiciones de invertibilidad y la señal se recupera de
sus coeficientes de onda a través de:
f (t) =
1
Cψ
∫
∞
−∞
∫
∞
0
dadb
a2
Wf (a,b)ψab(t) (2.26)
bajo elsupuesto que:
Cψ =
∫
∞
0
|Ψ(Ω)|2
Ω
dΩ <+∞ (2.27)
eso implica una función de onda madre con media cero cuando Ψ(0) =
∫
∞
−∞ ψ(t)dt = 0
2.4.6.2. Transformada Discreta de Onda
La transformada Discreta de Onda (TDO) descompone una señal a través de dos conjun-
tos de funciones, llamadas funciones de escala y funciones de onda, las cuales están asociadas
32
CAPÍTULO 2. FUNDAMENTO TEÓRICO
con filtros de alta y baja frecuencia. El proceso de descomposición en diferentes bandas de
frecuencia se obtiene mediante la aplicación sucesiva de estos filtros hasta alcanzar el nivel de
resolución deseada, (Abbas and Farhan, 2012).
Para hacer más práctica la TCO y reducir la redundancia se muestrean los parámetros (a,b).
Definamos un esquema de muestreo tal que a = am0 y b = nb0a
m
0 , entonces, la base de la TDO
se puede expresar mediante:
ψmn(t) = a
−m/2
0 ψ(a
−m
0 t−nb0) m,n ∈ Z (2.28)
Si el conjunto ψmn(t) es completo para cualesquiera ψt , a y b, entonces ellas son llamadas
wavelets affine. Entonces, para cualquier f (t) ∈ L2(R) en la superposición de:
f (t) = ∑
m
∑
n
dm,nψmn(t) (2.29)
donde los coeficientes de la TDO se definen de acuerdo con:
d(m,n) = dm,n = 〈 f (t),ψmn(t)〉=
1
am/20
∫
f (t)ψ(a−m0 t−nb0)dt (2.30)
Tales conjuntos completos de transformadas de onda {ψmn(t)} son llamados frames. A pesar
de ser completas, aún no son bases pues no cumplen con el teorema de Parseval.
Teorema 1 (Parseval) Si f y h están en L1(R)∩L2(R) entonces
∫
∞
−∞
f (t)h∗(t)dt =
1
2π
∫
∞
−∞
f̂ (w)ĥ∗(w)dw (2.31)
33
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Se puede diseñar un frame ajustado y exacto el cual conduce a una base ortonormal en L2 que
satisface:
∫
ψmn(t)ψrs(t)dt =
{
1 : m = r,n = s
0 : otro lugar (2.32)
Las funciones anteriores son ortonormales en ambos ı́ndices. Adicionalmente, una TDO
ortonormal se puede emplear para descomponer una señal de tiempo contı́nuo en sus funciones
de onda base.
De manera similar, las bases complementarias de la TDO llamadas funciones de escala del
análisis de multiresolución también satisfacen las condiciones de ortonormalidad dentro de la
misma escala:
∫
φmn(t)φms(t)dt = δn−s (2.33)
donde para a0 = 2 y b0 = 1, se pueden definir el conjunto de funciones de escala como:
φmn(t) = 2−m/2φ(2−mt−n) (2.34)
Y además, se pueden obtener los coeficientes de escala de f (t) a través de la proyección
c(m,m) = cm,n = 〈 f (t),φmn(t)〉=
1
2m/2
∫
f (t)φ(2−mt−n)dt (2.35)
La onda ortonormal y las bases de escala satisfacen conjuntamente su propiedad de bases
complementarias como se expresa a continuación:
34
CAPÍTULO 2. FUNDAMENTO TEÓRICO
∫
ψmn(t)φrs(t)dt = 0 ∀m,n,r,s (2.36)
Se puede utilizar una infinidad de escalas para representar f (t) en términos de las funciones
de onda discreta siguiendo la ecuación 2.36 ó emplear de forma conjunta las funciones base de
onda y escala como sigue:
f (t) =
∞
∑
n=∞
CL,n2−L/2φ
( t
2L
−n
)
+
L
∑
m=1
∞
∑
n=−∞
dm,n2−m/2ψ
( t
2m
−n
)
(2.37)
Esta última expresión es una combinación de una aproximación de paso-bajo para f (t) utili-
zando la función de escala en la escala L en el primer término de la expresión y la representación
de la onda del detalle de la señal o el error de aproximación en el segundo término.
La transformación de la señal se lleva a cabo de la forma siguiente:
1. En primer lugar la señal se pasa a través de un filtro de paso-bajo y por otro de paso-alto
simultáneamente obteniendo ası́, dos señales.
2. Se realiza un muestreo (decimación) a la salida de cada filtro para evitar el traslape y
eliminar los datos no relevantes.
3. Se generan los coeficientes de aproximación y detalle que son respectivamente las señales
de baja y alta frecuencia.
Esquemáticamente, se puede representar de acuerdo con la figura 2.9.
35
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.9: Extracción de caracterı́sticas
Los coeficientes de baja frecuencia mantienen la información estructural de la imagen ori-
ginal, mientras que los coeficientes de alta frecuencia se consideran como información menos
relevante para poder identificar la imagen. El proceso de descomposición en señales de alta y
baja frecuencia se puede realizar de forma iterativa, con lo que se habla de niveles de descom-
posición de orden p para p = 2,3,4 . . ..
El proceso de extracción de coeficientes y la reducción en el tamaño de la imagen se puede
observar en la figura 2.10.:
Las imágenes son tratadas como señales bidimiensionales, puesto que cambian horizontal
y verticalmente, por tanto, para el análisis de imágenes es necesario emplear una transformada
bidimensional. En este caso, se ejecutan dos transformadas discretas unidimensionales de forma
separada. Primero, la imagen es filtrada en el eje horizontal usando filtros de paso bajo y alto y
luego decimado por 2. Debido a la decimación el tamaño total de la imagen transformada es la
36
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.10: Proceso de extracción de coeficientes de la imagen
misma que la imagen original. El siguiente paso es filtrar la subimagen a lo largo del eje vertical
y decimarlo por 2. Finalmente se divide la imagen en cuatro sub-bandas denotadas por LL, LH,
HL y HH. después de un nivel de descomposición. En cada nivel se obtienen 4 subimagenes, la
aproximación LL, el detalle vertical LH, el detalle horizontal HL y el detalle diagonal HH.
En la fase de extracción, la imagen completa del rostro es descompuesta usando una de las
familias a la aproximación y coeficientes de detalle. Nuevamente, el coeficiente de aproxima-
ción se descompone para producir una nueva aproximación y coeficientes de detalle.
Con la finalidad de generar los vectores de observación, se codifica la parte LL de la matriz
de aproximación en el segundo nivel de la TDO con los valores de la escala de grises (de
0 hasta 255). De la matriz codificada o imagen reducida, que tiene menor dimensión que la
matriz original se extraen submatrices o subimágenes con cierto grado de solapamiento las
cuales se arreglan de forma consecutiva y se convierten en un vector columna. Estos vectores
son llamados vectores de observación. Ası́, cada imagen es representada por una secuencia de
37
CAPÍTULO 2. FUNDAMENTO TEÓRICO
vectores de observación que se inician a partir de la subimagen superior izquierda y finalizan
en la subimagen inferior derecha. Los detalles del proceso se muestran en el capı́tulo siguiente.
En cada paso la imagen es dividida en cuatro cuadrantes. La imagen reducida en cada paso
se observa en el angulo superior izquierdo. Las demás secciones representan los coeficientes
de alta frecuencia, las cuales contienen información no relevante para la representación de la
imagen en esa resolución.
2.4.6.3. Familias de funciones Wavelet
Existe un número importante de wavelets en la literatura e incluso en algunas aplicaciones
y lenguajes de programación como MatLab R©. Son de gran utilidad al momento de realizar
transformaciones de señales, especialmente en compresión. Mención especial tiene la familia
de wavelets debidas a Daubechies, (1992). Sus nombres se escriben como dbN donde N es
su orden. Dentro de sus caracterı́sticas están: ser ortogonales de soporte compacto, con fase
extrema y un número alto de momentos de desvanecimiento.
2.4.6.3.0.1. Haar La primera transformación de onda fue desarrollada por el matemático
húngaro Alfred Haar. Para una entrada representada por una lista de de 2n números, la transfor-
mada de Haar puede ser considerada simplemente como valores de entrada pareados, almace-
nando la diferencia. Este proceso se repite de manera recursiva, pareando las sumas para proveer
la siguiente escala, resultando finalmente en 2n−1 diferencias y una suma final. Es equivalente
a la familia db1. Gráficamente se muestra en la figura 2.11.:
2.4.6.3.0.2. db2 La forma de la función de escala y su onda se muestra en la figura 2.12.:
38
CAPÍTULO 2.FUNDAMENTO TEÓRICO
Figura 2.11: Función de escala y función wavelet db1
Figura 2.12: Función de escala y función wavelet db2
2.4.6.3.0.3. db4 La forma de la función de escala y su onda se muestra en la figura 2.13.:
2.4.6.3.0.4. db10 La forma de la función de escala y su onda se muestra en la figura
2.14.:
39
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.13: Función de escala y función wavelet db4
Figura 2.14: Función de escala y función wavelet db10
40
CAPÍTULO 3
DESCRIPCIÓN DE LAS PRUEBAS DE
RECONOCIMIENTO
Este capı́tulo es una descripción del esquema empleado en el desarrollo de las pruebas
esenciales para el reconocimiento de rostros. Los fundamentos de la metodologı́a utilizada, ası́
como el diseño experimental son los empleados por (Samaria, 1994), (Kohir and Desai, 1998)
y (Abbas and Farhan, 2012).
3.1. Construcción de la base de datos
En la actualidad existe un número considerable de bases de datos de rostros públicas que
pueden ser empleadas para las pruebas de reconocimiento automático. Sin embargo, en este
41
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
trabajo de investigación se decidió crear una base de datos propia, con la finalidad, por un
lado, de estudiar los mecanismos y metodologı́as relacionadas con la captura de imágenes, y
por el otro, estimular el estudio del reconocimiento de rostros empleando una base de datos
experimental con rostros venezolanos.
3.1.1. Descripción de la base de datos utilizada
La base de datos contiene un total de 100 imágenes del rostro de cinco individuos (4 mujeres
y 1 hombre), 20 por cada uno. La edad de los participantes varı́a entre los 7 y 35 años y a cada
uno de ellos se le solicitó ubicarse frente al objetivo de la cámara permitiendo ligeros cambios
en la pose. Contrario al experimento de Samaria y Young (1995), se mantuvieron siempre las
mismas condiciones de iluminación.
3.1.2. Captura de imágenes
Mediante la herramienta imaqtool de MatLab R©, se obtuvo un video por individuo emplean-
do una cámara web Microsoft R©LifeCam HD-3000 conectada al computador. El dispositivo fue
configurado a 20 fotogramas por disparo con una resolución de 223x314 pixeles, enfocando
la región del rostro. Se diseñó un programa que extrae cada fotograma de cada video y las
almacena en directorios separados para su posterior procesamiento.
42
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Esquemáticamente el proceso se muestra en la figura 3.1.:
Figura 3.1: Esquema de captura de imágenes
En la figura 3.2 se muestra el conjunto de fotografı́as empleado en la experimentación.
Figura 3.2: Base de datos de rostros original
43
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
3.1.3. Preprocesamiento de imágenes
Con la finalidad de reducir la complejidad en el procesamiento y entrenamiento, en cuanto a
la cantidad de datos a utilizar, las imágenes recortadas fueron transformadas a escala de grises a
través de la función rgb2gray de Matlab, eliminando la información del matiz y la saturación,
manteniendo la iluminación a través de la suma ponderada de los componentes R, G y B de la
fotografı́a experimental de acuerdo con la siguiente ecuación, (MatLab, 2011):
0,2989∗R+0,5870∗G+0,1140∗B (3.1)
Dicho proceso se esquematiza en la figura 3.3:
Figura 3.3: Transformación a escala de grises
A través de otro pequeño programa se recortaron las imágenes en cinco regiones: región de
frente, ojos, nariz, boca y mentón, tal y como se muestra en la figura 3.4. La elección de estas
regiones se fundamentó en el trabajo realizado por Samaria (1994) (Samaria, 1994), el cual
consideró natural la delimitación de estas cinco regiones.
44
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.4: Delimitación de las regiones del rostro
3.2. Extracción de caracterı́sticas de las fotografı́as
Para la extracción de caracterı́sticas se utilizó la Transformada Discreta de Onda, sobre cada
una de las regiones delimitadas, empleando las familias db1, db2, db4 y db10 y los niveles de
descomposición. De acuerdo con MatLab (2011), los niveles de descomposición mas usuales
para imágenes van de 2 a 4. Sin embargo, se decidió extender la descomposición al nivel 6. La
elección de las familias Daubechies se fundamentó en el hecho que (Li and Jain, 2004), (Abbas
and Farhan, 2012) obtuvieron excelentes resultados con las familias db1. Por otro lado, de
acuerdo con (Mukta and Rohit, 2013), la familia db10 mostró el mejor desempeño en conjunto
con la TDO para el análisis esteganográfico, es decir, la ocultación de mensajes secretos dentro
de imágenes. En otra investigación (Makaremi and Ahmadi, 2009), la familia db4 junto con la
TDO obtuvo las mejores tasas de reconocimiento de imágenes con MOM.
1. En el primer paso, se aplicó la Transformada Discreta de Onda a un nivel de transforma-
ción y familia dados, obteniendo la imagen reducida o la matriz de aproximación.
45
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
2. En el segundo paso, los coeficientes de aproximación obtenidos fueron reescalados a
la dimensión de los valores escala de grises (0,255) mediante la función wcodemat. El
objetivo de esta transformación era permitir la comparación posterior de las imágenes
originales en escala de grises con las obtenidas mediante la TDO.
3. Cada vector se almacenó en una matriz de secuencias de entrenamiento.
El proceso completo se puede apreciar en la figura 3.5.
Figura 3.5: Proceso de extracción de caracterı́sticas
46
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
3.3. Entrenamiento de los MOM
Puesto que la base de datos consiste de 5 individuos, I, y a su vez 5 regiones por rostro,
se entrenó un total de I x R= 25 MOM, es decir, un MOM por cada región R del rostro de ca-
da individuo. Adicionalmente, y para realizar posteriores comparaciones, el número de estados
de cada MOM N se estableció entre 3 y 7, con lo cual, el total de MOM entrenados se incre-
mentó a I x R x N = 125. De este modo, para cada combinación (I,R,N) se siguió la siguiente
metodologı́a:
1. Se generaron de forma aleatoria los parámetros iniciales π,A,B de cada MOM λ, asu-
miendo una topologia ergódica y una distribución de emisión de sı́mbolos discreta de 256
sı́mbolos, producto de la transformación a escala de grises.
2. Se utilizó el algoritmo de Baum Welch, conjuntamente con la función hmmtrain, para
la estimación de los parámetros A,B, deteniendo el proceso luego de la convergencia en
verosimilitud.
3. Los resultados de las estimaciones se almacenaron en una matrı́z que posteriormente se
utilizó en el proceso de reconocimiento.
En la figura 3.6. se muestra de forma esquemática el proceso de entrenamiento:
47
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.6: Proceso de entrenamiento de los MOM
3.4. Reconocimiento mediante los MOM
Una vez concluido el proceso de entrenamiento, el siguiente paso fue el reconocimiento con
las imágenes que no fueron empleadas para el entrenamiento. Para ello, se siguió la siguiente
metodologı́a:
1. A cada imagen de entrada se aplicó la Transformada Discreta de Onda del mismo modo
como se realizó en la fase de entrenamiento, y se extrajeron los coeficientes de aproxima-
ción respectivos para cada región, convirtiéndolos posteriormente en un vector de valores
de escala de grises tal y como se describió en la sección anterior.
2. En el segundo paso, que constituye la clave del reconocimiento se siguió la siguiente
estrategia:
48
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
a Se eligió el vector de valores de una región, digamos por ejemplo la frente, y se
comparó con los MOM entrenados de la frente de todos los individuos.
b A través del algoritmo Baum-Welch, se obtuvo la probabilidad de que cada secuen-
cia de valores haya sido generada por cada MOM de las frentesy se almacenaron
en un vector de probabilidades estimadas.
3. En un vector se almacenó la etiqueta que indicaba el individuo cuyo MOM generó la
probabilidad máxima.
4. El proceso se repitió para cada región de cada imagen de reconocimiento de todos los
individuos.
La determinación de la tasa de reconocimiento global de los individuos se fundamentó en
la frecuencia observada de reconocimiento correcto de las regiones por imagen. Es decir, se
consideró un reconocimiento correcto de un rostro cuando se obtuvo mayorı́a en las regiones
reconocidas correctamente. La elección de este método se fundamentó en el hecho a mayor can-
tidad de regiones reconocidas correctamente, es mas probable que el rostro de experimentación
pertenezca al modelo entrenado. Esquemáticamente, el proceso de reconocimiento por regiones
se muestra en la figura 3.7.:
49
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.7: Algoritmo reconocimiento de las regiones del rostro
En la tabla 3.1 se muestra un ejemplo hipotético que ilustra la metodologı́a empleada para
la determinación del porcentaje de reconocimiento de los modelos. En las 5 regiones del rostro
del individuo 1, el reconocedor clasificó correctamente 4 de ellas. Puesto que el criterio de
reconocimiento se basa en la mayor frecuencia de las regiones correctamente clasificadas, el
reconocimiento en este caso es del 100%. En el caso del individuo 3, la tasa de reconocimiento
es 0% ya que los MOM clasificaron correctamente sólo 2 de las 5 regiones.
50
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Tabla 3.1: Ejemplo de Reconocimiento de los MOM
Región Ind. Status %
Individuo Frente Ojos Nariz Boca Mentón
1 1 2 1 1 1 1 Correcto 100%
2 2 2 2 2 2 2 Correcto 100%
3 2 2 2 3 3 2 Incorrecto 0%
4 4 4 1 4 4 4 Correcto 100%
5 5 5 2 1 5 5 Correcto 100%
3.5. Descripción del software utilizado
En este trabajo de investigación se construyó una serie de programas basados en el lenguaje
MatLab R©, versión 7.12 de 64bits. Dentro de los principales códigos desarrollados están:
LecturaVideo.m: Ejecuta la lectura de los videos donde se capturaron las imágenes y las
almacena en directorios separados.
SelecciónRegión.m: Realiza la selección del área del rostro de cada individuo y recorta
automáticamente las regiones.
EscalaGrises.m: Transforma las imágenes de las regiones en escala de grises de 256
tonalidades.
TDO.m: Ejecuta la TDO en cada una de las imágenes, transforma los coeficientes obte-
nidos en el mismo espacio del conjunto de sı́mbolos y genera una matriz codificada con
dichos coeficientes.
Vectorizada.m: Convierte cada elemento de la matriz codificada en un vector o secuencia
que sirva como insumo en el proceso de reconocimiento.
51
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
EntrenadorMOM.m: Ejecuta el entrenamiento de los MOM y genera una matriz con los
valores estimados de AyB.
ReconocedorMOM.m: Calcula las probabilidades de generación de las secuencias para
un MOM estimado en la fase de entrenamiento.
Evaluacion.m: Realiza una evaluación del desempeño de los modelos estimados y cal-
cula tasas de reconocimiento.
Para todas las pruebas se utilizó un computador AMD R©con procesador Phenom II 965 X4
y memoria RAM de 8 Gb, bajo sistema operativo Windows R©7 Ultimate SP1 de 64 bits.
52
CAPÍTULO 4
RESULTADOS DEL RECONOCIMIENTO
AUTOMÁTICO DE ROSTROS
En este capı́tulo se detallan los resultados obtenidos de la fase experimental de reconoci-
miento de rostros mediante los Modelos Ocultos de Markov.
4.1. Pruebas de reconocimiento globales
Se obtuvo una tasa de reconocimiento general que osciló entre el 20 y el 100%, de acuerdo
con diferentes combinaciones del número de estados del MOM, el nivel de descomposición y
la familia de transformación.
53
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.1: Reconocimiento global de MOM de 3 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 65,65 s 23,86 s 20%
db2 2 0,1 5 59,03 s 24,72 s 40%
db4 2 0,1 5 64,11 s 27 s 40%
db10 2 0,1 5 80,18 s 33,13 s 60%
db1 3 0,1 5 18,58 s 6,3 s 20%
db2 3 0,1 5 22,39 s 7,11 s 20%
db4 3 0,1 5 24,44 s 8,72 s 20%
db10 3 0,1 5 41,77 s 14,44 s 60%
db1 4 0,1 5 10,29 s 1,66 s 100%
db2 4 0,1 5 11,29 s 2,15 s 40%
db4 4 0,1 5 14,28 s 3,18 s 60%
db10 4 0,1 5 27,18 s 7,61 s 100%
db1 5 0,1 5 7,52 s 0,48 s 80%
db2 5 0,1 5 8,02 s 0,78 s 100%
db4 5 0,1 5 9,6 s 1,47 s 100%
db10 5 0,1 5 19,32 s 4,81 s 100%
db1 6 0,1 5 6,09 s 0,15 s 100%
db2 6 0,1 5 6,95 s 0,32 s 100%
db4 6 0,1 5 8,55 s 0,81 s 100%
db10 6 0,1 5 26,23 s 3,61 s 100%
4.1.0.1. Resultados del reconocimiento de MOM de 3 estados
Los resultados del entrenamiento y reconocimiento para MOM de 3 estados en todas las
regiones del rostro se muestran en la tabla 4.1.:
Como es posible observar, se alcanzó un reconocimiento del 100% de los rostros a partir de
un nivel de descomposición igual a 4 para todas las familias de transformación. Sin embargo, el
mejor MOM para el reconocimiento en términos de tiempo fue aquel cuyos vectores de entre-
namiento provenı́an de una transformación de la familia db1 a un nivel de descomposición igual
a 6. En este caso, el tiempo de entrenamiento fue 6,09 segundos mientras que el reconocimiento
fue de apenas 0,15 segundos.
54
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.2: Reconocimiento global de MOM de 5 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 70,12 s 29,29 s 20%
db2 2 0,1 5 66,45 s 29,1 s 20%
db4 2 0,1 5 76,06 s 33,59 s 40%
db10 2 0,1 5 91,87 s 40,08 s 60%
db1 3 0,1 5 21,26 s 5,14 s 40%
db2 3 0,1 5 23,31 s 7,79 s 40%
db4 3 0,1 5 26,51 s 9 s 40%
db10 3 0,1 5 43,83 s 15,62 s 60%
db1 4 0,1 5 14,12 s 2,63 s 60%
db2 4 0,1 5 24,82 s 3,32 s 40%
db4 4 0,1 5 22,92 s 5,03 s 60%
db10 4 0,1 5 47,23 s 11,74 s 100%
db1 5 0,1 5 10,62 s 0,71 s 80%
db2 5 0,1 5 13,78 s 1,14 s 100%
db4 5 0,1 5 16,42 s 2,27 s 100%
db10 5 0,1 5 42,79 s 7,39 s 100%
db1 6 0,1 5 10,47 s 0,23 s 80%
db2 6 0,1 5 10,72 s 0,48 s 100%
db4 6 0,1 5 14,36 s 1,26 s 100%
db10 6 0,1 5 27,19 s 5,57 s 100%
4.1.0.2. Resultados del reconocimiento de MOM de 5 estados
Los resultados del entrenamiento y reconocimiento para MOM de 5 estados en todas las
regiones del rostro se muestran en la tabla 4.2.:
Al igual que el caso anterior, se alcanzó un reconocimiento del 100% de los rostros a partir
de un nivel de descomposición igual a 4 para todas las familias de transformación. En este
caso, el mejor MOM para el reconocimiento fue aquel cuyos vectores de entrenamiento fueron
generados por una transformación de la familia db2 a un nivel de descomposición igual a 6. En
esete caso, el tiempo de entrenamiento fue 10,72 segundos mientras que el reconocimiento fue
0,48 segundos.
55
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.3: Reconocimiento global de MOM de 7 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 151,97 s 51,46 s 20%
db2 2 0,1 5 78,7 s 30,11 s 40%
db4 2 0,1 5 179,47 s 59,12 s 40%
db10 2 0,1 5 99,53 s 44,53 s 60%
db1 3 0,1 5 45,91 s 13,41 s 20%
db2 3 0,1 5 70,58 s 26,55 s 40%
db4 3 0,1 5 57,85 s 18,87 s 20%
db10 3 0,1 5 44,72 s 16,15 s 80%
db1 4 0,1 5 20,76 s 3,65 s 60%
db2 4 0,1 5 63,89 s 4,59 s 40%
db4 4 0,1 5 28,66 s 7,12 s 100%
db10 4 0,1 5 68,1 s 16,11 s 100%
db1 5 0,1 5 19,18 s 0,97 s 80%
db2 5 0,1 5 18,36 s 1,55 s 100%
db4 5 0,1 5 19,99 s 3,22 s 100%
db10 5 0,1 5 50,11 s 10,31 s 100%
db1 6 0,1 5 12,99 s 0,3 s 100%
db2 6 0,1 5 12,91 s 0,66 s 100%
db4 6 0,1 5 17,34 s 1,76 s 100%
db10 6 0,1 5 10,89 s 0,3 s 100%
4.1.0.3. Resultados del reconocimiento de MOM de 7 estados
La tabla 4.3. muestra los resultados del reconocimiento empleando MOM de 7 estados:
Del mismo modo, se obtuvo un reconocimiento perfecto para MOM de 7 estados. El modelocon el mejor desempeño en término de los tiempos de entrenamiento y reconocimiento provino
de vectores de entrenamiento generados por la familia db10 a nivel de descomposición 6. El
entrenamiento y el reconocimiento se obtuvo en 10,89 y 0,3 segundos respectivamente.
56
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.4: Modelos con mejor desempeño en reconocimiento
Familia Nivel Estados Entrenamiento Reconocimiento % Reconocimiento
db1 6 3 6,09 s 0,15 s 100%
db10 6 7 10,89 s 0,30 s 100%
db1 6 7 12,99 s 0,30 s 100%
db2 6 3 6,95 s 0,32 s 100%
db2 6 5 10,72 s 0,48 s 100%
db2 6 7 12,91 s 0,66 s 100%
db2 5 3 8,02 s 0,78 s 100%
db4 6 3 8,55 s 0,81 s 100%
db2 5 5 13,78 s 1,14 s 100%
db4 6 5 14,36 s 1,26 s 100%
db4 5 3 9,60 s 1,47 s 100%
db2 5 7 18,36 s 1,55 s 100%
db1 4 3 10,29 s 1,66 s 100%
db4 6 7 17,34 s 1,76 s 100%
db4 5 5 16,42 s 2,27 s 100%
db4 5 7 19,99 s 3,22 s 100%
db10 6 3 26,23 s 3,61 s 100%
db10 5 3 19,32 s 4,81 s 100%
db10 6 5 27,19 s 5,57 s 100%
db4 4 7 28,66 s 7,12 s 100%
db10 5 5 42,79 s 7,39 s 100%
db10 4 3 27,18 s 7,61 s 100%
db10 5 7 50,11 s 10,31 s 100%
db10 4 5 47,23 s 11,74 s 100%
db10 4 7 68,10 s 16,11 s 100%
4.2. Mejores modelos obtenidos para el reconocimiento
La tabla 4.4 muestra los modelos con tasa de reconocimiento perfecto ordenados de acuer-
do con el tiempo en segundos. Se observó que los MOM con 3 estados y en conjunto con la
familia db1 al nivel de descomposición 6, requirieron menor tiempo para entrenamiento y re-
conocimiento 6,09 y 0,15 segundos respectivamente. El segundo mejor modelo fue un MOM
de 7 estados en conjunto con la familia db10 al nivel de descomposición 6. Este modelo fue un
44,07 y un 50% mas lento que el primero.
57
CAPÍTULO 5
CONCLUSIONES Y
RECOMENDACIONES
En este capı́tulo se detallan los principales hallazgos y se plantea una serie de recomenda-
ciones para mejorar el trabajo de investigación y desarrollar proyectos posteriores.
5.1. Conclusiones
1. Los Modelos Ocultos de Markov constituyen una herramienta muy potente para el re-
conocimiento de rostros a través de imágenes, superando los resultados obtenidos por
otras tecnologı́as, como por ejemplo las redes neuronales de Quiong y col. (2003). Den-
tro de las ventajas de los MOM se encuentran la relativa facilidad con la que se puede
58
CAPÍTULO 5. CONCLUSIONES Y RECOMENDACIONES
programar un sistema completo de adquisición y procesamiento y las altı́simas tasa de
reconocimiento en, al menos, ambientes controlados.
2. Los Modelos Ocultos de Markov en conjunto con la Transformada Discreta de Onda,
constituyen un binomio perfecto que permite, por un lado, manipular la información
contenida en imágenes extrayendo la mas importante, y por el otro, crear secuencias o
patrones para nutrir modelos que mediante su entrenamiento, brindan una medida de la
identificación de un rostro en particular.
3. La mejor arquitectura de los MOM para una aplicación como esta se encuentra mediante
experimentación.
4. Entre las mejores arquitecturas de los MOM, aquellos con un número bajo de estados
producen los mismos resultados que los modelos con mayor número de estados, con la
diferencia de un menor consumo de tiempo, tanto para el entrenamiento como para la
evaluación.
5. El nivel de extracción de caracterı́sticas es determinante en el reconocimiento. En esta
investigación los mejores resultados se obtuvieron con los niveles 4, 5 y 6.
6. Es perfectamente posible crear un sistema de captura, procesamiento y reconocimiento de
rostros utilizando esta metodologı́a, la cual podrı́a ser empleada en sistemas de acceso y
validación de usuarios en instituciones del Estado, instituciones universitarias, entidades
bancarias y, en general, en todas aquellas donde sea menester la verificación y/o recono-
cimiento de usuarios.
59
CAPÍTULO 5. CONCLUSIONES Y RECOMENDACIONES
7. La transformación de los coeficientes de aproximación obtenidos en escala de grises es
una alternativa totalmente válida para reducir la complejidad del sistema y para construir
y probar los MOM.
8. El reconocimiento global por bandas es una estrategia válida para la evaluación del desem-
peño de los MOM en el reconocimiento de rostros, puesto que, por una lado permite la
reducción de la dimensionalidad de la imagen original al aplicar la TDO y, por el otro,
establecer una medida de validación basada en la frecuencia de reconocimiento correcto
de las bandas.
5.2. Recomendaciones
1. A pesar de obtener resultados altamente satisfactorios, es preciso acotar que el recono-
cimiento se realizó sobre la disponibilidad de una base de datos con varias imágenes
por individuo con ligeros cambios en la pose, por tal razón serı́a de gran interés realizar
pruebas donde se aprecien cambios mayores, como por ejemplo la edad.
2. Estudiar el efecto de la variación del número de individuos de la base de datos, es decir,
realizar experimentación con un número mayor de sujetos.
3. Estudiar el efecto del número de imágenes de entrenamiento y de reconocimiento al in-
cluir mas individuos.
4. Estudiar el efecto Modelos Ocultos de Markov no ergódicos en la tasa de reconocimiento.
60
BIBLIOGRAFÍA
Abbas, E. and Farhan, H. (2012). Face recognition using dwt with hmm. Engineering and
Technology, 30(1):142–154.
Bicego, M., Castellani, U., and Murino, V. (2003). Using hidden markov models and wavelets
for face recognition. In IEEE, editor, Proceedings of the 12th International Conference on
Image Analysis and Processing (ICIAP 03), pages 52–56, Mantova, Italia.
Eickeler, S. (2002). Face database retrieval using pseudo 2d hidden markov models. In IEEE,
editor, Proceedings of the fifth IEEE International Conference on Automatic Face and Ges-
ture Recognition (FGR2002). IEEE The Computer Society.
Fink, G. (2008). Markov Models for Pattern Recognition. Springer, USA.
Gao, X., Li, J., and Xiao, B. (2009). A face recognition scheme based on embedded hidden
61
BIBLIOGRAFÍA
markov model and selective ensemble strategy. International Journal of Image and Graphics,
9(3):355–367.
González, R. and Woods, R. (2002). Digital Image Processing. Prentice Hall, USA, segunda
edición edition.
Ibe, O. (2009). Markov Processes for Stochastic Modelling. Academic Press, USA.
Kohir, V. and Desai, U. (1998). Face recognition using a dct-hmm approach. In IEEE, edi-
tor, Proceedings of the fourth IEEE Workshop Applications of Computer Vision. IEEE The
Computer Society.
Koutroumbas, K. and Theodoridis, S. (2009). Pattern Recognition. Academic Press, USA,
cuarta edición edition.
Le, H. and Li, H. (2003). Simple 1d discrete hidden markov models for face recognition. In
Springer-Verlag, editor, Proceedings of 8th International workshop (VLBV) (visual content
processing and representation), pages 41–49, Heidelberg.
Li, S. and Jain, A. (2004). Handbook of Face Recognition. Springer, USA.
Makaremi, I. and Ahmadi, M. (2009). A robust wavelet based feature extraction method for
face recognition. In Proceedings of the 2009 IEEE International Conference on Systems,
Man, and Cybernetics, USA. IEEE.
Méndez, H. and Garcı́a, E. (2008). Estado actual de los métodos de reconocimiento automático
de rostros basados en la apariencia local. In Reporte Técnico: Reconocimiento de Patrones,
62
BIBLIOGRAFÍA
number RT-006 in Serie Azul. Centro de Aplicaciones de Tecnologı́a de Avanzada CENA-
TAV, Siboney, Playa, La Habana, Cuba.
Mukta, G. and Rohit, G. (2013). Comparative analysis of wavelet filters on hybrid transform
domain image steganography techniques. IJARCSSE, 3(8).
Nefian, A. (1999). A Hidden Markov Model-Based Approach for Face Detection and Recogni-
tion. PhD thesis, Georgia Institute of Technology, Georgia, USA.
Nefian, A. and Hayes, M. (1996). Hidden markov models for face recognition. Center for
Signal and Image Processing School of Electrical and Computer Engineering.
Othman, H. and Aboulnasr, T. (2000). Hybrid hidden markov model