Logo Studenta

Reconocimiento Facial a través Del Procesamiento Estadístico De Imágenes

¡Este material tiene más páginas!

Vista previa del material en texto

Universidad de Los Andes
Facultad de Ciencias Económicas y Sociales
Instituto de Estadı́stica Aplicada y Computación IEAC
RECONOCIMIENTO FACIAL A TRAVÉS DEL
PROCESAMIENTO ESTADISTICO DE IMÁGENES
Lic. Jairo Julián Ochoa
Tutor: Dr. José Luciano Maldonado
Enero, 2015
c©2015 Universidad de Los Andes, Mérida - Venezuela
Dedicatoria
A Dios, por demostrar su inmensa gloria en cada instante
A Yasmin, por existir y ser mi compañera de vida
A Giulianna, por ser mi más preciado tesoro
A Josefina, por su lucha tenaz y don de la vida
II
Agradecimientos
A mi tutor, Dr. José Luciano Maldonado, quién con sus sabios consejos e inestimable cali-
dad humana contribuyó enormemente en alcanzar esta meta.
A todos mis docentes de la Maestrı́a
A todo el equipo administrativo del IEAC
Al santuario de ideales, nuestra Universidad de Los Andes
III
RECONOCIMIENTO FACIAL A TRAVÉS DEL
PROCESAMIENTO ESTADÍSTICO DE IMÁGENES
Lic. Jairo Julián Ochoa
Resumen: En este trabajo de investigación se realizó reconocimiento de rostros mediante
los Modelos Ocultos de Markov en combinación con la Transformada Discreta de Onda. Para
ello se construyó una base de datos de rostros contentiva de 100 fotografı́as de cinco individuos
y se extrajeron los coeficientes de aproximación de cinco regiones del rostro que se convirtieron
en las secuencias de entrenamiento de los modelos. Se combinaron diversos niveles de descom-
posición de las imágenes, familias wavelets y número de estados en los Modelos Ocultos de
Markov. En las pruebas experimentales la tasa de reconocimiento varió de acuerdo con la ar-
quitectura de los modelos empleados, oscilando entre 20% para aquellos con mayor número de
estados y bajo nivel de descomposición y 100% para modelos con menor número de estados y
altos niveles de descomposición. Estos resultados son un indicativo de la potencia que dichos
modelos poseen y demostraron ser una herramienta adecuada para el desarrollo de aplicaciones
de este tipo, superando otras tecnologı́as.
Palabras clave: Modelos Ocultos de Markov, Transformada Discreta de Onda, Reconoci-
miento de Rostros, Wavelets.
IV
ÍNDICE GENERAL
1. Descripción del Proyecto Desarrollado 1
1.1. Reconocimiento facial a partir de imágenes . . . . . . . . . . . . . . . . . . . 2
1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Objetivos de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2. Objetivos especı́ficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Organización del documento de tesis . . . . . . . . . . . . . . . . . . . . . . . 11
2. Fundamento Teórico 12
2.1. Imágenes y Pı́xeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2. Imagen digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3. Tipos de imágenes digitales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Los Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . 19
V
ÍNDICE GENERAL
2.4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4.2. Supuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.4.3. Tres problemas fundamentales de los MOM . . . . . . . . . . . . . . . 22
2.4.4. Métodos de Solución . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.5. Tipos de Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . 29
2.4.6. Transformada Wavelet . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Descripción de las pruebas de reconocimiento 41
3.1. Construcción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.1.1. Descripción de la base de datos utilizada . . . . . . . . . . . . . . . . 42
3.1.2. Captura de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.3. Preprocesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . 44
3.2. Extracción de caracterı́sticas de las fotografı́as . . . . . . . . . . . . . . . . . . 45
3.3. Entrenamiento de los MOM . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4. Reconocimiento mediante los MOM . . . . . . . . . . . . . . . . . . . . . . . 48
3.5. Descripción del software utilizado . . . . . . . . . . . . . . . . . . . . . . . . 51
4. Resultados del reconocimiento automático de rostros 53
4.1. Pruebas de reconocimiento globales . . . . . . . . . . . . . . . . . . . . . . . 53
4.2. Mejores modelos obtenidos para el reconocimiento . . . . . . . . . . . . . . . 57
5. Conclusiones y Recomendaciones 58
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
VI
ÍNDICE GENERAL
5.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
A. Anexo: Códigos de computadora 65
VII
ÍNDICE DE FIGURAS
1.1. Diagrama de bloques del proceso de reconocimiento de rostros por computadora 5
2.1. Efecto del proceso de cuantización en imágenes digitales . . . . . . . . . . . . 15
2.2. Ejemplo de una imagen digital binaria de un rostro humano . . . . . . . . . . 16
2.3. Ejemplo de una imagen digital de un rostro humano en escala de grises con K
= 256 intensidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4. Ejemplo de una imagen digital de un rostro humano en color verdadero . . . . 18
2.5. Estructura general de un Modelo Oculto de Markov . . . . . . . . . . . . . . . 21
2.6. Diseño de enrejado del algoritmo Forward-Backward . . . . . . . . . . . . . . 24
2.7. El paso de inducción en el algoritmo Forward-Backward . . . . . . . . . . . . 26
2.8. Topologia ergódica de los MOM utilizados . . . . . . . . . . . . . . . . . . . 30
2.9. Extracción de caracterı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.10. Proceso de extracción de coeficientes de la imagen . . . . . . . . . . . . . . . 37
VIII
ÍNDICE DE FIGURAS
2.11. Función de escala y función wavelet db1 . . . . . . . . . . . . . . . . . . . . . 39
2.12. Función de escala y función wavelet db2 . . . . . . . . . . . . . . . . . . . . . 39
2.13. Función de escala y función wavelet db4 . . . . . . . . . . . . . . . . . . . . . 40
2.14. Función de escala y función wavelet db10 . . . . . . . . . . . . . . . . . . . . 40
3.1. Esquema de captura de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Base de datos de rostros original . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Transformación a escala de grises . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4. Delimitación de las regiones del rostro . . . . . . . . . . . . . . . . . . . . . . 45
3.5. Proceso de extracción de caracterı́sticas . . . . . . . . . . . . . . . . . . . . . 46
3.6. Proceso de entrenamiento de los MOM . . . . . . . . . . . . . . . . . . . . . . 48
3.7. Algoritmo reconocimiento de las regiones del rostro . . . . . . . . . . . . . . . 50
IX
ÍNDICE DE TABLAS
2.1. Valores de escala de grises . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.1. Ejemplo de Reconocimiento de los MOM . . . . . . . . . . . . . . . . . . . . 51
4.1. Reconocimiento global de MOM de 3 estados . . . . . . . . . . . . . . . . . . 54
4.2. Reconocimiento global de MOM de 5 estados . . . . . . . . . . . . . . . . . . 55
4.3. Reconocimiento global de MOM de 7 estados . . . . . . . . . . . . . . . . . . 56
4.4. Modelos con mejor desempeño en reconocimiento . . . . . . . . . . . . . . . . 57
X
CAPÍTULO 1
DESCRIPCIÓN DEL PROYECTO
DESARROLLADO
El cerebro humano es capaz de realizar un sinnúmero de tareas complejas de forma au-
tomática empleando para ello información procedente del exterior. Se sabe que el reconocimien-
to de rostros en los humanos es una actividad altamente especializada de procesos neuronales
que ocurren en las porcionesventrales occipito-temporales y en los lóbulos medios temporales
del cerebro. Es allı́ donde converge un amplio espectro de estı́mulos de casi, o si no, todos los
sentidos (Zhao et al., 2003). El entrenamiento y la capacidad cognitiva del individuo son ele-
mentos centrales en la habilidad para reconocer rostros (Wilson and Keil, 1999). Sin embargo,
esta capacidad humana tiene limitaciones como por ejemplo en el número de rostros que, en
1
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
promedio, una persona puede recordar (Zhao et al., 2003).
Por otro lado, la implementación o emulación del reconocimiento de rostros a través de
computadoras se ha convertido en los últimos años en una de las aplicaciones mas importantes
del análisis de imágenes, orientándose hacia la autenticación biométrica, sistemas de vigilan-
cia, la interacción humano-computador, los sistemas de control de accesos entre otros, (Li and
Jain, 2004). La utilización de dispositivos de captura como cámaras fotográficas, cámaras de
video y, mas recientemente, cámaras web, hacen del rostro una herramienta perfecta para la
autenticación y clasificación biométrica, dado su carácter no invasivo, de fácil acceso y bajo
costo.
1.1. Reconocimiento facial a partir de imágenes
Básicamente, el reconocimiento de rostros mediante computadora es un problema de visión
artificial en el que interviene un gran número de factores, que van desde el propio dispositi-
vo con el cual se captura la imagen, pasando por las condiciones como iluminación, pose del
individuo respecto del objetivo de la cámara, accesorios (anteojos, bigotes, barba, sombreros),
distancia del objetivo, expresiones faciales, entre otros. De acuerdo con (Méndez and Garcı́a,
2008), las variaciones de iluminación pueden generar imágenes muy diferentes de un mismo
rostro. También, el cambio de posición es una de las principales causas de variabilidad en el
reconocimiento de rostros (Sarfraz et al., 2010), (Zhao et al., 2003).
En general, el reconocimiento de rostros se divide en dos escenarios: (1) verificación ó au-
tenticación, (2) identificación ó reconocimiento (Li and Jain, 2004). La etapa de verificación
2
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
consiste en la aceptación o el rechazo de una identidad predefinida, es decir, sabiendo que la
imagen se corresponde con un individuo conocido, un sistema verificador debe estar en capa-
cidad de “verificar” que esta identidad se encuentre en sus registros. El reconocimiento por su
parte tiene como entrada un rostro “desconocido” y sobre la base del entrenamiento del sistema,
éste debe estar en la capacidad de distinguir o reconocer a cuales de los rostros que se encuen-
tra en sus registros pertenece. En resumen, la verificación responde a la pregunta ¿pertenece la
imagen mostrada al individuo Z?, mientras que el reconocimiento responde a la pregunta ¿A
qué identidad pertenece la imagen?. Este trabajo de investigación está enfocado exclusivamente
en el proceso de reconocimiento.
Normalmente, el reconocimiento de rostros pasa por tres etapas conocidas en la literatura
como: detección, extracción de caracterı́sticas y reconocimiento. Inicialmente se parte de una
imagen de una escena cualquiera. Sobre la base de la información contenida en esta imagen,
la etapa de detección consiste en determinar la presencia de un rostro. En los comienzos de la
investigación de reconocimiento de rostros a partir de imágenes, esta etapa supuso un problema
complejo que, en la actualidad, está prácticamente resuelto, e incluso existen en el mercado
un gran número de aplicaciones en teléfonos celulares y cámaras fotográficas, entre otros. Asi,
se sustenta la afirmación que en condiciones de buen entrenamiento, los computadores son
eficientes en la detección de rostros (Zhao et al., 2003).
Una vez detectado el rostro, la siguiente etapa consiste en la extracción de caracterı́sticas
que sirven como insumo al sistema reconocedor. Puntos, lineas, o áreas especı́ficas del rostro
pueden ser utilizadas como clave para el entrenamiento o modelado de un rostro en particular.
Estudios psicológicos han indicado que los humanos reconocen el rostro mediante la utili-
3
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
zación de caracterı́sticas holı́sticas y/o locales. A pesar de su débil desempeño en escenarios no
controlados, los métodos holı́sticos (ó globales) como las autocaras de Turk y Pentland, (Zhao
et al., 2003), emplean todo el rostro como entrada puesto que, como argumenta Sarfraz (Sarfraz
et al., 2010), siendo el rostro una clase de objeto, es necesario discriminar y encontrar pequeños
detalles que revelen las diferencias entre distintos rostros. Para ello, evidentemente, cada pixel
en la imagen debe ser utilizado, de allı́ el concepto global. Estos métodos tienen la desventaja
de ser computacionalmente complejos. Por ejemplo, una imagen de sólo 100x100 pixeles puede
considerarse como un punto en el espacio 10.000 dimensional. Por su parte, y como argumenta
Gottumukkal y Asari (2004), citado por (Sarfraz et al., 2010) los métodos locales de extrac-
ción de caracterı́sticas buscan la reducción de la dimensionalidad antes descrita a través de la
aplicación de transformaciones matemáticas que conserven, lo más que se pueda, el contenido
subyacente en la imagen. Se ha argumentado que estos métodos no varı́an con la pose, la direc-
ción de la iluminación y la expresión facial y, por tanto, son utilizados para la zonificación de la
imagen en áreas reconocibles fı́sicamente como la boca, nariz, ojos, mentón u otras. Dentro de
este grupo de métodos se encuentran la transformada discreta de onda TDO, la Transformada
Discreta de Coseno TDC, los filtros bidimensionales de Gabor, entre otros.
Finalmente, y como se dijo anteriormente, el reconocimiento facial busca determinar la
identidad del rostro contenido en la imagen. Este proceso, sin embargo, pasa previamente por
la definición del modelo (matemático o estadı́stico), que servirá como base estructural para el
proceso de identificación (Simeon, 2005). En este sentido, mas adelante se indicarán las razones
por las cuales los Modelos Ocultos de Markov (MOM), se constituyen en una herramienta
estadı́stica eficiente y robusta en problemas de reconocimiento de rostros.
4
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
En esta investigación se abordaron problemas como: la construcción de una base de datos de
rostros y su pre-procesamiento, la extracción de caracterı́sticas de las imágenes y la construcción
de MOM para la distinguir identidades dentro de un conjunto de individuos.
En general, el proceso de reconocimiento de rostros tiene una estructura como la que se
muestra en el esquema presentado en la figura 1.1:
Figura 1.1: Diagrama de bloques del proceso de reconocimiento de rostros por computadora
1.2. Antecedentes
La investigación cientı́fica sobre la utilización del rostro como medida biométrica se re-
monta a los trabajos de Francis Galton en 1.888 (Zhao et al., 2003). Sin embargo, el trabajo
seminal de Kanade en 1973 (Zhao et al., 2003) marca el inicio de las investigaciones del reco-
nocimiento automático de rostros mediante el uso del computador. En 1990, Kirby y Sirovich
desarrollaron el método conocido como eigenfaces (autocaras) basado en el Análisis de Com-
ponentes Principales. Esta metodologı́a, ası́ como el Análisis Lineal Discriminante y el método
del Emparejamiento de Grafos Elásticos se fundamentaban casi exclusivamente en aspectos
5
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
simétricos y geométricos, por ejemplo, las distancias entre atributos como ojos, comisuras de
labios, triangulación nariz-ojos, entre otros, para la clasificación de rostros (Simeon, 2005).
Por otro lado, si bien es cierto que las aplicaciones de los MOM han sido muy exitosas
particularmenteen el reconocimiento de voz y huellas digitales (también medidas biométricas),
no fue sino hasta el año de 1994 cuando Samaria y Young publican el primer trabajo sobre
reconocimiento de rostros empleando los MOM. En su investigación, utilizan la información de
la intensidad contenida en cada pixel de las imágenes como insumo para el entrenamiento de
modelos unidimensionales Left-Right (1D-LR) en los que cada estado modelaba una región del
rostro (Samaria, 1994). Cada estado emitı́a sı́mbolos de acuerdo con una distribución normal
multivariante y las filas de las imágenes eran empleadas como vector de caracterı́sticas. En ese
momento, las tasas de reconocimiento reportadas fueron del 84% superando el método de las
autocaras de Kirby y Sirovich. Ese mismo año, Samaria extiende el concepto e introduce una
variante, los MOM pseudo 2D (P2D), manteniendo la topologı́a LR y la distribución de emisión
de sı́mbolos descrita arriba, es decir, un P2D-LR. Este tipo de modelo consiste en un arreglo
de estados, en el que en cada región existı́a un estado final con dos posibles transiciones, a
otro estado dentro de su propia región o a la siguiente región (Samaria, 1994). Los resultados
obtenidos fueron superiores a los reportados por los métodos existentes a la fecha.
En el año 1996, Nefian y Hayes introdujeron la Transformada Discreta de Coseno (TDC)
como método de extracción de caracterı́sticas que mejoró la tasa de reconocimiento, puesto
que, como demostró Nefian, las intensidades de pixeles no constituyen la forma mas robusta de
representación de una imagen, al tiempo de ser computacionalmente mas costosa (Nefian and
Hayes, 1996). Un cambio importante de Nefian (1999), respecto de Samaria, fue la definición
6
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
de los MOM embebidos manteniendo, sin embargo, la topologı́a LR. En este tipo de modelo,
cada región del rostro es a su vez un MOM, y a diferencia de Samaria no existe un estado final
en cada región. Las regiones del rostro son denominados superestados que se conectan en la
forma tradicional LR. Este tipo de modelo es conocido como Embbeded Hidden Markov Model
(EHMM) (Nefian, 1999). Con esta metodologı́a, Nefian obtuvo tasas de reconocimiento muy
altas y la velocidad de reconocimiento se incrementó significativamente gracias a la selección
de un pequeño número de coeficientes de la TDC.
La introducción de Nefian y Hayes de la TDC marcó el inicio de la utilización de transfor-
maciones de la información contenida en la imágen como herramienta que mejora sustancial-
mente el reconocimiento. Como ellos mismos argumentaron, la TDC tiene la ventaja que los
coeficientes que reproducen la imagen tienden a ser pequeños y los grandes se concentran en la
bajas frecuencias y por otro lado, estos coeficientes son menos sensibles al ruido, rotaciones y
cambios en la iluminación (Nefian, 1999).
Estos dos trabajos sentaron las bases para la aparición progresiva y sostenida de investiga-
ciones en el área, como por ejemplo: (Kohir and Desai, 1998), (Eickeler, 2002), (Othman and
Aboulnasr, 2000), (Wallhoff et al., 2001), (Bicego et al., 2003), (Le and Li, 2003), (Simeon,
2005), (Gao et al., 2009), entre otros.
Ahora bien, mucho se ha discutido, aunque no se ha llegado a un acuerdo, sobre la combi-
nación más adecuada - dimensión-tipologı́a-distribución de emisión de sı́mbolos - en los MOM
para el reconocimiento de rostros. Sobre la base del trabajo de Samaria y Young de 1994 y em-
pleando la TDC de Nefian, (Kohir and Desai, 1998) reporta tasas de reconocimiento de 99,5%
en los MOM ergódicos 1D + TDC desarrollados, empleando la base de datos de 40 indivi-
7
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
duos del Olivetti Research Laboratory (ORL), con cinco imágenes por individuo para la fase de
entrenamiento y cinco mas para la fase de reconocimiento.
Posteriormente, investigadores como Le (2003) introdujeron el uso de la Transformada Dis-
creta de Onda,(TDO) como herramienta para la extracción de caracterı́sticas y reducción de la
complejidad computacional. Le (2003) reportó tasas de reconocimiento de 100% con un MOM
unidimensional + TDO, en comparación con el 95% obtenido por Samaria con el modelo P2D.
El tiempo de reconocimiento fue 800 veces mayor que el reportado por Samaria. En compara-
ción con el modelo P2D + TDC de Eickeler (2000), la tasa de reconocimiento fue igual (100%),
sin embargo, el tiempo de reconocimiento fue cinco veces mas rápido. En este mismo sentido y
en comparación con el modelo 1D + TDC de Kohir y col. (2000) se alcanzan tasas de reconoci-
miento del 100% pero con un tiempo de reconocimiento siete veces mayor.
Por su lado, Bicego y col. (2003) obtiene tasas de reconocimiento entre 95,4 y 100% en
un modelo 1D + TDO de acuerdo con el número de coeficientes retenidos y el porcentaje de
solapamiento entre las bandas de imágenes. Los resultados de Bicego le permiten afirmar que
los MOM son muy eficientes y efectivos en el modelado de rostros y, que en combinación con
la TDO, se mejora sustancialmente el reconocimiento.
Linlin (2007), afirma que la TDC es sensible a factores como iluminación, expresión y pose
y que para su utilización se requiere gran cantidad de entrenamiento en bases de datos pequeñas.
Mas recientemente (Abbas and Farhan, 2012), empleando MOM ergódicos unidimensionales
en combinación con la TDO obtuvieron resultados del 100% en el reconocimiento en la base
de datos ORL.
En lo que respecta a la distribución de probabilidad de emisión de sı́mbolos, en gran par-
8
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
te de los trabajos desarrollados en el área predomina la utilización de distribuciones continuas
(Gaussianas). Sin embargo, trabajos como los de (Wallhoff et al., 2001), (Le and Li, 2003) y
Lihaipeng (2010) obtuvieron resultados por encima del 95% empleando distribuciones discre-
tas.
También se han utilizado otras metodologı́as en combinación con los MOM. R-Quiong y
col. (2003) hacen uso de redes neuronales polinomiales con MOM 2D, tanto para la detección
de rostros, como para el reconocimiento. La tasa de detección alcanzó un 81,25% mientras que
el reconocimiento reportado fue 95,7%.
El trabajo de investigación desarrollado en la ejecución del proyecto descrito, se fundamentó
en la utilización de MOM unidimensionales ergódicos, con distribución de emisión de sı́mbolos
discreta en combinación con la TDO.
9
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
1.3. Objetivos de la investigación
1.3.1. Objetivo general
Realizar pruebas de reconocimiento de imágenes faciales a través de herramientas es-
tadı́sticas, entre éstas la conocida como Modelos Ocultos de Markov.
1.3.2. Objetivos especı́ficos
Estudiar las técnicas empleadas para el análisis de imágenes.
Construir una base de datos venezolana de rostros para la experimentación.
Emplear la transformada discreta de onda para la extracción de caracterı́sticas.
Utilizar la topologı́a ergódica como arquitectura básica de los Modelos Ocultos de Mar-
kov.
Entrenar MOM para modelar rostros.
Realizar pruebas de reconocimiento de rostros.
Generar conclusiones.
10
CAPÍTULO 1. DESCRIPCIÓN DEL PROYECTO DESARROLLADO
1.4. Organización del documento de tesis
Este documento esta organizado de la siguiente manera. En el capı́tulo 2 se detallan las prin-
cipales definiciones y herramientas teóricas empleadas a lo largo de la investigación, haciendo
énfasis en los MOM, principales topologı́as y su utilización en el modelado de imágenes. Se
define también la TDO y su importancia en la extracción de caracterı́sticas necesarias para el
proceso de construcción de MOM. En el capı́tulo 3, se muestra la metodologı́a empleada en la
captura de imágenes de rostros y la creación de una pequeña base de datos, ası́ como también
el proceso de entrenamiento, extracción de caracterı́sticasy elección de la arquitectura de los
modelos. En el capı́tulo 4 se detallan los principales resultados obtenidos. En el capı́tulo 5 se
muestran las conclusiones y las recomendaciones producto del trabajo desarrollado.
11
CAPÍTULO 2
FUNDAMENTO TEÓRICO
En este capı́tulo se introducen algunos conceptos y definiciones teóricas necesarias para
comprender el desarrollo de la investigación llevada a cabo. Se incluyen las definiciones propias
del procesamiento de imágenes y algunas propiedades de éstas. Se introducen asimismo los
Modelos Ocultos de Markov como herramienta probabilı́stica útil en el reconocimiento facial
y la Transformada Discreta de Onda necesaria en el proceso de extracción de caracterı́sticas de
las imágenes.
2.1. Imágenes y Pı́xeles
Desde el punto de vista matemático, las imágenes son arreglos bidimensionales de valores
de intensidad que varı́an estadı́sticamente de forma local y que resultan de diferentes combina-
12
CAPÍTULO 2. FUNDAMENTO TEÓRICO
ciones de caracterı́sticas abruptas como bordes y regiones contrastantes homogéneas, (González
and Woods, 2002).
2.2. Imagen digital
En general, una imagen puede definirse como toda función f (x,y), donde x y y son coor-
denadas espaciales y la amplitud de f , en cualquier par de coordenadas (x,y), se denomina
intensidad en ese punto, (González and Woods, 2002). Una imagen puede ser contı́nua o discre-
ta de acuerdo con los valores de x, y, y f . Cuando x, y y los valores de amplitud de f son todas
cantidades finitas y discretas, se dice entonces que f (x,y) es una imagen digital.
Cuando se utilizan dispositivos como cámaras fotográficas, ocurren dos procesos que per-
miten la conversión de la imagen, que para el ojo humano es completamente contı́nua, en un
imagen discreta o digital; la discretización de los valores de las coordenadas x y y, llamado
tambien muestreo o sampling y la discretización de los valores de la amplitud, proceso cono-
cido como cuantización. El muestreo y la cuantización tienen como resultado una matriz de
números reales. Cada uno de esos elementos de la matriz son conocidos como picture elements,
elementos de imágen o más comúnmente pı́xeles. Si en el proceso de muestreo la imagen tiene
M filas y N columnas, se dice entonces que la imagen es de tamaño MxN pı́xeles o simplemente
MxN. Si f (x,y) puede dividirse en K intervalos, se dice entonces que la imagen tiene K niveles
de intensidad.
De lo anterior se desprende que una imagen digital no es mas que una matriz en la que
cada pı́xel contribuye, con su nivel de intensidad, a la formación del o los objetos que el ojo
13
CAPÍTULO 2. FUNDAMENTO TEÓRICO
humano interpreta como tales. De esta manera, una imagen digital se puede representar de forma
compacta como:
f (x,y) =

f (0,0) f (0,1) . . . f (0,N−1)
f (1,0) f (1,1) . . . f (1,N−1)
...
...
...
f (M−1,0) f (M−1,1) . . . f (M−1,N−1)
 (2.1)
Desde una definición mas formal, los procesos de muestreo y cuantización pueden ser des-
critos de la forma siguiente: Sean Z y R el conjunto de los números enteros y reales respecti-
vamente. El muestreo puede verse como la partición del plano xy en una malla o enrejado, de
forma tal que las coordenadas del centro de cada recuadro es un par de elementos del producto
cartesiano Z2, el cual es el conjunto de todos los pares ordenados (zi,zj), con zi y zj enteros de Z.
De esta manera, f (x,y) es una imagen digital si (x,y) son enteros de Z2 y f es una función que
asigna un valor de gris (que es un número real del conjunto R) a cada par coordenado f (x,y).
En el caso en que R es reemplazado por Z, la función f (x,y) se convierte en bidimensional,
puesto que tantos los valores de coordenadas como de amplitud son números enteros.
En la figura 2.1 se muestran dos representaciones de una misma imagen. Del lado izquierdo
se aprecia la imagen tal y como es representada por el ojo humano. En el lado derecho, el
resultado de la asignación de intensidades de grises a cada pixel producto de la cuantizacı́ón en
una cámara fotográfica.
En una imagen digital no existen limitaciones en cuanto a los valores de M y N, pero si en
lo que respecta al número de niveles de grises (K) representados en la cuantización, que por lo
general vienen expresados en potencias de 2, de la siguiente manera:
14
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.1: Efecto del proceso de cuantización en imágenes digitales
K = 2L (2.2)
donde L representa el número de bits de la imagen.
Por otro lado, el número de bits requeridos para almacenar una imagen digital esta repre-
sentado por:
b = MxNxL (2.3)
Asi, por ejemplo una imagen de M = N = 512 y 256 niveles de grises (L = 8bits) es
2.097.152 bits, es decir, de 2Mb, lo cual implica que, para el almacenamiento de una gran canti-
dad de imágenes, es necesario disponer de suficiente espacio en disco y memoria de computador
para las fases de procesamiento.
15
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.3. Tipos de imágenes digitales
En el área del procesamiento de imágenes se pueden identificar varios tipos que, dependien-
do de la aplicación y las necesidades de almacenamiento, pueden ser útiles en el reconocimiento
de rostros. La clasificación depende de las caracterı́sticas del conjunto R:
Imágenes binarias: Es el tipo más básico de imagen digital. Llamadas también lógicas,
son arreglos bidimensionales que asignan un único valor numérico del conjunto discreto
0,1 a cada pixel en la imágen. Un fax es un ejemplo de una imagen binaria. Sin embargo,
en el procesamiento de rostros su uso es muy limitado debido a la escasa información
que provee. En la figura 2.2 es posible observar sólo dos valores en cada pixel; blanco y
negro.
Figura 2.2: Ejemplo de una imagen digital binaria de un rostro humano
Imágenes de intensidad o escala de grises: Son arreglos bidimensionales en los que el
valor de cada pixel está representado por la intensidad en escalas de grises, que depen-
diendo del número K, puede variar entre los 4 y 256 valores. Al incrementar la cantidad
de grises, se observan mejores detalles en la imagen.
16
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Tabla 2.1: Valores de escala de grises
L K Valores de R
1 2 (0,1)
2 4 (0,1,2,3)
3 8 (0,1,2,3,4,5,6,7)
4 16 (0,1,2, . . . , 14, 15)
5 32 (0,1,2, . . . , 30, 31)
6 64 (0,1,2, . . . , 62, 63)
7 128 (0,1,2, . . . , 126, 127)
8 256 (0,1,2, . . . , 254, 255)
En la figura 2.3, cada pı́xel está representado por un número entero entre 0 y 255, pues se
trata de una imagen con 256 tonos de grises.
El cuadro 2.1. muestra la cantidad de tonalidades de grises diferentes de acuerdo con los
valores de L. Para imágenes de (L = 8bits) se generan 256 tonos de grises.
Figura 2.3: Ejemplo de una imagen digital de un rostro humano en escala de grises con K =
256 intensidades
Imágenes de color verdadero o truecolor: Son arreglos tridimensionales que asignan tres
valores numéricos (un vector) a cada pixel, cada valor corresponde a los componentes del
canal de imagen rojo, verde y azul (RGB en inglés). Desde el punto de vista conceptual,
pueden ser consideradas como tres planos bidimensionales distintos de dimensión CxR,
17
CAPÍTULO 2. FUNDAMENTO TEÓRICO
donde R es el número de filas y C es el número de columnas de la imagen. Estas imágenes
se almacenan en L = 24 bits, 8 bits para cada componente RGB, lo cual permite la defini-
ción K = 224 = 16777216 colores. Una representación de una imagen en color verdadero
o TrueColor se muestra en la figura 2.4. Nótese el detalle de los elementos que componen
la imagen.
Figura 2.4: Ejemplo de una imagen digital de un rostro humano en color verdadero
18
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4. Los Modelos Ocultos de Markov
Los Modelos Ocultos de Markov, (MOM), se constituyen como una herramienta proba-
bilı́stica aplicable al análisis de datos con variabilidad temporal y espacial. Son ampliamente
conocidos y utilizados enel área del reconocimiento del habla, huellas dactilares, reconoci-
miento de textos, reconocimiento de patrones musicales y en la resolución de problemas de
clasificación. En general, un MOM es capaz de modelar secuencias estocásticas no estacio-
narias, cuyas propiedades estadı́sticas subyacen en las transiciones entre diferentes procesos
estacionarios, (Koutroumbas and Theodoridis, 2009).
2.4.1. Definición
Un MOM modela un proceso estocático bajo el enfoque de coexistencia de dos procesos
estocáticos, en el cual uno de ellos no puede observarse de manera directa (de allı́ el adjetivo
oculto) y que sólo puede modelarse a través del conocimiento de otro proceso estocástico que
reproduce una secuencia de observaciones. Para el estudio de los MOM, en lo sucesivo se
utilizará la nomenclatura de (Rabiner, 1989) con algunas modificaciones debidas a (Ibe, 2009).
// Supóngase que si S = {Sn,n = 1,2, . . .} es un proceso estocástico y Ω = {Ωk,k = 1,2, . . .} es
una función de S, entonces S es un proceso Oculto de Markov (o Modelo Oculto de Markov) que
es observado a través de Ω y, por tal razón, Ωk = f (Sk) para alguna función f. En este sentido,
se puede considerar a S como el proceso de estados que está oculto y Ω como el proceso de
observaciones que puede ser observado.
De forma general, un MOM queda completamente definido cuando se conoce la péntatupla
19
CAPÍTULO 2. FUNDAMENTO TEÓRICO
(S,Ω,A,B,π) donde:
S = s1,s2, . . . ,sN es un conjunto finito de N estados.
Ω = o1,o2, . . . ,oM es un conjunto finito de M sı́mbolos u observaciones diferentes.
A = ai j es la matriz de probabilidades de transición de estados, donde ai j es la probabili-
dad que el proceso pase de un estado si a otro estado s j
B = bi(ok) son las probabilidades de observación, donde bi(ok) es la probabilidad que el
sı́mbolo ok sea emitido cuando el proceso se encuentra en el estado si
π = πi son las probabilidades iniciales, es decir, indican la probabilidad que el proceso se
inicie en el estado si
De esta forma, un Modelo Oculto de Markov requiere la especificación de dos parámetros
N y M, y tres medidas de probabilidad A, B y π. Estas tres medidas de probabilidad se pueden
condensar de forma compacta en el modelo:
λ = (A,B,π) (2.4)
De forma esquemática, un MOM puede ser visto de acuerdo con la figura 2.5. Se desea
determinar la probabilidad de que los sı́mbolos observados O1, O2 y O3 hayan sido generadas
por los estados no observados S1, S2 y S3 respectivamente.
2.4.2. Supuestos
Se define Q = {qt}Tt=0 como la secuencia oculta de estados en el intervalo 0≤ t ≤ T , donde,
como ya se indicó más arriba qt ∈ S. En los MOM hay tres supuestos esenciales, los cuales se
20
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.5: Estructura general de un Modelo Oculto de Markov
indican a continuación:
1. Propiedad Markoviana: Este supuesto establece que el siguiente estado depende única-
mente del estado actual en el que se encuentra el proceso, lo que en términos de las
probabilidades de transición es:
P(qt+1 = j|qt = i,qt−1 = l,qt−2 = m, . . . ,q0 = n) = P(qt+1 = j|qt = i) = pi j (2.5)
Todo proceso estocástico que cumpla con esta propiedad es conocido como proceso mar-
koviano de primer orden. Sin embargo, en la práctica, un estado cualquiera depende de
los k estados anteriores. Este tipo de proceso es conocido como proceso estocástico de
orden k.
2. Estacionariedad: Este supuesto establece independencia entre las probabilidades de tran-
sición de estados y el tiempo en el que las transiciones ocurren. En otras palabras, las
21
CAPÍTULO 2. FUNDAMENTO TEÓRICO
probabilidades de transición de estados se mantienen iguales para cualquier momento t.
Ası́, para dos momentos de tiempo t1 y t2 se tiene que:
P(qt1+1 = j|qt1 = i) = P(qt2+1 = j|qt2 = i) = αi j (2.6)
3. Independencia: En este caso se asume que la observación actual o resultado es estadı́sti-
camente independiente de las observaciones previas. Es decir, si se tiene la secuencia de
observaciones O = o1,o2, . . . ,oT , entonces:
P(O|q1.q2, . . . ,qT ,λ) =
T
∏
t=1
P(ot |qt ,λ) (2.7)
2.4.3. Tres problemas fundamentales de los MOM
Los MOM enfrentan tres problemas fundamentales que deben ser resueltos para su aplica-
ción en situaciones reales.
1. El problema de evaluación: Dada una secuencia de observaciones de tamaño T, O =
o1,o2, . . . ,oT y el modelo λ = (A,B,π): ¿Cómo se puede calcular de forma eficiente
la probabilidad que el modelo haya generado la secuencia de observaciones, es decir,
P[O|λ]?
2. El problema de identificación de la mejor secuencia de estados: Dada una secuen-
cia de observaciones de tamaño T, O = o1,o2, . . . ,oT y el modelo λ = (A,B,π): ¿Cómo
22
CAPÍTULO 2. FUNDAMENTO TEÓRICO
seleccionar una secuencia de estados Q = q1,q2, . . . ,qT óptima que explique las observa-
ciones generadas? Dicho de otro modo, ¿Cuál es la secuencia de estados que con mayor
probabilidad generó la secuencia observada?
3. El problema de entrenamiento: Dada una secuencia de observaciones de tamaño T,
O= o1,o2, . . . ,oT , ¿Cuáles son los valores de A,B,π que, con mayor probabilidad generan
la secuencia de observaciones.?
2.4.4. Métodos de Solución
En función del problema que se desea resolver existen diversos métodos para lograr el obje-
tivo. El problema de evaluación es resuelto mediante el algoritmo forward-backward, el proble-
ma de identificación de la mejor secuencia de estados a través del algoritmo de Viterbi, mientras
que el problema de entrenamiento se logra resolver, tanto con el algoritmo de Baum-Welch co-
mo con el algoritmo de Viterbi.
Para comprender los algoritmos mencionados anteriormente es conveniente pensar que el pro-
ceso estocástico generador de las observaciones es un arreglo matricial de orden N x T tal y
como se muestra en la figura 2.6.
2.4.4.1. El problema de evaluación
El algoritmo forward-backward se constituye como una herramienta eficiente para la solu-
ción del problema de evaluacion y está fundamentado en la propiedad de los procesos estocásti-
cos de primer orden; cualquier información anterior al último estado desde donde ocurrió una
23
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.6: Diseño de enrejado del algoritmo Forward-Backward
transición al estado actual, no aporta mayor información en torno a la transición al siguiente es-
tado. Para el cálculo de la probabilidad P(O|λ) se definen las llamadas variables forward αt(i)
como la probabilidad que, para un modelo dado λ, se genere la primera parte de la secuencia
hasta Ot y en el tiempo t se alcance el estado i. Ası́:
αt(i) = P(O1,O2, . . . ,Ot ,qt = Si|λ) t = 1, . . . ,T ; i = 1, . . . ,N (2.8)
Esto es, αt(i) es la probabilidad de estar en el estado si en el tiempo t después de haber
observado la secuencia (o1,o2, . . . ,ot).
En el proceso de inicialización, es decir en el tiempo t = 1, las probabilidades α1(i) se
calculan a través del producto entre la probabilidad que el proceso se inicie en el estado i, πi
y la probabilidad que se genere el primer elemento observado de la secuencia, bi(o1) en ese
estado.
αt=1(i) = πibi(o1) ∀1≤ i≤ N, t = 1 (2.9)
24
CAPÍTULO 2. FUNDAMENTO TEÓRICO
La variable forward αt+1( j) se obtiene como la suma de todas las probabilidades αt(i)
sobre todos los posibles estados predecesores inmediatos y la inclusión de las probabilidades de
transición definidas por ai j. Adicionalmente, la observación Ot+1 debe ser generada a través de
la probabilidad de emisión b j(ot+1).
Se asume que las observaciones son independientes. El algoritmo forward-backward fun-
ciona de la siguiente manera:
Sea: αt(i) = P(o1,o2, . . . ,ot ,st = i|λ) y βt(i) = P(ot+1,ot+2, . . . ,oT |st = i,λ)
Inicialización:
α1(i) = πibi(o1),qquad1≤ i≤ N (2.10)
Inducción:
αt+1( j) = {
N
∑
i=1
αt(i)ai j}b j(ot+1) 1≤ t ≤ T −1,1≤ j ≤ N (2.11)
La figura figura 2.7, esquematiza el paso clave del algoritmo. El estado S j puedeser
alcanzado en el tiempo t +1 desde N posibles estados en el tiempo t.
Finalización:
P(O|λ) =
N
∑
i=1
αT (i) (2.12)
2.4.4.2. El problema de identificación de la mejor secuencia de estados
El segundo problema de los MOM intenta buscar la mejor (u óptima) secuencia de estados
asociadas a una secuencia de observaciones a partir de un modelo dado λ. Dado que existen
25
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.7: El paso de inducción en el algoritmo Forward-Backward
diversos criterios de optimalidad, entre ellos la elección de la secuencia de estados que con
mayor probabilidad produzca la secuencia de observaciones, el algoritmo de Viterbi maximiza
simultáneamente la probabilidad conjunta P[Q,O] y la probabilidad condicional P[Q|O]. El
algoritmo define la variable δt(i) como:
δt(i) = maxq1,q2,...,qt−1{P[q1,q2, . . . ,qt−1,qt = si,o1,o2, . . . ,ot−1,ot |λ]} (2.13)
Esto es, δt(i) es la mayor probabilidad a lo largo de una ruta única que toma en cuenta las
26
CAPÍTULO 2. FUNDAMENTO TEÓRICO
primeras t observaciones y finaliza en el estado si. Es decir, es la probabilidad de la ruta de
estados mas probable de la secuencia parcial de observaciones. Otra variable ψt( j) almacena el
estado que representa la ruta más probable. Esto es:
ψt( j) = argmax1≤i≤N{δt−1ai j} (2.14)
El algoritmo Viterbi funciona de acuerdo a lo siguiente:
1. Inicialización:
δ1(i) = πibi(o1) 1≤ i≤ N (2.15)
ψ1(i) = 0 (2.16)
2. Recursión:
δt( j) = max1≤i≤Nδt−1(i)ai jb j(ot) 1≤ j ≤ N, 2≤ t ≤ T (2.17)
ψt( j) = argmax1≤i≤Nδt−1(i)ai j 1≤ j ≤ N, 2≤ t ≤ T (2.18)
3. Finalización:
P∗ = max1≤ j≤N{δT (i){Q∗ = argmax1≤ j≤N{δT (i)} (2.19)
4. Captura de la secuencia de estados:
Q∗ = ψt+1(Q∗t+1) t = T −1,T −2, . . . ,1 (2.20)
27
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.4.3. El problema de entrenamiento
El problema de entrenamiento tiene que ver con el ajuste de los parámetros del MOM, de
manera que el conjunto de observaciones, normalmente denominado conjunto de entrenamien-
to, sea representado de forma óptima por el modelo. Nuevamente, se trata de un problema de
optimización que por lo general sigue el curso del criterio de máxima verosimilitud, el cuál bus-
ca los parámetros que maximizan la probabilidad de representar una secuencia de observaciones
dada. Esto es, se busca la solución de:
λ
∗ = argmaxλP[O|λ] (2.21)
No existe método conocido que analı́ticamente maximice P[O|λ] de forma global. Sin em-
bargo, existe una forma a partir de la cuál es posible hallar una solución local a P[O|λ]. Este
método, conocido como el algoritmo Baum-Welch es un caso especial del método Expectation-
Maximization (EM), (Fink, 2008).
El algoritmo comienza estableciendo valores iniciales a los parámetros A,B y π, los cua-
les pueden ser elegidos de un conocimiento previo o de alguna distribución uniforme. Luego,
empleando el modelo actual, se consideran todas las posibles secuencias de estado para cada
conjunto de entrenamiento con la finalidad de obtener las estimaciones de A,B y π. El procedi-
miento se repite hasta que no haya cambios significativos en los parámetros del modelo actual.
Al igual que el problema 1, se emplean las variables forward y backward. Recordemos que αt(i)
es la probabilidad de estar en el estado si en el tiempo t después de haber observado la secuencia
o1,o2, . . . ,ot y βt( j) es la probabilidad condicional de la observación parcial ot+1,ot+2, . . . ,oT
28
CAPÍTULO 2. FUNDAMENTO TEÓRICO
dado que el modelo se encuentra en el el estado si en el tiempo t, (Ibe, 2009). Al igual que en
el algoritmo Viterbi, se define la variable γt(i) que es la probabilidad de estar en el estado si en
el tiempo t dada la secuencia de observaciones completa del modelo. Sumando estas cantidades
sobre t se obtiene el número de transiciones hechas desde el estado si.
γt(i) = P(St = i|O,λ) =
αt(i)βt(i)
P(O|λ
) =
αt(i)ai jb j(Ot+1)βt+1( j)
∑
N
i=1 αt(i)βt(i)
(2.22)
Finalmente, se definen las variables ηt(i, j) como la probabilidad de estar en el estado si en
el tiempo t y en el estado s j en el tiempo t+1 dada la secuencia de observaciones y el modelo
de la forma siguiente:
ηi, j = P(qt = si,qt+1 = s j|O,λ) =
P(qt = si,qt+1 = s j,O|λ)
P(O|λ)
(2.23)
La teorı́a del método EM establece que luego de cada iteración puede suceder una de las
dos siguientes condiciones: λ̂ es mas probable que λ en el sentido que P[O|λ̂]> P[O|λ] ó se ha
alcanzado un punto estacionario de la función de verosimilitud en el cual λ̂ = λ, (Fink, 2008)
2.4.5. Tipos de Modelos Ocultos de Markov
Los MOM pueden ser clasificados de acuerdo con la naturaleza de la distribución de las pro-
babilidades de emisión de sı́mbolos B. Si las observaciones vk son cantidades discretas entonces
B es una función de masa de probabilidad y por tanto el modelo es llamado MOM Discreto. En
caso contrario el MOM será contı́nuo.
29
CAPÍTULO 2. FUNDAMENTO TEÓRICO
De acuerdo con la forma como están conectados los estados, los modelos pueden ser ergódi-
cos, cuando todos y cada uno de los estados se conecta con los restantes, esto significa que
ai, j > 0 para todo i,j. Otra topologı́a empleada es la Left-Right. En este caso, las transiciones
comienzan en un estado INICIAL y van transcurriendo al estado contiguo hasta llegar a un
estado FINAL.
En este trabajo de investigación se utilizó una topologı́a ergódica en todos los modelos y su
representación es la que se muestra en la figura 2.8:
1
25
4 3
a11
a22
a25
a53 a42
a14 a31
a24
a32 a23
a34
a43
a45
a54
a51
a15
a12
a21
a13a41
a35
a52
a33a44
a55
Figura 2.8: Topologia ergódica de los MOM utilizados
30
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.5.1. Métodos de extracción de caracterı́sticas
En la literatura dedicada al reconocimiento de rostros, una de las preguntas principales rela-
cionadas con la extracción de caracterı́sticas es: ¿Cuáles valores numéricos son necesarios para
entrenar efectivamente el clasificador basado en un MOM?. En la actualidad los métodos mas
utilizados para la extracción de caracterı́sticas son: Intensidades de pı́xeles, la Transformada
Discreta de Onda y la Transformada Discreta de Coseno. La utilización de las intensidades de
pı́xeles demostró no ser tan eficiente como la Transformada Discreto de Coseno en el recono-
cimiento de rostros. Sin embargo, esta transformación tiene la desventaja de no ser invariante a
cambios en la iluminación como se dijo en secciones anteriores.
2.4.6. Transformada Wavelet
La teorı́a de wavelets ha sido una de las herramientas más populares para el procesamiento
de señales durante las últimas dos décadas. Ofrece una metodologı́a para generar bancos de
filtros ortogonales de soporte contı́nuo compacto a través del diseño de bancos de filtros de
tiempo discreto finito con frecuencias y resoluciones múltiples. Sus aplicaciones van desde la
compresión de señales, pasando por la implantación de dispositivos médicos como marcapasos
y desfribiladores, hasta el desarrollo de transmisores de ultrafrecuencia y el análisis multireso-
lución de imágenes.
La Transformada Wavelet o Transformada de Onda mapea la función f (t) en L2(R) en
otra señal Wf (a,b) en L2(R2) donde (a,b) son contı́nuos y se llaman parámetros de escala y
traslación.
31
CAPÍTULO 2. FUNDAMENTO TEÓRICO
2.4.6.1. Transformada Contı́nua de Onda
La onda madre ψ(t) junto con sus parámetros de escala y traslación (a,b) generan la defini-
ción de la base de la Transformada de Onda en el dominio de tiempo y frecuencia de la forma
siguiente:
ψab(t) =
1√
a
ψ
(
t−b
a
)
↔Ψab(Ω) =
√
aΨ(aΩ)e
− jbΩ (2.24)
De esta manera, la Transformada Continua de Onda (TCO) de f (t) queda definida como:
Wf (a,b) = 〈 f (t),ψab(t)〉=
∫
∞
−∞
f (t)ψab(t)dt (2.25)
donde la Transformada satisface las condiciones de invertibilidad y la señal se recupera de
sus coeficientes de onda a través de:
f (t) =
1
Cψ
∫
∞
−∞
∫
∞
0
dadb
a2
Wf (a,b)ψab(t) (2.26)
bajo elsupuesto que:
Cψ =
∫
∞
0
|Ψ(Ω)|2
Ω
dΩ <+∞ (2.27)
eso implica una función de onda madre con media cero cuando Ψ(0) =
∫
∞
−∞ ψ(t)dt = 0
2.4.6.2. Transformada Discreta de Onda
La transformada Discreta de Onda (TDO) descompone una señal a través de dos conjun-
tos de funciones, llamadas funciones de escala y funciones de onda, las cuales están asociadas
32
CAPÍTULO 2. FUNDAMENTO TEÓRICO
con filtros de alta y baja frecuencia. El proceso de descomposición en diferentes bandas de
frecuencia se obtiene mediante la aplicación sucesiva de estos filtros hasta alcanzar el nivel de
resolución deseada, (Abbas and Farhan, 2012).
Para hacer más práctica la TCO y reducir la redundancia se muestrean los parámetros (a,b).
Definamos un esquema de muestreo tal que a = am0 y b = nb0a
m
0 , entonces, la base de la TDO
se puede expresar mediante:
ψmn(t) = a
−m/2
0 ψ(a
−m
0 t−nb0) m,n ∈ Z (2.28)
Si el conjunto ψmn(t) es completo para cualesquiera ψt , a y b, entonces ellas son llamadas
wavelets affine. Entonces, para cualquier f (t) ∈ L2(R) en la superposición de:
f (t) = ∑
m
∑
n
dm,nψmn(t) (2.29)
donde los coeficientes de la TDO se definen de acuerdo con:
d(m,n) = dm,n = 〈 f (t),ψmn(t)〉=
1
am/20
∫
f (t)ψ(a−m0 t−nb0)dt (2.30)
Tales conjuntos completos de transformadas de onda {ψmn(t)} son llamados frames. A pesar
de ser completas, aún no son bases pues no cumplen con el teorema de Parseval.
Teorema 1 (Parseval) Si f y h están en L1(R)∩L2(R) entonces
∫
∞
−∞
f (t)h∗(t)dt =
1
2π
∫
∞
−∞
f̂ (w)ĥ∗(w)dw (2.31)
33
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Se puede diseñar un frame ajustado y exacto el cual conduce a una base ortonormal en L2 que
satisface:
∫
ψmn(t)ψrs(t)dt =
{
1 : m = r,n = s
0 : otro lugar (2.32)
Las funciones anteriores son ortonormales en ambos ı́ndices. Adicionalmente, una TDO
ortonormal se puede emplear para descomponer una señal de tiempo contı́nuo en sus funciones
de onda base.
De manera similar, las bases complementarias de la TDO llamadas funciones de escala del
análisis de multiresolución también satisfacen las condiciones de ortonormalidad dentro de la
misma escala:
∫
φmn(t)φms(t)dt = δn−s (2.33)
donde para a0 = 2 y b0 = 1, se pueden definir el conjunto de funciones de escala como:
φmn(t) = 2−m/2φ(2−mt−n) (2.34)
Y además, se pueden obtener los coeficientes de escala de f (t) a través de la proyección
c(m,m) = cm,n = 〈 f (t),φmn(t)〉=
1
2m/2
∫
f (t)φ(2−mt−n)dt (2.35)
La onda ortonormal y las bases de escala satisfacen conjuntamente su propiedad de bases
complementarias como se expresa a continuación:
34
CAPÍTULO 2. FUNDAMENTO TEÓRICO
∫
ψmn(t)φrs(t)dt = 0 ∀m,n,r,s (2.36)
Se puede utilizar una infinidad de escalas para representar f (t) en términos de las funciones
de onda discreta siguiendo la ecuación 2.36 ó emplear de forma conjunta las funciones base de
onda y escala como sigue:
f (t) =
∞
∑
n=∞
CL,n2−L/2φ
( t
2L
−n
)
+
L
∑
m=1
∞
∑
n=−∞
dm,n2−m/2ψ
( t
2m
−n
)
(2.37)
Esta última expresión es una combinación de una aproximación de paso-bajo para f (t) utili-
zando la función de escala en la escala L en el primer término de la expresión y la representación
de la onda del detalle de la señal o el error de aproximación en el segundo término.
La transformación de la señal se lleva a cabo de la forma siguiente:
1. En primer lugar la señal se pasa a través de un filtro de paso-bajo y por otro de paso-alto
simultáneamente obteniendo ası́, dos señales.
2. Se realiza un muestreo (decimación) a la salida de cada filtro para evitar el traslape y
eliminar los datos no relevantes.
3. Se generan los coeficientes de aproximación y detalle que son respectivamente las señales
de baja y alta frecuencia.
Esquemáticamente, se puede representar de acuerdo con la figura 2.9.
35
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.9: Extracción de caracterı́sticas
Los coeficientes de baja frecuencia mantienen la información estructural de la imagen ori-
ginal, mientras que los coeficientes de alta frecuencia se consideran como información menos
relevante para poder identificar la imagen. El proceso de descomposición en señales de alta y
baja frecuencia se puede realizar de forma iterativa, con lo que se habla de niveles de descom-
posición de orden p para p = 2,3,4 . . ..
El proceso de extracción de coeficientes y la reducción en el tamaño de la imagen se puede
observar en la figura 2.10.:
Las imágenes son tratadas como señales bidimiensionales, puesto que cambian horizontal
y verticalmente, por tanto, para el análisis de imágenes es necesario emplear una transformada
bidimensional. En este caso, se ejecutan dos transformadas discretas unidimensionales de forma
separada. Primero, la imagen es filtrada en el eje horizontal usando filtros de paso bajo y alto y
luego decimado por 2. Debido a la decimación el tamaño total de la imagen transformada es la
36
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.10: Proceso de extracción de coeficientes de la imagen
misma que la imagen original. El siguiente paso es filtrar la subimagen a lo largo del eje vertical
y decimarlo por 2. Finalmente se divide la imagen en cuatro sub-bandas denotadas por LL, LH,
HL y HH. después de un nivel de descomposición. En cada nivel se obtienen 4 subimagenes, la
aproximación LL, el detalle vertical LH, el detalle horizontal HL y el detalle diagonal HH.
En la fase de extracción, la imagen completa del rostro es descompuesta usando una de las
familias a la aproximación y coeficientes de detalle. Nuevamente, el coeficiente de aproxima-
ción se descompone para producir una nueva aproximación y coeficientes de detalle.
Con la finalidad de generar los vectores de observación, se codifica la parte LL de la matriz
de aproximación en el segundo nivel de la TDO con los valores de la escala de grises (de
0 hasta 255). De la matriz codificada o imagen reducida, que tiene menor dimensión que la
matriz original se extraen submatrices o subimágenes con cierto grado de solapamiento las
cuales se arreglan de forma consecutiva y se convierten en un vector columna. Estos vectores
son llamados vectores de observación. Ası́, cada imagen es representada por una secuencia de
37
CAPÍTULO 2. FUNDAMENTO TEÓRICO
vectores de observación que se inician a partir de la subimagen superior izquierda y finalizan
en la subimagen inferior derecha. Los detalles del proceso se muestran en el capı́tulo siguiente.
En cada paso la imagen es dividida en cuatro cuadrantes. La imagen reducida en cada paso
se observa en el angulo superior izquierdo. Las demás secciones representan los coeficientes
de alta frecuencia, las cuales contienen información no relevante para la representación de la
imagen en esa resolución.
2.4.6.3. Familias de funciones Wavelet
Existe un número importante de wavelets en la literatura e incluso en algunas aplicaciones
y lenguajes de programación como MatLab R©. Son de gran utilidad al momento de realizar
transformaciones de señales, especialmente en compresión. Mención especial tiene la familia
de wavelets debidas a Daubechies, (1992). Sus nombres se escriben como dbN donde N es
su orden. Dentro de sus caracterı́sticas están: ser ortogonales de soporte compacto, con fase
extrema y un número alto de momentos de desvanecimiento.
2.4.6.3.0.1. Haar La primera transformación de onda fue desarrollada por el matemático
húngaro Alfred Haar. Para una entrada representada por una lista de de 2n números, la transfor-
mada de Haar puede ser considerada simplemente como valores de entrada pareados, almace-
nando la diferencia. Este proceso se repite de manera recursiva, pareando las sumas para proveer
la siguiente escala, resultando finalmente en 2n−1 diferencias y una suma final. Es equivalente
a la familia db1. Gráficamente se muestra en la figura 2.11.:
2.4.6.3.0.2. db2 La forma de la función de escala y su onda se muestra en la figura 2.12.:
38
CAPÍTULO 2.FUNDAMENTO TEÓRICO
Figura 2.11: Función de escala y función wavelet db1
Figura 2.12: Función de escala y función wavelet db2
2.4.6.3.0.3. db4 La forma de la función de escala y su onda se muestra en la figura 2.13.:
2.4.6.3.0.4. db10 La forma de la función de escala y su onda se muestra en la figura
2.14.:
39
CAPÍTULO 2. FUNDAMENTO TEÓRICO
Figura 2.13: Función de escala y función wavelet db4
Figura 2.14: Función de escala y función wavelet db10
40
CAPÍTULO 3
DESCRIPCIÓN DE LAS PRUEBAS DE
RECONOCIMIENTO
Este capı́tulo es una descripción del esquema empleado en el desarrollo de las pruebas
esenciales para el reconocimiento de rostros. Los fundamentos de la metodologı́a utilizada, ası́
como el diseño experimental son los empleados por (Samaria, 1994), (Kohir and Desai, 1998)
y (Abbas and Farhan, 2012).
3.1. Construcción de la base de datos
En la actualidad existe un número considerable de bases de datos de rostros públicas que
pueden ser empleadas para las pruebas de reconocimiento automático. Sin embargo, en este
41
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
trabajo de investigación se decidió crear una base de datos propia, con la finalidad, por un
lado, de estudiar los mecanismos y metodologı́as relacionadas con la captura de imágenes, y
por el otro, estimular el estudio del reconocimiento de rostros empleando una base de datos
experimental con rostros venezolanos.
3.1.1. Descripción de la base de datos utilizada
La base de datos contiene un total de 100 imágenes del rostro de cinco individuos (4 mujeres
y 1 hombre), 20 por cada uno. La edad de los participantes varı́a entre los 7 y 35 años y a cada
uno de ellos se le solicitó ubicarse frente al objetivo de la cámara permitiendo ligeros cambios
en la pose. Contrario al experimento de Samaria y Young (1995), se mantuvieron siempre las
mismas condiciones de iluminación.
3.1.2. Captura de imágenes
Mediante la herramienta imaqtool de MatLab R©, se obtuvo un video por individuo emplean-
do una cámara web Microsoft R©LifeCam HD-3000 conectada al computador. El dispositivo fue
configurado a 20 fotogramas por disparo con una resolución de 223x314 pixeles, enfocando
la región del rostro. Se diseñó un programa que extrae cada fotograma de cada video y las
almacena en directorios separados para su posterior procesamiento.
42
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Esquemáticamente el proceso se muestra en la figura 3.1.:
Figura 3.1: Esquema de captura de imágenes
En la figura 3.2 se muestra el conjunto de fotografı́as empleado en la experimentación.
Figura 3.2: Base de datos de rostros original
43
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
3.1.3. Preprocesamiento de imágenes
Con la finalidad de reducir la complejidad en el procesamiento y entrenamiento, en cuanto a
la cantidad de datos a utilizar, las imágenes recortadas fueron transformadas a escala de grises a
través de la función rgb2gray de Matlab, eliminando la información del matiz y la saturación,
manteniendo la iluminación a través de la suma ponderada de los componentes R, G y B de la
fotografı́a experimental de acuerdo con la siguiente ecuación, (MatLab, 2011):
0,2989∗R+0,5870∗G+0,1140∗B (3.1)
Dicho proceso se esquematiza en la figura 3.3:
Figura 3.3: Transformación a escala de grises
A través de otro pequeño programa se recortaron las imágenes en cinco regiones: región de
frente, ojos, nariz, boca y mentón, tal y como se muestra en la figura 3.4. La elección de estas
regiones se fundamentó en el trabajo realizado por Samaria (1994) (Samaria, 1994), el cual
consideró natural la delimitación de estas cinco regiones.
44
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.4: Delimitación de las regiones del rostro
3.2. Extracción de caracterı́sticas de las fotografı́as
Para la extracción de caracterı́sticas se utilizó la Transformada Discreta de Onda, sobre cada
una de las regiones delimitadas, empleando las familias db1, db2, db4 y db10 y los niveles de
descomposición. De acuerdo con MatLab (2011), los niveles de descomposición mas usuales
para imágenes van de 2 a 4. Sin embargo, se decidió extender la descomposición al nivel 6. La
elección de las familias Daubechies se fundamentó en el hecho que (Li and Jain, 2004), (Abbas
and Farhan, 2012) obtuvieron excelentes resultados con las familias db1. Por otro lado, de
acuerdo con (Mukta and Rohit, 2013), la familia db10 mostró el mejor desempeño en conjunto
con la TDO para el análisis esteganográfico, es decir, la ocultación de mensajes secretos dentro
de imágenes. En otra investigación (Makaremi and Ahmadi, 2009), la familia db4 junto con la
TDO obtuvo las mejores tasas de reconocimiento de imágenes con MOM.
1. En el primer paso, se aplicó la Transformada Discreta de Onda a un nivel de transforma-
ción y familia dados, obteniendo la imagen reducida o la matriz de aproximación.
45
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
2. En el segundo paso, los coeficientes de aproximación obtenidos fueron reescalados a
la dimensión de los valores escala de grises (0,255) mediante la función wcodemat. El
objetivo de esta transformación era permitir la comparación posterior de las imágenes
originales en escala de grises con las obtenidas mediante la TDO.
3. Cada vector se almacenó en una matriz de secuencias de entrenamiento.
El proceso completo se puede apreciar en la figura 3.5.
Figura 3.5: Proceso de extracción de caracterı́sticas
46
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
3.3. Entrenamiento de los MOM
Puesto que la base de datos consiste de 5 individuos, I, y a su vez 5 regiones por rostro,
se entrenó un total de I x R= 25 MOM, es decir, un MOM por cada región R del rostro de ca-
da individuo. Adicionalmente, y para realizar posteriores comparaciones, el número de estados
de cada MOM N se estableció entre 3 y 7, con lo cual, el total de MOM entrenados se incre-
mentó a I x R x N = 125. De este modo, para cada combinación (I,R,N) se siguió la siguiente
metodologı́a:
1. Se generaron de forma aleatoria los parámetros iniciales π,A,B de cada MOM λ, asu-
miendo una topologia ergódica y una distribución de emisión de sı́mbolos discreta de 256
sı́mbolos, producto de la transformación a escala de grises.
2. Se utilizó el algoritmo de Baum Welch, conjuntamente con la función hmmtrain, para
la estimación de los parámetros A,B, deteniendo el proceso luego de la convergencia en
verosimilitud.
3. Los resultados de las estimaciones se almacenaron en una matrı́z que posteriormente se
utilizó en el proceso de reconocimiento.
En la figura 3.6. se muestra de forma esquemática el proceso de entrenamiento:
47
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.6: Proceso de entrenamiento de los MOM
3.4. Reconocimiento mediante los MOM
Una vez concluido el proceso de entrenamiento, el siguiente paso fue el reconocimiento con
las imágenes que no fueron empleadas para el entrenamiento. Para ello, se siguió la siguiente
metodologı́a:
1. A cada imagen de entrada se aplicó la Transformada Discreta de Onda del mismo modo
como se realizó en la fase de entrenamiento, y se extrajeron los coeficientes de aproxima-
ción respectivos para cada región, convirtiéndolos posteriormente en un vector de valores
de escala de grises tal y como se describió en la sección anterior.
2. En el segundo paso, que constituye la clave del reconocimiento se siguió la siguiente
estrategia:
48
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
a Se eligió el vector de valores de una región, digamos por ejemplo la frente, y se
comparó con los MOM entrenados de la frente de todos los individuos.
b A través del algoritmo Baum-Welch, se obtuvo la probabilidad de que cada secuen-
cia de valores haya sido generada por cada MOM de las frentesy se almacenaron
en un vector de probabilidades estimadas.
3. En un vector se almacenó la etiqueta que indicaba el individuo cuyo MOM generó la
probabilidad máxima.
4. El proceso se repitió para cada región de cada imagen de reconocimiento de todos los
individuos.
La determinación de la tasa de reconocimiento global de los individuos se fundamentó en
la frecuencia observada de reconocimiento correcto de las regiones por imagen. Es decir, se
consideró un reconocimiento correcto de un rostro cuando se obtuvo mayorı́a en las regiones
reconocidas correctamente. La elección de este método se fundamentó en el hecho a mayor can-
tidad de regiones reconocidas correctamente, es mas probable que el rostro de experimentación
pertenezca al modelo entrenado. Esquemáticamente, el proceso de reconocimiento por regiones
se muestra en la figura 3.7.:
49
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Figura 3.7: Algoritmo reconocimiento de las regiones del rostro
En la tabla 3.1 se muestra un ejemplo hipotético que ilustra la metodologı́a empleada para
la determinación del porcentaje de reconocimiento de los modelos. En las 5 regiones del rostro
del individuo 1, el reconocedor clasificó correctamente 4 de ellas. Puesto que el criterio de
reconocimiento se basa en la mayor frecuencia de las regiones correctamente clasificadas, el
reconocimiento en este caso es del 100%. En el caso del individuo 3, la tasa de reconocimiento
es 0% ya que los MOM clasificaron correctamente sólo 2 de las 5 regiones.
50
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
Tabla 3.1: Ejemplo de Reconocimiento de los MOM
Región Ind. Status %
Individuo Frente Ojos Nariz Boca Mentón
1 1 2 1 1 1 1 Correcto 100%
2 2 2 2 2 2 2 Correcto 100%
3 2 2 2 3 3 2 Incorrecto 0%
4 4 4 1 4 4 4 Correcto 100%
5 5 5 2 1 5 5 Correcto 100%
3.5. Descripción del software utilizado
En este trabajo de investigación se construyó una serie de programas basados en el lenguaje
MatLab R©, versión 7.12 de 64bits. Dentro de los principales códigos desarrollados están:
LecturaVideo.m: Ejecuta la lectura de los videos donde se capturaron las imágenes y las
almacena en directorios separados.
SelecciónRegión.m: Realiza la selección del área del rostro de cada individuo y recorta
automáticamente las regiones.
EscalaGrises.m: Transforma las imágenes de las regiones en escala de grises de 256
tonalidades.
TDO.m: Ejecuta la TDO en cada una de las imágenes, transforma los coeficientes obte-
nidos en el mismo espacio del conjunto de sı́mbolos y genera una matriz codificada con
dichos coeficientes.
Vectorizada.m: Convierte cada elemento de la matriz codificada en un vector o secuencia
que sirva como insumo en el proceso de reconocimiento.
51
CAPÍTULO 3. DESCRIPCIÓN DE LAS PRUEBAS DE RECONOCIMIENTO
EntrenadorMOM.m: Ejecuta el entrenamiento de los MOM y genera una matriz con los
valores estimados de AyB.
ReconocedorMOM.m: Calcula las probabilidades de generación de las secuencias para
un MOM estimado en la fase de entrenamiento.
Evaluacion.m: Realiza una evaluación del desempeño de los modelos estimados y cal-
cula tasas de reconocimiento.
Para todas las pruebas se utilizó un computador AMD R©con procesador Phenom II 965 X4
y memoria RAM de 8 Gb, bajo sistema operativo Windows R©7 Ultimate SP1 de 64 bits.
52
CAPÍTULO 4
RESULTADOS DEL RECONOCIMIENTO
AUTOMÁTICO DE ROSTROS
En este capı́tulo se detallan los resultados obtenidos de la fase experimental de reconoci-
miento de rostros mediante los Modelos Ocultos de Markov.
4.1. Pruebas de reconocimiento globales
Se obtuvo una tasa de reconocimiento general que osciló entre el 20 y el 100%, de acuerdo
con diferentes combinaciones del número de estados del MOM, el nivel de descomposición y
la familia de transformación.
53
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.1: Reconocimiento global de MOM de 3 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 65,65 s 23,86 s 20%
db2 2 0,1 5 59,03 s 24,72 s 40%
db4 2 0,1 5 64,11 s 27 s 40%
db10 2 0,1 5 80,18 s 33,13 s 60%
db1 3 0,1 5 18,58 s 6,3 s 20%
db2 3 0,1 5 22,39 s 7,11 s 20%
db4 3 0,1 5 24,44 s 8,72 s 20%
db10 3 0,1 5 41,77 s 14,44 s 60%
db1 4 0,1 5 10,29 s 1,66 s 100%
db2 4 0,1 5 11,29 s 2,15 s 40%
db4 4 0,1 5 14,28 s 3,18 s 60%
db10 4 0,1 5 27,18 s 7,61 s 100%
db1 5 0,1 5 7,52 s 0,48 s 80%
db2 5 0,1 5 8,02 s 0,78 s 100%
db4 5 0,1 5 9,6 s 1,47 s 100%
db10 5 0,1 5 19,32 s 4,81 s 100%
db1 6 0,1 5 6,09 s 0,15 s 100%
db2 6 0,1 5 6,95 s 0,32 s 100%
db4 6 0,1 5 8,55 s 0,81 s 100%
db10 6 0,1 5 26,23 s 3,61 s 100%
4.1.0.1. Resultados del reconocimiento de MOM de 3 estados
Los resultados del entrenamiento y reconocimiento para MOM de 3 estados en todas las
regiones del rostro se muestran en la tabla 4.1.:
Como es posible observar, se alcanzó un reconocimiento del 100% de los rostros a partir de
un nivel de descomposición igual a 4 para todas las familias de transformación. Sin embargo, el
mejor MOM para el reconocimiento en términos de tiempo fue aquel cuyos vectores de entre-
namiento provenı́an de una transformación de la familia db1 a un nivel de descomposición igual
a 6. En este caso, el tiempo de entrenamiento fue 6,09 segundos mientras que el reconocimiento
fue de apenas 0,15 segundos.
54
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.2: Reconocimiento global de MOM de 5 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 70,12 s 29,29 s 20%
db2 2 0,1 5 66,45 s 29,1 s 20%
db4 2 0,1 5 76,06 s 33,59 s 40%
db10 2 0,1 5 91,87 s 40,08 s 60%
db1 3 0,1 5 21,26 s 5,14 s 40%
db2 3 0,1 5 23,31 s 7,79 s 40%
db4 3 0,1 5 26,51 s 9 s 40%
db10 3 0,1 5 43,83 s 15,62 s 60%
db1 4 0,1 5 14,12 s 2,63 s 60%
db2 4 0,1 5 24,82 s 3,32 s 40%
db4 4 0,1 5 22,92 s 5,03 s 60%
db10 4 0,1 5 47,23 s 11,74 s 100%
db1 5 0,1 5 10,62 s 0,71 s 80%
db2 5 0,1 5 13,78 s 1,14 s 100%
db4 5 0,1 5 16,42 s 2,27 s 100%
db10 5 0,1 5 42,79 s 7,39 s 100%
db1 6 0,1 5 10,47 s 0,23 s 80%
db2 6 0,1 5 10,72 s 0,48 s 100%
db4 6 0,1 5 14,36 s 1,26 s 100%
db10 6 0,1 5 27,19 s 5,57 s 100%
4.1.0.2. Resultados del reconocimiento de MOM de 5 estados
Los resultados del entrenamiento y reconocimiento para MOM de 5 estados en todas las
regiones del rostro se muestran en la tabla 4.2.:
Al igual que el caso anterior, se alcanzó un reconocimiento del 100% de los rostros a partir
de un nivel de descomposición igual a 4 para todas las familias de transformación. En este
caso, el mejor MOM para el reconocimiento fue aquel cuyos vectores de entrenamiento fueron
generados por una transformación de la familia db2 a un nivel de descomposición igual a 6. En
esete caso, el tiempo de entrenamiento fue 10,72 segundos mientras que el reconocimiento fue
0,48 segundos.
55
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.3: Reconocimiento global de MOM de 7 estados
Familia Nivel Tolerancia Iteraciones Entrenamiento Reconocimiento % Reconocimiento
db1 2 0,1 5 151,97 s 51,46 s 20%
db2 2 0,1 5 78,7 s 30,11 s 40%
db4 2 0,1 5 179,47 s 59,12 s 40%
db10 2 0,1 5 99,53 s 44,53 s 60%
db1 3 0,1 5 45,91 s 13,41 s 20%
db2 3 0,1 5 70,58 s 26,55 s 40%
db4 3 0,1 5 57,85 s 18,87 s 20%
db10 3 0,1 5 44,72 s 16,15 s 80%
db1 4 0,1 5 20,76 s 3,65 s 60%
db2 4 0,1 5 63,89 s 4,59 s 40%
db4 4 0,1 5 28,66 s 7,12 s 100%
db10 4 0,1 5 68,1 s 16,11 s 100%
db1 5 0,1 5 19,18 s 0,97 s 80%
db2 5 0,1 5 18,36 s 1,55 s 100%
db4 5 0,1 5 19,99 s 3,22 s 100%
db10 5 0,1 5 50,11 s 10,31 s 100%
db1 6 0,1 5 12,99 s 0,3 s 100%
db2 6 0,1 5 12,91 s 0,66 s 100%
db4 6 0,1 5 17,34 s 1,76 s 100%
db10 6 0,1 5 10,89 s 0,3 s 100%
4.1.0.3. Resultados del reconocimiento de MOM de 7 estados
La tabla 4.3. muestra los resultados del reconocimiento empleando MOM de 7 estados:
Del mismo modo, se obtuvo un reconocimiento perfecto para MOM de 7 estados. El modelocon el mejor desempeño en término de los tiempos de entrenamiento y reconocimiento provino
de vectores de entrenamiento generados por la familia db10 a nivel de descomposición 6. El
entrenamiento y el reconocimiento se obtuvo en 10,89 y 0,3 segundos respectivamente.
56
CAPÍTULO 4. RESULTADOS DEL RECONOCIMIENTO AUTOMÁTICO DE ROSTROS
Tabla 4.4: Modelos con mejor desempeño en reconocimiento
Familia Nivel Estados Entrenamiento Reconocimiento % Reconocimiento
db1 6 3 6,09 s 0,15 s 100%
db10 6 7 10,89 s 0,30 s 100%
db1 6 7 12,99 s 0,30 s 100%
db2 6 3 6,95 s 0,32 s 100%
db2 6 5 10,72 s 0,48 s 100%
db2 6 7 12,91 s 0,66 s 100%
db2 5 3 8,02 s 0,78 s 100%
db4 6 3 8,55 s 0,81 s 100%
db2 5 5 13,78 s 1,14 s 100%
db4 6 5 14,36 s 1,26 s 100%
db4 5 3 9,60 s 1,47 s 100%
db2 5 7 18,36 s 1,55 s 100%
db1 4 3 10,29 s 1,66 s 100%
db4 6 7 17,34 s 1,76 s 100%
db4 5 5 16,42 s 2,27 s 100%
db4 5 7 19,99 s 3,22 s 100%
db10 6 3 26,23 s 3,61 s 100%
db10 5 3 19,32 s 4,81 s 100%
db10 6 5 27,19 s 5,57 s 100%
db4 4 7 28,66 s 7,12 s 100%
db10 5 5 42,79 s 7,39 s 100%
db10 4 3 27,18 s 7,61 s 100%
db10 5 7 50,11 s 10,31 s 100%
db10 4 5 47,23 s 11,74 s 100%
db10 4 7 68,10 s 16,11 s 100%
4.2. Mejores modelos obtenidos para el reconocimiento
La tabla 4.4 muestra los modelos con tasa de reconocimiento perfecto ordenados de acuer-
do con el tiempo en segundos. Se observó que los MOM con 3 estados y en conjunto con la
familia db1 al nivel de descomposición 6, requirieron menor tiempo para entrenamiento y re-
conocimiento 6,09 y 0,15 segundos respectivamente. El segundo mejor modelo fue un MOM
de 7 estados en conjunto con la familia db10 al nivel de descomposición 6. Este modelo fue un
44,07 y un 50% mas lento que el primero.
57
CAPÍTULO 5
CONCLUSIONES Y
RECOMENDACIONES
En este capı́tulo se detallan los principales hallazgos y se plantea una serie de recomenda-
ciones para mejorar el trabajo de investigación y desarrollar proyectos posteriores.
5.1. Conclusiones
1. Los Modelos Ocultos de Markov constituyen una herramienta muy potente para el re-
conocimiento de rostros a través de imágenes, superando los resultados obtenidos por
otras tecnologı́as, como por ejemplo las redes neuronales de Quiong y col. (2003). Den-
tro de las ventajas de los MOM se encuentran la relativa facilidad con la que se puede
58
CAPÍTULO 5. CONCLUSIONES Y RECOMENDACIONES
programar un sistema completo de adquisición y procesamiento y las altı́simas tasa de
reconocimiento en, al menos, ambientes controlados.
2. Los Modelos Ocultos de Markov en conjunto con la Transformada Discreta de Onda,
constituyen un binomio perfecto que permite, por un lado, manipular la información
contenida en imágenes extrayendo la mas importante, y por el otro, crear secuencias o
patrones para nutrir modelos que mediante su entrenamiento, brindan una medida de la
identificación de un rostro en particular.
3. La mejor arquitectura de los MOM para una aplicación como esta se encuentra mediante
experimentación.
4. Entre las mejores arquitecturas de los MOM, aquellos con un número bajo de estados
producen los mismos resultados que los modelos con mayor número de estados, con la
diferencia de un menor consumo de tiempo, tanto para el entrenamiento como para la
evaluación.
5. El nivel de extracción de caracterı́sticas es determinante en el reconocimiento. En esta
investigación los mejores resultados se obtuvieron con los niveles 4, 5 y 6.
6. Es perfectamente posible crear un sistema de captura, procesamiento y reconocimiento de
rostros utilizando esta metodologı́a, la cual podrı́a ser empleada en sistemas de acceso y
validación de usuarios en instituciones del Estado, instituciones universitarias, entidades
bancarias y, en general, en todas aquellas donde sea menester la verificación y/o recono-
cimiento de usuarios.
59
CAPÍTULO 5. CONCLUSIONES Y RECOMENDACIONES
7. La transformación de los coeficientes de aproximación obtenidos en escala de grises es
una alternativa totalmente válida para reducir la complejidad del sistema y para construir
y probar los MOM.
8. El reconocimiento global por bandas es una estrategia válida para la evaluación del desem-
peño de los MOM en el reconocimiento de rostros, puesto que, por una lado permite la
reducción de la dimensionalidad de la imagen original al aplicar la TDO y, por el otro,
establecer una medida de validación basada en la frecuencia de reconocimiento correcto
de las bandas.
5.2. Recomendaciones
1. A pesar de obtener resultados altamente satisfactorios, es preciso acotar que el recono-
cimiento se realizó sobre la disponibilidad de una base de datos con varias imágenes
por individuo con ligeros cambios en la pose, por tal razón serı́a de gran interés realizar
pruebas donde se aprecien cambios mayores, como por ejemplo la edad.
2. Estudiar el efecto de la variación del número de individuos de la base de datos, es decir,
realizar experimentación con un número mayor de sujetos.
3. Estudiar el efecto del número de imágenes de entrenamiento y de reconocimiento al in-
cluir mas individuos.
4. Estudiar el efecto Modelos Ocultos de Markov no ergódicos en la tasa de reconocimiento.
60
BIBLIOGRAFÍA
Abbas, E. and Farhan, H. (2012). Face recognition using dwt with hmm. Engineering and
Technology, 30(1):142–154.
Bicego, M., Castellani, U., and Murino, V. (2003). Using hidden markov models and wavelets
for face recognition. In IEEE, editor, Proceedings of the 12th International Conference on
Image Analysis and Processing (ICIAP 03), pages 52–56, Mantova, Italia.
Eickeler, S. (2002). Face database retrieval using pseudo 2d hidden markov models. In IEEE,
editor, Proceedings of the fifth IEEE International Conference on Automatic Face and Ges-
ture Recognition (FGR2002). IEEE The Computer Society.
Fink, G. (2008). Markov Models for Pattern Recognition. Springer, USA.
Gao, X., Li, J., and Xiao, B. (2009). A face recognition scheme based on embedded hidden
61
BIBLIOGRAFÍA
markov model and selective ensemble strategy. International Journal of Image and Graphics,
9(3):355–367.
González, R. and Woods, R. (2002). Digital Image Processing. Prentice Hall, USA, segunda
edición edition.
Ibe, O. (2009). Markov Processes for Stochastic Modelling. Academic Press, USA.
Kohir, V. and Desai, U. (1998). Face recognition using a dct-hmm approach. In IEEE, edi-
tor, Proceedings of the fourth IEEE Workshop Applications of Computer Vision. IEEE The
Computer Society.
Koutroumbas, K. and Theodoridis, S. (2009). Pattern Recognition. Academic Press, USA,
cuarta edición edition.
Le, H. and Li, H. (2003). Simple 1d discrete hidden markov models for face recognition. In
Springer-Verlag, editor, Proceedings of 8th International workshop (VLBV) (visual content
processing and representation), pages 41–49, Heidelberg.
Li, S. and Jain, A. (2004). Handbook of Face Recognition. Springer, USA.
Makaremi, I. and Ahmadi, M. (2009). A robust wavelet based feature extraction method for
face recognition. In Proceedings of the 2009 IEEE International Conference on Systems,
Man, and Cybernetics, USA. IEEE.
Méndez, H. and Garcı́a, E. (2008). Estado actual de los métodos de reconocimiento automático
de rostros basados en la apariencia local. In Reporte Técnico: Reconocimiento de Patrones,
62
BIBLIOGRAFÍA
number RT-006 in Serie Azul. Centro de Aplicaciones de Tecnologı́a de Avanzada CENA-
TAV, Siboney, Playa, La Habana, Cuba.
Mukta, G. and Rohit, G. (2013). Comparative analysis of wavelet filters on hybrid transform
domain image steganography techniques. IJARCSSE, 3(8).
Nefian, A. (1999). A Hidden Markov Model-Based Approach for Face Detection and Recogni-
tion. PhD thesis, Georgia Institute of Technology, Georgia, USA.
Nefian, A. and Hayes, M. (1996). Hidden markov models for face recognition. Center for
Signal and Image Processing School of Electrical and Computer Engineering.
Othman, H. and Aboulnasr, T. (2000). Hybrid hidden markov model

Continuar navegando