Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 INSTITUTO POLITECNICO NACIONAL Escuela Superior de Ingeniería Mecánica y Eléctrica Unidad Culhuacan Sección de Estudio de Posgrado e Investigación MEDICION DE CARACTERISTICAS DE HUELLAS DACTILARES FALSAS TESIS Para obtener el grado de: Maestría en Ciencias de Ingeniería en Microelectrónica. PRESENTA: Mario Agustín Uriarte Cital. ASESORES: Dr. Gabriel Sánchez Pérez. Dra. Linda Karina Toscano Medina. México D.F., Noviembre 2009. 2 3 4 Agradecimientos Primeramente le agradezco a dios por haberme dado la oportunidad de vivir y por seguirlo permitiendo, pero sobre todo a mi familia por estar conmigo en los momentos más difíciles y a todos mis seres queridos. A lo largo de estos años me he propuesto un sin número de metas y una de las más importantes fue concluir satisfactoriamente la Maestría en Ciencias de la Ingeniería en Microelectrónica, en el transcurso de mi vida siempre me acompañaron dos personas que me enseñaron a salir adelante sin importar lo difícil que fuese el camino y precisamente a estas personas tan especiales que son mis padres tengo mucho que agradecerle. Todo este tiempo que permanecí estudiando la maestría siempre estuvo a mi lado una persona que me apoyo sin importar lo difícil que fuera la situación a esa persona tan especial le doy muchas gracias por esta conmigo, muchas gracias Roxivel por todo tu apoyo. También agradezco a mis asesores que fueron una base importante para poder concluir esto que empecé, es por ello que le doy gracias al Dr. Gabriel Sánchez Pérez y la Dra. Linda Karina Toscano Medina, ya que sin ellos no hubiera podido aprender lo necesario para finalizar satisfactoriamente la maestría, pero sobre todo por el apoyo incondicional que me brindaron en momentos muy difíciles para mí, y también agradezco mucho al Dr. Héctor Manuel Pérez Meana por su apoyo y comprensión. Quiero agradecerles en general a todas las personas que estuvieran a mi lado apoyándome de una u otra manera y a CONACYT por el apoyo económico brindado durante el periodo de la Maestría, y a don Víctor Nieto por su gran apoyo y comprensión. Muchas gracias a todos por estar ahí. 5 Resumen En el trascurso de los años se han desarrollado diversas técnicas que facilitan el reconocimiento de huellas dactilares, una de ellas es el escáner, el cual tiene la capacidad de reconocer las huellas dactilares, pero existe un inconveniente ya que son vulnerables a ataques y pueden ser engañados utilizando huellas falsas de diferentes materiales. Es por ello que se desarrollo un método que ayuda a detectar la autenticidad de una huella viva a partir de sus características particulares, y para ello se hace uso de la transformada de wavelet con el objetivo de suavizar la señal obtenida del nivel de gris de la imagen, una vez suavizada esta señal, se sacan sus características estadísticas tales como son la media y la desviación estándar. Estas características son utilizadas para demostrar que las huellas de cadáver, las huellas falsas y las huellas vivas son fáciles de separar. La captura se está llevando a cabo utilizando lectores ópticos tales como: u.are.u4000b, m2sys y crossmatch. Abstrac In the course of the years there have developed various techniques to facilitate the fingerprint recognition, one of them is the scanner, which has the ability to recognize fingerprints, but there is a disadvantage because they are vulnerable to attacks and can be tricked using fake fingerprints made from different materials such as play-doh, face mask, liquid latex and also cadaver fingerprints. So we are proposing a method that helps to detect the authenticity of a live fingerprint using their local characteristics, and thus for this we make use of the wavelet transform in order to smooth the signal obtained from the gray level image, once that the signal is smoothed, its statistical characteristics are extracted such mean and standard deviation. These statistical characteristics are used to demonstrate that the cadaver, fake fingerprints and live fingerprints are easily separable. The performance was carrying out using optical scanners such as: u.are.u4000b, m2sys and crossmatch. 6 Índice General Capitulo 1. Introducción 1.1. Introducción .............................................................................................................................. 1 1.2. Objetivo .................................................................................................................................... 2 1.3. Justificación .............................................................................................................................. 3 1.4. Organización de la tesis ............................................................................................................ 3 Capitulo 2. Marco teórico 2.1. Conceptos generales de biometría ............................................................................................. 4 2.2. Arquitectura de un sistema biométrico para identificación personal ........................................ 5 2.3. Pruebas y estadísticas ................................................................................................................ 6 2.4. Ventajas de los sistemas biométricos ........................................................................................ 6 2.5. Modalidades biométricas........................................................................................................... 6 2.5.1. Reconocimiento de firmas ................................................................................................. 7 2.5.2. Reconocimiento facial ........................................................................................................ 7 2.5.3. Reconocimiento de iris ....................................................................................................... 8 2.5.4. Reconocimiento de voz ...................................................................................................... 9 2.5.5. Reconocimiento de huellas digitales .................................................................................. 9 2.6. Aplicaciones de las huellas digitales ....................................................................................... 11 2.7. Lectores de huellas digitales ................................................................................................... 11 2.7.1. Sensores ópticos reflexivos .............................................................................................. 12 2.7.2. Sensores ópticos transmisivos .......................................................................................... 12 2.7.3. Sensores capacitivos ........................................................................................................ 13 2.7.4. Sensores de alta frecuencia .............................................................................................. 13 2.7.5. Sensores mecánicos.......................................................................................................... 14 2.7.6. Sensores térmicos ............................................................................................................. 14 2.8. Análisis y representación de las huellas digitales ................................................................... 15 2.8.1. Introducción ..................................................................................................................... 15 2.8.2. Características fundamentales .......................................................................................... 15 2.8.3.Minucias ........................................................................................................................... 16 2.9. Descomposición de wavelet .................................................................................................... 16 2.10. Fase de reconocimiento ......................................................................................................... 18 7 2.10.1. Modelo de mezclas gaussianas (GMM) ......................................................................... 18 2.10.2. Maquinas de soporte vectorial (SVM) ........................................................................... 21 2.10.2.1. Conjuntos separable linealmente ............................................................................ 23 2.10.2.2. Conjuntos no separable linealmente ....................................................................... 26 2.10.2.3. Ventajas de las maquinas de soporte vectorial ....................................................... 28 2.10.3. Red back propagation..................................................................................................... 29 2.10.3.1. Algoritmo de aprendizaje ....................................................................................... 30 2.10.3.2. Regla delta .............................................................................................................. 31 2.10.3.3. Regla delta generalizada ......................................................................................... 34 2.10.3.3.1. Estructura y aprendizaje de la red ................................................................. 40 2.10.3.3.2. Mínimos locales y mínimo global ................................................................. 43 2.10.4. Conclusiones .................................................................................................................. 43 Capitulo 3. Estado del arte 3.1. Estado del arte ........................................................................................................................ 44 3.2. Conclusiones ........................................................................................................................... 51 Capitulo 4. Sistema propuesto 4.1. Introducción ............................................................................................................................ 52 4.2. Sistema propuesto ................................................................................................................... 52 4.2.1. Adquisición de la huella ................................................................................................... 53 4.2.1.1. Creación de la base de datos..................................................................................... 55 4.2.2. Pre-procesamiento ............................................................................................................ 55 4.2.2.1. Aclaramiento ............................................................................................................ 55 4.2.2.1.1. Análisis de la FFT ........................................................................................... 55 4.2.2.1.1.1. Orientación de la imagen ........................................................................ 58 4.2.2.1.1.3. Frecuencia de las crestas ........................................................................ 59 4.2.2.1.2. Mascara del bloque .......................................................................................... 59 4.2.2.1.2.1. Coherencia .............................................................................................. 60 4.2.2.1.2.2. Reconstrucción de la imagen .................................................................. 60 4.2.2.1.3. Filtro de Gabor ................................................................................................ 63 4.2.2.1.3.1. Normalización ........................................................................................ 63 4.2.2.1.3.2. Orientación ............................................................................................. 65 4.2.2.1.3.3. Frecuencia .............................................................................................. 67 4.2.2.1.3.4. Mascara de la región............................................................................... 68 8 4.2.2.1.3.5. Filtración ................................................................................................ 69 4.2.2.1.4. Sumatoria de Gabor y Fourier ......................................................................... 71 4.2.2.2. Adelgazamiento ........................................................................................................ 72 4.2.2.3. Mapeo de la imagen binarizada hacia la original ..................................................... 73 4.2.2.3.1. Imagen de entrada ........................................................................................... 74 4.2.2.3.2. Pre-procesamiento sobre la imagen de entrada ............................................... 74 4.2.2.3.3. Adelgazamiento de la imagen de binarizada ................................................... 74 4.2.2.3.4. Mapeo de la imagen original hacia la adelgazada ........................................... 75 4.2.3. Descomposición wavelet .................................................................................................. 77 4.2.4. Obtención de puntos característicos de cada huella ......................................................... 80 4.2.4.1. Media aritmética ....................................................................................................... 80 4.2.4.2. Desviación estándar .................................................................................................. 80 4.2.5. Fase de reconocimiento .................................................................................................... 83 Capitulo 5. Resultados obtenidos 5.1. Introducción ............................................................................................................................ 84 5.2. Red backpropagation ............................................................................................................... 84 5.2.1. Sensor digital ................................................................................................................... 84 5.2.2. Sensor M2sys ................................................................................................................... 86 5.2.3. Sensor Crossmatch ........................................................................................................... 88 5.3. Modelo de mezclas gaussianas ................................................................................................ 90 5.3.1. Sensor digital ................................................................................................................... 90 5.3.2. Sensor M2sys ................................................................................................................... 91 5.3.3. Sensor Crossmatch ........................................................................................................... 92 5.4. Maquinas de soporte vectorial................................................................................................. 93 5.3.1. Sensor digital ................................................................................................................... 94 5.3.2. Sensor M2sys ...................................................................................................................95 5.3.3. Sensor Crossmatch ........................................................................................................... 97 Capitulo 6. Conclusiones 6.1. Conclusiones ........................................................................................................................... 99 6.2. Trabajos a futuro ..................................................................................................................... 99 Referencias .................................................................................................................................... 101 Anexos A ........................................................................................................................................ 104 9 Anexos B ........................................................................................................................................ 108 Anexos C ........................................................................................................................................ 109 Anexos D ........................................................................................................................................ 110 Anexos E ........................................................................................................................................ 111 Anexos F ........................................................................................................................................ 125 10 Capítulo 1 Las huellas dactilares 1.1. Introducción. No es verdad que la biometría sea una técnica de identificación futurista, desde hace varios siglos los hombres se han identificado por medio de este sistema. Esta comprobado, que en la época de los faraones, en el Valle del Nilo (Egipto) se utilizaban los principios básicos de la biometría para verificar a las personas que participaban en diferentes operaciones comerciales y judiciales. Muchas son las referencias de personas, que en la antigüedad, han sido identificados por diversas características físicas y morfológicas como cicatrices, medidas, color de los ojos, tamaño de la dentadura. Esta clase de identificación se utilizaba, por ejemplo, en las zonas agrícolas, donde las cosechas eran almacenadas en depósitos comunitarios a la espera de que sus propietarios dispusieran de ellas [1]. Los encargados de cuidar estos depósitos debían identificar a cada uno de los propietarios cuando estos hicieran algún retiro de su mercadería, utilizando para esta tarea principios básicos de biometría como eran sus rasgos físicos. En el siglo XIX comienzan las investigaciones científicas acerca de la biométrica con el fin de buscar un sistema de identificación de personas con fines judiciales. Con estas investigaciones se producen importantes avances y se comienzan a utilizar los rasgos morfológicos únicos en cada persona para la identificación. Ya en el siglo XX, la mayoría de los países del mundo utilizan las huellas digitales como sistema práctico y seguro de identificación. Con el avance tecnológico nuevos instrumentos aparecen para la obtención y verificación de huellas digitales. También se comienzan a utilizar otros rasgos morfológicos como variantes de identificación, por ejemplo el iris del ojo, el calor facial o la voz. Actualmente la biometría se presenta en un sin número de aplicaciones, demostrando ser el mejor método de identificación humana. En la actualidad, la “biometría informática” es la aplicación de técnicas matemáticas y estadísticas sobre los rasgos físicos o de conducta de un individuo, para “verificar” identidades o para “identificar” individuos. En las tecnologías de la información, la autentificación biométrica se refiere a las tecnologías para medir y analizar las características físicas y del comportamiento humano con propósito de autentificación. Una huella dactilar o huella digital, es la impresión visible o moldeada que produce el contacto de las crestas papilares. Depende de las condiciones en que se haga el dactilograma (impregnando o no de substancias de color distinto al soporte en que asiente), y de las características del soporte (materias plásticas o blandas, en debidas condiciones) [1]. Sin embargo, es una característica individual que se utiliza como medio de identificación de las personas. Sin llegar a tal especificidad que requiere métodos sofisticados, es posible identificar el tipo de huella que tenemos cada uno de nosotros, ya que las huellas dactilares de todas las personas se pueden clasificar en cuatro tipos: lazo, compuesta, arco y espiral. 11 Las huellas dactilares poseen crestas papilares que son glándulas de secreción de sudor situadas en la dermis, llamadas sudoríparas. Constan de un tubo situado en el tejido celular subcutáneo, formado por un glomérulo glandular con un canal rectilíneo, que atraviesa la dermis, para venir a terminar en la capa córnea de la epidermis, concretamente en el poro, que es un orificio situado en los lomos de las crestas papilares. Una vez que el sudor sale al exterior, se derrama por todas las crestas y se mezcla con la grasa natural de la piel, dando lugar a que, cuando se toque o manipule un objeto apto para la retención de huellas, éstas se queden impresas en el mismo. Los sistemas biométricos son las nuevas tecnologías, las cuales permiten autenticar a una persona entre muchas otras, mediante sus características fisiológicas, como lo son el reconocimiento facial, las huellas dactilares, iris (ojos), caminado, voz, escritura de mano, geometría de la mano etc. [2]. Con la evolución de las tecnologías asociadas a la información, nuestra sociedad está cada día más conectada electrónicamente. Los trabajos que tradicionalmente eran realizados por seres humanos, ahora son realizados por sistemas automatizados gracias a las mejoras tecnológicas. Dentro de la amplia gama de posibles actividades que pueden automatizarse, aquella relacionada con la capacidad para establecer la identidad de los individuos ha cobrado importancia y como consecuencia directa, la biometría se ha transformado en un área emergente [3]. El reconocimiento de huellas dactilares es el identificador biométrico más popular y eficiente de todos, pero la seguridad de los escáneres de huellas ha sido muy cuestionada, ya que estudios anteriores han demostrado que es posible engañar diferentes tipos de escáneres de huellas, utilizando huellas falsas hechas de play doh, resistol, látex líquido, mascarilla facial, etc. [4, 5]. Existe una gran necesidad de contar con sistemas biométricos los cuales tengan la capacidad de detectar las huellas falsas, y así mismo distinguirla de las huellas vivas o reales, mediante los procesos de verificación, identificación y autenticación [6,7]. Estas características deben satisfacer los siguientes requerimientos [8]: Universalidad, lo cual significa que cada persona debe de tener características. Unicidad, lo cual significa que dos personas no deben ser la misma en términos de las características. Permanencia, lo cual indica que las características invariantes en el tiempo. Colectividad, lo cual indica que las características pueden ser medibles cuantitativamente. 1.2. Objetivo. El principal objetivo de esta tesis es desarrollar un sistema autentificador que nos permita confirmar la autenticidad u originalidad de las huellas dactilares, diferenciándola de las huellas falsas o huellas de cadáver. El sistema propuesto emplea la transformada de wavelet en su quinto nivel de descomposición para obtener la señal suavizada de las huellas dactilares para obtener la media y la desviación estándar de cada una de las señales para obtener los puntos característicos los cuales son clasificados utilizando tres diferentes tipos de clasificadores como lo son red back propagation,gaussian mixture models (GMM) y support vector machines (SVM) para obtener los porcentajes que se dieron en la fase de reconocimiento. 12 El sistema considera diferentes tipos de falsificación de huellas dactilares, pero principalmente la falsificación profesional de lectores de huellas dactilares la cual se puede realizar creando y utilizando diferentes tipos de materiales caseros para crear las huellas falsas, las cuales son capaces de falsificar diferentes tipos de sistemas biométricos. 1.3. Justificación. La huella digital es usada en muchas aplicaciones, donde la identificación de personas se quiere realizar de manera segura y cómoda para el usuario. Tratando de evitar los riesgos de suplantación de identidad derivada del robo, copia o pérdida de tarjetas y códigos; de la manera más práctica para el usuario, que no tiene que recordar códigos ni contraseñas. Los sistemas reconocedores de huellas dactilares son utilizados en diferentes tipos de organismos, como lo son las empresas que las usan para controlar el acceso a todas las áreas utilizando únicamente su huella dactilar, en las empresas desarrolladoras de software para autentificar el control y acceso a la información como en el caso de las computadoras y teléfonos celulares, en instituciones gubernamentales se utiliza para identificar identidades de individuos y tener un control de acceso a cierta información la cual está restringida para ciertos individuos, etc. Hasta ahora en la actualidad no existe un buen mecanismo el cual identifique realmente la autenticidad de las personas, puesto que muchos de los lectores de huellas dactilares pueden ser fácilmente falsificados, por lo cual muchos tipos de organismos aun no lo emplean, por temor a ser víctimas de robo de información o remplazo de identidades. 1.4. Organización de la tesis. Esta tesis está organizada en 5 capítulos y anexos que nos muestran la importancia de las huellas dactilares, el marco teórico, el sistema propuesto y finalmente los resultados obtenidos y las conclusiones. Capítulo I. Presenta una introducción de las huellas dactilares, los objetivos de esta tesis, la justificación y la organización de esta tesis. Capítulo II. Presenta un estudio detallado de los conceptos de biometría, así como también de las modalidades biométricas existentes, los tipos de lectores de huellas que existen y los 3 clasificadores utilizados en esta tesis para la fase de reconocimiento (GMM, SVM y Red Back Propagation). Capítulo III. Presenta el estado del arte. Capítulo IV. Presenta el sistema propuesto. Capítulo V. Presenta los resultados obtenidos, las conclusiones generales así como también futuras investigaciones a realizar. 13 Capítulo 2 Marco teórico. 2.1. Conceptos generales de biometría. Llamaremos por sistema biométrico a un sistema automatizado que realiza labores de biometría. Es decir, un sistema que fundamenta sus decisiones de reconocimiento mediante una característica personal que puede ser reconocida o verificada de manera automatizada. En esta sección son descritas algunas de las características más importantes de estos sistemas. Las características básicas que un sistema biométrico para identificación personal debe cumplir pueden expresarse mediante las restricciones que deben ser satisfechas. Ellas apuntan, básicamente, a la obtención de un sistema biométrico con utilidad práctica. Las restricciones antes señaladas apuntan a que el sistema considere [9]: El desempeño, que se refiere a la exactitud, la rapidez y la robustez alcanzada en la identificación, además de los recursos invertidos y el efecto de factores ambientales y/u operacionales. El objetivo de esta restricción es comprobar si el sistema posee una exactitud y rapidez aceptable con un requerimiento de recursos razonable. La aceptabilidad, que indica el grado en que la gente está dispuesta a aceptar un sistema biométrico en su vida diaria. Es claro que el sistema no debe presentar peligro alguno para los usuarios y debe inspirar confianza a los mismos. Factores psicológicos pueden afectar esta última característica. Por ejemplo, el reconocimiento de retina, que requiere un contacto cercano de la persona con el dispositivo de reconocimiento, puede desconcertar a ciertos individuos debido a que se tiene el ojo sin protección frente a un aparato. Sin embargo, las características anteriores están subordinadas a la aplicación específica. Para algunas aplicaciones el efecto psicológico de utilizar un sistema basado en el reconocimiento de características oculares será positivo, debido a que este método es eficaz implicando mayor seguridad. La fiabilidad, que refleja cuán difícil es burlar al sistema. El sistema biométrico debe reconocer características de una persona viva, pues es posible crear huellas de látex, de pegamento, de mascarilla facial, de plastilina play-doh, grabaciones digitales de voz, prótesis de ojos, etc. algunos sistemas incorporan métodos para determinar si la característica bajo estudio corresponde o no a la de una persona viva. Los métodos empleados son ingeniosos y usualmente más simples de lo que uno podría imaginar. Por ejemplo, un sistema basado en el reconocimiento del iris revisa patrones característicos en las manchas de este, un sistema infrarrojo para chequear las venas de la mano, la cual detecta flujos de sangre caliente y lectores de ultrasonido para huellas dactilares, los cuales revisan estructuras subcutáneas de los dedos. 14 2.2. Arquitectura de un sistema biométrico para identificación personal. Los dispositivos biométricos poseen tres componentes básicos. El primero se encarga de la adquisición análoga o digital de algún indicador biométrico de una persona, como por ejemplo, la adquisición de la imagen de una huella dactilar mediante un escáner. El segundo maneja la compresión, procesamiento, almacenamiento y comparación de los datos adquiridos (por ejemplo una imagen) con los datos almacenados. El tercer componente establece una interfaz con aplicaciones ubicadas en el mismo u otro sistema [10]. La arquitectura típica de un sistema biométrico se presenta en la figura 2.1. Esta puede entenderse conceptualmente como dos módulos: 1. Módulo de inscripción (enrollment module). 2. Módulo de identificación (identification module). El módulo de inscripción se encarga de adquirir y almacenar la información proveniente del indicador biométrico con el objeto de poder contrastar a ésta con la proporcionada en ingresos posteriores al sistema. Los procesos ejecutados por el módulo de inscripción son posibles gracias a la acción del lector biométrico y del extractor de características. El primero se encarga de adquirir datos relativos al indicador biométrico elegido y entregar una representación en formato digital de éste. El segundo extrae, a partir de la salida del lector, características representativas del indicador. El conjunto de características anterior, que será almacenado en una base de datos central u otro medio como una tarjeta magnética, recibirá el nombre de template. En otras palabras un template es la información representativa del indicador biométrico que se encuentra almacenada y que será utilizada en el proceso de identificación al ser comparada con la información proveniente del indicador biométrico en el punto de acceso [11]. Figura 2.1. Arquitectura de un sistema biométrico. 15 2.3. Pruebas y estadísticas. La precisión de un sistema biométrico se determina mediante una serie de pruebas; primero, una evaluación de la precisión del algoritmo de coincidencia (evaluación de tecnología); luego, una evaluación del rendimiento en un ambiente de imitación (evaluación específica); seguida de una prueba en vivo en el lugar (evaluación operativa), antes de comenzar con las operaciones completas. Cadaevaluación cumple un fin diferente e incluye distintos tipos de análisis. Los términos biométricos; como reconocimiento, verificación e identificación, suelen utilizarse al azar. Esto no solo resulta confuso, sino que es incorrecto ya que cada término tiene un significado diferente. Reconocimiento es un término general, y no necesariamente implica verificación ni identificación. Todos los sistemas biométricos realizan “reconocimiento” para “volver a conocer” a una persona que ya ha sido inscripta. Verificación es una tarea durante la cual el sistema biométrico intenta confirmar la identidad declarada de un individuo, al comparar la muestra suministrada con una o más plantillas registradas con anterioridad. Identificación es una tarea durante la cual el sistema biométrico intenta determinar la identidad de un individuo. Se recopila información biométrica y se la compara con todas las plantillas en la base de datos. La identificación es “de grupo cerrado” si se sabe que la persona es parte de la base de datos. En identificación “de grupo abierto”, a veces llamada “lista de vigilancia”, no existe garantía de que la persona sea parte de la base de datos. El sistema debe determinar si la persona es parte de la base de datos. Debido a esta falta de concordancia, se deben utilizar diferentes estadísticas para cada tarea [12]. 2.4. Ventajas de los sistemas biométricos. Las ventajas de un sistema biométrico de huella digital son que los atributos físicos de una persona suelen ser difíciles de falsificar, no se puede adivinar una huella digital como se adivina un password, no puede perder sus huellas digitales como se pierde una llave y no se puede olvidar sus huellas digitales como puede olvidar un password. 2.5. Modalidades biométricas. Las modalidades biométricas más comúnmente implementadas y estudiadas son huellas dactilares, rostro, iris, voz, firma y geometría de la mano. Muchas otras modalidades se encuentran en distintas etapas de desarrollo y evaluación. No existe una única modalidad biométrica que sea mejor para todos los usos. Hay muchos factores que deben tenerse en cuenta al momento de implementar un dispositivo biométrico; entre ellos, ubicación, riesgos de seguridad, tarea (identificación o verificación), cantidad de usuarios estimada, circunstancias de los usuarios, datos existentes, etc. También es importante recordar que las modalidades biométricas se encuentran en distintas etapas de maduración. En los sistemas biométricos reales el FAR y el FRR pueden transformarse en los demás cambiando cierto parámetro. Una de las medidas más comunes de los sistemas biométricos reales es la tasa en la que el ajuste en el cual acepta y rechaza los errores es igual: la tasa de error igual (Equal Error Rate o EER), también conocida como la tasa de error de cruce (Cross-over Error Rate o CER). Cuanto más bajo es el EER o el CER, se considera que el sistema es más exacto [13]. 16 A continuación se muestran los sistemas biométricos más utilizados: Reconocimiento de firmas. Reconocimiento facial. Reconocimiento del iris. Reconocimiento de voz. Reconocimiento de huellas digitales. 2.5.1. Reconocimiento de firmas. Los trazos manuscritos tales como firmas, se han usado para la identificación y verificación de personas, en la validación de documentos oficiales tales como cheques bancarios, actas oficiales, etc. Las firmas se han usado en los países occidentales desde hace más de un siglo, junto con patrones de huella digital. Hasta ahora el reconocimiento o la verificación de firmas, se ha realizado por personas autorizadas, sin embargo conforme ha aumentado la cantidad de operaciones, la necesidad de automatización de los procesos (reconocimiento o verificación) se ha incrementado. Para el reconocimiento y verificación de firmas existen básicamente dos métodos, los cuales son: procesamiento en línea o el método dinámico y procesamiento fuera de línea o el método estático. Para realizar el reconocimiento o verificación en línea, se necesita la información dinámica de la firma, esto es, velocidad, aceleración, momentos gráficos, longitud total, cortes, longitud del primer momento, orden de escritura en la firma, etc. Mientras que en el reconocimiento y verificación estática de firmas, únicamente está disponible para el proceso, la imagen de la firma capturada [14]. La figura 2.2 muestra una tableta digitalizadora utilizada para la captura de caracteres. 2.5.2. Reconocimiento facial. Un sistema de reconocimiento facial es una aplicación dirigida por ordenador para identificar automáticamente a una persona en una imagen digital, mediante la comparación de determinadas características faciales a partir de una imagen digital o un fotograma de una fuente de vídeo. Una de las maneras de hacer esto es mediante la comparación de determinados rasgos faciales de la imagen facial y una base de datos. Figura 2.2.Tableta digitalizadora. 17 Es utilizado principalmente en Sistemas de Seguridad para el reconocimiento de los usuarios. Consiste en un lector que define las características del rostro, y al solicitar acceso se verifica que coincidan las características del usuario con la BD. Es poco confiable ya que las características de nuestro rostro al paso de tiempo tienden a cambiar. Se suelen utilizar en los sistemas de seguridad y puede ser comparado a otras biometrías como huella digital o los sistemas de reconocimiento usando escaneo del iris. La figura 2.3 muestra un ejemplo de cómo se toman los puntos característicos del rostro. 2.5.3. Reconocimiento de iris. La tecnología de reconocimiento del iris toma las características únicas del iris. Mientras la mayoría de biométricos tiene 13 a 60 características distintas, se dice que el iris tiene 266 puntos únicos. Se cree que cada ojo es único y permanece estable con el tiempo y el ambiente. El reconocimiento del iris es el proceso de reconocer a una persona analizando el patrón al azar. El iris es un musculo dentro del ojo que regula el tamaño de la pupila, controlando la cantidad de luz que entra en el ojo. Es la porción coloreada del ojo basando su color en la cantidad del pigmento Melatonina dentro del músculo. Aunque la coloración y la estructura del iris están genéticamente ligadas, los detalles de los patrones no lo están. El iris se desarrolla durante crecimiento prenatal con un estricto proceso de formación y plegado de la membrana de tejido fino. Antes del nacimiento, ocurre la degeneración, dando por resultado la abertura de la pupila y los patrones únicos y al azar del iris. Aunque genéticamente idénticos, el iris de un individuo es único y estructuralmente distinto, lo que le permite que sea utilizado para propósitos de reconocimiento. La figura 2.4 muestra la estructura del iris. Figura 2.3.Puntos característicos del rostro. Figura 2.4. Estructura del iris. 18 2.5.4. Reconocimiento de voz. El Reconocimiento Automático del Habla (RAH) o Reconocimiento Automático de voz es una parte de la Inteligencia Artificial que tiene como objetivo permitir la comunicación hablada entre seres humanos y computadoras electrónicas. El problema que se plantea en un sistema de RAH es el de hacer cooperar un conjunto de informaciones que provienen de diversas fuentes de conocimiento (acústica, fonética, fonológica, léxica, sintáctica, semántica y pragmática), en presencia de ambigüedades, incertidumbres y errores inevitables para llegar a obtener una interpretación aceptable del mensaje acústico recibido. Un aspecto crucial en el diseño de un sistema de RAH es la elección del tipo de aprendizaje que se utilice para construir las diversas fuentes de conocimiento. Básicamente, existen dos tipos: Aprendizaje Deductivo: Las técnicas de aprendizaje deductivo se basan en la transferencia de los conocimientosque un experto humano posee a un sistema informático. Un ejemplo paradigmático de las metodologías que utilizan tales técnicas lo constituyen los sistemas basados en el conocimiento y, en particular, los sistemas expertos. Aprendizaje Inductivo: Las técnicas de aprendizaje inductivo se basan en que el sistema pueda, automáticamente, conseguir los conocimientos necesarios a partir de ejemplos reales sobre la tarea que se desea modelizar. En este segundo tipo, los ejemplos los constituyen aquellas partes de los sistemas basados en los modelos ocultos de Markov o en las redes neuronales artificiales que son configuradas automáticamente a partir de muestras de aprendizaje. En la práctica, no existen metodologías que estén basadas únicamente en el Aprendizaje Inductivo, de hecho, se asume un compromiso deductivo-inductivo en el que los aspectos generales se suministran deductivamente y la caracterización de la variabilidad inductivamente. La figura 2.5 muestra un ejemplo de un sistema reconocedor de voz. 2.5.5. Reconocimiento de huellas digitales. La comparación de la huella digital es una de las técnicas más antiguas y ampliamente utilizadas y aceptas a nivel global. Los sistemas actuales de comparación de la huella digital tienen su base en los desarrollos realizados por Galton y Purkinje. Figura 2.5. Sistema reconocedor de voz. 19 La huella digital aparece generalmente constituida por una serie de líneas oscuras que representan las crestas y una serie de espacios blancos que representan los valles. La identificación con huellas digitales está basada principalmente en las minucias (la ubicación y dirección de las terminaciones de crestas, bifurcaciones, deltas, valles y crestas; aunque existen muchas otras características de huellas digitales [15]. Las posibilidades de usar el mecanismo de huella digital se clasifican en tres grupos que han aparecido a lo largo del tiempo: simétrica, asimétrica y anónima. Simétrica: es el concepto clásico de huella digital propuesto por N. R. Wagner en 1983. Consiste en que solo el vendedor interviene en el proceso de marcado con el fin de identificar al comprador a partir de la copia marcada. Este método tiene el inconveniente que deja al comprador desprotegido, ya que puede ser acusado injustamente de distribución ilegal si el vendedor da una copia a otro comprador con la misma marca. Asimétrica: en el proceso del marcado intervienen tanto el comprador como el vendedor para evitar el fraude antes mencionado. En este caso el vendedor puede identificar al comprador a partir de la marca incrustada pero no la puede generar sin él. El problema de este método es que el vendedor conoce la identidad del comprador con lo que se vulnera el anonimato de éste. Para poder resolver este problema surge el mecanismo de huella digital anónima. Anónima: en este caso, en el proceso de marcado ha intervenido una tercera parte de confianza que conozca realmente la identidad del comprador. De esta forma el vendedor desconoce tanto la marca como la identidad del comprador, pero es capaz de identificarlo en caso de redistribución ilegal. Las huellas dactilares son una característica propia de las personas, de tal forma que es posible identificar a cada una por sus huellas dactilares [16]. Sin llegar a tal especificidad que requiere métodos sofisticados, es posible identificar el tipo de huella que tenemos cada uno de nosotros, ya que las huellas dactilares de todas las personas se pueden clasificar en tres tipos: arcos, lazos y espirales, que se pueden observar en la figura 2.6. Figura 2.6. Esquema de los grupos más característicos de huellas dactilares. 20 2.6. Aplicaciones de las huellas digitales. El área de aplicación más importante está en el control de acceso para los ordenadores o PC. Esto es especialmente importante para ordenadores portátiles y PDAs. Gracias a la caída de precios, cada vez más dispositivos están equipados con sensores. Otros dispositivos con sensores de huellas digitales incorporados incluyen discos duros USB, módulos de memoria USB y lectores de tarjetas. También están disponibles en ratones y teclados. Los sensores se utilizan cada vez más para asegurar las transacciones financieras y las máquinas de cambio para la banca "en línea". En el futuro, la huella digital del propietario será almacenada de forma segura en tarjetas de identidad y tarjetas de crédito y también podrá ser utilizada para autentificación de correos electrónicos que utilicen firmas digitales. El acceso físico directo a habitaciones y dispositivos también se puede asegurar acoplando sensores de huellas digitales con sistemas de apertura de puertas. Los terminales de salidas en los aeropuertos serán capaces de procesar a los pasajeros de manera más rápida. Los automóviles, la maquinaria de construcción, los barcos y los aviones también estarán protegidos contra robos. 2.7. Lectores de huellas digitales. Los lectores de huella digital computarizados siempre han aparecido en películas de espías resguardando el acceso a lugares restringidos, pero en el mundo real eran una tecnología bastante exótica hasta hace unos años, cuando empezaron a aparecer en todos lados para controlar el acceso a edificios que necesitaban alta seguridad, e incluso en “mouses” y teclados para computadora, reemplazando o complementando el uso de password para dar acceso a una PC. Los lectores de huella digital típicamente empalman varias imágenes de huellas digitales para encontrar una que corresponda. En realidad, este no es un modo práctico para comparar las huellas digitales. Una imagen borrosa puede hacer que dos imágenes de la misma huella se vean bastante diferentes, así que raramente se podrá obtener un empalme perfecto. Adicionalmente, utilizar la imagen completa de la huella digital en un análisis comparativo utiliza muchos recursos del procesador, y además hace más sencillo robar los datos impresos de la huella de alguien. En vez de esto, la mayoría de los lectores compara rasgos específicos de la huella digital, generalmente conocidos como minucias. Típicamente, los investigadores humanos y computadoras se concentran en puntos donde las líneas de las crestas terminan o donde se separan en dos (bifurcaciones). El software del sistema del lector utiliza algoritmos altamente complejos para reconocer y analizar estas minucias. La idea básica es medir las posiciones relativas de las minucias. Una manera simple de pensar en esto es considerar las figuras que varias minucias forman cuando dibuja líneas rectas entre ellas. Si dos imágenes tienen tres terminaciones de crestas y dos bifurcaciones formando la misma figura dentro de la misma dimensión, hay una gran probabilidad de que sean de la misma persona. 21 Un lector de huella digital lleva a cabo dos tareas: Obtener una imagen de la huella digital. Comparar el patrón de valles y crestas de dicha imagen con los patrones de las huellas que tiene almacenadas. En la actualidad, las contraseñas proporcionan algo de protección, pero recordar y saber dónde están guardados los diferentes códigos de cada máquina es un problema en sí mismo. Con las tarjetas inteligentes, sucede algo similar: si perdemos nuestra tarjeta no podremos hacer uso de las facilidades que brinda. Parecería lógico utilizar algún identificador que no se pudiese perder, cambiar o falsificar. Las técnicas de la biometría se aprovechan del hecho de que las características del cuerpo humano son únicas y fijas. Los rasgos faciales, el patrón del iris del ojo, los rasgos de la escritura, la huella digital, y otros muchos son los que se utilizan para estas funciones, incluyendo incluso el ADN. La técnica más popular es el uso de la huella digital. Antiguamente se usaba una almohadilla de tinta y papel para imprimir la huella digital y, a continuación,se comenzaba la laboriosa tarea de comparación visual de la huella recogida con las ya almacenadas. Los sensores más modernos son mucho mejores. Ya existen millones de ellos en uso y, gracias al bajo precio, están encontrando aplicación de manera continua en nuevos dispositivos. La probabilidad de que un impostor sea aceptado (relación de aceptación falsa, o FAR) es extremadamente alta; mientras que la probabilidad de que un usuario verdadero pueda no ser reconocido y, por lo tanto, denegado su acceso (relación de rechazos falsos, o FRR) es baja. 2.7.1. Sensores ópticos reflexivos. Se basan en la técnica más antigua, consiste en colocar el dedo sobre una superficie de cristal o un prisma que está iluminado por un diodo LED. Cuando las crestas de las huellas del dedo tocan la superficie, la luz es absorbida, mientras que entre dichas crestas se produce una reflexión total. La luz resultante y las zonas de oscuridad son registradas en un sensor de imagen. En la práctica existen algunas dificultades con esta técnica: las imágenes obtenidas con dedos húmedos y secos son muy diferentes y, además, el sistema es sensible al polvo y a la suciedad de la superficie. La unidad tiene un tamaño considerable, poco práctico y caro. Este sistema es fácil de engañar y si la piel está deteriorada o dañada, la huella no se reconoce correctamente. El reconocimiento de la huella dactilar de las personas mayores también es difícil de hacer ya que la piel no es lo suficientemente elástica. En algunas circunstancias esto puede producir un reconocimiento falso. Si la huella almacenada fue tomada con menos presión, se pueden producir aceptaciones falsas. 2.7.2. Sensores ópticos transmisivos. Esta técnica funciona sin contacto directo entre el dedo y la superficie del sensor. La luz pasa a través del dedo desde la cara de la uña, y al otro lado, mientras que una cámara toma una imagen directa de la huella digital. La humedad no produce ninguna dificultad. El sensor ve a través de la superficie de la piel sobre una superficie más profunda y produce una imagen multiespectral. El uso 22 de diferentes longitudes de onda para generar imágenes nos proporciona información de diferentes estructuras subcutáneas, indicación de que el objeto en cuestión es un dedo genuino. El uso de filtros polarizados ortogonales asegura que solamente la luz que tiene importancia a su paso bajo la piel es la que pasa, y bloquea la luz que se reflejaría directamente de la superficie. Solamente unos dedos artificiales muy precisos podrían tener la posibilidad de engañar a este sensor. La figura 2.7 muestra un sensor óptico. 2.7.3. Sensores capacitivos. El sensor es un circuito integrado de silicio cuya superficie está cubierta por un gran número de elementos transductores (o píxeles), con una resolución típica de 500 dpi. Cada elemento contiene dos electrodos metálicos adyacentes. La capacidad entre los electrodos, que forma un camino de realimentación para un amplificador inversor, se reduce cuando el dedo se aplica sobre dicha superficie: se reduce más cuando detecta crestas y menos cuando detecta el espacio entre ellas. El sensor es susceptible a las descargas electrostáticas. Estos sensores sólo trabajan con pieles sanas normales, ya que no son operativos cuando se utilizan sobre pieles con zonas duras, callos o cicatrices. La humedad, la grasa o el polvo también pueden afectar a su funcionamiento. La figura 2.8 muestra un sensor capacitivo. 2.7.4. Sensores de alta frecuencia. Estos sensores son una variación de la técnica capacitiva descrita anteriormente. Cada pixel contiene un único electrodo, mientras que el dedo actúa como el otro electrodo, o de manera más precisa, el electrodo es la capa subcutánea, que es un buen conductor y que no se ve afectada por la grasa, el polvo, los callos o perturbaciones similares. Un contacto más exterior, rodeado por una Figura 2.7. Sensor óptico. Figura 2.8. Sensor capacitivo. 23 señal débil de RF, se acopla sobre el dedo. La amplitud de la señal en cada electrodo es proporcional a la capacidad de acoplamiento local: si es más elevada indica que se trata de una cresta, mientras que si es menos elevada se trataría de un valle entre crestas. La figura 2.9 muestra un sensor de alta frecuencia. 2.7.5. Sensores mecánicos. Se trata de decenas de miles de diminutos transductores de presión que se montan sobre la superficie del sensor. Un diseño alternativo utiliza conmutadores que están cerrados cuando son presionados por una cresta, pero permanecen abiertos cuando están bajo un valle. Esto sólo proporciona un bit de información por píxel, en lugar de trabajar con una escala de grises. La figura 2.10 muestra un sensor mecánico. 2.7.6. Sensores térmicos. En este caso el sensor detecta el calor conducido por el dedo, el cual es mayor cuando hay una cresta que cuando hay un valle. Se ha desarrollado un componente de silicio con una matriz de píxeles denominado "FingerChip", es decir, "circuito integrado dedo", cada uno de los cuales está cubierto con una capa de material piroeléctrico en el que un cambio de temperatura se traduce en un cambio en la distribución de carga de su propia superficie. La imagen está en la escala de grises que tiene la calidad adecuada incluso con el dedo desgastado, con suciedad, con grasa o con humedad. El sensor dispone de una capa protectora robusta y puede proporcionar una salida dinámica. La figura 2.11 muestra un sensor térmico. Figura 2.11. Sensor térmico. Figura 2.9. Sensor de alta frecuencia. Figura 2.10. Sensor mecánico. 24 2.8. Análisis y representación de las huellas digitales. 2.8.1. Introducción. Una huella digital es una representación de la forma de la piel de las yemas de los dedos, que se produce cuando se presionan los dedos sobre una superficie lisa. Se trata de un patrón, único y diferente, de un dedo humano. Las huellas digitales se encuentran completamente formadas alrededor de los siete meses de gestación y este patrón permanecerá invariable durante toda la vida del individuo, salvo el caso de accidentes como heridas o cortes graves. Si bien se puede afirmar que no pueden existir dos huellas digitales iguales, no se puede decir que estas sean patrones completamente aleatorios, ya que poseen características o formas comunes, las que se detallaran más adelante. [17] 2.8.2. Características fundamentales. Una de las características principales de las huellas digitales, es su individualidad, ya que se considera, con fuertes evidencias, que las huellas digitales son diferentes de persona a persona, e incluso un mismo individuo posee huellas diferentes en cada uno de los dedos de sus manos. Esta característica permite el uso de las huellas digitales como uno de los métodos de reconocimiento más usados en muy diversas aplicaciones [18]. La característica más evidente de una huella es un patrón de crestas y valles intercalados entre sí, que aparecen en las imágenes como partes obscuras y claras respectivamente. Ver figura 2.12. Figura 2.12. Crestas y valles de una huella dactilar. 25 2.8.3. Minucias. En un nivel más detallado, se denotan otras características importantes dentro de los patrones digitales, conocidas como minucias. Las minucias se refieren a las diferentes formas en que las crestas pueden ser discontinuas. Por ejemplo, una cresta puede súbitamente finalizar (terminación), o puede esta dividirse en dos crestas independientes (bifurcación) [11]. Aunque se pueden considerar diversos tipos de minucias, los cuales se muestran en la figura 2.13. 2.9. Descomposición de wavelet. Como se observan las señales extraídas es una señal no-estacionaria. La transformada de Fourier (FT) no sería eficaz, ya que FTno podrán proporcionar la información adecuada cuando se lleve a cabo el análisis no estacionario. Aunque en la transformada de Fourier (STFT) puede mostrar la señal en el tiempo y la frecuencia de dominio, la cual puede no ser eficaz, ya que sólo utiliza una técnica de ventana fija. En comparación con FT y STFT, la transformada wavelet, proporciona una herramienta poderosa no estacionaria para la señal procesamiento. La transformada de Wavelet es eficiente para el análisis local de señales no estacionarias y de rápida transitoriedad y, al igual que la transformada de Fourier con ventana, mapea la señal en una representación de tiempo - escala. La diferencia está en que la Transformada de Wavelet provee análisis de Multiresolución con ventanas dilatadas [19]. El procedimiento de descomposición de multiresolución de una señal, se muestra esquemáticamente en la figura 2.14. Cada etapa de este análisis consiste en un filtro pasa altas y pasa bajas, seguido por dos en la escala de muestreo. Figura 2.13. Principales tipos de minucias. 26 En este esquema la función de Escalado y la función Wavelet puede ser calculada por: Donde hn y gn son filtros de espejos conjugados. La salida del primer filtro pasa altas y pasa bajas, proporciona los detalles d1 y la aproximación a1, respectivamente. La primera aproximación a1 se descompuso en el segundo nivel de detalle d2 y la aproximación a2 se descompuso en el tercer nivel de detalle d3, y así sucesivamente. Durante la investigación se realizaron pruebas con el objetivo de verificar cual de las familias de wavelet obtenía mejores resultados en la descomposición de la señal, para la cual se llego a la conclusión que con Daubechies 2 en su quinto nivel de descomposición obtenía el mejor resultado, ya que suavizaba la señal mejor, la cual se muestra en la tabla 2.1. En la tabla 2.1 se muestra la familia de wavelets. Familia Wavelet Wavelets probados Daubechies „db1‟, „db2‟,‟db3‟,‟db4‟….‟db10‟,….‟db20‟ Coiflets „coif1‟,‟coif2‟,….‟coif5‟ Symlets „sym1‟,‟sym2‟,….‟sym8‟,….‟sym10‟ Discrete Meyer „dmey‟ Biorthogonal „bior1.1‟,‟bior1.3‟,‟bior1.5‟,‟bior2.2‟,….‟bior2.8‟,….‟bior3.5‟ Reverse Biorthogonal „rbio1.1‟,‟ rbio1.3‟, „rbio1.5‟, „rbio2.2‟,…. „rbio2.8‟,…. „rbio3.5‟ Figura 2.14. Muestra el procedimiento de descomposición de multiresolución de Wavelet. (2.1) (2.2) 27 (2.3) La figura 2.15 muestra un ejemplo de cómo queda la descomposición de una señal utilizando Daubechies 2 (db2) en su quinto nivel de descomposición: 2.10. Fase de reconocimiento. La fase de reconocimiento se realiza mediante tres clasificadores (Modelos de Mezclas Gaussianas GMM) y (Maquinas de Soporte Vectorial SVM) y una red neuronal (Back Propagation) los cuales se utilizan como clasificadores y verificadores usando diferentes métodos para la extracción de características. 2.10.1. Modelo de mezclas gaussianas (GMM). Los modelos de mezclas gaussianas pueden emplearse para representar funciones de densidad de probabilidades complejas, a partir de la marginalización de distribuciones conjuntas entre variables observadas y variables ocultas. Una mezcla de Gaussianas o mezcla de funciones de Gauss (Gaussian Mixture Models) para un modelo es una combinación de funciones de probabilidad denotada por: Figura 2.15. Descomposición de la señal utilizando Daubechies 2 en su quinto nivel de descomposición. 28 (2.4) (2.5) (2.6) Donde es una función de probabilidad de Gauss en , con media y matriz de covarianzas , es un conjunto de valores positivos que satisface: De esta forma se obtiene que la función 1 sea también una función de probabilidad. Así, se puede denotar a cada una de las funciones . Por lo anterior el modelo queda determinado por: La función 1 puede ser empleada para implementar un sistema de clasificación para verificación o reconocimiento de huellas dactilares. Si suponemos la existencia de conjuntos de vectores de características para entrenamiento y de Background, denotados por y respectivamente, correspondientes a un usuario , entonces es posible generar un modelo asociado a Ei y un modelo asociado a . Cada uno de estos modelos se obtiene ajustando los valores dados en 4, de forma que se maximice la función 1, para cada uno de los vectores del conjunto considerado. El algoritmo utilizado para este fin es denotado por EM, por sus siglas en inglés Expectation Maximization. Este algoritmo incrementa de forma monótona el valor de probabilidad de la función 1, para cada uno de los vectores de entrenamiento (de ó ) en cada iteración [13]. La idea básica de este método es buscar los parámetros del modelo. Para el juego de datado de T que entrena vectores GMM likehood puede ser escrito como: La estimación de parámetros ML se pueden obtener utilizando iterativamente el caso del algoritmo de maximización de expectativa (EM). La idea básica es, comenzar con un modelo inicial , estimar un nuevo modelo , donde . Entonces se hace el nuevo modelo inicial para la siguiente iteración. Este proceso es repetido hasta que algún umbral de convergencia sea alcanzado. (2.7) 29 (2.8) (2.9) (2.10) (2.11) Después de cada iteración, se fórmulas los nuevos valores que serán usados; los pesos de la mezcla son recalculada como sigue: La media es recalculada como sigue: La varianza es recalculada como sigue: Las probabilidades siguientes están dadas por: Una vez obtenidos los modelos y de un usuario se obtienen también los valores de probabilidad asociados a dichos modelos así como su media y su varianza. Dado un conjunto de prueba , se pueden validar dichos modelos, al determinar la pertenencia de cada al modelo al que muestre una mayor proximidad, en términos de sus parámetros de media y varianza. Dado que se sabe a priori si proviene de un usuario válido o de uno inválido, se pueden determinar porcentajes de error ante ambos tipos de peticiones. Es importante precisar que existen condiciones que afectan la representatividad de , principalmente porque proviene de un subconjunto propio del conjunto complemento , es decir no representa al total de los hablantes distintos a . Este hecho, esquematizado en la figura 2.16, significa que no necesariamente implica que . De forma análoga no necesariamente implica que y viceversa. Bi Ui Figura 2.16. Conjunto completo. 30 2.10.2. Maquinas de soporte vectorial (SVM). Las maquinas de soporte vectorial (SVM por sus siglas en ingles “Support Vector Machine”), fueron desarrolladas por Vapnik (1995), para el problema de clasificación pero la forma actual de SVM está ganando gran popularidad como herramienta para la identificación de sistemas no lineales, esto debido principalmente a que SVM está basado en el principio de minimización del riesgo estructural (SRM por sus siglas en ingles “Structural Risk Minimization”), principio originado de la teoría de aprendizaje estadístico desarrollado por Vapnik, el cual ha demostrado ser superior al principio de minimización del riesgo empírico (ERM por sus siglas en ingles Empirical Risk Minimization), utilizado por las redes neuronales convencionales. Algunas de las razones por las que este método ha tenido éxito es que no padece de mínimos locales y el modelo solo depende de los datos con más información llamados vectores de soporte (SV por sus siglas en ingles, “Support Vectors”). Las grandes ventajas que tiene la SVM son: Una excelente capacidad de generalización, debido a la minimización del riesgo estructurado. Existen pocos parámetros a ajustar; el modelo solo depende de los datos con mayor información. La estimación de los parámetros se realiza a través de la optimización de una funciónde costo convexa, lo cual evita la existencia de un mínimo local. La solución de SVM es sparse, esto es que la mayoría de las variables son cero en la solución de SVM, esto quiere decir que el modelo final puede ser escrito como una combinación de un número muy pequeño de vectores de entrada, llamados vectores de soporte. La aplicación más sencilla de esta técnica es el problema de clasificación binaria (solo hay dos clases definidas). La idea subyacente consiste en encontrar una hipótesis H que minimice la probabilidad de error empírico (la probabilidad de que H tenga un error en un conjunto de prueba seleccionado aleatoriamente). Clasificar involucra necesariamente el concepto de conjunto; de manera general el proceso de clasificación consiste en realizar una separación de los elementos de un conjunto C en diferentes subconjuntos , denominados clases, con base en la medición de las características que los elementos de C poseen. Una vez que se determinan las propiedades de los subconjuntos en los que se clasificara al conjunto original (modelos), los elementos de este son comparados con cada uno de los modelos, para establecer a cuál de ellos pertenecen. Matemáticamente este proceso puede entenderse como una función que mapea el conjunto C al conjunto de clases . Se parte de la hipótesis de que, sin importar la naturaleza del conjunto C, sus elementos pueden ser representados de forma numérica. Esta representación puede ser en , para algún . Sin embargo bajo este planteamiento, la labor de clasificación no guarda dificultad alguna, ésta surge, por ejemplo, cuando se considera que 31 los elementos del conjunto C son resultado de un conjunto finito de variables aleatorias en denotado por: Donde es una variable aleatoria discreta infinita o continua. Si consideramos que las clases son una partición de C entonces, dadas las hipótesis, el proceso de clasificación puede no ser exhaustivo, por lo que, de manera práctica, C es formado con subconjuntos de valores representativos de cada una de las variables aleatorias . Así, el objetivo de una Máquina de Soporte Vectorial (Support Vector Machine, SVM) consiste en modelar en cierta forma el comportamiento de cada una de las variables aleatorias , de forma que se pueda determinar, dado un vector propuesto, a cuál de ellas pertenece. En particular, para la clasificación de voz puede considerarse, sin pérdida de generalidad, que el conjunto C está formado por dos variables aleatorias, es decir que Es posible representar a cada elemento del conjunto C, de la siguiente forma: Donde , y l es la cardinalidad de C. Si suponemos que tomamos una muestra representativa de cada una de las variables aleatorias, la representación dada previamente permite establecer al conjunto C de la siguiente forma: Por las consideraciones hechas, la distribución de los puntos que conforman a C1 y C2 es desconocida a priori. Podemos entonces considerar, de forma general, dos casos; cuando C1 y C2 son linealmente separables y cuando no lo son. (2.12) (2.13) (2.14) (2.15) (2.16) (2.17) 32 (2.19) (2.21) (2.18) (2.20) 2.10.2.1. Conjunto separables linealmente. Se dice que C1 y C2 son linealmente separables cuando existe un hiperplano en determinado por un vector w perpendicular al mismo de forma que: Para cualquier punto en el hiperplano y además: Puede obtenerse fácilmente que si C1 y C2 son linealmente separables entonces la existencia de un hiperplano tal, determinado por un vector w, no es única, de hecho existen una infinidad de tales vectores. Así, es necesario establecer un criterio que permita determinar cuál de ellos se tomará para la clasificación. También es inmediato que si ambos conjuntos son separables entonces existe una distancia mínima entre ambos conjuntos. La figura 2.17 presenta un esquema del caso que se expone. De la misma, podemos observar la construcción de dos hiperplanos paralelos al original, determinado este por w, los cuales delimitan un margen entre los conjuntos y cuya magnitud m podemos relacionar con dichos hiperplanos de la siguiente forma: Supongamos que w está contenido en el hiperplano inferior entonces sucede que: Figura 2.17. Esquema de dos conjuntos de vectores linealmente separados mediante un hiperplano que maximiza el margen m. 33 (2.22) (2.23) (2.24) (2.25) (2.26) (2.27) (2.28) Para algunas constantes ε > 0. Entonces el vector dado por: Está incluido en el hiperplano superior, lo cual implica que: Restando la ecuación 2.21 y 2.23 y simplificando obtenemos: Dada la igualdad 2.24 se infiere que si deseamos maximizar la magnitud del margen m es necesario minimizar la magnitud de w. Retomando nuevamente la notación con yj Є {1, -1} para cada uno de los vectores de C, entonces el problema de encontrar un hiperplano que separe a C1 y a C2, maximizando el margen de separación entre dichos conjuntos, queda planteado como: Este es un problema de optimización de tipo cuadrático sujeto a l restricciones en y cuya solución puede darse a partir del uso de la teoría de multiplicadores de Lagrange en n variables. Denotemos las restricciones que aparecen en el problema 2.25 de la siguiente forma: Entonces si denotamos por a la k-ésima entrada de w sabemos que se cumple: 34 (2.29) (2.30) (2.33) (2.34) (2.31) (2.32) Para ciertas constantes a determinar. Sustituyendo en la ecuación 2.27 a la función f y a las funciones se tiene el siguiente desarrollo: Por otra parte la igualación de la ecuación 2.28 Por lo tanto la solución al sistema de la ecuación 2.25 está dada por: Para obtener el valor de cada una de las constantes _i sustituimos la ecuación 2.31 en las restricciones iniciales 2.28 con lo que se obtiene la siguiente ecuación: Derivando parcialmente cada una de las ecuaciones dadas en 2.33 con respecto a , se obtiene que: Las igualdades descritas en 2.34 conforman un sistema lineal de l ecuaciones con incógnitas por lo que se tiene un sistema de la forma , con siendo el vector de incógnitas. Este sistema tiene solución única sólo si A tiene inversa. Es importante recordar que el valor l es la cardinalidad del conjunto C, por lo que la complejidad en la obtención de una solución mediante alguna implementación, dependerá del orden de dicho conjunto. Los 35 (2.35) (2.36) valores de las constantes quedarán en términos de , de los cuales uno de ellos puede ser propuesto y el otro determinado, por ejemplo, con la ecuación 2.21. Así, el vector w dado en la ecuación 2.31 es conocido como el vector de soporte del hiperplano que separa a C1 y a C2, de donde deriva el nombre de Máquinas de Soporte Vectorial. 2.10.2.2. Conjunto no separables linealmente. Puede considerarse que el sistema lineal de ecuaciones dado en 2.34, es una conclusión al tratar el caso de dos conjuntos C1 y C2, separables linealmente. Sin embargo dicho sistema puede ser obtenido también para cualesquiera dos conjuntos en . Así, podemos decir que C1 y C2 no son separables linealmente cuando la matriz correspondiente al sistema 2.34 no tenga solución, en cuyo caso no es posible la construcción de un hiperplano que satisfaga las condiciones del problema planteado en 2.10.2. El tratamiento para el caso de dos conjuntos no separables linealmente consiste en utilizar una función . Dicha función mapea a los conjuntos , a un espacio de mayor dimensión, donde podemos denotarlos por y respectivamente. El objetivo de realizar este mapeo es que los conjuntos obtenidos sean separables linealmente o en su caso se minimice el error mediante la separación con un hiperplano, es decir que el número de vectores clasificadosincorrectamente sea mínimo. La figura 2.18 esquematiza la operación ideal de la función sobre un conjunto dado. Figura 2.18. Conjunto de vectores separados por un hiperplano no lineal. 36 (2.37) (2.39) (2.40) (2.41) (2.42) (2.38) Como se mencionó anteriormente, idealmente la función mapea los conjuntos de vectores no separables linealmente a un espacio de mayor dimensión. En este caso se considera que existen vectores de los conjuntos que se encuentran contenidos en . A dichos vectores se les conoce como vectores de soporte. Para obtener una solución en el espacio original, se realiza el mapeo inverso de los vectores de soporte, los cuales determinarán las fronteras que separarán a los conjuntos C1 y C2. Se considera que los vectores que determinan estas fronteras conforman el modelo para C1 (o equivalentemente para C2). No es posible determinar a priori, dados dos conjuntos de vectores , una función que cumpla los objetivos previamente descritos, por lo que el procedimiento para determinarlo no es constructivo. Por tanto el tratamiento para este caso está basado en la realización de ensayos con función conocidas. Es de especial importancia en la solución del problema de clasificación. Del procedimiento dado en los conjuntos no separables linealmente, puede observarse que las operaciones con vectores involucran el producto punto o producto interno canónico en . Este proporciona una función que determina una norma y a su vez una métrica para el espacio: Tales normas y métricas, respectivamente son empleadas, también al separa los conjuntos en . Asi que el problema análogo al 2.25 planteado en este nuevo espacio es: Por lo anterior la ecuación análoga a 2.34 en este nuevo espacio está dada por: Se infiere la ecuación 2.40, que la función puede ser vista como una que modifica la norma y métrica del espacio original (dadas en 2.37 y 2.38), por las siguientes: 37 (2.43) (2.44) (2.45) (2.46) (2.47) A la función definida por: se le conoce como función núcleo y su uso es más importante que el de la propia función , de la cual no se requiere su conocimiento en forma explícita, ya que es suficiente, como lo muestra la ecuación 2.40, con establecer la función núcleo K para obtener una solución. Algunos ejemplos de funciones núcleo que han sido sugeridas o empleadas en problemas de clasificación son las siguientes [11]: Lineal: Polinomial: Función de base Radical: Sigmoide: Aún cuando existen diferentes funciones núcleo, es común el uso de la Función de Base Radial, por los resultados obtenidos durante la clasificación [20], [21]. Sin embargo puede optarse por el uso de otros núcleos dependiendo de los resultados obtenidos para un caso particular. Es importante mencionar que dado el origen y la naturaleza de los vectores obtenidos en el proceso de extracción, se espera tratar con un caso de conjuntos no separables linealmente, por lo que en este trabajo se propone utilizar inicialmente la función de base radial (dada en 2.46), para realizar la clasificación. 2.10.2.3. Ventajas de las maquinas de soporte vectorial. Las máquinas de soporte vectorial cuentas con las siguientes ventajas: Tienen una excelente capacidad de generación, debido a la minimización del riesgo estructurado. Existe pocos parámetros que deban ser ajustados, ya que el modelo solo depende de los datos con mayor información. La estimación de los parámetros se realiza a través de optimización de una función de costo convexa, lo cual evita la existencia de un mínimo local. La solución de SVM la mayoría de las variables son cero en la solución, esto quiere decir que el modelo final puede ser escrito como una combinación de un número muy pequeño de vectores de entrada, los cuales son llamados vectores de soporte. 38 2.10.3. Red back propagation. La red BackPropagation (propagación del error hacia atrás), fue creada por Rumelhart, Hilton y Williams en el año de 1986, basándose en los trabajos de otros investigadores como Werbos y Parker, ellos formalizaron un método para que una red neuronal multinivel, aprendiera la asociación que existe entre los patrones de entrada y las clases correspondientes, este método, generalmente conocido como BackPropagation, está basado en la generalización de la regla delta y, a pesar de sus propias limitaciones, ha ampliado de forma considerable el rango de aplicaciones de las redes neuronales. El algoritmo de retropropagación, es una regla de aprendizaje que se puede aplicar en modelos de redes con más de dos capas de neuronas. Una característica importante de este algoritmo es la representación interna del conocimiento que es capaz de organizar en la capa intermedia de las neuronas para conseguir cualquier correspondencia entre la entrada y la salida de la red. El funcionamiento de una red BackPropagation consiste en un aprendizaje de un conjunto predefinido de pares de entradas – salidas dados como ejemplo; empleando un ciclo propagación- adaptación de dos fases: primero se aplica un patrón de entrada como estimulo para la primera capa de las neuronas de la red, se va propagando a través de todas las capas superiores hasta generar una salida, se compara el resultado obtenido en las neuronas de salida con la salida que se desea obtener y se calcula un valor del error para cada neurona de salida. A continuación, estos errores se transmiten hacia atrás, partiendo de la capa de salida, hacia todas las neuronas de la capa intermedia que contribuyan directamente a la salida, recibiendo el porcentaje de error aproximado a la participación de la neurona intermedia en la salida original. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido un error que describa su aportación relativa al error total. Basándose en el valor del error recibido, se reajustan los pesos de conexión de cada neurona, de manera que en la siguiente vez que se presente el mismo patrón, la salida este más cercana a la deseada; es decir, el error disminuya. Varias investigaciones han demostrado que, durante el proceso de entrenamiento, la red BackPropagation tiende a desarrollar relaciones internas entre neuronas con el fin de organizar los datos de entrenamiento de clases. Esta tendencia se puede extrapolar, para llegar a la hipótesis consistente en que todas las unidades de la capa oculta de una red BackPropagation son asociadas de alguna manera a características específicas del patrón de entrada como consecuencia del entrenamiento. Lo que sea o no exactamente la asociación puede no resultar evidente para el observador humano, lo importante es que la red ha encontrado una representación interna que le permite generar las salidas deseadas cuando se le dan las entradas, en el proceso de entrenamiento. Esta misma representación interna se puede aplicar a entradas que la red no haya visto antes, y la red clasificara estas entradas según las características que compartan con los ejemplos de entrenamiento. Una característica importante de este algoritmo es la representación interna del conocimiento que es capaz de organizar en la capa intermedia de las células para conseguir cualquier correspondencia entre la entrada y la salida de la red, como se muestra en la figura 2.19. 39 2.10.3.1. Algoritmo de aprendizaje. El algoritmo de aprendizaje proporciona una forma de entrenar una red multicapa con alimentación hacia adelante. Comienza alimentando los valores de la entrada de acuerdo a las siguientes ecuaciones: Donde A es el grupo de neuronas en una capa, y B y la otra. Oj es la activación para la neurona J, y Wji son los pesos asignados a la conexión entre las neuronas j e i. En la ecuación anterior, se toman los valores
Compartir