Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
lO M oARcPSD| 3741347 lO M oARcPSD| 3741347 Reconocimiento de patrones, 6 de Junio del 2018. Universidad Tecnológica de Pereira. ISSN 0122-1701 1 Reconocimiento de Patrones. Autor: Yersain Castaño Arenas, Anderson Alfonso Patiño Ingeniería Eléctrica, Universidad Tecnológica de Pereira, Pereira, Colombia Correo-e: yercastano@utp.edu.co, analfonso@utp.edu.co Resumen—En el presente informe se vislumbran los conceptos básicos para clasificar una base de datos, el tratamiento de estas bases de datos se puede realizar siguiendo una secuencia de pasos que se explicará más adelante en el informe. Palabras clave — gaussiana ,clasificadores, vecinos, relevancia PCA, desviación estándar, clases, características, muestras, correlación, covarianza, clasificador, entrenamiento, validación, matriz de confusión, I. MOTIVACIÓN El campo del reconocimiento de patrones se refiere al descubrimiento automático de regularidades en los datos mediante el uso de algoritmos informáticos y con el uso de estas regularidades para tomar medidas tales como clasificar los datos en diferentes categorías; el desarrollo de un clasificador con la base de datos sobre el dolor de espalda baja se da con la intención de proveer una herramienta útil para el profesional en el área ya que de acuerdo a unos síntomas característicos que presentan las personas, que son cada muestra, se puede determinar si su estado es normal o anormal esto en referencia a la enfermedad. Actualmente nos encontramos ante una enorme cantidad de datos de diferente índole que requiere métodos automatizados para el análisis de datos y para ello existen un conjunto de métodos que pueden detectar automáticamente los patrones en los datos y luego utilizar estos patrones descubiertos para predecir el futuro de datos o realizar otro tipo de toma de decisiones. La presente es una disciplina que nos permite, a partir de unos datos adquisición de conocimientos, además los sistemas de reconocimiento de patrones suelen ser un método de aprendizaje, en este caso empezamos con un aprendizaje supervisado. En Astronomía se aplican herramientas potentes y novedosas, denominadas máquinas de aprendizaje, para la identificación y extracción de conocimiento. Estas herramientas son algoritmos dise~nados a partir de teor´ıas informáticas, modelos matemáticos y estadísticos, que permiten realizar reconocimiento de patrones y analizar información en conjuntos de datos dif´ıciles de procesar con técnicas usuales. En este campo se aplican algoritmos de aprendizaje supervisado en algunas áreas de estudio en astronomía, en particular, en el mapeo de galaxias, particularmente los estudios sobre la vía láctea se aplica algoritmos de vecindad, versiones modificadas del k-medias con el fin de identificar grupos de fuentes con características similares y definir grupos particulares de estudio y también la aplicación de las redes neuronales artificiales son muy implementadas para la reducción de dimensionalidad y la obtención de parámetros de interés.[1]. II. JUSTIFICACIÓN. El ingeniero de hoy en día necesita manejar los conocimientos básicos de los sistemas de información que en determinado momento tendrá que gestionar. La globalidad de los sistemas hace que ningún área del conocimiento sea ajena a su influencia. Los sistemas de base de datos son utilizados en los hospitales para catalogar medicamentos, y a los pacientes,para clasificar enfermedades que pueden presentarse en cierto tipo de pacientes a su vez descartar a aquellos pacientes que se encuentran sanos, como por ejemplo la base de datos que hemos elegido para esta clasificación de datos.[Fig.1] las bases de datos constituyen la estructura principal de un sistema por eso es muy importante saber clasificar y analizarlas ya que no solo tienen la capacidad de explicar la realidad, sino también de anticipar comportamientos. Es una ventaja para evitar o minimizar riesgos o para aprovechar oportunidades. En el área de la salud uno de los mayores problemas que presenta el diagnóstico médico, en general, es la subjetividad del especialista. Puede notarse, principalmente en tareas de reconocimiento de patrones, que la experiencia del profesional tiene una estrecha relación con su diagnóstico final. Esto se debe a que el resultado no depende de una solución sistematizada sino de la interpretación realizada sobre la señal del paciente. Como por ejemplo, en el caso del diagnóstico de alteraciones del equilibrio, es necesario analizar la señal correspondiente al movimiento ocular del paciente. En ella se presenta un patrón denominado nystagmus cuya frecuencia en diferentes pruebas, determina el tipo de lesión. La forma de este patrón tiene una estrecha relación con el tipo de señal y es diferente en cada paciente. La solución del problema puede dividirse en dos partes: la segmentación de los diferentes elementos y su posterior clasificación. Como solución del primer punto se ha trabajado sobre diferentes técnicas de clustering de manera de lograr una segmentación adecuada. La característica utilizada ha sido el color con la intención de ganar generalidad en la solución propuesta. En esta dirección se han logrado buenos resultados mediante la definición de un nuevo algoritmo de clustering basado en una redefinición de la imagen de entrada. [2] Fecha de Recepción: 7 de Mayo del 2018 Fecha de Aceptación: mailto:yercastano@utp.edu.co https://mail.google.com/mail/u/1/#inbox lO M oARcPSD| 3741347 2 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. III. PROBLEMAS O DIFICULTADES. En el momento en que empezamos a buscar nuestra base de datos, encontrar una base de datos adecuada, para nuestro trabajo fue un poco complejo debido a que había una gran cantidad de bases de datos muy extensas lo cual hacía un poco más complejo el análisis de las mismas, además de esto muchas de estas bases de datos no estaban codificadas, muchas estaban en texto esto nos hizo un poco mas dificil la busqueda, sin embargo logramos encontrar una base de datos de dimensión [310 x12] esto quiere decir que contiene 310 muestras y 12 características y dos clases (los que están enfermos y los que no lo están),además contiene más cantidad de muestras de una clase que de otra y la clase con más muestras es la de personas enfermas. IV. ESTADO DEL ARTE El reconocimiento facial es un sistema para la identificación de personas por medio de imágenes, las cuales pueden ser tomadas anteriormente o adquiridas en un sistema de tiempo real; en el proceso de adquisición de la imagen desde el objeto hasta su ingreso en el procesador, se logra a través de un dispositivo que debe ser sensible a los cambios de la luz, el cual es una cámara compuesta por elementos fotosensibles que transforman los fotones de la luz en una corriente eléctrica y en la adquisición se obtienen 2 parámetros que son la resolución y el formato. Al tener las zonas u objetos de interés de la imagen, se procede a extraer las características mediante técnicas de extracción de información específicas para el reconocimiento facial, para distinguir entre los rostros de diferentes personas. Entre las técnicas más usadas se encuentra el Principal Component Analysis (PCA) el cual es un método que convierte una cantidad de variables probablemente recíprocas en una pequeña de cantidad de variables no recíprocas llamadas componentes principales, es decir, es un proceso de reducción dimensional que deja descubrir los vectores que mejor simbolizan la repartición de un grupo de imágenes; PCA es una técnica que requiere un entrenamiento previo del sistema y es muy importante el número de imágenes utilizadas, aun siendo estas ligeramente diferentesa las que se usan para el reconocimiento o con mucha variedad de individuos, de esto depende mucho su eficiencia.[3]. V. ANÁLISIS PREVIOS La base de datos contiene información basada en tipos de problema que puedan causar dolor lumbar y / o dolor que irradia o se refiere a otras partes del cuerpo por ejemplo: ● Las grandes raíces nerviosas en la parte baja de la espalda que van a las piernas pueden irritarse. ● Los nervios más pequeños que irrigan la zona lumbar pueden estar irritados. ● Los músculos pares de la parte baja de la espalda (erector espinal) pueden estar tensos. ● Los huesos, ligamentos o articulaciones pueden estar dañados. ● Un disco intervertebral puede estar degenerando. Una irritación o problema con cualquiera de estas estructuras puede causar dolor lumbar y / o dolor que irradia o se refiere a otras partes del cuerpo. Muchos problemas de la parte baja de la espalda también causan espasmos musculares en la espalda, que no parecen mucho pero pueden causar dolor severo e incapacidad. Este conjunto de datos esta puede identificar a una persona que es anormal o normal utilizando los datos de la columna física recopilada. Fig.1. Fig 1. base de datos analizada. VI. REPRESENTACIÓN Una buena representación de patrones debería cumplir, al menos, los siguientes requisitos: ● Tasa de compresión de datos alta. ● Buena capacidad discriminatoria. ● Invariancia frente a transformaciones de los datos. ● Robustez frente al ruido. En la mayoría de los sistemas de REP(reconocimiento de patrones), los esquemas de representación son desarrollados por los diseñadores usando su conocimiento y experiencia en el dominio del problema. Una vez que el sistema de reconocimiento está desarrollado, estos esquemas son inamovibles. En muchas aplicaciones con redes neuronales se sigue el mismo procedimiento de forma que la red neuronal lleva a cabo, en esencia, el proceso de clasificación. Sin embargo, las redes neuronales tienen la propiedad de construir una representación interna de los patrones (extracción de características), aunque difícilmente visible. Por esta razón, algunos investigadores alimentan a la red con los datos en bruto (o con un preproceso mínimo, como normalización) y esperan que la propia red extraiga (aprenda) una representación a partir de ellos. [4] lO M oARcPSD| 3741347 3 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. Considerando la base de datos seleccionada que trata sobre dolores de espalda bajos se presenta los siguientes resultados: Fig 2. Análisis PCA La imagen anterior muestra la proyección de la base de datos la cual fue normalizada y representada mediante PCA la cual se encargó de reducir la dimensionalidad de la base de datos. Fig 3.Matriz de Correlación. En la Fig 3 se ilustra qué tan relacionadas o no están las características de la matriz X entre si, siendo el factor de relación 1 para la diagonal principal y entre 0-1 en el resto de la matriz. Fig 4.Matriz de distancias. La matriz de distancias como su nombre lo indica muestra que tan cerca o alejado se encuentran las características entre sí; en la Fig 4. se puede observar que la diagonal principal la distancia es 0 ya que es la distancia de una componente con respeto a sí misma, como también se puede notar que hay unos que se encuentran más alejados y los cuales los representa la línea amarilla. Fig 5. Atributos más representativos. La Fig 5 muestra los atributos más representativos en este caso el atributo con mayor relevancia es el de la columna dos el cual a incidencia pélvica. lO M oARcPSD| 3741347 4 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. Númer o Características La Fig6 representan el porcentaje de clasificación por el número de características y también es importante resaltar una holgura 2 inclinación pélvica 4 pendiente sacra 6 grado de espondilolistesis 8 inclinación directa 10 inclinación cervical 12 pendiente escoliosis Tab.1 características de la base de datos. VII. APRENDIZAJE que hay en dicho porcentaje de acierto en la clasificación teniendo cierto porcentaje de holgura en el acierto. En las cuales se representa la clasificación por PCA y por relieff ambas son un método de representación de características basadas en la selección de estas de acuerdo con su relevancia. También en la misma grafica se muestran el resultado del acierto en el entrenamiento de cada clasificador para cada representación d características. Cuyos resultados se ilustran en las tablas siguientes con limite en su número de características y sin límite en su número de características. SELECCION CLASIFICADOR RENDIMIENTO CARACTER ISTICA KNN 75.67±5.464 9 Fig7. Modelos de clasificación con limitación de características. Los sistemas de clasificación supervisados son aquellos en los que, a partir de un conjunto de ejemplos clasificados (conjunto de entrenamiento), intentamos asignar una clasificación a un segundo conjunto de ejemplos. En la presente sección se presentan los resultados del proceso de aprendizaje hecho con la base de datos anteriormente mencionada haciendo uso de clasificador lineal, cuadrático, k-numbers neighbour (números vecinos) y validación cruzada. VIII. RESULTADOS ● Clasificador lineal, cuadrático y lineal. Fig 6. Acierto con clasificador lineal, cuadrático y knn (selección con PCA y relieff). SELECCION CLASIFICADOR RENDIMIENTO CARACTER ISTICA KNN 76.13±4.9092 12 Fig8. Modelos de clasificación sin limitación de características. La matriz de confusión que permite la visualizar el desempeño del algoritmo implementado para el aprendizaje supervisado; cada columna de la matriz representa el número de predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está confundiendo dos clases. Las siguientes son las matrices de confusión para los clasificadores estudiados y teniendo en cuenta si se usa o no el menor número de características posibles. 11 ángulo sacro 9 pendiente torácica 7 pendiente pélvica 5 radios de la pelvis 3 ángulo de lordosis lumbar 1 incidencia pélvica PCA LINEAL 78.49±5.9761 9 PCA QUADRATIC 82.25± 4.1258 9 PCA KNN 76.02± 3.3258 9 RELIEF LINEAL 80± 4.5676 9 RELIEF QUADRATIC 80.53± 3.7745 9 RELIEF PCA LINEAL 80.10± 4.3383 12 PCA QUADRATIC 80.75± 3.5282 12 PCA KNN 75.59±4.3323 12 RELIEF LINEAL 79.89±3.7949 12 RELIEF QUADRATIC 80.75± 3.5282 12 RELIEF lO M oARcPSD| 3741347 5 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. • Con el menor número de características posibles. Fig 9. Matriz de confusión clasificador lineal con PCA. Fig 10. Matriz de confusión clasificador cuadrático con PCA. Fig 11. Matriz de confusión clasificador knn con PCA. Fig 12. Matriz de confusión clasificador lineal con RELIEFF. Fig 13. Matriz de confusión clasificador cuadrático con RELIEFF. Fig 12. Matriz de confusión clasificador knn con RELIEFF. lO M oARcPSD| 3741347 6 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. • Sin límite en el número de características. Fig 13. Matriz de confusión clasificador lineal con PCA. Fig 14. Matriz de confusión clasificador cuadrático con PCA. Fig 15. Matriz de confusión clasificador knn con PCA. Fig 14. Matriz de confusión clasificador lineal con RELIEFF. Fig 17. Matriz de confusiónclasificador cuadrático con RELIEFF. Fig 18. Matriz de confusión clasificador knn con RELIEFF. lO M oARcPSD| 3741347 7 Pereira. Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de La sensibilidad es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad. Es por ello que a continuación se presentan la respectiva sensibilidad para cada caso como los expuestos en las matrices de confusión. Fig 19. Sensibilidad PCA (lineal). Fig 20. Sensibilidad PCA (cuadrático). Fig 20. Sensibilidad PCA (knn). Fig 21. Sensibilidad RELIEFF (lineal). Fig 22. Sensibilidad RELIEFF (cuadrático). lO M oARcPSD| 3741347 8 Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. XII. REFERENCIAS [1]. Ana María Gómez Lamus. Algoritmos de aprendizaje supervisado en Astronomía. Departamento de ciencias básicas. Institución Universitaria Los Libertadores. Bogotá. Colombia. 2014. [2] Laura Lanzarini, A. De Giusti. Reconocimiento de patrones en imágenes médicas utilizando redes neuronales. Laboratorio de Investigación y Desarrollo en Informática Departamento de Informática· Facultad de Ciencias Exactas Universidad Nacional de La Plata. La Plata. Argentina.2000. Fig 23. Sensibilidad RELIEFF (knn). IX. DISCUSIONES. De acuerdo a los resultados previamente expuestos en el [3] Sebastián Orozco Alzate, Cristian Bertino Salazar. Diseño de un Sistema Biométrico de Reconocimiento Facial en Tiempo Real. Tesis de pregrado. Facultad de Tecnologías. Universidad Tecnológica de Pereira. Pereira. Colombia. presente informe se puede decir que la matriz de confusión del [4] Dr. Luis Alonso Romero, Dr. Teodoro Calonge clasificador cuadrático tanto para PCA como para Relieff Cano. Redes Neuronales y Reconocimiento de Patrones. presentan cierta semejanza en cuanto a que amabas tienden a Dpto de Informática. Universidad de Valladolid. tener un porcentaje de confusión de clases bajo con respecto a Universidad de Salamanca. España. los demás clasificadores, además, se pretende seleccionar el clasificador bajo el criterio de menor número de características, menor desviación estándar y un porcentaje de acierto alto aproximadamente a lo ideal (100%) y por último también se tuvo en cuenta que existiera una alta sensibilidad con respecto a amabas clases; bajo estas criterios de selección se optó por el clasificador cuadrático+relieff como mejor clasificador por su mayor rendimiento con menos cantidad de características, menor desviación de datos y menor sesgo a la hora de clasificar. X. ¿QUE SE LES OCURRE MEJORAR? Uno de los mayores problemas que presenta el diagnóstico médico, en general, es la subjetividad del especialista. Puede notarse, principalmente en tareas de reconocimiento de patrones, que la experiencia del profesional tiene una estrecha relación con su diagnóstico final. Esto se debe a que el resultado no depende de una solución sistematizada sino de la interpretación realizada sobre la señal del paciente. XI. ¿QUE FALTA? En cualquier caso, una representación adecuada de los datos facilita el proceso de toma de decisión y mejora las tasas de generalización. Sin embargo, el diseño de una buena representación exige un conocimiento profundo de la naturaleza del problema, lo cual no siempre es posible. La forma de aprender un esquema de representación partiendo de un conjunto de datos es todavía un problema abierto. lO M oARcPSD| 3741347 10
Compartir