Logo Studenta

informe-proyecto-nota-46

¡Estudia con miles de materiales!

Vista previa del material en texto

lO M oARcPSD| 3741347 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
lO M oARcPSD| 3741347 
 
 
 
 
 
Reconocimiento de patrones, 6 de Junio del 2018. Universidad Tecnológica de Pereira. ISSN 0122-1701 1 
 
Reconocimiento de Patrones. 
Autor: Yersain Castaño Arenas, Anderson Alfonso Patiño 
Ingeniería Eléctrica, Universidad Tecnológica de Pereira, Pereira, Colombia 
Correo-e: yercastano@utp.edu.co, analfonso@utp.edu.co 
 
 
Resumen—En el presente informe se vislumbran los conceptos 
básicos para clasificar una base de datos, el tratamiento de estas 
bases de datos se puede realizar siguiendo una secuencia de pasos 
que se explicará más adelante en el informe. 
 
 
Palabras clave — gaussiana ,clasificadores, vecinos, relevancia 
PCA, desviación estándar, clases, características, muestras, 
correlación, covarianza, clasificador, entrenamiento, validación, 
matriz de confusión, 
 
 
I. MOTIVACIÓN 
 
El campo del reconocimiento de patrones se refiere al 
descubrimiento automático de regularidades en los datos 
mediante el uso de algoritmos informáticos y con el uso de 
estas regularidades para tomar medidas tales como clasificar 
los datos en diferentes categorías; el desarrollo de un 
clasificador con la base de datos sobre el dolor de espalda baja 
se da con la intención de proveer una herramienta útil para el 
profesional en el área ya que de acuerdo a unos síntomas 
característicos que presentan las personas, que son cada 
muestra, se puede determinar si su estado es normal o anormal 
esto en referencia a la enfermedad. Actualmente nos 
encontramos ante una enorme cantidad de datos de diferente 
índole que requiere métodos automatizados para el análisis de 
datos y para ello existen un conjunto de métodos que pueden 
detectar automáticamente los patrones en los datos y luego 
utilizar estos patrones descubiertos para predecir el futuro de 
datos o realizar otro tipo de toma de decisiones. 
La presente es una disciplina que nos permite, a partir de unos 
datos adquisición de conocimientos, además los sistemas de 
reconocimiento de patrones suelen ser un método de 
aprendizaje, en este caso empezamos con un aprendizaje 
supervisado. 
En Astronomía se aplican herramientas potentes y novedosas, 
denominadas máquinas de aprendizaje, para la identificación y 
extracción de conocimiento. Estas herramientas son 
algoritmos dise~nados a partir de teor´ıas informáticas, 
modelos matemáticos y estadísticos, que permiten realizar 
reconocimiento de patrones y analizar información en 
conjuntos de datos dif´ıciles de procesar con técnicas usuales. 
En este campo se aplican algoritmos de aprendizaje 
supervisado en algunas áreas de estudio en astronomía, en 
particular, en el mapeo de galaxias, particularmente los 
estudios sobre la vía láctea se aplica algoritmos de vecindad, 
versiones modificadas del k-medias con el fin de identificar 
 
grupos de fuentes con características similares y definir 
grupos particulares de estudio y también la aplicación de las 
redes neuronales artificiales son muy implementadas para la 
reducción de dimensionalidad y la obtención de parámetros de 
interés.[1]. 
II. JUSTIFICACIÓN. 
 
El ingeniero de hoy en día necesita manejar los conocimientos 
básicos de los sistemas de información que en determinado 
momento tendrá que gestionar. La globalidad de los sistemas 
hace que ningún área del conocimiento sea ajena a su 
influencia. Los sistemas de base de datos son utilizados en los 
hospitales para catalogar medicamentos, y a los pacientes,para 
clasificar enfermedades que pueden presentarse en cierto tipo 
de pacientes a su vez descartar a aquellos pacientes que se 
encuentran sanos, como por ejemplo la base de datos que 
hemos elegido para esta clasificación de datos.[Fig.1] 
las bases de datos constituyen la estructura principal de un 
sistema por eso es muy importante saber clasificar y 
analizarlas ya que no solo tienen la capacidad de explicar la 
realidad, sino también de anticipar comportamientos. Es una 
ventaja para evitar o minimizar riesgos o para aprovechar 
oportunidades. 
En el área de la salud uno de los mayores problemas que 
presenta el diagnóstico médico, en general, es la subjetividad 
del especialista. Puede notarse, principalmente en tareas de 
reconocimiento de patrones, que la experiencia del profesional 
tiene una estrecha relación con su diagnóstico final. Esto se 
debe a que el resultado no depende de una solución 
sistematizada sino de la interpretación realizada sobre la señal 
del paciente. Como por ejemplo, en el caso del diagnóstico de 
alteraciones del equilibrio, es necesario analizar la señal 
correspondiente al movimiento ocular del paciente. En ella se 
presenta un patrón denominado nystagmus cuya frecuencia en 
diferentes pruebas, determina el tipo de lesión. La forma de 
este patrón tiene una estrecha relación con el tipo de señal y es 
diferente en cada paciente. La solución del problema puede 
dividirse en dos partes: la segmentación de los diferentes 
elementos y su posterior clasificación. Como solución del 
primer punto se ha trabajado sobre diferentes técnicas de 
clustering de manera de lograr una segmentación adecuada. La 
característica utilizada ha sido el color con la intención de 
ganar generalidad en la solución propuesta. En esta dirección 
se han logrado buenos resultados mediante la definición de un 
nuevo algoritmo de clustering basado en una redefinición de la 
imagen de entrada. [2] 
 
 
Fecha de Recepción: 7 de Mayo del 2018 
Fecha de Aceptación: 
mailto:yercastano@utp.edu.co
https://mail.google.com/mail/u/1/#inbox
 
lO M oARcPSD| 3741347 
2 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
 
 
III. PROBLEMAS O DIFICULTADES. 
 
En el momento en que empezamos a buscar nuestra base de 
datos, encontrar una base de datos adecuada, para nuestro 
trabajo fue un poco complejo debido a que había una gran 
cantidad de bases de datos muy extensas lo cual hacía un poco 
más complejo el análisis de las mismas, además de esto 
muchas de estas bases de datos no estaban codificadas, 
muchas estaban en texto esto nos hizo un poco mas dificil la 
busqueda, sin embargo logramos encontrar una base de datos 
de dimensión [310 x12] esto quiere decir que contiene 310 
muestras y 12 características y dos clases (los que están 
enfermos y los que no lo están),además contiene más cantidad 
de muestras de una clase que de otra y la clase con más 
muestras es la de personas enfermas. 
 
IV. ESTADO DEL ARTE 
El reconocimiento facial es un sistema para la identificación 
de personas por medio de imágenes, las cuales pueden ser 
tomadas anteriormente o adquiridas en un sistema de tiempo 
real; en el proceso de adquisición de la imagen desde el objeto 
hasta su ingreso en el procesador, se logra a través de un 
dispositivo que debe ser sensible a los cambios de la luz, el 
cual es una cámara compuesta por elementos fotosensibles 
que transforman los fotones de la luz en una corriente eléctrica 
y en la adquisición se obtienen 2 parámetros que son la 
resolución y el formato. Al tener las zonas u objetos de interés 
de la imagen, se procede a extraer las características mediante 
técnicas de extracción de información específicas para el 
reconocimiento facial, para distinguir entre los rostros de 
diferentes personas. Entre las técnicas más usadas se 
encuentra el Principal Component Analysis (PCA) el cual es 
un método que convierte una cantidad de variables 
probablemente recíprocas en una pequeña de cantidad de 
variables no recíprocas llamadas componentes principales, es 
decir, es un proceso de reducción dimensional que deja 
descubrir los vectores que mejor simbolizan la repartición de 
un grupo de imágenes; PCA es una técnica que requiere un 
entrenamiento previo del sistema y es muy importante el 
número de imágenes utilizadas, aun siendo estas ligeramente 
diferentesa las que se usan para el reconocimiento o con 
mucha variedad de individuos, de esto depende mucho su 
eficiencia.[3]. 
 
V. ANÁLISIS PREVIOS 
 
La base de datos contiene información basada en tipos de 
problema que puedan causar dolor lumbar y / o dolor que 
irradia o se refiere a otras partes del cuerpo por ejemplo: 
● Las grandes raíces nerviosas en la parte baja de la 
espalda que van a las piernas pueden irritarse. 
● Los nervios más pequeños que irrigan la zona lumbar 
pueden estar irritados. 
● Los músculos pares de la parte baja de la espalda 
(erector espinal) pueden estar tensos. 
● Los huesos, ligamentos o articulaciones pueden estar 
dañados. 
● Un disco intervertebral puede estar degenerando. 
Una irritación o problema con cualquiera de estas estructuras 
puede causar dolor lumbar y / o dolor que irradia o se refiere a 
otras partes del cuerpo. Muchos problemas de la parte baja de 
la espalda también causan espasmos musculares en la espalda, 
que no parecen mucho pero pueden causar dolor severo e 
incapacidad. 
Este conjunto de datos esta puede identificar a una persona 
que es anormal o normal utilizando los datos de la columna 
física recopilada. Fig.1. 
 
 
Fig 1. base de datos analizada. 
 
VI. REPRESENTACIÓN 
Una buena representación de patrones debería cumplir, al 
menos, los siguientes requisitos: 
● Tasa de compresión de datos alta. 
● Buena capacidad discriminatoria. 
● Invariancia frente a transformaciones de los datos. 
● Robustez frente al ruido. 
En la mayoría de los sistemas de REP(reconocimiento de 
patrones), los esquemas de representación son desarrollados 
por los diseñadores usando su conocimiento y experiencia en 
el dominio del problema. Una vez que el sistema de 
reconocimiento está desarrollado, estos esquemas son 
inamovibles. En muchas aplicaciones con redes neuronales se 
sigue el mismo procedimiento de forma que la red neuronal 
lleva a cabo, en esencia, el proceso de clasificación. Sin 
embargo, las redes neuronales tienen la propiedad de construir 
una representación interna de los patrones (extracción de 
características), aunque difícilmente visible. Por esta razón, 
algunos investigadores alimentan a la red con los datos en 
bruto (o con un preproceso mínimo, como normalización) y 
esperan que la propia red extraiga (aprenda) una 
representación a partir de ellos. [4] 
 
lO M oARcPSD| 3741347 
3 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
 
 
Considerando la base de datos seleccionada que trata sobre 
dolores de espalda bajos se presenta los siguientes resultados: 
 
 
 
Fig 2. Análisis PCA 
 
La imagen anterior muestra la proyección de la base de datos 
la cual fue normalizada y representada mediante PCA la cual 
se encargó de reducir la dimensionalidad de la base de datos. 
 
 
 
Fig 3.Matriz de Correlación. 
 
En la Fig 3 se ilustra qué tan relacionadas o no están las 
características de la matriz X entre si, siendo el factor de 
relación 1 para la diagonal principal y entre 0-1 en el resto de 
la matriz. 
 
 
Fig 4.Matriz de distancias. 
 
La matriz de distancias como su nombre lo indica muestra que 
tan cerca o alejado se encuentran las características entre sí; en 
la Fig 4. se puede observar que la diagonal principal la 
distancia es 0 ya que es la distancia de una componente con 
respeto a sí misma, como también se puede notar que hay 
unos que se encuentran más alejados y los cuales los 
representa la línea amarilla. 
 
 
Fig 5. Atributos más representativos. 
 
La Fig 5 muestra los atributos más representativos en este 
caso el atributo con mayor relevancia es el de la columna dos 
el cual a incidencia pélvica. 
 
lO M oARcPSD| 3741347 
4 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
 
 
Númer 
o 
Características 
 
 
 
La Fig6 representan el porcentaje de clasificación por el número 
de características y también es importante resaltar una holgura 
2 inclinación pélvica 
 
 
4 pendiente sacra 
 
 
6 grado de espondilolistesis 
 
 
8 inclinación directa 
 
 
10 inclinación cervical 
 
 
12 pendiente escoliosis 
 
Tab.1 características de la base de datos. 
 
VII. APRENDIZAJE 
que hay en dicho porcentaje de acierto en la clasificación 
teniendo cierto porcentaje de holgura en el acierto. En las cuales 
se representa la clasificación por PCA y por relieff ambas son un 
método de representación de características basadas en la 
selección de estas de acuerdo con su relevancia. También en la 
misma grafica se muestran el resultado del acierto en el 
entrenamiento de cada clasificador para cada representación d 
características. Cuyos resultados se ilustran en las tablas 
siguientes con limite en su número de características y sin límite 
en su número de características. 
 
 
SELECCION CLASIFICADOR RENDIMIENTO CARACTER 
ISTICA 
 
 
 
 
 
 
 
KNN 75.67±5.464 9 
Fig7. Modelos de clasificación con limitación de 
características. 
 
Los sistemas de clasificación supervisados son aquellos en los 
que, a partir de un conjunto de ejemplos clasificados (conjunto 
de entrenamiento), intentamos asignar una clasificación a un 
segundo conjunto de ejemplos. En la presente sección se 
presentan los resultados del proceso de aprendizaje hecho con 
la base de datos anteriormente mencionada haciendo uso de 
clasificador lineal, cuadrático, k-numbers neighbour (números 
vecinos) y validación cruzada. 
 
VIII. RESULTADOS 
 
● Clasificador lineal, cuadrático y lineal. 
 
 
 
Fig 6. Acierto con clasificador lineal, cuadrático y 
knn (selección con PCA y relieff). 
SELECCION CLASIFICADOR RENDIMIENTO CARACTER 
ISTICA 
 
 
 
 
 
 
 
KNN 76.13±4.9092 12 
Fig8. Modelos de clasificación sin limitación de 
características. 
 
La matriz de confusión que permite la visualizar el desempeño 
del algoritmo implementado para el aprendizaje supervisado; 
cada columna de la matriz representa el número de predicciones 
de cada clase, mientras que cada fila representa a las instancias 
en la clase real. Uno de los beneficios de las matrices de 
confusión es que facilitan ver si el sistema está confundiendo 
dos clases. Las siguientes son las matrices de confusión para los 
clasificadores estudiados y teniendo en cuenta si se usa o no el 
menor número de características posibles. 
11 ángulo sacro 
9 pendiente torácica 
7 pendiente pélvica 
5 radios de la pelvis 
3 ángulo de lordosis lumbar 
1 incidencia pélvica 
PCA LINEAL 78.49±5.9761 9 
PCA 
QUADRATIC 82.25± 4.1258 9 
PCA 
KNN 76.02± 3.3258 9 
RELIEF 
LINEAL 80± 4.5676 9 
RELIEF 
QUADRATIC 80.53± 3.7745 9 
RELIEF 
 
 
PCA LINEAL 80.10± 4.3383 12 
PCA 
QUADRATIC 80.75± 3.5282 12 
PCA 
KNN 75.59±4.3323 12 
RELIEF 
LINEAL 79.89±3.7949 12 
RELIEF 
QUADRATIC 80.75± 3.5282 12 
RELIEF 
 
 
 
lO M oARcPSD| 3741347 
5 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
 
 
• Con el menor número de características posibles. 
 
 
Fig 9. Matriz de confusión clasificador lineal con 
PCA. 
 
 
Fig 10. Matriz de confusión clasificador cuadrático 
con PCA. 
 
 
Fig 11. Matriz de confusión clasificador knn con 
PCA. 
Fig 12. Matriz de confusión clasificador lineal con 
RELIEFF. 
 
 
Fig 13. Matriz de confusión clasificador cuadrático 
con RELIEFF. 
 
 
Fig 12. Matriz de confusión clasificador knn con 
RELIEFF. 
 
lO M oARcPSD| 3741347 
6 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
 
 
• Sin límite en el número de características. 
 
 
 
Fig 13. Matriz de confusión clasificador lineal con 
PCA. 
 
 
 
Fig 14. Matriz de confusión clasificador cuadrático 
con PCA. 
 
 
Fig 15. Matriz de confusión clasificador knn con 
PCA. 
Fig 14. Matriz de confusión clasificador lineal con 
RELIEFF. 
 
 
Fig 17. Matriz de confusiónclasificador cuadrático 
con RELIEFF. 
 
 
 
 
Fig 18. Matriz de confusión clasificador knn con 
RELIEFF. 
 
lO M oARcPSD| 3741347 
7 
 
 
 
Pereira. Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de 
 
La sensibilidad es la probabilidad de clasificar correctamente a 
un individuo enfermo, es decir, la probabilidad de que para un 
sujeto enfermo se obtenga en la prueba un resultado positivo. La 
sensibilidad es, por lo tanto, la capacidad del test para detectar la 
enfermedad. Es por ello que a continuación se presentan la 
respectiva sensibilidad para cada caso como los expuestos en las 
matrices de confusión. 
 
 
Fig 19. Sensibilidad PCA (lineal). 
 
 
 
Fig 20. Sensibilidad PCA (cuadrático). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Fig 20. Sensibilidad PCA (knn). 
 
 
 
 
Fig 21. Sensibilidad RELIEFF (lineal). 
 
 
 
Fig 22. Sensibilidad RELIEFF (cuadrático). 
 
lO M oARcPSD| 3741347 
8 
 
 
 
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira. 
 
 
XII. REFERENCIAS 
 
[1]. Ana María Gómez Lamus. Algoritmos de aprendizaje 
supervisado en Astronomía. Departamento de ciencias 
básicas. Institución Universitaria Los Libertadores. Bogotá. 
Colombia. 2014. 
 
[2] Laura Lanzarini, A. De Giusti. Reconocimiento de 
patrones en imágenes médicas utilizando redes neuronales. 
Laboratorio de Investigación y Desarrollo en Informática 
Departamento de Informática· Facultad de Ciencias 
Exactas Universidad Nacional de La Plata. La Plata. 
Argentina.2000. 
 
Fig 23. Sensibilidad RELIEFF (knn). 
 
 
IX. DISCUSIONES. 
 
De acuerdo a los resultados previamente expuestos en el 
[3] Sebastián Orozco Alzate, Cristian Bertino Salazar. 
Diseño de un Sistema Biométrico de Reconocimiento 
Facial en Tiempo Real. Tesis de pregrado. Facultad de 
Tecnologías. Universidad Tecnológica de Pereira. Pereira. 
Colombia. 
presente informe se puede decir que la matriz de confusión del [4] Dr. Luis Alonso Romero, Dr. Teodoro Calonge 
clasificador cuadrático tanto para PCA como para Relieff Cano. Redes Neuronales y Reconocimiento de Patrones. 
presentan cierta semejanza en cuanto a que amabas tienden a Dpto de Informática. Universidad de Valladolid. 
tener un porcentaje de confusión de clases bajo con respecto a Universidad de Salamanca. España. 
los demás clasificadores, además, se pretende seleccionar el 
clasificador bajo el criterio de menor número de características, 
menor desviación estándar y un porcentaje de acierto alto 
aproximadamente a lo ideal (100%) y por último también se 
tuvo en cuenta que existiera una alta sensibilidad con respecto a 
amabas clases; bajo estas criterios de selección se optó por el 
clasificador cuadrático+relieff como mejor clasificador por su 
mayor rendimiento con menos cantidad de características, 
menor desviación de datos y menor sesgo a la hora de clasificar. 
 
 
X. ¿QUE SE LES OCURRE MEJORAR? 
 
 
Uno de los mayores problemas que presenta el diagnóstico 
médico, en general, es la subjetividad del especialista. Puede 
notarse, principalmente en tareas de reconocimiento de patrones, 
que la experiencia del profesional tiene una estrecha relación 
con su diagnóstico final. Esto se debe a que el resultado no 
depende de una solución sistematizada sino de la interpretación 
realizada sobre la señal del paciente. 
 
XI. ¿QUE FALTA? 
 
En cualquier caso, una representación adecuada de los datos 
facilita el proceso de toma de decisión y mejora las tasas de 
generalización. Sin embargo, el diseño de una buena 
representación exige un conocimiento profundo de la naturaleza 
del problema, lo cual no siempre es posible. La forma de 
aprender un esquema de representación partiendo de un 
conjunto de datos es todavía un problema abierto. 
 
lO M oARcPSD| 3741347 
10

Otros materiales