informe-proyecto-nota-46

•

UNIP

Yersain Castaño Arenas

20/7/2023

¡Estudia con miles de materiales!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Sistemas Eléctricos de Potencia

1800 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

lO M oARcPSD| 3741347

Reconocimiento de patrones, 6 de Junio del 2018. Universidad Tecnológica de Pereira. ISSN 0122-1701 1

Reconocimiento de Patrones.
Autor: Yersain Castaño Arenas, Anderson Alfonso Patiño
Ingeniería Eléctrica, Universidad Tecnológica de Pereira, Pereira, Colombia
Correo-e: yercastano@utp.edu.co, analfonso@utp.edu.co

Resumen—En el presente informe se vislumbran los conceptos
básicos para clasificar una base de datos, el tratamiento de estas
bases de datos se puede realizar siguiendo una secuencia de pasos
que se explicará más adelante en el informe.

Palabras clave — gaussiana ,clasificadores, vecinos, relevancia
PCA, desviación estándar, clases, características, muestras,
correlación, covarianza, clasificador, entrenamiento, validación,
matriz de confusión,

I. MOTIVACIÓN

El campo del reconocimiento de patrones se refiere al
descubrimiento automático de regularidades en los datos
mediante el uso de algoritmos informáticos y con el uso de
estas regularidades para tomar medidas tales como clasificar
los datos en diferentes categorías; el desarrollo de un
clasificador con la base de datos sobre el dolor de espalda baja
se da con la intención de proveer una herramienta útil para el
profesional en el área ya que de acuerdo a unos síntomas
característicos que presentan las personas, que son cada
muestra, se puede determinar si su estado es normal o anormal
esto en referencia a la enfermedad. Actualmente nos
encontramos ante una enorme cantidad de datos de diferente
índole que requiere métodos automatizados para el análisis de
datos y para ello existen un conjunto de métodos que pueden
detectar automáticamente los patrones en los datos y luego
utilizar estos patrones descubiertos para predecir el futuro de
datos o realizar otro tipo de toma de decisiones.
La presente es una disciplina que nos permite, a partir de unos
datos adquisición de conocimientos, además los sistemas de
reconocimiento de patrones suelen ser un método de
aprendizaje, en este caso empezamos con un aprendizaje
supervisado.
En Astronomía se aplican herramientas potentes y novedosas,
denominadas máquinas de aprendizaje, para la identificación y
extracción de conocimiento. Estas herramientas son
algoritmos dise~nados a partir de teor´ıas informáticas,
modelos matemáticos y estadísticos, que permiten realizar
reconocimiento de patrones y analizar información en
conjuntos de datos dif´ıciles de procesar con técnicas usuales.
En este campo se aplican algoritmos de aprendizaje
supervisado en algunas áreas de estudio en astronomía, en
particular, en el mapeo de galaxias, particularmente los
estudios sobre la vía láctea se aplica algoritmos de vecindad,
versiones modificadas del k-medias con el fin de identificar

grupos de fuentes con características similares y definir
grupos particulares de estudio y también la aplicación de las
redes neuronales artificiales son muy implementadas para la
reducción de dimensionalidad y la obtención de parámetros de
interés.[1].
II. JUSTIFICACIÓN.

El ingeniero de hoy en día necesita manejar los conocimientos
básicos de los sistemas de información que en determinado
momento tendrá que gestionar. La globalidad de los sistemas
hace que ningún área del conocimiento sea ajena a su
influencia. Los sistemas de base de datos son utilizados en los
hospitales para catalogar medicamentos, y a los pacientes,para
clasificar enfermedades que pueden presentarse en cierto tipo
de pacientes a su vez descartar a aquellos pacientes que se
encuentran sanos, como por ejemplo la base de datos que
hemos elegido para esta clasificación de datos.[Fig.1]
las bases de datos constituyen la estructura principal de un
sistema por eso es muy importante saber clasificar y
analizarlas ya que no solo tienen la capacidad de explicar la
realidad, sino también de anticipar comportamientos. Es una
ventaja para evitar o minimizar riesgos o para aprovechar
oportunidades.
En el área de la salud uno de los mayores problemas que
presenta el diagnóstico médico, en general, es la subjetividad
del especialista. Puede notarse, principalmente en tareas de
reconocimiento de patrones, que la experiencia del profesional
tiene una estrecha relación con su diagnóstico final. Esto se
debe a que el resultado no depende de una solución
sistematizada sino de la interpretación realizada sobre la señal
del paciente. Como por ejemplo, en el caso del diagnóstico de
alteraciones del equilibrio, es necesario analizar la señal
correspondiente al movimiento ocular del paciente. En ella se
presenta un patrón denominado nystagmus cuya frecuencia en
diferentes pruebas, determina el tipo de lesión. La forma de
este patrón tiene una estrecha relación con el tipo de señal y es
diferente en cada paciente. La solución del problema puede
dividirse en dos partes: la segmentación de los diferentes
elementos y su posterior clasificación. Como solución del
primer punto se ha trabajado sobre diferentes técnicas de
clustering de manera de lograr una segmentación adecuada. La
característica utilizada ha sido el color con la intención de
ganar generalidad en la solución propuesta. En esta dirección
se han logrado buenos resultados mediante la definición de un
nuevo algoritmo de clustering basado en una redefinición de la
imagen de entrada. [2]

Fecha de Recepción: 7 de Mayo del 2018
Fecha de Aceptación:
mailto:yercastano@utp.edu.co
https://mail.google.com/mail/u/1/#inbox

lO M oARcPSD| 3741347
2
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

III. PROBLEMAS O DIFICULTADES.

En el momento en que empezamos a buscar nuestra base de
datos, encontrar una base de datos adecuada, para nuestro
trabajo fue un poco complejo debido a que había una gran
cantidad de bases de datos muy extensas lo cual hacía un poco
más complejo el análisis de las mismas, además de esto
muchas de estas bases de datos no estaban codificadas,
muchas estaban en texto esto nos hizo un poco mas dificil la
busqueda, sin embargo logramos encontrar una base de datos
de dimensión [310 x12] esto quiere decir que contiene 310
muestras y 12 características y dos clases (los que están
enfermos y los que no lo están),además contiene más cantidad
de muestras de una clase que de otra y la clase con más
muestras es la de personas enfermas.

IV. ESTADO DEL ARTE
El reconocimiento facial es un sistema para la identificación
de personas por medio de imágenes, las cuales pueden ser
tomadas anteriormente o adquiridas en un sistema de tiempo
real; en el proceso de adquisición de la imagen desde el objeto
hasta su ingreso en el procesador, se logra a través de un
dispositivo que debe ser sensible a los cambios de la luz, el
cual es una cámara compuesta por elementos fotosensibles
que transforman los fotones de la luz en una corriente eléctrica
y en la adquisición se obtienen 2 parámetros que son la
resolución y el formato. Al tener las zonas u objetos de interés
de la imagen, se procede a extraer las características mediante
técnicas de extracción de información específicas para el
reconocimiento facial, para distinguir entre los rostros de
diferentes personas. Entre las técnicas más usadas se
encuentra el Principal Component Analysis (PCA) el cual es
un método que convierte una cantidad de variables
probablemente recíprocas en una pequeña de cantidad de
variables no recíprocas llamadas componentes principales, es
decir, es un proceso de reducción dimensional que deja
descubrir los vectores que mejor simbolizan la repartición de
un grupo de imágenes; PCA es una técnica que requiere un
entrenamiento previo del sistema y es muy importante el
número de imágenes utilizadas, aun siendo estas ligeramente
diferentesa las que se usan para el reconocimiento o con
mucha variedad de individuos, de esto depende mucho su
eficiencia.[3].

V. ANÁLISIS PREVIOS

La base de datos contiene información basada en tipos de
problema que puedan causar dolor lumbar y / o dolor que
irradia o se refiere a otras partes del cuerpo por ejemplo:
● Las grandes raíces nerviosas en la parte baja de la
espalda que van a las piernas pueden irritarse.
● Los nervios más pequeños que irrigan la zona lumbar
pueden estar irritados.
● Los músculos pares de la parte baja de la espalda
(erector espinal) pueden estar tensos.
● Los huesos, ligamentos o articulaciones pueden estar
dañados.
● Un disco intervertebral puede estar degenerando.
Una irritación o problema con cualquiera de estas estructuras
puede causar dolor lumbar y / o dolor que irradia o se refiere a
otras partes del cuerpo. Muchos problemas de la parte baja de
la espalda también causan espasmos musculares en la espalda,
que no parecen mucho pero pueden causar dolor severo e
incapacidad.
Este conjunto de datos esta puede identificar a una persona
que es anormal o normal utilizando los datos de la columna
física recopilada. Fig.1.

Fig 1. base de datos analizada.

VI. REPRESENTACIÓN
Una buena representación de patrones debería cumplir, al
menos, los siguientes requisitos:
● Tasa de compresión de datos alta.
● Buena capacidad discriminatoria.
● Invariancia frente a transformaciones de los datos.
● Robustez frente al ruido.
En la mayoría de los sistemas de REP(reconocimiento de
patrones), los esquemas de representación son desarrollados
por los diseñadores usando su conocimiento y experiencia en
el dominio del problema. Una vez que el sistema de
reconocimiento está desarrollado, estos esquemas son
inamovibles. En muchas aplicaciones con redes neuronales se
sigue el mismo procedimiento de forma que la red neuronal
lleva a cabo, en esencia, el proceso de clasificación. Sin
embargo, las redes neuronales tienen la propiedad de construir
una representación interna de los patrones (extracción de
características), aunque difícilmente visible. Por esta razón,
algunos investigadores alimentan a la red con los datos en
bruto (o con un preproceso mínimo, como normalización) y
esperan que la propia red extraiga (aprenda) una
representación a partir de ellos. [4]

lO M oARcPSD| 3741347
3
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

Considerando la base de datos seleccionada que trata sobre
dolores de espalda bajos se presenta los siguientes resultados:

Fig 2. Análisis PCA

La imagen anterior muestra la proyección de la base de datos
la cual fue normalizada y representada mediante PCA la cual
se encargó de reducir la dimensionalidad de la base de datos.

Fig 3.Matriz de Correlación.

En la Fig 3 se ilustra qué tan relacionadas o no están las
características de la matriz X entre si, siendo el factor de
relación 1 para la diagonal principal y entre 0-1 en el resto de
la matriz.

Fig 4.Matriz de distancias.

La matriz de distancias como su nombre lo indica muestra que
tan cerca o alejado se encuentran las características entre sí; en
la Fig 4. se puede observar que la diagonal principal la
distancia es 0 ya que es la distancia de una componente con
respeto a sí misma, como también se puede notar que hay
unos que se encuentran más alejados y los cuales los
representa la línea amarilla.

Fig 5. Atributos más representativos.

La Fig 5 muestra los atributos más representativos en este
caso el atributo con mayor relevancia es el de la columna dos
el cual a incidencia pélvica.

lO M oARcPSD| 3741347
4
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

Númer
o
Características

La Fig6 representan el porcentaje de clasificación por el número
de características y también es importante resaltar una holgura
2 inclinación pélvica

4 pendiente sacra

6 grado de espondilolistesis

8 inclinación directa

10 inclinación cervical

12 pendiente escoliosis

Tab.1 características de la base de datos.

VII. APRENDIZAJE
que hay en dicho porcentaje de acierto en la clasificación
teniendo cierto porcentaje de holgura en el acierto. En las cuales
se representa la clasificación por PCA y por relieff ambas son un
método de representación de características basadas en la
selección de estas de acuerdo con su relevancia. También en la
misma grafica se muestran el resultado del acierto en el
entrenamiento de cada clasificador para cada representación d
características. Cuyos resultados se ilustran en las tablas
siguientes con limite en su número de características y sin límite
en su número de características.

SELECCION CLASIFICADOR RENDIMIENTO CARACTER
ISTICA

KNN 75.67±5.464 9
Fig7. Modelos de clasificación con limitación de
características.

Los sistemas de clasificación supervisados son aquellos en los
que, a partir de un conjunto de ejemplos clasificados (conjunto
de entrenamiento), intentamos asignar una clasificación a un
segundo conjunto de ejemplos. En la presente sección se
presentan los resultados del proceso de aprendizaje hecho con
la base de datos anteriormente mencionada haciendo uso de
clasificador lineal, cuadrático, k-numbers neighbour (números
vecinos) y validación cruzada.

VIII. RESULTADOS

● Clasificador lineal, cuadrático y lineal.

Fig 6. Acierto con clasificador lineal, cuadrático y
knn (selección con PCA y relieff).
SELECCION CLASIFICADOR RENDIMIENTO CARACTER
ISTICA

KNN 76.13±4.9092 12
Fig8. Modelos de clasificación sin limitación de
características.

La matriz de confusión que permite la visualizar el desempeño
del algoritmo implementado para el aprendizaje supervisado;
cada columna de la matriz representa el número de predicciones
de cada clase, mientras que cada fila representa a las instancias
en la clase real. Uno de los beneficios de las matrices de
confusión es que facilitan ver si el sistema está confundiendo
dos clases. Las siguientes son las matrices de confusión para los
clasificadores estudiados y teniendo en cuenta si se usa o no el
menor número de características posibles.
11 ángulo sacro
9 pendiente torácica
7 pendiente pélvica
5 radios de la pelvis
3 ángulo de lordosis lumbar
1 incidencia pélvica
PCA LINEAL 78.49±5.9761 9
PCA
QUADRATIC 82.25± 4.1258 9
PCA
KNN 76.02± 3.3258 9
RELIEF
LINEAL 80± 4.5676 9
RELIEF
QUADRATIC 80.53± 3.7745 9
RELIEF

PCA LINEAL 80.10± 4.3383 12
PCA
QUADRATIC 80.75± 3.5282 12
PCA
KNN 75.59±4.3323 12
RELIEF
LINEAL 79.89±3.7949 12
RELIEF
QUADRATIC 80.75± 3.5282 12
RELIEF

lO M oARcPSD| 3741347
5
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

• Con el menor número de características posibles.

Fig 9. Matriz de confusión clasificador lineal con
PCA.

Fig 10. Matriz de confusión clasificador cuadrático
con PCA.

Fig 11. Matriz de confusión clasificador knn con
PCA.
Fig 12. Matriz de confusión clasificador lineal con
RELIEFF.

Fig 13. Matriz de confusión clasificador cuadrático
con RELIEFF.

Fig 12. Matriz de confusión clasificador knn con
RELIEFF.

lO M oARcPSD| 3741347
6
Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

• Sin límite en el número de características.

Fig 13. Matriz de confusión clasificador lineal con
PCA.

Fig 14. Matriz de confusión clasificador cuadrático
con PCA.

Fig 15. Matriz de confusión clasificador knn con
PCA.
Fig 14. Matriz de confusión clasificador lineal con
RELIEFF.

Fig 17. Matriz de confusiónclasificador cuadrático
con RELIEFF.

Fig 18. Matriz de confusión clasificador knn con
RELIEFF.

lO M oARcPSD| 3741347
7

Pereira. Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de

La sensibilidad es la probabilidad de clasificar correctamente a
un individuo enfermo, es decir, la probabilidad de que para un
sujeto enfermo se obtenga en la prueba un resultado positivo. La
sensibilidad es, por lo tanto, la capacidad del test para detectar la
enfermedad. Es por ello que a continuación se presentan la
respectiva sensibilidad para cada caso como los expuestos en las
matrices de confusión.

Fig 19. Sensibilidad PCA (lineal).

Fig 20. Sensibilidad PCA (cuadrático).

Fig 20. Sensibilidad PCA (knn).

Fig 21. Sensibilidad RELIEFF (lineal).

Fig 22. Sensibilidad RELIEFF (cuadrático).

lO M oARcPSD| 3741347
8

Scientia et Technica Año MMXVIII, No xx, Mesxx de Añoxx. Universidad Tecnológica de Pereira.

XII. REFERENCIAS

[1]. Ana María Gómez Lamus. Algoritmos de aprendizaje
supervisado en Astronomía. Departamento de ciencias
básicas. Institución Universitaria Los Libertadores. Bogotá.
Colombia. 2014.

[2] Laura Lanzarini, A. De Giusti. Reconocimiento de
patrones en imágenes médicas utilizando redes neuronales.
Laboratorio de Investigación y Desarrollo en Informática
Departamento de Informática· Facultad de Ciencias
Exactas Universidad Nacional de La Plata. La Plata.
Argentina.2000.

Fig 23. Sensibilidad RELIEFF (knn).

IX. DISCUSIONES.

De acuerdo a los resultados previamente expuestos en el
[3] Sebastián Orozco Alzate, Cristian Bertino Salazar.
Diseño de un Sistema Biométrico de Reconocimiento
Facial en Tiempo Real. Tesis de pregrado. Facultad de
Tecnologías. Universidad Tecnológica de Pereira. Pereira.
Colombia.
presente informe se puede decir que la matriz de confusión del [4] Dr. Luis Alonso Romero, Dr. Teodoro Calonge
clasificador cuadrático tanto para PCA como para Relieff Cano. Redes Neuronales y Reconocimiento de Patrones.
presentan cierta semejanza en cuanto a que amabas tienden a Dpto de Informática. Universidad de Valladolid.
tener un porcentaje de confusión de clases bajo con respecto a Universidad de Salamanca. España.
los demás clasificadores, además, se pretende seleccionar el
clasificador bajo el criterio de menor número de características,
menor desviación estándar y un porcentaje de acierto alto
aproximadamente a lo ideal (100%) y por último también se
tuvo en cuenta que existiera una alta sensibilidad con respecto a
amabas clases; bajo estas criterios de selección se optó por el
clasificador cuadrático+relieff como mejor clasificador por su
mayor rendimiento con menos cantidad de características,
menor desviación de datos y menor sesgo a la hora de clasificar.

X. ¿QUE SE LES OCURRE MEJORAR?

Uno de los mayores problemas que presenta el diagnóstico
médico, en general, es la subjetividad del especialista. Puede
notarse, principalmente en tareas de reconocimiento de patrones,
que la experiencia del profesional tiene una estrecha relación
con su diagnóstico final. Esto se debe a que el resultado no
depende de una solución sistematizada sino de la interpretación
realizada sobre la señal del paciente.

XI. ¿QUE FALTA?

En cualquier caso, una representación adecuada de los datos
facilita el proceso de toma de decisión y mejora las tasas de
generalización. Sin embargo, el diseño de una buena
representación exige un conocimiento profundo de la naturaleza
del problema, lo cual no siempre es posible. La forma de
aprender un esquema de representación partiendo de un
conjunto de datos es todavía un problema abierto.

lO M oARcPSD| 3741347
10