Algoritmos de aprendizaje profundo

Proyectos Interdisciplinarios en Ciencias Exactas y Naturales

•

SIN SIGLA

marta1985aresqueta

24/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Proyectos Interdisciplinarios en Ciencias Exactas y Naturales

728 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Universidad Nacional del Centro de la Provincia de Buenos Aires
Facultad de Ciencias Exactas
Algoritmos de aprendizaje profundo
para soporte al diagnóstico de la
retinopatía diabética en fotografías de
fondo de ojo
Trabajo Final de Carrera
presentado para obtener el título de
Ingeniero de Sistemas
por
Tomas Castilla
Directores
Dr. José Ignacio Orlando
(FCEx-UNICEN, CONICET)
Dr. Ignacio Larrabide
(FCEx-UNICEN, CONICET)
Resumen
La Retinopatía Diabética (RD) es una complicación microvascular producida por la
diabetes mal tratada e inicialmente asintomática, que constituye la principal causa de
ceguera prevenible en adultos en edad laboral. Para evitar la pérdida irreversible de la
visión, se recomienda a las personas diabéticas concurrir al menos una vez al año al
oftalmólogo a hacerse un chequeo de las retinas, para verificar si éstas presentan signos de
relevancia que requieran iniciar un tratamiento pronto.
En Argentina se estima que 1.8 millones de personas entre 20 y 79 años padecen de
diabetes, y que esta cifra ascenderá a 2.5 millones hacia 2050 (un 6.9% de la población
adulta del país). Un 77% de estas personas no cumple con el control oftalmológico anual,
presumiblemente a raíz de la limitada cantidad de profesionales disponibles, calculada en 8
oftalmólogos cada 100.000 habitantes.
Para mitigar esta dificultad, se ha propuesto realizar campañas de tamizado basadas
en telemedicina para hallar tempranamente casos de riesgo mediante fotografías de fondo
de ojo, una modalidad de imagen médica no invasiva, de bajo costo y fácil captura, que
puede adquirirse sin necesidad de un oftalmólogo en el lugar. Las mismas se transmiten
hacia un centro de informes, donde un grupo de profesionales determina qué casos
requieren tratamiento. Sin embargo, el número elevado de estudios que se capturan hace
inviable analizarlos a todos sin perjudicar la necesidad de profesionales para tratamiento,
por lo que es deseable contar con herramientas que permitan filtrar los casos que no
revisten gravedad, para concentrarse en los de interés y hacer un uso eficiente del recurso
humano.
En este trabajo final de carrera se introduce un modelo de inteligencia artificial
basado en redes neuronales convolucionales que permite identificar automáticamente casos
de retinopatía diabética que requieren ser referidos a un oftalmólogo. El mismo utiliza una
arquitectura ResNet-18 preentrenada sobre imágenes naturales del banco ImageNet,
adaptada para resolver esta problemática. Para asegurar su robustez ante variaciones en el
escenario de despliegue, el modelo se reentrenó cuidadosamente sobre un conjunto curado
de datos de entrenamiento construido a partir de un relevamiento de bancos de imágenes
públicos disponibles, formado por estudios adquiridos con diversas cámaras y distintas
etnias, resoluciones y orígenes. Con igual objetivo, se utilizó una estrategia basada en el
calibrado iterativo de los parámetros empleados para la aumentación de imágenes.
Finalmente, se integraron al modelo mecanismos de visualización de atribuciones que
permiten indicar las regiones tenidas en cuenta por el modelo para realizar la predicción.
2
El modelo final fue evaluado sobre un conjunto de 55.997 imágenes de múltiples
orígenes, obteniendo resultados comparables a los del estado del arte. Desde el punto de
vista cualitativo, se observó que el modelo identifica lesiones vinculadas con la existencia de
la retinopatía diabética para dar su predicción. Además, se observó que el método es
robusto ante la presencia de comorbilidades, que no afectan su desempeño para identificar
la enfermedad.
El método será integrado en el mediano plazo en una plataforma de telemedicina
oftalmológica para detectar casos de retinopatía diabética que deban referirse a un
profesional.
3
A mis padres, el mejor ejemplo de esfuerzo, dedicación y vocación que alguien puede tener.
Al abuelo Fernando, que donde sea que esté, seguro que está orgulloso de mi.
4
Agradecimientos
Quiero agradecer inmensamente a todas las personas que, de algún u otro modo,
ayudaron a que llegue este momento tan importante para mi.
Antes que nadie, a Mamá, Papá y Cami, quienes incondicionalmente siempre
estuvieron ahí para brindarme lo que me hiciera falta, y mucho más.
A mis compañeros que terminaron convirtiéndose en mis amigos del alma, con
quienes siempre nos apoyamos mutuamente para salir adelante en los momentos más
difíciles.
A mi novia, quien incluso a la distancia, siempre estuvo muy cerca para apoyarme e
incentivarme a seguir avanzando.
A mis directores, Nacho Orlando y Nacho Larrabide, quienes me marcaron el camino
a seguir a lo largo de todo este trabajo.
A mis abuelos, tíos, primos y amigos de toda la vida, que siempre me dieron una
mano cuando hizo falta.
A todos ellos, gracias de corazón.
5
Índice
Resumen 2
Agradecimientos 5
Índice 6
Capítulo 1. 8
Introducción 8
1.1. Descripción de la problemática 8
1.2. Objetivos 9
1.3. Vinculación con contenidos de la carrera 10
1.4. Organización del trabajo 11
Capítulo 2. 12
Estado del arte. 12
2.1. El ojo y la retina 12
2.2. La retinopatía diabética 15
2.3. Fotografías de fondo de ojo 18
2.4. Tamizado de retinopatía diabética mediante fotografías de fondo de ojo 20
2.5. Aprendizaje profundo 23
2.5.1. ¿Qué es el aprendizaje profundo? 23
2.5.2. Redes neuronales convolucionales 26
2.5.3. Transferencia de aprendizaje 30
2.5.4. Aplicaciones de aprendizaje profundo al reconocimiento de retinopatía
diabética 31
Capítulo 3. 36
Métodos. 36
3.1. Descripción general. 36
3.2. Preprocesamiento de los datos. 37
3.3. Estrategias de aumentación de imágenes 39
3.4. Arquitectura considerada 41
3.5. Metodología de entrenamiento 43
3.5.1. Detalles del modelo 43
3.5.2. Calibrado de la estrategia de aumentación 44
3.6. Métodos de atribución 45
3.7. Implementación 49
3.7.1. Pruebas preliminares 49
3.7.2. Implementación final 50
Capítulo 4. 52
Materiales. 52
4.1. Datos utilizados 52
6
4.2 Conjunto IDRiD 52
4.3 Conjunto Kaggle 54
4.4 Conjunto Messidor-2 56
4.5 Conjunto ODIR 58
4.6 Conjunto DiaRetDB1 60
4.7 Conjunto Global 61
Capítulo 5. 64
Resultados 64
5.1. Métricas de evaluación 64
5.2. Selección del mejor modelo 67
5.3. Resultados cuantitativos sobre los casos de test 70
5.4. Evaluación de los mapas de atribución 75
5.4.1. Comparación de mapas 75
5.4.2. Evaluación cualitativa de los resultados 79
5.6. Discusión 83
Capítulo 6. 87
Conclusiones 87
Bibliografía 89
7
Capítulo 1.
Introducción
1.1. Descripción de la problemática
La Retinopatía Diabética es una complicación microvascular que se desarrolla en
personas con diabetes de tipo 1 y tipo 2. Se da en casi todas las personas con diabetes de
tipo 1, y en más del 77% en aquellas que tienen tipo 2 y hayan tenido por más de 20 años la
enfermedad. Constituye la tercer causa de ceguera a nivel mundial y la primera de países
en desarrollo [1]. La Organización Mundial de la Salud (OMS) estima que esta enfermedad
es la responsable de 4.8% de los 37 millones de casos de ceguera en el mundo [2], aún a
pesar de que puede prevenirse a través de un control oftalmológico anual para un
diagnóstico temprano.
Las imágenes de fondo de ojo constituyen una herramienta fundamental para el
diagnóstico de enfermedades como la Retinopatía Diabética. En ellas, se manifiestan gran
parte de las lesiones producidas de forma temprana por esta enfermedad. Representan una
técnica muy sencilla, no invasiva y de bajo costo, ideal para el tamizado o screening de
poblaciones de riesgo [3]. Aun así, el análisis manual de estas imágenes por parte de
personal especializado es un proceso extremadamente minucioso y exhaustivo. En
campañas de detección temprana sobre poblaciones, en las que el volumen de imágenes
es elevado y el tiempo con el que se cuenta es acotado [4], se hace inviable realizar el
análisis de dichas imágenes en forma manual. Es por esto que existe un gran interés en
desarrollar algoritmos que puedan realizareste tipo de análisis de manera automática,
aportando asistencia a los especialistas en el diagnóstico y seguimiento de estas
enfermedades. Se ha demostrado que mediante estos enfoques es posible aumentar la
eficiencia, reproducibilidad y alcance de las campañas de screening poblacional, sobre todo
en redes de telemedicina [5].
8
1.2. Objetivos
El proceso de análisis manual de una imagen de fondo de ojo es una tarea costosa
en tiempo y esfuerzo. Además, los diagnósticos entre diferentes especialistas pueden diferir
debido a la experiencia profesional, la calidad de las imágenes o la fatiga que genera el
análisis consecutivo de varias de estas [6]. El objetivo principal de este trabajo es
desarrollar un algoritmo de aprendizaje profundo que, dada una imagen de fondo de ojo,
determine la probabilidad de que el paciente en estudio esté desarrollando un grado
avanzado o moderado de la enfermedad. Adicionalmente, se pretende que dicho modelo
indique aquellas regiones que consideró de interés mediante por ejemplo mapas de calor,
con el objetivo de facilitar a los especialistas la validación de las salidas del algoritmo. Se
espera que estos mapas señalen estructuras anatómicas de la retina como la fóvea, y
lesiones típicas de la Retinopatía Diabética, como hemorragias y microaneurismas. Se
espera que esta solución se convierta en una herramienta útil para los especialistas a la
hora de diagnosticar esta enfermedad, permitiendo mejorar el desempeño, eficacia y
eficiencia en las campañas de screening poblacional.
Esta tesis de grado fue realizada en el Grupo Yatiris del Instituto PLADEMA, en
colaboración con el Hospital El Cruce y el Centro Oftalmológico Martínez, y en el marco de
una Beca INI 2020 de Iniciación a la Investigación financiada por el Programa de
Fortalecimiento de la Ciencia y Tecnología en Universidades, de la Secretaría de Ciencia,
Arte y Tecnología de la UNICEN.
9
1.3. Vinculación con contenidos de la carrera
A lo largo de la carrera de Ingeniería de Sistemas, se fueron aprendiendo contenidos
que fueron fundamentales para poder entender la problemática abordada en este trabajo
final y plantear una solución a la misma. A continuación, se detallan algunas de las materias
que tuvieron mayor relevancia sobre la formación de estos contenidos.
Los modelos de aprendizaje profundo están basados prácticamente en su totalidad
sobre conceptos matemáticos. Es por esto que materias como Análisis Matemático II,
Cálculo Diferencial e Integral y Álgebra Lineal aportaron el marco teórico necesario para
poder comprender cómo es que funcionan los métodos de optimización y otros algoritmos
de entrenamiento que están detrás de estos modelos. Por otro lado, el curso de
Probabilidades y Estadística, junto con las asignaturas mencionadas anteriormente, también
ayudaron a comprender los mecanismos mediante los cuales los modelos generan sus
salidas, y cómo estas pueden ser interpretadas correctamente. Los contenidos vistos en
estas asignaturas fueron posteriormente complementados por los cursos optativos de
Inteligencia Artificial e Introducción a las Redes Neuronales y Aprendizaje Profundo. Estos
aportaron conocimientos cruciales que permitieron entender las características generales de
cada modelo dentro del aprendizaje de máquina y el aprendizaje profundo,
fundamentalmente las redes neuronales convolucionales. En estas materias también se
brindó información importante para una correcta interpretación de las diversas métricas que
miden la performance de estos modelos. Además, también se dieron a conocer los
diferentes métodos de preprocesado de datos, y su importancia a la hora de desarrollar los
modelos.
Cuando se trató de implementar las funcionalidades en código, los contenidos vistos
en Lenguajes de Programación I permitieron un mejor entendimiento sobre el
funcionamiento del lenguaje dinámico Python y los diversos mecanismos que hay detrás de
éste. Asimismo, al momento de realizar un modelado correcto de las clases implementadas
desde el punto de vista del paradigma de Orientación a Objetos, fueron muy útiles los
conocimientos vistos en la materia Programación Orientada a Objetos. Ésta también ayudó
a poder entender, implementar, reutilizar y adaptar código previamente desarrollado por el
grupo Yatiris para nuestro problema.
10
1.4. Organización del trabajo
Este trabajo se encuentra organizado en 6 capítulos, en los que se abordan los
diferentes aspectos del desarrollo realizado.
En el Capítulo 2, se mencionan y explican los conceptos fundamentales para poder
comprender el resto del trabajo, incluyendo aspectos médicos y técnicos y una cobertura del
estado del arte.
En el Capítulo 3, se tratan en detalle los métodos propuestos y desarrollados para
darle solución a la problemática, así como las diversas decisiones que fueron tomándose a
lo largo del trabajo.
En el Capítulo 4, se mencionan los conjuntos de datos utilizados para el desarrollo
del modelo, y sus características.
En el Capítulo 5, se presentan los resultados obtenidos de los experimentos
realizados, especificando la organización de los datos, las configuraciones de los modelos y
sus evaluaciones con diferentes métricas.
Por último, en el Capítulo 6, se mencionan las conclusiones finales en base a los
resultados obtenidos y al desarrollo de este trabajo, como también posibles trabajos futuros
que pudieran abordarse con posterioridad.
11
Capítulo 2.
Estado del arte.
En este capítulo se darán a conocer algunos detalles sobre los conceptos básicos
necesarios para poder entender la problemática planteada en este trabajo. La Sección 2.1
describe anatómica y fisiológicamente al ojo, poniendo especial énfasis en la retina, que
constituye la estructura anatómica sobre la que se enfoca esta tesis. En la Sección 2.1 se
abordará en detalle la Retinopatía Diabética, sus diferentes grados, lesiones y
consecuencias que genera en la visión. La Sección 2.3 trata sobre las Fotografías de Fondo
de ojo, modalidad de imagen médica fundamental para el diagnóstico de la Retinopatía
Diabética. En la Sección 2.4 se aborda el tamizado de la Retinopatía Diabética mediante las
imágenes de fondo de ojo, y la importancia de brindar herramientas que permitan acelerar
dicho proceso. Finalmente, en la Sección 2.5 se presenta al Aprendizaje Profundo, método
elegido para el desarrollo de la solución de la problemática, explicando principalmente
Redes Neuronales Convolucionales, Transferencia de Aprendizaje, y por último algunas
aplicaciones existentes para el reconocimiento automático de Retinopatía Diabética.
2.1. El ojo y la retina
La visión es uno de los sentidos más importantes del ser humano. El sistema
biológico que la posibilita involucra la interacción entre dos órganos: los ojos y el cerebro.
Los primeros son los responsables de enfocar y transformar la luz en impulsos nerviosos,
que son enviados al cerebro a través del nervio óptico. Allí, estos impulsos son procesados
para ser interpretados luego como una imagen.
El ojo o globo ocular (Figura 1) constituye el órgano fundamental del aparato de la
visión [7]. Está situado en la parte anterior de la órbita craneal, posee forma esférica, mide
en promedio 24mm en sentido anteroposterior y 23 mm transversalmente y está compuesto
por una pared y un contenido.
La pared está formada por 3 membranas concéntricas: una membrana externa o
protectora, una membrana media o vascular y una interna o sensorial. [7][8]. La membrana
fibrosa está compuesta por la esclerótica (hacia atrás) y la córnea (hacia adelante) [7][8]. La
esclerótica es una membrana inextensible y resistente que toma la forma del ojo. Conforma
las ⅚ partes posteriores de la membrana fibrosa. Mide aproximadamente 1mm de espesor,
es lisa y de color blanco. Posee varios orificios por donde pasan los vasos sanguíneos y
12
nervios que van y vienen hacia el globo ocular. La córnea constituye el segmento anterior de
la membrana fibrosa, representando el⅙ restante de esta. Es redondeada, perfectamente
transparente, avascular, y al tener forma de esfera con un radio menor a la esclerótica,
sobresale en la parte anterior del ojo. Posee dos caras, anterior y posterior, que son lisas y
brillantes. La cara anterior tiene forma convexa y la posterior cóncava [7][9]. La membrana
vascular está compuesta por el iris, el cuerpo ciliar y la coroides. El iris constituye la parte
anterior de esta membrana y posee un orificio central llamado pupila. El iris tiene la
importante función óptica de regular el tamaño de la pupila para aumentar o disminuir la
cantidad de luz que la atraviesa [10][9]. El cuerpo ciliar es importante para el proceso de la
acomodación, y en conjunto con la coroides intervienen en importantes procesos
vegetativos. La coroides se encuentra entre la esclerótica y la retina. Está formada por una
red de capilares que brindan oxígeno y sangre a las demás capas [9]. Es negra, lisa, y está
pegada a la retina, sin adherirse a esta. Posee en su parte posterior un orificio por el que
pasa el nervio óptico [7].
Figura 1. Ilustración de un corte transversal del ojo, con las regiones anatómicas mencionadas.
Fuente: [86].
Existen, dentro del globo ocular, un conjunto de elementos llamados medios
transparentes. Estos, justamente son enteramente transparentes, y comprenden el humor
acuoso, la lente y el cuerpo vítreo. El humor acuoso es un fluido que se encuentra entre el
iris y la córnea y entre el iris y el lente. Su función principal es la de mantener la presión
interna del globo ocular. La lente se encuentra situada posteriormente al iris. Es biconvexa,
13
transparente, elástica y firme. Su función es enfocar los rayos de luz de objetos que se
encuentran a diferentes distancias [10]. El cuerpo vítreo, finalmente, es un líquido viscoso
que llena la cavidad posterior a la lente [7].
Figura 2. Ilustración de la retina, con las estructuras anatómicas mencionadas. Fuente: [87].
La retina (Figura 2) es la estructura anatómica que más concierne a este trabajo
final. Es la membrana interna y sensorial del globo ocular, y cubre a la membrana vascular.
Se trata de una extensión del sistema nervioso central donde comienza el procesamiento de
la información luminosa. Como la esclera y la coroides, también la retina adopta la forma de
una esfera abierta por delante, con una cara interna y una externa. La cara externa es
convexa y está en contacto con la coroides. La cara interna es cóncava, lisa, rosada y
vascular, y contacta con el vítreo [8][7]. Macroscópicamente, en la cara interna de la retina
se distinguen dos zonas: la central y la periférica. La retina central tiene unos 5 a 6 mm de
diámetro, y corresponde al polo posterior del ojo. Allí se encuentra la papila óptica, que se
observa como un disco rojizo, amarillo rojizo o rosado, de 1.5 mm de diametro [8]. La arteria
central de la retina emerge de este disco, y se divide en forma dicotómica, como las ramas
de un árbol. Las venas también penetran por este disco, y presentan un comportamiento
similar.
Las células de la retina encargadas de transformar la luz en impulsos eléctricos se
conocen como fotorreceptores, y se dividen en dos tipos: bastones y conos. Los conos son
los responsables de la visión diurna y de percibir colores, y los bastones funcionan con luz
más débil y perciben escalas de grises [10]. En el centro de la retina se encuentra una
región, de aproximadamente 5.5mm, llamada mácula lútea, que posee mayor densidad de
conos que las regiones periféricas. En el centro de esta región, se encuentra una depresión
14
visualmente más oscura, la fóvea, que es aproximadamente circular y de 1.5 mm de
diámetro, y que tiene una mayor sensibilidad para la percepción de detalles.
Gracias a la interacción de todas estas estructuras anatómicas, es que se logra la
visión [9]. Inicialmente, los rayos de luz atraviesan la córnea. Luego, el iris regula la cantidad
de luz que ingresa al contraerse o dilatarse, cambiando el tamaño de la pupila. A través de
un proceso conocido como acomodación, el lente será quien se encargue de enfocar esta
luz en la retina, según provenga de reflexiones sobre objetos cercanos o lejanos. Una vez
enfocada la luz, especialmente en la mácula, los conos y bastones convierten la información
luminosa en impulsos nerviosos, que son enviados posteriormente al cerebro, donde se los
interpreta formando una imagen.
2.2. La retinopatía diabética
La Diabetes, o Diabetes Mellitus, es un conjunto de trastornos metabólicos cuya
característica principal es la concentración elevada de glucosa en la sangre de manera
persistente o crónica [11], conocida como hiperglucemia. Las causas principales de esta son
la falta de producción de insulina, una hormona encargada de procesar la glucosa, o la
resistencia del organismo a utilizarla para este propósito [12]. La diabetes, en general, se
puede clasificar en dos tipos: Tipo 1 y Tipo 2. Por un lado, la diabetes Tipo 1 inicia en
pacientes jóvenes (niños o adolescentes) que no producen insulina, y que por ende son
insulinodependientes. En este caso, la falta de producción de insulina se da por la
destrucción de ciertas células del páncreas. Es el tipo menos común de diabetes,
abarcando del 5% al 10% del total de casos [13]. La diabetes de Tipo 2 generalmente se
inicia en adultos de 50 a 70 años, más frecuentemente en personas obesas o con una
predisposición genética a padecerla [14]. Se caracteriza por la resistencia a la insulina,
cuando el cuerpo no puede utilizarla para procesar la glucosa [15]. Este es el tipo más
común de diabetes, con un porcentaje que va desde el 90% al 95% [14].
La complicación más común producida por la diabetes, es la Retinopatía Diabética
[12]. Constituye la principal causa de ceguera irreversible en pacientes de entre 20 y 64
años de edad, es responsable de un 10% de los casos de ceguera anuales [18], y es una de
las principales causas de ceguera a nivel mundial [19]. Esto se debe en parte a la elevada
prevalencia de la diabetes en sí misma, que se estima que aumente de 415 millones de
personas observadas en todo el mundo en 2015 a unas 642 millones en 2040 [17].
La hiperglucemia generada por la diabetes sin tratarse por largos periodos de tiempo
genera una serie de cambios en la permeabilidad y resistencia de las paredes vasculares,
alterando también el flujo sanguíneo [22][23]. Esto hace que el contenido intravascular se
15
filtre al espacio retiniano, y comiencen a formarse las lesiones y complicaciones típicas de la
RD [22]. A grandes rasgos, podemos clasificar la RD en dos estadíos o etapas: Retinopatía
Diabética Proliferativa (RDP) y Retinopatía Diabética No Proliferativa (RDNP) [23]. A su vez,
la RDNP se subdivide en leve, moderada y severa [22][24].
Figura 3. Progresión de la RD. (a) Ojo sano. (b) RDNP con edema macular. (c) RDP, más cantidad
de lesiones que en la RDNP y con formación de neovasos. Fuente [88].
La Retinopatía Diabética No Proliferativa (RDNP) (Figura 3 (b)) se da cuando
comienzan a aparecer microaneurismas (MAs), unas pequeñas deformaciones en las
paredes de los vasos sanguíneos que se dan por el engrosamiento de la vasculatura
retiniana a causa de los cambios en su permeabilidad producto de la diabetes [25]. Las MAs
producen filtraciones del plasma hacia las capas de la retina, generando un edema y
exudados en sus capas superficiales. Estos exudados pueden clasificarse en duros o
blandos. Los exudados duros se producen por la fuga de lípidos y proteínas desde los
vasos retinianos, que si ocurren sobre la mácula pueden afectar la visión [25]. En cambio,
los exudados blandos constituyen engrosamientos isquémicos de las capas de fibras
nerviosas. Poseen bordes más redondeados y difusos, son de color blanco, y tapan los
vasos sanguineos [22][25]. Las MAs pueden debilitarse y romperse generando Hemorragias
(HEs). Estas lesiones son los signos más tempranos de la RDNP, y son visibles a partir de
imágenes de fondode ojo. Un esquema de esta progresión puede verse en la Figura 4. En
esta etapa, la reducción de la agudeza visual puede ser moderada o nula, excepto en
aquellos casos que ocurran en la mácula (edema macular), o que estas lesiones se
encuentren localizadas en una región [25].
A medida que estas lesiones aumentan, ocurren cierres capilares y se produce una
isquemia progresiva [23]. Ante esto, el cuerpo reacciona empleando mecanismos de
angiogénesis para formar nuevos vasos sanguíneos. Este proceso de creación de
neovasos, la neovascularización, es un signo de que la enfermedad se encuentra en su
etapa más avanzada: la Retinopatía Diabética Proliferativa (RDP) [23][22][25], ilustrada en
la Figura 3 (c). Estos neovasos son frágiles, lo que causa nuevas hemorragias y nuevas
16
fugas de lípidos. Al liberarse estas sustancias al humor vítreo, el paciente puede empezar a
notar pérdidas de visión, que pueden ir desde pequeñas manchas flotantes hasta un
bloqueo completo [25]. Otra alteración que puede darse durante esta etapa es el
desprendimiento de la retina, causado por las tracciones sobre la misma como
consecuencia de la neovascularización y las filtraciones [23].
Figura 4. Complicaciones microvasculares causadas por la hiperglucemia. (a) Vaso sano. (b) La
hiperglucemia comienza a debilitar las paredes de los vasos y se incrementa el flujo sanguíneo,
produciendo también la fuga de lípidos. (c) El debilitamiento de las paredes y el aumento del flujo
produce la formación de MAs. (d) La presión dentro de las MAs produce la ruptura de las mismas y
se forman hemorragias. Fuente: [16].
El mejor tratamiento para la RD es la prevención y cuidado apropiado de la diabetes
[22]. Aun así, una detección temprana de la RD y un correcto seguimiento de la enfermedad
permiten que se eviten pérdidas severas de visión. En un principio, pueden administrarse
drogas para regular la cantidad de glucosa en sangre, como la insulina [6]. Si ya hay
neovascularización, se puede acudir a la fotocoagulación láser para destruir parte del tejido
retiniano, disminuyendo como consecuencia la demanda metabólica de oxígeno [23]. Este
tratamiento no recupera la vision perdida, pero sí impide que esta continúe deteriorándose
[25]. En los casos en que ya hay hemorragias en la cavidad interna del ojo, las mismas se
pueden remover mediante una cirugía conocida como vitrectomía. Al remover la gelatina
vítrea llena de sangre y/o las cicatrices por desprendimiento de retina, se puede lograr una
mejora en la vision [25]. También pueden realizarse inyecciones intravítreas para prevenir el
incremento del factor de crecimiento vascular endotelial [26], lo que evita la generación de
nuevos vasos.
En resumen, es imprescindible señalar lo crucial de la detección de la RD de forma
temprana para prevenir y evitar la pérdida de visión de manera irreversible. Dado que se
trata de una enfermedad inicialmente asintomática, se recomienda a los pacientes
diabéticos sin RD que asistan al oftalmólogo para un control anual, de forma que la misma
pueda detectarse a tiempo [3].
17
2.3. Fotografías de fondo de ojo
Una retinografía o fotografía de fondo de ojo (Figura 5) es una representación en 2D
de los tejidos semitransparentes tridimensionales de la retina [3]. Estas imágenes son
obtenidas proyectando un haz de luz dentro del ojo, y haciendo una captura con una
cámara con un lente microscópico especializado. Esta luz ingresa al ojo a través de la
pupila, a través de la cual se ilumina la cavidad para tomar una imagen [3]. La complicación
más grande al adquirir estas imágenes es evitar que los rayos de iluminación y de imagen
se superpongan, ya que esto genera reflejos en la córnea y/o en el lente, haciendo que la
retina no pueda verse correctamente [3]. Anteriormente, realizar este tipo de imágenes
requería de un equipo costoso y especializado, en conjunto con un profesional entrenado en
la toma de este tipo de fotografías [3]. Sin embargo, las evoluciones tecnológicas de los
últimos años permitieron que las imágenes por fondo de ojo sean mucho más accesibles.
Hoy en día, tomarlas es un proceso relativamente sencillo de realizar, además de que es
una técnica no invasiva, de bajo costo, y que no requiere de personal entrenado para
hacerlo [3].
Figura 5: Fotografía de fondo de ojo. En ella pueden observarse los componentes anatómicos
principales de la retina, tales como el disco óptico, la mácula, la fóvea y la vasculatura retiniana.
Imagen gentileza del Centro Oftalmologico Martínez.
El dispositivo que toma estas imágenes se conoce como retinógrafo (Figura 6) o
cámara de fondo de ojo. Consiste en una fuente de luz con un microscopio especializado, y
18
una cámara que toma la imagen. Existen diferentes tipos de retinógrafos según sus
tecnologías. Estos dispositivos suelen tener diferentes resoluciones y ángulos de visión del
área de la retina. Además, según sus características pueden requerir de la dilatación de la
pupila del paciente (retinógrafos midriáticos) o no (retinógrafos no midriáticos) [27].
Actualmente existen accesorios para smartphones que permiten adquirir una imagen de
fondo de ojo con sus cámaras, de una calidad considerable [27][28].
Figura 6: Imagen de un retinógrafo digital Crystalvue ®. En la parte superior izquierda se encuentra
la estructura para que el paciente apoye su mentón y frente para ser examinado. En el centro, se
encuentra el cabezal móvil que contiene el lente y el dispositivo de captura. En la parte inferior
derecha, puede apreciarse la pantalla táctil en la que se visualizan las imágenes tomadas, y se
configuran los parámetros del estudio. Imagen gentileza del Centro Oftalmologico Martínez.
En este tipo de imágenes se puede visualizar fácilmente los diferentes componentes
anatómicos de la retina: la vasculatura retiniana, el disco óptico, la fóvea y la mácula. Esto
puede observarse claramente en la Figura 5. Es así que estas capturas resultan una
herramienta fundamental para el diagnóstico de enfermedades que se manifiestan a través
de alteraciones de la retina como la RD, ya que podemos observar con claridad
hemorragias, exudados y neovascularizaciones [3][28]. Esto es fundamental para la
19
detección temprana de la enfermedad y para prevenir posibles pérdidas de visión
irreversibles [3].
2.4. Tamizado de retinopatía diabética mediante fotografías de
fondo de ojo
En la Sección 2.2 se destacaron la RD y dos de sus estadíos principales, RDP y
RDNP. La RDNP en sí misma puede dividirse también en diferentes subestadíos, en base a
la cantidad de lesiones o signos típicos de la enfermedad. La Tabla 1 muestra
específicamente los diferentes grados de RD que definen el avance de la enfermedad sobre
el paciente, y cómo se identifican cada uno de ellos. En la Figura 7 se muestran ejemplos
de imágenes de fondo de ojo de cada uno de los grados mencionados en dicha tabla. Dado
que en las fotografías de fondo de ojo son muy evidentes las lesiones características
producidas por la enfermedad, esta escala es utilizada por los especialistas para realizar el
tamizaje a partir de dichas fotografías.
Retinopatía Diabética Hallazgos observables con Oftalmoscopía Dilatada
RD no aparente No hay anomalías.
RDNP Leve Solamente Microaneurismas.
RDNP Moderada Microaneurismas y otros signos como hemorragias en manchas, exudados
duros y exudados blandos, pero menos que en RDNP Severa.
RDNP Severa RDNP Moderada con cualquiera de los siguientes signos:
● Hemorragias intrarretinianas (>= 20 en cada cuadrante)
● Rosarios venosos definidos (en 2 cuadrantes)
● Anomalías microvasculares intrarretinianas (en 1 cuadrante)
● Sin signos de de RDP
RDP RDNP Severa y uno o más de los siguientes signos:
● Neovascularización
● Hemorragia vítrea/prerretiniana
Tabla 1. Escala Internacional Clínica de la RD. A medida que se desciende en la tabla, el avance de
la enfermedad es mayor. Fuente: [29].
El tamizaje de la RD disminuye los costos de su tratamiento, ya que la RD queamenaza la visión tiene signos tempranos que pueden ser detectados, pudiendo incluso ser
prevenida o disminuida su velocidad de progresión [30]. En varios estudios sobre el
tratamiento de la RD, se ha observado que aquellos pacientes sin RD o con RDNP Leve y
sin edema macular (Figura 7 (a) y (b) respectivamente), no requieren de ningún tratamiento
20
y poseen bajo riesgo de una progresión significativa de la enfermedad [4]. Estos pacientes
pueden ser analizados nuevamente luego de un año. De esta manera se pueden descartar
estos casos, y enfocarse únicamente en aquellos en los que la enfermedad se encuentra en
las etapas más avanzadas. Algunos de los algoritmos automatizados que asisten a los
especialistas en el tamizado, clasifican las imágenes en dos categorías: por un lado, los que
no tienen RD o que presentan RDNP Leve sin edema macular, y por otro aquellos que
tienen más que RDNP Leve (Figura 7 (c), (d) y (e)) [4]. En otras palabras, determinan si el
paciente es referible a un especialista y requiere que un profesional analice en más detalle
su situación e indique un tratamiento en caso de ser necesario, o si aún no reviste gravedad
y puede volver por un nuevo control en un año.
Figura 7. Ejemplos de los diferentes estadios de la RD. (a) RD no aparente. (b) RDNP Leve.
(c) RDNP Moderada. (d) RDNP Severa. (e) RDP.
Dado que las imágenes de fondo de ojo constituyen una técnica relativamente
sencilla, rápida, no invasiva, y no requieren de ser realizadas por un profesional, existen
campañas basadas exclusivamente en ellas para screening poblacional [3]. En ellas se
capturan fotografías de fondo de ojo a diferentes pacientes diabéticos de una cierta
población objetivo [4]: puede hacerse a gran escala, y también mediante una red de
21
retinógrafos distribuida geograficamente, para acceder a localidades pequeñas y remotas
en las que es más difícil acceder a un especialista. Esto último favorece a las campañas
basadas en telemedicina, ya que los médicos especialistas no necesitan viajar hacia el lugar
en donde se adquieren las imágenes para efectuar el diagnóstico [31]. Así, las imágenes
son tomadas por técnicos entrenados y enviadas a algún centro de salud que opera como
nodo de informes, en donde son analizadas conforme van recibiéndose. El resultado del
diagnóstico de cada paciente sirve para determinar si es necesario realizar tratamientos o
seguimientos más precisos sobre cada caso. De esta forma, se le da la posibilidad a una
mayor cantidad de personas de acceder a este breve estudio y prevenir la pérdida
irreversible de visión por RD. Un ejemplo de este tipo de campañas es el Programa de
Prevención de la Ceguera por Retinopatía Diabética del Hospital El Cruce, ubicado en
Florencio Varela, Buenos Aires, Argentina [32]. Éste busca optimizar el acceso al
diagnóstico precoz y al tratamiento de la RD estableciendo una red propia de
teleoftalmología, con nodos de captura de imágenes operados por técnicos/as distribuidos
en centros de atención primaria y hospitales sin disponibilidad de profesionales, y un centro
de diagnóstico remoto ubicado en el Hospital El Cruce, que se encarga de informar los
estudios. Se espera que los algoritmos implementados en el marco de este trabajo final
puedan utilizarse en el contexto de esta iniciativa.
Gracias a la detección temprana de la RD en estas campañas y su posterior
tratamiento, es posible lograr eficazmente la prevención de la pérdida de visión y ceguera
en pacientes con diabetes [3]. Además, se ha demostrado que el diagnóstico de forma
remota es comparable y en algunos casos incluso superior a una visita física convencional a
un oftalmólogo [3][4]. Aun así, es de esperar que este tipo de iniciativas genere grandes
volúmenes de imágenes, que requieren de un sistema de diagnóstico robusto y eficiente
para que todo el esfuerzo no sea en vano. Si bien el diagnóstico remoto da buenos
resultados, se encontrará siempre limitado por el tamaño de la población en estudio, ya que
El punto crítico de estas campañas es el análisis de las imágenes obtenidas [4]. Si bien las
lesiones de la RD se pueden ver en las imágenes de fondo de ojo, el problema es que en
estadios más tempranos de la enfermedad aparecen en muy poca cantidad, y generalmente
no están muy localizadas. Sumando esto al hecho de que inicialmente son relativamente
pequeñas, la búsqueda de las mismas por parte de los especialistas es una tarea minuciosa
con un costo de tiempo asociado más que considerable [6]. Como consecuencia, a medida
que aumenta el volumen de imágenes a analizar, menos viable se hace el análisis y
tamizado manual de las mismas, requiriendo dedicar un mayor número de expertos a esta
tarea y reduciendo su disponibilidad para otras tareas de relevancia como el tratamiento.
Actualmente, el objetivo es hacer más accesible la detección temprana de la RD,
aumentando la cantidad de participantes alcanzados pero reduciendo a su vez el costo y el
22
personal requerido. Existen enfoques que utilizan algoritmos basados en Aprendizaje
Profundo, como el planteado en este trabajo, que ayudan a tamizar los casos que requieren
ser controlados por un experto, lo que permite mejorar la costo-efectividad de estas
campañas y evitar la sobrecarga del sistema de salud [4].
2.5. Aprendizaje profundo
En esta sección se abordarán los conceptos y las definiciones necesarias para
comprender en líneas generales las técnicas de Aprendizaje Profundo, que fueron las
elegidas para resolver la problemática planteada en este trabajo.
2.5.1. ¿Qué es el aprendizaje profundo?
El Aprendizaje Profundo o Deep Learning, es un campo del Aprendizaje Automático
constituido por una familia de algoritmos que aprenden a resolver una tarea a partir del
procesamiento de una entrada en diferentes niveles de abstracción. En esta jerarquía, los
niveles más bajos ayudan a definir características que luego son combinadas para definir
nuevas características en los niveles más altos, y que, combinadas, permiten resolver un
problema dado con gran efectividad [33]. Por ejemplo, una imagen es un conjunto de
píxeles, que, agrupados, conforman patrones con un cierto significado visual, como por
ejemplo los bordes entre dos objetos. Un algoritmo de aprendizaje profundo puede aprender
a caracterizar la existencia de este patrón, y a combinarlo con otros para definir patrones
nuevos más complejos, vinculados con por ejemplo la presencia de objetos específicos, que
a su vez son combinados con otras estructuras de la jerarquía para determinar una escena.
23
Figura 8. Red neuronal clásica con una arquitectura totalmente conectada. Las capas están
formadas por neuronas como las mostradas en la Figura 9. Las salidas de una capa se propagan
hacia la siguiente sucesivamente hasta producir los resultados de salida.
El término “aprendizaje profundo” proviene fundamentalmente de los modelos
utilizados en este área, conocidos como redes neuronales (Figura 8). Estos algoritmos
están formados por capas que aprenden a procesar datos de entrada propagando
características extraídas por diferentes capas apiladas, que son combinadas por las capas
más profundas para obtener una salida esperada. En una arquitectura clásica, estas capas
están compuestas por neuronas o perceptrones como los que se observan en la Figura 9.
Estos componentes reciben como entrada los valores de salida de las capas anteriores (o
del propio dato de entrada en caso de pertenecer a la primer capa), y procesan cada
entrada utilizando una serie de pesos según la ecuación:𝑥
𝑖
𝛉
𝑖
(1)𝑓
𝛉
(𝑥) = 𝛉
𝑑
𝑥
𝑑
+ 𝛉
(𝑑−1)
𝑥
(𝑑−1)
+... + 𝛉
1
𝑥
1
+ 𝛉
0
donde es la salida de la neurona. Dado que (1) es una operación lineal, es necesario𝑓
𝛉
(𝑥)
aplicar no linealidades para poder componer o “apilar” esta transformación con otras (de lo
contrario, la salida de las capas futuras sería una mera combinación lineal de las entradas).
Para ello, el resultado de (1) pasa por una transformaciónno lineal conocida como función
de activación, generalmente denotada con el símbolo , para transformarse en ,ϕ ϕ(𝑓
𝛉
(𝑥))
y producir entonces una salida no lineal de esa neurona. Existen diferentes funciones de
activación apropiadas según las circunstancias del problema a resolver. Dentro de las más
utilizadas podemos encontrar a las funciones Sigmoidea (utilizada por lo general en la capa
de salida de las redes de clasificación binaria) y la ReLU. Gracias a esta no-linealidad, la
red puede aprender relaciones no lineales entre los datos de entrada y la salida, y por ende
ajustar funciones de complejidad arbitraria [34]. Matemáticamente, es correcto interpretar
al modelo de aprendizaje profundo como una función que, dados los valores del𝐹
𝛉
(𝑥)
vector entrada y un cierto conjunto de parámetros aprendidos, genera las salidas𝑋 𝛉
. Las salidas dependen de los pesos de cada neurona de cada capa.𝑌𝑝𝑟𝑒𝑑 𝛉
𝑖
El aprendizaje de la red consiste en ajustar todos los pesos de la red de forma tal
que el modelo produzca la salida esperada para una cierta entrada dada. Para ello, se
minimiza una función de error que evalúa las salidas de la red. Ésta metodología varía
24
según el problema abordado se trate como uno de Aprendizaje no Supervisado o
Supervisado.
Figura 9. Neurona o Perceptrón clásico, con su función de activación. En ella se calcula una
combinación lineal de las entradas, a la que luego se le aplica una transformación no lineal dada por
la función de activación.
El Aprendizaje no Supervisado hace referencia a que no existe supervisión del
humano en la fase de entrenamiento. Se utiliza en aquellos casos en los que no se
encuentra definido o no es conocido el valor de salida esperado para los datos de entrada.
En este tipo de aprendizaje, no existen métricas de error, ya que no se sabe exactamente
cuál debería ser la salida esperada de algoritmo y por ende no puede estimarse que tan
lejos se está de la salida correcta [36]. Por el contrario, en el Aprendizaje Supervisado
efectivamente existe alguna supervisión del humano. En el caso de los algoritmos de
clasificación, esta supervisión está dada por el etiquetado de los datos a la clase a la que
pertenece cada muestra [36][34]. A la hora de realizar el entrenamiento, el ajuste de los
pesos de la red se hace en base a una métrica de error, calculada según la diferencia de la
salida de la red ( ) y la clase indicada en la etiqueta ( ), disponible para cada𝑌𝑝𝑟𝑒𝑑 𝑌𝑡𝑟𝑢𝑒
uno de los datos de entrenamiento. Esta forma de aprendizaje es la elegida para la
resolución de nuestra problemática, ya que la presencia/ausencia de RD para una cierta
fotografía de fondo de ojo está bien determinada, y existen diversos conjuntos de datos
etiquetados con el grado de RD correspondiente. Así, el modelo aprenderá a clasificar una
fotografía de fondo de ojo en RD referible o no, intentando reproducir el etiquetado
generado por expertos sobre las imágenes de entrenamiento.
25
Figura 10. Ejemplo de descenso del gradiente con dos variables. El eje X representa los valores del
parámetro , mientras que en el eje Y los del parámetro . En el eje Z se representan la función de𝛉
0
𝛉
1
pérdida J para cada par ( , ), que representa el nivel de error cometido sobre los datos de𝛉
0
𝛉
1
entrenamiento. Fuente: [35].
Para ajustar los pesos de una red en función de los errores cometidos sobre los
datos de entrenamiento, suele utilizarse la técnica de gradiente descendente1 [34]. Ésta
permite minimizar una función de error dada respecto de los pesos . Para ello, se calcula𝛉
𝑖
la función de error para una cierta configuración de parámetros, y se evalúa el gradiente en
el punto para encontrar la dirección en la que el error decrece (Figura 10) [34]. La magnitud
del vector gradiente en cada peso de la red se multiplica por una tasa de aprendizaje o
learning rate, y se utiliza para ajustar cada parámetro, lo que asegura ir aproximándose lo
mejor posible a un mínimo de la función. La actualización se logra propagando los cambios
desde la última capa hacia la primera, en una sola pasada conocida como retropropagación
o backpropagation. Esta técnica se basa en la regla de la cadena, ya que el error de una
capa depende directamente de las capas anteriores [34]. Aplicando este proceso
sucesivamente, la red neuronal se ajusta para lograr que el error de la salida de la red
disminuya, dándose así el aprendizaje.
2.5.2. Redes neuronales convolucionales
Las redes neuronales convolucionales (Figura 11) son un tipo especial de redes
neuronales que funcionan de manera similar a la corteza visual primaria del cerebro. La
principal característica de estas redes es el uso de convoluciones. El término convolución
1 Algoritmo que estima los lugares en donde una función produce los valores mínimos
basándose en recorridos descendentes determinados por las derivadas parciales.
26
refiere a la combinación matemática de dos funciones para producir una tercera función,
combinando así dos conjuntos de información. En el caso de las redes neuronales
convolucionales, la convolución se realiza sobre los datos de entrada, mediante el uso de
un filtro, también llamado kernel, produciendo como resultado un mapa de activaciones del
mismo. El kernel es una matriz bidimensional que contiene parámetros numéricos que se
aprenden durante el proceso de optimización, de forma tal que permitan identificar
características de relevancia. La convolución es aplicada desplazando el kernel sobre cada
vecindario de cada píxel en los datos de entrada, realizando un producto componente a
componente de los valores del kernel con los del vecindario, y sumando los resultados para
construir un mapa de características en donde las regiones similares al contenido del kernel
presentan valores altos, y viceversa [34]. El área de los datos de entrada que se encuentra
cubierta por el filtro en cada operación de convolución se conoce como campo receptivo (o
receptive field), y al número de píxeles o unidades en las que se desplaza el kernel luego de
cada convolución, se lo denomina stride [38]. En la Figura 12 puede apreciarse de manera
visual este mecanismo. Por simpleza, la operación se encuentra explicada en dos
dimensiones, pero en la práctica se aplica un filtro por cada canal de color en la entrada, y
se suman los resultados finales.
Figura 11. LeNet-5, una arquitectura convolucional diseñada por Yann Le Cun para reconocer
dígitos. Cada plano gris representa la salida de una cierta convolución aprendida en la capa anterior.
Fuente: [37].
El kernel sólo puede aplicarse en regiones de la imagen con suficiente información
para construir un vecindario. Así, por ejemplo, no es posible aplicarse en los bordes de la
imagen, ya que no puede extraerse el vecindario correspondiente. Para evitar esto, se
aplica un mecanismo conocido como padding, que consiste en ampliar el tamaño de la
entrada agregando valores especiales (comúnmente ceros) a su alrededor [38], de forma tal
que pueda aplicarse allí el kernel.
27
Figura 12: Ilustración de una convolución. La matriz de la izquierda representa la entrada, mientras
que la de la derecha representa el mapa de activaciones resultante. Se realiza el producto matricial
entre el kernel y el campo receptivo, colocado en función del píxel origen, y la suma del resultado se
coloca en el píxel de destino. Fuente: [88].
En cada capa se realizan varias convoluciones, cada una con su propio filtro o
kernel, resultando en diferentes mapas de activaciones que representan la
presencia/ausencia de ciertas características. Luego, todos estos mapas son unidos
concatenados en tensores para formar la salida final de la capa convolucional [34][38].
El uso de convoluciones tiene varias ventajas al trabajar sobre imágenes. Por un
lado, disminuye la cantidad de parámetros o pesos a entrenar y almacenar, ya que sólo se
entrenan los parámetros de los kernels. Por otro lado, permite detectar relaciones
espacialessobre los datos, y reconocer patrones sin importar en qué región o posición se
encuentren. Además, en línea con lo discutido en la Sección 2.5.1, pueden apilarse
múltiples capas convolucionales para asociar diferentes filtros y niveles de abstracción,
ayudando a extraer características más complejas sobre los datos [34].
28
Figura 13. Ejemplos de operaciones de pooling. En Max Pooling, los entornos se resumen tomando
el máximo valor del mismo, mientras que Average Pooling hace lo propio con el promedio.
Otro tipo de operación característica de las redes convolucionales es la de Pooling
(Figura 13), que resume el contenido de un cierto entorno de píxeles dado y reduce el
tamaño de la entrada. El tipo más común de pooling es el Max Pooling, que produce como
salida el valor máximo de cada subregión [34][38]. Otro tipo de pooling que suele usarse es
el Average Pooling, que resume entornos promediando el contenido de la subregión.
Esta etapa de filtrado de la imagen a través de las capas convolucionales y de
pooling permite aprender y extraer características de relevancia para el problema [34],
resumiendo en un vector la información acerca de los patrones observados en la imagen de
entrada. Posteriormente, este vector se utiliza para resolver la tarea objetivo concreta, que
en nuestro caso es la clasificación de dicha imagen. Esto se logra aprendiendo una serie de
pesos que combinan la información del vector de características para obtener valores de
probabilidad de pertenencia a una determinada clase [34]. La etapa de clasificación suele
realizarse utilizando una capa totalmente conectada como la de las arquitectura
tradicionales vistas en la Sección 2.5.1.
En síntesis, estos modelos aprenden automáticamente características relevantes de
las imágenes mediante la aplicación de diferentes operaciones, como la convolución.
Posteriormente, dicha información es analizada por las capas posteriores para encontrar
nuevas relaciones y características, que permiten al modelo mejorar paulatinamente los
resultados de sus predicciones [39]. Este hallazgo automático de los patrones de interés
29
permite evitar el trabajo de ingeniería manual de características2 que usualmente requieren
los algoritmos de aprendizaje de máquina tradicionales [5].
Es por esto que, las redes convolucionales han demostrado un desempeño
significativo en problemas de clasificación de imágenes [38], lo que motivó escogerlas para
la resolución de la problemática.
2.5.3. Transferencia de aprendizaje
El entrenamiento de una red neuronal es un proceso complicado que puede
demandar largos periodos de tiempo. Los resultados de este proceso dependen
mayormente de la cantidad y características de los datos que se utilicen para hacerlo.
Muchas veces estos resultados no son los esperados, normalmente cuando el volumen de
dichos datos disponibles para el entrenamiento no es lo suficientemente grande. A menudo
suele aliviarse esta dificultad recurriendo a una técnica dentro del aprendizaje automático
conocida como Transferencia de Aprendizaje o Transfer Learning. La misma consiste en
reutilizar para nuestra tarea particular un modelo preentrenado sobre un gran volumen de
datos pero para otra tarea específica, más o menos similar a la que nos compete [34]
(Figura 14). Esta técnica cobra especial relevancia en el contexto del aprendizaje profundo
con redes neuronales convolucionales, ya que muchos de los filtros aprendidos por las
capas convolucionales suelen ser lo suficientemente genéricos como para resolver
problemas comunes [41]. Por ejemplo, los patrones visuales más complejos suelen estar
definidos en función de otros de más bajo nivel como bordes, cambios de iluminación y
formas geométricas [34]. En el caso de las redes neuronales convolucionales
preentrenadas, sus primeras capas suelen estar especializadas en el reconocimiento de
patrones de bajo nivel como bordes entre objetos, que luego pueden reutilizarse en capas
posteriores adaptando sus filtros para reconocer objetos relevantes en el nuevo dominio del
problema. Así, al reutilizar un modelo pre entrenado en un problema similar, se pueden
hacer entrenamientos más cortos para ajustarlos a la nueva problemática, incluso con una
menor cantidad de datos. En nuestro caso, se tomo una red convolucional preentrenada en
ImageNet3, una base de datos con millones de imágenes naturales utilizada normalmente
para resolver problemas de reconocimiento de imágenes, y se la adaptó a nuestro problema
objetivo.
3 Base de datos de imágenes naturales organizadas de acuerdo a la jerarquía WordNet, donde cada
nodo de la jerarquía está representado por miles de imágenes. (http://www.image-net.org/)
2 Método que consiste en crear nuevas características a partir de las existentes, especificadas
explícitamente por un experto.
30
http://www.image-net.org/
Figura 14. Ejemplo genérico de transferencia de aprendizaje. Inicialmente se entrena un modelo para
realizar una tarea relativamente genérica utilizando un gran volumen de datos, y luego se ajustan los
parámetros aprendidos para conseguir un modelo capaz de realizar un problema similar, utilizando
una menor cantidad de datos. Fuente: [40].
2.5.4. Aplicaciones de aprendizaje profundo al reconocimiento de
retinopatía diabética
El proceso de diagnóstico y análisis manual de las imágenes de fondo de ojo
constituye en sí mismo una tarea costosa. Es por esto que existen varios enfoques para
abordar esta problemática basados en algoritmos de aprendizaje de máquina. Si bien los
principios de esta modalidad existen desde hace varios años, se han vuelto populares en
esta área recientemente [42]. Las mejoras en la potencia de cómputo, especialmente en las
unidades de procesamiento de gráficos (GPUs), y la disponibilidad pública de varios
conjuntos de datos son las principales causas de su popularidad [42]. Estos algoritmos, al
automatizar parte del proceso, permiten incrementar la eficiencia, reproducibilidad y alcance
del screening poblacional sobre redes de telemedicina [5].
Dado que el aprendizaje profundo presenta buenos resultados para automatizar el
análisis de imágenes, muchos de los algoritmos más exitosos para reconocimiento de la
retinopatía diabética a partir de fotografías de fondo de ojo se basan en estas técnicas.
Comparándolo con el aprendizaje de máquina tradicional, el aprendizaje profundo presenta
mayor robustez a la hora de aprender y detectar patrones, alcanzando una mejor eficacia
[39]. Las redes neuronales convolucionales son la forma más popular de aprendizaje
profundo para este tipo de análisis [39], ya que evitan la etapa de ingeniería de
31
características, que es tediosa y puede afectar significativamente los resultados. Además,
estos algoritmos suelen aprender características adicionales no conocidas o no utilizadas
por los humanos normalmente, dándole a los especialistas información adicional sobre la
imagen, como variaciones anormales en la vasculatura [43][5]. En muchos casos, esto
también puede representar una limitación dado que, al no saber exactamente qué
características considera el algoritmo, existen posibilidades de que se valga de anomalías
en las imágenes producto por ejemplo a errores de captura, para mejorar erróneamente sus
resultados [5].
Figura 15. Enfoques de aplicación del aprendizaje profundo en la detección de RD. (a) Enfoque
basado en clasificación de imágenes. (b) Enfoque basado en segmentar lesiones. Fuente: figura
propia con imágenes extraídas del conjunto IDRiD [44].
Dentro de los diferentes enfoques de aplicación del aprendizaje profundo para la
detección de RD, se encuentran dos grandes grupos: los enfoques basados en la
segmentación de lesiones típicas de la RD, y los basados en clasificación de imágenes. En
la Figura 15 se ofrece una comparación entre ambos enfoques.
Los métodos basados en segmentación producen máscaras de salida de tamaño
equivalente a la imagen de entrada, indicando para cada píxel si pertenece ono a un
determinado tipo de lesión. Esto requiere entrenarlos utilizando anotaciones a nivel de píxel,
muy costosas de obtener tanto en términos de tiempo como de esfuerzo del observador
32
manual. En consecuencia, los datos disponibles para el desarrollo de este tipo de enfoques
suelen ser relativamente pocos. No obstante, este tipo de modelos tienen la gran ventaja de
proveer mayor feedback a los oftalmólogos, ya que indican precisamente los lugares donde
se hallan las lesiones, permitiéndoles realizar un mejor análisis del estudio. En cualquier
caso, su utilidad para el screening poblacional se ve limitada si no se les incorpora algún
mecanismo complementario que, a partir de las lesiones, indique la probabilidad de
existencia de la enfermedad. En [45], por ejemplo, se propuso un enfoque para detección de
lesiones híbrido, combinando la técnica de aprendizaje automático tradicional de Bosques
Aleatorios y las características aprendidas por una red neuronal de clasificación, para
determinar de forma automática la ubicación de microaneurismas y hemorragias en la
imagen. Para establecer un diagnóstico a nivel estudio, se utilizó la probabilidad más alta de
existencia de lesión. Recientemente, las redes totalmente convolucionales [46] han ganado
mayor popularidad para resolver este tipo de problemas, por su capacidad para aprender
las características más significativas a nivel de pixel. Éstas, mediante una secuencia de
poolings y convoluciones, convierten la imagen de entrada en sucesivos mapas de
activación que posteriormente son decodificados mediante capas deconvolucionales para
reconstruir una segmentación de resolución equivalente a la de la imagen de entrada. En
[47] se propone una solución basada en este tipo de redes, en la que se usan dos de estas,
una para realizar un análisis global de la imagen, y otra para entornos locales. La salida de
ambas es posteriormente combinada para formar un único mapa que unifica la información
proveniente de ambas. Los resultados obtenidos de entrenar y evaluar este enfoque sobre
el conjunto IDRID [44], demostraron que mejoran aquellas soluciones que se basan
únicamente en supervisiones locales o únicamente en supervisiones globales, en algunos
casos [47]. Guo et al. [48] propuso una red totalmente convolucional basada en una
VGG-16 [49], que posee 5 grupos de capas convolucionales que extraen características en
diferentes niveles de abstracción. Luego, estas características son fusionadas mediante
diferentes ponderaciones para cada tipo de lesión. Este enfoque permite segmentar todas
las lesiones típicas de la retinopatía diabética de forma simultánea.
Por su parte, los enfoques basados en clasificación de imágenes se basan en
clasificar al estudio en los diferentes grados o estadios conocidos de la RD. Algunos
enfoques, por el contrario, se concentran en detectar la referibilidad del paciente, asociada
con la necesidad de que sea tratado por un oftalmólogo producto del avance de la
enfermedad. La ventaja del enfoque de clasificación es que los datos para entrenar los
modelos son menos costosos de conseguir, ya que pueden utilizarse imágenes y sus
diagnósticos tal y como son extraídas de registros médicos. Sin embargo, sólo predicen una
probabilidad de que el paciente posea uno de los grados conocidos de la RD, y no brindan
información precisa sobre la localización exacta de las lesiones. Los mapas de atribución
33
[50] permiten aproximar una solución a este inconveniente, ya que indican explícitamente
las áreas tenidas en cuenta por el modelo al momento de realizar la clasificación. En la
Figura 16 puede verse un ejemplo de estos mapas de atribución, superpuestos sobre la
imagen original. Los mismos pueden utilizarse, por ejemplo, para guiar al especialista en el
chequeo de la respuesta del algoritmo, ayudándolo a validarla. El método propuesto en este
trabajo final de carrera corresponde a este tipo de algoritmos, e incorpora además estos
mapas para aumentar la información brindada por el modelo.
Figura 16. Mapas de atribución sobre una imagen de fondo de ojo. (a) Imagen de fondo de ojo
original. (b) Mapa de atribución, superpuesto sobre la imagen original. Cuanto más cercano al rojo es
una región, más consideración tuvo el modelo sobre la misma al generar su salida. Fuente [51].
Los estudios existentes basados en clasificación varían según arquitecturas, datos
utilizados para entrenar y mecanismos específicos diseñados ad-hoc para el problema. En
[5], por ejemplo, se utilizó la arquitectura Inception-V3 propuesta por Szegedy et al. [52].
Gargeya et al. [53], sin embargo, propuso utilizar una arquitectura convolucional
personalizada: emplea una capa convolucional al final de la red que concentra la
información de todas las capas convolucionales, y que permite generar mapas de calor
indicando las regiones de mayor interés para la predicción. En [54] se utilizó un ensamble
de dos redes Inception-V4 [55] pre entrenadas en ImageNet para predecir RD referible.
Abramoff et al. [56] utilizó un conjunto de redes convolucionales inspiradas en la
arquitectura de AlexNet [57] y VGG para mejorar el sistema IDx-DR de detección
automática de RD. Por otro lado, Ting et al. [58] utilizó una adaptación de una arquitectura
34
VGG [49], nuevamente para predecir RD referibile, entrenada sobre imágenes obtenidas del
Programa Nacional de Screening de RD de Singapur.
Los trabajos previamente mencionados suelen entrenar sus algoritmos utilizando
particiones creadas en cada dataset individual, sin combinar datos de múltiples orígenes.
Esto asegura que sean exitosos sobre datos similares, pero que no puedan generalizar
correctamente o que experimenten una caída significativa de performance al aplicarse sobre
datos nuevos.
En un contexto de screening poblacional, es fundamental alcanzar buena
sensitividad y especificidad para minimizar falsos positivos y falsos negativos en los
resultados [5] (ver el Capítulo 5, Sección 5.1). Para lograrlo, es indispensable poder
entrenar los algoritmos con datos con la mayor variabilidad posible, para mejorar su
capacidad de generalización sobre datos nuevos y, en consecuencia, incrementar su
utilidad para ámbitos clínicos reales.
La hipótesis central de este trabajo es que un entrenamiento controlado, utilizando
estudios de diversos orígenes y técnicas de aumentación de imágenes adecuadas, puede
garantizar la efectividad deseada, sin requerir del rediseño de redes neuronales específicas
para el problema. Los detalles respecto a la solución propuesta se abordarán en el próximo
capítulo.
35
Capítulo 3.
Métodos.
El objetivo principal de este trabajo es desarrollar un modelo basado en aprendizaje
profundo que permita determinar la referibilidad de un paciente en base a una fotografía de
su fondo de ojo. En este capítulo se profundizarán los métodos que conciernen a la
implementación de dicho modelo. La Sección 3.1 describe de manera general el enfoque
propuesto. Luego, en la Sección 3.2 se describen los métodos de preprocesamiento
aplicados a las imágenes antes de su utilización. En la Sección 3.3 se explican las
diferentes estrategias de aumentación de imágenes utilizadas al momento de entrenar el
modelo. Por su parte, la Sección 3.4 profundiza acerca de las características generales de
la ResNet-18, arquitectura considerada para la red neuronal convolucional. En la Sección
3.5 se explicarán en detalle los métodos de entrenamiento empleados para el aprendizaje
del modelo y sus características. Posteriormente, en la Sección 3.6 se mostrarán los
métodos de atribución, su funcionamiento y la importancia de los mismos para evaluar el
comportamiento de los modelos. Finalmente, en la Sección 3.7 se detallan las
características técnicas de la implementación en código de todos los mecanismos
mencionados a lo largo de este Capítulo.
3.1. Descripción general.
La Figura 17 representa esquemáticamente el enfoque propuesto en este trabajo.
Inicialmentese recolectaron imágenes de fondo de ojo de numerosos orígenes distintos,
con el objetivo de generar una población diversa lo suficientemente representativa de las
condiciones esperables en un ambiente eventual de despliegue. A partir del uso de métodos
de preprocesamiento (Sección 3.2), se curaron las respectivas bases de datos para
constituir un único conjunto, que fue luego particionado en entrenamiento, validación y test
(ver Capítulo 4. Materiales). Los datos de entrenamiento fueron sometidos a diferentes
estrategias de aumentación (Sección 3.3) para agregarle mayor variabilidad al conjunto, y
utilizadas para aprender una red neuronal convolucional basada en la arquitectura
ResNet-18 (Sección 3.4). Los métodos de aumentación y otros hiperparámetros de
relevancia fueron cuidadosamente seleccionados a los efectos de asegurar el ajuste del
mejor modelo posible (Sección 3.5), a partir de una evaluación cuantitativa realizada sobre
los datos de validación. Finalmente, el mejor modelo fue empleado para la predicción de la
probabilidad de referibilidad o no de la retinopatía diabética a partir de imágenes no
36
utilizadas en el proceso de entrenamiento o ajuste de hiperparámetros. Además, se
utilizaron mapas de atribución para brindar feedback cualitativo respecto a la localización de
signos de relevancia para el hallazgo de la enfermedad (Sección 3.6).
Figura 17. Esquema general del método propuesto. El preprocesamiento tuvo por objeto llevar todas
las imágenes a una resolución estándar. Los datos se particionaron luego en diferentes conjuntos
para entrenamiento, validación y test: con las imágenes de entrenamiento se aprendió el modelo, las
de validación se utilizaron para estimar performance durante el ajuste de los hiperparámetros de las
estrategias de aumentación de imágenes, y las de test se emplearon para evaluar el modelo final con
las métricas propuestas y observar el comportamiento de los mapas de atribución.
3.2. Preprocesamiento de los datos.
Los métodos de aprendizaje profundo requieren contar con grandes volúmenes de
datos para mejorar su desempeño. Utilizar datos que provengan de múltiples orígenes,
además. suele garantizar un incremento en la capacidad de generalizar sobre datos
diversos. No obstante, es necesario aplicar de forma previa estrategias de
preprocesamiento que permitan uniformar los diferentes conjuntos empleados, para evitar
37
que factores ajenos a lo que se observará en tiempo de test puedan afectar al
entrenamiento.
La primera diferencia tratada fue la resolución de las imágenes. Al provenir de
diferentes conjuntos, es esperable que se hayan adquirido utilizando diferentes dispositivos
de captura, resultando así en una gran variedad de resoluciones. En su mayoría, estas
imágenes no son cuadradas, y contienen regiones negras en los laterales que no aportan
ningún tipo de información y ocuparían inútilmente lugar en memoria. Si se adaptara la
resolución de todas las imágenes sin tener esta particularidad en consideración, las
imágenes resultantes contendrían muy pocos píxeles con información de utilidad, y sería
difícil obtener resultados satisfactorios. Para resolver este inconveniente, en primer lugar, se
segmentó el área de interés, también conocida como campo de visión o Field Of View
(FOV), utilizando el método de Otsu [59]. Este algoritmo permite hallar automáticamente los
umbrales de intensidad de escala de grises óptimos para poder segmentar objetos de una
imagen. Para hacerlo, busca separar los píxeles de la imagen en dos clases (fondo y primer
plano) maximizando la varianza interclase a partir de la distribución del histograma [59].
Luego, al aplicar estos umbrales sobre la imagen, se asigna a cada píxel su clase
correspondiente según sea parte del FOV o no, obteniendo como resultado una máscara
binaria. De esta máscara se extrae el área rectangular que envuelve al FOV (bounding box),
para obtener la región a recortar sobre la imagen original. El resultado es una imagen con
relación de aspecto más similar a la de una imagen cuadrada.
Luego de este procedimiento, las imágenes siguen presentando una gran variedad
de resoluciones que deben uniformarse para poder integrar diferentes estudios en un mismo
lote al alimentar la red neuronal. De igual forma, debe tenerse en cuenta el compromiso
entre preservar imágenes de alta resolución (lo que otorga al modelo más información
acerca del estado de la retina) y el costo computacional del entrenamiento (las imágenes de
mucha resolución requieren lecturas de disco más largas y ocupan más lugar en memoria,
lo que obliga a utilizar lotes más pequeños e incrementa el costo de cada época de
entrenamiento). Se decidió entonces llevar todas las imágenes a una resolución estándar de
512 x 512 píxeles, en la que los signos de la retinopatía diabética son aún observables y
que permite realizar un entrenamiento eficiente. La Figura 18 ilustra todo el procedimiento
de estandarización de resolución para una imagen de ejemplo.
38
Figura 18. Ejemplo de estandarización de resolución de una imagen de fondo de ojo. (a) Imagen
original sin preprocesar. (b) Extracción de la máscara binaria del FOV, y obtención de su bounding
box. (c) Imagen original con el bounding box resultante superpuesto. (d) Imagen recortada según
dicho bounding box, y llevada a la resolución final.
3.3. Estrategias de aumentación de imágenes
Al momento de entrenar modelos de aprendizaje profundo, suele suceder que estos
tiendan a “memorizar” los datos de entrenamiento. Este fenómeno se conoce como
sobreentrenamiento (u overfitting) [34], y debe evitarse para asegurar que el modelo actúe
con efectividad en tiempo de test sobre casos nunca antes vistos. Para ello es necesario
entrenar las redes sobre grandes volúmenes de datos, aunque en la práctica la cantidad de
imágenes disponibles suele ser limitada dependiendo del dominio [34]. Es por esto que
existen lo que se conoce como estrategias de aumentacion de imágenes, un conjunto de
mecanismos que permite crear nuevas instancias de los datos a partir de otros ya existentes
mediante la aplicación de una serie de transformaciones. Es importante aclarar que estas
operaciones no deben ser demasiado severas y que las imágenes resultantes deberán ser
plausibles de ocurrir en un escenario real y contener la información necesaria para que el
modelo pueda resolver la tarea para la cual está siendo entrenado. Por ejemplo, si
intentamos reconocer objetos en imágenes, podemos cambiarlos de posición, rotarlos o
39
escalar la imagen, sin que estos cambios alteren la presencia del objeto. De esta forma, se
logra obtener un mayor volumen de datos más diversos para entrenar, reduciendo el riesgo
de que la red tenga overfitting. Es por esto que se optó por la utilización de esta técnica al
momento de desarrollar el modelo, eligiendo aleatoriamente cuándo y qué transformaciones
aplicar sobre cada imagen, y con qué parámetros.
Figura 19. Ejemplo de aplicación sucesiva de transformaciones sobre una imagen de entrada para la
aumentación de datos. La fotografía corresponde a un estudio del conjunto ODIR [60].
Las transformaciones que se evaluaron son muy populares en el área de
visualización computacional con aprendizaje profundo, y se ejecutaron en el siguiente
orden:
1. Color Jitter: induce cambios en los colores de la imagen al variar su contraste,
saturación y brillo, lo que permite simular diferentes configuraciones en la cámara
usada para capturarlas, distintas pigmentaciones en el fondo de ojo o incluso
perturbaciones producto de la luz ambiente.
2. Volteo horizontal o vertical aleatorio: aleatoriamente se espeja la imagen respecto al
eje elegido.
3. Rotación: con eje en el centro de la imagen, se rota la imagen en un ángulo aleatorio
dentro de un rango predefinido.
4. Escalado de la imagen: se realiza un cambio en el tamaño de la imagen, haciéndola
más grande o más pequeña, lo que representa un acercamiento (zoom in) o
alejamiento(zoom out) de ella, respectivamente.
40
5. Recorte aleatorio: se extrae un parche de tamaño predefinido a partir de una
ubicación aleatoria de la imagen original.
La Figura 19 muestra un ejemplo de la aplicación de estas transformaciones. Es
importante destacar que estas transformaciones fueron especialmente calibradas intentando
conservar al máximo las características más comunes de una imagen de fondo de ojo
realista. En caso contrario, y como se mencionó anteriormente, el modelo no sería capaz de
aprender sobre estas imágenes.
3.4. Arquitectura considerada
La arquitectura de red neuronal convolucional utilizada en este trabajo es la ResNet
[61]. La principal característica de esta arquitectura es que utiliza bloques residuales (Figura
20). Estos bloques consisten en un conjunto de capas conectadas en serie, en los que la
entrada de la primera capa está conectada con la salida de la última. Esta conexión actúa
como una suerte de “atajo”, que permite llevar al final del bloque residual los valores de
entrada del mismo, y combinarlos con su salida. Así, si la salida de las capas intermedias
del bloque fueran valores pequeños o nulos, su comportamiento en el contexto de una red
residual sería el de una especie de “capa identidad”, donde el valor de la entrada es igual al
de su salida. El origen de esta arquitectura estuvo motivado por la necesidad de un método
que permita mitigar el problema del desvanecimiento del gradiente en arquitecturas muy
profundas. Propuesta originalmente en [61], esta red suele mostrar una efectividad superior
a la de modelos de igual profundidad pero que no cuentan con estas conexiones. En
particular, en el artículo que las introduce se muestra que el error del modelo fue
notablemente disminuido sobre imágenes del conjunto de validación de ImageNet [61].
Como resultado, este enfoque obtuvo el primer lugar en la competencia ILSVRC y COCO
en 2015, logrando un error de 3,6% [62]. Es así que se volvió popular en numerosas
aplicaciones de clasificación de imágenes [63][64][65], incluyendo en oftalmología
[66][67][68]. Debido a su gran popularidad y desempeño en clasificación de imágenes, se
decidió considerarla como arquitectura para resolver nuestra problemática.
41
Figura 20. Bloque residual típico de una red ResNet, compuesto de capas convolucionales
tradicionales separadas por una función de activación (ReLU, en este caso), a las que se les agrega
una conexión de adelantamiento o skip connection que transmite los valores de la entrada a la salida
del bloque, donde se suman. Nótese que los valores que pasan por la conexión de adelantamiento
no son modificados (operación identidad). Fuente: [61].
En nuestro caso, se utilizó la versión de 18 capas, conocida como ResNet-18, pre
entrenada en ImageNet y adaptada para resolver nuestro problema de clasificación binaria
(Figura 21). La etapa inicial de esta arquitectura recibe la imagen de entrada y consiste en
una capa convolucional con un kernel de 7 x 7 y un stride de 2, seguida de una capa de
Max Pooling con un kernel de 3 x 3 y un stride de 2. Luego, se suceden 4 grupos de 4
capas cada uno, dentro de los cuales sus capas internas se estructuran de la misma forma.
Cada uno de estos grupos está formado por capas convolucionales con kernels de 3 x 3 y
strides de 1, exceptuando a la capa inicial de cada grupo que tienen strides de 2. Cada par
de capas está conectado a la salida del par anterior y a la vez a su entrada, a través de los
adelantamientos de conexiones. La única diferencia entre las capas de diferentes grupos es
la dimensión de los mapas de características que generan. En el primer grupo, se generan
64 mapas de características de 56 x 56 píxeles. Conforme se va avanzando por los grupos,
se duplica la cantidad de mapas de características pero se disminuye su tamaño. De esta
forma, por ejemplo, en el segundo grupo de capas se obtienen 128 mapas de 28 x 28
píxeles. Esto se repite sucesivamente hasta llegar al cuarto y último grupo de capas, donde
se obtiene como salida 512 mapas de 7 x 7 píxeles. La salida de este grupo, es seguida por
una capa de pooling por promedio global, o Global Average Pooling, que calcula el
promedio de cada uno de los canales del mapa de activaciones en la entrada para generar
un único vector de dimensión equivalente a la cantidad de canales promediados (en este
caso, 512 elementos). Finalmente, una capa totalmente conectada toma estas
características y las utiliza para clasificar la entrada en N clases. En este trabajo, la capa
produce dos valores de salida, asociados a las clases RD referible y RD no referible. Para
42
poder convertir estos valores en probabilidades, se utiliza una función de activación
softmax. La salida de la red está constituida entonces por dos valores de probabilidad,
fácilmente interpretables.
Figura 21. Arquitectura de una ResNet-18 adaptada a nuestro problema. Las líneas
punteadas en los adelantamientos de conexiones indican que la dimensión de la entrada de
esa capa y la de la conexión que llega no se corresponden y debe tratarse con padding.
3.5. Metodología de entrenamiento
En esta Sección se describirán los detalles de las metodologías de entrenamiento
empleadas para el desarrollo del modelo. En la Sección 3.5.1 se disponen las
particularidades tenidas en cuenta para diseñar el modelo, mientras que en la Sección 3.5.2
se presenta la estrategia empleada para escoger las configuraciones de los
hiperparámetros correspondientes a cada estrategia de aumentación de imágenes.
3.5.1. Detalles del modelo
El modelo utilizado fue inicializado con parámetros aprendidos sobre los datos de
ImageNet para la resolución del problema de clasificación de imágenes naturales en 1000
categorías. Una vez inicializado, se adaptaron sus entradas y la capa de salida para
corresponderse con nuestro problema de clasificación binaria, y se procedió luego a
entrenarlo.
La función de pérdida elegida para el entrenamiento fue la Entropía Cruzada [34] (o
Cross Entropy Loss), y los parámetros de la red fueron optimizados empleando el algoritmo
de descenso estocástico de gradiente Adam [69] por un total de 150 épocas, con una tasa
de aprendizaje inicial de 1e-4. La tasa de aprendizaje se fue ajustando durante el
entrenamiento monitoreando la performance del modelo al final de la época sobre los datos
43
de validación. En particular, cuando se percibió un amesetamiento en la métrica de
exactitud (accuracy) por un máximo de 10 épocas, se redujo la tasa de aprendizaje a la
mitad, lo que favoreció ir mejorando paulatinamente los resultados. Como regularizador, se
utilizó también la estrategia basada en decaimiento de pesos (weight decay) con un valor de
1e-3 [70]. En cuanto al tamaño de cada batch se estableció en 32 imágenes, seleccionadas
aleatoriamente a partir del conjunto de entrenamiento. Las entradas fueron normalizadas,
en los 3 canales primero en el intervalo [0, 1] a partir del valor máximo de intensidad 255, y
luego convertidas al intervalo [-1, 1] restando 0,5 y dividiendo por 0,5. Esto fue necesario
para hacerlas consistentes con los valores esperados por la arquitectura preentrenada.
En lugar de utilizar los últimos modelos obtenidos tras las 150 épocas de
entrenamiento, se eligieron para la posterior evaluación aquellos modelos intermedios que
presentaron valores de accuracy máximos.
3.5.2. Calibrado de la estrategia de aumentación
Cada estrategia de aumentación de imágenes presentada en la Sección 3.3 tiene
sus propios parámetros que determinan el resultado de las transformaciones y, en
consecuencia, pueden afectar los resultados. Es por esto que se planteó una estrategia
experimental basada en selección hacia adelante o forward selection, para mejorar
incrementalmente la configuración de cada transformación, de forma incremental. En cada
ronda de este procedimiento, se escogió una transformación específica y se varió uno de
los parámetros de la misma dentro de un conjunto de valores