Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Nacional del Centro de la Provincia de Buenos Aires Facultad de Ciencias Exactas Algoritmos de aprendizaje profundo para soporte al diagnóstico de la retinopatía diabética en fotografías de fondo de ojo Trabajo Final de Carrera presentado para obtener el título de Ingeniero de Sistemas por Tomas Castilla Directores Dr. José Ignacio Orlando (FCEx-UNICEN, CONICET) Dr. Ignacio Larrabide (FCEx-UNICEN, CONICET) Resumen La Retinopatía Diabética (RD) es una complicación microvascular producida por la diabetes mal tratada e inicialmente asintomática, que constituye la principal causa de ceguera prevenible en adultos en edad laboral. Para evitar la pérdida irreversible de la visión, se recomienda a las personas diabéticas concurrir al menos una vez al año al oftalmólogo a hacerse un chequeo de las retinas, para verificar si éstas presentan signos de relevancia que requieran iniciar un tratamiento pronto. En Argentina se estima que 1.8 millones de personas entre 20 y 79 años padecen de diabetes, y que esta cifra ascenderá a 2.5 millones hacia 2050 (un 6.9% de la población adulta del país). Un 77% de estas personas no cumple con el control oftalmológico anual, presumiblemente a raíz de la limitada cantidad de profesionales disponibles, calculada en 8 oftalmólogos cada 100.000 habitantes. Para mitigar esta dificultad, se ha propuesto realizar campañas de tamizado basadas en telemedicina para hallar tempranamente casos de riesgo mediante fotografías de fondo de ojo, una modalidad de imagen médica no invasiva, de bajo costo y fácil captura, que puede adquirirse sin necesidad de un oftalmólogo en el lugar. Las mismas se transmiten hacia un centro de informes, donde un grupo de profesionales determina qué casos requieren tratamiento. Sin embargo, el número elevado de estudios que se capturan hace inviable analizarlos a todos sin perjudicar la necesidad de profesionales para tratamiento, por lo que es deseable contar con herramientas que permitan filtrar los casos que no revisten gravedad, para concentrarse en los de interés y hacer un uso eficiente del recurso humano. En este trabajo final de carrera se introduce un modelo de inteligencia artificial basado en redes neuronales convolucionales que permite identificar automáticamente casos de retinopatía diabética que requieren ser referidos a un oftalmólogo. El mismo utiliza una arquitectura ResNet-18 preentrenada sobre imágenes naturales del banco ImageNet, adaptada para resolver esta problemática. Para asegurar su robustez ante variaciones en el escenario de despliegue, el modelo se reentrenó cuidadosamente sobre un conjunto curado de datos de entrenamiento construido a partir de un relevamiento de bancos de imágenes públicos disponibles, formado por estudios adquiridos con diversas cámaras y distintas etnias, resoluciones y orígenes. Con igual objetivo, se utilizó una estrategia basada en el calibrado iterativo de los parámetros empleados para la aumentación de imágenes. Finalmente, se integraron al modelo mecanismos de visualización de atribuciones que permiten indicar las regiones tenidas en cuenta por el modelo para realizar la predicción. 2 El modelo final fue evaluado sobre un conjunto de 55.997 imágenes de múltiples orígenes, obteniendo resultados comparables a los del estado del arte. Desde el punto de vista cualitativo, se observó que el modelo identifica lesiones vinculadas con la existencia de la retinopatía diabética para dar su predicción. Además, se observó que el método es robusto ante la presencia de comorbilidades, que no afectan su desempeño para identificar la enfermedad. El método será integrado en el mediano plazo en una plataforma de telemedicina oftalmológica para detectar casos de retinopatía diabética que deban referirse a un profesional. 3 A mis padres, el mejor ejemplo de esfuerzo, dedicación y vocación que alguien puede tener. Al abuelo Fernando, que donde sea que esté, seguro que está orgulloso de mi. 4 Agradecimientos Quiero agradecer inmensamente a todas las personas que, de algún u otro modo, ayudaron a que llegue este momento tan importante para mi. Antes que nadie, a Mamá, Papá y Cami, quienes incondicionalmente siempre estuvieron ahí para brindarme lo que me hiciera falta, y mucho más. A mis compañeros que terminaron convirtiéndose en mis amigos del alma, con quienes siempre nos apoyamos mutuamente para salir adelante en los momentos más difíciles. A mi novia, quien incluso a la distancia, siempre estuvo muy cerca para apoyarme e incentivarme a seguir avanzando. A mis directores, Nacho Orlando y Nacho Larrabide, quienes me marcaron el camino a seguir a lo largo de todo este trabajo. A mis abuelos, tíos, primos y amigos de toda la vida, que siempre me dieron una mano cuando hizo falta. A todos ellos, gracias de corazón. 5 Índice Resumen 2 Agradecimientos 5 Índice 6 Capítulo 1. 8 Introducción 8 1.1. Descripción de la problemática 8 1.2. Objetivos 9 1.3. Vinculación con contenidos de la carrera 10 1.4. Organización del trabajo 11 Capítulo 2. 12 Estado del arte. 12 2.1. El ojo y la retina 12 2.2. La retinopatía diabética 15 2.3. Fotografías de fondo de ojo 18 2.4. Tamizado de retinopatía diabética mediante fotografías de fondo de ojo 20 2.5. Aprendizaje profundo 23 2.5.1. ¿Qué es el aprendizaje profundo? 23 2.5.2. Redes neuronales convolucionales 26 2.5.3. Transferencia de aprendizaje 30 2.5.4. Aplicaciones de aprendizaje profundo al reconocimiento de retinopatía diabética 31 Capítulo 3. 36 Métodos. 36 3.1. Descripción general. 36 3.2. Preprocesamiento de los datos. 37 3.3. Estrategias de aumentación de imágenes 39 3.4. Arquitectura considerada 41 3.5. Metodología de entrenamiento 43 3.5.1. Detalles del modelo 43 3.5.2. Calibrado de la estrategia de aumentación 44 3.6. Métodos de atribución 45 3.7. Implementación 49 3.7.1. Pruebas preliminares 49 3.7.2. Implementación final 50 Capítulo 4. 52 Materiales. 52 4.1. Datos utilizados 52 6 4.2 Conjunto IDRiD 52 4.3 Conjunto Kaggle 54 4.4 Conjunto Messidor-2 56 4.5 Conjunto ODIR 58 4.6 Conjunto DiaRetDB1 60 4.7 Conjunto Global 61 Capítulo 5. 64 Resultados 64 5.1. Métricas de evaluación 64 5.2. Selección del mejor modelo 67 5.3. Resultados cuantitativos sobre los casos de test 70 5.4. Evaluación de los mapas de atribución 75 5.4.1. Comparación de mapas 75 5.4.2. Evaluación cualitativa de los resultados 79 5.6. Discusión 83 Capítulo 6. 87 Conclusiones 87 Bibliografía 89 7 Capítulo 1. Introducción 1.1. Descripción de la problemática La Retinopatía Diabética es una complicación microvascular que se desarrolla en personas con diabetes de tipo 1 y tipo 2. Se da en casi todas las personas con diabetes de tipo 1, y en más del 77% en aquellas que tienen tipo 2 y hayan tenido por más de 20 años la enfermedad. Constituye la tercer causa de ceguera a nivel mundial y la primera de países en desarrollo [1]. La Organización Mundial de la Salud (OMS) estima que esta enfermedad es la responsable de 4.8% de los 37 millones de casos de ceguera en el mundo [2], aún a pesar de que puede prevenirse a través de un control oftalmológico anual para un diagnóstico temprano. Las imágenes de fondo de ojo constituyen una herramienta fundamental para el diagnóstico de enfermedades como la Retinopatía Diabética. En ellas, se manifiestan gran parte de las lesiones producidas de forma temprana por esta enfermedad. Representan una técnica muy sencilla, no invasiva y de bajo costo, ideal para el tamizado o screening de poblaciones de riesgo [3]. Aun así, el análisis manual de estas imágenes por parte de personal especializado es un proceso extremadamente minucioso y exhaustivo. En campañas de detección temprana sobre poblaciones, en las que el volumen de imágenes es elevado y el tiempo con el que se cuenta es acotado [4], se hace inviable realizar el análisis de dichas imágenes en forma manual. Es por esto que existe un gran interés en desarrollar algoritmos que puedan realizareste tipo de análisis de manera automática, aportando asistencia a los especialistas en el diagnóstico y seguimiento de estas enfermedades. Se ha demostrado que mediante estos enfoques es posible aumentar la eficiencia, reproducibilidad y alcance de las campañas de screening poblacional, sobre todo en redes de telemedicina [5]. 8 1.2. Objetivos El proceso de análisis manual de una imagen de fondo de ojo es una tarea costosa en tiempo y esfuerzo. Además, los diagnósticos entre diferentes especialistas pueden diferir debido a la experiencia profesional, la calidad de las imágenes o la fatiga que genera el análisis consecutivo de varias de estas [6]. El objetivo principal de este trabajo es desarrollar un algoritmo de aprendizaje profundo que, dada una imagen de fondo de ojo, determine la probabilidad de que el paciente en estudio esté desarrollando un grado avanzado o moderado de la enfermedad. Adicionalmente, se pretende que dicho modelo indique aquellas regiones que consideró de interés mediante por ejemplo mapas de calor, con el objetivo de facilitar a los especialistas la validación de las salidas del algoritmo. Se espera que estos mapas señalen estructuras anatómicas de la retina como la fóvea, y lesiones típicas de la Retinopatía Diabética, como hemorragias y microaneurismas. Se espera que esta solución se convierta en una herramienta útil para los especialistas a la hora de diagnosticar esta enfermedad, permitiendo mejorar el desempeño, eficacia y eficiencia en las campañas de screening poblacional. Esta tesis de grado fue realizada en el Grupo Yatiris del Instituto PLADEMA, en colaboración con el Hospital El Cruce y el Centro Oftalmológico Martínez, y en el marco de una Beca INI 2020 de Iniciación a la Investigación financiada por el Programa de Fortalecimiento de la Ciencia y Tecnología en Universidades, de la Secretaría de Ciencia, Arte y Tecnología de la UNICEN. 9 1.3. Vinculación con contenidos de la carrera A lo largo de la carrera de Ingeniería de Sistemas, se fueron aprendiendo contenidos que fueron fundamentales para poder entender la problemática abordada en este trabajo final y plantear una solución a la misma. A continuación, se detallan algunas de las materias que tuvieron mayor relevancia sobre la formación de estos contenidos. Los modelos de aprendizaje profundo están basados prácticamente en su totalidad sobre conceptos matemáticos. Es por esto que materias como Análisis Matemático II, Cálculo Diferencial e Integral y Álgebra Lineal aportaron el marco teórico necesario para poder comprender cómo es que funcionan los métodos de optimización y otros algoritmos de entrenamiento que están detrás de estos modelos. Por otro lado, el curso de Probabilidades y Estadística, junto con las asignaturas mencionadas anteriormente, también ayudaron a comprender los mecanismos mediante los cuales los modelos generan sus salidas, y cómo estas pueden ser interpretadas correctamente. Los contenidos vistos en estas asignaturas fueron posteriormente complementados por los cursos optativos de Inteligencia Artificial e Introducción a las Redes Neuronales y Aprendizaje Profundo. Estos aportaron conocimientos cruciales que permitieron entender las características generales de cada modelo dentro del aprendizaje de máquina y el aprendizaje profundo, fundamentalmente las redes neuronales convolucionales. En estas materias también se brindó información importante para una correcta interpretación de las diversas métricas que miden la performance de estos modelos. Además, también se dieron a conocer los diferentes métodos de preprocesado de datos, y su importancia a la hora de desarrollar los modelos. Cuando se trató de implementar las funcionalidades en código, los contenidos vistos en Lenguajes de Programación I permitieron un mejor entendimiento sobre el funcionamiento del lenguaje dinámico Python y los diversos mecanismos que hay detrás de éste. Asimismo, al momento de realizar un modelado correcto de las clases implementadas desde el punto de vista del paradigma de Orientación a Objetos, fueron muy útiles los conocimientos vistos en la materia Programación Orientada a Objetos. Ésta también ayudó a poder entender, implementar, reutilizar y adaptar código previamente desarrollado por el grupo Yatiris para nuestro problema. 10 1.4. Organización del trabajo Este trabajo se encuentra organizado en 6 capítulos, en los que se abordan los diferentes aspectos del desarrollo realizado. En el Capítulo 2, se mencionan y explican los conceptos fundamentales para poder comprender el resto del trabajo, incluyendo aspectos médicos y técnicos y una cobertura del estado del arte. En el Capítulo 3, se tratan en detalle los métodos propuestos y desarrollados para darle solución a la problemática, así como las diversas decisiones que fueron tomándose a lo largo del trabajo. En el Capítulo 4, se mencionan los conjuntos de datos utilizados para el desarrollo del modelo, y sus características. En el Capítulo 5, se presentan los resultados obtenidos de los experimentos realizados, especificando la organización de los datos, las configuraciones de los modelos y sus evaluaciones con diferentes métricas. Por último, en el Capítulo 6, se mencionan las conclusiones finales en base a los resultados obtenidos y al desarrollo de este trabajo, como también posibles trabajos futuros que pudieran abordarse con posterioridad. 11 Capítulo 2. Estado del arte. En este capítulo se darán a conocer algunos detalles sobre los conceptos básicos necesarios para poder entender la problemática planteada en este trabajo. La Sección 2.1 describe anatómica y fisiológicamente al ojo, poniendo especial énfasis en la retina, que constituye la estructura anatómica sobre la que se enfoca esta tesis. En la Sección 2.1 se abordará en detalle la Retinopatía Diabética, sus diferentes grados, lesiones y consecuencias que genera en la visión. La Sección 2.3 trata sobre las Fotografías de Fondo de ojo, modalidad de imagen médica fundamental para el diagnóstico de la Retinopatía Diabética. En la Sección 2.4 se aborda el tamizado de la Retinopatía Diabética mediante las imágenes de fondo de ojo, y la importancia de brindar herramientas que permitan acelerar dicho proceso. Finalmente, en la Sección 2.5 se presenta al Aprendizaje Profundo, método elegido para el desarrollo de la solución de la problemática, explicando principalmente Redes Neuronales Convolucionales, Transferencia de Aprendizaje, y por último algunas aplicaciones existentes para el reconocimiento automático de Retinopatía Diabética. 2.1. El ojo y la retina La visión es uno de los sentidos más importantes del ser humano. El sistema biológico que la posibilita involucra la interacción entre dos órganos: los ojos y el cerebro. Los primeros son los responsables de enfocar y transformar la luz en impulsos nerviosos, que son enviados al cerebro a través del nervio óptico. Allí, estos impulsos son procesados para ser interpretados luego como una imagen. El ojo o globo ocular (Figura 1) constituye el órgano fundamental del aparato de la visión [7]. Está situado en la parte anterior de la órbita craneal, posee forma esférica, mide en promedio 24mm en sentido anteroposterior y 23 mm transversalmente y está compuesto por una pared y un contenido. La pared está formada por 3 membranas concéntricas: una membrana externa o protectora, una membrana media o vascular y una interna o sensorial. [7][8]. La membrana fibrosa está compuesta por la esclerótica (hacia atrás) y la córnea (hacia adelante) [7][8]. La esclerótica es una membrana inextensible y resistente que toma la forma del ojo. Conforma las ⅚ partes posteriores de la membrana fibrosa. Mide aproximadamente 1mm de espesor, es lisa y de color blanco. Posee varios orificios por donde pasan los vasos sanguíneos y 12 nervios que van y vienen hacia el globo ocular. La córnea constituye el segmento anterior de la membrana fibrosa, representando el⅙ restante de esta. Es redondeada, perfectamente transparente, avascular, y al tener forma de esfera con un radio menor a la esclerótica, sobresale en la parte anterior del ojo. Posee dos caras, anterior y posterior, que son lisas y brillantes. La cara anterior tiene forma convexa y la posterior cóncava [7][9]. La membrana vascular está compuesta por el iris, el cuerpo ciliar y la coroides. El iris constituye la parte anterior de esta membrana y posee un orificio central llamado pupila. El iris tiene la importante función óptica de regular el tamaño de la pupila para aumentar o disminuir la cantidad de luz que la atraviesa [10][9]. El cuerpo ciliar es importante para el proceso de la acomodación, y en conjunto con la coroides intervienen en importantes procesos vegetativos. La coroides se encuentra entre la esclerótica y la retina. Está formada por una red de capilares que brindan oxígeno y sangre a las demás capas [9]. Es negra, lisa, y está pegada a la retina, sin adherirse a esta. Posee en su parte posterior un orificio por el que pasa el nervio óptico [7]. Figura 1. Ilustración de un corte transversal del ojo, con las regiones anatómicas mencionadas. Fuente: [86]. Existen, dentro del globo ocular, un conjunto de elementos llamados medios transparentes. Estos, justamente son enteramente transparentes, y comprenden el humor acuoso, la lente y el cuerpo vítreo. El humor acuoso es un fluido que se encuentra entre el iris y la córnea y entre el iris y el lente. Su función principal es la de mantener la presión interna del globo ocular. La lente se encuentra situada posteriormente al iris. Es biconvexa, 13 transparente, elástica y firme. Su función es enfocar los rayos de luz de objetos que se encuentran a diferentes distancias [10]. El cuerpo vítreo, finalmente, es un líquido viscoso que llena la cavidad posterior a la lente [7]. Figura 2. Ilustración de la retina, con las estructuras anatómicas mencionadas. Fuente: [87]. La retina (Figura 2) es la estructura anatómica que más concierne a este trabajo final. Es la membrana interna y sensorial del globo ocular, y cubre a la membrana vascular. Se trata de una extensión del sistema nervioso central donde comienza el procesamiento de la información luminosa. Como la esclera y la coroides, también la retina adopta la forma de una esfera abierta por delante, con una cara interna y una externa. La cara externa es convexa y está en contacto con la coroides. La cara interna es cóncava, lisa, rosada y vascular, y contacta con el vítreo [8][7]. Macroscópicamente, en la cara interna de la retina se distinguen dos zonas: la central y la periférica. La retina central tiene unos 5 a 6 mm de diámetro, y corresponde al polo posterior del ojo. Allí se encuentra la papila óptica, que se observa como un disco rojizo, amarillo rojizo o rosado, de 1.5 mm de diametro [8]. La arteria central de la retina emerge de este disco, y se divide en forma dicotómica, como las ramas de un árbol. Las venas también penetran por este disco, y presentan un comportamiento similar. Las células de la retina encargadas de transformar la luz en impulsos eléctricos se conocen como fotorreceptores, y se dividen en dos tipos: bastones y conos. Los conos son los responsables de la visión diurna y de percibir colores, y los bastones funcionan con luz más débil y perciben escalas de grises [10]. En el centro de la retina se encuentra una región, de aproximadamente 5.5mm, llamada mácula lútea, que posee mayor densidad de conos que las regiones periféricas. En el centro de esta región, se encuentra una depresión 14 visualmente más oscura, la fóvea, que es aproximadamente circular y de 1.5 mm de diámetro, y que tiene una mayor sensibilidad para la percepción de detalles. Gracias a la interacción de todas estas estructuras anatómicas, es que se logra la visión [9]. Inicialmente, los rayos de luz atraviesan la córnea. Luego, el iris regula la cantidad de luz que ingresa al contraerse o dilatarse, cambiando el tamaño de la pupila. A través de un proceso conocido como acomodación, el lente será quien se encargue de enfocar esta luz en la retina, según provenga de reflexiones sobre objetos cercanos o lejanos. Una vez enfocada la luz, especialmente en la mácula, los conos y bastones convierten la información luminosa en impulsos nerviosos, que son enviados posteriormente al cerebro, donde se los interpreta formando una imagen. 2.2. La retinopatía diabética La Diabetes, o Diabetes Mellitus, es un conjunto de trastornos metabólicos cuya característica principal es la concentración elevada de glucosa en la sangre de manera persistente o crónica [11], conocida como hiperglucemia. Las causas principales de esta son la falta de producción de insulina, una hormona encargada de procesar la glucosa, o la resistencia del organismo a utilizarla para este propósito [12]. La diabetes, en general, se puede clasificar en dos tipos: Tipo 1 y Tipo 2. Por un lado, la diabetes Tipo 1 inicia en pacientes jóvenes (niños o adolescentes) que no producen insulina, y que por ende son insulinodependientes. En este caso, la falta de producción de insulina se da por la destrucción de ciertas células del páncreas. Es el tipo menos común de diabetes, abarcando del 5% al 10% del total de casos [13]. La diabetes de Tipo 2 generalmente se inicia en adultos de 50 a 70 años, más frecuentemente en personas obesas o con una predisposición genética a padecerla [14]. Se caracteriza por la resistencia a la insulina, cuando el cuerpo no puede utilizarla para procesar la glucosa [15]. Este es el tipo más común de diabetes, con un porcentaje que va desde el 90% al 95% [14]. La complicación más común producida por la diabetes, es la Retinopatía Diabética [12]. Constituye la principal causa de ceguera irreversible en pacientes de entre 20 y 64 años de edad, es responsable de un 10% de los casos de ceguera anuales [18], y es una de las principales causas de ceguera a nivel mundial [19]. Esto se debe en parte a la elevada prevalencia de la diabetes en sí misma, que se estima que aumente de 415 millones de personas observadas en todo el mundo en 2015 a unas 642 millones en 2040 [17]. La hiperglucemia generada por la diabetes sin tratarse por largos periodos de tiempo genera una serie de cambios en la permeabilidad y resistencia de las paredes vasculares, alterando también el flujo sanguíneo [22][23]. Esto hace que el contenido intravascular se 15 filtre al espacio retiniano, y comiencen a formarse las lesiones y complicaciones típicas de la RD [22]. A grandes rasgos, podemos clasificar la RD en dos estadíos o etapas: Retinopatía Diabética Proliferativa (RDP) y Retinopatía Diabética No Proliferativa (RDNP) [23]. A su vez, la RDNP se subdivide en leve, moderada y severa [22][24]. Figura 3. Progresión de la RD. (a) Ojo sano. (b) RDNP con edema macular. (c) RDP, más cantidad de lesiones que en la RDNP y con formación de neovasos. Fuente [88]. La Retinopatía Diabética No Proliferativa (RDNP) (Figura 3 (b)) se da cuando comienzan a aparecer microaneurismas (MAs), unas pequeñas deformaciones en las paredes de los vasos sanguíneos que se dan por el engrosamiento de la vasculatura retiniana a causa de los cambios en su permeabilidad producto de la diabetes [25]. Las MAs producen filtraciones del plasma hacia las capas de la retina, generando un edema y exudados en sus capas superficiales. Estos exudados pueden clasificarse en duros o blandos. Los exudados duros se producen por la fuga de lípidos y proteínas desde los vasos retinianos, que si ocurren sobre la mácula pueden afectar la visión [25]. En cambio, los exudados blandos constituyen engrosamientos isquémicos de las capas de fibras nerviosas. Poseen bordes más redondeados y difusos, son de color blanco, y tapan los vasos sanguineos [22][25]. Las MAs pueden debilitarse y romperse generando Hemorragias (HEs). Estas lesiones son los signos más tempranos de la RDNP, y son visibles a partir de imágenes de fondode ojo. Un esquema de esta progresión puede verse en la Figura 4. En esta etapa, la reducción de la agudeza visual puede ser moderada o nula, excepto en aquellos casos que ocurran en la mácula (edema macular), o que estas lesiones se encuentren localizadas en una región [25]. A medida que estas lesiones aumentan, ocurren cierres capilares y se produce una isquemia progresiva [23]. Ante esto, el cuerpo reacciona empleando mecanismos de angiogénesis para formar nuevos vasos sanguíneos. Este proceso de creación de neovasos, la neovascularización, es un signo de que la enfermedad se encuentra en su etapa más avanzada: la Retinopatía Diabética Proliferativa (RDP) [23][22][25], ilustrada en la Figura 3 (c). Estos neovasos son frágiles, lo que causa nuevas hemorragias y nuevas 16 fugas de lípidos. Al liberarse estas sustancias al humor vítreo, el paciente puede empezar a notar pérdidas de visión, que pueden ir desde pequeñas manchas flotantes hasta un bloqueo completo [25]. Otra alteración que puede darse durante esta etapa es el desprendimiento de la retina, causado por las tracciones sobre la misma como consecuencia de la neovascularización y las filtraciones [23]. Figura 4. Complicaciones microvasculares causadas por la hiperglucemia. (a) Vaso sano. (b) La hiperglucemia comienza a debilitar las paredes de los vasos y se incrementa el flujo sanguíneo, produciendo también la fuga de lípidos. (c) El debilitamiento de las paredes y el aumento del flujo produce la formación de MAs. (d) La presión dentro de las MAs produce la ruptura de las mismas y se forman hemorragias. Fuente: [16]. El mejor tratamiento para la RD es la prevención y cuidado apropiado de la diabetes [22]. Aun así, una detección temprana de la RD y un correcto seguimiento de la enfermedad permiten que se eviten pérdidas severas de visión. En un principio, pueden administrarse drogas para regular la cantidad de glucosa en sangre, como la insulina [6]. Si ya hay neovascularización, se puede acudir a la fotocoagulación láser para destruir parte del tejido retiniano, disminuyendo como consecuencia la demanda metabólica de oxígeno [23]. Este tratamiento no recupera la vision perdida, pero sí impide que esta continúe deteriorándose [25]. En los casos en que ya hay hemorragias en la cavidad interna del ojo, las mismas se pueden remover mediante una cirugía conocida como vitrectomía. Al remover la gelatina vítrea llena de sangre y/o las cicatrices por desprendimiento de retina, se puede lograr una mejora en la vision [25]. También pueden realizarse inyecciones intravítreas para prevenir el incremento del factor de crecimiento vascular endotelial [26], lo que evita la generación de nuevos vasos. En resumen, es imprescindible señalar lo crucial de la detección de la RD de forma temprana para prevenir y evitar la pérdida de visión de manera irreversible. Dado que se trata de una enfermedad inicialmente asintomática, se recomienda a los pacientes diabéticos sin RD que asistan al oftalmólogo para un control anual, de forma que la misma pueda detectarse a tiempo [3]. 17 2.3. Fotografías de fondo de ojo Una retinografía o fotografía de fondo de ojo (Figura 5) es una representación en 2D de los tejidos semitransparentes tridimensionales de la retina [3]. Estas imágenes son obtenidas proyectando un haz de luz dentro del ojo, y haciendo una captura con una cámara con un lente microscópico especializado. Esta luz ingresa al ojo a través de la pupila, a través de la cual se ilumina la cavidad para tomar una imagen [3]. La complicación más grande al adquirir estas imágenes es evitar que los rayos de iluminación y de imagen se superpongan, ya que esto genera reflejos en la córnea y/o en el lente, haciendo que la retina no pueda verse correctamente [3]. Anteriormente, realizar este tipo de imágenes requería de un equipo costoso y especializado, en conjunto con un profesional entrenado en la toma de este tipo de fotografías [3]. Sin embargo, las evoluciones tecnológicas de los últimos años permitieron que las imágenes por fondo de ojo sean mucho más accesibles. Hoy en día, tomarlas es un proceso relativamente sencillo de realizar, además de que es una técnica no invasiva, de bajo costo, y que no requiere de personal entrenado para hacerlo [3]. Figura 5: Fotografía de fondo de ojo. En ella pueden observarse los componentes anatómicos principales de la retina, tales como el disco óptico, la mácula, la fóvea y la vasculatura retiniana. Imagen gentileza del Centro Oftalmologico Martínez. El dispositivo que toma estas imágenes se conoce como retinógrafo (Figura 6) o cámara de fondo de ojo. Consiste en una fuente de luz con un microscopio especializado, y 18 una cámara que toma la imagen. Existen diferentes tipos de retinógrafos según sus tecnologías. Estos dispositivos suelen tener diferentes resoluciones y ángulos de visión del área de la retina. Además, según sus características pueden requerir de la dilatación de la pupila del paciente (retinógrafos midriáticos) o no (retinógrafos no midriáticos) [27]. Actualmente existen accesorios para smartphones que permiten adquirir una imagen de fondo de ojo con sus cámaras, de una calidad considerable [27][28]. Figura 6: Imagen de un retinógrafo digital Crystalvue ®. En la parte superior izquierda se encuentra la estructura para que el paciente apoye su mentón y frente para ser examinado. En el centro, se encuentra el cabezal móvil que contiene el lente y el dispositivo de captura. En la parte inferior derecha, puede apreciarse la pantalla táctil en la que se visualizan las imágenes tomadas, y se configuran los parámetros del estudio. Imagen gentileza del Centro Oftalmologico Martínez. En este tipo de imágenes se puede visualizar fácilmente los diferentes componentes anatómicos de la retina: la vasculatura retiniana, el disco óptico, la fóvea y la mácula. Esto puede observarse claramente en la Figura 5. Es así que estas capturas resultan una herramienta fundamental para el diagnóstico de enfermedades que se manifiestan a través de alteraciones de la retina como la RD, ya que podemos observar con claridad hemorragias, exudados y neovascularizaciones [3][28]. Esto es fundamental para la 19 detección temprana de la enfermedad y para prevenir posibles pérdidas de visión irreversibles [3]. 2.4. Tamizado de retinopatía diabética mediante fotografías de fondo de ojo En la Sección 2.2 se destacaron la RD y dos de sus estadíos principales, RDP y RDNP. La RDNP en sí misma puede dividirse también en diferentes subestadíos, en base a la cantidad de lesiones o signos típicos de la enfermedad. La Tabla 1 muestra específicamente los diferentes grados de RD que definen el avance de la enfermedad sobre el paciente, y cómo se identifican cada uno de ellos. En la Figura 7 se muestran ejemplos de imágenes de fondo de ojo de cada uno de los grados mencionados en dicha tabla. Dado que en las fotografías de fondo de ojo son muy evidentes las lesiones características producidas por la enfermedad, esta escala es utilizada por los especialistas para realizar el tamizaje a partir de dichas fotografías. Retinopatía Diabética Hallazgos observables con Oftalmoscopía Dilatada RD no aparente No hay anomalías. RDNP Leve Solamente Microaneurismas. RDNP Moderada Microaneurismas y otros signos como hemorragias en manchas, exudados duros y exudados blandos, pero menos que en RDNP Severa. RDNP Severa RDNP Moderada con cualquiera de los siguientes signos: ● Hemorragias intrarretinianas (>= 20 en cada cuadrante) ● Rosarios venosos definidos (en 2 cuadrantes) ● Anomalías microvasculares intrarretinianas (en 1 cuadrante) ● Sin signos de de RDP RDP RDNP Severa y uno o más de los siguientes signos: ● Neovascularización ● Hemorragia vítrea/prerretiniana Tabla 1. Escala Internacional Clínica de la RD. A medida que se desciende en la tabla, el avance de la enfermedad es mayor. Fuente: [29]. El tamizaje de la RD disminuye los costos de su tratamiento, ya que la RD queamenaza la visión tiene signos tempranos que pueden ser detectados, pudiendo incluso ser prevenida o disminuida su velocidad de progresión [30]. En varios estudios sobre el tratamiento de la RD, se ha observado que aquellos pacientes sin RD o con RDNP Leve y sin edema macular (Figura 7 (a) y (b) respectivamente), no requieren de ningún tratamiento 20 y poseen bajo riesgo de una progresión significativa de la enfermedad [4]. Estos pacientes pueden ser analizados nuevamente luego de un año. De esta manera se pueden descartar estos casos, y enfocarse únicamente en aquellos en los que la enfermedad se encuentra en las etapas más avanzadas. Algunos de los algoritmos automatizados que asisten a los especialistas en el tamizado, clasifican las imágenes en dos categorías: por un lado, los que no tienen RD o que presentan RDNP Leve sin edema macular, y por otro aquellos que tienen más que RDNP Leve (Figura 7 (c), (d) y (e)) [4]. En otras palabras, determinan si el paciente es referible a un especialista y requiere que un profesional analice en más detalle su situación e indique un tratamiento en caso de ser necesario, o si aún no reviste gravedad y puede volver por un nuevo control en un año. Figura 7. Ejemplos de los diferentes estadios de la RD. (a) RD no aparente. (b) RDNP Leve. (c) RDNP Moderada. (d) RDNP Severa. (e) RDP. Dado que las imágenes de fondo de ojo constituyen una técnica relativamente sencilla, rápida, no invasiva, y no requieren de ser realizadas por un profesional, existen campañas basadas exclusivamente en ellas para screening poblacional [3]. En ellas se capturan fotografías de fondo de ojo a diferentes pacientes diabéticos de una cierta población objetivo [4]: puede hacerse a gran escala, y también mediante una red de 21 retinógrafos distribuida geograficamente, para acceder a localidades pequeñas y remotas en las que es más difícil acceder a un especialista. Esto último favorece a las campañas basadas en telemedicina, ya que los médicos especialistas no necesitan viajar hacia el lugar en donde se adquieren las imágenes para efectuar el diagnóstico [31]. Así, las imágenes son tomadas por técnicos entrenados y enviadas a algún centro de salud que opera como nodo de informes, en donde son analizadas conforme van recibiéndose. El resultado del diagnóstico de cada paciente sirve para determinar si es necesario realizar tratamientos o seguimientos más precisos sobre cada caso. De esta forma, se le da la posibilidad a una mayor cantidad de personas de acceder a este breve estudio y prevenir la pérdida irreversible de visión por RD. Un ejemplo de este tipo de campañas es el Programa de Prevención de la Ceguera por Retinopatía Diabética del Hospital El Cruce, ubicado en Florencio Varela, Buenos Aires, Argentina [32]. Éste busca optimizar el acceso al diagnóstico precoz y al tratamiento de la RD estableciendo una red propia de teleoftalmología, con nodos de captura de imágenes operados por técnicos/as distribuidos en centros de atención primaria y hospitales sin disponibilidad de profesionales, y un centro de diagnóstico remoto ubicado en el Hospital El Cruce, que se encarga de informar los estudios. Se espera que los algoritmos implementados en el marco de este trabajo final puedan utilizarse en el contexto de esta iniciativa. Gracias a la detección temprana de la RD en estas campañas y su posterior tratamiento, es posible lograr eficazmente la prevención de la pérdida de visión y ceguera en pacientes con diabetes [3]. Además, se ha demostrado que el diagnóstico de forma remota es comparable y en algunos casos incluso superior a una visita física convencional a un oftalmólogo [3][4]. Aun así, es de esperar que este tipo de iniciativas genere grandes volúmenes de imágenes, que requieren de un sistema de diagnóstico robusto y eficiente para que todo el esfuerzo no sea en vano. Si bien el diagnóstico remoto da buenos resultados, se encontrará siempre limitado por el tamaño de la población en estudio, ya que El punto crítico de estas campañas es el análisis de las imágenes obtenidas [4]. Si bien las lesiones de la RD se pueden ver en las imágenes de fondo de ojo, el problema es que en estadios más tempranos de la enfermedad aparecen en muy poca cantidad, y generalmente no están muy localizadas. Sumando esto al hecho de que inicialmente son relativamente pequeñas, la búsqueda de las mismas por parte de los especialistas es una tarea minuciosa con un costo de tiempo asociado más que considerable [6]. Como consecuencia, a medida que aumenta el volumen de imágenes a analizar, menos viable se hace el análisis y tamizado manual de las mismas, requiriendo dedicar un mayor número de expertos a esta tarea y reduciendo su disponibilidad para otras tareas de relevancia como el tratamiento. Actualmente, el objetivo es hacer más accesible la detección temprana de la RD, aumentando la cantidad de participantes alcanzados pero reduciendo a su vez el costo y el 22 personal requerido. Existen enfoques que utilizan algoritmos basados en Aprendizaje Profundo, como el planteado en este trabajo, que ayudan a tamizar los casos que requieren ser controlados por un experto, lo que permite mejorar la costo-efectividad de estas campañas y evitar la sobrecarga del sistema de salud [4]. 2.5. Aprendizaje profundo En esta sección se abordarán los conceptos y las definiciones necesarias para comprender en líneas generales las técnicas de Aprendizaje Profundo, que fueron las elegidas para resolver la problemática planteada en este trabajo. 2.5.1. ¿Qué es el aprendizaje profundo? El Aprendizaje Profundo o Deep Learning, es un campo del Aprendizaje Automático constituido por una familia de algoritmos que aprenden a resolver una tarea a partir del procesamiento de una entrada en diferentes niveles de abstracción. En esta jerarquía, los niveles más bajos ayudan a definir características que luego son combinadas para definir nuevas características en los niveles más altos, y que, combinadas, permiten resolver un problema dado con gran efectividad [33]. Por ejemplo, una imagen es un conjunto de píxeles, que, agrupados, conforman patrones con un cierto significado visual, como por ejemplo los bordes entre dos objetos. Un algoritmo de aprendizaje profundo puede aprender a caracterizar la existencia de este patrón, y a combinarlo con otros para definir patrones nuevos más complejos, vinculados con por ejemplo la presencia de objetos específicos, que a su vez son combinados con otras estructuras de la jerarquía para determinar una escena. 23 Figura 8. Red neuronal clásica con una arquitectura totalmente conectada. Las capas están formadas por neuronas como las mostradas en la Figura 9. Las salidas de una capa se propagan hacia la siguiente sucesivamente hasta producir los resultados de salida. El término “aprendizaje profundo” proviene fundamentalmente de los modelos utilizados en este área, conocidos como redes neuronales (Figura 8). Estos algoritmos están formados por capas que aprenden a procesar datos de entrada propagando características extraídas por diferentes capas apiladas, que son combinadas por las capas más profundas para obtener una salida esperada. En una arquitectura clásica, estas capas están compuestas por neuronas o perceptrones como los que se observan en la Figura 9. Estos componentes reciben como entrada los valores de salida de las capas anteriores (o del propio dato de entrada en caso de pertenecer a la primer capa), y procesan cada entrada utilizando una serie de pesos según la ecuación:𝑥 𝑖 𝛉 𝑖 (1)𝑓 𝛉 (𝑥) = 𝛉 𝑑 𝑥 𝑑 + 𝛉 (𝑑−1) 𝑥 (𝑑−1) +... + 𝛉 1 𝑥 1 + 𝛉 0 donde es la salida de la neurona. Dado que (1) es una operación lineal, es necesario𝑓 𝛉 (𝑥) aplicar no linealidades para poder componer o “apilar” esta transformación con otras (de lo contrario, la salida de las capas futuras sería una mera combinación lineal de las entradas). Para ello, el resultado de (1) pasa por una transformaciónno lineal conocida como función de activación, generalmente denotada con el símbolo , para transformarse en ,ϕ ϕ(𝑓 𝛉 (𝑥)) y producir entonces una salida no lineal de esa neurona. Existen diferentes funciones de activación apropiadas según las circunstancias del problema a resolver. Dentro de las más utilizadas podemos encontrar a las funciones Sigmoidea (utilizada por lo general en la capa de salida de las redes de clasificación binaria) y la ReLU. Gracias a esta no-linealidad, la red puede aprender relaciones no lineales entre los datos de entrada y la salida, y por ende ajustar funciones de complejidad arbitraria [34]. Matemáticamente, es correcto interpretar al modelo de aprendizaje profundo como una función que, dados los valores del𝐹 𝛉 (𝑥) vector entrada y un cierto conjunto de parámetros aprendidos, genera las salidas𝑋 𝛉 . Las salidas dependen de los pesos de cada neurona de cada capa.𝑌𝑝𝑟𝑒𝑑 𝛉 𝑖 El aprendizaje de la red consiste en ajustar todos los pesos de la red de forma tal que el modelo produzca la salida esperada para una cierta entrada dada. Para ello, se minimiza una función de error que evalúa las salidas de la red. Ésta metodología varía 24 según el problema abordado se trate como uno de Aprendizaje no Supervisado o Supervisado. Figura 9. Neurona o Perceptrón clásico, con su función de activación. En ella se calcula una combinación lineal de las entradas, a la que luego se le aplica una transformación no lineal dada por la función de activación. El Aprendizaje no Supervisado hace referencia a que no existe supervisión del humano en la fase de entrenamiento. Se utiliza en aquellos casos en los que no se encuentra definido o no es conocido el valor de salida esperado para los datos de entrada. En este tipo de aprendizaje, no existen métricas de error, ya que no se sabe exactamente cuál debería ser la salida esperada de algoritmo y por ende no puede estimarse que tan lejos se está de la salida correcta [36]. Por el contrario, en el Aprendizaje Supervisado efectivamente existe alguna supervisión del humano. En el caso de los algoritmos de clasificación, esta supervisión está dada por el etiquetado de los datos a la clase a la que pertenece cada muestra [36][34]. A la hora de realizar el entrenamiento, el ajuste de los pesos de la red se hace en base a una métrica de error, calculada según la diferencia de la salida de la red ( ) y la clase indicada en la etiqueta ( ), disponible para cada𝑌𝑝𝑟𝑒𝑑 𝑌𝑡𝑟𝑢𝑒 uno de los datos de entrenamiento. Esta forma de aprendizaje es la elegida para la resolución de nuestra problemática, ya que la presencia/ausencia de RD para una cierta fotografía de fondo de ojo está bien determinada, y existen diversos conjuntos de datos etiquetados con el grado de RD correspondiente. Así, el modelo aprenderá a clasificar una fotografía de fondo de ojo en RD referible o no, intentando reproducir el etiquetado generado por expertos sobre las imágenes de entrenamiento. 25 Figura 10. Ejemplo de descenso del gradiente con dos variables. El eje X representa los valores del parámetro , mientras que en el eje Y los del parámetro . En el eje Z se representan la función de𝛉 0 𝛉 1 pérdida J para cada par ( , ), que representa el nivel de error cometido sobre los datos de𝛉 0 𝛉 1 entrenamiento. Fuente: [35]. Para ajustar los pesos de una red en función de los errores cometidos sobre los datos de entrenamiento, suele utilizarse la técnica de gradiente descendente1 [34]. Ésta permite minimizar una función de error dada respecto de los pesos . Para ello, se calcula𝛉 𝑖 la función de error para una cierta configuración de parámetros, y se evalúa el gradiente en el punto para encontrar la dirección en la que el error decrece (Figura 10) [34]. La magnitud del vector gradiente en cada peso de la red se multiplica por una tasa de aprendizaje o learning rate, y se utiliza para ajustar cada parámetro, lo que asegura ir aproximándose lo mejor posible a un mínimo de la función. La actualización se logra propagando los cambios desde la última capa hacia la primera, en una sola pasada conocida como retropropagación o backpropagation. Esta técnica se basa en la regla de la cadena, ya que el error de una capa depende directamente de las capas anteriores [34]. Aplicando este proceso sucesivamente, la red neuronal se ajusta para lograr que el error de la salida de la red disminuya, dándose así el aprendizaje. 2.5.2. Redes neuronales convolucionales Las redes neuronales convolucionales (Figura 11) son un tipo especial de redes neuronales que funcionan de manera similar a la corteza visual primaria del cerebro. La principal característica de estas redes es el uso de convoluciones. El término convolución 1 Algoritmo que estima los lugares en donde una función produce los valores mínimos basándose en recorridos descendentes determinados por las derivadas parciales. 26 refiere a la combinación matemática de dos funciones para producir una tercera función, combinando así dos conjuntos de información. En el caso de las redes neuronales convolucionales, la convolución se realiza sobre los datos de entrada, mediante el uso de un filtro, también llamado kernel, produciendo como resultado un mapa de activaciones del mismo. El kernel es una matriz bidimensional que contiene parámetros numéricos que se aprenden durante el proceso de optimización, de forma tal que permitan identificar características de relevancia. La convolución es aplicada desplazando el kernel sobre cada vecindario de cada píxel en los datos de entrada, realizando un producto componente a componente de los valores del kernel con los del vecindario, y sumando los resultados para construir un mapa de características en donde las regiones similares al contenido del kernel presentan valores altos, y viceversa [34]. El área de los datos de entrada que se encuentra cubierta por el filtro en cada operación de convolución se conoce como campo receptivo (o receptive field), y al número de píxeles o unidades en las que se desplaza el kernel luego de cada convolución, se lo denomina stride [38]. En la Figura 12 puede apreciarse de manera visual este mecanismo. Por simpleza, la operación se encuentra explicada en dos dimensiones, pero en la práctica se aplica un filtro por cada canal de color en la entrada, y se suman los resultados finales. Figura 11. LeNet-5, una arquitectura convolucional diseñada por Yann Le Cun para reconocer dígitos. Cada plano gris representa la salida de una cierta convolución aprendida en la capa anterior. Fuente: [37]. El kernel sólo puede aplicarse en regiones de la imagen con suficiente información para construir un vecindario. Así, por ejemplo, no es posible aplicarse en los bordes de la imagen, ya que no puede extraerse el vecindario correspondiente. Para evitar esto, se aplica un mecanismo conocido como padding, que consiste en ampliar el tamaño de la entrada agregando valores especiales (comúnmente ceros) a su alrededor [38], de forma tal que pueda aplicarse allí el kernel. 27 Figura 12: Ilustración de una convolución. La matriz de la izquierda representa la entrada, mientras que la de la derecha representa el mapa de activaciones resultante. Se realiza el producto matricial entre el kernel y el campo receptivo, colocado en función del píxel origen, y la suma del resultado se coloca en el píxel de destino. Fuente: [88]. En cada capa se realizan varias convoluciones, cada una con su propio filtro o kernel, resultando en diferentes mapas de activaciones que representan la presencia/ausencia de ciertas características. Luego, todos estos mapas son unidos concatenados en tensores para formar la salida final de la capa convolucional [34][38]. El uso de convoluciones tiene varias ventajas al trabajar sobre imágenes. Por un lado, disminuye la cantidad de parámetros o pesos a entrenar y almacenar, ya que sólo se entrenan los parámetros de los kernels. Por otro lado, permite detectar relaciones espacialessobre los datos, y reconocer patrones sin importar en qué región o posición se encuentren. Además, en línea con lo discutido en la Sección 2.5.1, pueden apilarse múltiples capas convolucionales para asociar diferentes filtros y niveles de abstracción, ayudando a extraer características más complejas sobre los datos [34]. 28 Figura 13. Ejemplos de operaciones de pooling. En Max Pooling, los entornos se resumen tomando el máximo valor del mismo, mientras que Average Pooling hace lo propio con el promedio. Otro tipo de operación característica de las redes convolucionales es la de Pooling (Figura 13), que resume el contenido de un cierto entorno de píxeles dado y reduce el tamaño de la entrada. El tipo más común de pooling es el Max Pooling, que produce como salida el valor máximo de cada subregión [34][38]. Otro tipo de pooling que suele usarse es el Average Pooling, que resume entornos promediando el contenido de la subregión. Esta etapa de filtrado de la imagen a través de las capas convolucionales y de pooling permite aprender y extraer características de relevancia para el problema [34], resumiendo en un vector la información acerca de los patrones observados en la imagen de entrada. Posteriormente, este vector se utiliza para resolver la tarea objetivo concreta, que en nuestro caso es la clasificación de dicha imagen. Esto se logra aprendiendo una serie de pesos que combinan la información del vector de características para obtener valores de probabilidad de pertenencia a una determinada clase [34]. La etapa de clasificación suele realizarse utilizando una capa totalmente conectada como la de las arquitectura tradicionales vistas en la Sección 2.5.1. En síntesis, estos modelos aprenden automáticamente características relevantes de las imágenes mediante la aplicación de diferentes operaciones, como la convolución. Posteriormente, dicha información es analizada por las capas posteriores para encontrar nuevas relaciones y características, que permiten al modelo mejorar paulatinamente los resultados de sus predicciones [39]. Este hallazgo automático de los patrones de interés 29 permite evitar el trabajo de ingeniería manual de características2 que usualmente requieren los algoritmos de aprendizaje de máquina tradicionales [5]. Es por esto que, las redes convolucionales han demostrado un desempeño significativo en problemas de clasificación de imágenes [38], lo que motivó escogerlas para la resolución de la problemática. 2.5.3. Transferencia de aprendizaje El entrenamiento de una red neuronal es un proceso complicado que puede demandar largos periodos de tiempo. Los resultados de este proceso dependen mayormente de la cantidad y características de los datos que se utilicen para hacerlo. Muchas veces estos resultados no son los esperados, normalmente cuando el volumen de dichos datos disponibles para el entrenamiento no es lo suficientemente grande. A menudo suele aliviarse esta dificultad recurriendo a una técnica dentro del aprendizaje automático conocida como Transferencia de Aprendizaje o Transfer Learning. La misma consiste en reutilizar para nuestra tarea particular un modelo preentrenado sobre un gran volumen de datos pero para otra tarea específica, más o menos similar a la que nos compete [34] (Figura 14). Esta técnica cobra especial relevancia en el contexto del aprendizaje profundo con redes neuronales convolucionales, ya que muchos de los filtros aprendidos por las capas convolucionales suelen ser lo suficientemente genéricos como para resolver problemas comunes [41]. Por ejemplo, los patrones visuales más complejos suelen estar definidos en función de otros de más bajo nivel como bordes, cambios de iluminación y formas geométricas [34]. En el caso de las redes neuronales convolucionales preentrenadas, sus primeras capas suelen estar especializadas en el reconocimiento de patrones de bajo nivel como bordes entre objetos, que luego pueden reutilizarse en capas posteriores adaptando sus filtros para reconocer objetos relevantes en el nuevo dominio del problema. Así, al reutilizar un modelo pre entrenado en un problema similar, se pueden hacer entrenamientos más cortos para ajustarlos a la nueva problemática, incluso con una menor cantidad de datos. En nuestro caso, se tomo una red convolucional preentrenada en ImageNet3, una base de datos con millones de imágenes naturales utilizada normalmente para resolver problemas de reconocimiento de imágenes, y se la adaptó a nuestro problema objetivo. 3 Base de datos de imágenes naturales organizadas de acuerdo a la jerarquía WordNet, donde cada nodo de la jerarquía está representado por miles de imágenes. (http://www.image-net.org/) 2 Método que consiste en crear nuevas características a partir de las existentes, especificadas explícitamente por un experto. 30 http://www.image-net.org/ Figura 14. Ejemplo genérico de transferencia de aprendizaje. Inicialmente se entrena un modelo para realizar una tarea relativamente genérica utilizando un gran volumen de datos, y luego se ajustan los parámetros aprendidos para conseguir un modelo capaz de realizar un problema similar, utilizando una menor cantidad de datos. Fuente: [40]. 2.5.4. Aplicaciones de aprendizaje profundo al reconocimiento de retinopatía diabética El proceso de diagnóstico y análisis manual de las imágenes de fondo de ojo constituye en sí mismo una tarea costosa. Es por esto que existen varios enfoques para abordar esta problemática basados en algoritmos de aprendizaje de máquina. Si bien los principios de esta modalidad existen desde hace varios años, se han vuelto populares en esta área recientemente [42]. Las mejoras en la potencia de cómputo, especialmente en las unidades de procesamiento de gráficos (GPUs), y la disponibilidad pública de varios conjuntos de datos son las principales causas de su popularidad [42]. Estos algoritmos, al automatizar parte del proceso, permiten incrementar la eficiencia, reproducibilidad y alcance del screening poblacional sobre redes de telemedicina [5]. Dado que el aprendizaje profundo presenta buenos resultados para automatizar el análisis de imágenes, muchos de los algoritmos más exitosos para reconocimiento de la retinopatía diabética a partir de fotografías de fondo de ojo se basan en estas técnicas. Comparándolo con el aprendizaje de máquina tradicional, el aprendizaje profundo presenta mayor robustez a la hora de aprender y detectar patrones, alcanzando una mejor eficacia [39]. Las redes neuronales convolucionales son la forma más popular de aprendizaje profundo para este tipo de análisis [39], ya que evitan la etapa de ingeniería de 31 características, que es tediosa y puede afectar significativamente los resultados. Además, estos algoritmos suelen aprender características adicionales no conocidas o no utilizadas por los humanos normalmente, dándole a los especialistas información adicional sobre la imagen, como variaciones anormales en la vasculatura [43][5]. En muchos casos, esto también puede representar una limitación dado que, al no saber exactamente qué características considera el algoritmo, existen posibilidades de que se valga de anomalías en las imágenes producto por ejemplo a errores de captura, para mejorar erróneamente sus resultados [5]. Figura 15. Enfoques de aplicación del aprendizaje profundo en la detección de RD. (a) Enfoque basado en clasificación de imágenes. (b) Enfoque basado en segmentar lesiones. Fuente: figura propia con imágenes extraídas del conjunto IDRiD [44]. Dentro de los diferentes enfoques de aplicación del aprendizaje profundo para la detección de RD, se encuentran dos grandes grupos: los enfoques basados en la segmentación de lesiones típicas de la RD, y los basados en clasificación de imágenes. En la Figura 15 se ofrece una comparación entre ambos enfoques. Los métodos basados en segmentación producen máscaras de salida de tamaño equivalente a la imagen de entrada, indicando para cada píxel si pertenece ono a un determinado tipo de lesión. Esto requiere entrenarlos utilizando anotaciones a nivel de píxel, muy costosas de obtener tanto en términos de tiempo como de esfuerzo del observador 32 manual. En consecuencia, los datos disponibles para el desarrollo de este tipo de enfoques suelen ser relativamente pocos. No obstante, este tipo de modelos tienen la gran ventaja de proveer mayor feedback a los oftalmólogos, ya que indican precisamente los lugares donde se hallan las lesiones, permitiéndoles realizar un mejor análisis del estudio. En cualquier caso, su utilidad para el screening poblacional se ve limitada si no se les incorpora algún mecanismo complementario que, a partir de las lesiones, indique la probabilidad de existencia de la enfermedad. En [45], por ejemplo, se propuso un enfoque para detección de lesiones híbrido, combinando la técnica de aprendizaje automático tradicional de Bosques Aleatorios y las características aprendidas por una red neuronal de clasificación, para determinar de forma automática la ubicación de microaneurismas y hemorragias en la imagen. Para establecer un diagnóstico a nivel estudio, se utilizó la probabilidad más alta de existencia de lesión. Recientemente, las redes totalmente convolucionales [46] han ganado mayor popularidad para resolver este tipo de problemas, por su capacidad para aprender las características más significativas a nivel de pixel. Éstas, mediante una secuencia de poolings y convoluciones, convierten la imagen de entrada en sucesivos mapas de activación que posteriormente son decodificados mediante capas deconvolucionales para reconstruir una segmentación de resolución equivalente a la de la imagen de entrada. En [47] se propone una solución basada en este tipo de redes, en la que se usan dos de estas, una para realizar un análisis global de la imagen, y otra para entornos locales. La salida de ambas es posteriormente combinada para formar un único mapa que unifica la información proveniente de ambas. Los resultados obtenidos de entrenar y evaluar este enfoque sobre el conjunto IDRID [44], demostraron que mejoran aquellas soluciones que se basan únicamente en supervisiones locales o únicamente en supervisiones globales, en algunos casos [47]. Guo et al. [48] propuso una red totalmente convolucional basada en una VGG-16 [49], que posee 5 grupos de capas convolucionales que extraen características en diferentes niveles de abstracción. Luego, estas características son fusionadas mediante diferentes ponderaciones para cada tipo de lesión. Este enfoque permite segmentar todas las lesiones típicas de la retinopatía diabética de forma simultánea. Por su parte, los enfoques basados en clasificación de imágenes se basan en clasificar al estudio en los diferentes grados o estadios conocidos de la RD. Algunos enfoques, por el contrario, se concentran en detectar la referibilidad del paciente, asociada con la necesidad de que sea tratado por un oftalmólogo producto del avance de la enfermedad. La ventaja del enfoque de clasificación es que los datos para entrenar los modelos son menos costosos de conseguir, ya que pueden utilizarse imágenes y sus diagnósticos tal y como son extraídas de registros médicos. Sin embargo, sólo predicen una probabilidad de que el paciente posea uno de los grados conocidos de la RD, y no brindan información precisa sobre la localización exacta de las lesiones. Los mapas de atribución 33 [50] permiten aproximar una solución a este inconveniente, ya que indican explícitamente las áreas tenidas en cuenta por el modelo al momento de realizar la clasificación. En la Figura 16 puede verse un ejemplo de estos mapas de atribución, superpuestos sobre la imagen original. Los mismos pueden utilizarse, por ejemplo, para guiar al especialista en el chequeo de la respuesta del algoritmo, ayudándolo a validarla. El método propuesto en este trabajo final de carrera corresponde a este tipo de algoritmos, e incorpora además estos mapas para aumentar la información brindada por el modelo. Figura 16. Mapas de atribución sobre una imagen de fondo de ojo. (a) Imagen de fondo de ojo original. (b) Mapa de atribución, superpuesto sobre la imagen original. Cuanto más cercano al rojo es una región, más consideración tuvo el modelo sobre la misma al generar su salida. Fuente [51]. Los estudios existentes basados en clasificación varían según arquitecturas, datos utilizados para entrenar y mecanismos específicos diseñados ad-hoc para el problema. En [5], por ejemplo, se utilizó la arquitectura Inception-V3 propuesta por Szegedy et al. [52]. Gargeya et al. [53], sin embargo, propuso utilizar una arquitectura convolucional personalizada: emplea una capa convolucional al final de la red que concentra la información de todas las capas convolucionales, y que permite generar mapas de calor indicando las regiones de mayor interés para la predicción. En [54] se utilizó un ensamble de dos redes Inception-V4 [55] pre entrenadas en ImageNet para predecir RD referible. Abramoff et al. [56] utilizó un conjunto de redes convolucionales inspiradas en la arquitectura de AlexNet [57] y VGG para mejorar el sistema IDx-DR de detección automática de RD. Por otro lado, Ting et al. [58] utilizó una adaptación de una arquitectura 34 VGG [49], nuevamente para predecir RD referibile, entrenada sobre imágenes obtenidas del Programa Nacional de Screening de RD de Singapur. Los trabajos previamente mencionados suelen entrenar sus algoritmos utilizando particiones creadas en cada dataset individual, sin combinar datos de múltiples orígenes. Esto asegura que sean exitosos sobre datos similares, pero que no puedan generalizar correctamente o que experimenten una caída significativa de performance al aplicarse sobre datos nuevos. En un contexto de screening poblacional, es fundamental alcanzar buena sensitividad y especificidad para minimizar falsos positivos y falsos negativos en los resultados [5] (ver el Capítulo 5, Sección 5.1). Para lograrlo, es indispensable poder entrenar los algoritmos con datos con la mayor variabilidad posible, para mejorar su capacidad de generalización sobre datos nuevos y, en consecuencia, incrementar su utilidad para ámbitos clínicos reales. La hipótesis central de este trabajo es que un entrenamiento controlado, utilizando estudios de diversos orígenes y técnicas de aumentación de imágenes adecuadas, puede garantizar la efectividad deseada, sin requerir del rediseño de redes neuronales específicas para el problema. Los detalles respecto a la solución propuesta se abordarán en el próximo capítulo. 35 Capítulo 3. Métodos. El objetivo principal de este trabajo es desarrollar un modelo basado en aprendizaje profundo que permita determinar la referibilidad de un paciente en base a una fotografía de su fondo de ojo. En este capítulo se profundizarán los métodos que conciernen a la implementación de dicho modelo. La Sección 3.1 describe de manera general el enfoque propuesto. Luego, en la Sección 3.2 se describen los métodos de preprocesamiento aplicados a las imágenes antes de su utilización. En la Sección 3.3 se explican las diferentes estrategias de aumentación de imágenes utilizadas al momento de entrenar el modelo. Por su parte, la Sección 3.4 profundiza acerca de las características generales de la ResNet-18, arquitectura considerada para la red neuronal convolucional. En la Sección 3.5 se explicarán en detalle los métodos de entrenamiento empleados para el aprendizaje del modelo y sus características. Posteriormente, en la Sección 3.6 se mostrarán los métodos de atribución, su funcionamiento y la importancia de los mismos para evaluar el comportamiento de los modelos. Finalmente, en la Sección 3.7 se detallan las características técnicas de la implementación en código de todos los mecanismos mencionados a lo largo de este Capítulo. 3.1. Descripción general. La Figura 17 representa esquemáticamente el enfoque propuesto en este trabajo. Inicialmentese recolectaron imágenes de fondo de ojo de numerosos orígenes distintos, con el objetivo de generar una población diversa lo suficientemente representativa de las condiciones esperables en un ambiente eventual de despliegue. A partir del uso de métodos de preprocesamiento (Sección 3.2), se curaron las respectivas bases de datos para constituir un único conjunto, que fue luego particionado en entrenamiento, validación y test (ver Capítulo 4. Materiales). Los datos de entrenamiento fueron sometidos a diferentes estrategias de aumentación (Sección 3.3) para agregarle mayor variabilidad al conjunto, y utilizadas para aprender una red neuronal convolucional basada en la arquitectura ResNet-18 (Sección 3.4). Los métodos de aumentación y otros hiperparámetros de relevancia fueron cuidadosamente seleccionados a los efectos de asegurar el ajuste del mejor modelo posible (Sección 3.5), a partir de una evaluación cuantitativa realizada sobre los datos de validación. Finalmente, el mejor modelo fue empleado para la predicción de la probabilidad de referibilidad o no de la retinopatía diabética a partir de imágenes no 36 utilizadas en el proceso de entrenamiento o ajuste de hiperparámetros. Además, se utilizaron mapas de atribución para brindar feedback cualitativo respecto a la localización de signos de relevancia para el hallazgo de la enfermedad (Sección 3.6). Figura 17. Esquema general del método propuesto. El preprocesamiento tuvo por objeto llevar todas las imágenes a una resolución estándar. Los datos se particionaron luego en diferentes conjuntos para entrenamiento, validación y test: con las imágenes de entrenamiento se aprendió el modelo, las de validación se utilizaron para estimar performance durante el ajuste de los hiperparámetros de las estrategias de aumentación de imágenes, y las de test se emplearon para evaluar el modelo final con las métricas propuestas y observar el comportamiento de los mapas de atribución. 3.2. Preprocesamiento de los datos. Los métodos de aprendizaje profundo requieren contar con grandes volúmenes de datos para mejorar su desempeño. Utilizar datos que provengan de múltiples orígenes, además. suele garantizar un incremento en la capacidad de generalizar sobre datos diversos. No obstante, es necesario aplicar de forma previa estrategias de preprocesamiento que permitan uniformar los diferentes conjuntos empleados, para evitar 37 que factores ajenos a lo que se observará en tiempo de test puedan afectar al entrenamiento. La primera diferencia tratada fue la resolución de las imágenes. Al provenir de diferentes conjuntos, es esperable que se hayan adquirido utilizando diferentes dispositivos de captura, resultando así en una gran variedad de resoluciones. En su mayoría, estas imágenes no son cuadradas, y contienen regiones negras en los laterales que no aportan ningún tipo de información y ocuparían inútilmente lugar en memoria. Si se adaptara la resolución de todas las imágenes sin tener esta particularidad en consideración, las imágenes resultantes contendrían muy pocos píxeles con información de utilidad, y sería difícil obtener resultados satisfactorios. Para resolver este inconveniente, en primer lugar, se segmentó el área de interés, también conocida como campo de visión o Field Of View (FOV), utilizando el método de Otsu [59]. Este algoritmo permite hallar automáticamente los umbrales de intensidad de escala de grises óptimos para poder segmentar objetos de una imagen. Para hacerlo, busca separar los píxeles de la imagen en dos clases (fondo y primer plano) maximizando la varianza interclase a partir de la distribución del histograma [59]. Luego, al aplicar estos umbrales sobre la imagen, se asigna a cada píxel su clase correspondiente según sea parte del FOV o no, obteniendo como resultado una máscara binaria. De esta máscara se extrae el área rectangular que envuelve al FOV (bounding box), para obtener la región a recortar sobre la imagen original. El resultado es una imagen con relación de aspecto más similar a la de una imagen cuadrada. Luego de este procedimiento, las imágenes siguen presentando una gran variedad de resoluciones que deben uniformarse para poder integrar diferentes estudios en un mismo lote al alimentar la red neuronal. De igual forma, debe tenerse en cuenta el compromiso entre preservar imágenes de alta resolución (lo que otorga al modelo más información acerca del estado de la retina) y el costo computacional del entrenamiento (las imágenes de mucha resolución requieren lecturas de disco más largas y ocupan más lugar en memoria, lo que obliga a utilizar lotes más pequeños e incrementa el costo de cada época de entrenamiento). Se decidió entonces llevar todas las imágenes a una resolución estándar de 512 x 512 píxeles, en la que los signos de la retinopatía diabética son aún observables y que permite realizar un entrenamiento eficiente. La Figura 18 ilustra todo el procedimiento de estandarización de resolución para una imagen de ejemplo. 38 Figura 18. Ejemplo de estandarización de resolución de una imagen de fondo de ojo. (a) Imagen original sin preprocesar. (b) Extracción de la máscara binaria del FOV, y obtención de su bounding box. (c) Imagen original con el bounding box resultante superpuesto. (d) Imagen recortada según dicho bounding box, y llevada a la resolución final. 3.3. Estrategias de aumentación de imágenes Al momento de entrenar modelos de aprendizaje profundo, suele suceder que estos tiendan a “memorizar” los datos de entrenamiento. Este fenómeno se conoce como sobreentrenamiento (u overfitting) [34], y debe evitarse para asegurar que el modelo actúe con efectividad en tiempo de test sobre casos nunca antes vistos. Para ello es necesario entrenar las redes sobre grandes volúmenes de datos, aunque en la práctica la cantidad de imágenes disponibles suele ser limitada dependiendo del dominio [34]. Es por esto que existen lo que se conoce como estrategias de aumentacion de imágenes, un conjunto de mecanismos que permite crear nuevas instancias de los datos a partir de otros ya existentes mediante la aplicación de una serie de transformaciones. Es importante aclarar que estas operaciones no deben ser demasiado severas y que las imágenes resultantes deberán ser plausibles de ocurrir en un escenario real y contener la información necesaria para que el modelo pueda resolver la tarea para la cual está siendo entrenado. Por ejemplo, si intentamos reconocer objetos en imágenes, podemos cambiarlos de posición, rotarlos o 39 escalar la imagen, sin que estos cambios alteren la presencia del objeto. De esta forma, se logra obtener un mayor volumen de datos más diversos para entrenar, reduciendo el riesgo de que la red tenga overfitting. Es por esto que se optó por la utilización de esta técnica al momento de desarrollar el modelo, eligiendo aleatoriamente cuándo y qué transformaciones aplicar sobre cada imagen, y con qué parámetros. Figura 19. Ejemplo de aplicación sucesiva de transformaciones sobre una imagen de entrada para la aumentación de datos. La fotografía corresponde a un estudio del conjunto ODIR [60]. Las transformaciones que se evaluaron son muy populares en el área de visualización computacional con aprendizaje profundo, y se ejecutaron en el siguiente orden: 1. Color Jitter: induce cambios en los colores de la imagen al variar su contraste, saturación y brillo, lo que permite simular diferentes configuraciones en la cámara usada para capturarlas, distintas pigmentaciones en el fondo de ojo o incluso perturbaciones producto de la luz ambiente. 2. Volteo horizontal o vertical aleatorio: aleatoriamente se espeja la imagen respecto al eje elegido. 3. Rotación: con eje en el centro de la imagen, se rota la imagen en un ángulo aleatorio dentro de un rango predefinido. 4. Escalado de la imagen: se realiza un cambio en el tamaño de la imagen, haciéndola más grande o más pequeña, lo que representa un acercamiento (zoom in) o alejamiento(zoom out) de ella, respectivamente. 40 5. Recorte aleatorio: se extrae un parche de tamaño predefinido a partir de una ubicación aleatoria de la imagen original. La Figura 19 muestra un ejemplo de la aplicación de estas transformaciones. Es importante destacar que estas transformaciones fueron especialmente calibradas intentando conservar al máximo las características más comunes de una imagen de fondo de ojo realista. En caso contrario, y como se mencionó anteriormente, el modelo no sería capaz de aprender sobre estas imágenes. 3.4. Arquitectura considerada La arquitectura de red neuronal convolucional utilizada en este trabajo es la ResNet [61]. La principal característica de esta arquitectura es que utiliza bloques residuales (Figura 20). Estos bloques consisten en un conjunto de capas conectadas en serie, en los que la entrada de la primera capa está conectada con la salida de la última. Esta conexión actúa como una suerte de “atajo”, que permite llevar al final del bloque residual los valores de entrada del mismo, y combinarlos con su salida. Así, si la salida de las capas intermedias del bloque fueran valores pequeños o nulos, su comportamiento en el contexto de una red residual sería el de una especie de “capa identidad”, donde el valor de la entrada es igual al de su salida. El origen de esta arquitectura estuvo motivado por la necesidad de un método que permita mitigar el problema del desvanecimiento del gradiente en arquitecturas muy profundas. Propuesta originalmente en [61], esta red suele mostrar una efectividad superior a la de modelos de igual profundidad pero que no cuentan con estas conexiones. En particular, en el artículo que las introduce se muestra que el error del modelo fue notablemente disminuido sobre imágenes del conjunto de validación de ImageNet [61]. Como resultado, este enfoque obtuvo el primer lugar en la competencia ILSVRC y COCO en 2015, logrando un error de 3,6% [62]. Es así que se volvió popular en numerosas aplicaciones de clasificación de imágenes [63][64][65], incluyendo en oftalmología [66][67][68]. Debido a su gran popularidad y desempeño en clasificación de imágenes, se decidió considerarla como arquitectura para resolver nuestra problemática. 41 Figura 20. Bloque residual típico de una red ResNet, compuesto de capas convolucionales tradicionales separadas por una función de activación (ReLU, en este caso), a las que se les agrega una conexión de adelantamiento o skip connection que transmite los valores de la entrada a la salida del bloque, donde se suman. Nótese que los valores que pasan por la conexión de adelantamiento no son modificados (operación identidad). Fuente: [61]. En nuestro caso, se utilizó la versión de 18 capas, conocida como ResNet-18, pre entrenada en ImageNet y adaptada para resolver nuestro problema de clasificación binaria (Figura 21). La etapa inicial de esta arquitectura recibe la imagen de entrada y consiste en una capa convolucional con un kernel de 7 x 7 y un stride de 2, seguida de una capa de Max Pooling con un kernel de 3 x 3 y un stride de 2. Luego, se suceden 4 grupos de 4 capas cada uno, dentro de los cuales sus capas internas se estructuran de la misma forma. Cada uno de estos grupos está formado por capas convolucionales con kernels de 3 x 3 y strides de 1, exceptuando a la capa inicial de cada grupo que tienen strides de 2. Cada par de capas está conectado a la salida del par anterior y a la vez a su entrada, a través de los adelantamientos de conexiones. La única diferencia entre las capas de diferentes grupos es la dimensión de los mapas de características que generan. En el primer grupo, se generan 64 mapas de características de 56 x 56 píxeles. Conforme se va avanzando por los grupos, se duplica la cantidad de mapas de características pero se disminuye su tamaño. De esta forma, por ejemplo, en el segundo grupo de capas se obtienen 128 mapas de 28 x 28 píxeles. Esto se repite sucesivamente hasta llegar al cuarto y último grupo de capas, donde se obtiene como salida 512 mapas de 7 x 7 píxeles. La salida de este grupo, es seguida por una capa de pooling por promedio global, o Global Average Pooling, que calcula el promedio de cada uno de los canales del mapa de activaciones en la entrada para generar un único vector de dimensión equivalente a la cantidad de canales promediados (en este caso, 512 elementos). Finalmente, una capa totalmente conectada toma estas características y las utiliza para clasificar la entrada en N clases. En este trabajo, la capa produce dos valores de salida, asociados a las clases RD referible y RD no referible. Para 42 poder convertir estos valores en probabilidades, se utiliza una función de activación softmax. La salida de la red está constituida entonces por dos valores de probabilidad, fácilmente interpretables. Figura 21. Arquitectura de una ResNet-18 adaptada a nuestro problema. Las líneas punteadas en los adelantamientos de conexiones indican que la dimensión de la entrada de esa capa y la de la conexión que llega no se corresponden y debe tratarse con padding. 3.5. Metodología de entrenamiento En esta Sección se describirán los detalles de las metodologías de entrenamiento empleadas para el desarrollo del modelo. En la Sección 3.5.1 se disponen las particularidades tenidas en cuenta para diseñar el modelo, mientras que en la Sección 3.5.2 se presenta la estrategia empleada para escoger las configuraciones de los hiperparámetros correspondientes a cada estrategia de aumentación de imágenes. 3.5.1. Detalles del modelo El modelo utilizado fue inicializado con parámetros aprendidos sobre los datos de ImageNet para la resolución del problema de clasificación de imágenes naturales en 1000 categorías. Una vez inicializado, se adaptaron sus entradas y la capa de salida para corresponderse con nuestro problema de clasificación binaria, y se procedió luego a entrenarlo. La función de pérdida elegida para el entrenamiento fue la Entropía Cruzada [34] (o Cross Entropy Loss), y los parámetros de la red fueron optimizados empleando el algoritmo de descenso estocástico de gradiente Adam [69] por un total de 150 épocas, con una tasa de aprendizaje inicial de 1e-4. La tasa de aprendizaje se fue ajustando durante el entrenamiento monitoreando la performance del modelo al final de la época sobre los datos 43 de validación. En particular, cuando se percibió un amesetamiento en la métrica de exactitud (accuracy) por un máximo de 10 épocas, se redujo la tasa de aprendizaje a la mitad, lo que favoreció ir mejorando paulatinamente los resultados. Como regularizador, se utilizó también la estrategia basada en decaimiento de pesos (weight decay) con un valor de 1e-3 [70]. En cuanto al tamaño de cada batch se estableció en 32 imágenes, seleccionadas aleatoriamente a partir del conjunto de entrenamiento. Las entradas fueron normalizadas, en los 3 canales primero en el intervalo [0, 1] a partir del valor máximo de intensidad 255, y luego convertidas al intervalo [-1, 1] restando 0,5 y dividiendo por 0,5. Esto fue necesario para hacerlas consistentes con los valores esperados por la arquitectura preentrenada. En lugar de utilizar los últimos modelos obtenidos tras las 150 épocas de entrenamiento, se eligieron para la posterior evaluación aquellos modelos intermedios que presentaron valores de accuracy máximos. 3.5.2. Calibrado de la estrategia de aumentación Cada estrategia de aumentación de imágenes presentada en la Sección 3.3 tiene sus propios parámetros que determinan el resultado de las transformaciones y, en consecuencia, pueden afectar los resultados. Es por esto que se planteó una estrategia experimental basada en selección hacia adelante o forward selection, para mejorar incrementalmente la configuración de cada transformación, de forma incremental. En cada ronda de este procedimiento, se escogió una transformación específica y se varió uno de los parámetros de la misma dentro de un conjunto de valores
Compartir