Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad Nacional del Centro de la Provincia de Buenos Aires Facultad de Ciencias Exactas Segmentación de arterias y venas en imágenes de fondo de ojo mediante aprendizaje profundo: aplicaciones en simulación hemodinámica Trabajo Final de Carrera presentado para obtener el título de Ingeniero de Sistemas por Lautaro Gramuglia Directores Dr. José Ignacio Orlando (FCEx-UNICEN, CONICET) Dr. Carlos Alberto Bulant (FCEx-UNICEN, CONICET) Resumen La segmentación de arterias y venas en imágenes de la retina es una ardua y compleja tarea que se utiliza para estudiar el comportamiento morfológico y hemodinámico de estas estructuras. Actualmente este proceso se realiza manualmente para asegurar que las segmentaciones sean conexas y continuas, aunque no dejan de ser susceptibles a errores entre- e intra-observadores. Sin embargo, en la literatura no se observan trabajos que evalúen qué tan fieles son las segmentaciones para realizar simulaciones hemodinámicas similares a las que pueden lograrse empleando segmentaciones manuales. En este trabajo final de carrera se propone un modelo de aprendizaje profundo para automatizar la segmentación y clasificación de arterias y venas de la retina a partir de fotografías de fondo de ojo. Aunque existen algoritmos para realizar esta tarea, estos suelen fallar cuando se aplican sobre imágenes muy diferentes a las utilizadas para su entrenamiento. Así mismo, estos métodos han sido siempre evaluados en función de métricas específicas que cuantifican el nivel de superposición de las segmentaciones obtenidas automáticamente respecto a las producidas por expertos humanos. En este sentido, se propone utilizar estas medidas de calidad clásicas, y establecer un criterio de evaluación basado en comparar los resultados de las simulaciones computacionales de la hemodinamia de la retina. Para ello, se fijarán las condiciones de contorno y los parámetros fisiológicos y matemáticos de un modelo de fluido-dinámica, y se cuantificarán las variaciones en los flujos y presiones producto de las variaciones en la geometría arterio-venular producidas por el algoritmo. La evaluación de los métodos propuestos se realizará utilizando conjuntos de imágenes públicos. Los resultados obtenidos por el mejor modelo propuesto sugiere que las comparaciones morfométrica y hemodinámica basándose en algunos indicadores no presentan diferencias significativas entre las segmentaciones y su ground-truth. La comparación de estos indicadores permite evaluar la calidad de los algoritmos de segmentación de forma indirecta, en el contexto de una aplicación concreta, en este caso las simulaciones hemodinámicas. Teniendo en cuenta la cantidad de imágenes usadas en esta comparación, y el hecho de que la evaluación hemodinámica de los árboles arteriales de la retina es un área de investigación abierta, este trabajo presenta resultados alentadores, creando un abanico de posibilidades para realizar estudios en el marco de su aplicación en la identificación de factores de riesgo hemodinámicos como el glaucoma de tensión normal. 1 Agradecimientos Primero que nada quisiera agradecer a mi familia por el acompañamiento y apoyo en todo momento desde el comienzo de la carrera. A mis amigos, los que siempre están y los que esta hermosa carrera me presentó. Por último y no menos importante a la facultad, docentes, y sobre todo a mis directores Carlos y Nacho por guiarme en este camino, brindarme su ayuda y su buena onda. 2 Índice Resumen 0 Agradecimientos 2 Índice 3 Capítulo 1. Introducción 5 1.1. Descripción de la problemática 5 1.2. Objetivos 6 1.3. Vinculación con contenidos de la carrera 6 1.4. Organización del trabajo 7 Capítulo 2. Fundamentos y antecedentes 8 2.1. La retina 8 2.2. Caracterización de enfermedades a partir de la geometría arteriovenular 9 2.2.1. La retinopatía diabética 9 2.2.2. El glaucoma 10 2.2.3. Enfermedad cardiovascular 12 2.3. Fotografías de fondo de ojo 12 2.4. Simulación hemodinámica a partir de fotografías de fondo de ojo 14 2.5. Aprendizaje profundo para clasificación de arterias y venas 15 2.5.1. Aprendizaje profundo y redes neuronales convolucionales 15 2.5.2. Segmentación de vasos sanguíneos 18 2.5.3. Clasificación de A/V 20 Capítulo 3. Métodos 23 3.1. Descripción general 23 3.2. Preprocesamiento 24 3.3. Estrategias de aumentación de imágenes 25 3.4. Arquitectura considerada 27 3.5. Simulación hemodinámica a partir de segmentaciones arteriales 31 3.6. Implementación 35 Capítulo 4. Configuración experimental y materiales 37 4.1. Datos utilizados 37 4.1.1. DRIVE 37 4.1.2 HRF 39 4.1.3 LES-AV 40 4.1.4. Conjunto global de datos 41 4.1.4.1. Datos para segmentación 42 4.1.4.2. Datos para clasificación de arterias y venas 42 4.2. Métricas de evaluación 44 4.2.1. Evaluación de calidad de segmentación 44 4.2.2. Evaluación de resultados hemodinámicos 45 4.3. Configuración experimental 46 3 4.3.1. Experimento 1: modelo de segmentación + fine-tuning para clasificación de arterias y venas 46 4.3.1.1 Calibrado de la estrategia de aumentación en segmentaciones binarias 48 4.3.1.2 Calibrado de la estrategia de aumentación para la etapa de segmentaciones de A/V 49 4.3.2. Experimento 2: modelo para segmentación directa de A/V 50 4.3.2.1 Extracción de la segmentación binaria de las arterias por umbralado. 50 Capítulo 5. Resultados 52 5.1. Evaluación mediante métricas de segmentación 52 5.1.1. Resultados cuantitativos 52 5.1.2. Resultados cualitativos 55 5.2. Evaluación mediante simulaciones hemodinámicas 57 5.2.1. Resultados cuantitativos 57 5.2.2. Resultados cualitativos 61 5.3. Discusión 66 Capítulo 6. Conclusiones 68 Bibliografía 70 4 Capítulo 1. Introducción La siguiente tesis presenta un modelo de aprendizaje automático para segmentación de arterias y venas en imágenes de la retina con el objetivo de emplearlas para realizar simulaciones hemodinámicas. En la sección 1.1 se introduce la problemática tratada y cómo se vinculan en líneas generales las enfermedades visuales con la hemodinamia retinal. En la sección 1.2 se detallan los objetivos propuestos, mientras que en la sección 1.3 se vincula esta tesis con los contenidos de la carrera. Finalmente, en la sección 1.4 se explica cómo se organizó el trabajo realizado. 1.1. Descripción de la problemática Numerosas enfermedades se relacionan con aspectos hemodinámicos y cambios morfológicos detectables en la retina del ojo humano. El uso de modelos de flujo sanguíneo ocular ha ganado popularidad en los últimos años, ya que permite investigar la relación entre el entorno hemodinámico del ojo y su relación con enfermedades tales como la retinopatía diabética [8,9] y el glaucoma [10], que constituyen dos de las principales causas de ceguera prevenible e irreversible a nivel mundial. Mediante el uso de simulación computacional, se ha observado por ejemplo que es posible estudiar el comportamiento de la sangre en la vasculatura de la retina, con aplicaciones en ambas enfermedades [8,9,10]. Por otro lado, algunos estudios epidemiológicos relacionan cambios en la estructura de estos vasos con etapas tempranas de estas enfermedades. Así, por ejemplo, cambios en el diámetro de los vasos y su tortuosidad otorgan información predictiva muy valiosa sobre la hipertensión, la diabetes [11], el glaucoma [1] o incluso el mal de Alzheimer y afecciones cardiovasculares [12,13,14]. Para estudiar tanto la morfología como la hemodinamia de estas estructuras, es fundamental obtener modelos de las mismas a partir de su segmentación [3] y posterior clasificación en arterias o venas [4, 5]. Actualmente, este proceso se realiza manualmente para asegurar que las segmentaciones sean conexas y continuas [2]. Sin embargo, los resultados obtenidos por parte de especialistas pueden diferir de un sujeto a otro, dependiendo de diversos factores, tales como la calidad de la imagen analizada, la dedicación y esfuerzo empleado, entre otros. Además, segmentar manualmente una imagen es una labor cansina y tediosa, que puede conllevar erroreshumanos involuntarios. Recientemente se han propuesto modelos basados en aprendizaje automático/profundo que permiten automatizar esta tarea de forma eficiente. Aunque precisas desde un punto cuantitativo, estas salidas no suelen ser lo suficientemente consistentes desde el punto de vista de la conexión de los diferentes segmentos vasculares, por lo que su aplicabilidad en el contexto de las simulaciones hemodinámicas suele ser limitado. Más aún, los métodos existentes no suelen evaluarse en este contexto, lo que dificulta la selección de un enfoque específico para la resolución de problemas de simulación hemodinámica en la retina. 5 1.2. Objetivos Para dar solución a las diversas problemáticas planteadas con anterioridad, esta tesis se propone como objetivo principal introducir un método computacional para obtener segmentaciones clasificadas en venas y arterias que puedan emplearse para la ejecución de simulaciones hemodinámicas. A tal fin, se extienden dos enfoques propuestos en la literatura por HEMELINGS, R; et al. [6] y GALDRAN, A; et al. [7]. Para favorecer la producción de segmentaciones arterio-venulares coherentes, se entrenaron primero modelos que segmentan la estructura vascular, ajustando los distintos hiperparámetros para encontrar la mejor configuración posible y aplicando distintas técnicas de aumentación de datos para incrementar el número de datos disponibles y su variabilidad. Luego se aplicó la misma metodología sobre los datos con clasificaciones de arterias y venas utilizando transferencia de aprendizaje vía ajuste fino (fine tuning) o entrenamiento desde cero, cuyos resultados se analizan y comparan en el capítulo 5. Una vez analizados los distintos modelos en base a diferentes métricas de evaluación, se escogió el mejor de ellos para utilizarlo y generar geometrías arterio-venulares paciente-específicas, que son luego evaluadas como entradas para modelos de simulación hemodinámica a parámetros condensados [2]. Dichos modelos requieren como entradas la geometría del árbol arterial y la definición de parámetros fisiológicos y condiciones de contorno. Para evaluar la efectividad del método propuesto, se compararon los resultados obtenidos sobre las geometrías generadas por el método con las producidas manualmente por usuarios expertos. 1.3. Vinculación con contenidos de la carrera Diversas materias cursadas a lo largo de la carrera fueron fundamentales para comprender las diferentes áreas que abarca esta tesis. Desde comprender conceptos básicos de programación tales como variables, arreglos, ciclos, etc. hasta materias relacionadas pura y exclusivamente con matemáticas. En este sentido, Álgebra lineal fue fundamental para comprender conceptos relacionados con aprendizaje profundo tales como cálculos vectoriales, operaciones matriciales o transformaciones. Las métricas de evaluación, optimizadores, funciones de pérdida, técnicas de aumentación de datos, incluso las capas mismas de una red neuronal, son mecanismos que utilizan fórmulas matemáticas complejas para obtener un resultado determinado, muchas vinculadas con contenidos vistos en dicha materia. Del mismo modo, las asignaturas Probabilidad y Estadísticas, Introducción al Cálculo Diferencial e Integral y Análisis Matemático facilitaron el análisis de funciones, gráficos y resultados. Por otra parte, Teoría de la Información resultó de suma utilidad en el tratamiento, manipulación y análisis de imágenes, ya que en esta cátedra se introdujo el concepto de imágenes como matrices, colores como valores numéricos, pre-procesamiento de imágenes para mejorar la calidad de las mismas, quitar el ruido, distorsiones, etc. Gracias a cátedras como Lenguajes de Programación, en donde se aprenden conceptos propios de los lenguajes y se introduce a algunos de estos, el aprendizaje del lenguaje utilizado para desarrollar los algoritmos (Python), no fue tan complejo, facilitando el enfoque en librerías ligadas a aprendizaje profundo (Pytorch), aumentación de imágenes 6 (Torchvision), manipulación de datos (Numpy y Pandas), lectura/escritura de imágenes (PIL), entre otras. Por último, cabe señalar que materias optativas como Introducción a las redes neuronales y aprendizaje profundo también fueron de gran ayuda para adquirir habilidades básicas a la hora de utilizar modelos inspirados en técnicas de aprendizaje de máquina, resultando de gran ayuda para conocer los conceptos y componentes básicos. Finalmente, vale señalar que este trabajo se llevó a cabo en el marco de una beca de iniciación en la investigación INI de la Secretaría de Ciencia, Arte y Tecnología (SECAT) de la UNICEN, en el marco del Programa de Fortalecimiento a la Ciencia y la Tecnología en Universidades Nacionales. Esta beca posibilita adentrarse en un campo profesional referido a la investigación, aprendiendo distintas metodologías y tecnologías de trabajo, siguiendo un método científico para llegar a obtener los resultados pertinentes, analizarlos y sacar conclusiones en base a estos. 1.4. Organización del trabajo En el Capítulo 2 se introducen el problema y las posibles soluciones que existen actualmente. Para ello se repasa brevemente al inicio la anatomía y fisiología del ojo humano, luego se presentan aplicaciones de simulación hemodinámica enfocadas en algunas enfermedades de interés, y finalmente se introducen los algoritmos actuales para la segmentación y clasificación de arterias y venas en imágenes de fondo de ojo. En el Capítulo 3 se presentan los métodos propuestos en este trabajo para obtener las segmentaciones y clasificaciones. Se detalla la arquitectura de red utilizada, los distintos enfoques utilizados y sus respectivas configuraciones, al igual que las estrategias de aumentación de datos empleadas. En el Capítulo 4 se explican los bancos de datos utilizados, incluyendo las características y la composición de los mismos, la división y creación de particiones creadas. Además se introducen las métricas de evaluación utilizadas tanto para las segmentaciones como para las simulaciones y se detallan los experimentos realizados. En el Capítulo 5 se exponen los resultados obtenidos además de analizar y discutir estos valores. Por último en el Capítulo 6 se concluye el trabajo realizado, se señalan virtudes, limitaciones, y se presentan posibles mejoras, sugerencias, o enfoques para trabajos futuros. 7 Capítulo 2. Fundamentos y antecedentes En las siguientes secciones de este capítulo se introducirá la problemática abordada. Para esto, primero se presentarán de forma global algunos conceptos vinculados con la retina y la importancia de la caracterización de la morfología arteriovenular de la misma y la cuantificación de su hemodinamia. Luego se introducirán algunos métodos de aprendizaje profundo existentes en la literatura para la clasificación de arterias y venas. 2.1. La retina La retina es un tejido sensible a la luz situado en la superficie interior del ojo (Figura 1, izquierda). Su misión es transformar la luz que ingresa en el ojo a través de la córnea, la pupila y el cristalino, en un impulso nervioso que viaja hasta el cerebro a través del nervio óptico, donde es convertida en las imágenes que percibimos. Está formada por varias capas de neuronas interconectadas, y por 2 tipos de células sensibles a la luz (fotorreceptoras) conocidas como conos y bastones. Los bastones funcionan principalmente en condiciones de baja luminosidad y proporcionan la visión en blanco y negro, mientra que los conos están adaptados a situaciones de mucha luminosidad y proporcionan la visión a color [15]. Figura 1. Izquierda: Representación esquemática del globo ocular. Derecha: Fotografía de fondo de ojo, que permite observar la retina y sus regiones anatómicas principales. Visualmente, la retina tiene la forma de una esfera abierta por delante (Figura 1, izquierda). El área central de la retina es la mácula (Figura 1, derecha), que se encuentra ubicada entre las arcadas vasculares y el disco óptico, mide 5,5 mm de diámetro y tiene un espesor de160-190 µm [15,16]. La mácula posee una depresión central que en promedio tiene 1,5 mm de diámetro, conocida como fóvea. En la fóvea existe una zona sin presencia de vasos llamada zona avascular foveal, que es un punto de referencia para diferentes patologías. La retina cuenta con vasos sanguíneos observables a través de algunas modalidades de imagen médica, que ingresan en ella desde el disco óptico (una estructura 8 circular de entre 1.5 y 2.5 mm de diámetro) y se ramifica en forma de árboles de arterias y venas (ver Figura 1). La irrigación de sangre está a cargo de la arteria central de la retina, la cual ingresa a través del nervio óptico, ramificándose sobre la superficie interna de la retina. Durante el recorrido van desprendiéndose de ella una serie de arteriolas, que ingresan en profundidad en las capas internas de la retina bajo la forma de una red capilar muy densa. Estas ramas terminales constituyen el único medio de suministro sanguíneo para la mayor parte de la retina. La fóvea y una pequeña zona que la rodea no reciben sangre de la arteria central de la retina o de sus ramas, sino a través de la coroides, una capa delgada de tejido ubicada en la pared del ojo que cuenta con numerosos vasos sanguíneos. Del mismo modo que la retina es irrigada a través de las arterias, las venas cumplen la función de evacuar la sangre de los capilares venosos de la retina hacia venas mayores fuera del ojo. Éstas siguen mayormente las ramificaciones arteriales, aunque con algunas variaciones, sobre todo respecto de las ramas más grandes. Las ramificaciones arteriales y venosas se entrecruzan con frecuencia, por lo general en las capas más internas. 2.2. Caracterización de enfermedades a partir de la geometría arteriovenular Tanto enfermedades visuales como la retinopatía diabética (RD) o el glaucoma como condiciones cardiovasculares sistémicas pueden observarse estudiando la anatomía y fisiología de la retina. Estas enfermedades son altamente prevalentes y generan complicaciones de diversa índole: la RD y el glaucoma, por ejemplo, constituyen las principales causas de ceguera a nivel mundial, ya que afectan drásticamente la visión si no son tratadas a tiempo; la enfermedad cardiovascular, por otro lado, es una de las principales causas de mortalidad a nivel mundial. A continuación se describen brevemente estas enfermedades y cómo se manifiestan en los vasos sanguíneos de la retina. 2.2.1. La retinopatía diabética La RD causa ceguera legal en 86% de los jóvenes menores a 30 años con diabetes mellitus y en 33% de los pacientes mayores a 30 años al momento de diagnosticarse la enfermedad [17]. Su progresión varía en los pacientes y depende principalmente de factores sistemáticos tales como la presión sanguínea, la concentración de lípidos en sangre y los niveles de glucosa, entre otros. El incremento del flujo sanguíneo y la presión en los vasos producto de la diabetes mal tratada produce daños en la permeabilidad de los vasos sanguíneos, dando paso a la exudación lipídica y extravasación de sangre [18]. Así, detectar anomalías o cambios en la red capilar macular de los pacientes diabéticos puede ayudar a detectar una retinopatía incipiente. Los cambios microvasculares que suelen ocurrir están limitados a la retina, y es posible detectarlos rápidamente en sus etapas tempranas mediante herramientas de imagenología médica, como las fotografías de fondo de ojo (ver Sección 2.3). En la RD se observa el estrechamiento de las arteriolas y el ensanchamiento de las vénulas, dando como resultado una relación diámetro arteriolar-avenular (AVR) más baja [50,51]. 9 Figura 2. Imagen de fondo de ojo de un paciente con retinopatía diabética no proliferativa severa, con sus respectivas lesiones asociadas. Fuente: [68]. En los estadíos tempranos de la retinopatía diabética se producen microaneurismas (MAs) o dilataciones de las paredes de los vasos sanguíneos. Los MAs pueden producir exudación lipídica hacia las capas de la retina, formando edemas y exudados en sus capas superficiales (Figura 2). Si los MAs se rompen, se producen pequeñas hemorragias (HEs). La acumulación de lesiones rojas (MAs y HEs) imposibilitan entonces un flujo constante de sangre y por ende, componentes vitales como el oxígeno y la glucosa no llegan a todas las células. En consecuencia ocurren cierres capilares y se produce una isquemia progresiva, en donde el cuerpo reacciona liberando factores angiogénicos como mecanismo de defensa, que estimulan la generación de nuevos vasos para reemplazar los dañados, lo que se conoce como neovascularización. Estos nuevos vasos, sin embargo, son delgados y frágiles, y pueden ocasionar pérdidas de sangre en el vítreo (hemorragia vítrea). Este punto avanzado de la enfermedad se conoce como retinopatía diabética proliferativa, y tiene asociado un alto riesgo de ceguera. Las cicatrices ocasionadas producto del crecimiento de los nuevos vasos sanguíneos pueden causar desprendimiento de retina, por ejemplo. Por otro lado, si los nuevos vasos sanguíneos interfieren en el flujo normal de líquido hacia afuera del ojo, puede producirse una acumulación de presión en el globo ocular [18], dañando eventualmente el nervio óptico y produciendo glaucoma. Para prevenir el avance de esta patología es de suma importancia detectarla lo más tempranamente posible. Sin embargo, en los estadíos tempranos la enfermedad es asintomática, por lo que indicios tales como cambios en la vasculatura retiniana pueden ser de gran ayuda para detectar una retinopatía diabética subyacente. Al día de la fecha existen diferentes tratamientos a los que someter al paciente cuando se detecta la RD, pero con muy baja efectividad si los estadíos de la misma son avanzados. 2.2.2. El glaucoma El glaucoma agrupa a un conjunto de enfermedades prevenibles que se caracterizan por dañar el nervio óptico gradualmente, disminuyendo la visión en el 10 paciente de forma irreversible. Por lo general la enfermedad no presenta síntomas y, sin el tratamiento apropiado, puede llevar a la ceguera. Su detección temprana y dar con el tratamiento adecuado son claves para prevenir que avance en esta dirección. La parte anterior del ojo está llena de un líquido transparente conocido como fluido intraocular o humor acuoso, que cumple la función de mantener la forma esférica del ojo. Éste sale del ojo por medio de la pupila para ser drenado hacia el torrente sanguíneo por medio de un sistema de mallas, ubicado justo en el ángulo que forman el iris y la córnea (Figura 1 izquierda). Para que la presión se mantenga en valores normales y mantenga la salud del ojo, este proceso de producción, flujo y drenaje debe ser activo y continuo. La presión intraocular (PIO) depende de la cantidad de fluido que se encuentre dentro del mismo, por lo que cuando el flujo normal se interrumpe es natural que la presión dentro del ojo aumente. Existen dos tipos principales de glaucomas, siendo el más común el glaucoma de ángulo abierto. Es una condición que se produce gradualmente cuando el ojo no drena el fluido tan bien como debería (Figura 3). Como resultado, la PIO aumenta y empieza a dañar el nervio óptico de forma indolora y asintomática. Por otra parte, el glaucoma de ángulo cerrado o estrecho se da cuando el iris se encuentra muy cercano al ángulo de drenaje del ojo. Cuando el ángulo de drenaje queda bloqueado completamente, la PIO aumenta rápidamente en un ataque agudo que se caracteriza por dolores intensos del ojo, de cabeza o náuseas. Este último, de no tratarse de manera inmediata, produce rápidamente daños irreversibles [19]. Figura 3. Patofisiología del glaucoma. Cuando el flujo de humor acuoso es bloqueado, se detiene el drenaje del mismo a través del ángulo iridocorneal y se incrementa la presión intraocular. Fuente: [75] Estudios recientes indican que la perfusión discontinua del nervio óptico y la reducción del flujo sanguíneo ocular podrían contribuir en gran medida al desarrollo y progresión de glaucomas [47,48]. El flujo sanguíneo de la cabeza del nervioóptico depende de varios factores como la resistencia al flujo, la presión sanguínea, la PIO y la viscosidad de la sangre. Se cree que la PIO elevada compromete la perfusión de la cabeza del nervio óptico y causa daño isquémico [45,46]. 11 Uno de los primeros síntomas de los glaucomas son la aparición de pequeños puntos ciegos en la visión lateral o periférica. Si bien el daño es permanente, irreversible e irreparable, puede detenerse por medio de medicamentos que actúan como liberadores de presión o reducen la generación de humor acuoso. Otra posible intervención es mediante cirugía láser, que busca liberar el humor acuoso acumulado en el ojo. 2.2.3. Enfermedad cardiovascular Múltiples estudios demuestran que hay evidencia de que cambios en la vasculatura retinal predicen la enfermedad de las arterias coronarias y están asociados con fallas prematuras del corazón y múltiples marcadores de enfermedades ateroscleróticas subclínicas, incluyendo calcificación de la arteria coronaria, rigidez aórtica, e hipertrofia ventricular izquierda [20]. Estudios independientes en 20,708 pacientes encontraron una relación directa entre el ensanchamiento venular, es decir, el cambio de calibre de la vasculatura retiniana, y el incremento directo en el riesgo de sufrir un accidente cerebrovascular e incluso un incremento en la tasa de mortalidad por este factor [21]. Alteraciones en la geometría vascular de la retina, como por ejemplo, incremento de la tortuosidad o decrecimiento de la dimensión fractal, también fueron relacionados con las problemáticas mencionadas con anterioridad. Uno de los principales biomarcadores utilizados para estudiar la relación de diferentes enfermedades cardiovasculares y las arterias-venas de la retina, es el calibre de los vasos sanguíneos. Se demostró que cambios en el calibre de los vasos retinianos están asociados con el progreso de una variedad de enfermedades sistémicas [49]. Una disminución de la relación arterio-venular (AVR) generalizada se asocia con un mayor riesgo de desarrollar hipertensión [52], mientras que un aumento generalizado se asocia con un mayor riesgo a sufrir accidente cerebrovascular. El AVR se estima a partir de los valores equivalentes arterial retiniano central (CRAE) y venoso retiniano central (CRVE), correspondiente a los vasos ocultos detrás del disco óptico, donde se originan las arterias y venas retinianas. Existe una relación directa entre los valores de CRAE y CRVE, y la progresión de enfermedades cardiovasculares [53]. 2.3. Fotografías de fondo de ojo La fotografía de fondo es una modalidad de imagen médica de fácil adquisición y no invasiva, que permite obtener una captura digital de la superficie interior del ojo, que incluye la retina, el nervio óptico, la mácula y el polo posterior (Figura 4). Se lleva a cabo utilizando una cámara de fondo de ojo (Figura 5), compuesta básicamente por un microscopio de baja potencia con una cámara adosada. Se utiliza para diagnosticar y hacer seguimiento de la progresión de ciertas patologías oculares, como la RD y el glaucoma [22]. Para capturar el estudio, el paciente se coloca en la zona indicada, apoyando el mentón sobre un tabique especializado, y el operario del equipo manipula un control analógico ubicado en la parte inferior del dispositivo para iluminar el fondo del ojo y capturar las imágenes pertinentes, previsualizándolas en un monitor. Gracias a los avances tecnológicos, la captura de imágenes de fondo de ojo se transformó en un proceso relativamente simple y accesible, en la cual no se requiere un oftalmólogo 12 especializado, si no que sólo se necesita una persona capacitada para manipular el dispositivo. Figura 4. Izquierda: Fotografía de fondo de ojo extraída del conjunto HRF. Derecha: Regiones anatómicas fácilmente visibles en fotografías de fondo de ojo. Figura 5. Cámara retinal no midriática modelo Cobra+ (no requiere dilatar la pupila). Fuente: [76] En la parte izquierda de la Figura 6 se indican diferentes lesiones de la retinopatía diabética detectadas mediante el análisis de imágenes de fondo de ojo por parte de especialistas, incluyendo microaneurismas, exudados duros y blandos, y algunas lesiones rojas (hemorragias). Por otra parte, a la derecha de la Figura 6 se observa la fotografía de fondo de ojo de un paciente que padece glaucoma. Puede verse un aumento en el tamaño de la copa óptica en relación con el diámetro del disco óptico, y un desplazamiento de las arterias con un ahuecamiento de la cabeza del nervio óptico. Entre las ventajas de esta modalidad de imagen se incluyen, además de su facilidad de captura, su bajo costo y rapidez para realizar grandes muestreos poblacionales. Por otro lado, aunque la imagen no brinda ningún tipo de información hemodinámica, es posible utilizarla para la realización de simulaciones, como se detalla en la Sección 2.4. 13 Figura 6. Izquierda: Imagen de fondo de ojo con microaneurismas, exudados duros y blandos (flechas negras) y algunas hemorragias (flechas blancas). Derecha: Nervio óptico de un paciente con glaucoma [69,70]. 2.4. Simulación hemodinámica a partir de fotografías de fondo de ojo La fotografía de fondo de ojo permite estudiar características morfológicas de la vasculatura tales como su tortuosidad, el ancho de los vasos, etc. Alternativamente, es posible estudiar el comportamiento funcional de la hemodinamia de la retina a partir del uso de simulaciones computacionales. En particular, en [2] se propuso caracterizar y estudiar la hemodinámica de la microvasculatura retiniana de pacientes con patología glaucoma declarada, mediante simulaciones computarizadas, a partir de la extracción de grafos arteriales utilizando imágenes de fondo de ojo. Este método se basa en representaciones gráficas paciente-específicas de la topología vascular para construir modelos a parámetros condensados (0D), que explican el flujo de la sangre en dominios rígidos. Estos modelos son muy eficientes computacionalmente y permiten la simulación del flujo sanguíneo en grandes redes de vasos [2]. Al igual que en [2], utilizando modelos 0D, en [9] se implementaron diferentes modelos capaces de obtener indicadores extraídos de la geometría vascular mediante imágenes de fondo de ojo de pacientes que padecen diabetes y desarrollan retinopatía diabética. Dicho estudio encontró cambios estadísticamente significativos en algunos indicadores hemodinámicos asociados con el desarrollo de la RD, especialmente aquellos relacionados con la geometría vascular venular. En el contexto de la simulación hemodinámica retiniana, se han utilizado enfoques de modelado similares. En [23] se incorpora como parámetro la distribución del hematocrito sanguíneo, es decir, el volumen de sangre ocupado por glóbulos rojos respecto del volumen de sangre total. El análisis demostró una distribución no uniforme, con niveles más bajos de hematocrito sanguíneo en áreas cercanas al disco óptico y niveles más altos en la zona ecuatorial de la retina. Este hecho influye en la distribución aparente de la viscosidad, presión y tensión tangencial que ejerce el flujo sanguíneo sobre la superficie endotelial (conocido como Wall Shear Stress, WSS) de los vasos sanguíneos. La viscosidad y la WSS es sustancialmente mayor en vasos pequeños comparado con vasos principales. Existe evidencia sustancial de que los segmentos vasculares con un nivel de WSS bajo u oscilante, tienden a un mayor riesgo de desarrollar aterosclerosis, una 14 enfermedad cardiovascular crónica, generalizada y progresiva que afecta sobre todo las arterias de mediano tamaño [56]. Los indicadores hemodinámicos como la resistencia vascular, la presión y viscosidad sanguínea junto con la geometría vascular, determinan la distribución del flujo sanguíneo de la retina [55]. Múltiples estudios investigaron el impacto de la diabetes mellitus sobre la geometría y hemodinamia de la retina. En [56], por ejemplo, se estudiaron los efectos de la RD en la velocidad del flujo sanguíneo en las arterias, concluyendo que en pacientesenfermos el flujo es más lento. Cambios significativos en el calibre de los vasos arteriales y venulares en pacientes con RD fueron detectados y estudiados por múltiples investigadores [57,58,59], vinculando el ensanchamiento de las venas de la retina con un avance agresivo y progresivo de esta enfermedad [60,61]. 2.5. Aprendizaje profundo para clasificación de arterias y venas A continuación se presenta una introducción al aprendizaje profundo enfocado en la segmentación y clasificación de arterias y venas, analizando los diferentes trabajos consultados. También se introduce a las redes neuronales convolucionales, cuáles son sus ventajas, componentes principales y objetivo. 2.5.1. Aprendizaje profundo y redes neuronales convolucionales El aprendizaje automático (o machine learning) define un conjunto de técnicas que le permiten a un sistema computacional adquirir conocimiento mediante la extracción de patrones a partir de un conjunto de datos dado. Es un subconjunto dentro del campo de la inteligencia artificial (IA) (Figura 7) que ha permitido a las computadoras abordar problemas relacionados con el conocimiento del mundo real y auxiliar en la toma de decisiones antes subjetivas o basadas en principios manuales. Figura 7. Esquema jerárquico de las principales áreas de la Inteligencia Artificial. 15 El aprendizaje profundo (en inglés, deep learning) es un área específica del aprendizaje automático, compuesta por algoritmos basados en redes neuronales jerárquicas, en las que existen capas o grupos de neuronas artificiales especializadas en la identificación de determinadas características en diferentes niveles de abstracción. En [24], se define alternativamente al aprendizaje profundo como un conjunto de algoritmos de aprendizaje automático que buscan modelar abstracciones de alto nivel en datos expresados en forma matricial o tensorial. El deep learning permite obtener modelos de IA para automatizar diferentes tareas a partir del aprendizaje supervisado o no supervisado. En el aprendizaje supervisado, el modelo es entrenado a partir de un conjunto de datos en los que cada muestra de entrada tiene asociado su valor de salida esperado o “etiqueta”, y es comúnmente aplicado para problemas de regresión y clasificación. En el aprendizaje no supervisado, por otro lado, el conjunto de datos de entrenamiento no cuenta con etiquetas. En este trabajo se empleará aprendizaje supervisado para el entrenamiento de redes neuronales. Las redes neuronales son el componente fundamental en todo sistema de aprendizaje profundo. Estas redes se inspiran en el comportamiento del cerebro humano, y son modeladas como conexiones de neuronas agrupadas en capas, que en conjunto forman un grafo acíclico (Figura 8). A nivel general, la estructura de la red puede resumirse en tres conjuntos distintos de capas: las de entrada, las ocultas, y las de salida. Las capas de entrada son las encargadas de asimilar los datos de entrada, mientras que las capas ocultas se encargan de cuantificarlas en una serie de activaciones que describen sus principales características, y que son utilizadas por la capa de salida para dar la respuesta esperada. Figura 8. Representación esquemática de la arquitectura de un perceptrón multicapa, un tipo particular de red neuronal, en este caso formado por 3 capas con 3 entradas, 2 capas ocultas con 4 neuronas cada una, y una capa de salida. Durante mucho tiempo, la necesidad de unidades de procesamiento más potentes fue el principal limitante para el avance de esta disciplina. En los últimos años, los algoritmos de aprendizaje profundo han ganado popularidad, en gran parte debido al poder de cálculo y disponibilidad de unidades dedicadas al procesamiento gráfico (GPUS). La cantidad de datos disponibles, además, potenciada por las mejores capacidades de 16 producción y almacenamiento de los mismos, también ha sido un factor fundamental para propiciar el desarrollo de este tipo de modelos, ya que permiten dar robustez, crear redes neuronales más profundas y extenderlas a nuevos conjuntos de datos y dominios. Particularmente, en el área de procesamiento de imágenes, las redes neuronales convolucionales (Convolutional Neural Network o CNN por sus siglas en inglés), son uno de los modelos más utilizados. Sus principios fundamentales se basan en el Neocognitron, introducido por Kunihiko Fukushima en 1980 [25]. Más adelante, este tipo de redes fue modificada por Yann LeCun et al. en 1998 para introducir el concepto de retropropagación (o backpropagation) [26]. El paper seminal de Alex Krizhevsky en 2013 [36], en un contexto favorable en términos de poder de cálculo y disponibilidad de datos, popularizó el uso de este tipo de modelos, llegando a convertirse en nuestros días en un estándar para este tipo de problemas. En particular, las CNNs tienen un desempeño formidable en problemas de visión computacionales tales como la clasificación y segmentación de imágenes [27]. Un aspecto importante de los modelos obtenidos a partir de este tipo de redes neuronales es que obtienen características abstractas a medida que se propagan los datos hacia capas más profundas. Además, las CNNs logran reducir el número de parámetros de una red neuronal artificial, permitiendo a investigadores y desarrolladores crear modelos más profundos y resolver tareas más complejas. Las CNNs se organizan en múltiples capas, incluyendo capas convolucionales, no lineales, capas de agrupación (pooling layers), y capas totalmente conectadas. Algunas de estas capas tienen parámetros que se actualizan durante el entrenamiento (como es el caso de las totalmente conectadas y las convolucionales), mientras que otras como las de agrupación o no lineales no tienen parámetros [27]. Las CNNs realizan operaciones convolucionales sucesivas en la imagen de entrada aplicando para ello núcleos o kernels que detectan patrones específicos en las mismas. Como consecuencia, los datos son transformados de tal manera que ciertas características se vuelven más dominantes en la imagen de salida. Hiperparámetros tales como el tamaño del kernel, la cantidad de píxeles por desplazamiento del kernel (o stride) y la técnica para complementar los bordes de la imagen (padding) deben ser elegidos manualmente por quien diseña la arquitectura, afectando los resultados posteriores (Figura 9). Figura 9. Operación convolucional con stride 1, de una matriz de dimensión 5x5 (luego de aplicar padding), para obtener una matriz (output) de dimensión 4x4, utilizando un tamaño de kernel de 2x2. Fuente: [62] 17 Luego de aplicar una convolución es necesario añadir a la salida una función de activación no lineal para asegurar que la red pueda modelar funciones de complejidad arbitraria, y no solamente lineales. Entre las funciones de activación no lineal más populares se encuentra la ReLU, que es computacionalmente más económica que otras anteriores como la tangente hiperbólica. Una configuración típica de un modelo de red neuronal convolucional se compone de capas de convolución, seguidas por una función de activación y posteriormente capas de agrupación. Las capas de agrupación o pooling cumplen el rol de disminuir la resolución del mapa de activaciones de entrada, produciendo un mapa de menor tamaño a ser procesado por el próximo nivel de capas convolucionales. Con esto logra detectar patrones en diferentes escalas espaciales de la imagen. Uno de los métodos de agrupación más utilizado es el de Max-pooling, y consiste en particionar la imagen en subregiones de un tamaño fijo y retornar luego el máximo valor de esa subregión analizada [27]. Las capas convolucionales, las capas de activación y las de agrupación constituyen la primera parte de la arquitectura de una red neuronal convolucional típica. Es muy común en problemas de clasificación agregar una capa totalmente conectada a la salida de la red. Una red totalmente convolucional, como la utilizada en este trabajo, no posee capas totalmente conectadas, si no que la salida de la red se compone por una convolución1 x 1 con tantos canales de salida como clases se quieran etiquetar. El objetivo final es obtener una clasificación densa, es decir, etiquetar cada uno de los píxeles de la imagen de entrada. 2.5.2. Segmentación de vasos sanguíneos Segmentar vasos sanguíneos manualmente en fotografías de fondo de ojo es una tarea compleja, que requiere de especialistas con el conocimiento adecuado para llevarla a cabo. Su complejidad hace que sea una tarea lenta, que insume mucho tiempo y resulta tediosa, especialmente cuando se requiere analizar grandes volúmenes de imágenes de la retina en estudios poblacionales. Gracias a la tecnología, la investigación y el desarrollo, se han propuesto métodos computacionales para intentar aliviar esta carga, o incluso para resolver la tarea completa de manera automática. Una solución automatizada permite entonces agilizar estos tiempos y eliminar cualquier variable o error introducido por los distintos profesionales al interpretar las imágenes y generar anotaciones manuales. Se han utilizado diferentes enfoques computacionales para segmentar la vasculatura retiniana utilizando imágenes de fondo de ojo. Podemos dividir estos enfoques en dos grandes grupos: los métodos no supervisados y los supervisados. Los métodos no supervisados fueron populares en un principio, ya que intentan reconocer si un píxel corresponde o no a un vaso sin utilizar datos de referencia [63]. Los métodos supervisados, por otro lado, han cobrado mayor relevancia recientemente gracias al uso de las redes neuronales convolucionales. Estos emplean un conjunto de imágenes de entrenamiento acompañadas de sus segmentaciones manuales de referencia, realizadas por expertos, utilizándolas para aprender modelos capaces de reconocer aquellos patrones característicos de los vasos. Numerosos desarrollos han sido llevados a cabo en este escenario, con resultados notables en cuanto a performance. Por ejemplo, el modelo de N4-field [28] combina CNNs 18 con la técnica de vecinos más cercanos para buscar y detectar en parches locales, bordes y objetos delgados o largos, y usar eso como información para facilitar la segmentación de los vasos. El procedimiento consiste en iterar secuencialmente sobre la imagen en pequeños parches enviados a través de una red convolucional previamente entrenada, para luego utilizar la salida de la red y compararla contra un diccionario que contiene resultados de salidas de parches entrenados con sus respectivas anotaciones. Luego se transfiere la anotación correspondiente al vecino más cercano y se obtiene el resultado promediando las anotaciones transferidas superpuestas. Otros enfoques más tradicionales utilizan parches para entrenar CNNs de clasificación, como es el caso de [29], que utiliza 400,000 ventanas de imágenes preprocesadas obtenidas de los distintos bancos de datos públicos existentes para entrenar una red que clasifica un parche como parte o no de un vaso. Este tipo de modelos tiene la desventaja de presentar un alto costo computacional en tiempo de test, ya que requiere un llamado a la red por cada parche procesado. En [30] se propone alternativamente utilizar CNNs totalmente convolucionales combinadas con modelos de campos condicionales aleatorios (conocidos como CRFs, por la sigla de inglés de Conditional Random Fields), lo que alivia la problemática anterior. En otros trabajos como [31] se ha propuesto combinar tanto la segmentación de los vasos como la detección del disco óptico, con resultados satisfactorios. En los últimos años, el uso de redes neuronales totalmente convolucionales se ha incrementado sobre todo en tareas de segmentación semántica (semantic segmentation), en donde se busca asociar el valor de cada uno de los píxeles de la imagen de entrada con su correspondiente etiqueta; además de tareas en donde se busca segmentar y detectar diferentes instancias de una o más clases (instance segmentation). Las redes totalmente convolucionales se caracterizan por dividirse en dos etapas. En la primera (“codificación”) se aplican sucesivas convoluciones con sus correspondientes capas de pooling para transformar paulatinamente a la imagen de entrada en múltiples mapas de características. Luego, en la etapa restante (de “decodificación”) se aplican deconvoluciones a las salidas anteriores para recuperar activaciones en la resolución original y reconstruir una segmentación de salida equivalente al tamaño original de entrada. Como resultado se obtiene un mapa semántico en donde cada pixel tiene una etiqueta asociada, posibilitando realizar una segmentación por píxeles. Figura 10. Prototipo de arquitectura U-Net utilizada para segmentar vasos sanguíneos a partir de fotografías de fondo de ojo. Fuente: [77] 19 Una de las arquitecturas totalmente convolucionales más relevantes es la U-Net [32] (Figura 10), que propaga características de las primeras capas a las últimas mediante conexiones de salto. Al igual que cualquier otra red totalmente convolucional, se divide en una etapa de codificación o contracción y una etapa de decodificación o expansión. Las conexiones de salto se utilizan para transferir información detallada de las capas de bajo nivel de la ruta de codificación a las capas de alto nivel de la ruta de decodificación, lo que permite generar reconstrucciones más precisas y detalladas. La diversidad de trabajos en materia de segmentación de vasos sanguíneos es significativa [73]. Los modelos existentes difieren en arquitecturas, configuraciones, y metodologías de entrenamiento, resultando en peores o mejores segmentaciones al comparar cuantitativamente métricas de evaluación bien establecidas. La principal problemática que surge es que durante los entrenamientos suelen utilizarse conjuntos de datos específicos y por separado. Esta práctica no permite generar un modelo lo suficientemente robusto, obteniendo resultados muy buenos en imágenes similares, de igual resolución y condiciones, pero fallando o arrojando peores resultados ante datos de entrada disímiles. Por otro lado, la calidad de la imagen es otro factor influyente, en donde imágenes con un bajo contraste, presencia de ruido durante la obtención de la imagen, o presencia de lesiones como hemorragias, empeoran las segmentaciones obtenidas. Mejorar la capacidad de generalización de los modelos es uno de los aspectos más importantes a tener en cuenta a la hora de entrenar redes neuronales, sobre todo al trabajar sobre datos clínicos. En el contexto de este trabajo se propone aliviar esta dificultad entrenando sobre datos de múltiples orígenes. Al mismo tiempo, es necesario que el modelo permita obtener segmentaciones conexas, debido a que éstas serán necesarias para evaluar distintos parámetros mediante simulaciones hemodinámicas sobre árboles arteriales. 2.5.3. Clasificación de A/V Como se mencionó en la Sección 2.5.2, múltiples investigaciones y desarrollos relacionados con la visión computacional llevaron a cabo tareas de identificación y extracción de la microvasculatura a partir de imágenes de fondo de ojo mediante procesos automatizados. Un paso más alla de la segmentación es la discriminación entre venas y arterias (Figura 11). Hasta ahora, diversos trabajos desarrollados bajo diferentes arquitecturas y enfoques, como por ejemplo, utilizando teoría de grafos [5] o utilizando características basadas en intensidad de colores [33] han dado como resultado altos niveles de precisión. Los trabajos que implementan la técnica de teoría de grafos, primero obtienen una representación de la vasculatura y luego clasifican diferentes partes del grafo en arteria o vena propagando etiquetas. Para reducir el error al clasificar, a menudo se toman en cuenta aspectos propios del dominio, como partir del hecho de que es muy poco probable que una arteria cruce a otra arteria, o una vena cruce a otra vena. Este es un punto a favor del enfoque, como también lo es el costo computacional, ya que no tiene un gran impacto en los recursos utilizados. El punto débil de esta técnica es que a menudo requiere un etiquetadomanual parcial antes del entrenamiento [6]. 20 Figura 11. Clasificación en arterias y venas sobre imagen de fondo de ojo perteneciente al banco de datos público de alta definición (HRF). Izquierda: imagen de fondo de ojo a color. Derecha: segmentación y clasificación de arterias y venas realizadas por un profesional. Fuente: [71]. Otros algoritmos utilizan los colores como principal característica para discernir entre un tipo y otro de vaso, teniendo en cuenta que aquellos con más brillo en la línea central suelen corresponder a arterias y los más oscuros a venas. Este enfoque fue utilizado en [35], donde estas características se complementan con información espacial y del tamaño de vaso, en combinación con diferentes métodos de aprendizaje supervisado. Las pruebas realizadas muestran que los mejores resultados se obtienen combinando características relacionadas con valores de color y contraste dentro y fuera de los vasos, y también añadiendo información posicional. Por otro lado, se resalta además en [35] que las características utilizadas varían según la resolución de las imágenes de entrada, y los resultados pueden verse afectados por este mismo motivo. La mayoría de los trabajos de investigación discutidos anteriormente logran buenos resultados en vasos primarios que son relativamente anchos, pero encuentran dificultades para clasificar sus variantes más pequeñas. Evaluar la performance entre los distintos estudios relacionados a la tarea de clasificar entre arterias y venas no es fácil, sobre todo porque la mayoría de las publicaciones utilizan bancos de datos propios o métricas de evaluación incompatibles. Comparar distintos bancos de datos no es recomendado ya que existen diversos factores que pueden influir en las predicciones, como por ejemplo la iluminación/resolución de la imagen y los sujetos propios a los cuales se fotografía, por nombrar algunos. El uso de aprendizaje profundo, más precisamente, redes neuronales convolucionales, también se aplicó en esta disciplina. Uno de los primeros trabajos que reporta el uso de CNNs con el objetivo de clasificar arterias y venas de manera separada a la tarea de segmentar, es el de Welikala et al. [34], en el cual se utilizan bancos de datos privados. Este enfoque tiene una serie de limitaciones, comenzando por basar la red neuronal en parches de 25 x 25 píxeles, los cuales limitan la capacidad de aprender características a mayor escala. En el año 2019 R. Hemelings et al. [6] publicaron un artículo sobre su aplicación de aprendizaje profundo para clasificar arterias y venas en imágenes de fondo de ojo utilizando redes neuronales convolucionales. En este trabajo utilizan una arquitectura de red U-Net [32] con diversos cambios para aceptar imágenes a color. Utilizaron conjuntos de datos públicos para evaluar los algoritmos entrenados, del 21 mismo modo que introducen nuevos conjuntos de anotaciones evaluadas por especialistas como ground truth. En esta tesis se busca crear un único conjunto de datos a partir de conjuntos de múltiples orígenes, para garantizar obtener un modelo lo suficientemente robusto para trabajar correctamente sobre nuevas imágenes de muestra. 22 Capítulo 3. Métodos El objetivo de este trabajo final de carrera es proponer un enfoque basado en aprendizaje automático para la segmentación y clasificación simultánea de arterias y venas en imágenes de fondo de ojo. Además, se introduce una estrategia para la evaluación cuantitativa de las segmentaciones resultantes en el contexto de la simulación del comportamiento hemodinámico de la retina. En este capítulo se presentan los métodos propuestos y las herramientas utilizadas para llevarlo a cabo. 3.1. Descripción general La Figura 12 ilustra las etapas del algoritmo propuesto. Inicialmente se construye un conjunto de imágenes a partir de la integración de múltiples bases de datos de acceso público, con estudios de diversas resoluciones y capturados con distintos dispositivos. Esto permitirá asegurar que los modelos sean suficientemente robustos a las variaciones naturalmente esperadas al aplicarlos en un contexto clínico real. Posteriormente se realiza un preprocesamiento (Sección 3.2) con el fin de curar los datos obtenidos, creando particiones de entrenamiento, validación y test (ver Capítulo 4). Luego con el fin de aumentar la cantidad de datos disponibles, se utilizaron técnicas de aumentación de imágenes (Sección 3.3), que permiten diversificar el conjunto de entrenamiento que alimentan la red neuronal (en este caso, una U-Net), para reducir el riesgo de overfitting (Sección 3.4). En la última parte del pipeline se extrae el árbol arterial tanto de las segmentaciones arterio venulares obtenidas utilizando el mejor modelo entrenado, como de las segmentaciones manuales de referencia. Para lograr este objetivo se siguieron dos enfoques, uno entrenando desde cero a partir de segmentaciones manuales de arterias y venas, y otro entrenando un modelo de segmentación binaria para luego realizar transferencia de conocimiento (ver Capítulo 4). A partir de la evaluación cuantitativa de los distintos modelos entrenados sobre los datos de validación, se seleccionó el modelo que ofreció mejores resultados. Finalmente, se estimó la efectividad del método propuesto realizando simulaciones hemodinámicas, comparando los resultados obtenidos a partir de estas segmentaciones con los obtenidos a partir de anotaciones manuales (Sección 3.5). 23 Figura 12. Representación esquemática del flujo de trabajo. Distintas bases de datos son preprocesadas para estandarizar el formato de las imágenes y su resolución. Luego son utilizadas para crear particiones únicas de entrenamiento, validación y test. La partición de entrenamiento se utiliza para aprender los diferentes modelos planteados, que son evaluados en el conjunto de validación para escoger la mejor alternativa. Finalmente las imágenes de test se utilizan para evaluar el desempeño final del algoritmo, extrayendo las segmentaciones vasculares, su correspondiente grafo arterial y realizando simulaciones hemodinámicas. 3.2. Preprocesamiento La primera etapa del enfoque propuesto consiste en recolectar la mayor cantidad de datos posibles de diversas fuentes, buscando obtener imágenes capturadas por diferentes dispositivos. En particular, las fotografías de fondo de ojo pueden diferir en formato de archivo, dimensión, resolución y características anatómicas naturales como la morfología vascular del paciente y la presencia o ausencia de patologías retinales producto de enfermedades oculares. En esta etapa de preprocesamiento el objetivo fue reducir el efecto de las variaciones en las imágenes producto de la aparatología de captura utilizada, de forma tal de que el modelo de IA posterior acceda mayormente a la diversidad natural de las imágenes. El preprocesamiento consistió en dos operaciones: 1. Transformar los archivos originales (formatos “.tiff”, “.gif”, “.jpg”) al formato sin pérdida “.png”. Aquí se ponderó la homogeneización de las imágenes en relación al tamaño de los archivos resultantes. 24 2. Recortar el FOV (Field of View) de cada imagen, dejando únicamente la región de interés en cada una (Figura 13). Este procedimiento optimiza las operaciones de lectura de las imágenes durante el entrenamiento, así cómo también ayuda a homogeneizarlas. Figura 13. Preprocesamiento aplicado a una imagen de fondo de ojo de LES-AV. (a) Imagen de fondo de ojo en su resolución original. (b) Máscara binaria correspondiente al FOV de la imagen anterior. (c) Resultado obtenido tras recortar la imagen original según las coordenadas del rectángulo que contiene al FOV. 3.3. Estrategias de aumentación de imágenes Uno de los inconvenientes principales a la hora de desarrollar métodos de aprendizaje profundo es la disponibilidad de datos. Para incrementar la diversidad de las imágenes de entrenamiento, se aplicaron diferentes técnicas de aumentación de imágenes. Las mismas consisten en aplicar transformaciones matemáticas sobre las imágenescon el objetivo de generar muestras artificiales a partir de datos de entrenamiento ya existentes. Es importante aplicar estas transformaciones de manera controlada, ya que de lo contrario podrían obtenerse imágenes poco realistas, no compatibles con los datos existentes en la práctica, que obliguen a la red neuronal a desperdiciar parte de sus parámetros para reconocer patrones de baja o nula utilidad. Las transformaciones aplicadas suelen variar desde pequeños cambios en la ubicación espacial de la imagen hasta traslaciones, rotaciones, espejados horizontales/verticales, cambios en el contraste e iluminación de la imagen, distorsiones, filtros Gaussianos, etc. Para incrementar la variabilidad de los estudios de entrenamiento, en este trabajo se utilizaron diversas transformaciones, algunas aplicadas sobre la imagen de entrada y las anotaciones manuales, y otras aplicadas únicamente sobre la imagen de entrada, entre las que se destacan: 25 ● Color Jitter: realiza cambios en el contraste, brillo y saturación de la imagen. Aplicado de manera controlada permite simular imágenes de fondo de ojo con mayor o menor luminosidad, de retinas más o menos pigmentadas y con mayor o menor contraste. Esta transformación sólo debe aplicarse sobre la imagen de fondo de ojo, no sobre las anotaciones manuales (Figura 14). Figura 14. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Derecha: Imagen de fondo de ojo luego de aplicar Color Jitter aleatorio. ● Horizontal Flip: utilizada para voltear horizontalmente la imagen y su máscara (Figura 15). Figura 15. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen de fondo de ojo luego de aplicar Horizontal Flip. Derecha: Anotación manual luego de aplicar Horizontal Flip. ● Random Scaling: transformación utilizada para escalar la imagen, alejando o acercando tanto la imagen como la máscara por igual (Figura 16). Figura 16. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen de fondo de ojo luego de aplicar Random Scaling (zoom out). Derecha: Anotación manual luego de aplicar Random Scaling (zoom out). 26 ● Vertical Flip: utilizada para voltear verticalmente la imagen y su máscara (Figura 17). Figura 17. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen de fondo de ojo luego de aplicar Vertical Flip. Derecha: Anotación manual luego de aplicar Vertical Flip. ● Random Rotation: utilizada para rotar la imagen y su máscara dado un ángulo (Figura 18). Figura 18. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen de fondo de ojo luego de aplicar rotación de 270°. Derecha: Anotación manual luego de aplicar rotación de 270°. Cada una de las transformaciones contiene un determinado número de parámetros asociados configurables. Luego de un extenso estudio para calibrar los valores que mejores resultados entregaron en cada una de las operaciones aplicadas y otras tantas descartadas, se determinaron las estrategias óptimas en base a una evaluación sobre los datos de validación. En el Capítulo 4 se detallan las operaciones seleccionadas (y los parámetros usados) para cada uno de los enfoques planteados en la Sección 3.1. 3.4. Arquitectura considerada En la Figura 19 se presenta la arquitectura propuesta para la segmentación de los vasos sanguíneos y su clasificación en arterias y venas. La misma se corresponde con la de una U-Net [6] clásica, que se ha probado efectiva en regímenes de poca cantidad de imágenes, obteniendo segmentaciones precisas [37]. En líneas generales, la misma se divide en dos etapas principales: una contractiva o de codificación, que toma a la imagen de entrada y captura características de utilidad mediante sucesiones de capas convolucionales y operaciones de pooling; y una de expansión o decodificación, que paulatinamente recupera la resolución de la imagen de entrada mediante operaciones de 27 upsampling, y produce la segmentación final explotando la información previamente codificada por la etapa anterior, y refinándola a partir de convoluciones propias. Esta última característica es provista mediante conexiones de salto o “skip connections”, que transfieren los mapas de activaciones de las convoluciones del codificador hacia el decodificador, para facilitar la construcción de la segmentación. Nótese que la arquitectura resultante tiene forma de una letra “U”, lo que le da su nombre a esta red. Figura 19. Arquitectura U-Net utilizada en los modelos propuestos. Del lado izquierdo se encuentra la etapa de codificación o contracción, y del lado opuesto la etapa de decodificación o expansión. Las dimensiones marcadas corresponden a un parche de entrada de 256 x 256 x 3. La imagen de entrada de la red corresponde a un tensor de dimensiones 256 x 256 x 3 perteneciente al recorte aleatorio de un parche de la imagen de fondo de ojo a color. De igual forma se extrae su correspondiente anotación manual, que junto con la imagen de entrada se utilizarán durante las etapas de entrenamiento y validación (Figura 20). Figura 20. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen de fondo de ojo luego de aplicar sucesivas transformaciones y obtener un parche. Derecha: Parche correspondiente a la anotación manual de la imagen del centro. 28 La parte contractiva de la red está formada por 4 bloques convolucionales, cada uno seguido por una operación de max pooling con kernels de 2x2 y stride de 2 píxeles. Los bloques convolucionales están formados por una combinación de dos sub bloques compuestos por una capa convolucional con filtros de 3x3, stride de 1 y zero-padding, seguida de batch normalization [65], y una posterior función de activación ReLU [66]. La parte expansiva es simétrica a la contractiva, con 4 bloques de incremento de resolución formados por una operación de upsampling al doble de la resolución de entrada, seguidas de un bloque convolucional igual al descrito con anterioridad. La salida consiste en un tensor de dimensiones equivalentes a las de la imagen de entrada, y 2 canales en el caso de las segmentaciones binarias, uno correspondiente a la clase vaso y otro correspondiente a la clase no vaso o fondo; y 3 canales, en el caso de las segmentaciones que clasifican en arterias y venas, correspondiente a las clases arteria, vena y fondo. Los scores de salida de la red neuronal son procesados mediante una función de activación softmax con el objetivo de obtener para cada píxel la probabilidad de que corresponda a las clases arteria, vena y fondo. En la Tabla 1 se presentan de forma detallada los diferentes componentes de la arquitectura empleada, para facilitar su reproducibilidad. 29 Nro. de capa Nombre de capa Tamaño de salida Tamaño de filtro Stride Etapa 0 Input 3 x 256 x 256 - - Codificación 1 Convolution 1 64 x 256 x 256 3 x 3 1 Codificación 2 Convolution 2 64 x 256 x 256 3 x 3 1 Codificación 3 Max Pool 1 64 x 128 x 128 2 x 2 2 Codificación 4 Convolution 3 128 x 128 x 128 3 x 3 1 Codificación 5 Convolution 4 128 x 128 x 128 3 x 3 1 Codificación 6 Max Pool 2 128 x 64 x 64 2 x 2 2 Codificación 7 Convolution 5 256 x 64 x 64 3 x 3 1 Codificación 8 Convolution 6 256 x 64 x 64 3 x 3 1 Codificación 9 Max Pool 3 256 x 32 x 32 2 x 2 2 Codificación 10 Convolution 7 512 x 32 x 32 3 x 3 1 Codificación 11 Convolution 8 512 x 32 x 32 3 x 3 1 Codificación 12 Max Pool 4 512 x 16 x 16 2 x 2 2 Codificación 13 Convolution 9 1024 x 16 x 16 3 x 3 1 Codificación 14 Convolution 10 1024 x 16 x 16 3 x 3 1 Codificación 15 Upsampling 1 1024 x 32 x 32 2 x 2 2 Decodificación 16 Convolution 11 512 x 32 x 32 3 x 3 1 Decodificación 17 Convolution 12 512 x 32 x 32 3 x 3 1 Decodificación 18 Upsampling 2 512 x 64 x 64 2 x 2 2 Decodificación 19 Convolution 13 256 x 64 x 64 3 x 3 1 Decodificación 20 Convolution 14 256 x 64 x 64 3 x 3 1 Decodificación 21 Upsampling 3 256 x 128 x 128 2 x 2 2 Decodificación 22 Convolution 15 128 x 128 x 128 3 x 3 1 Decodificación 23 Convolution 16 128x 128 x 128 3 x 3 1 Decodificación 24 Upsampling 4 128 x 256 x 256 2 x 2 2 Decodificación 25 Convolution 17 64 x 256 x 256 3 x 3 1 Decodificación 26 Convolution 18 64 x 256 x 256 3 x 3 1 Decodificación 27 Output 3 x 256 x 256 1 x 1 1 Decodificación Tabla 1. Arquitectura de la U-Net empleada para la tarea de segmentación de arterias, venas y fondo. Cada convolución es seguida por una normalización de lotes y una activación ReLU. En la etapa de expansión, las características de las capas de contracción con la misma resolución se fusionan a través de la concatenación. 30 Obsérvese que la arquitectura final cuenta con 23 capas convolucionales en total. Por tratarse de una red totalmente convolucional, esta arquitectura podrá recibir imágenes de cualquier tamaño en tiempo de test. Sin embargo, podrá o no ejecutarse sobre una imagen dependiendo de la disponibilidad de memoria de la GPU. 3.5. Simulación hemodinámica a partir de segmentaciones arteriales Las simulaciones hemodinámicas permiten estudiar in-silico el comportamiento de la sangre al recorrer las estructuras vasculares. De esta forma, es posible interpretar distintos escenarios clínicos factibles a partir de diferentes configuraciones de entrada, propiedades de la sangre y características específicas del paciente. En este trabajo se propone una estrategia alternativa para evaluar la calidad de las segmentaciones en arterias y venas, basada en estudiar y analizar el comportamiento de las simulaciones hemodinámicas realizadas a partir de las predicciones obtenidas, y comparándolas con las realizadas a partir de segmentaciones manuales. Para ello, pueden estudiarse las diferencias en parámetros simulados tales como el flujo de sangre o la presión sanguínea, así como en propiedades morfométricas de los árboles vasculares tales como la cantidad de ramificaciones. Es importante destacar que en este trabajo se simulará el flujo sanguíneo en los árboles arteriales, desconsiderando la parte venosa del circuito, siguiendo la metodología de simulación propuesta en [2]. Dicho trabajo está asociado a un repositorio github [72] con la implementación necesaria para postprocesar las segmentación de árboles arteriales, generar modelos de la vasculatura y realizar simulación. A continuación se describen los procesos a realizar (Ver Figura 21). 1. Extraer inicialmente el árbol correspondiente al segmento arterial. Para encontrar el umbral óptimo para extraer las arterias con la mayor exactitud posible, se evaluaron diferentes valores en función del coeficiente Sorensen-Dice sobre los datos de validación. Se obtuvieron mejores resultados cuando se utiliza un umbral de 0.308: así, si un píxel posee una probabilidad para la clase arteria superior a dicho valor, entonces se lo clasifica como arteria. 2. Generar el modelo de la vasculatura. El árbol arterial extraído a partir de la segmentación (sea esta manual o resultado de los modelos presentados en la Sección 4.3) se utiliza como entrada para el algoritmo desarrollado en [2], el cual permite recuperar árboles arteriales conexos cuyo punto de partida sea lo más cercano posible al disco óptico. Es necesario obtener las raíces de cada árbol, es decir, el punto de partida específico proveniente del área del disco óptico. En esta área los vasos tienden a superponerse, imposibilitando determinar la raíz de cada sub-árbol. Para solucionar este inconveniente se aplica una máscara binaria correspondiente a la zona del disco óptico, descartando vasos internos y tomando ahora el contorno de la máscara como punto de partida. Una vez obtenido el punto de partida, se construye una estructura de grafo que contiene los segmentos y bifurcaciones de cada uno de estos árboles. El proceso consiste en analizar los píxeles vecinos de la raíz de cada sub-árbol e ir extendiendo el trazo de píxeles 31 que conforman cada uno de estos segmentos de tal forma que se obtienen sub-árboles totalmente conexos, utilizando como guía una esqueletización de la estructura vascular. 3. El modelo de simulación a parámetros condensados implementado en [2] y utilizado en este trabajo, es el modelo más simple capaz de estimar las distribuciones de flujo y presión sanguínea en un modelo de árboles arteriales de la retina. Resumidamente, cada segmento arterial es modelado como una lista de elementos resistivos donde son modelados la conservación de la masa y el análogo hidráulico de la ley de Ohm. La resistencia al flujo sanguíneo se modela siguiendo la ley de Poiseuille, que relaciona la resistencia al flujo con la viscosidad sanguínea (dependiente del radio debido a la escala espacial del problema), el largo del segmento y la potencia cuarta del radio. Siguiendo [2], se utilizó la siguiente configuración para los parámetros del modelo: a. presión arterial la raíz de los árboles, Pin=62.22 [mmHg], b. presión venosa de referencia, Pref=30.0 [mmHg], c. flujo total, Qin= 0.00076[cm³/s] Como resultado, la simulación devuelve el flujo y presión en cada lugar del árbol. El lector interesado en los detalles del modelo puede referirse a [2]. 4. Adicionalmente, los modelos vasculares usados para simulación son procesados para obtener información morfométrica básica para el análisis posterior, particularmente la cantidad de raíces y de terminales, así como la cantidad de segmentos de los árboles arteriales. Desde el punto de vista de la implementación, los algoritmos mencionados en los puntos anteriores son utilizados en carácter de caja negra, cuya entrada es una imagen con la segmentación del árbol arterial, y el resultado es un modelo de línea de centro con el flujo y presión en cada punto del mismo. Esta salida es en archivos de formato “.mat”, y “.vtk”. Mientras que los primeros son útiles para analizar estadísticamente los resultados obtenidos, los segundos permiten visualizar los resultados obtenidos mediante herramientas específicas como ParaView [74]. A continuación se detallan todos los indicadores morfométricos y hemodinámicos utilizados en el análisis comparativo de las segmentaciones manuales y producidas por los modelos presentados en la Sección 4.3: Indicadores morfométricos: son extraídos de los modelos vasculares usados para realizar la simulación, no de las segmentaciones propiamente dichas. Se consideraron los siguientes: ● Cantidad total de terminales por imagen. Se consideran terminales a los píxeles o nodos en donde finaliza el recorrido del segmento arterial que no se bifurca. ● Cantidad total de raíces por imagen. Si los terminales representan uno de los extremos del segmento arterial, las raíces representan el extremo opuesto. Cada 32 nodo raíz puede estar asociado con más de un nodo terminal si es que existen bifurcaciones en el segmento arterial. Cada una de las raíces es el punto de partida de los grafos que contienen los segmentos y bifurcaciones. ● Cantidad total de segmentos arteriales. Un segmento puede iniciar en una raíz o bifurcación, y terminar en una bifurcación o terminal. Indicadores hemodinámicos: obtenidos tras realizar la simulación. ● Promedio de flujo de sangre en terminales y raíces. Dado que la simulación es un proceso determinístico, las discrepancias que puedan presentarse en la distribución del flujo en raíces y terminales entre los dos modelos arteriales (uno basado en la segmentación ground truth y la otra basada en la segmentación de la red), se originarán por las diferencias en las segmentaciones y en consecuencia en las discrepancias de los modelos vasculares, ya que la longitud de segmentos arteriales, bifurcaciones, ramas, raíces y terminales impactan directamente en la distribución de flujo sanguíneo en el árbol arterial. ● Promedio de la caída de presión en los terminales. A pesar de que la presión en todas las raíces es la misma, la presión estimada por la simulación en cada terminal dependerá de las características intrínsecas de la anatomía de cada subárbol y del flujo que pase por cada uno. De forma análoga al flujo, las eventuales discrepancias entre los dos modelosserán producidas exclusivamente por las discrepancias entre las segmentaciones y los modelos vasculares. En el Capítulo 5 se estudia el rendimiento del algoritmo de segmentación comparando las distribuciones de estos dos tipos de indicadores obtenidos tanto a partir de los datos segmentados manualmente como de los obtenidos con el modelo automático mediante box-plots y tests de Wilcoxon para datos no paramétricos. 33 Figura 21. Proceso por el cual se obtienen resultados de las simulaciones hemodinámicas a partir de una imagen de fondo de ojo. Derecha: proceso a partir de las segmentaciones a/v obtenidas por el modelo entrenado. Izquierda: proceso a partir de las segmentaciones manuales a/v de referencia. 34 3.6. Implementación El primer paso del pipeline desarrollado y explicado en la Sección 3.1 implicó recolectar los datos de los distintos conjuntos existentes para procesarlos y obtener un único conjunto. Este procedimiento, detallado en la Sección 3.2, se realizó utilizando los recursos de un ordenador portátil personal, sin utilizar una potencia gráfica dedicada. Se comenzó implementando la arquitectura de red mencionada en la Sección 3.4 en el mismo ordenador, al igual que el proceso de carga de datos, entrenamiento, y demás clases necesarias para crear el modelo. Una vez creadas las clases necesarias y listos los conjuntos de entrenamiento, validación y test, se migró la implementación a Google Colaboratory [64], popularmente conocido como Colab, el cual permite desarrollar y ejecutar código en el lenguaje de programación Python en un navegador utilizando un “cuaderno” o notebook configurable, y que brinda acceso gratuito aunque limitado a una GPU de gran capacidad. Si bien cada conexión mediante Colab entrega una máquina virtual distinta con un tiempo de ejecución de GPU limitado que ronda las 8 hs, la capacidad de estas unidades de procesamiento gráfico promediando los 12gb de memoria satisface la demanda de recursos necesarios durante el entrenamiento y validación. Se utilizó Python en su versión 3.7 para el desarrollo completo del trabajo debido a su popularidad en ciencias de datos y redes neuronales. Se utilizaron numerosas librerías existentes y desarrolladas en el área de aprendizaje de máquina y aprendizaje profundo. Para el desarrollo de la arquitectura U-Net, la carga, almacenamiento de datos y la implementación de técnicas de aumentación de imágenes, se utilizó PyTorch, un framework desarrollado por Facebook, enfocado en la investigación y el desarrollo de nuevos modelos. Este marco de entorno de trabajo posee librerías propias para la aumentación de imágenes pertenecientes al paquete Torchvision, el cual permite modificar las técnicas mencionadas en la Sección 3.3 a nuestra conveniencia y aplicar fácilmente a las imágenes de fondo de ojo y/o anotaciones manuales. Por otro lado, dado que la comunidad de PyTorch se encuentra en pleno crecimiento, se hizo uso de foros oficiales y ejemplos con documentación cada vez que fue requerido. Se empleó SciKit-Learn para el cómputo de distintas métricas de evaluación. Scipy, por su parte, es otra librería de código abierto desarrollada para Python que fue utilizada para evaluar los resultados de las simulaciones hemodinámicas, mientras que Numpy resultó fundamental para manipular los datos matriciales y distintos arreglos generados. También se utilizaron librerías para visualizar resultados, imágenes, datos de entrenamiento, creación de tablas y archivos, como es el caso de Pandas y Matplotlib. Por último, para visualizar el resultado de las simulaciones hemodinámicas se utilizó el software ParaView, una aplicación multiplataforma de código abierto para visualización interactiva y científica. Tanto el entrenamiento como la validación y selección del mejor modelo encargado de segmentar arterias y venas mediante imágenes de fondo de ojo se realizaron utilizando Colab. Además, durante el entrenamiento se almacenaron como puntos de control o checkpoints cada una de las épocas entrenadas debido al tiempo que demoran, que es de alrededor de 40 a 60 minutos, al igual que se almacenó el mejor modelo según la métrica de evaluación seleccionada. Del mismo modo se desarrolló el código encargado de evaluar sobre los datos de test y obtener segmentaciones arteriales a partir del score map de cada caso de estudio, obteniendo imágenes binarias de la misma resolución que la 35 imagen original, las cuales son utilizadas en las etapas previas a las simulaciones hemodinámicas. La extracción de grafos arteriales y las simulaciones hemodinámicas se realizaron utilizando el algoritmo desarrollado en [2] mediante Matlab. Por último, la evaluación de los resultados hemodinámicos y la generación de gráficos para representar los estudios realizados también se llevaron a cabo en el lenguaje Python, usando Colab. 36 Capítulo 4. Configuración experimental y materiales En este capítulo se detallan las configuraciones de los experimentos realizados y los materiales utilizados en los mismos. En la Sección 4.1 se presentan los conjuntos de datos utilizados y la división de particiones en entrenamiento, validación y test para cada enfoque planteado. En la Sección 4.2 se presentan las métricas utilizadas para evaluar los modelos de segmentación de A/V, así como también el método para evaluar los resultados hemodinámicos. En la Sección 4.3 se describen los enfoques evaluados, junto a sus respectivas parametrizaciones y organización. 4.1. Datos utilizados Como se mencionó en la Sección 3.1, a partir de diferentes conjuntos de datos públicos se generó un nuevo conjunto de mayor volumen y variedad, para representar escenarios más diversos que permitan mejorar la capacidad de generalización del modelo final. Los distintos modelos fueron entrenados utilizando las bases de datos públicas DRIVE [38] (Sección 4.1.1), HRF [39,40,41] (Sección 4.1.2) y LES-AV [2] (Sección 4.1.3). Estas bases de datos se componen por un conjunto de imágenes de fondo de ojo acompañadas por sus segmentaciones de referencia. Las dos primeras son más antiguas y por lo tanto, cuentan con numerosos experimentos realizados en torno a tareas de segmentación supervisada. La restante es una base de datos pública relativamente nueva, con imágenes de alta calidad y segmentaciones de referencia tanto binarias como de A/V. DRIVE y HRF, por su parte, no disponen de segmentaciones de A/V oficiales si no provistas por terceras partes [6]. Se creó un conjunto de datos global (Sección 4.1.4) particionando los conjuntos antes mencionados en entrenamiento, validación y test. Otras bases de datos existentes como CHASEDB1[42], INSPIRE-AVR[43] y DR-HAGIS[44], poseen imágenes de fondo de ojo, algunas con mejor resolución que otras, con sus respectivas anotaciones binarias, pero carecen de segmentaciones de A/V. Por ende, su utilidad se limita únicamente al entrenamiento o evaluación de modelos de segmentación vascular. En las siguientes subsecciones se detallan las características de los datos utilizados para entrenar y evaluar los algoritmos considerados en este trabajo, además de las estrategias escogidas para su integración. 4.1.1. DRIVE El conjunto de datos DRIVE es uno de los bancos de datos más populares para evaluar algoritmos de segmentación vascular. Fue introducido por primera vez en el año 2004 por Niemeijer. M. et al. [38], con el fin de permitir estudios comparativos sobre la segmentación de los vasos sanguíneos en fotografías de fondo de ojo. Estas imágenes fueron obtenidas de un programa de recolección de muestras realizado en Países Bajos. Las imágenes corresponden a un conjunto de 40 estudios, 33 de los cuales no muestran 37 ningún signo de retinopatía diabética y 7 presentando signos de retinopatía diabética temprana leve (Ver Figura 22). Las imágenes se obtuvieron utilizando una cámara Canon CR5 no midriática 3CCD con un campo de visión de 45 grados (FOV). Cada imagen se almacenó utilizando 8 bits por canal de color a una resolución de 565 x 584 pixeles. El campo de visión
Compartir