Segmentacion de arterias y venas en imagenes de fondo de ojo mediante aprendizaje profundo - aplicaciones en simulacion hemodinamica

Proyectos Interdisciplinarios en Ciencias Exactas y Naturales

•

SIN SIGLA

marta1985aresqueta

24/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Proyectos Interdisciplinarios en Ciencias Exactas y Naturales

720 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Universidad Nacional del Centro de la Provincia de Buenos Aires
Facultad de Ciencias Exactas
Segmentación de arterias y venas
en imágenes de fondo de ojo
mediante aprendizaje profundo:
aplicaciones en
simulación hemodinámica
Trabajo Final de Carrera
presentado para obtener el título de
Ingeniero de Sistemas
por
Lautaro Gramuglia
Directores
Dr. José Ignacio Orlando
(FCEx-UNICEN, CONICET)
Dr. Carlos Alberto Bulant
(FCEx-UNICEN, CONICET)
Resumen
La segmentación de arterias y venas en imágenes de la retina es una ardua y
compleja tarea que se utiliza para estudiar el comportamiento morfológico y hemodinámico
de estas estructuras. Actualmente este proceso se realiza manualmente para asegurar que
las segmentaciones sean conexas y continuas, aunque no dejan de ser susceptibles a
errores entre- e intra-observadores. Sin embargo, en la literatura no se observan trabajos
que evalúen qué tan fieles son las segmentaciones para realizar simulaciones
hemodinámicas similares a las que pueden lograrse empleando segmentaciones
manuales.
En este trabajo final de carrera se propone un modelo de aprendizaje profundo
para automatizar la segmentación y clasificación de arterias y venas de la retina a partir de
fotografías de fondo de ojo. Aunque existen algoritmos para realizar esta tarea, estos
suelen fallar cuando se aplican sobre imágenes muy diferentes a las utilizadas para su
entrenamiento. Así mismo, estos métodos han sido siempre evaluados en función de
métricas específicas que cuantifican el nivel de superposición de las segmentaciones
obtenidas automáticamente respecto a las producidas por expertos humanos. En este
sentido, se propone utilizar estas medidas de calidad clásicas, y establecer un criterio de
evaluación basado en comparar los resultados de las simulaciones computacionales de la
hemodinamia de la retina. Para ello, se fijarán las condiciones de contorno y los
parámetros fisiológicos y matemáticos de un modelo de fluido-dinámica, y se cuantificarán
las variaciones en los flujos y presiones producto de las variaciones en la geometría
arterio-venular producidas por el algoritmo. La evaluación de los métodos propuestos se
realizará utilizando conjuntos de imágenes públicos.
Los resultados obtenidos por el mejor modelo propuesto sugiere que las
comparaciones morfométrica y hemodinámica basándose en algunos indicadores no
presentan diferencias significativas entre las segmentaciones y su ground-truth. La
comparación de estos indicadores permite evaluar la calidad de los algoritmos de
segmentación de forma indirecta, en el contexto de una aplicación concreta, en este caso
las simulaciones hemodinámicas. Teniendo en cuenta la cantidad de imágenes usadas en
esta comparación, y el hecho de que la evaluación hemodinámica de los árboles arteriales
de la retina es un área de investigación abierta, este trabajo presenta resultados
alentadores, creando un abanico de posibilidades para realizar estudios en el marco de su
aplicación en la identificación de factores de riesgo hemodinámicos como el glaucoma de
tensión normal.
1
Agradecimientos
Primero que nada quisiera agradecer a mi familia por el acompañamiento y apoyo
en todo momento desde el comienzo de la carrera. A mis amigos, los que siempre están y
los que esta hermosa carrera me presentó. Por último y no menos importante a la facultad,
docentes, y sobre todo a mis directores Carlos y Nacho por guiarme en este camino,
brindarme su ayuda y su buena onda.
2
Índice
Resumen 0
Agradecimientos 2
Índice 3
Capítulo 1. Introducción 5
1.1. Descripción de la problemática 5
1.2. Objetivos 6
1.3. Vinculación con contenidos de la carrera 6
1.4. Organización del trabajo 7
Capítulo 2. Fundamentos y antecedentes 8
2.1. La retina 8
2.2. Caracterización de enfermedades a partir de la geometría arteriovenular 9
2.2.1. La retinopatía diabética 9
2.2.2. El glaucoma 10
2.2.3. Enfermedad cardiovascular 12
2.3. Fotografías de fondo de ojo 12
2.4. Simulación hemodinámica a partir de fotografías de fondo de ojo 14
2.5. Aprendizaje profundo para clasificación de arterias y venas 15
2.5.1. Aprendizaje profundo y redes neuronales convolucionales 15
2.5.2. Segmentación de vasos sanguíneos 18
2.5.3. Clasificación de A/V 20
Capítulo 3. Métodos 23
3.1. Descripción general 23
3.2. Preprocesamiento 24
3.3. Estrategias de aumentación de imágenes 25
3.4. Arquitectura considerada 27
3.5. Simulación hemodinámica a partir de segmentaciones arteriales 31
3.6. Implementación 35
Capítulo 4. Configuración experimental y materiales 37
4.1. Datos utilizados 37
4.1.1. DRIVE 37
4.1.2 HRF 39
4.1.3 LES-AV 40
4.1.4. Conjunto global de datos 41
4.1.4.1. Datos para segmentación 42
4.1.4.2. Datos para clasificación de arterias y venas 42
4.2. Métricas de evaluación 44
4.2.1. Evaluación de calidad de segmentación 44
4.2.2. Evaluación de resultados hemodinámicos 45
4.3. Configuración experimental 46
3
4.3.1. Experimento 1: modelo de segmentación + fine-tuning para clasificación de
arterias y venas 46
4.3.1.1 Calibrado de la estrategia de aumentación en segmentaciones binarias 48
4.3.1.2 Calibrado de la estrategia de aumentación para la etapa de
segmentaciones de A/V 49
4.3.2. Experimento 2: modelo para segmentación directa de A/V 50
4.3.2.1 Extracción de la segmentación binaria de las arterias por umbralado. 50
Capítulo 5. Resultados 52
5.1. Evaluación mediante métricas de segmentación 52
5.1.1. Resultados cuantitativos 52
5.1.2. Resultados cualitativos 55
5.2. Evaluación mediante simulaciones hemodinámicas 57
5.2.1. Resultados cuantitativos 57
5.2.2. Resultados cualitativos 61
5.3. Discusión 66
Capítulo 6. Conclusiones 68
Bibliografía 70
4
Capítulo 1. Introducción
La siguiente tesis presenta un modelo de aprendizaje automático para
segmentación de arterias y venas en imágenes de la retina con el objetivo de emplearlas
para realizar simulaciones hemodinámicas. En la sección 1.1 se introduce la problemática
tratada y cómo se vinculan en líneas generales las enfermedades visuales con la
hemodinamia retinal. En la sección 1.2 se detallan los objetivos propuestos, mientras que
en la sección 1.3 se vincula esta tesis con los contenidos de la carrera. Finalmente, en la
sección 1.4 se explica cómo se organizó el trabajo realizado.
1.1. Descripción de la problemática
Numerosas enfermedades se relacionan con aspectos hemodinámicos y cambios
morfológicos detectables en la retina del ojo humano. El uso de modelos de flujo
sanguíneo ocular ha ganado popularidad en los últimos años, ya que permite investigar la
relación entre el entorno hemodinámico del ojo y su relación con enfermedades tales como
la retinopatía diabética [8,9] y el glaucoma [10], que constituyen dos de las principales
causas de ceguera prevenible e irreversible a nivel mundial. Mediante el uso de simulación
computacional, se ha observado por ejemplo que es posible estudiar el comportamiento de
la sangre en la vasculatura de la retina, con aplicaciones en ambas enfermedades [8,9,10].
Por otro lado, algunos estudios epidemiológicos relacionan cambios en la estructura de
estos vasos con etapas tempranas de estas enfermedades. Así, por ejemplo, cambios en
el diámetro de los vasos y su tortuosidad otorgan información predictiva muy valiosa sobre
la hipertensión, la diabetes [11], el glaucoma [1] o incluso el mal de Alzheimer y afecciones
cardiovasculares [12,13,14].
Para estudiar tanto la morfología como la hemodinamia de estas estructuras, es
fundamental obtener modelos de las mismas a partir de su segmentación [3] y posterior
clasificación en arterias o venas [4, 5]. Actualmente, este proceso se realiza manualmente
para asegurar que las segmentaciones sean conexas y continuas [2]. Sin embargo, los
resultados obtenidos por parte de especialistas pueden diferir de un sujeto a otro,
dependiendo de diversos factores, tales como la calidad de la imagen analizada, la
dedicación y esfuerzo empleado, entre otros. Además, segmentar manualmente una
imagen es una labor cansina y tediosa, que puede conllevar erroreshumanos
involuntarios.
Recientemente se han propuesto modelos basados en aprendizaje
automático/profundo que permiten automatizar esta tarea de forma eficiente. Aunque
precisas desde un punto cuantitativo, estas salidas no suelen ser lo suficientemente
consistentes desde el punto de vista de la conexión de los diferentes segmentos
vasculares, por lo que su aplicabilidad en el contexto de las simulaciones hemodinámicas
suele ser limitado. Más aún, los métodos existentes no suelen evaluarse en este contexto,
lo que dificulta la selección de un enfoque específico para la resolución de problemas de
simulación hemodinámica en la retina.
5
1.2. Objetivos
Para dar solución a las diversas problemáticas planteadas con anterioridad, esta
tesis se propone como objetivo principal introducir un método computacional para obtener
segmentaciones clasificadas en venas y arterias que puedan emplearse para la ejecución
de simulaciones hemodinámicas. A tal fin, se extienden dos enfoques propuestos en la
literatura por HEMELINGS, R; et al. [6] y GALDRAN, A; et al. [7]. Para favorecer la
producción de segmentaciones arterio-venulares coherentes, se entrenaron primero
modelos que segmentan la estructura vascular, ajustando los distintos hiperparámetros
para encontrar la mejor configuración posible y aplicando distintas técnicas de
aumentación de datos para incrementar el número de datos disponibles y su variabilidad.
Luego se aplicó la misma metodología sobre los datos con clasificaciones de arterias y
venas utilizando transferencia de aprendizaje vía ajuste fino (fine tuning) o entrenamiento
desde cero, cuyos resultados se analizan y comparan en el capítulo 5.
Una vez analizados los distintos modelos en base a diferentes métricas de
evaluación, se escogió el mejor de ellos para utilizarlo y generar geometrías
arterio-venulares paciente-específicas, que son luego evaluadas como entradas para
modelos de simulación hemodinámica a parámetros condensados [2]. Dichos modelos
requieren como entradas la geometría del árbol arterial y la definición de parámetros
fisiológicos y condiciones de contorno. Para evaluar la efectividad del método propuesto,
se compararon los resultados obtenidos sobre las geometrías generadas por el método
con las producidas manualmente por usuarios expertos.
1.3. Vinculación con contenidos de la carrera
Diversas materias cursadas a lo largo de la carrera fueron fundamentales para
comprender las diferentes áreas que abarca esta tesis. Desde comprender conceptos
básicos de programación tales como variables, arreglos, ciclos, etc. hasta materias
relacionadas pura y exclusivamente con matemáticas. En este sentido, Álgebra lineal fue
fundamental para comprender conceptos relacionados con aprendizaje profundo tales
como cálculos vectoriales, operaciones matriciales o transformaciones. Las métricas de
evaluación, optimizadores, funciones de pérdida, técnicas de aumentación de datos,
incluso las capas mismas de una red neuronal, son mecanismos que utilizan fórmulas
matemáticas complejas para obtener un resultado determinado, muchas vinculadas con
contenidos vistos en dicha materia. Del mismo modo, las asignaturas Probabilidad y
Estadísticas, Introducción al Cálculo Diferencial e Integral y Análisis Matemático facilitaron
el análisis de funciones, gráficos y resultados.
Por otra parte, Teoría de la Información resultó de suma utilidad en el tratamiento,
manipulación y análisis de imágenes, ya que en esta cátedra se introdujo el concepto de
imágenes como matrices, colores como valores numéricos, pre-procesamiento de
imágenes para mejorar la calidad de las mismas, quitar el ruido, distorsiones, etc.
Gracias a cátedras como Lenguajes de Programación, en donde se aprenden
conceptos propios de los lenguajes y se introduce a algunos de estos, el aprendizaje del
lenguaje utilizado para desarrollar los algoritmos (Python), no fue tan complejo, facilitando
el enfoque en librerías ligadas a aprendizaje profundo (Pytorch), aumentación de imágenes
6
(Torchvision), manipulación de datos (Numpy y Pandas), lectura/escritura de imágenes
(PIL), entre otras.
Por último, cabe señalar que materias optativas como Introducción a las redes
neuronales y aprendizaje profundo también fueron de gran ayuda para adquirir habilidades
básicas a la hora de utilizar modelos inspirados en técnicas de aprendizaje de máquina,
resultando de gran ayuda para conocer los conceptos y componentes básicos.
Finalmente, vale señalar que este trabajo se llevó a cabo en el marco de una beca
de iniciación en la investigación INI de la Secretaría de Ciencia, Arte y Tecnología (SECAT)
de la UNICEN, en el marco del Programa de Fortalecimiento a la Ciencia y la Tecnología
en Universidades Nacionales. Esta beca posibilita adentrarse en un campo profesional
referido a la investigación, aprendiendo distintas metodologías y tecnologías de trabajo,
siguiendo un método científico para llegar a obtener los resultados pertinentes, analizarlos
y sacar conclusiones en base a estos.
1.4. Organización del trabajo
En el Capítulo 2 se introducen el problema y las posibles soluciones que existen
actualmente. Para ello se repasa brevemente al inicio la anatomía y fisiología del ojo
humano, luego se presentan aplicaciones de simulación hemodinámica enfocadas en
algunas enfermedades de interés, y finalmente se introducen los algoritmos actuales para
la segmentación y clasificación de arterias y venas en imágenes de fondo de ojo.
En el Capítulo 3 se presentan los métodos propuestos en este trabajo para obtener
las segmentaciones y clasificaciones. Se detalla la arquitectura de red utilizada, los
distintos enfoques utilizados y sus respectivas configuraciones, al igual que las estrategias
de aumentación de datos empleadas.
En el Capítulo 4 se explican los bancos de datos utilizados, incluyendo las
características y la composición de los mismos, la división y creación de particiones
creadas. Además se introducen las métricas de evaluación utilizadas tanto para las
segmentaciones como para las simulaciones y se detallan los experimentos realizados.
En el Capítulo 5 se exponen los resultados obtenidos además de analizar y discutir
estos valores.
Por último en el Capítulo 6 se concluye el trabajo realizado, se señalan virtudes,
limitaciones, y se presentan posibles mejoras, sugerencias, o enfoques para trabajos
futuros.
7
Capítulo 2. Fundamentos y antecedentes
En las siguientes secciones de este capítulo se introducirá la problemática
abordada. Para esto, primero se presentarán de forma global algunos conceptos
vinculados con la retina y la importancia de la caracterización de la morfología
arteriovenular de la misma y la cuantificación de su hemodinamia. Luego se introducirán
algunos métodos de aprendizaje profundo existentes en la literatura para la clasificación de
arterias y venas.
2.1. La retina
La retina es un tejido sensible a la luz situado en la superficie interior del ojo (Figura
1, izquierda). Su misión es transformar la luz que ingresa en el ojo a través de la córnea, la
pupila y el cristalino, en un impulso nervioso que viaja hasta el cerebro a través del nervio
óptico, donde es convertida en las imágenes que percibimos. Está formada por varias
capas de neuronas interconectadas, y por 2 tipos de células sensibles a la luz
(fotorreceptoras) conocidas como conos y bastones. Los bastones funcionan
principalmente en condiciones de baja luminosidad y proporcionan la visión en blanco y
negro, mientra que los conos están adaptados a situaciones de mucha luminosidad y
proporcionan la visión a color [15].
Figura 1. Izquierda: Representación esquemática del globo ocular. Derecha: Fotografía de
fondo de ojo, que permite observar la retina y sus regiones anatómicas principales.
Visualmente, la retina tiene la forma de una esfera abierta por delante (Figura 1,
izquierda). El área central de la retina es la mácula (Figura 1, derecha), que se encuentra
ubicada entre las arcadas vasculares y el disco óptico, mide 5,5 mm de diámetro y tiene un
espesor de160-190 µm [15,16]. La mácula posee una depresión central que en promedio
tiene 1,5 mm de diámetro, conocida como fóvea. En la fóvea existe una zona sin presencia
de vasos llamada zona avascular foveal, que es un punto de referencia para diferentes
patologías.
La retina cuenta con vasos sanguíneos observables a través de algunas
modalidades de imagen médica, que ingresan en ella desde el disco óptico (una estructura
8
circular de entre 1.5 y 2.5 mm de diámetro) y se ramifica en forma de árboles de arterias y
venas (ver Figura 1). La irrigación de sangre está a cargo de la arteria central de la retina,
la cual ingresa a través del nervio óptico, ramificándose sobre la superficie interna de la
retina. Durante el recorrido van desprendiéndose de ella una serie de arteriolas, que
ingresan en profundidad en las capas internas de la retina bajo la forma de una red capilar
muy densa. Estas ramas terminales constituyen el único medio de suministro sanguíneo
para la mayor parte de la retina. La fóvea y una pequeña zona que la rodea no reciben
sangre de la arteria central de la retina o de sus ramas, sino a través de la coroides, una
capa delgada de tejido ubicada en la pared del ojo que cuenta con numerosos vasos
sanguíneos.
Del mismo modo que la retina es irrigada a través de las arterias, las venas
cumplen la función de evacuar la sangre de los capilares venosos de la retina hacia venas
mayores fuera del ojo. Éstas siguen mayormente las ramificaciones arteriales, aunque con
algunas variaciones, sobre todo respecto de las ramas más grandes. Las ramificaciones
arteriales y venosas se entrecruzan con frecuencia, por lo general en las capas más
internas.
2.2. Caracterización de enfermedades a partir de la geometría
arteriovenular
Tanto enfermedades visuales como la retinopatía diabética (RD) o el glaucoma
como condiciones cardiovasculares sistémicas pueden observarse estudiando la anatomía
y fisiología de la retina. Estas enfermedades son altamente prevalentes y generan
complicaciones de diversa índole: la RD y el glaucoma, por ejemplo, constituyen las
principales causas de ceguera a nivel mundial, ya que afectan drásticamente la visión si no
son tratadas a tiempo; la enfermedad cardiovascular, por otro lado, es una de las
principales causas de mortalidad a nivel mundial. A continuación se describen brevemente
estas enfermedades y cómo se manifiestan en los vasos sanguíneos de la retina.
2.2.1. La retinopatía diabética
La RD causa ceguera legal en 86% de los jóvenes menores a 30 años con diabetes
mellitus y en 33% de los pacientes mayores a 30 años al momento de diagnosticarse la
enfermedad [17]. Su progresión varía en los pacientes y depende principalmente de
factores sistemáticos tales como la presión sanguínea, la concentración de lípidos en
sangre y los niveles de glucosa, entre otros. El incremento del flujo sanguíneo y la presión
en los vasos producto de la diabetes mal tratada produce daños en la permeabilidad de los
vasos sanguíneos, dando paso a la exudación lipídica y extravasación de sangre [18]. Así,
detectar anomalías o cambios en la red capilar macular de los pacientes diabéticos puede
ayudar a detectar una retinopatía incipiente. Los cambios microvasculares que suelen
ocurrir están limitados a la retina, y es posible detectarlos rápidamente en sus etapas
tempranas mediante herramientas de imagenología médica, como las fotografías de fondo
de ojo (ver Sección 2.3). En la RD se observa el estrechamiento de las arteriolas y el
ensanchamiento de las vénulas, dando como resultado una relación diámetro
arteriolar-avenular (AVR) más baja [50,51].
9
Figura 2. Imagen de fondo de ojo de un paciente con retinopatía diabética no proliferativa
severa, con sus respectivas lesiones asociadas. Fuente: [68].
En los estadíos tempranos de la retinopatía diabética se producen
microaneurismas (MAs) o dilataciones de las paredes de los vasos sanguíneos. Los MAs
pueden producir exudación lipídica hacia las capas de la retina, formando edemas y
exudados en sus capas superficiales (Figura 2). Si los MAs se rompen, se producen
pequeñas hemorragias (HEs). La acumulación de lesiones rojas (MAs y HEs) imposibilitan
entonces un flujo constante de sangre y por ende, componentes vitales como el oxígeno y
la glucosa no llegan a todas las células. En consecuencia ocurren cierres capilares y se
produce una isquemia progresiva, en donde el cuerpo reacciona liberando factores
angiogénicos como mecanismo de defensa, que estimulan la generación de nuevos vasos
para reemplazar los dañados, lo que se conoce como neovascularización. Estos nuevos
vasos, sin embargo, son delgados y frágiles, y pueden ocasionar pérdidas de sangre en el
vítreo (hemorragia vítrea). Este punto avanzado de la enfermedad se conoce como
retinopatía diabética proliferativa, y tiene asociado un alto riesgo de ceguera. Las cicatrices
ocasionadas producto del crecimiento de los nuevos vasos sanguíneos pueden causar
desprendimiento de retina, por ejemplo. Por otro lado, si los nuevos vasos sanguíneos
interfieren en el flujo normal de líquido hacia afuera del ojo, puede producirse una
acumulación de presión en el globo ocular [18], dañando eventualmente el nervio óptico y
produciendo glaucoma.
Para prevenir el avance de esta patología es de suma importancia detectarla lo
más tempranamente posible. Sin embargo, en los estadíos tempranos la enfermedad es
asintomática, por lo que indicios tales como cambios en la vasculatura retiniana pueden
ser de gran ayuda para detectar una retinopatía diabética subyacente. Al día de la fecha
existen diferentes tratamientos a los que someter al paciente cuando se detecta la RD,
pero con muy baja efectividad si los estadíos de la misma son avanzados.
2.2.2. El glaucoma
El glaucoma agrupa a un conjunto de enfermedades prevenibles que se
caracterizan por dañar el nervio óptico gradualmente, disminuyendo la visión en el
10
paciente de forma irreversible. Por lo general la enfermedad no presenta síntomas y, sin el
tratamiento apropiado, puede llevar a la ceguera. Su detección temprana y dar con el
tratamiento adecuado son claves para prevenir que avance en esta dirección.
La parte anterior del ojo está llena de un líquido transparente conocido como fluido
intraocular o humor acuoso, que cumple la función de mantener la forma esférica del ojo.
Éste sale del ojo por medio de la pupila para ser drenado hacia el torrente sanguíneo por
medio de un sistema de mallas, ubicado justo en el ángulo que forman el iris y la córnea
(Figura 1 izquierda). Para que la presión se mantenga en valores normales y mantenga la
salud del ojo, este proceso de producción, flujo y drenaje debe ser activo y continuo. La
presión intraocular (PIO) depende de la cantidad de fluido que se encuentre dentro del
mismo, por lo que cuando el flujo normal se interrumpe es natural que la presión dentro del
ojo aumente.
Existen dos tipos principales de glaucomas, siendo el más común el glaucoma de
ángulo abierto. Es una condición que se produce gradualmente cuando el ojo no drena el
fluido tan bien como debería (Figura 3). Como resultado, la PIO aumenta y empieza a
dañar el nervio óptico de forma indolora y asintomática. Por otra parte, el glaucoma de
ángulo cerrado o estrecho se da cuando el iris se encuentra muy cercano al ángulo de
drenaje del ojo. Cuando el ángulo de drenaje queda bloqueado completamente, la PIO
aumenta rápidamente en un ataque agudo que se caracteriza por dolores intensos del ojo,
de cabeza o náuseas. Este último, de no tratarse de manera inmediata, produce
rápidamente daños irreversibles [19].
Figura 3. Patofisiología del glaucoma. Cuando el flujo de humor acuoso es bloqueado, se
detiene el drenaje del mismo a través del ángulo iridocorneal y se incrementa la presión
intraocular. Fuente: [75]
Estudios recientes indican que la perfusión discontinua del nervio óptico y la
reducción del flujo sanguíneo ocular podrían contribuir en gran medida al desarrollo y
progresión de glaucomas [47,48]. El flujo sanguíneo de la cabeza del nervioóptico
depende de varios factores como la resistencia al flujo, la presión sanguínea, la PIO y la
viscosidad de la sangre. Se cree que la PIO elevada compromete la perfusión de la cabeza
del nervio óptico y causa daño isquémico [45,46].
11
Uno de los primeros síntomas de los glaucomas son la aparición de pequeños
puntos ciegos en la visión lateral o periférica. Si bien el daño es permanente, irreversible e
irreparable, puede detenerse por medio de medicamentos que actúan como liberadores de
presión o reducen la generación de humor acuoso. Otra posible intervención es mediante
cirugía láser, que busca liberar el humor acuoso acumulado en el ojo.
2.2.3. Enfermedad cardiovascular
Múltiples estudios demuestran que hay evidencia de que cambios en la vasculatura
retinal predicen la enfermedad de las arterias coronarias y están asociados con fallas
prematuras del corazón y múltiples marcadores de enfermedades ateroscleróticas
subclínicas, incluyendo calcificación de la arteria coronaria, rigidez aórtica, e hipertrofia
ventricular izquierda [20]. Estudios independientes en 20,708 pacientes encontraron una
relación directa entre el ensanchamiento venular, es decir, el cambio de calibre de la
vasculatura retiniana, y el incremento directo en el riesgo de sufrir un accidente
cerebrovascular e incluso un incremento en la tasa de mortalidad por este factor [21].
Alteraciones en la geometría vascular de la retina, como por ejemplo, incremento de la
tortuosidad o decrecimiento de la dimensión fractal, también fueron relacionados con las
problemáticas mencionadas con anterioridad.
Uno de los principales biomarcadores utilizados para estudiar la relación de
diferentes enfermedades cardiovasculares y las arterias-venas de la retina, es el calibre de
los vasos sanguíneos. Se demostró que cambios en el calibre de los vasos retinianos
están asociados con el progreso de una variedad de enfermedades sistémicas [49]. Una
disminución de la relación arterio-venular (AVR) generalizada se asocia con un mayor
riesgo de desarrollar hipertensión [52], mientras que un aumento generalizado se asocia
con un mayor riesgo a sufrir accidente cerebrovascular. El AVR se estima a partir de los
valores equivalentes arterial retiniano central (CRAE) y venoso retiniano central (CRVE),
correspondiente a los vasos ocultos detrás del disco óptico, donde se originan las arterias
y venas retinianas. Existe una relación directa entre los valores de CRAE y CRVE, y la
progresión de enfermedades cardiovasculares [53].
2.3. Fotografías de fondo de ojo
La fotografía de fondo es una modalidad de imagen médica de fácil adquisición y
no invasiva, que permite obtener una captura digital de la superficie interior del ojo, que
incluye la retina, el nervio óptico, la mácula y el polo posterior (Figura 4). Se lleva a cabo
utilizando una cámara de fondo de ojo (Figura 5), compuesta básicamente por un
microscopio de baja potencia con una cámara adosada. Se utiliza para diagnosticar y
hacer seguimiento de la progresión de ciertas patologías oculares, como la RD y el
glaucoma [22]. Para capturar el estudio, el paciente se coloca en la zona indicada,
apoyando el mentón sobre un tabique especializado, y el operario del equipo manipula un
control analógico ubicado en la parte inferior del dispositivo para iluminar el fondo del ojo y
capturar las imágenes pertinentes, previsualizándolas en un monitor. Gracias a los
avances tecnológicos, la captura de imágenes de fondo de ojo se transformó en un
proceso relativamente simple y accesible, en la cual no se requiere un oftalmólogo
12
especializado, si no que sólo se necesita una persona capacitada para manipular el
dispositivo.
Figura 4. Izquierda: Fotografía de fondo de ojo extraída del conjunto HRF. Derecha:
Regiones anatómicas fácilmente visibles en fotografías de fondo de ojo.
Figura 5. Cámara retinal no midriática modelo Cobra+ (no requiere dilatar la pupila).
Fuente: [76]
En la parte izquierda de la Figura 6 se indican diferentes lesiones de la retinopatía
diabética detectadas mediante el análisis de imágenes de fondo de ojo por parte de
especialistas, incluyendo microaneurismas, exudados duros y blandos, y algunas lesiones
rojas (hemorragias). Por otra parte, a la derecha de la Figura 6 se observa la fotografía de
fondo de ojo de un paciente que padece glaucoma. Puede verse un aumento en el tamaño
de la copa óptica en relación con el diámetro del disco óptico, y un desplazamiento de las
arterias con un ahuecamiento de la cabeza del nervio óptico.
Entre las ventajas de esta modalidad de imagen se incluyen, además de su
facilidad de captura, su bajo costo y rapidez para realizar grandes muestreos
poblacionales. Por otro lado, aunque la imagen no brinda ningún tipo de información
hemodinámica, es posible utilizarla para la realización de simulaciones, como se detalla en
la Sección 2.4.
13
Figura 6. Izquierda: Imagen de fondo de ojo con microaneurismas, exudados duros y
blandos (flechas negras) y algunas hemorragias (flechas blancas). Derecha: Nervio óptico
de un paciente con glaucoma [69,70].
2.4. Simulación hemodinámica a partir de fotografías de fondo
de ojo
La fotografía de fondo de ojo permite estudiar características morfológicas de la
vasculatura tales como su tortuosidad, el ancho de los vasos, etc. Alternativamente, es
posible estudiar el comportamiento funcional de la hemodinamia de la retina a partir del
uso de simulaciones computacionales. En particular, en [2] se propuso caracterizar y
estudiar la hemodinámica de la microvasculatura retiniana de pacientes con patología
glaucoma declarada, mediante simulaciones computarizadas, a partir de la extracción de
grafos arteriales utilizando imágenes de fondo de ojo. Este método se basa en
representaciones gráficas paciente-específicas de la topología vascular para construir
modelos a parámetros condensados (0D), que explican el flujo de la sangre en dominios
rígidos. Estos modelos son muy eficientes computacionalmente y permiten la simulación
del flujo sanguíneo en grandes redes de vasos [2]. Al igual que en [2], utilizando modelos
0D, en [9] se implementaron diferentes modelos capaces de obtener indicadores extraídos
de la geometría vascular mediante imágenes de fondo de ojo de pacientes que padecen
diabetes y desarrollan retinopatía diabética. Dicho estudio encontró cambios
estadísticamente significativos en algunos indicadores hemodinámicos asociados con el
desarrollo de la RD, especialmente aquellos relacionados con la geometría vascular
venular.
En el contexto de la simulación hemodinámica retiniana, se han utilizado enfoques
de modelado similares. En [23] se incorpora como parámetro la distribución del
hematocrito sanguíneo, es decir, el volumen de sangre ocupado por glóbulos rojos
respecto del volumen de sangre total. El análisis demostró una distribución no uniforme,
con niveles más bajos de hematocrito sanguíneo en áreas cercanas al disco óptico y
niveles más altos en la zona ecuatorial de la retina. Este hecho influye en la distribución
aparente de la viscosidad, presión y tensión tangencial que ejerce el flujo sanguíneo sobre
la superficie endotelial (conocido como Wall Shear Stress, WSS) de los vasos sanguíneos.
La viscosidad y la WSS es sustancialmente mayor en vasos pequeños comparado con
vasos principales. Existe evidencia sustancial de que los segmentos vasculares con un
nivel de WSS bajo u oscilante, tienden a un mayor riesgo de desarrollar aterosclerosis, una
14
enfermedad cardiovascular crónica, generalizada y progresiva que afecta sobre todo las
arterias de mediano tamaño [56].
Los indicadores hemodinámicos como la resistencia vascular, la presión y
viscosidad sanguínea junto con la geometría vascular, determinan la distribución del flujo
sanguíneo de la retina [55]. Múltiples estudios investigaron el impacto de la diabetes
mellitus sobre la geometría y hemodinamia de la retina. En [56], por ejemplo, se estudiaron
los efectos de la RD en la velocidad del flujo sanguíneo en las arterias, concluyendo que
en pacientesenfermos el flujo es más lento. Cambios significativos en el calibre de los
vasos arteriales y venulares en pacientes con RD fueron detectados y estudiados por
múltiples investigadores [57,58,59], vinculando el ensanchamiento de las venas de la
retina con un avance agresivo y progresivo de esta enfermedad [60,61].
2.5. Aprendizaje profundo para clasificación de arterias y
venas
A continuación se presenta una introducción al aprendizaje profundo enfocado en
la segmentación y clasificación de arterias y venas, analizando los diferentes trabajos
consultados. También se introduce a las redes neuronales convolucionales, cuáles son sus
ventajas, componentes principales y objetivo.
2.5.1. Aprendizaje profundo y redes neuronales convolucionales
El aprendizaje automático (o machine learning) define un conjunto de técnicas que
le permiten a un sistema computacional adquirir conocimiento mediante la extracción de
patrones a partir de un conjunto de datos dado. Es un subconjunto dentro del campo de la
inteligencia artificial (IA) (Figura 7) que ha permitido a las computadoras abordar
problemas relacionados con el conocimiento del mundo real y auxiliar en la toma de
decisiones antes subjetivas o basadas en principios manuales.
Figura 7. Esquema jerárquico de las principales áreas de la Inteligencia Artificial.
15
El aprendizaje profundo (en inglés, deep learning) es un área específica del
aprendizaje automático, compuesta por algoritmos basados en redes neuronales
jerárquicas, en las que existen capas o grupos de neuronas artificiales especializadas en la
identificación de determinadas características en diferentes niveles de abstracción. En [24],
se define alternativamente al aprendizaje profundo como un conjunto de algoritmos de
aprendizaje automático que buscan modelar abstracciones de alto nivel en datos
expresados en forma matricial o tensorial.
El deep learning permite obtener modelos de IA para automatizar diferentes tareas
a partir del aprendizaje supervisado o no supervisado. En el aprendizaje supervisado, el
modelo es entrenado a partir de un conjunto de datos en los que cada muestra de entrada
tiene asociado su valor de salida esperado o “etiqueta”, y es comúnmente aplicado para
problemas de regresión y clasificación. En el aprendizaje no supervisado, por otro lado, el
conjunto de datos de entrenamiento no cuenta con etiquetas. En este trabajo se empleará
aprendizaje supervisado para el entrenamiento de redes neuronales.
Las redes neuronales son el componente fundamental en todo sistema de
aprendizaje profundo. Estas redes se inspiran en el comportamiento del cerebro humano, y
son modeladas como conexiones de neuronas agrupadas en capas, que en conjunto
forman un grafo acíclico (Figura 8). A nivel general, la estructura de la red puede resumirse
en tres conjuntos distintos de capas: las de entrada, las ocultas, y las de salida. Las capas
de entrada son las encargadas de asimilar los datos de entrada, mientras que las capas
ocultas se encargan de cuantificarlas en una serie de activaciones que describen sus
principales características, y que son utilizadas por la capa de salida para dar la respuesta
esperada.
Figura 8. Representación esquemática de la arquitectura de un perceptrón multicapa,
un tipo particular de red neuronal, en este caso formado por 3 capas con 3 entradas, 2
capas ocultas con 4 neuronas cada una, y una capa de salida.
Durante mucho tiempo, la necesidad de unidades de procesamiento más potentes
fue el principal limitante para el avance de esta disciplina. En los últimos años, los
algoritmos de aprendizaje profundo han ganado popularidad, en gran parte debido al poder
de cálculo y disponibilidad de unidades dedicadas al procesamiento gráfico (GPUS). La
cantidad de datos disponibles, además, potenciada por las mejores capacidades de
16
producción y almacenamiento de los mismos, también ha sido un factor fundamental para
propiciar el desarrollo de este tipo de modelos, ya que permiten dar robustez, crear redes
neuronales más profundas y extenderlas a nuevos conjuntos de datos y dominios.
Particularmente, en el área de procesamiento de imágenes, las redes neuronales
convolucionales (Convolutional Neural Network o CNN por sus siglas en inglés), son uno
de los modelos más utilizados. Sus principios fundamentales se basan en el Neocognitron,
introducido por Kunihiko Fukushima en 1980 [25]. Más adelante, este tipo de redes fue
modificada por Yann LeCun et al. en 1998 para introducir el concepto de retropropagación
(o backpropagation) [26]. El paper seminal de Alex Krizhevsky en 2013 [36], en un
contexto favorable en términos de poder de cálculo y disponibilidad de datos, popularizó el
uso de este tipo de modelos, llegando a convertirse en nuestros días en un estándar para
este tipo de problemas. En particular, las CNNs tienen un desempeño formidable en
problemas de visión computacionales tales como la clasificación y segmentación de
imágenes [27]. Un aspecto importante de los modelos obtenidos a partir de este tipo de
redes neuronales es que obtienen características abstractas a medida que se propagan los
datos hacia capas más profundas. Además, las CNNs logran reducir el número de
parámetros de una red neuronal artificial, permitiendo a investigadores y desarrolladores
crear modelos más profundos y resolver tareas más complejas.
Las CNNs se organizan en múltiples capas, incluyendo capas convolucionales, no
lineales, capas de agrupación (pooling layers), y capas totalmente conectadas. Algunas de
estas capas tienen parámetros que se actualizan durante el entrenamiento (como es el
caso de las totalmente conectadas y las convolucionales), mientras que otras como las de
agrupación o no lineales no tienen parámetros [27]. Las CNNs realizan operaciones
convolucionales sucesivas en la imagen de entrada aplicando para ello núcleos o kernels
que detectan patrones específicos en las mismas. Como consecuencia, los datos son
transformados de tal manera que ciertas características se vuelven más dominantes en la
imagen de salida. Hiperparámetros tales como el tamaño del kernel, la cantidad de píxeles
por desplazamiento del kernel (o stride) y la técnica para complementar los bordes de la
imagen (padding) deben ser elegidos manualmente por quien diseña la arquitectura,
afectando los resultados posteriores (Figura 9).
Figura 9. Operación convolucional con stride 1, de una matriz de dimensión 5x5
(luego de aplicar padding), para obtener una matriz (output) de dimensión 4x4, utilizando
un tamaño de kernel de 2x2. Fuente: [62]
17
Luego de aplicar una convolución es necesario añadir a la salida una función de
activación no lineal para asegurar que la red pueda modelar funciones de complejidad
arbitraria, y no solamente lineales. Entre las funciones de activación no lineal más
populares se encuentra la ReLU, que es computacionalmente más económica que otras
anteriores como la tangente hiperbólica.
Una configuración típica de un modelo de red neuronal convolucional se compone
de capas de convolución, seguidas por una función de activación y posteriormente capas
de agrupación. Las capas de agrupación o pooling cumplen el rol de disminuir la resolución
del mapa de activaciones de entrada, produciendo un mapa de menor tamaño a ser
procesado por el próximo nivel de capas convolucionales. Con esto logra detectar patrones
en diferentes escalas espaciales de la imagen. Uno de los métodos de agrupación más
utilizado es el de Max-pooling, y consiste en particionar la imagen en subregiones de un
tamaño fijo y retornar luego el máximo valor de esa subregión analizada [27].
Las capas convolucionales, las capas de activación y las de agrupación constituyen
la primera parte de la arquitectura de una red neuronal convolucional típica. Es muy común
en problemas de clasificación agregar una capa totalmente conectada a la salida de la red.
Una red totalmente convolucional, como la utilizada en este trabajo, no posee capas
totalmente conectadas, si no que la salida de la red se compone por una convolución1 x 1
con tantos canales de salida como clases se quieran etiquetar. El objetivo final es obtener
una clasificación densa, es decir, etiquetar cada uno de los píxeles de la imagen de
entrada.
2.5.2. Segmentación de vasos sanguíneos
Segmentar vasos sanguíneos manualmente en fotografías de fondo de ojo es una
tarea compleja, que requiere de especialistas con el conocimiento adecuado para llevarla a
cabo. Su complejidad hace que sea una tarea lenta, que insume mucho tiempo y resulta
tediosa, especialmente cuando se requiere analizar grandes volúmenes de imágenes de la
retina en estudios poblacionales. Gracias a la tecnología, la investigación y el desarrollo,
se han propuesto métodos computacionales para intentar aliviar esta carga, o incluso para
resolver la tarea completa de manera automática. Una solución automatizada permite
entonces agilizar estos tiempos y eliminar cualquier variable o error introducido por los
distintos profesionales al interpretar las imágenes y generar anotaciones manuales.
Se han utilizado diferentes enfoques computacionales para segmentar la
vasculatura retiniana utilizando imágenes de fondo de ojo. Podemos dividir estos enfoques
en dos grandes grupos: los métodos no supervisados y los supervisados. Los métodos no
supervisados fueron populares en un principio, ya que intentan reconocer si un píxel
corresponde o no a un vaso sin utilizar datos de referencia [63]. Los métodos
supervisados, por otro lado, han cobrado mayor relevancia recientemente gracias al uso
de las redes neuronales convolucionales. Estos emplean un conjunto de imágenes de
entrenamiento acompañadas de sus segmentaciones manuales de referencia, realizadas
por expertos, utilizándolas para aprender modelos capaces de reconocer aquellos
patrones característicos de los vasos.
Numerosos desarrollos han sido llevados a cabo en este escenario, con resultados
notables en cuanto a performance. Por ejemplo, el modelo de N4-field [28] combina CNNs
18
con la técnica de vecinos más cercanos para buscar y detectar en parches locales, bordes
y objetos delgados o largos, y usar eso como información para facilitar la segmentación de
los vasos. El procedimiento consiste en iterar secuencialmente sobre la imagen en
pequeños parches enviados a través de una red convolucional previamente entrenada,
para luego utilizar la salida de la red y compararla contra un diccionario que contiene
resultados de salidas de parches entrenados con sus respectivas anotaciones. Luego se
transfiere la anotación correspondiente al vecino más cercano y se obtiene el resultado
promediando las anotaciones transferidas superpuestas. Otros enfoques más tradicionales
utilizan parches para entrenar CNNs de clasificación, como es el caso de [29], que utiliza
400,000 ventanas de imágenes preprocesadas obtenidas de los distintos bancos de datos
públicos existentes para entrenar una red que clasifica un parche como parte o no de un
vaso. Este tipo de modelos tiene la desventaja de presentar un alto costo computacional
en tiempo de test, ya que requiere un llamado a la red por cada parche procesado. En [30]
se propone alternativamente utilizar CNNs totalmente convolucionales combinadas con
modelos de campos condicionales aleatorios (conocidos como CRFs, por la sigla de inglés
de Conditional Random Fields), lo que alivia la problemática anterior. En otros trabajos
como [31] se ha propuesto combinar tanto la segmentación de los vasos como la detección
del disco óptico, con resultados satisfactorios.
En los últimos años, el uso de redes neuronales totalmente convolucionales se ha
incrementado sobre todo en tareas de segmentación semántica (semantic segmentation),
en donde se busca asociar el valor de cada uno de los píxeles de la imagen de entrada
con su correspondiente etiqueta; además de tareas en donde se busca segmentar y
detectar diferentes instancias de una o más clases (instance segmentation). Las redes
totalmente convolucionales se caracterizan por dividirse en dos etapas. En la primera
(“codificación”) se aplican sucesivas convoluciones con sus correspondientes capas de
pooling para transformar paulatinamente a la imagen de entrada en múltiples mapas de
características. Luego, en la etapa restante (de “decodificación”) se aplican
deconvoluciones a las salidas anteriores para recuperar activaciones en la resolución
original y reconstruir una segmentación de salida equivalente al tamaño original de
entrada. Como resultado se obtiene un mapa semántico en donde cada pixel tiene una
etiqueta asociada, posibilitando realizar una segmentación por píxeles.
Figura 10. Prototipo de arquitectura U-Net utilizada para segmentar vasos sanguíneos a
partir de fotografías de fondo de ojo. Fuente: [77]
19
Una de las arquitecturas totalmente convolucionales más relevantes es la U-Net
[32] (Figura 10), que propaga características de las primeras capas a las últimas mediante
conexiones de salto. Al igual que cualquier otra red totalmente convolucional, se divide en
una etapa de codificación o contracción y una etapa de decodificación o expansión. Las
conexiones de salto se utilizan para transferir información detallada de las capas de bajo
nivel de la ruta de codificación a las capas de alto nivel de la ruta de decodificación, lo que
permite generar reconstrucciones más precisas y detalladas.
La diversidad de trabajos en materia de segmentación de vasos sanguíneos es
significativa [73]. Los modelos existentes difieren en arquitecturas, configuraciones, y
metodologías de entrenamiento, resultando en peores o mejores segmentaciones al
comparar cuantitativamente métricas de evaluación bien establecidas. La principal
problemática que surge es que durante los entrenamientos suelen utilizarse conjuntos de
datos específicos y por separado. Esta práctica no permite generar un modelo lo
suficientemente robusto, obteniendo resultados muy buenos en imágenes similares, de
igual resolución y condiciones, pero fallando o arrojando peores resultados ante datos de
entrada disímiles. Por otro lado, la calidad de la imagen es otro factor influyente, en donde
imágenes con un bajo contraste, presencia de ruido durante la obtención de la imagen, o
presencia de lesiones como hemorragias, empeoran las segmentaciones obtenidas.
Mejorar la capacidad de generalización de los modelos es uno de los aspectos más
importantes a tener en cuenta a la hora de entrenar redes neuronales, sobre todo al
trabajar sobre datos clínicos. En el contexto de este trabajo se propone aliviar esta
dificultad entrenando sobre datos de múltiples orígenes. Al mismo tiempo, es necesario
que el modelo permita obtener segmentaciones conexas, debido a que éstas serán
necesarias para evaluar distintos parámetros mediante simulaciones hemodinámicas sobre
árboles arteriales.
2.5.3. Clasificación de A/V
Como se mencionó en la Sección 2.5.2, múltiples investigaciones y desarrollos
relacionados con la visión computacional llevaron a cabo tareas de identificación y
extracción de la microvasculatura a partir de imágenes de fondo de ojo mediante procesos
automatizados. Un paso más alla de la segmentación es la discriminación entre venas y
arterias (Figura 11). Hasta ahora, diversos trabajos desarrollados bajo diferentes
arquitecturas y enfoques, como por ejemplo, utilizando teoría de grafos [5] o utilizando
características basadas en intensidad de colores [33] han dado como resultado altos
niveles de precisión. Los trabajos que implementan la técnica de teoría de grafos, primero
obtienen una representación de la vasculatura y luego clasifican diferentes partes del grafo
en arteria o vena propagando etiquetas. Para reducir el error al clasificar, a menudo se
toman en cuenta aspectos propios del dominio, como partir del hecho de que es muy poco
probable que una arteria cruce a otra arteria, o una vena cruce a otra vena. Este es un
punto a favor del enfoque, como también lo es el costo computacional, ya que no tiene un
gran impacto en los recursos utilizados. El punto débil de esta técnica es que a menudo
requiere un etiquetadomanual parcial antes del entrenamiento [6].
20
Figura 11. Clasificación en arterias y venas sobre imagen de fondo de ojo perteneciente al
banco de datos público de alta definición (HRF). Izquierda: imagen de fondo de ojo a color.
Derecha: segmentación y clasificación de arterias y venas realizadas por un profesional.
Fuente: [71].
Otros algoritmos utilizan los colores como principal característica para discernir
entre un tipo y otro de vaso, teniendo en cuenta que aquellos con más brillo en la línea
central suelen corresponder a arterias y los más oscuros a venas. Este enfoque fue
utilizado en [35], donde estas características se complementan con información espacial y
del tamaño de vaso, en combinación con diferentes métodos de aprendizaje supervisado.
Las pruebas realizadas muestran que los mejores resultados se obtienen combinando
características relacionadas con valores de color y contraste dentro y fuera de los vasos, y
también añadiendo información posicional. Por otro lado, se resalta además en [35] que
las características utilizadas varían según la resolución de las imágenes de entrada, y los
resultados pueden verse afectados por este mismo motivo.
La mayoría de los trabajos de investigación discutidos anteriormente logran buenos
resultados en vasos primarios que son relativamente anchos, pero encuentran dificultades
para clasificar sus variantes más pequeñas. Evaluar la performance entre los distintos
estudios relacionados a la tarea de clasificar entre arterias y venas no es fácil, sobre todo
porque la mayoría de las publicaciones utilizan bancos de datos propios o métricas de
evaluación incompatibles. Comparar distintos bancos de datos no es recomendado ya que
existen diversos factores que pueden influir en las predicciones, como por ejemplo la
iluminación/resolución de la imagen y los sujetos propios a los cuales se fotografía, por
nombrar algunos.
El uso de aprendizaje profundo, más precisamente, redes neuronales
convolucionales, también se aplicó en esta disciplina. Uno de los primeros trabajos que
reporta el uso de CNNs con el objetivo de clasificar arterias y venas de manera separada a
la tarea de segmentar, es el de Welikala et al. [34], en el cual se utilizan bancos de datos
privados. Este enfoque tiene una serie de limitaciones, comenzando por basar la red
neuronal en parches de 25 x 25 píxeles, los cuales limitan la capacidad de aprender
características a mayor escala. En el año 2019 R. Hemelings et al. [6] publicaron un
artículo sobre su aplicación de aprendizaje profundo para clasificar arterias y venas en
imágenes de fondo de ojo utilizando redes neuronales convolucionales. En este trabajo
utilizan una arquitectura de red U-Net [32] con diversos cambios para aceptar imágenes a
color. Utilizaron conjuntos de datos públicos para evaluar los algoritmos entrenados, del
21
mismo modo que introducen nuevos conjuntos de anotaciones evaluadas por especialistas
como ground truth. En esta tesis se busca crear un único conjunto de datos a partir de
conjuntos de múltiples orígenes, para garantizar obtener un modelo lo suficientemente
robusto para trabajar correctamente sobre nuevas imágenes de muestra.
22
Capítulo 3. Métodos
El objetivo de este trabajo final de carrera es proponer un enfoque basado en
aprendizaje automático para la segmentación y clasificación simultánea de arterias y venas
en imágenes de fondo de ojo. Además, se introduce una estrategia para la evaluación
cuantitativa de las segmentaciones resultantes en el contexto de la simulación del
comportamiento hemodinámico de la retina. En este capítulo se presentan los métodos
propuestos y las herramientas utilizadas para llevarlo a cabo.
3.1. Descripción general
La Figura 12 ilustra las etapas del algoritmo propuesto. Inicialmente se construye
un conjunto de imágenes a partir de la integración de múltiples bases de datos de acceso
público, con estudios de diversas resoluciones y capturados con distintos dispositivos. Esto
permitirá asegurar que los modelos sean suficientemente robustos a las variaciones
naturalmente esperadas al aplicarlos en un contexto clínico real. Posteriormente se realiza
un preprocesamiento (Sección 3.2) con el fin de curar los datos obtenidos, creando
particiones de entrenamiento, validación y test (ver Capítulo 4). Luego con el fin de
aumentar la cantidad de datos disponibles, se utilizaron técnicas de aumentación de
imágenes (Sección 3.3), que permiten diversificar el conjunto de entrenamiento que
alimentan la red neuronal (en este caso, una U-Net), para reducir el riesgo de overfitting
(Sección 3.4). En la última parte del pipeline se extrae el árbol arterial tanto de las
segmentaciones arterio venulares obtenidas utilizando el mejor modelo entrenado, como
de las segmentaciones manuales de referencia. Para lograr este objetivo se siguieron dos
enfoques, uno entrenando desde cero a partir de segmentaciones manuales de arterias y
venas, y otro entrenando un modelo de segmentación binaria para luego realizar
transferencia de conocimiento (ver Capítulo 4). A partir de la evaluación cuantitativa de los
distintos modelos entrenados sobre los datos de validación, se seleccionó el modelo que
ofreció mejores resultados. Finalmente, se estimó la efectividad del método propuesto
realizando simulaciones hemodinámicas, comparando los resultados obtenidos a partir de
estas segmentaciones con los obtenidos a partir de anotaciones manuales (Sección 3.5).
23
Figura 12. Representación esquemática del flujo de trabajo. Distintas bases de datos son
preprocesadas para estandarizar el formato de las imágenes y su resolución. Luego son
utilizadas para crear particiones únicas de entrenamiento, validación y test. La partición de
entrenamiento se utiliza para aprender los diferentes modelos planteados, que son
evaluados en el conjunto de validación para escoger la mejor alternativa. Finalmente las
imágenes de test se utilizan para evaluar el desempeño final del algoritmo, extrayendo las
segmentaciones vasculares, su correspondiente grafo arterial y realizando simulaciones
hemodinámicas.
3.2. Preprocesamiento
La primera etapa del enfoque propuesto consiste en recolectar la mayor cantidad
de datos posibles de diversas fuentes, buscando obtener imágenes capturadas por
diferentes dispositivos. En particular, las fotografías de fondo de ojo pueden diferir en
formato de archivo, dimensión, resolución y características anatómicas naturales como la
morfología vascular del paciente y la presencia o ausencia de patologías retinales producto
de enfermedades oculares. En esta etapa de preprocesamiento el objetivo fue reducir el
efecto de las variaciones en las imágenes producto de la aparatología de captura utilizada,
de forma tal de que el modelo de IA posterior acceda mayormente a la diversidad natural
de las imágenes.
El preprocesamiento consistió en dos operaciones:
1. Transformar los archivos originales (formatos “.tiff”, “.gif”, “.jpg”) al formato
sin pérdida “.png”. Aquí se ponderó la homogeneización de las imágenes en
relación al tamaño de los archivos resultantes.
24
2. Recortar el FOV (Field of View) de cada imagen, dejando únicamente la
región de interés en cada una (Figura 13). Este procedimiento optimiza las
operaciones de lectura de las imágenes durante el entrenamiento, así cómo
también ayuda a homogeneizarlas.
Figura 13. Preprocesamiento aplicado a una imagen de fondo de ojo de LES-AV.
(a) Imagen de fondo de ojo en su resolución original. (b) Máscara binaria correspondiente
al FOV de la imagen anterior. (c) Resultado obtenido tras recortar la imagen original según
las coordenadas del rectángulo que contiene al FOV.
3.3. Estrategias de aumentación de imágenes
Uno de los inconvenientes principales a la hora de desarrollar métodos de
aprendizaje profundo es la disponibilidad de datos. Para incrementar la diversidad de las
imágenes de entrenamiento, se aplicaron diferentes técnicas de aumentación de
imágenes. Las mismas consisten en aplicar transformaciones matemáticas sobre las
imágenescon el objetivo de generar muestras artificiales a partir de datos de
entrenamiento ya existentes. Es importante aplicar estas transformaciones de manera
controlada, ya que de lo contrario podrían obtenerse imágenes poco realistas, no
compatibles con los datos existentes en la práctica, que obliguen a la red neuronal a
desperdiciar parte de sus parámetros para reconocer patrones de baja o nula utilidad. Las
transformaciones aplicadas suelen variar desde pequeños cambios en la ubicación
espacial de la imagen hasta traslaciones, rotaciones, espejados horizontales/verticales,
cambios en el contraste e iluminación de la imagen, distorsiones, filtros Gaussianos, etc.
Para incrementar la variabilidad de los estudios de entrenamiento, en este trabajo
se utilizaron diversas transformaciones, algunas aplicadas sobre la imagen de entrada y
las anotaciones manuales, y otras aplicadas únicamente sobre la imagen de entrada, entre
las que se destacan:
25
● Color Jitter: realiza cambios en el contraste, brillo y saturación de la imagen.
Aplicado de manera controlada permite simular imágenes de fondo de ojo con
mayor o menor luminosidad, de retinas más o menos pigmentadas y con mayor o
menor contraste. Esta transformación sólo debe aplicarse sobre la imagen de fondo
de ojo, no sobre las anotaciones manuales (Figura 14).
Figura 14. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Derecha:
Imagen de fondo de ojo luego de aplicar Color Jitter aleatorio.
● Horizontal Flip: utilizada para voltear horizontalmente la imagen y su máscara
(Figura 15).
Figura 15. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro:
Imagen de fondo de ojo luego de aplicar Horizontal Flip. Derecha: Anotación manual
luego de aplicar Horizontal Flip.
● Random Scaling: transformación utilizada para escalar la imagen, alejando o
acercando tanto la imagen como la máscara por igual (Figura 16).
Figura 16. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro:
Imagen de fondo de ojo luego de aplicar Random Scaling (zoom out). Derecha:
Anotación manual luego de aplicar Random Scaling (zoom out).
26
● Vertical Flip: utilizada para voltear verticalmente la imagen y su máscara (Figura
17).
Figura 17. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro:
Imagen de fondo de ojo luego de aplicar Vertical Flip. Derecha: Anotación manual
luego de aplicar Vertical Flip.
● Random Rotation: utilizada para rotar la imagen y su máscara dado un ángulo
(Figura 18).
Figura 18. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro:
Imagen de fondo de ojo luego de aplicar rotación de 270°. Derecha: Anotación
manual luego de aplicar rotación de 270°.
Cada una de las transformaciones contiene un determinado número de parámetros
asociados configurables. Luego de un extenso estudio para calibrar los valores que
mejores resultados entregaron en cada una de las operaciones aplicadas y otras tantas
descartadas, se determinaron las estrategias óptimas en base a una evaluación sobre los
datos de validación. En el Capítulo 4 se detallan las operaciones seleccionadas (y los
parámetros usados) para cada uno de los enfoques planteados en la Sección 3.1.
3.4. Arquitectura considerada
En la Figura 19 se presenta la arquitectura propuesta para la segmentación de los
vasos sanguíneos y su clasificación en arterias y venas. La misma se corresponde con la
de una U-Net [6] clásica, que se ha probado efectiva en regímenes de poca cantidad de
imágenes, obteniendo segmentaciones precisas [37]. En líneas generales, la misma se
divide en dos etapas principales: una contractiva o de codificación, que toma a la imagen
de entrada y captura características de utilidad mediante sucesiones de capas
convolucionales y operaciones de pooling; y una de expansión o decodificación, que
paulatinamente recupera la resolución de la imagen de entrada mediante operaciones de
27
upsampling, y produce la segmentación final explotando la información previamente
codificada por la etapa anterior, y refinándola a partir de convoluciones propias. Esta última
característica es provista mediante conexiones de salto o “skip connections”, que
transfieren los mapas de activaciones de las convoluciones del codificador hacia el
decodificador, para facilitar la construcción de la segmentación. Nótese que la arquitectura
resultante tiene forma de una letra “U”, lo que le da su nombre a esta red.
Figura 19. Arquitectura U-Net utilizada en los modelos propuestos. Del lado izquierdo se
encuentra la etapa de codificación o contracción, y del lado opuesto la etapa de
decodificación o expansión. Las dimensiones marcadas corresponden a un parche de entrada
de 256 x 256 x 3.
La imagen de entrada de la red corresponde a un tensor de dimensiones 256 x 256
x 3 perteneciente al recorte aleatorio de un parche de la imagen de fondo de ojo a color.
De igual forma se extrae su correspondiente anotación manual, que junto con la imagen de
entrada se utilizarán durante las etapas de entrenamiento y validación (Figura 20).
Figura 20. Izquierda: Imagen de fondo de ojo sin aplicar transformaciones. Centro: Imagen
de fondo de ojo luego de aplicar sucesivas transformaciones y obtener un parche.
Derecha: Parche correspondiente a la anotación manual de la imagen del centro.
28
La parte contractiva de la red está formada por 4 bloques convolucionales, cada
uno seguido por una operación de max pooling con kernels de 2x2 y stride de 2 píxeles.
Los bloques convolucionales están formados por una combinación de dos sub bloques
compuestos por una capa convolucional con filtros de 3x3, stride de 1 y zero-padding,
seguida de batch normalization [65], y una posterior función de activación ReLU [66]. La
parte expansiva es simétrica a la contractiva, con 4 bloques de incremento de resolución
formados por una operación de upsampling al doble de la resolución de entrada, seguidas
de un bloque convolucional igual al descrito con anterioridad. La salida consiste en un
tensor de dimensiones equivalentes a las de la imagen de entrada, y 2 canales en el caso
de las segmentaciones binarias, uno correspondiente a la clase vaso y otro
correspondiente a la clase no vaso o fondo; y 3 canales, en el caso de las segmentaciones
que clasifican en arterias y venas, correspondiente a las clases arteria, vena y fondo. Los
scores de salida de la red neuronal son procesados mediante una función de activación
softmax con el objetivo de obtener para cada píxel la probabilidad de que corresponda a
las clases arteria, vena y fondo. En la Tabla 1 se presentan de forma detallada los
diferentes componentes de la arquitectura empleada, para facilitar su reproducibilidad.
29
Nro. de capa Nombre de capa Tamaño de salida Tamaño de filtro Stride Etapa
0 Input 3 x 256 x 256 - - Codificación
1 Convolution 1 64 x 256 x 256 3 x 3 1 Codificación
2 Convolution 2 64 x 256 x 256 3 x 3 1 Codificación
3 Max Pool 1 64 x 128 x 128 2 x 2 2 Codificación
4 Convolution 3 128 x 128 x 128 3 x 3 1 Codificación
5 Convolution 4 128 x 128 x 128 3 x 3 1 Codificación
6 Max Pool 2 128 x 64 x 64 2 x 2 2 Codificación
7 Convolution 5 256 x 64 x 64 3 x 3 1 Codificación
8 Convolution 6 256 x 64 x 64 3 x 3 1 Codificación
9 Max Pool 3 256 x 32 x 32 2 x 2 2 Codificación
10 Convolution 7 512 x 32 x 32 3 x 3 1 Codificación
11 Convolution 8 512 x 32 x 32 3 x 3 1 Codificación
12 Max Pool 4 512 x 16 x 16 2 x 2 2 Codificación
13 Convolution 9 1024 x 16 x 16 3 x 3 1 Codificación
14 Convolution 10 1024 x 16 x 16 3 x 3 1 Codificación
15 Upsampling 1 1024 x 32 x 32 2 x 2 2 Decodificación
16 Convolution 11 512 x 32 x 32 3 x 3 1 Decodificación
17 Convolution 12 512 x 32 x 32 3 x 3 1 Decodificación
18 Upsampling 2 512 x 64 x 64 2 x 2 2 Decodificación
19 Convolution 13 256 x 64 x 64 3 x 3 1 Decodificación
20 Convolution 14 256 x 64 x 64 3 x 3 1 Decodificación
21 Upsampling 3 256 x 128 x 128 2 x 2 2 Decodificación
22 Convolution 15 128 x 128 x 128 3 x 3 1 Decodificación
23 Convolution 16 128x 128 x 128 3 x 3 1 Decodificación
24 Upsampling 4 128 x 256 x 256 2 x 2 2 Decodificación
25 Convolution 17 64 x 256 x 256 3 x 3 1 Decodificación
26 Convolution 18 64 x 256 x 256 3 x 3 1 Decodificación
27 Output 3 x 256 x 256 1 x 1 1 Decodificación
Tabla 1. Arquitectura de la U-Net empleada para la tarea de segmentación de arterias,
venas y fondo. Cada convolución es seguida por una normalización de lotes y una
activación ReLU. En la etapa de expansión, las características de las capas de contracción
con la misma resolución se fusionan a través de la concatenación.
30
Obsérvese que la arquitectura final cuenta con 23 capas convolucionales en total.
Por tratarse de una red totalmente convolucional, esta arquitectura podrá recibir imágenes
de cualquier tamaño en tiempo de test. Sin embargo, podrá o no ejecutarse sobre una
imagen dependiendo de la disponibilidad de memoria de la GPU.
3.5. Simulación hemodinámica a partir de segmentaciones
arteriales
Las simulaciones hemodinámicas permiten estudiar in-silico el comportamiento de
la sangre al recorrer las estructuras vasculares. De esta forma, es posible interpretar
distintos escenarios clínicos factibles a partir de diferentes configuraciones de entrada,
propiedades de la sangre y características específicas del paciente.
En este trabajo se propone una estrategia alternativa para evaluar la calidad de las
segmentaciones en arterias y venas, basada en estudiar y analizar el comportamiento de
las simulaciones hemodinámicas realizadas a partir de las predicciones obtenidas, y
comparándolas con las realizadas a partir de segmentaciones manuales. Para ello, pueden
estudiarse las diferencias en parámetros simulados tales como el flujo de sangre o la
presión sanguínea, así como en propiedades morfométricas de los árboles vasculares
tales como la cantidad de ramificaciones.
Es importante destacar que en este trabajo se simulará el flujo sanguíneo en los
árboles arteriales, desconsiderando la parte venosa del circuito, siguiendo la metodología
de simulación propuesta en [2]. Dicho trabajo está asociado a un repositorio github [72]
con la implementación necesaria para postprocesar las segmentación de árboles
arteriales, generar modelos de la vasculatura y realizar simulación. A continuación se
describen los procesos a realizar (Ver Figura 21).
1. Extraer inicialmente el árbol correspondiente al segmento arterial. Para encontrar el
umbral óptimo para extraer las arterias con la mayor exactitud posible, se evaluaron
diferentes valores en función del coeficiente Sorensen-Dice sobre los datos de
validación. Se obtuvieron mejores resultados cuando se utiliza un umbral de 0.308:
así, si un píxel posee una probabilidad para la clase arteria superior a dicho valor,
entonces se lo clasifica como arteria.
2. Generar el modelo de la vasculatura. El árbol arterial extraído a partir de la
segmentación (sea esta manual o resultado de los modelos presentados en la
Sección 4.3) se utiliza como entrada para el algoritmo desarrollado en [2], el cual
permite recuperar árboles arteriales conexos cuyo punto de partida sea lo más
cercano posible al disco óptico. Es necesario obtener las raíces de cada árbol, es
decir, el punto de partida específico proveniente del área del disco óptico. En esta
área los vasos tienden a superponerse, imposibilitando determinar la raíz de cada
sub-árbol. Para solucionar este inconveniente se aplica una máscara binaria
correspondiente a la zona del disco óptico, descartando vasos internos y tomando
ahora el contorno de la máscara como punto de partida. Una vez obtenido el punto
de partida, se construye una estructura de grafo que contiene los segmentos y
bifurcaciones de cada uno de estos árboles. El proceso consiste en analizar los
píxeles vecinos de la raíz de cada sub-árbol e ir extendiendo el trazo de píxeles
31
que conforman cada uno de estos segmentos de tal forma que se obtienen
sub-árboles totalmente conexos, utilizando como guía una esqueletización de la
estructura vascular.
3. El modelo de simulación a parámetros condensados implementado en [2] y
utilizado en este trabajo, es el modelo más simple capaz de estimar las
distribuciones de flujo y presión sanguínea en un modelo de árboles arteriales de la
retina. Resumidamente, cada segmento arterial es modelado como una lista de
elementos resistivos donde son modelados la conservación de la masa y el
análogo hidráulico de la ley de Ohm. La resistencia al flujo sanguíneo se modela
siguiendo la ley de Poiseuille, que relaciona la resistencia al flujo con la viscosidad
sanguínea (dependiente del radio debido a la escala espacial del problema), el
largo del segmento y la potencia cuarta del radio. Siguiendo [2], se utilizó la
siguiente configuración para los parámetros del modelo:
a. presión arterial la raíz de los árboles, Pin=62.22 [mmHg],
b. presión venosa de referencia, Pref=30.0 [mmHg],
c. flujo total, Qin= 0.00076[cm³/s]
Como resultado, la simulación devuelve el flujo y presión en cada lugar del árbol.
El lector interesado en los detalles del modelo puede referirse a [2].
4. Adicionalmente, los modelos vasculares usados para simulación son procesados
para obtener información morfométrica básica para el análisis posterior,
particularmente la cantidad de raíces y de terminales, así como la cantidad de
segmentos de los árboles arteriales.
Desde el punto de vista de la implementación, los algoritmos mencionados en los
puntos anteriores son utilizados en carácter de caja negra, cuya entrada es una imagen
con la segmentación del árbol arterial, y el resultado es un modelo de línea de centro con
el flujo y presión en cada punto del mismo. Esta salida es en archivos de formato “.mat”, y
“.vtk”. Mientras que los primeros son útiles para analizar estadísticamente los resultados
obtenidos, los segundos permiten visualizar los resultados obtenidos mediante
herramientas específicas como ParaView [74].
A continuación se detallan todos los indicadores morfométricos y hemodinámicos
utilizados en el análisis comparativo de las segmentaciones manuales y producidas por los
modelos presentados en la Sección 4.3:
Indicadores morfométricos: son extraídos de los modelos vasculares usados para
realizar la simulación, no de las segmentaciones propiamente dichas. Se consideraron los
siguientes:
● Cantidad total de terminales por imagen. Se consideran terminales a los píxeles o
nodos en donde finaliza el recorrido del segmento arterial que no se bifurca.
● Cantidad total de raíces por imagen. Si los terminales representan uno de los
extremos del segmento arterial, las raíces representan el extremo opuesto. Cada
32
nodo raíz puede estar asociado con más de un nodo terminal si es que existen
bifurcaciones en el segmento arterial. Cada una de las raíces es el punto de partida
de los grafos que contienen los segmentos y bifurcaciones.
● Cantidad total de segmentos arteriales. Un segmento puede iniciar en una raíz o
bifurcación, y terminar en una bifurcación o terminal.
Indicadores hemodinámicos: obtenidos tras realizar la simulación.
● Promedio de flujo de sangre en terminales y raíces. Dado que la simulación es un
proceso determinístico, las discrepancias que puedan presentarse en la distribución
del flujo en raíces y terminales entre los dos modelos arteriales (uno basado en la
segmentación ground truth y la otra basada en la segmentación de la red), se
originarán por las diferencias en las segmentaciones y en consecuencia en las
discrepancias de los modelos vasculares, ya que la longitud de segmentos
arteriales, bifurcaciones, ramas, raíces y terminales impactan directamente en la
distribución de flujo sanguíneo en el árbol arterial.
● Promedio de la caída de presión en los terminales. A pesar de que la presión en
todas las raíces es la misma, la presión estimada por la simulación en cada terminal
dependerá de las características intrínsecas de la anatomía de cada subárbol y del
flujo que pase por cada uno. De forma análoga al flujo, las eventuales
discrepancias entre los dos modelosserán producidas exclusivamente por las
discrepancias entre las segmentaciones y los modelos vasculares.
En el Capítulo 5 se estudia el rendimiento del algoritmo de segmentación
comparando las distribuciones de estos dos tipos de indicadores obtenidos tanto a partir
de los datos segmentados manualmente como de los obtenidos con el modelo automático
mediante box-plots y tests de Wilcoxon para datos no paramétricos.
33
Figura 21. Proceso por el cual se obtienen resultados de las simulaciones
hemodinámicas a partir de una imagen de fondo de ojo. Derecha: proceso a partir de las
segmentaciones a/v obtenidas por el modelo entrenado. Izquierda: proceso a partir de las
segmentaciones manuales a/v de referencia.
34
3.6. Implementación
El primer paso del pipeline desarrollado y explicado en la Sección 3.1 implicó
recolectar los datos de los distintos conjuntos existentes para procesarlos y obtener un
único conjunto. Este procedimiento, detallado en la Sección 3.2, se realizó utilizando los
recursos de un ordenador portátil personal, sin utilizar una potencia gráfica dedicada. Se
comenzó implementando la arquitectura de red mencionada en la Sección 3.4 en el mismo
ordenador, al igual que el proceso de carga de datos, entrenamiento, y demás clases
necesarias para crear el modelo. Una vez creadas las clases necesarias y listos los
conjuntos de entrenamiento, validación y test, se migró la implementación a Google
Colaboratory [64], popularmente conocido como Colab, el cual permite desarrollar y
ejecutar código en el lenguaje de programación Python en un navegador utilizando un
“cuaderno” o notebook configurable, y que brinda acceso gratuito aunque limitado a una
GPU de gran capacidad. Si bien cada conexión mediante Colab entrega una máquina
virtual distinta con un tiempo de ejecución de GPU limitado que ronda las 8 hs, la
capacidad de estas unidades de procesamiento gráfico promediando los 12gb de memoria
satisface la demanda de recursos necesarios durante el entrenamiento y validación.
Se utilizó Python en su versión 3.7 para el desarrollo completo del trabajo debido a
su popularidad en ciencias de datos y redes neuronales. Se utilizaron numerosas librerías
existentes y desarrolladas en el área de aprendizaje de máquina y aprendizaje profundo.
Para el desarrollo de la arquitectura U-Net, la carga, almacenamiento de datos y la
implementación de técnicas de aumentación de imágenes, se utilizó PyTorch, un
framework desarrollado por Facebook, enfocado en la investigación y el desarrollo de
nuevos modelos. Este marco de entorno de trabajo posee librerías propias para la
aumentación de imágenes pertenecientes al paquete Torchvision, el cual permite modificar
las técnicas mencionadas en la Sección 3.3 a nuestra conveniencia y aplicar fácilmente a
las imágenes de fondo de ojo y/o anotaciones manuales. Por otro lado, dado que la
comunidad de PyTorch se encuentra en pleno crecimiento, se hizo uso de foros oficiales y
ejemplos con documentación cada vez que fue requerido. Se empleó SciKit-Learn para el
cómputo de distintas métricas de evaluación. Scipy, por su parte, es otra librería de código
abierto desarrollada para Python que fue utilizada para evaluar los resultados de las
simulaciones hemodinámicas, mientras que Numpy resultó fundamental para manipular los
datos matriciales y distintos arreglos generados. También se utilizaron librerías para
visualizar resultados, imágenes, datos de entrenamiento, creación de tablas y archivos,
como es el caso de Pandas y Matplotlib. Por último, para visualizar el resultado de las
simulaciones hemodinámicas se utilizó el software ParaView, una aplicación
multiplataforma de código abierto para visualización interactiva y científica.
Tanto el entrenamiento como la validación y selección del mejor modelo encargado
de segmentar arterias y venas mediante imágenes de fondo de ojo se realizaron utilizando
Colab. Además, durante el entrenamiento se almacenaron como puntos de control o
checkpoints cada una de las épocas entrenadas debido al tiempo que demoran, que es de
alrededor de 40 a 60 minutos, al igual que se almacenó el mejor modelo según la métrica
de evaluación seleccionada. Del mismo modo se desarrolló el código encargado de
evaluar sobre los datos de test y obtener segmentaciones arteriales a partir del score map
de cada caso de estudio, obteniendo imágenes binarias de la misma resolución que la
35
imagen original, las cuales son utilizadas en las etapas previas a las simulaciones
hemodinámicas.
La extracción de grafos arteriales y las simulaciones hemodinámicas se realizaron
utilizando el algoritmo desarrollado en [2] mediante Matlab.
Por último, la evaluación de los resultados hemodinámicos y la generación de
gráficos para representar los estudios realizados también se llevaron a cabo en el lenguaje
Python, usando Colab.
36
Capítulo 4. Configuración experimental y
materiales
En este capítulo se detallan las configuraciones de los experimentos realizados y
los materiales utilizados en los mismos. En la Sección 4.1 se presentan los conjuntos de
datos utilizados y la división de particiones en entrenamiento, validación y test para cada
enfoque planteado. En la Sección 4.2 se presentan las métricas utilizadas para evaluar los
modelos de segmentación de A/V, así como también el método para evaluar los resultados
hemodinámicos. En la Sección 4.3 se describen los enfoques evaluados, junto a sus
respectivas parametrizaciones y organización.
4.1. Datos utilizados
Como se mencionó en la Sección 3.1, a partir de diferentes conjuntos de datos
públicos se generó un nuevo conjunto de mayor volumen y variedad, para representar
escenarios más diversos que permitan mejorar la capacidad de generalización del modelo
final.
Los distintos modelos fueron entrenados utilizando las bases de datos públicas
DRIVE [38] (Sección 4.1.1), HRF [39,40,41] (Sección 4.1.2) y LES-AV [2] (Sección 4.1.3).
Estas bases de datos se componen por un conjunto de imágenes de fondo de ojo
acompañadas por sus segmentaciones de referencia. Las dos primeras son más antiguas
y por lo tanto, cuentan con numerosos experimentos realizados en torno a tareas de
segmentación supervisada. La restante es una base de datos pública relativamente nueva,
con imágenes de alta calidad y segmentaciones de referencia tanto binarias como de A/V.
DRIVE y HRF, por su parte, no disponen de segmentaciones de A/V oficiales si no
provistas por terceras partes [6]. Se creó un conjunto de datos global (Sección 4.1.4)
particionando los conjuntos antes mencionados en entrenamiento, validación y test.
Otras bases de datos existentes como CHASEDB1[42], INSPIRE-AVR[43] y
DR-HAGIS[44], poseen imágenes de fondo de ojo, algunas con mejor resolución que otras,
con sus respectivas anotaciones binarias, pero carecen de segmentaciones de A/V. Por
ende, su utilidad se limita únicamente al entrenamiento o evaluación de modelos de
segmentación vascular.
En las siguientes subsecciones se detallan las características de los datos
utilizados para entrenar y evaluar los algoritmos considerados en este trabajo, además de
las estrategias escogidas para su integración.
4.1.1. DRIVE
El conjunto de datos DRIVE es uno de los bancos de datos más populares para
evaluar algoritmos de segmentación vascular. Fue introducido por primera vez en el año
2004 por Niemeijer. M. et al. [38], con el fin de permitir estudios comparativos sobre la
segmentación de los vasos sanguíneos en fotografías de fondo de ojo. Estas imágenes
fueron obtenidas de un programa de recolección de muestras realizado en Países Bajos.
Las imágenes corresponden a un conjunto de 40 estudios, 33 de los cuales no muestran
37
ningún signo de retinopatía diabética y 7 presentando signos de retinopatía diabética
temprana leve (Ver Figura 22). Las imágenes se obtuvieron utilizando una cámara Canon
CR5 no midriática 3CCD con un campo de visión de 45 grados (FOV). Cada imagen se
almacenó utilizando 8 bits por canal de color a una resolución de 565 x 584 pixeles. El
campo de visión