Detección de datos anómalos

•

Colegio De La Universidad Libre

Maria Morales

26/4/2024

¡Este material tiene más páginas!

Vista previa del material en texto

SISTEMA PARA LA DETECCIÓN Y CLASIFICACIÓN DE ANOMALÍAS EN
MAMOGRAFÍAS DIGITALES BASADO EN APRENDIZAJE PROFUNDO

VALENTINA ARCINIEGAS SOLARTE

CORPORACIÓN UNIVERSITARIA AUTÓNOMA DEL CAUCA FACULTAD DE
INGENIERÍA
PROGRAMA DE INGENIERÍA ELECTRÓNICA POPAYÁN- CAUCA
2022
2

SISTEMA PARA LA DETECCIÓN Y CLASIFICACIÓN DE ANOMALÍAS EN
MAMOGRAFÍAS DIGITALES BASADO EN APRENDIZAJE PROFUNDO

VALENTINA ARCINIEGAS SOLARTE

TRABAJO DE GRADO PARA OPTAR AL TITULO DE INGENIERA ELECTRÓNICA

DIRECTORA ACADÉMICA: ING. GLORIA LILIANA MUÑOZ

CORPORACIÓN UNIVERSITARIA AUTÓNOMA DEL CAUCA FACULTAD DE
INGENIERÍA
PROGRAMA DE INGENIERÍA ELECTRÓNICA MODALIDAD MONOGRAFÍA
POPAYÁN – CAUCA 2022
3

NOTA DE ACEPTACION
Aprobado por el Comité de grado en cumplimiento con los requisitos exigidos por la
Corporación Universitaria Autónoma del Cauca para optar al título de Ingeniera
Electrónica.

____________________________
Directora
Mg. Gloria Liliana Muñoz

____________________________
Jurado
Ph. D Pablo Eduardo Caicedo

____________________________
Jurado
Mg. Yamir Hernando Bolaños
4

AGRADECIMIENTOS

Primero que todo, agradezco a Dios por brindarme fortaleza y perseverancia a lo largo
de este trayecto, por tantas bendiciones, oportunidades y personas que ha puesto en mi
camino.
A mi hijo Juan Esteban por ser la principal motivación en mi vida, gracias por tu paciencia
y comprensión.
A mi padre, madre y hermana, por ser las personas que impulsan mis sueños, gracias
por confiar y creer en mí, gracias por su amor y por brindarme siempre palabras de aliento
para seguir adelante y nunca rendirme, gracias por siempre anhelar lo mejor para mí,
ustedes son mi motor.
A mi abuela Doris, por ponerme siempre en sus oraciones.
A mi pareja quien ha sido una persona muy importante en mi vida y en este proyecto,
gracias por tus palabras, por tu apoyo, por enseñarme a creer a mí y en mis capacidades,
sin ti no hubiera sido posible.
Debo agradecer de manera especial y sincera a la Ingeniera Gloria, por ser un ángel en
mi camino, gracias por aceptarme para realizar este trabajo bajo su dirección, gracias
porque desde el día uno me dio su apoyo y confianza para empezar mi proyecto de grado
y culminarlo con éxito. Gracias por su disposición, paciencia y su valioso
acompañamiento en esta etapa.
A la Universidad Autónoma, al ingeniero Juan Pablo Diago y a los demás profesores que
compartieron su conocimiento con nosotros sus estudiantes, los admiro y los llevo
siempre en mi corazón.
Por último, gracias a mis compañeros y hoy colegas, un placer compartir esta experiencia
con ustedes.

Valentina Arciniegas Solarte
5

DEDICATORIA

Dedico con todo mi corazón el presente trabajo a mi hijo Juan Esteban, todo este esfuerzo
ha sido por ti y tu bienestar. De igual manera, se lo dedico a mis padres, espero que se
sientan orgullosos de mí.

Valentina Arciniegas Solarte
6

CONTENIDO
1. INTRODUCCIÓN .................................................................................................... 14
2. IDENTIFICACIÓN DEL PROBLEMA ...................................................................... 16
2.1 Planteamiento del problema ................................................................................... 16
2.2 Formulación del problema ...................................................................................... 17
3. OBJETIVOS ........................................................................................................... 18
3.1 Objetivo general...................................................................................................... 18
3.2 Objetivos específicos ............................................................................................... 18
4. METODOLOGÍA ....................................................................................................... 19
4.1 Marco referencial y estado del arte ......................................................................... 19
4.1.1 Diagnostico asistido por computadora (CAD).................................................... 19
4.1.2 La inteligencia artificial en el análisis de mamografías digitales ........................ 20
4.1.3 Deep Learning, una revolución .......................................................................... 22
4.1.4 Resultados de la inteligencia artificial en la medicina…………………………….25
4.2 Marco conceptual ................................................................................................... 27
4.2.1 Cáncer de mama: definición y generalidades .................................................... 27
4.2.2 Exámenes de detección .................................................................................... 29
4.3 Parámetros morfológicos ........................................................................................ 31
4.3.1 El sistema linfático del seno .............................................................................. 31
4.3.2 Calcificaciones mamarias .................................................................................. 32
4.4 Técnicas de aprendizaje ......................................................................................... 37
7

4.4.1 Sistemas CAD ................................................................................................... 37
4.4.2 Inteligencia artificial ........................................................................................... 37
4.4.3 Aprendizaje de maquina o Machine Learning .................................................... 37
4.4.4 Tipos de algoritmos de Machine Learning ......................................................... 38
4.4.5 Deep Learning ................................................................................................... 39
4.4.6 Aprendizaje por transferencia ............................................................................ 43
4.4.6.1 Imagenet ........................................................................................................ 44
4.5 Técnicas de preprocesamiento de imágenes digitales ........................................... 44
4.5.1 Imagen digital .................................................................................................... 44
4.5.2 Técnicas de preprocesamiento.......................................................................... 44
4.6 Morfología matemática ........................................................................................... 45
4.6.1 Dilatación .......................................................................................................... 45
4.6.2 Erosión .............................................................................................................. 45
5. DESARROLLO DE LA INVESTIGACIÓN ............................................................... 47
5.1 Infraestructura tecnológica del sistema ................................................................... 47
5.2 Agrupación de las imágenes................................................................................... 48
5.3 Adquisición de imágenes ........................................................................................ 48
5.4 Preprocesamiento digital de imágenes ................................................................... 53
5.5 Adaptación de los datos para el entrenamiento ...................................................... 55
5.6 Diseño de la red neuronal convolucional ................................................................ 55
5.7 Evaluación del modelo ............................................................................................ 58
8

6. ANÁLISIS DE RESULTADOS ................................................................................ 606.1 Pruebas para el 70% entrenamiento y 30% prueba: ............................................... 60
6.2 Pruebas para el 80% entrenamiento y 20% prueba: ............................................... 67
6.3 Pruebas para el 60% entrenamiento y 40% prueba: ............................................... 69
7. CONCLUSIONES ................................................................................................... 71
8. TRABAJOS FUTUROS .......................................................................................... 73
9. BIBLIOGRAFIA…………………………………………………………………………74
9

LISTADO DE ILUSTRACIONES
Ilustración 1: Diferencias entre IA, ML y DL .................. Error! Bookmark not defined.
Ilustración 2: Comparación entre una neurona en nuestro cerebro y una neurona artificial
........................................................................................ Error! Bookmark not defined.
Ilustración 3: Ejemplos de imágenes mamográficas.................................................... 30
Ilustración 4: Estructura de un seno sano ................................................................... 32
Ilustración 5: Tipos de distribución de calcificaciones ................................................. 34
Ilustración 6: Quistes ................................................................................................... 34
Ilustración 7: Visualización de un fibroadenoma en una mamografía digital ............... 35
Ilustración 8: Parametros morfologicos identificados en el datasetError! Bookmark not
defined.
Ilustración 9: Diagrama que ilustra la relación entre diferentes métodos y algoritmos de
IA ................................................................................................................................... 38
Ilustración 10: Jerarquía del ML .................................................................................. 39
Ilustración 11: Analogía entre neurona biológica y neuronal artificial .......................... 40
Ilustración 12: Esquema de una red neuronal ............................................................. 41
Ilustración 13: Estructura de una red neuronal convolucional ..................................... 42
Ilustración 14: Convolución ......................................................................................... 42
Ilustración 15: Dilatación ............................................................................................. 45
Ilustración 16: Erosión ................................................................................................. 46
Ilustración 17: Ejemplo de dos casos encontrados en la base de datos MIAS............ 49
Ilustración 18: Ejemplo del caso Case C-0071-1 de la base de datos DDSM ............. 50
Ilustración 19: Ejemplo de cuatro casos encontrados en la base de datos INbreast ... 52
Ilustración 20: Histograma de frecuencia categorías para las cuatro categorías ........ 53
Ilustración 21: Categoría Distorsión en la base de datos INBreast ............................. 53
Ilustración 22: Comparación de la imagen original vs imagen erosionada .................. 54
Ilustración 23: Imagen dilatada .................................... Error! Bookmark not defined.5
Ilustración 24: Categorización de imágenes mamográficas para el modelo propuesto56
Ilustración 25: Modelo de la red neuronal convolucional propuesto ............................ 57
Ilustración 26: Ejemplo de los resultados obtenidos con una red neuronal convolucional
usando imágenes sin procesar ...................................................................................... 60
10

Ilustración 27: Modelo de la red neuronal convolucional propuestaError! Bookmark
not defined.1
Ilustración 28: Ejemplo de los resultados obtenidos con una red neuronal convolucional
usando imágenes procesadas ....................................................................................... 61
Ilustración 29: Matriz de confusion del modelo propuesto ........................................... 62
Ilustración 30: Resultados con la arquitectura VGG16 (caso 1) en cada epoca .......... 65
Ilustración 31:Matriz de confusion VGG16 (caso 1) ...... Error! Bookmark not defined.
Ilustración 32: Resultados con la arquitectura VGG16 (caso 2) en cada epoca .......... 66
Ilustración 33: Resultados con la arquitectura ResNet ................................................ 67
Ilustración 34: Matriz de confusion prueba 80-20 ........ Error! Bookmark not defined.8
Ilustración 35: Matriz de confusion prueba 60-40 .......... Error! Bookmark not defined.

LISTADO DE TABLAS
Tabla 1: Tasa de supervivencia para cada estadio ....................................................... 29
Tabla 2: Sensibilidad y especificidad de diferentes técnicas de imágenes en cáncer de
mama ............................................................................................................................ 31
Tabla 3: Comparacion lenguajes de programacion para proyectos de Machine Learning
...................................................................................................................................... 48
Tabla 4: Resumen datasets escogidos para el sistema ............................................... 49
Tabla 5: Resumen de fortalezas y limitaciones de las bases de datos: DDSM, IRMA,
INbreast, MIAS y BCDR ................................................................................................ 52
Tabla 6: Resumen matriz de confusion ........................................................................ 62
Tabla 7: Relacion folds y epochs validacion K-folds ..................................................... 64
Tabla 8: Resumen comparativo metricas de evaluacion............................................... 70

RESUMEN
La mamografía es el principal instrumento para la detección de anomalías mamarias
como quistes, fibroadenomas, calcificaciones, masas y cáncer de seno, sobre todo para
su detección en etapas tempranas. Sin embargo, existe la posibilidad de que se realicen
diagnósticos erróneos y tratamientos invasivos innecesarios, debido a que este tipo de
lesiones son difíciles de detectar. Este documento introduce un sistema basado en
aprendizaje profundo utilizando redes neuronales convolucionales para la detección y
clasificación de anomalías en mamografías digitales en aras de servir de apoyo en la
toma de decisiones del personal encargado. El sistema fue entrenado y probado con
imágenes mamográficas de las bases de datos mini- MIAS, INbreast y DDSM,
clasificándolas como “masas malignas”, “masas benignas”, “calcificaciones” y “normales”.
El sistema fue evaluado en cuanto a su precisión comparado con el comportamiento con
las arquitecturas VGG16 y ResNet. Se obtuvo una exactitud general del 83,1%.

Palabras claves: aprendizaje profundo, redes neuronales convolucionales, cáncer de
seno, anomalías mamarias, mamografía digital, redes neuronales, mini-Mias, INbreast,
DDSM.
13

ABSTRACT
Mammography is the main instrument for breast anomaly detection such as cysts,
fibroadenomas, calcifications, masses, and cancer, especially for its early detection.
However, there is the possibility to make a wrong diagnosis and unnecessary invasive
treatments because these types of injuries are difficult to detect. This document we
introduce a deep learning-based system using convolutional neural networks for the
detection and classification of abnormalities in digital mammograms to support the
decision making of the personnel in charge. The system was trained and tested with
mammographic images from the mini-MIAS, INbreast and DDSM databases, classifying
them as "malignant masses", "benign masses", "calcifications" and "normal". The system
was evaluated for accuracy compared to performance with the VGG16 and ResNet
architectures. An overall accuracyof 83.1% was obtained.

Keywords: deep learning, convolutional neural network, breast cancer, breast anomalies,
digital mammography, neural networks, mini-MIAS, INbreast, DDSM.
14

1. INTRODUCCIÓN
Para iniciar, es importante mencionar que hoy en día el cáncer mamario es el factor
principal de muertes en mujeres a nivel mundial y la forma más efectiva de combatir esta
enfermedad es su detección temprana e inmediato tratamiento (Edición Médica, 2020).
En promedio, los pacientes son diagnosticados a partir de los 50 años o más, sin
embargo, hay evidencias de que la enfermedad se puede desarrollar en edades más
tempranas. Es aquí donde cobra relevancia el autoexamen mamario y el examen
mamográfico a partir de los 40 años.
El cáncer de seno suele presentarse inicialmente por diferentes anomalías mamarias
como masas y quistes, entre otras, que al ser detectadas deberán confirmarse por medio
de un examen a detalle como ecografías, resonancia magnética de mama o biopsias,
posterior a esto, dichas anomalías son clasificadas de acuerdo con la etapa en la que se
encuentren, para dar el debido tratamiento. (Mass General Cancer Center, s.f.). La
mamografía resulta ser la técnica más efectiva para el diagnóstico de anomalías
mamarias (Guerrero, 2011).
En ese sentido y con el fin de facilitar la detección, diagnóstico y tratamiento del cáncer
mamario a partir de análisis de mamografías, muchos investigadores han propuesto
diferentes métodos computacionales de detección automática de anomalías que gracias
al desarrollo tecnológico y los avances en esta área a lo largo de las últimas tres décadas,
pueden ser complementados o apoyados por diferentes sistemas, como por ejemplo los
sistemas de detección y diagnostico asistido por computador CAD1, al igual que la
creación de diversos algoritmos de clasificación y detección basados en Aprendizaje
Profundo (o Deep Learning: DL2), subconjunto del Aprendizaje de Maquina (o Machine
Learning ML3) que a su vez es una rama de la Inteligencia Artificial (IA).

1 CAD: por sus siglas en inglés Computer Aided Diagnosis; CADe: detección y CADx: Diagnóstico
2 DL por sus siglas en inglés Deep Learning.
3 ML por sus siglas en inglés Machine Learning.
15

Por otra parte, uno de los mayores inconvenientes de los sistemas CAD, en la actualidad,
es su baja capacidad para diferenciar algunas anomalías, como microcalcificaciones en
el tejido normal (Yébenes Calvo, 2016), lo cual aumenta los resultados de falsos positivos
y las posteriores consecuencias que esto conlleva, como, por ejemplo, biopsias
innecesarias, tiempo y recursos económicos. Por ende, el objetivo del presente trabajo
es contribuir con las investigaciones en torno a algoritmos de IA, específicamente en el
campo de DL, que busca reducir el porcentaje de estos resultados equivocados y
contribuir con el desarrollo de esta línea brindando nuevos datos mediante un sistema de
clasificación y detección automática de anomalías asociadas al cáncer de mama en
mamografías digitales y eficientes para asistir en la toma de decisiones al personal
experto de la salud.

2. IDENTIFICACIÓN DEL PROBLEMA
En este apartado se presenta y se explica el problema que se desea abordar en esta
monografía.
2.1 Planteamiento del problema
Teniendo en cuenta que el cáncer se ha convertido en uno de los factores principales de
mortalidad en el mundo, especialmente en mujeres, donde el cáncer de mama es el más
común al contar con aproximadamente 2,26 millones de nuevos casos y una cifra de
685.000 fallecimientos en el 2020 (Organización Mundial de la Salud, 2022).
En el contexto colombiano, se presentan 182 casos de cáncer por 100.000 habitantes de
los cuales 34 son cáncer de mama (Ministerio de Salud y Protección Social, 2021). Entre
enero del 2021 y agosto del 2022 se detectaron más de 14000 casos de cáncer de seno
en mujeres en un rango de edad de 49 a 68 años (Cuenta de alto costo, s.f.).
Ahora bien, es de mencionar que el cáncer de mama es una patología que se produce
por mutaciones en el ADN provocando que las células mamarias normales se vuelvan
cancerosas. Como en todos los tipos de cáncer, el comportamiento de las células cambia:
las células dañadas dejan de morir y se multiplican sin necesidad, algunas veces
generando tumores y tejidos extraños (Instituto Nacional del Cáncer, 2021). En algunos
casos, el cáncer de seno puede ser hereditario y en otras ocasiones, adquirido en el
transcurso de la vida (American Cancer Society, 2019) y su diagnóstico a tiempo y
tratamientos cada vez más efectivos reducen en gran medida las tasas de mortalidad de
quienes lo padecen.
En ese sentido, las mamografías resultan ser el método más efectivo para diagnóstico
del cáncer de seno; los radiólogos estudian estas imágenes médicas para detectar la
presencia de lesiones (anomalías) con características muy específicas que se clasifican
en dos tipos: grupos de calcificaciones y regiones de tejidos suaves (masas,
asimetrías y distorsiones estructurales). Las calcificaciones varían de forma y tamaño
generando un biomarcador eficaz para determinar la malignidad o no de la lesión y a
pesar de ser muy pequeños poseen alto contraste.
Por otra parte, es importante tener en cuenta que los tejidos suaves son de diferentes
formas y tamaños y no siempre fáciles de detectar, por lo cual una forma de determinar
17

una anomalía es mediante el análisis periódico de mamografías y la detección de cambios
con el tiempo (generalmente crecimiento). Por esto se vuelve relevante la revisión de
imágenes previas durante el diagnóstico, lo cual lo convierte en un proceso que requiere
de tiempo y de un análisis riguroso.
En consecuencia, tanto la falta de síntomas en etapas tempranas del cáncer de mama,
como también el alto volumen de exámenes por un profesional de salud idóneo para
estos casos como es el radiólogo, afectan en gran medida la confiabilidad de los
diagnósticos finales, conduciendo así a los denominados falsos positivos o falsos
negativos, generando para el primer caso la realización de exámenes posteriores
innecesarios y para el segundo caso, en muchas ocasiones se compromete la vida del
paciente, lo cual es posible evidenciarlo a partir del estudio realizado por Hubbard,
Kerlikowske, Flowers y otros (2012) donde se menciona que: el 50% de mujeres, en
Estados Unidos, que se han hecho mamografías anuales por 10 años, han sido
examinadas de nuevo por un falso positivo, lo cual se traduce en incremento de biopsias
benignas, aumento de gastos y efectos psicológicos negativos en las pacientes
afectadas. La ocurrencia de falsos negativos también se presenta, aunque en menor
proporción 1 a 1.5 por cada 1000 mujeres en Estados Unidos.
Sin embargo, a pesar de estas cifras la mamografía diagnóstica sigue siendo el
procedimientos o técnica preferencial tanto para la evaluación de cáncer de mama, como
para el estudio en técnicas para mejorar su eficacia y reducir las tasas de falsos positivos
y negativos es un área abierta de investigación.
Por otra parte, los sistemas de detección asistida por computador (CAD), que son muy
comunes en el proceso de investigación del cáncer de mama, permiten marcar áreas
sospechosas de lesión, alertando al especialista sobre la necesidad de evaluarlas,
brindando una ayuda en la interpretación y diagnóstico de diferentes casos, que en
principio podrían ser desafiantes para el experto. Aunque, en principio, los sistemas CAD
sirven de apoyo en el diagnóstico temprano de cáncer de seno, su alta tasa de resultados
falsos positivos, por imagen analizada, resultan en una etapa de revisión adicional y
muchos expertos han optado por su no utilización (Rios, 2014).
Del mismo modo, otro aporte importante para la investigación en el área del cáncer de
mama es el surgimiento de la Inteligencia Artificial(I.A), debido a que ha cobrado gran
18

importancia en el campo del análisis y clasificación de imágenes médicas, como
mamografías, ya que a través del aprendizaje la maquina es capaz de tomar decisiones
basadas en el estudio de un gran número de datos categorizados, utilizando algoritmos
de clasificación. El DL es una derivación del ML que hace una interpretación más
profunda al contar con diferentes capas, configuradas de manera específica de acuerdo
con la necesidad y el diseño del modelo, que segregan y manejan la información,
permitiéndoles un análisis de los datos a un alto nivel de abstracción para mejorar la
precisión de su predicción (Arrabares, 2016).
2.2 Formulación del problema
Teniendo en cuenta lo mencionado anteriormente, se plantea la siguiente pregunta de
investigación ¿En qué medida un sistema basado en aprendizaje profundo podría asistir
de manera efectiva al especialista en el análisis de mamografías digitales?
19

3. OBJETIVOS
3.1 Objetivo general
Implementar un sistema para la asistencia en el diagnóstico de cáncer de seno basado
en mamografías digitales haciendo uso de un modelo de aprendizaje profundo.
3.2 Objetivos específicos
1. Identificar los principales parámetros morfológicos en mamografías
digitales para el diagnóstico de cáncer de seno.
2. Evaluar diferentes métodos de aprendizaje profundo con el fin de identificar el más
adecuado para el sistema propuesto.
3. Diseñar un algoritmo, basado en aprendizaje profundo, para la clasificación de
lesiones en mamografías digitales.
4. Validar el desempeño del modelo propuesto a partir de uno o varios métodos de
validación.
20

4. METODOLOGÍA
4.1 Marco referencial y estado del arte
Diversos métodos de Inteligencia Artificial (A.I) para la predicción y el diagnóstico de
enfermedades han sido propuestos por un gran número de investigadores. En ese
sentido, mediante una revisión exhaustiva de la literatura existente sobre el tema de
interés de la presente monografía, se logró recolectar evidencia tanto de la evolución
cómo del panorama actual de la inteligencia artificial y de las oportunidades que hay en
el futuro próximo en el campo de la detección automática o asistida de cáncer de seno
mediante análisis de imágenes.
Por ende, las investigaciones analizadas, brindan una gran cantidad de información
valiosa, la cual será tomada como un importante punto de partida para implementar el
modelo propuesto para la detección y clasificación de anomalías. Los artículos
seleccionados como referentes para esta investigación se muestran a continuación:
4.1.1 Diagnostico asistido por computadora (CAD)
Con la llegada de la digitalización de las imágenes, fue posible la investigación centrada
en el uso de computadoras para asistir en la interpretación de mamografías digitales
(Ulissey, 2001). Dos de las categorías desarrolladas a inicios del 2000 fueron los sistemas
de detección asistida por computador (CADe) y diagnóstico asistido por computador
(CADx) (Samet & Tahmoush, 2006).
El primero tiene por objetivo localizar lesiones sospechosas (masas o calcificaciones) y
se basa en tres etapas: i) normalizar la imagen a una distribución de intensidad de
referencia o procesar la imagen para mejorar la detección ii) identificar áreas
sospechosas y iii) reducir el número de regiones sospechosas basados en evaluación de
probabilidades (Kim, 2020). Además, los algoritmos CADx también hacen una estimación
de malignidad o benignidad de una lesión ya detectada, por lo tanto, su enfoque es hacia
un paso final de un proceso CADe.
Es así como, la principal diferencia entre los algoritmos CAD (CADe/CADx) y los
algoritmos basados en inteligencia artificial, es que estos últimos se programan para
buscar características previamente identificadas como lesiones sospechosas por
21

humanos, características entrenadas en el algoritmo (Sechopoulos, Teuwen, & Mann,
2020).
Por su parte, en Karssemeijer y Van (2007), se realiza un trabajo en el cual implementan
un algoritmo de detección de lesiones en dos vistas diferentes del mismo seno y lo
incorporan en un sistema CAD previamente desarrollado incrementando su desempeño
en cuanto a sensibilidad a falsos positivos, y en este mismo sentido el autor Samet (2006)
propuso algoritmos para determinar asimetrías entre dos vistas de los dos senos,
resultando en mejoras en el desempeño de sistemas CADe.
Ahora bien, en la práctica actual las mamografías deben primero ser evaluadas de
manera habitual por el radiólogo y posteriormente las marcas detectadas por el sistema
CAD se deben desplegar, de esta forma el experto revisa los resultados del sistema CAD
y valora su pertinencia como en (Castellino, 2005) y después de años de uso clínico, el
análisis a gran escala en retrospectiva del impacto de estos sistemas ha mostrado que
los beneficios esperados de los sistemas CAD no se materializaron y las mejoras se
presentaron solo para ciertos casos muy específicos a un alto costo comercial (Lehman,
Wellman, Buist, Kerlikowske, & Miglioretti, 2015), siendo su mayor problema detectar
falsos positivos, mejorando solo en algunos casos si se incluye la probabilidad de cáncer
por edad.
Por ende, debido a lo mencionado anteriormente, se han derivado muchas
investigaciones que buscan algoritmos que realmente asistan a los profesionales,
buscando reducir su carga y asegurando altos niveles de confiabilidad.
4.1.2 La inteligencia artificial en el análisis de mamografías digitales
El campo de la inteligencia artificial (IA) ha adquirido gran importancia en sectores como
la medicina, representando una novedosa alternativa que puede reducir costos, tiempo y
errores médicos (Exposito & Avila, 2008). Uno de los principales objetivos de la IA en el
estudio de las mamografías es reducir la carga de trabajo ayudando a acelerar la
interpretación de casos más notorios para que los radiólogos puedan concentrarse en los
casos que más requieren asistencia.
En Zeng (2019) se muestra un enfoque diferente para el análisis de mamografías basado
en una red bayesiana probabilística. Plantea clasificar las lesiones como un hallazgo
22

positivo o negativo, los rangos establecidos por cada radiólogo suelen ser subjetivos, por
lo tanto, si un radiólogo establece su propio umbral, este puede ayudar a reducir las
lecturas erróneas. Este método, muestra como la IA puede respaldar las decisiones de
los radiólogos, además demostró una reducción de 28.9% de falsos positivos.
El estudio publicado por Pawlovskyy Nagahashi (2014) propone aplicar el método de K-
Nearest Neighbours para el pronóstico de cáncer de mama basado en Machine Learning
y a su vez un método para seleccionar una buena configuración con los parámetros que
se pueden cambiar al usar este método de clasificación. Para comprobar su
funcionamiento usaron los datos de pronóstico de cáncer de seno de Wisconsin
obteniendo una precisión del 76%.
Otro artículo que destaca herramientas útiles de Machine Learning es el publicado por
Gupta Madhuri y Gupta Bharat en (2018), en el cual se propone un método con mayor
acierto que los usados convencionalmente para la clasificación individual. Este método
utiliza cuatro herramientas de Machine Learning: Support Vector Machine, Logistic
Regression, Decision Tree y k-Nearest Neighbours (kNN). Los resultados muestran que
el modelo es más preciso en contraste con el sistema de clasificación único tradicional,
en este trabajo se utiliza el modelo SLSQP4 para asignarle un peso a cada modelo de
clasificación y la predicción de cada clasificador se combina mediante la técnica de
votación suave.
En (Pedraza, 2015) se realiza la implementación de técnicas de Machine Learning para
el entrenamiento de clasificadores para la identificación asistida de lesiones tumorales en
imágenes médicas; el algoritmo diseñado tiene como objetivo detectar la presenciao la
ausencia de microcalcificaciones malignas en las mamas, obteniendo una tasa de falsos
positivos máxima de diez por imagen con los métodos de clasificación: regresión logística
y redes neuronales. Además, se diseñó y se implementó una aplicación que permite al
usuario cargar una imagen mamográfica, ejecutar el algoritmo de detección y obtener el
resultado de este.
En ese sentido, según el analista de tecnologías Cel Dilmegani los principales usos de la
Inteligencia Artificial en la medicina según Dilmegani (2020) son:
1. Revelar anomalías cardiovasculares.
23

2. Predicción de enfermedades como el Alzheimer.
3. Detección de cáncer de mamá, tumores cerebrales, etc.
4. Revalorización del tratamiento.
5. Planificación quirúrgica.
4.1.3 Deep Learning, una revolución
La introducción de redes neurales convolucionales de aprendizaje profundo (CNNs) en
imágenes en el año 1980 (Pathak, 2022) por un investigador postdoctoral, ha generado
una revolución en la potencial interpretación asistida por computador; una falla común es
referirse a inteligencia artificial (IA) y aprendizaje profundo casi indistintamente. Sin
embargo, estos términos no son sinónimos, la ilustración 1 muestra algunas diferencias
de IA, ML y Dl; La IA hace referencia a cualquier aplicación o programa computacional
que trabaja de forma automática, no es un término nuevo, fue introducido por un científico
informático llamado John McCarthy (Gruson, Helleputte, Rousseau, & Gruson, 2019),
dentro de la IA se encuentra el aprendizaje de máquina, que a su vez incluye el
aprendizaje profundo del cual, finalmente, las CNN son solo un subconjunto (Lecun,
Bengio, & Hinton, 2015).
Ilustración 1: Diferencias entre IA, ML y DL
Fuente: Adaptada de Gruson, Helleputte, Rousseau y Gruson (2019).
4 SLSQP: Sequential Least Squares Programming Method
24

Es importante mencionar que, las CNN de aprendizaje profundo implican el
procesamiento de una imagen mediante etapas múltiples y secuenciales, llamadas
capas, con muchas capas ocultas agrupadas una tras otra, durante este proceso de
múltiples etapas, la información se divide en diferentes representaciones, y la convolución
de estas representaciones (más simples hasta las más abstractas) da como resultado la
capacidad de la red para reconocer la imagen con precisión, similar al comportamiento
de las neuronas del cerebro humano, su similitud se muestra en la ilustración 2.
Ilustración 2: Comparación entre una neurona en nuestro cerebro y una neuronal
artificial

Fuente: Gruson, Helleputte, Rousseau y Gruson (2019).
Es así como, el primer impacto de CNN de aprendizaje profundo fue con la
implementación presentada por equipo Supervisión de la universidad de Toronto en el
reto ImageNet del 2012 (Deng, Berg, Satheesh, Khosla, & Fei-Fei, 2015), desde entonces
esta tecnología ha estado en la mira de muchos investigadores en el ámbito de
clasificación de imágenes.
Por otra parte, los algoritmos diseñados con IA para detección de cáncer de mama, al
igual que otras patologías, se diferencian de los sistemas CAD convencionales en donde
las características, que indican una lesión, son determinados por ellos mismos durante
su entrenamiento y no impuestas por el programador humano. Un aspecto que simplifica
la detección de cáncer de mama, a diferencia de otros, es que su determinación es
directa, es decir o existe una lesión maligna o benigna o no existe lesión, así, los sistemas
de CNN de aprendizaje profundo tratan de determinar la existencia o no de lesiones para
determinar si el paciente requiere exámenes adicionales.
25

Los desarrollos presentados, generalmente hacen diferentes algoritmos de
reconocimiento para los distintos tipos de características que indican lesión (masas de
tejido blando, calcificaciones, fibroadenomas, quistes, etc.). De igual manera, los autores
Lotter, Sorensen y Cox (2017) en su investigación, hacen un algoritmo de dos etapas:
primero entrenan un clasificador de parches basado en CNN usando máscaras de
segmentación de lesiones mamográficas, luego usan la función aprendida para inicializar
un modelo basado en escaneo que toma decisiones sobre imágenes completas,
entrenadas de extremo a extremo en los datos resultantes, para los dos tipos de lesiones
estudiadas: calcificaciones y masas, (Kim, 2020) utilizan una sola etapa de entrenamiento
con CNN sin ninguna característica definida, mostrando resultados pero con un dataset
no universal.
Del mismo modo, Wang (2016) utiliza una aproximación que inicialmente determina
separadamente las microcalcificaciones y las masas de tejido blando, donde las primeras
tuvieron mayor exactitud de detección, mientras que haciendo un sistema combinado
posterior obtuvieron mejora en los dos tipos de lesiones.
Por otra parte, se encuentran sistemas que combinan la etapa de selección de
características de los sistemas CAD tradicionales con algoritmos CNN para mejorar la
exactitud y la reducción de falsos positivos, en este camino se encuentran los trabajos
del autor Kooi (2017) y del autor Samala (2016) que muestran que los algoritmos de la
siguiente generación que utilizan la información de ambos modelos pueden incrementar
la exactitud.
Del mismo modo, está el trabajo de Rodríguez y otros (2019) en sonde utilizan un sistema
de DL comercial (“Transpara 1.4.0, Screenpoint Medical BV”) para estudiar la viabilidad
de identificar automáticamente las imágenes, con el fin de reducir la carga de trabajo de
lectura de detección, los exámenes se dividieron en grupos de baja y alta probabilidad de
presencia de cáncer. Se asume también, que con este método solo se tendrían presentes
los clasificados como “alta probabilidad” para ser leídos por los radiólogos y descarta o
clasifica como “normales” los de baja probabilidad.
26

Otro estudio importante en esta área fue el de Yala y otros (2019), en el cual se desarrolla
un sistema de DL que clasifica los casos “negativos verdaderos” y posteriormente
compara el desempeño con el de los radiólogos durante su evaluación original; concluye
que los expertos omiten algunos de los que el DL puede clasificar y con la asistencia
consiguen una reducción del 19,3% de carga de trabajo. El estudio no especifica que tan
preciso es para clasificar los casos “negativos verdaderos”.
De igual manera, en otras aproximaciones se han desarrollado sistemas donde no es
necesaria la intervención de un experto, aquí el software detecta y clasifica de manera
autónoma. Demostrando así que, la precisión de los sistemas con IA oscila entre el 88 y
el 95% (Antari, Al-Masni, & Kim, 2020). Con Deep Learning, se han desarrollado nuevas
técnicas de imagenología mamaria; la tomosintesis digital de mama o DBT por sus siglas
en inglés, es una herramienta más avanzada de mamografía que utiliza dosis bajas de
rayos x con el fin de detectar células cancerígenas cuando el cáncer es más tratable, esta
permite la reconstrucción volumétrica de toda la mama y ya se han probado con DL con
el objetivo de extraer más características de la imagen para un diagnóstico más certero
(Gao, y otros, 2018).
En esa misma línea, se encontraron también modelos de algoritmos híbridos que
involucran tanto el historial del paciente como las imágenes radiológicas. Cuando se
utilizó para la predicción de la malignidad de la biopsia arrojo un resultado de sensibilidad
de 87%, una especificidad del 77,3% y un AUROC (area under the receiver operating
characteristic curve) general de 0,91, incluso cuando se entrenó con datos clínicos el
modelo funciono significativamente (Akselrod, y otros, 2019).
Finalmente, los mayores y recientes modelos de Deep Learning tratan de utilizar solo una
etapa de entrenamiento y clasificación, a pesar de ser complejos y con datasets de gran
tamaño, han logrado mejoras sobre los sistemas CAD tradicionales, como lo muestra el
trabajo de Mohammed(2018).
4.1.4 Resultados de la Inteligencia Artificial en la medicina
Las redes neuronales son una solución que encaja muy bien a la hora de resolver
problemas de ingeniería biomédica debido a su amplio espectro de usabilidad y su
capacidad para aprender relaciones complejas y no lineales, incluso con información
27

poco precisa o con ruido. Gracias a su diseño las redes neuronales pueden procesar
señales paralelas en tiempo real a una gran velocidad.
Una de las ventajas de las redes neuronales sobre los sistemas tradicionales es que
estas se entrenan de manera automatizada con ejemplos en lugar de reglas. Además, en
el diagnóstico médico, no son afectadas por factores humanos como fatiga, estados
emocionales o costumbre. Desde su inclusión en la ciencia y la ingeniería, las
aplicaciones de las redes neuronales en la computación biomédica son numerosas, tales
como: cardiología, mamografía, neumología, neurología, y reumatología, entre otras
(Rani, 2010).
Se han utilizado para optimizar el diagnostico de patologías como dolor abdominal agudo,
glaucoma, lumbalgia y litiasis vesical usando imágenes radiográficas e histopatologías.
También se ha probado su efectividad en el diagnóstico de la apendicitis aguda, con
valores de 97.2 de sensibilidad, 88 de especificidad y 100% de valor predictivo negativo.
Además, se alcanzó un mejor desempeño que el de clínicos expertos, estudios de imagen
y escala clínica predictiva de Alvarado utilizando solo variables clínicas y de laboratorio
(Lugo-Reyes, 2014).
Asimismo, se han utilizado las redes neuronales para examinar patologías incluido
diferentes tipos de cáncer, como el cáncer de colon, cuyo modelo, creado basándose en
el perfil de lípidos en plasma sanguíneo, tuvo un 83% de precisión identificando pacientes
con tumores y solamente un 8% de los pacientes fueron clasificados erróneamente
(Shandu et al., 2015).
En el diagnóstico de cáncer de seno se han obtenido importantes resultados utilizando
redes neuronales convolucionales y termografía (ya que facilita la identificación de células
cancerígenas y tumores gracias a la diferencia de temperatura que presentan) como
alternativa a otros procedimientos. Dichos resultados sin optimización fueron de 97.91%
de precisión en entrenamiento y de 98.95% en datos de prueba después de aplicar un
algoritmo de optimización de Bayes (Ekici et al., 2020).
Cabe destacar la existencia de trabajos similares realizados con las imágenes del dataset
DDSM, como el realizado por Shen y compañía, donde se comparan los resultados de
clasificaciones hechas por modelos de redes neuronales convolucionales como Resnet50
y VGG16, en los que se alcanza un rango de precisión entre 63 y 99% en diferentes
28

configuraciones para Resnet50 y de 84% para VGG16. Además, se realizan pruebas de
estos modelos utilizando el dataset INbreast, donde también se obtienen resultados
interesantes a pesar de las diferencias existentes en estas imágenes (Shen et al., 2019).
Entre otros acercamientos, se han desarrollado modelos con redes neuronales utilizando
como entrada registros con diferentes atributos de las células presentes en el tejido del
seno, obteniendo resultados entre el 94 y el 99% de precisión en la predicción del cáncer
de seno en sus pruebas experimentales (Pawar & Patil, 2013).
También, se han evaluado dichos modelos para conocer su desempeño al momento de
asistir a los profesionales de la salud, como es el caso del estudio clínico realizado
(Pacilè, S et al., 2020) con una muestra de 240 casos y 14 radiólogos como sujetos de
prueba donde se pudo evidenciar una reducción de la tasa de falsos negativos en un
promedio de 18% de los casos y una reducción de falsos positivos en un 25% haciendo
uso de redes neuronales convolucionales y ResNet.
Además, en (Shen, Y et al., 2021) se muestra un área bajo la curva característica
operativa del receptor (AUROC) más alta comparado con los resultados promedio dados
por 10 radiólogos, además, el uso de redes neuronales convolucionales profundas logro
disminuir la tasa de falsos positivos en un 37.3% y una reducción del 27.8% en las
biopsias solicitadas.
Es así como, la anterior revisión muestra un amplio rango de posibilidades de
investigación centradas en la implementación de algoritmos de aprendizaje profundo
como ayuda en el diagnóstico de anomalías en el cual se enmarca la presente propuesta,
con este fin se especifica a continuación la etapa metodológica del proyecto.
4.1 Marco conceptual
En este apartado se presentan y se definen algunos conceptos claves para el desarrollo
de esta monografía.
4.1.1 Cáncer de mama: definición y generalidades
El cáncer de mama se da en el momento en que las células mamarias comienzan a crecer
de forma anormal, multiplicándose exponencialmente en comparación con las células
sanas y acumulándose en forma de bulto o tumor. Esta alteración generalmente inicia en
29

los conductos donde se produce leche (carcinoma ductal invasivo), aunque también
puede comenzar en el tejido glandular conocido como lobulillos (carcinoma lobulillar
invasivo) o en otras células o tejido mamario (Acevedo & Rojas, 2020). El daño puede
irrumpir en los vasos sanguíneos locales y producir células metastásicas que a su vez
pueden emigrar a órganos distantes como huesos, pulmones, hígado, dando lugar a
metástasis a distancia (Martín, Herrero, & Echavarría, 2015).
El cáncer mamario continúa siendo una de las enfermedades más frecuentes en el
mundo, la presencia de programas de detección precoz mediante exámenes como
mamografías, ha aumentado el porcentaje de casos que se diagnostican en estadios 0 y
1 que es considerado una etapa inicial de cáncer de seno, donde aún puede ser tratado
satisfactoriamente (López & Hernández, 2018), a diferencia de otros métodos como el
auto examen de seno que no ofrece ningún beneficio con respecto a la mortalidad
(Instituto Nacional del Cáncer, 2021).
Los estadios o etapas de este tipo de cáncer en función del tamaño del tumor son cuatro
según los autores Angarita y Acuña (2008):
1. Estadio 0: lesiones premalignas
2. Estadio I: tumores pequeños, sin afectación metastásica de la axila
3. Estadio II: tumores de más de 2 cm o con afectación metastásica moderada de
la axila.
4. Estadio III: tumores muy grandes o con afectación de piel o musculo pectoral o
afectación masiva de la axila.
5. Estadio IV: metástasis en órganos distantes como huesos, pulmones, hígado…

La tasa de supervivencia de cada estadio se clasifica como se muestra en la tabla 1:
Tabla 1: Tasa de supervivencia para cada estadio

Fuente: Yébenes (2020).
En ese sentido, el diagnóstico precoz del cáncer de seno juega un papel muy importante
en la tasa de mortalidad ya que las posibilidades de supervivencia son más altas en su
etapa inicial.
4.1.2 Exámenes de detección
Los ensayos clínicos controlados aleatorizados (ECA) son un paradigma de la
investigación epidemiológica que se inició hace más de 50 años. Gracias a su diseño, el
cual se asemeja a un experimento por sus condiciones controladas y la posibilidad de
determinar relaciones causa-efecto (Brito Pérez et al., 2016), evidencian que la detección
con mamografías disminuye la tasa de mortalidad especifica por cáncer de mama en
mujeres entre 50 a 69 años según el Instituto Nacional del Cáncer (2021) y el autor
Lazcano y otros (s.f.).
Por otra parte, el examen clínico de la mama (ECM) es un procedimiento donde el
profesional de la salud palpará con cuidado las mamas y el área debajo de la axila, con
el fin de detectar masas o cualquier otra anomalía en la región mamaria, aunque no es
un análisis que evidencie la mortalidad por cáncer de seno (López & Hernández, 2018).
31

Y respecto a la mamografía convencional, esta se realiza en una máquina especial con
rayos x, donde el paciente coloca su mamasobre una placa de plástico y otra placa
superior, la cubre firmemente. Las placas aplanan la mama y la mantienen inmóvil
mientras se toma la mamografía y de la misma manera para una toma del costado de la
mama (Imedi, s.f.).
En la misma línea con la mamografía digital o también llamada mamografía digital de
campo completo o MDCC, la película de rayos x es reemplazada por implementos
electrónicos, sistemas semejantes a los que utilizan las cámaras digitales, que
transforman los rayos x en imágenes mamográficas de manera más eficiente para
obtener resultados con menores dosis de radiación (Reyes Tomalá, 2018), aumentando
el contraste y a su vez permitiendo detectar cambios pequeños, en la ilustración 3 se
pueden observar algunos ejemplos de mamografías digitales.
Ilustración 3: Ejemplos de imágenes mamográficas

Fuente: tomado de Moreno (2020).
En la imagen por resonancia magnética (MRI), se utilizan imanes y ondas de
radiofrecuencia para la detección de cáncer o tumores, este es utilizado a su vez con la
mamografía para examinar pacientes que tienden a padecer cáncer de mama, es
importante mencionar que este procedimiento no es utilizado en mujeres que tienen un
riesgo medio o bajo debido a que puede darse un resultado anormal como positivos falsos
desencadenando biopsias innecesarias (American Cancer Society, 2013).
Termografía, es una herramienta que se utiliza para determinar la temperatura de la piel
que cubre la mama, esta percibe la radiación infrarroja del espectro electromagnético
32

identificando tejidos con diferentes densidades, aunque no se han sido evidenciado casos
satisfactorios donde se detecte el cáncer de mama en sus primeras etapas (FDA, 2021).
A continuación, la tabla 2 muestra un resumen de exámenes para la detección de
anomalías con su porcentaje de sensibilidad y especificidad.
Tabla 2: Sensibilidad y especificidad de diferentes técnicas de imágenes en cáncer de
mama

Fuente: (Angarita & Acuña, 2008)
A partir de la anterior tabla, es posible inferir que la mamografía es la técnica más
acertada para la detección del cáncer de seno desde la etapa inicial.
De igual manera, se estima que el 10% de los casos de cáncer de mama tienen un origen
hereditario y en este caso se presenta alrededor de los 40 años (Helping Cáncer, 2020).
También existen dos genes que son el gen 1 (BRCA1) y el gen 2 (BRCA2) los cuales
aumentan la posibilidad de padecer cáncer de mama y de ovario, estos genes fueron
identificados como mutaciones hereditarias. (Álvarez Gama, 2016). Otras causas son el
estilo de vida, factores hormonales y ambientales.
4.2 Parámetros morfológicos
En este apartado se describen los parámetros morfológicos como factores pronósticos
de anomalías en el seno.
33

4.2.1 El sistema linfático del seno
Es relevante mencionar que el cáncer de mama se puede propagar a través del sistema
linfático, donde este sistema tiene varias partes:
 Ganglios linfáticos: son grupos de células interconectadas a través de vasos
linfáticos que hacen parte del sistema inmunológico.
 Vasos linfáticos: transportan una sustancia llamada linfa, se asemejan a venas
pequeñas.
 Linfa: consiste en un líquido intersticial que transporta productos de desecho y
células del sistema inmunológico.
El proceso de propagación empieza cuando las células cancerígenas crecen en los
ganglios linfáticos después de haberse incorporado a través de los vasos linfáticos, lo
cual aumenta la posibilidad de que estas células alcancen el torrente sanguíneo y se
propaguen al resto del cuerpo, algo conocido como metástasis (Flores, 2015).
La ilustración 4, muestra la estructura de un seno sano.
Ilustración 4: Estructura de un seno sano
Fuente: Flores (2015).
4.2.2 Calcificaciones mamarias
Las calcificaciones mamarias son pequeños depósitos de calcio que se desarrollan en el
seno, no tiene ninguna sintomatología ni tampoco se pueden diagnosticar a partir de un
examen, pero si se pueden visualizar en una mamografía como puntos blancos (Medline
34

Plus, s.f.); estas calcificaciones suelen aparecer generalmente en mujeres mayores de
50 años.
Es importante mencionar que, la mayoría de las calcificaciones mamarias suelen ser
benignas, pero hay un porcentaje pequeño que puede indicar un cáncer de seno
temprano y las calcificaciones se dividen en dos tipos: macro calcificaciones y
microcalcificaciones.
En ese sentido, las macro calcificaciones son grandes puntos blancos, estas se
presentan aleatoriamente en el tejido mamario y suelen ser mayores a 0.5 milímetros de
diámetro, son muy frecuentes y los especialistas las consideran benignas; por otro lado,
las microcalcificaciones aparecen como pequeños puntos blancos, algunas
microcalcificaciones tienen características anómalas que las hacen sospechosas y
motivo de investigación, por ejemplo:
 tienen menos de 0.5 mm de diámetro
 ocurren en grupos en un área específica del seno
 difieren en tamaño y forma
Y de acuerdo con los autores Arancibia, Taub, López, Díaz y Sáez (2016) es posible
encontrar calcificaciones distribuidas de diferentes maneras como, por ejemplo:
Distribución agrupada: Cuando se encuentra una baja cantidad de calcificaciones en
un área reducida de la mama, existe un límite inferior de 5 calcificaciones en 1 cm o
cuando existe un comportamiento ya definido y el mayor se da cuando se presenta una
cantidad mayor dentro de 2 cm.
Distribución regional: En esta distribución se presentan calcificaciones en un área
extensa, mayor de 2 cm, existe una probabilidad de malignidad de 26%.
Distribución difusa: Son calcificaciones distribuidas de manera aleatoria por toda la
mama, las calcificaciones de esta categoría suelen ser benignas.
Distribución segmentaria: En esta distribución se presentan calcificaciones en los
ductos y sus ramas, siguiente la forma anatómica de un lóbulo mamario, pueden
presentarse en patología benigna o también como calcificaciones secretoras
35

desencadenando un cáncer extenso o multifocal, existe una probabilidad de malignidad
del 62%
Distribución lineal: Se presenta de forma lineal que puede ramificarse, existe una
probabilidad del 60% de que sean calcificaciones malignas, es importante destacar que
ciertas calcificaciones vasculares o lineales gruesas pueden mostrar esta distribución con
una morfología diferente, pero suelen ser benignas.
A continuación, la ilustración 5 muestra un breve ejemplo de cada distribución de
calcificaciones.

Ilustración 5: Tipos de distribución de calcificaciones

Fuente: Arancibia, Taub, López, Díaz y Sáez (2016).
Quistes: Se conocen como sacos llenos de líquidos que se forman dentro de las mamas,
como se muestra en la ilustración 6; es normal tener uno o varios quistes y no es
necesario hacer un tratamiento, a menos que sean grandes, dolorosos o molestos (Mayo
Clinic, 2020).
36

Ilustración 6: Quistes
Fuente: (Mayo Clinic, 2020).

Los quistes mamarios se pueden definir según su tamaño:
 Los micro quistes, estos son pequeños y no se pueden sentir con el auto
examen de seno, pero se pueden observar en una mamografía.
 Los macro quistes, que son lo suficientes grandes para sentirlos, pueden tener
hasta 5 cm de diámetro.
 Fibroadenomas: Son tumores benignos, compuestos por tejido glandular y tejido
estromal o tejido conectivo. Estos tumores se pueden encontrar frecuentemente
en el sexo femenino entre los 20 a 39 años y tienden a reducir su tamaño cuando
una mujer ha pasado por la etapa de menopausia. Al igual que los quistes se
pueden encontrar fibroadenomas pequeños que no pueden palparse y otros con
varios centímetros de diámetro.
Los fibroadenomas se pueden visualizar por medio de un estudio por imágenes como las
mamografías (American Cancer Society, 2019) como se evidencia en la ilustración 7:

Ilustración 7: Visualización de un fibroadenoma enuna mamografía digital
Fuente: Sedicias (2022).
Tejido cicatricial: Este tejido se forma como respuesta al proceso de curación o una
terapia con radiación después de una cirugía, es un tejido fibroso que reemplaza la piel
lesionada (Breastcancer.org, s.f.).
Una mamografía también puede mostrar información adicional sobre la densidad de los
senos, teniendo en cuenta que las mujeres con senos más densos tienen ligeramente un
riesgo mayor de cáncer mamario, además estos resultan ser más complicados en el
momento de encontrar anomalías en una mamografía y para las mujeres que tienen
implantes de senos el personal encargado debe tomar más imágenes de cada seno y
realizar una evaluación exhaustiva del mismo (Medical News Today, 2021).
Teniendo en cuenta lo mencionado anteriormente, el sistema propuesto pretende
clasificar imágenes mamográficas en cuatro categorías que se muestran en la ilustración
8:
Ilustración 8: Parámetros morfológicos identificados en el dataset
PARAMETRO
MORFOLOGICO

EJEMPLO DEL DATASET

MASAS MALIGNAS

CALCIFICACIONES

MASAS BENIGNAS

NORMALES

Fuente: elaboración propia.

4.3 Técnicas de aprendizaje
La investigación propuesta, tiene como objetivo el desarrollo de un sistema basado en
DL que hace parte de las técnicas de ML y que a su vez es un subconjunto de la IA, por
esta razón se introducen algunos conceptos teóricos generales sobre estos aspectos, así
como de métodos de validación y parámetros de efectividad en este tipo de algoritmos.
4.3.1 Sistemas CAD
El sistema de diagnóstico asistido por computadora o Computer aided diagnosis son
procedimientos médicos capaces de preprocesar imágenes, segmentar lesiones, extraer
características y clasificarlas; estos sistemas ayudan en el diagnóstico y en la
interpretación de imágenes médicas. La idea de estos sistemas no es dar un diagnóstico
completo si no la de ayudar en la interpretación y así llegar a un diagnóstico óptimo.
4.3.2 Inteligencia artificial
39

La inteligencia artificial se define como la composición de algoritmos que tienen la
capacidad de crear máquinas que contengan las mismas capacidades del ser humano.
Encontramos varios tipos de IA:
 Sistemas que piensan como humanos: Tienen la capacidad de tomar decisiones,
resolver problemas y aprender, como lo son las redes neuronales artificiales.
 Sistemas que actúan como humanos: Maquinas que son capaces de realizar
tareas de manera similar a una persona, un ejemplo de esto son los robots.
 Sistemas que piensan racionalmente: Intentan percibir, razonar y actuar como un
ser humano.
 Sistemas que actúan racionalmente: Estos sistemas imitan de manera racional el
comportamiento de los humanos, en esta categoría encontramos los agentes
inteligentes.
4.3.3 Aprendizaje de maquina o Machine Learning
El aprendizaje de máquina es una rama de la IA (Ilustración 9), que es capaz del
desarrollo de modelos que permiten que las maquinas aprendan. De manera detallada,
consiste en un sistema que recibe como entrada datos de un tipo o una estructura
específica, los cuales procesa para construir un modelo que permite resolver problemas
del mundo real (Norvi).
Ilustración 9: Diagrama que ilustra la relación entre diferentes métodos y algoritmos de
IA
40

Fuente: Adaptada de Sechopoulos,Teuwen, & Mann (2021).
4.3.4 Tipos de algoritmos de Machine Learning
El aprendizaje automático es una rama de la informática que concede a la IA la capacidad
de aprender diferentes tareas. Encontramos tres grupos de aprendizaje automático:
 Aprendizaje supervisado: en este grupo se enseña al algoritmo como realizar
su trabajo con entradas y salidas deseadas, el algoritmo identifica patrones en
los datos, aprende y hace predicciones que pueden ser corregidas por el
programador con el fin de alcanzar un nivel de precisión y rendimiento del
sistema.
 Aprendizaje no supervisado: aquí se le permite al algoritmo interpretar grupos
de datos y que los dirija de alguna manera para descubrir patrones, en la medida
en que se evalúa más datos aumenta su capacidad para tomar decisiones.
 Aprendizaje reforzado: Para este tipo de aprendizaje no hay un previo
entrenamiento con algún tipo de datos, entonces, el sistema se ve forzado en
aprender en un entorno donde no hay información clara y los hace a través de
acciones y resultados, este sistema se refuerza al resolver problemas. (Manrique,
2019).
4.3.5 Deep Learning
41

El Deep Learning es una rama del Machine Learning, que se se basa en el aprendizaje
de representaciones de datos en vez de algoritmos específicos de tareas (Gruson,
Helleputte, Rousseau, & Gruson, 2019).
En esta metodología los algoritmos se crean y operan de manera análoga entre sí, pero
en múltiples capas de parámetros no lineales, de forma que estos algoritmos
proporcionan una interpretación única de las de la imagen como la morfología, la textura,
entre otras y manejan una mayor densidad de información (Ilustración 10).
Ilustración 10: Jerarquía del ML
Fuente: tomado de (Alexander, 2020).
Es así como, el Deep Learning hace uso de redes neuronales que están inspiradas en el
comportamiento y funciones del cerebro humano.
La ilustración 11 muestra la analogía entre una neurona del cerebro humano y una
neurona artificial.

Ilustración 11: Analogía entre neurona biológica y neuronal artificial
Fuente: tomado de Bishop (s.f.).
Las redes neuronales artificiales tienen una gran similitud con las neuronas biológicas,
en sus funciones más comunes encontramos un “elemento procesador” o neuronas, cada
una de estas neuronas tiene unos elementos de entrada (dendritas) que son las
encargadas de recoger los impulsos de entrada en el procesador y generar una salida.
La salida del elemento procesador puede ser conectada a las entradas de otras neuronas
artificiales mediante uniones similares a las del cerebro. Las neuronas estas conectadas
en una cadena de niveles llamadas capas, estas capas a su vez componen lo que
llamamos red neuronal artificial o ANN (Elsevier, 2020).
En las redes neuronales artificiales existen 2 capas conectadas con el exterior la capa de
entrada donde se muestran los datos y una capa de salida que es capaz de enviar la
respuesta de la red al exterior, además de algunas capas ocultas que representan la base
estructural en este tejido nervioso artificial.

De igual manera, para Flores (2015) el elemento de procesado más sencillo tiene un
esquema como el de la ilustración 12:
Ilustración 12: Esquema de una red neuronal
Fuente: tomado de Flores (2015).
Donde Pi es la entrada, representada por un conjunto de conexiones, W es el peso o
fuerza de conexión, Fk es una función de propagación, b es una entrada que representa
una ganancia que refuerza la salida.
Las ANN suelen utilizarse para clasificar, identificar, diagnosticar, optimizar o predecir;
además tienen la capacidad de identificar comportamientos repetitivos haciendo uso de
algoritmos de aprendizaje.
Una evolución de estas redes neuronales artificiales son las redes neuronales
convolucionales, que utiliza aprendizaje profundo para analizar imágenes, clasificar
elementos visuales y realizar tareas de visión artificial.
Del mismo modo, una red neuronal convolucional se diferencia de una red neuronal
artificial en la cantidad de capas, un aumento de capas en la red aumenta su complejidad
y permite detectar más aspectos o áreas en una imagen.
La estructura de una CNN o red neuronal convolucional es similar a la de una red
neuronal artificial. La arquitectura básica de una CNN es una pila de capas
convolucionales, capa no lineal, capa de agrupación y una función de perdida en la última
conexión. La salida de una CNN puede ser una clase (por ejemplo, maligno, benigno o
normal)o una probabilidad de clases que mejor describa la imagen, como se ve en la
ilustración 13.

Ilustración 13: Estructura de una red neuronal convolucional

Fuente: Adaptada de Calvo (2017).
Con el fin de describir mejor la arquitectura de una red neuronal convolucional se definen
continuación dichos elementos que conforman la red:
 Entradas: son los pixeles de las imágenes, ancho, alto y profundidad, teniendo
en cuenta que la profundidad será 1 para imágenes en escala de grises y 3 para
imágenes en RGB.
 Capa de convolución: Se realiza una operación de convolución entre la capa
semilla y el filtro, que genera un mapa de características. Las características
extraídas se relaciona a cada ubicación posible del filtro en la imagen original.
Ilustración 14: Convolución
Fuente: tomado de Calvo (2017)
 Capa ReLu5: esta capa se encarga de aplicar la función de activación en los
elementos de la matriz, se denomina también activación ya que la red transporta
solo las características de la imagen activadas a la capa posterior (Pathak, 2022).
45

 Reducción o Pooling: es la encargada de disminuir el número de manteniendo
los más comunes, utilizando funciones estadísticas como el valor promedio o el
máximo del mapa de características.
 Clasificador: es la capa de salida, esta devuelve el resultado de la clasificación,
esta capa tendrá un valor de neuronas igual al número de clases a predecir.
Finalmente podemos concluir que el aprendizaje profundo se refiere a redes neuronales
grandes con muchos datos, las técnicas más populares según Unipython (s.f.) son:
 Redes multicapa de perceptrón, consta de múltiples capas capaces de resolver
problemas que no son linealmente separables, que es la principal limitación del
perceptrón.
 Redes neuronales convolucionales, en este caso las neuronas artificiales se
asemejan a campos receptivos como en las neuronales de un cerebro biológico.
 Redes neuronales recurrentes de larga duración y corta memoria, estas son
utilizadas para analizar datos de series temporales.
4.3.6 Aprendizaje por transferencia
El aprendizaje por transferencia tiene como objetivo extraer el conocimiento de una o
más tareas de origen y aplicar el nuevo conocimiento a una tarea de destino; a diferencia
de las técnicas de aprendizaje tradicionales que intentan aprender desde cero, las
técnicas de aprendizaje por transferencia vienen pre entrenadas para transferir el
conocimiento a una tarea objetivo cuando esta última tiene menor cantidad de datos
(Jialin & Yang, 2010).
Es así como, haciendo una búsqueda intensiva se encontraron algunas de las
arquitecturas más conocidas de aprendizaje por transferencia como lo son: VGG16,
VGG19, Inception V3, Resnet, entre otros. Estas técnicas vienen entrenadas con un
inmenso dataset denominado ImageNet.

4.3.6.1 Imagenet
46

El proyecto ImageNet es una base de datos que cuenta con alrededor de 14 millones de
imágenes con etiquetas según la jerarquía de WordNet. Este proyecto ha sido de gran
ayuda en el avance de la visión por computador.
4.4 Técnicas de preprocesamiento de imágenes digitales
En esta sección se describen algunas de las técnicas de preprocesamiento de imágenes
que se utilizaron para el desarrollo del sistema.
4.4.1 Imagen digital
Según Gómez y Guerrero (2016) una imagen digital es “una representación bidimensional
de una imagen” en una matriz numérica.
4.4.2 Técnicas de preprocesamiento
El preprocesamiento digital, es un conjunto de técnicas aplicadas a imágenes
digitalizadas para aumentar la calidad y facilitar la interpretación de las mismas.
En la mamografía se pueden observar diferentes tipos de lesiones; aquí se presta más
atención a las microcalcificaciones, teniendo en cuenta que, al ser pequeños depósitos
de calcio es posible que no sea tan claro visualmente, es por esto que se pretende usar
algunas técnicas de preprocesamiento de imágenes.
Por ende, todos los algoritmos de procesamiento de imágenes tienen como función
resaltar, agudizar o contrastar algunos aspectos en la imagen o suprimir ruido no deseado
(Álvarez, Guevara, & Holguín, 2006).
Existen diferentes tipos de técnicas de procesamiento de imágenes, las más conocidas
son los filtros de suavizado, detección de bordes, transformaciones basadas en
histogramas, método Otsu; cabe resaltar que algunos de esos métodos fueron utilizados
en el preprocesamiento de las imágenes mamográficas para el modelo planteado pero
debido a que no se obtuvo un resultado favorable no se hace énfasis de ello en este
apartado.

5 ReLu: Unidad Lineal Rectificada.
47

4.5 Morfología matemática
Las técnicas derivadas de la morfología matemática son usadas ampliamente en el
análisis de imágenes biomédicas, de rostros, de paisajes, etc. Dos operaciones
fundamentales de la morfología matemática son la dilatación y la erosión. La dilatación
es un término que hace énfasis en el aumento, expansión de un objeto cualquiera, por
otro lado, la erosión se refiere a la contracción o disminución de un objeto.
4.5.1 Dilatación
La dilatación es justo lo opuesto a la erosión, aquí un elemento de pixel es 1 si al menos
un pixel de la imagen de los objetos que caen dentro de la ventana del kernel es 1. Por
lo tanto, esta operación aumenta la región blanca en la imagen o aumenta el tamaño del
objeto en primer plano y reduce las regiones oscuras, como se muestra en la ilustración
15.
Ilustración 15: Dilatación
Fuente: Tomado de Pawlovsky y Nagahashi (2014).
4.5.2 Erosión
El proceso de erosión es similar a la convolución, en este proceso un kernel se desliza a
través de la imagen binaria. Un pixel de la imagen original (1 o 0), solo se considerará 1
si todos los pixeles que caen dentro de la ventana del kernel son 1, de lo contrario se
erosiona (se hace cero). Por tanto, todos los pixeles cerca de los bordes de los objetos
de la imagen serán descartados dependiendo el tamaño del kernel. Un claro ejemplo se
ve en la ilustración 16.

Ilustración 16: Erosión
Fuente: Tomado de Pawlovsky y Nagahashi (2014).
49

5. DESARROLLO DE LA INVESTIGACIÓN
En esta sección se describe el desarrollo de las actividades que se definieron en la
metodología planteada durante la primera fase de esta monografía, los medios para
lograr cada objetivo y aplicación de las tecnologías descritas en el marco teórico.
5.1 Infraestructura tecnológica del sistema
Para el desarrollo de este sistema de detección y clasificación de anomalías se dispuso
de una caracterización de los lenguajes de programación para proyectos con Deep
Learning donde se examina las fortalezas y debilidades de cada uno de ellos como se
puede ver en la tabla 3, por lo tanto se utilizó Python en su versión 3, además, se hizo
uso de las librerías: scikit-Learn que suministra una gran variedad de algoritmos de
aprendizaje supervisado y no supervisados, es una librería muy importante dentro del
Machine Learning, cv2 que es la librería de Open Cv para el análisis y tratamiento de las
imágenes mamográficas mediante algoritmos de inteligencia artificial. Esto fue necesario
debido a que las imágenes del dataset Mini-MIAS contaban con una baja calidad en
contraste y definición.
Tabla 3: Comparación lenguajes de programación para proyectos de Machine Learning

Fuente: Tomado de Pawlovsky y Nagahashi (2014).
Es de mencionar que, con la ayuda del entorno Jupyter en Anaconda Navigator se
realizaron las pruebas de los algoritmos, Jupyter es una interfaz de código abierto que
50

permite la inclusión de texto, imágenes, videos; además permite ejecutar bloques
específicos de código que dan una ventaja clara a la hora de realizar diferentes pruebas.
5.2 Agrupación de las imágenes
Uno de los factores más importantes de esta investigación fueron las imágenes, es
indispensable contar con datos que en realidad aporten enla respuesta que se espera
obtener del sistema. Sin embargo, para obtener un dataset universal fue necesario unir
tres bases de datos encontradas de forma libre en la web MINI-Mias (SUCKLING, 1994),
INBreast (Moreira et al., 2012) y algunas imágenes de DDSM (Heath et al., 2007), las
cuales se muestran en la tabla 4; dejando el 70% de las imágenes mamográficas para el
entrenamiento y el 30% para la prueba, debido a que fue la partición que mejor se ajustó
en términos de métricas, en el capítulo 6 se muestra los resultados con otras divisiones
del dataset. Es importante mencionar que se realizó una solicitud para obtener imágenes
en centros de salud de la ciudad, pero no fue posible, por esta razón se eligieron bases
de datos de acceso libre.
Tabla 4: Resumen datasets escogidos para el sistema
DATASET CANTIDAD DE IMÁGENES CATEGORIAS
AÑO DE
CREACION
ORIGEN
MINIMias 322
Calcificaciones
Masas bien definidas
Masas espiculadas
Otras masas
Distorcion
Asimetria
Normal
1994 Reino Unido
Inbreast 410
Asimetria
Calcificaciones
Distorcion
Masas o nodulos
Multiples encuentros
Normal
Entre 2008 y
2010
Porto
DDSM
10480 correspondientes a
2620 casos
Normal
Cancer
Benigna
1999 Estados Unidos

Fuente: elaboración propia.
5.3 Adquisición de imágenes
Existe un gran número de bases de datos de imágenes mamográficas digitales como B-
SCREEN (Bayesian Decision Support in Medical Screening), IRMA (Image Retrieval in
Medical Applications), ADMI (Indexed Atlas of Digital Mammograms) que no son de
acceso libre y en general son propiedad de universidades o centros médicos de diferentes
países.
También se pueden encontrar bases de datos de instituciones que han sido puestas a
disposición del público para tema de investigación, dentro de las más conocidas está:
 Base de datos MINI-Mias: la sociedad de análisis de imágenes mamográficas
(MIAS), es una organización de grupos de investigación del Reino Unido que ha
generado una base de datos de mamografías digitales de acceso libre, las
imágenes tomadas del programa de detección del cáncer de mama del Reino
Unido se han digitalizado a un tamaño de pixel de 50 micras con un micro
densitómetro, la base de datos contiene 322 imágenes con información
importante como calcificaciones presentes, coordenadas de las anomalías,
benignidad o malignidad (Mammographic Image, 2011). La ilustración 17 muestra
dos ejemplos de este dataset.
Ilustración 17: Ejemplo de dos casos encontrados en la base de datos MIAS

Fuente: tomado de Mammographic Image (2011).
52

 Base de datos digital para mamografía de detección (DDSM): esta base de
datos contiene aproximadamente 2500 estudios gracias a la colaboración entre
el Hospital general de Massachusetts, los Laboratorios Nacionales Sandia y el
Departamento de Ingeniería y Ciencias de la Computación de la Universidad del
sur de Florida. Cada estudio contiene dos imágenes de cada seno junto con
información asociada a la edad del paciente, clasificación de densidad mamaria,
clasificación de anomalías, además, las imágenes que contienen áreas
sospechosas tienen asociada información básica a nivel de pixel sobre las
ubicaciones y los tipos de regiones sospechosas (Mammographic Image, 2011).
La ilustración 18 muestra un ejemplo de este dataset.
Ilustración 18: Ejemplo del caso Case C-0071-1 de la base de datos DDSM
Fuente: tomado de Mammographic Image (2011).
 Base de datos INbreast:
La base de datos INBreast contiene 411 imágenes de 115 casos, de los cuales 90 casos
son de mujeres con sus dos senos afectados (cuatro imágenes por caso) y 25 casos son
de pacientes mastectomizadas (dos imágenes por caso). Se muestran varios tipos de
lesiones como masas, calcificaciones, asimetrías y distorsiones.
A continuación, en la tabla 5 se evidencia un resumen enfocado en las fortalezas y
limitación de algunas bases de datos.
53

Tabla 5: Resumen de fortalezas y limitaciones de las bases de datos: DDSM, IRMA,
INbreast, MIAS y BCDR

Fuente: elaboración propia.
Una vez revisada la bibliografía, se eligieron dos bases de datos: Inicialmente se probó
el sistema con la base de datos mini-MIAS, este contiene un archivo plano con
información detallada de cada imagen, permitiendo un mejor análisis de estas en
comparación con las otras bases de datos en las que son necesarias varias conversiones
y más espacio en la memoria. Es importante aclarar que las imágenes de la base de
datos mini-MIAS vienen dadas en un formato “pgm” por lo que fue necesario convertirlas
a un formato “png” para su previa visualización. Posteriormente se elige la base de datos
INbreast con el objetivo de tener más imágenes para hacer más preciso el sistema. Las
Bases de datos Fortalezas Debilidades Tamaño
Gran base de datos
ampliamente utilizada
No tiene un formato estandar
Lesiones de diferentes
tamaños
La posicion de las lesiones
no es precisa
Posición precisa de las
lesiones
Alta resolución
Posicion preciosa de las
lesiones
Tamaño limitado
Variaciones de forma
limitadas en imágenes con
masas
Base de datos antigua
Se sigue utilizando
ampliamente en la
actualidad
Tamaño limitado
Diferentes resoluciones Imágenes con baja resolucion
Posición precisa de las
lesiones
Formato estandar
Aun está en fase de
desarrollo
322 imágenesMIAS
BCDR Tamaño limitado 1734 casos
DDSM 2620 casos
IRMA No tiene un formato estandar 12677 imágenes
Formato estandar
Inbreast 410 imágenes
54

imágenes de la base de datos INbreast vienen dadas en un formato “dcm” así que al igual
que la base datos anterior fue necesario convertirlas en un formato “png”. A diferencia de
la anterior las imágenes de esta base de datos tienen mejor calidad en cuanto a un borde
y anomalías un poco más visibles como se puede observar en la ilustración 19.
Ilustración 19: Ejemplo de cuatro casos encontrados en la base de datos INbreast
Fuente: INbreast (2022).
En menos del 10% de los casos, se evidenciaron varias calcificaciones desplegadas por
toda la imagen, por lo que fue necesario omitir la información de la quinta a la sexta
columna.
Por términos de precisión del modelo fue necesario incluir algunas imágenes de un tercer
dataset llamado DDSM con el fin de equilibrar la base de datos para el sistema propuesto
como se muestra en el histograma de la ilustración 20.
Teniendo en cuenta que las características encontradas en las tres bases de datos son
diferentes, se tienen en cuenta solo cuatro categorías en común:
 BENIGNE MASSES: Imágenes con masas benignas
 CALC: Mamografías con microcalcificaciones o calcificaciones en general.
 MALIGNANT MASSES: Aquí se encuentra mamografías con masas malignas
 NORM: Imágenes normales o sanas.
55

Ilustración 20: Histograma de frecuencia categorías para las cuatro categorías
Fuente: elaboración propia.
Las bases de datos MiniMIAS y INBreast cuentan con pocas imágenes de la categoría
“distortion” (como las que se muestran en la ilustración 21) y “masamicro” por lo que fue
necesario omitirlas.
Ilustración 21: Categoría Distorsión en la base de datos INBreast

Fuente: INbreast (2022).
5.4 Preprocesamiento digital de imágenes
Primero, se descargaron los archivos de cada una de las bases de datos previamente
mencionadas (MAMMOGRAPHIC IMAGE ANALYSIS HOMEPAGE → MIAS
MiniMammographic Database), (KAGGLE → INBreast dataset) y (KAGGLE → DDSM
56

dataset), para posteriormente realizar la conversión manual del formato original a “.png”
en los dos primeros datasets.
Ahora bien, la etapa de preprocesamiento de los datos estuvo constituida por dos fases
descritas a continuación:
El primer paso fue crear un Notebook de Jupyter, que permite trabajar con código Python,
importar las librerías necesarias y ejecutar el programa escrito para procesar las
imágenes, aquí se aplican los filtros: erosión y dilatación,