Logo Studenta

Detección de datos anómalos

¡Este material tiene más páginas!

Vista previa del material en texto

SISTEMA PARA LA DETECCIÓN Y CLASIFICACIÓN DE ANOMALÍAS EN 
MAMOGRAFÍAS DIGITALES BASADO EN APRENDIZAJE PROFUNDO 
 
 
 
 
 
 
 
 
VALENTINA ARCINIEGAS SOLARTE 
 
 
 
 
CORPORACIÓN UNIVERSITARIA AUTÓNOMA DEL CAUCA FACULTAD DE 
INGENIERÍA 
PROGRAMA DE INGENIERÍA ELECTRÓNICA POPAYÁN- CAUCA 
2022 
2 
 
 
SISTEMA PARA LA DETECCIÓN Y CLASIFICACIÓN DE ANOMALÍAS EN 
MAMOGRAFÍAS DIGITALES BASADO EN APRENDIZAJE PROFUNDO 
 
 
 
 
VALENTINA ARCINIEGAS SOLARTE 
 
 
TRABAJO DE GRADO PARA OPTAR AL TITULO DE INGENIERA ELECTRÓNICA 
 
 
DIRECTORA ACADÉMICA: ING. GLORIA LILIANA MUÑOZ 
 
 
 
CORPORACIÓN UNIVERSITARIA AUTÓNOMA DEL CAUCA FACULTAD DE 
INGENIERÍA 
PROGRAMA DE INGENIERÍA ELECTRÓNICA MODALIDAD MONOGRAFÍA 
POPAYÁN – CAUCA 2022 
3 
 
 
NOTA DE ACEPTACION 
Aprobado por el Comité de grado en cumplimiento con los requisitos exigidos por la 
Corporación Universitaria Autónoma del Cauca para optar al título de Ingeniera 
Electrónica. 
 
 
 
____________________________ 
Directora 
Mg. Gloria Liliana Muñoz 
 
 
____________________________ 
Jurado 
Ph. D Pablo Eduardo Caicedo 
 
 
____________________________ 
Jurado 
Mg. Yamir Hernando Bolaños 
4 
 
AGRADECIMIENTOS 
 
Primero que todo, agradezco a Dios por brindarme fortaleza y perseverancia a lo largo 
de este trayecto, por tantas bendiciones, oportunidades y personas que ha puesto en mi 
camino. 
A mi hijo Juan Esteban por ser la principal motivación en mi vida, gracias por tu paciencia 
y comprensión. 
A mi padre, madre y hermana, por ser las personas que impulsan mis sueños, gracias 
por confiar y creer en mí, gracias por su amor y por brindarme siempre palabras de aliento 
para seguir adelante y nunca rendirme, gracias por siempre anhelar lo mejor para mí, 
ustedes son mi motor. 
A mi abuela Doris, por ponerme siempre en sus oraciones. 
A mi pareja quien ha sido una persona muy importante en mi vida y en este proyecto, 
gracias por tus palabras, por tu apoyo, por enseñarme a creer a mí y en mis capacidades, 
sin ti no hubiera sido posible. 
Debo agradecer de manera especial y sincera a la Ingeniera Gloria, por ser un ángel en 
mi camino, gracias por aceptarme para realizar este trabajo bajo su dirección, gracias 
porque desde el día uno me dio su apoyo y confianza para empezar mi proyecto de grado 
y culminarlo con éxito. Gracias por su disposición, paciencia y su valioso 
acompañamiento en esta etapa. 
A la Universidad Autónoma, al ingeniero Juan Pablo Diago y a los demás profesores que 
compartieron su conocimiento con nosotros sus estudiantes, los admiro y los llevo 
siempre en mi corazón. 
Por último, gracias a mis compañeros y hoy colegas, un placer compartir esta experiencia 
con ustedes. 
 
Valentina Arciniegas Solarte 
5 
 
DEDICATORIA 
 
Dedico con todo mi corazón el presente trabajo a mi hijo Juan Esteban, todo este esfuerzo 
ha sido por ti y tu bienestar. De igual manera, se lo dedico a mis padres, espero que se 
sientan orgullosos de mí. 
 
Valentina Arciniegas Solarte
6 
 
CONTENIDO 
1. INTRODUCCIÓN .................................................................................................... 14 
2. IDENTIFICACIÓN DEL PROBLEMA ...................................................................... 16 
2.1 Planteamiento del problema ................................................................................... 16 
2.2 Formulación del problema ...................................................................................... 17 
3. OBJETIVOS ........................................................................................................... 18 
3.1 Objetivo general...................................................................................................... 18 
3.2 Objetivos específicos ............................................................................................... 18 
4. METODOLOGÍA ....................................................................................................... 19 
4.1 Marco referencial y estado del arte ......................................................................... 19 
4.1.1 Diagnostico asistido por computadora (CAD).................................................... 19 
4.1.2 La inteligencia artificial en el análisis de mamografías digitales ........................ 20 
4.1.3 Deep Learning, una revolución .......................................................................... 22 
4.1.4 Resultados de la inteligencia artificial en la medicina…………………………….25 
4.2 Marco conceptual ................................................................................................... 27 
4.2.1 Cáncer de mama: definición y generalidades .................................................... 27 
4.2.2 Exámenes de detección .................................................................................... 29 
4.3 Parámetros morfológicos ........................................................................................ 31 
4.3.1 El sistema linfático del seno .............................................................................. 31 
4.3.2 Calcificaciones mamarias .................................................................................. 32 
4.4 Técnicas de aprendizaje ......................................................................................... 37 
7 
 
4.4.1 Sistemas CAD ................................................................................................... 37 
4.4.2 Inteligencia artificial ........................................................................................... 37 
4.4.3 Aprendizaje de maquina o Machine Learning .................................................... 37 
4.4.4 Tipos de algoritmos de Machine Learning ......................................................... 38 
4.4.5 Deep Learning ................................................................................................... 39 
4.4.6 Aprendizaje por transferencia ............................................................................ 43 
4.4.6.1 Imagenet ........................................................................................................ 44 
4.5 Técnicas de preprocesamiento de imágenes digitales ........................................... 44 
4.5.1 Imagen digital .................................................................................................... 44 
4.5.2 Técnicas de preprocesamiento.......................................................................... 44 
4.6 Morfología matemática ........................................................................................... 45 
4.6.1 Dilatación .......................................................................................................... 45 
4.6.2 Erosión .............................................................................................................. 45 
5. DESARROLLO DE LA INVESTIGACIÓN ............................................................... 47 
5.1 Infraestructura tecnológica del sistema ................................................................... 47 
5.2 Agrupación de las imágenes................................................................................... 48 
5.3 Adquisición de imágenes ........................................................................................ 48 
5.4 Preprocesamiento digital de imágenes ................................................................... 53 
5.5 Adaptación de los datos para el entrenamiento ...................................................... 55 
5.6 Diseño de la red neuronal convolucional ................................................................ 55 
5.7 Evaluación del modelo ............................................................................................ 58 
8 
 
6. ANÁLISIS DE RESULTADOS ................................................................................ 606.1 Pruebas para el 70% entrenamiento y 30% prueba: ............................................... 60 
6.2 Pruebas para el 80% entrenamiento y 20% prueba: ............................................... 67 
6.3 Pruebas para el 60% entrenamiento y 40% prueba: ............................................... 69 
7. CONCLUSIONES ................................................................................................... 71 
8. TRABAJOS FUTUROS .......................................................................................... 73 
9. BIBLIOGRAFIA…………………………………………………………………………74 
9 
 
LISTADO DE ILUSTRACIONES 
Ilustración 1: Diferencias entre IA, ML y DL .................. Error! Bookmark not defined. 
Ilustración 2: Comparación entre una neurona en nuestro cerebro y una neurona artificial
 ........................................................................................ Error! Bookmark not defined. 
Ilustración 3: Ejemplos de imágenes mamográficas.................................................... 30 
Ilustración 4: Estructura de un seno sano ................................................................... 32 
Ilustración 5: Tipos de distribución de calcificaciones ................................................. 34 
Ilustración 6: Quistes ................................................................................................... 34 
Ilustración 7: Visualización de un fibroadenoma en una mamografía digital ............... 35 
Ilustración 8: Parametros morfologicos identificados en el datasetError! Bookmark not 
defined. 
Ilustración 9: Diagrama que ilustra la relación entre diferentes métodos y algoritmos de 
IA ................................................................................................................................... 38 
Ilustración 10: Jerarquía del ML .................................................................................. 39 
Ilustración 11: Analogía entre neurona biológica y neuronal artificial .......................... 40 
Ilustración 12: Esquema de una red neuronal ............................................................. 41 
Ilustración 13: Estructura de una red neuronal convolucional ..................................... 42 
Ilustración 14: Convolución ......................................................................................... 42 
Ilustración 15: Dilatación ............................................................................................. 45 
Ilustración 16: Erosión ................................................................................................. 46 
Ilustración 17: Ejemplo de dos casos encontrados en la base de datos MIAS............ 49 
Ilustración 18: Ejemplo del caso Case C-0071-1 de la base de datos DDSM ............. 50 
Ilustración 19: Ejemplo de cuatro casos encontrados en la base de datos INbreast ... 52 
Ilustración 20: Histograma de frecuencia categorías para las cuatro categorías ........ 53 
Ilustración 21: Categoría Distorsión en la base de datos INBreast ............................. 53 
Ilustración 22: Comparación de la imagen original vs imagen erosionada .................. 54 
Ilustración 23: Imagen dilatada .................................... Error! Bookmark not defined.5 
Ilustración 24: Categorización de imágenes mamográficas para el modelo propuesto56 
Ilustración 25: Modelo de la red neuronal convolucional propuesto ............................ 57 
Ilustración 26: Ejemplo de los resultados obtenidos con una red neuronal convolucional 
usando imágenes sin procesar ...................................................................................... 60 
10 
 
Ilustración 27: Modelo de la red neuronal convolucional propuestaError! Bookmark 
not defined.1 
Ilustración 28: Ejemplo de los resultados obtenidos con una red neuronal convolucional 
usando imágenes procesadas ....................................................................................... 61 
Ilustración 29: Matriz de confusion del modelo propuesto ........................................... 62 
Ilustración 30: Resultados con la arquitectura VGG16 (caso 1) en cada epoca .......... 65 
Ilustración 31:Matriz de confusion VGG16 (caso 1) ...... Error! Bookmark not defined. 
Ilustración 32: Resultados con la arquitectura VGG16 (caso 2) en cada epoca .......... 66 
Ilustración 33: Resultados con la arquitectura ResNet ................................................ 67 
Ilustración 34: Matriz de confusion prueba 80-20 ........ Error! Bookmark not defined.8 
Ilustración 35: Matriz de confusion prueba 60-40 .......... Error! Bookmark not defined. 
 
11 
 
 LISTADO DE TABLAS 
Tabla 1: Tasa de supervivencia para cada estadio ....................................................... 29 
Tabla 2: Sensibilidad y especificidad de diferentes técnicas de imágenes en cáncer de 
mama ............................................................................................................................ 31 
Tabla 3: Comparacion lenguajes de programacion para proyectos de Machine Learning 
 ...................................................................................................................................... 48 
Tabla 4: Resumen datasets escogidos para el sistema ............................................... 49 
Tabla 5: Resumen de fortalezas y limitaciones de las bases de datos: DDSM, IRMA, 
INbreast, MIAS y BCDR ................................................................................................ 52 
Tabla 6: Resumen matriz de confusion ........................................................................ 62 
Tabla 7: Relacion folds y epochs validacion K-folds ..................................................... 64 
Tabla 8: Resumen comparativo metricas de evaluacion............................................... 70 
 
 
12 
 
RESUMEN 
La mamografía es el principal instrumento para la detección de anomalías mamarias 
como quistes, fibroadenomas, calcificaciones, masas y cáncer de seno, sobre todo para 
su detección en etapas tempranas. Sin embargo, existe la posibilidad de que se realicen 
diagnósticos erróneos y tratamientos invasivos innecesarios, debido a que este tipo de 
lesiones son difíciles de detectar. Este documento introduce un sistema basado en 
aprendizaje profundo utilizando redes neuronales convolucionales para la detección y 
clasificación de anomalías en mamografías digitales en aras de servir de apoyo en la 
toma de decisiones del personal encargado. El sistema fue entrenado y probado con 
imágenes mamográficas de las bases de datos mini- MIAS, INbreast y DDSM, 
clasificándolas como “masas malignas”, “masas benignas”, “calcificaciones” y “normales”. 
El sistema fue evaluado en cuanto a su precisión comparado con el comportamiento con 
las arquitecturas VGG16 y ResNet. Se obtuvo una exactitud general del 83,1%. 
 
Palabras claves: aprendizaje profundo, redes neuronales convolucionales, cáncer de 
seno, anomalías mamarias, mamografía digital, redes neuronales, mini-Mias, INbreast, 
DDSM. 
13 
 
ABSTRACT 
Mammography is the main instrument for breast anomaly detection such as cysts, 
fibroadenomas, calcifications, masses, and cancer, especially for its early detection. 
However, there is the possibility to make a wrong diagnosis and unnecessary invasive 
treatments because these types of injuries are difficult to detect. This document we 
introduce a deep learning-based system using convolutional neural networks for the 
detection and classification of abnormalities in digital mammograms to support the 
decision making of the personnel in charge. The system was trained and tested with 
mammographic images from the mini-MIAS, INbreast and DDSM databases, classifying 
them as "malignant masses", "benign masses", "calcifications" and "normal". The system 
was evaluated for accuracy compared to performance with the VGG16 and ResNet 
architectures. An overall accuracyof 83.1% was obtained. 
 
Keywords: deep learning, convolutional neural network, breast cancer, breast anomalies, 
digital mammography, neural networks, mini-MIAS, INbreast, DDSM. 
14 
 
1. INTRODUCCIÓN 
Para iniciar, es importante mencionar que hoy en día el cáncer mamario es el factor 
principal de muertes en mujeres a nivel mundial y la forma más efectiva de combatir esta 
enfermedad es su detección temprana e inmediato tratamiento (Edición Médica, 2020). 
En promedio, los pacientes son diagnosticados a partir de los 50 años o más, sin 
embargo, hay evidencias de que la enfermedad se puede desarrollar en edades más 
tempranas. Es aquí donde cobra relevancia el autoexamen mamario y el examen 
mamográfico a partir de los 40 años. 
El cáncer de seno suele presentarse inicialmente por diferentes anomalías mamarias 
como masas y quistes, entre otras, que al ser detectadas deberán confirmarse por medio 
de un examen a detalle como ecografías, resonancia magnética de mama o biopsias, 
posterior a esto, dichas anomalías son clasificadas de acuerdo con la etapa en la que se 
encuentren, para dar el debido tratamiento. (Mass General Cancer Center, s.f.). La 
mamografía resulta ser la técnica más efectiva para el diagnóstico de anomalías 
mamarias (Guerrero, 2011). 
En ese sentido y con el fin de facilitar la detección, diagnóstico y tratamiento del cáncer 
mamario a partir de análisis de mamografías, muchos investigadores han propuesto 
diferentes métodos computacionales de detección automática de anomalías que gracias 
al desarrollo tecnológico y los avances en esta área a lo largo de las últimas tres décadas, 
pueden ser complementados o apoyados por diferentes sistemas, como por ejemplo los 
sistemas de detección y diagnostico asistido por computador CAD1, al igual que la 
creación de diversos algoritmos de clasificación y detección basados en Aprendizaje 
Profundo (o Deep Learning: DL2), subconjunto del Aprendizaje de Maquina (o Machine 
Learning ML3) que a su vez es una rama de la Inteligencia Artificial (IA). 
 
 
1 CAD: por sus siglas en inglés Computer Aided Diagnosis; CADe: detección y CADx: Diagnóstico 
2 DL por sus siglas en inglés Deep Learning. 
3 ML por sus siglas en inglés Machine Learning. 
15 
 
Por otra parte, uno de los mayores inconvenientes de los sistemas CAD, en la actualidad, 
es su baja capacidad para diferenciar algunas anomalías, como microcalcificaciones en 
el tejido normal (Yébenes Calvo, 2016), lo cual aumenta los resultados de falsos positivos 
y las posteriores consecuencias que esto conlleva, como, por ejemplo, biopsias 
innecesarias, tiempo y recursos económicos. Por ende, el objetivo del presente trabajo 
es contribuir con las investigaciones en torno a algoritmos de IA, específicamente en el 
campo de DL, que busca reducir el porcentaje de estos resultados equivocados y 
contribuir con el desarrollo de esta línea brindando nuevos datos mediante un sistema de 
clasificación y detección automática de anomalías asociadas al cáncer de mama en 
mamografías digitales y eficientes para asistir en la toma de decisiones al personal 
experto de la salud. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
16 
 
2. IDENTIFICACIÓN DEL PROBLEMA 
En este apartado se presenta y se explica el problema que se desea abordar en esta 
monografía. 
2.1 Planteamiento del problema 
Teniendo en cuenta que el cáncer se ha convertido en uno de los factores principales de 
mortalidad en el mundo, especialmente en mujeres, donde el cáncer de mama es el más 
común al contar con aproximadamente 2,26 millones de nuevos casos y una cifra de 
685.000 fallecimientos en el 2020 (Organización Mundial de la Salud, 2022). 
En el contexto colombiano, se presentan 182 casos de cáncer por 100.000 habitantes de 
los cuales 34 son cáncer de mama (Ministerio de Salud y Protección Social, 2021). Entre 
enero del 2021 y agosto del 2022 se detectaron más de 14000 casos de cáncer de seno 
en mujeres en un rango de edad de 49 a 68 años (Cuenta de alto costo, s.f.). 
Ahora bien, es de mencionar que el cáncer de mama es una patología que se produce 
por mutaciones en el ADN provocando que las células mamarias normales se vuelvan 
cancerosas. Como en todos los tipos de cáncer, el comportamiento de las células cambia: 
las células dañadas dejan de morir y se multiplican sin necesidad, algunas veces 
generando tumores y tejidos extraños (Instituto Nacional del Cáncer, 2021). En algunos 
casos, el cáncer de seno puede ser hereditario y en otras ocasiones, adquirido en el 
transcurso de la vida (American Cancer Society, 2019) y su diagnóstico a tiempo y 
tratamientos cada vez más efectivos reducen en gran medida las tasas de mortalidad de 
quienes lo padecen. 
En ese sentido, las mamografías resultan ser el método más efectivo para diagnóstico 
del cáncer de seno; los radiólogos estudian estas imágenes médicas para detectar la 
presencia de lesiones (anomalías) con características muy específicas que se clasifican 
en dos tipos: grupos de calcificaciones y regiones de tejidos suaves (masas, 
asimetrías y distorsiones estructurales). Las calcificaciones varían de forma y tamaño 
generando un biomarcador eficaz para determinar la malignidad o no de la lesión y a 
pesar de ser muy pequeños poseen alto contraste. 
Por otra parte, es importante tener en cuenta que los tejidos suaves son de diferentes 
formas y tamaños y no siempre fáciles de detectar, por lo cual una forma de determinar 
17 
 
una anomalía es mediante el análisis periódico de mamografías y la detección de cambios 
con el tiempo (generalmente crecimiento). Por esto se vuelve relevante la revisión de 
imágenes previas durante el diagnóstico, lo cual lo convierte en un proceso que requiere 
de tiempo y de un análisis riguroso. 
En consecuencia, tanto la falta de síntomas en etapas tempranas del cáncer de mama, 
como también el alto volumen de exámenes por un profesional de salud idóneo para 
estos casos como es el radiólogo, afectan en gran medida la confiabilidad de los 
diagnósticos finales, conduciendo así a los denominados falsos positivos o falsos 
negativos, generando para el primer caso la realización de exámenes posteriores 
innecesarios y para el segundo caso, en muchas ocasiones se compromete la vida del 
paciente, lo cual es posible evidenciarlo a partir del estudio realizado por Hubbard, 
Kerlikowske, Flowers y otros (2012) donde se menciona que: el 50% de mujeres, en 
Estados Unidos, que se han hecho mamografías anuales por 10 años, han sido 
examinadas de nuevo por un falso positivo, lo cual se traduce en incremento de biopsias 
benignas, aumento de gastos y efectos psicológicos negativos en las pacientes 
afectadas. La ocurrencia de falsos negativos también se presenta, aunque en menor 
proporción 1 a 1.5 por cada 1000 mujeres en Estados Unidos. 
Sin embargo, a pesar de estas cifras la mamografía diagnóstica sigue siendo el 
procedimientos o técnica preferencial tanto para la evaluación de cáncer de mama, como 
para el estudio en técnicas para mejorar su eficacia y reducir las tasas de falsos positivos 
y negativos es un área abierta de investigación. 
Por otra parte, los sistemas de detección asistida por computador (CAD), que son muy 
comunes en el proceso de investigación del cáncer de mama, permiten marcar áreas 
sospechosas de lesión, alertando al especialista sobre la necesidad de evaluarlas, 
brindando una ayuda en la interpretación y diagnóstico de diferentes casos, que en 
principio podrían ser desafiantes para el experto. Aunque, en principio, los sistemas CAD 
sirven de apoyo en el diagnóstico temprano de cáncer de seno, su alta tasa de resultados 
falsos positivos, por imagen analizada, resultan en una etapa de revisión adicional y 
muchos expertos han optado por su no utilización (Rios, 2014). 
Del mismo modo, otro aporte importante para la investigación en el área del cáncer de 
mama es el surgimiento de la Inteligencia Artificial(I.A), debido a que ha cobrado gran 
18 
 
importancia en el campo del análisis y clasificación de imágenes médicas, como 
mamografías, ya que a través del aprendizaje la maquina es capaz de tomar decisiones 
basadas en el estudio de un gran número de datos categorizados, utilizando algoritmos 
de clasificación. El DL es una derivación del ML que hace una interpretación más 
profunda al contar con diferentes capas, configuradas de manera específica de acuerdo 
con la necesidad y el diseño del modelo, que segregan y manejan la información, 
permitiéndoles un análisis de los datos a un alto nivel de abstracción para mejorar la 
precisión de su predicción (Arrabares, 2016). 
2.2 Formulación del problema 
Teniendo en cuenta lo mencionado anteriormente, se plantea la siguiente pregunta de 
investigación ¿En qué medida un sistema basado en aprendizaje profundo podría asistir 
de manera efectiva al especialista en el análisis de mamografías digitales? 
19 
 
3. OBJETIVOS 
3.1 Objetivo general 
Implementar un sistema para la asistencia en el diagnóstico de cáncer de seno basado 
en mamografías digitales haciendo uso de un modelo de aprendizaje profundo. 
3.2 Objetivos específicos 
1. Identificar los principales parámetros morfológicos en mamografías 
digitales para el diagnóstico de cáncer de seno. 
2. Evaluar diferentes métodos de aprendizaje profundo con el fin de identificar el más 
adecuado para el sistema propuesto. 
3. Diseñar un algoritmo, basado en aprendizaje profundo, para la clasificación de 
lesiones en mamografías digitales. 
4. Validar el desempeño del modelo propuesto a partir de uno o varios métodos de 
validación. 
20 
 
4. METODOLOGÍA 
4.1 Marco referencial y estado del arte 
Diversos métodos de Inteligencia Artificial (A.I) para la predicción y el diagnóstico de 
enfermedades han sido propuestos por un gran número de investigadores. En ese 
sentido, mediante una revisión exhaustiva de la literatura existente sobre el tema de 
interés de la presente monografía, se logró recolectar evidencia tanto de la evolución 
cómo del panorama actual de la inteligencia artificial y de las oportunidades que hay en 
el futuro próximo en el campo de la detección automática o asistida de cáncer de seno 
mediante análisis de imágenes. 
Por ende, las investigaciones analizadas, brindan una gran cantidad de información 
valiosa, la cual será tomada como un importante punto de partida para implementar el 
modelo propuesto para la detección y clasificación de anomalías. Los artículos 
seleccionados como referentes para esta investigación se muestran a continuación: 
4.1.1 Diagnostico asistido por computadora (CAD) 
Con la llegada de la digitalización de las imágenes, fue posible la investigación centrada 
en el uso de computadoras para asistir en la interpretación de mamografías digitales 
(Ulissey, 2001). Dos de las categorías desarrolladas a inicios del 2000 fueron los sistemas 
de detección asistida por computador (CADe) y diagnóstico asistido por computador 
(CADx) (Samet & Tahmoush, 2006). 
El primero tiene por objetivo localizar lesiones sospechosas (masas o calcificaciones) y 
se basa en tres etapas: i) normalizar la imagen a una distribución de intensidad de 
referencia o procesar la imagen para mejorar la detección ii) identificar áreas 
sospechosas y iii) reducir el número de regiones sospechosas basados en evaluación de 
probabilidades (Kim, 2020). Además, los algoritmos CADx también hacen una estimación 
de malignidad o benignidad de una lesión ya detectada, por lo tanto, su enfoque es hacia 
un paso final de un proceso CADe. 
Es así como, la principal diferencia entre los algoritmos CAD (CADe/CADx) y los 
algoritmos basados en inteligencia artificial, es que estos últimos se programan para 
buscar características previamente identificadas como lesiones sospechosas por 
21 
 
humanos, características entrenadas en el algoritmo (Sechopoulos, Teuwen, & Mann, 
2020). 
Por su parte, en Karssemeijer y Van (2007), se realiza un trabajo en el cual implementan 
un algoritmo de detección de lesiones en dos vistas diferentes del mismo seno y lo 
incorporan en un sistema CAD previamente desarrollado incrementando su desempeño 
en cuanto a sensibilidad a falsos positivos, y en este mismo sentido el autor Samet (2006) 
propuso algoritmos para determinar asimetrías entre dos vistas de los dos senos, 
resultando en mejoras en el desempeño de sistemas CADe. 
Ahora bien, en la práctica actual las mamografías deben primero ser evaluadas de 
manera habitual por el radiólogo y posteriormente las marcas detectadas por el sistema 
CAD se deben desplegar, de esta forma el experto revisa los resultados del sistema CAD 
y valora su pertinencia como en (Castellino, 2005) y después de años de uso clínico, el 
análisis a gran escala en retrospectiva del impacto de estos sistemas ha mostrado que 
los beneficios esperados de los sistemas CAD no se materializaron y las mejoras se 
presentaron solo para ciertos casos muy específicos a un alto costo comercial (Lehman, 
Wellman, Buist, Kerlikowske, & Miglioretti, 2015), siendo su mayor problema detectar 
falsos positivos, mejorando solo en algunos casos si se incluye la probabilidad de cáncer 
por edad. 
Por ende, debido a lo mencionado anteriormente, se han derivado muchas 
investigaciones que buscan algoritmos que realmente asistan a los profesionales, 
buscando reducir su carga y asegurando altos niveles de confiabilidad. 
4.1.2 La inteligencia artificial en el análisis de mamografías digitales 
El campo de la inteligencia artificial (IA) ha adquirido gran importancia en sectores como 
la medicina, representando una novedosa alternativa que puede reducir costos, tiempo y 
errores médicos (Exposito & Avila, 2008). Uno de los principales objetivos de la IA en el 
estudio de las mamografías es reducir la carga de trabajo ayudando a acelerar la 
interpretación de casos más notorios para que los radiólogos puedan concentrarse en los 
casos que más requieren asistencia. 
En Zeng (2019) se muestra un enfoque diferente para el análisis de mamografías basado 
en una red bayesiana probabilística. Plantea clasificar las lesiones como un hallazgo 
22 
 
positivo o negativo, los rangos establecidos por cada radiólogo suelen ser subjetivos, por 
lo tanto, si un radiólogo establece su propio umbral, este puede ayudar a reducir las 
lecturas erróneas. Este método, muestra como la IA puede respaldar las decisiones de 
los radiólogos, además demostró una reducción de 28.9% de falsos positivos. 
El estudio publicado por Pawlovskyy Nagahashi (2014) propone aplicar el método de K-
Nearest Neighbours para el pronóstico de cáncer de mama basado en Machine Learning 
y a su vez un método para seleccionar una buena configuración con los parámetros que 
se pueden cambiar al usar este método de clasificación. Para comprobar su 
funcionamiento usaron los datos de pronóstico de cáncer de seno de Wisconsin 
obteniendo una precisión del 76%. 
Otro artículo que destaca herramientas útiles de Machine Learning es el publicado por 
Gupta Madhuri y Gupta Bharat en (2018), en el cual se propone un método con mayor 
acierto que los usados convencionalmente para la clasificación individual. Este método 
utiliza cuatro herramientas de Machine Learning: Support Vector Machine, Logistic 
Regression, Decision Tree y k-Nearest Neighbours (kNN). Los resultados muestran que 
el modelo es más preciso en contraste con el sistema de clasificación único tradicional, 
en este trabajo se utiliza el modelo SLSQP4 para asignarle un peso a cada modelo de 
clasificación y la predicción de cada clasificador se combina mediante la técnica de 
votación suave. 
En (Pedraza, 2015) se realiza la implementación de técnicas de Machine Learning para 
el entrenamiento de clasificadores para la identificación asistida de lesiones tumorales en 
imágenes médicas; el algoritmo diseñado tiene como objetivo detectar la presenciao la 
ausencia de microcalcificaciones malignas en las mamas, obteniendo una tasa de falsos 
positivos máxima de diez por imagen con los métodos de clasificación: regresión logística 
y redes neuronales. Además, se diseñó y se implementó una aplicación que permite al 
usuario cargar una imagen mamográfica, ejecutar el algoritmo de detección y obtener el 
resultado de este. 
En ese sentido, según el analista de tecnologías Cel Dilmegani los principales usos de la 
Inteligencia Artificial en la medicina según Dilmegani (2020) son: 
1. Revelar anomalías cardiovasculares. 
23 
 
2. Predicción de enfermedades como el Alzheimer. 
3. Detección de cáncer de mamá, tumores cerebrales, etc. 
4. Revalorización del tratamiento. 
5. Planificación quirúrgica. 
4.1.3 Deep Learning, una revolución 
La introducción de redes neurales convolucionales de aprendizaje profundo (CNNs) en 
imágenes en el año 1980 (Pathak, 2022) por un investigador postdoctoral, ha generado 
una revolución en la potencial interpretación asistida por computador; una falla común es 
referirse a inteligencia artificial (IA) y aprendizaje profundo casi indistintamente. Sin 
embargo, estos términos no son sinónimos, la ilustración 1 muestra algunas diferencias 
de IA, ML y Dl; La IA hace referencia a cualquier aplicación o programa computacional 
que trabaja de forma automática, no es un término nuevo, fue introducido por un científico 
informático llamado John McCarthy (Gruson, Helleputte, Rousseau, & Gruson, 2019), 
dentro de la IA se encuentra el aprendizaje de máquina, que a su vez incluye el 
aprendizaje profundo del cual, finalmente, las CNN son solo un subconjunto (Lecun, 
Bengio, & Hinton, 2015). 
Ilustración 1: Diferencias entre IA, ML y DL 
Fuente: Adaptada de Gruson, Helleputte, Rousseau y Gruson (2019). 
4 SLSQP: Sequential Least Squares Programming Method 
24 
 
Es importante mencionar que, las CNN de aprendizaje profundo implican el 
procesamiento de una imagen mediante etapas múltiples y secuenciales, llamadas 
capas, con muchas capas ocultas agrupadas una tras otra, durante este proceso de 
múltiples etapas, la información se divide en diferentes representaciones, y la convolución 
de estas representaciones (más simples hasta las más abstractas) da como resultado la 
capacidad de la red para reconocer la imagen con precisión, similar al comportamiento 
de las neuronas del cerebro humano, su similitud se muestra en la ilustración 2. 
Ilustración 2: Comparación entre una neurona en nuestro cerebro y una neuronal 
artificial 
 
Fuente: Gruson, Helleputte, Rousseau y Gruson (2019). 
Es así como, el primer impacto de CNN de aprendizaje profundo fue con la 
implementación presentada por equipo Supervisión de la universidad de Toronto en el 
reto ImageNet del 2012 (Deng, Berg, Satheesh, Khosla, & Fei-Fei, 2015), desde entonces 
esta tecnología ha estado en la mira de muchos investigadores en el ámbito de 
clasificación de imágenes. 
Por otra parte, los algoritmos diseñados con IA para detección de cáncer de mama, al 
igual que otras patologías, se diferencian de los sistemas CAD convencionales en donde 
las características, que indican una lesión, son determinados por ellos mismos durante 
su entrenamiento y no impuestas por el programador humano. Un aspecto que simplifica 
la detección de cáncer de mama, a diferencia de otros, es que su determinación es 
directa, es decir o existe una lesión maligna o benigna o no existe lesión, así, los sistemas 
de CNN de aprendizaje profundo tratan de determinar la existencia o no de lesiones para 
determinar si el paciente requiere exámenes adicionales. 
25 
 
Los desarrollos presentados, generalmente hacen diferentes algoritmos de 
reconocimiento para los distintos tipos de características que indican lesión (masas de 
tejido blando, calcificaciones, fibroadenomas, quistes, etc.). De igual manera, los autores 
Lotter, Sorensen y Cox (2017) en su investigación, hacen un algoritmo de dos etapas: 
primero entrenan un clasificador de parches basado en CNN usando máscaras de 
segmentación de lesiones mamográficas, luego usan la función aprendida para inicializar 
un modelo basado en escaneo que toma decisiones sobre imágenes completas, 
entrenadas de extremo a extremo en los datos resultantes, para los dos tipos de lesiones 
estudiadas: calcificaciones y masas, (Kim, 2020) utilizan una sola etapa de entrenamiento 
con CNN sin ninguna característica definida, mostrando resultados pero con un dataset 
no universal. 
Del mismo modo, Wang (2016) utiliza una aproximación que inicialmente determina 
separadamente las microcalcificaciones y las masas de tejido blando, donde las primeras 
tuvieron mayor exactitud de detección, mientras que haciendo un sistema combinado 
posterior obtuvieron mejora en los dos tipos de lesiones. 
Por otra parte, se encuentran sistemas que combinan la etapa de selección de 
características de los sistemas CAD tradicionales con algoritmos CNN para mejorar la 
exactitud y la reducción de falsos positivos, en este camino se encuentran los trabajos 
del autor Kooi (2017) y del autor Samala (2016) que muestran que los algoritmos de la 
siguiente generación que utilizan la información de ambos modelos pueden incrementar 
la exactitud. 
Del mismo modo, está el trabajo de Rodríguez y otros (2019) en sonde utilizan un sistema 
de DL comercial (“Transpara 1.4.0, Screenpoint Medical BV”) para estudiar la viabilidad 
de identificar automáticamente las imágenes, con el fin de reducir la carga de trabajo de 
lectura de detección, los exámenes se dividieron en grupos de baja y alta probabilidad de 
presencia de cáncer. Se asume también, que con este método solo se tendrían presentes 
los clasificados como “alta probabilidad” para ser leídos por los radiólogos y descarta o 
clasifica como “normales” los de baja probabilidad.
26 
 
Otro estudio importante en esta área fue el de Yala y otros (2019), en el cual se desarrolla 
un sistema de DL que clasifica los casos “negativos verdaderos” y posteriormente 
compara el desempeño con el de los radiólogos durante su evaluación original; concluye 
que los expertos omiten algunos de los que el DL puede clasificar y con la asistencia 
consiguen una reducción del 19,3% de carga de trabajo. El estudio no especifica que tan 
preciso es para clasificar los casos “negativos verdaderos”. 
De igual manera, en otras aproximaciones se han desarrollado sistemas donde no es 
necesaria la intervención de un experto, aquí el software detecta y clasifica de manera 
autónoma. Demostrando así que, la precisión de los sistemas con IA oscila entre el 88 y 
el 95% (Antari, Al-Masni, & Kim, 2020). Con Deep Learning, se han desarrollado nuevas 
técnicas de imagenología mamaria; la tomosintesis digital de mama o DBT por sus siglas 
en inglés, es una herramienta más avanzada de mamografía que utiliza dosis bajas de 
rayos x con el fin de detectar células cancerígenas cuando el cáncer es más tratable, esta 
permite la reconstrucción volumétrica de toda la mama y ya se han probado con DL con 
el objetivo de extraer más características de la imagen para un diagnóstico más certero 
(Gao, y otros, 2018). 
En esa misma línea, se encontraron también modelos de algoritmos híbridos que 
involucran tanto el historial del paciente como las imágenes radiológicas. Cuando se 
utilizó para la predicción de la malignidad de la biopsia arrojo un resultado de sensibilidad 
de 87%, una especificidad del 77,3% y un AUROC (area under the receiver operating 
characteristic curve) general de 0,91, incluso cuando se entrenó con datos clínicos el 
modelo funciono significativamente (Akselrod, y otros, 2019). 
Finalmente, los mayores y recientes modelos de Deep Learning tratan de utilizar solo una 
etapa de entrenamiento y clasificación, a pesar de ser complejos y con datasets de gran 
tamaño, han logrado mejoras sobre los sistemas CAD tradicionales, como lo muestra el 
trabajo de Mohammed(2018). 
4.1.4 Resultados de la Inteligencia Artificial en la medicina 
Las redes neuronales son una solución que encaja muy bien a la hora de resolver 
problemas de ingeniería biomédica debido a su amplio espectro de usabilidad y su 
capacidad para aprender relaciones complejas y no lineales, incluso con información 
27 
 
poco precisa o con ruido. Gracias a su diseño las redes neuronales pueden procesar 
señales paralelas en tiempo real a una gran velocidad. 
Una de las ventajas de las redes neuronales sobre los sistemas tradicionales es que 
estas se entrenan de manera automatizada con ejemplos en lugar de reglas. Además, en 
el diagnóstico médico, no son afectadas por factores humanos como fatiga, estados 
emocionales o costumbre. Desde su inclusión en la ciencia y la ingeniería, las 
aplicaciones de las redes neuronales en la computación biomédica son numerosas, tales 
como: cardiología, mamografía, neumología, neurología, y reumatología, entre otras 
(Rani, 2010). 
Se han utilizado para optimizar el diagnostico de patologías como dolor abdominal agudo, 
glaucoma, lumbalgia y litiasis vesical usando imágenes radiográficas e histopatologías. 
También se ha probado su efectividad en el diagnóstico de la apendicitis aguda, con 
valores de 97.2 de sensibilidad, 88 de especificidad y 100% de valor predictivo negativo. 
Además, se alcanzó un mejor desempeño que el de clínicos expertos, estudios de imagen 
y escala clínica predictiva de Alvarado utilizando solo variables clínicas y de laboratorio 
(Lugo-Reyes, 2014). 
Asimismo, se han utilizado las redes neuronales para examinar patologías incluido 
diferentes tipos de cáncer, como el cáncer de colon, cuyo modelo, creado basándose en 
el perfil de lípidos en plasma sanguíneo, tuvo un 83% de precisión identificando pacientes 
con tumores y solamente un 8% de los pacientes fueron clasificados erróneamente 
(Shandu et al., 2015). 
En el diagnóstico de cáncer de seno se han obtenido importantes resultados utilizando 
redes neuronales convolucionales y termografía (ya que facilita la identificación de células 
cancerígenas y tumores gracias a la diferencia de temperatura que presentan) como 
alternativa a otros procedimientos. Dichos resultados sin optimización fueron de 97.91% 
de precisión en entrenamiento y de 98.95% en datos de prueba después de aplicar un 
algoritmo de optimización de Bayes (Ekici et al., 2020). 
Cabe destacar la existencia de trabajos similares realizados con las imágenes del dataset 
DDSM, como el realizado por Shen y compañía, donde se comparan los resultados de 
clasificaciones hechas por modelos de redes neuronales convolucionales como Resnet50 
y VGG16, en los que se alcanza un rango de precisión entre 63 y 99% en diferentes 
28 
 
configuraciones para Resnet50 y de 84% para VGG16. Además, se realizan pruebas de 
estos modelos utilizando el dataset INbreast, donde también se obtienen resultados 
interesantes a pesar de las diferencias existentes en estas imágenes (Shen et al., 2019). 
Entre otros acercamientos, se han desarrollado modelos con redes neuronales utilizando 
como entrada registros con diferentes atributos de las células presentes en el tejido del 
seno, obteniendo resultados entre el 94 y el 99% de precisión en la predicción del cáncer 
de seno en sus pruebas experimentales (Pawar & Patil, 2013). 
También, se han evaluado dichos modelos para conocer su desempeño al momento de 
asistir a los profesionales de la salud, como es el caso del estudio clínico realizado 
(Pacilè, S et al., 2020) con una muestra de 240 casos y 14 radiólogos como sujetos de 
prueba donde se pudo evidenciar una reducción de la tasa de falsos negativos en un 
promedio de 18% de los casos y una reducción de falsos positivos en un 25% haciendo 
uso de redes neuronales convolucionales y ResNet. 
Además, en (Shen, Y et al., 2021) se muestra un área bajo la curva característica 
operativa del receptor (AUROC) más alta comparado con los resultados promedio dados 
por 10 radiólogos, además, el uso de redes neuronales convolucionales profundas logro 
disminuir la tasa de falsos positivos en un 37.3% y una reducción del 27.8% en las 
biopsias solicitadas. 
Es así como, la anterior revisión muestra un amplio rango de posibilidades de 
investigación centradas en la implementación de algoritmos de aprendizaje profundo 
como ayuda en el diagnóstico de anomalías en el cual se enmarca la presente propuesta, 
con este fin se especifica a continuación la etapa metodológica del proyecto. 
4.1 Marco conceptual 
En este apartado se presentan y se definen algunos conceptos claves para el desarrollo 
de esta monografía. 
4.1.1 Cáncer de mama: definición y generalidades 
El cáncer de mama se da en el momento en que las células mamarias comienzan a crecer 
de forma anormal, multiplicándose exponencialmente en comparación con las células 
sanas y acumulándose en forma de bulto o tumor. Esta alteración generalmente inicia en 
29 
 
los conductos donde se produce leche (carcinoma ductal invasivo), aunque también 
puede comenzar en el tejido glandular conocido como lobulillos (carcinoma lobulillar 
invasivo) o en otras células o tejido mamario (Acevedo & Rojas, 2020). El daño puede 
irrumpir en los vasos sanguíneos locales y producir células metastásicas que a su vez 
pueden emigrar a órganos distantes como huesos, pulmones, hígado, dando lugar a 
metástasis a distancia (Martín, Herrero, & Echavarría, 2015). 
El cáncer mamario continúa siendo una de las enfermedades más frecuentes en el 
mundo, la presencia de programas de detección precoz mediante exámenes como 
mamografías, ha aumentado el porcentaje de casos que se diagnostican en estadios 0 y 
1 que es considerado una etapa inicial de cáncer de seno, donde aún puede ser tratado 
satisfactoriamente (López & Hernández, 2018), a diferencia de otros métodos como el 
auto examen de seno que no ofrece ningún beneficio con respecto a la mortalidad 
(Instituto Nacional del Cáncer, 2021). 
Los estadios o etapas de este tipo de cáncer en función del tamaño del tumor son cuatro 
según los autores Angarita y Acuña (2008): 
1. Estadio 0: lesiones premalignas 
2. Estadio I: tumores pequeños, sin afectación metastásica de la axila 
3. Estadio II: tumores de más de 2 cm o con afectación metastásica moderada de 
la axila. 
4. Estadio III: tumores muy grandes o con afectación de piel o musculo pectoral o 
afectación masiva de la axila. 
5. Estadio IV: metástasis en órganos distantes como huesos, pulmones, hígado… 
 
 
 
 
 
 
30 
 
 
 
La tasa de supervivencia de cada estadio se clasifica como se muestra en la tabla 1: 
Tabla 1: Tasa de supervivencia para cada estadio 
 
Fuente: Yébenes (2020). 
En ese sentido, el diagnóstico precoz del cáncer de seno juega un papel muy importante 
en la tasa de mortalidad ya que las posibilidades de supervivencia son más altas en su 
etapa inicial. 
4.1.2 Exámenes de detección 
Los ensayos clínicos controlados aleatorizados (ECA) son un paradigma de la 
investigación epidemiológica que se inició hace más de 50 años. Gracias a su diseño, el 
cual se asemeja a un experimento por sus condiciones controladas y la posibilidad de 
determinar relaciones causa-efecto (Brito Pérez et al., 2016), evidencian que la detección 
con mamografías disminuye la tasa de mortalidad especifica por cáncer de mama en 
mujeres entre 50 a 69 años según el Instituto Nacional del Cáncer (2021) y el autor 
Lazcano y otros (s.f.). 
Por otra parte, el examen clínico de la mama (ECM) es un procedimiento donde el 
profesional de la salud palpará con cuidado las mamas y el área debajo de la axila, con 
el fin de detectar masas o cualquier otra anomalía en la región mamaria, aunque no es 
un análisis que evidencie la mortalidad por cáncer de seno (López & Hernández, 2018). 
31 
 
Y respecto a la mamografía convencional, esta se realiza en una máquina especial con 
rayos x, donde el paciente coloca su mamasobre una placa de plástico y otra placa 
superior, la cubre firmemente. Las placas aplanan la mama y la mantienen inmóvil 
mientras se toma la mamografía y de la misma manera para una toma del costado de la 
mama (Imedi, s.f.). 
En la misma línea con la mamografía digital o también llamada mamografía digital de 
campo completo o MDCC, la película de rayos x es reemplazada por implementos 
electrónicos, sistemas semejantes a los que utilizan las cámaras digitales, que 
transforman los rayos x en imágenes mamográficas de manera más eficiente para 
obtener resultados con menores dosis de radiación (Reyes Tomalá, 2018), aumentando 
el contraste y a su vez permitiendo detectar cambios pequeños, en la ilustración 3 se 
pueden observar algunos ejemplos de mamografías digitales. 
Ilustración 3: Ejemplos de imágenes mamográficas 
 
Fuente: tomado de Moreno (2020). 
En la imagen por resonancia magnética (MRI), se utilizan imanes y ondas de 
radiofrecuencia para la detección de cáncer o tumores, este es utilizado a su vez con la 
mamografía para examinar pacientes que tienden a padecer cáncer de mama, es 
importante mencionar que este procedimiento no es utilizado en mujeres que tienen un 
riesgo medio o bajo debido a que puede darse un resultado anormal como positivos falsos 
desencadenando biopsias innecesarias (American Cancer Society, 2013). 
Termografía, es una herramienta que se utiliza para determinar la temperatura de la piel 
que cubre la mama, esta percibe la radiación infrarroja del espectro electromagnético 
32 
 
identificando tejidos con diferentes densidades, aunque no se han sido evidenciado casos 
satisfactorios donde se detecte el cáncer de mama en sus primeras etapas (FDA, 2021). 
A continuación, la tabla 2 muestra un resumen de exámenes para la detección de 
anomalías con su porcentaje de sensibilidad y especificidad. 
Tabla 2: Sensibilidad y especificidad de diferentes técnicas de imágenes en cáncer de 
mama 
 
Fuente: (Angarita & Acuña, 2008) 
A partir de la anterior tabla, es posible inferir que la mamografía es la técnica más 
acertada para la detección del cáncer de seno desde la etapa inicial. 
De igual manera, se estima que el 10% de los casos de cáncer de mama tienen un origen 
hereditario y en este caso se presenta alrededor de los 40 años (Helping Cáncer, 2020). 
También existen dos genes que son el gen 1 (BRCA1) y el gen 2 (BRCA2) los cuales 
aumentan la posibilidad de padecer cáncer de mama y de ovario, estos genes fueron 
identificados como mutaciones hereditarias. (Álvarez Gama, 2016). Otras causas son el 
estilo de vida, factores hormonales y ambientales. 
4.2 Parámetros morfológicos 
En este apartado se describen los parámetros morfológicos como factores pronósticos 
de anomalías en el seno. 
33 
 
4.2.1 El sistema linfático del seno 
Es relevante mencionar que el cáncer de mama se puede propagar a través del sistema 
linfático, donde este sistema tiene varias partes: 
 Ganglios linfáticos: son grupos de células interconectadas a través de vasos 
linfáticos que hacen parte del sistema inmunológico. 
 Vasos linfáticos: transportan una sustancia llamada linfa, se asemejan a venas 
pequeñas. 
 Linfa: consiste en un líquido intersticial que transporta productos de desecho y 
células del sistema inmunológico. 
El proceso de propagación empieza cuando las células cancerígenas crecen en los 
ganglios linfáticos después de haberse incorporado a través de los vasos linfáticos, lo 
cual aumenta la posibilidad de que estas células alcancen el torrente sanguíneo y se 
propaguen al resto del cuerpo, algo conocido como metástasis (Flores, 2015). 
La ilustración 4, muestra la estructura de un seno sano. 
Ilustración 4: Estructura de un seno sano 
Fuente: Flores (2015). 
4.2.2 Calcificaciones mamarias 
Las calcificaciones mamarias son pequeños depósitos de calcio que se desarrollan en el 
seno, no tiene ninguna sintomatología ni tampoco se pueden diagnosticar a partir de un 
examen, pero si se pueden visualizar en una mamografía como puntos blancos (Medline 
34 
 
Plus, s.f.); estas calcificaciones suelen aparecer generalmente en mujeres mayores de 
50 años. 
Es importante mencionar que, la mayoría de las calcificaciones mamarias suelen ser 
benignas, pero hay un porcentaje pequeño que puede indicar un cáncer de seno 
temprano y las calcificaciones se dividen en dos tipos: macro calcificaciones y 
microcalcificaciones. 
En ese sentido, las macro calcificaciones son grandes puntos blancos, estas se 
presentan aleatoriamente en el tejido mamario y suelen ser mayores a 0.5 milímetros de 
diámetro, son muy frecuentes y los especialistas las consideran benignas; por otro lado, 
las microcalcificaciones aparecen como pequeños puntos blancos, algunas 
microcalcificaciones tienen características anómalas que las hacen sospechosas y 
motivo de investigación, por ejemplo: 
 tienen menos de 0.5 mm de diámetro 
 ocurren en grupos en un área específica del seno 
 difieren en tamaño y forma 
Y de acuerdo con los autores Arancibia, Taub, López, Díaz y Sáez (2016) es posible 
encontrar calcificaciones distribuidas de diferentes maneras como, por ejemplo: 
Distribución agrupada: Cuando se encuentra una baja cantidad de calcificaciones en 
un área reducida de la mama, existe un límite inferior de 5 calcificaciones en 1 cm o 
cuando existe un comportamiento ya definido y el mayor se da cuando se presenta una 
cantidad mayor dentro de 2 cm. 
Distribución regional: En esta distribución se presentan calcificaciones en un área 
extensa, mayor de 2 cm, existe una probabilidad de malignidad de 26%. 
Distribución difusa: Son calcificaciones distribuidas de manera aleatoria por toda la 
mama, las calcificaciones de esta categoría suelen ser benignas. 
Distribución segmentaria: En esta distribución se presentan calcificaciones en los 
ductos y sus ramas, siguiente la forma anatómica de un lóbulo mamario, pueden 
presentarse en patología benigna o también como calcificaciones secretoras 
35 
 
desencadenando un cáncer extenso o multifocal, existe una probabilidad de malignidad 
del 62% 
Distribución lineal: Se presenta de forma lineal que puede ramificarse, existe una 
probabilidad del 60% de que sean calcificaciones malignas, es importante destacar que 
ciertas calcificaciones vasculares o lineales gruesas pueden mostrar esta distribución con 
una morfología diferente, pero suelen ser benignas. 
A continuación, la ilustración 5 muestra un breve ejemplo de cada distribución de 
calcificaciones. 
 
Ilustración 5: Tipos de distribución de calcificaciones 
 
Fuente: Arancibia, Taub, López, Díaz y Sáez (2016). 
Quistes: Se conocen como sacos llenos de líquidos que se forman dentro de las mamas, 
como se muestra en la ilustración 6; es normal tener uno o varios quistes y no es 
necesario hacer un tratamiento, a menos que sean grandes, dolorosos o molestos (Mayo 
Clinic, 2020). 
36 
 
Ilustración 6: Quistes 
Fuente: (Mayo Clinic, 2020). 
 
Los quistes mamarios se pueden definir según su tamaño: 
 Los micro quistes, estos son pequeños y no se pueden sentir con el auto 
examen de seno, pero se pueden observar en una mamografía. 
 Los macro quistes, que son lo suficientes grandes para sentirlos, pueden tener 
hasta 5 cm de diámetro. 
 Fibroadenomas: Son tumores benignos, compuestos por tejido glandular y tejido 
estromal o tejido conectivo. Estos tumores se pueden encontrar frecuentemente 
en el sexo femenino entre los 20 a 39 años y tienden a reducir su tamaño cuando 
una mujer ha pasado por la etapa de menopausia. Al igual que los quistes se 
pueden encontrar fibroadenomas pequeños que no pueden palparse y otros con 
varios centímetros de diámetro. 
Los fibroadenomas se pueden visualizar por medio de un estudio por imágenes como las 
mamografías (American Cancer Society, 2019) como se evidencia en la ilustración 7: 
 
37 
 
Ilustración 7: Visualización de un fibroadenoma enuna mamografía digital 
Fuente: Sedicias (2022). 
Tejido cicatricial: Este tejido se forma como respuesta al proceso de curación o una 
terapia con radiación después de una cirugía, es un tejido fibroso que reemplaza la piel 
lesionada (Breastcancer.org, s.f.). 
Una mamografía también puede mostrar información adicional sobre la densidad de los 
senos, teniendo en cuenta que las mujeres con senos más densos tienen ligeramente un 
riesgo mayor de cáncer mamario, además estos resultan ser más complicados en el 
momento de encontrar anomalías en una mamografía y para las mujeres que tienen 
implantes de senos el personal encargado debe tomar más imágenes de cada seno y 
realizar una evaluación exhaustiva del mismo (Medical News Today, 2021). 
Teniendo en cuenta lo mencionado anteriormente, el sistema propuesto pretende 
clasificar imágenes mamográficas en cuatro categorías que se muestran en la ilustración 
8: 
Ilustración 8: Parámetros morfológicos identificados en el dataset 
PARAMETRO 
MORFOLOGICO 
 
EJEMPLO DEL DATASET 
 
 
 
 
MASAS MALIGNAS 
 
 
38 
 
 
 
 
 
CALCIFICACIONES 
 
 
 
 
 
 
MASAS BENIGNAS 
 
 
 
 
 
 
NORMALES 
 
Fuente: elaboración propia. 
 
 
4.3 Técnicas de aprendizaje 
La investigación propuesta, tiene como objetivo el desarrollo de un sistema basado en 
DL que hace parte de las técnicas de ML y que a su vez es un subconjunto de la IA, por 
esta razón se introducen algunos conceptos teóricos generales sobre estos aspectos, así 
como de métodos de validación y parámetros de efectividad en este tipo de algoritmos. 
4.3.1 Sistemas CAD 
El sistema de diagnóstico asistido por computadora o Computer aided diagnosis son 
procedimientos médicos capaces de preprocesar imágenes, segmentar lesiones, extraer 
características y clasificarlas; estos sistemas ayudan en el diagnóstico y en la 
interpretación de imágenes médicas. La idea de estos sistemas no es dar un diagnóstico 
completo si no la de ayudar en la interpretación y así llegar a un diagnóstico óptimo. 
4.3.2 Inteligencia artificial 
39 
 
La inteligencia artificial se define como la composición de algoritmos que tienen la 
capacidad de crear máquinas que contengan las mismas capacidades del ser humano. 
Encontramos varios tipos de IA: 
 Sistemas que piensan como humanos: Tienen la capacidad de tomar decisiones, 
resolver problemas y aprender, como lo son las redes neuronales artificiales. 
 Sistemas que actúan como humanos: Maquinas que son capaces de realizar 
tareas de manera similar a una persona, un ejemplo de esto son los robots. 
 Sistemas que piensan racionalmente: Intentan percibir, razonar y actuar como un 
ser humano. 
 Sistemas que actúan racionalmente: Estos sistemas imitan de manera racional el 
comportamiento de los humanos, en esta categoría encontramos los agentes 
inteligentes. 
4.3.3 Aprendizaje de maquina o Machine Learning 
El aprendizaje de máquina es una rama de la IA (Ilustración 9), que es capaz del 
desarrollo de modelos que permiten que las maquinas aprendan. De manera detallada, 
consiste en un sistema que recibe como entrada datos de un tipo o una estructura 
específica, los cuales procesa para construir un modelo que permite resolver problemas 
del mundo real (Norvi). 
Ilustración 9: Diagrama que ilustra la relación entre diferentes métodos y algoritmos de 
IA 
40 
 
 
Fuente: Adaptada de Sechopoulos,Teuwen, & Mann (2021). 
4.3.4 Tipos de algoritmos de Machine Learning 
El aprendizaje automático es una rama de la informática que concede a la IA la capacidad 
de aprender diferentes tareas. Encontramos tres grupos de aprendizaje automático: 
 Aprendizaje supervisado: en este grupo se enseña al algoritmo como realizar 
su trabajo con entradas y salidas deseadas, el algoritmo identifica patrones en 
los datos, aprende y hace predicciones que pueden ser corregidas por el 
programador con el fin de alcanzar un nivel de precisión y rendimiento del 
sistema. 
 Aprendizaje no supervisado: aquí se le permite al algoritmo interpretar grupos 
de datos y que los dirija de alguna manera para descubrir patrones, en la medida 
en que se evalúa más datos aumenta su capacidad para tomar decisiones. 
 Aprendizaje reforzado: Para este tipo de aprendizaje no hay un previo 
entrenamiento con algún tipo de datos, entonces, el sistema se ve forzado en 
aprender en un entorno donde no hay información clara y los hace a través de 
acciones y resultados, este sistema se refuerza al resolver problemas. (Manrique, 
2019). 
4.3.5 Deep Learning 
41 
 
El Deep Learning es una rama del Machine Learning, que se se basa en el aprendizaje 
de representaciones de datos en vez de algoritmos específicos de tareas (Gruson, 
Helleputte, Rousseau, & Gruson, 2019). 
En esta metodología los algoritmos se crean y operan de manera análoga entre sí, pero 
en múltiples capas de parámetros no lineales, de forma que estos algoritmos 
proporcionan una interpretación única de las de la imagen como la morfología, la textura, 
entre otras y manejan una mayor densidad de información (Ilustración 10). 
Ilustración 10: Jerarquía del ML 
Fuente: tomado de (Alexander, 2020). 
Es así como, el Deep Learning hace uso de redes neuronales que están inspiradas en el 
comportamiento y funciones del cerebro humano. 
La ilustración 11 muestra la analogía entre una neurona del cerebro humano y una 
neurona artificial. 
 
 
 
 
 
42 
 
 
Ilustración 11: Analogía entre neurona biológica y neuronal artificial 
Fuente: tomado de Bishop (s.f.). 
Las redes neuronales artificiales tienen una gran similitud con las neuronas biológicas, 
en sus funciones más comunes encontramos un “elemento procesador” o neuronas, cada 
una de estas neuronas tiene unos elementos de entrada (dendritas) que son las 
encargadas de recoger los impulsos de entrada en el procesador y generar una salida. 
La salida del elemento procesador puede ser conectada a las entradas de otras neuronas 
artificiales mediante uniones similares a las del cerebro. Las neuronas estas conectadas 
en una cadena de niveles llamadas capas, estas capas a su vez componen lo que 
llamamos red neuronal artificial o ANN (Elsevier, 2020). 
En las redes neuronales artificiales existen 2 capas conectadas con el exterior la capa de 
entrada donde se muestran los datos y una capa de salida que es capaz de enviar la 
respuesta de la red al exterior, además de algunas capas ocultas que representan la base 
estructural en este tejido nervioso artificial. 
 
 
 
 
43 
 
De igual manera, para Flores (2015) el elemento de procesado más sencillo tiene un 
esquema como el de la ilustración 12: 
Ilustración 12: Esquema de una red neuronal 
Fuente: tomado de Flores (2015). 
Donde Pi es la entrada, representada por un conjunto de conexiones, W es el peso o 
fuerza de conexión, Fk es una función de propagación, b es una entrada que representa 
una ganancia que refuerza la salida. 
Las ANN suelen utilizarse para clasificar, identificar, diagnosticar, optimizar o predecir; 
además tienen la capacidad de identificar comportamientos repetitivos haciendo uso de 
algoritmos de aprendizaje. 
Una evolución de estas redes neuronales artificiales son las redes neuronales 
convolucionales, que utiliza aprendizaje profundo para analizar imágenes, clasificar 
elementos visuales y realizar tareas de visión artificial. 
Del mismo modo, una red neuronal convolucional se diferencia de una red neuronal 
artificial en la cantidad de capas, un aumento de capas en la red aumenta su complejidad 
y permite detectar más aspectos o áreas en una imagen. 
La estructura de una CNN o red neuronal convolucional es similar a la de una red 
neuronal artificial. La arquitectura básica de una CNN es una pila de capas 
convolucionales, capa no lineal, capa de agrupación y una función de perdida en la última 
conexión. La salida de una CNN puede ser una clase (por ejemplo, maligno, benigno o 
normal)o una probabilidad de clases que mejor describa la imagen, como se ve en la 
ilustración 13. 
 
44 
 
Ilustración 13: Estructura de una red neuronal convolucional 
 
Fuente: Adaptada de Calvo (2017). 
Con el fin de describir mejor la arquitectura de una red neuronal convolucional se definen 
continuación dichos elementos que conforman la red: 
 Entradas: son los pixeles de las imágenes, ancho, alto y profundidad, teniendo 
en cuenta que la profundidad será 1 para imágenes en escala de grises y 3 para 
imágenes en RGB. 
 Capa de convolución: Se realiza una operación de convolución entre la capa 
semilla y el filtro, que genera un mapa de características. Las características 
extraídas se relaciona a cada ubicación posible del filtro en la imagen original. 
Ilustración 14: Convolución 
Fuente: tomado de Calvo (2017) 
 Capa ReLu5: esta capa se encarga de aplicar la función de activación en los 
elementos de la matriz, se denomina también activación ya que la red transporta 
solo las características de la imagen activadas a la capa posterior (Pathak, 2022). 
45 
 
 Reducción o Pooling: es la encargada de disminuir el número de manteniendo 
los más comunes, utilizando funciones estadísticas como el valor promedio o el 
máximo del mapa de características. 
 Clasificador: es la capa de salida, esta devuelve el resultado de la clasificación, 
esta capa tendrá un valor de neuronas igual al número de clases a predecir. 
Finalmente podemos concluir que el aprendizaje profundo se refiere a redes neuronales 
grandes con muchos datos, las técnicas más populares según Unipython (s.f.) son: 
 Redes multicapa de perceptrón, consta de múltiples capas capaces de resolver 
problemas que no son linealmente separables, que es la principal limitación del 
perceptrón. 
 Redes neuronales convolucionales, en este caso las neuronas artificiales se 
asemejan a campos receptivos como en las neuronales de un cerebro biológico. 
 Redes neuronales recurrentes de larga duración y corta memoria, estas son 
utilizadas para analizar datos de series temporales. 
4.3.6 Aprendizaje por transferencia 
El aprendizaje por transferencia tiene como objetivo extraer el conocimiento de una o 
más tareas de origen y aplicar el nuevo conocimiento a una tarea de destino; a diferencia 
de las técnicas de aprendizaje tradicionales que intentan aprender desde cero, las 
técnicas de aprendizaje por transferencia vienen pre entrenadas para transferir el 
conocimiento a una tarea objetivo cuando esta última tiene menor cantidad de datos 
(Jialin & Yang, 2010). 
Es así como, haciendo una búsqueda intensiva se encontraron algunas de las 
arquitecturas más conocidas de aprendizaje por transferencia como lo son: VGG16, 
VGG19, Inception V3, Resnet, entre otros. Estas técnicas vienen entrenadas con un 
inmenso dataset denominado ImageNet. 
 
 
4.3.6.1 Imagenet 
46 
 
El proyecto ImageNet es una base de datos que cuenta con alrededor de 14 millones de 
imágenes con etiquetas según la jerarquía de WordNet. Este proyecto ha sido de gran 
ayuda en el avance de la visión por computador. 
4.4 Técnicas de preprocesamiento de imágenes digitales 
En esta sección se describen algunas de las técnicas de preprocesamiento de imágenes 
que se utilizaron para el desarrollo del sistema. 
4.4.1 Imagen digital 
Según Gómez y Guerrero (2016) una imagen digital es “una representación bidimensional 
de una imagen” en una matriz numérica. 
4.4.2 Técnicas de preprocesamiento 
El preprocesamiento digital, es un conjunto de técnicas aplicadas a imágenes 
digitalizadas para aumentar la calidad y facilitar la interpretación de las mismas. 
En la mamografía se pueden observar diferentes tipos de lesiones; aquí se presta más 
atención a las microcalcificaciones, teniendo en cuenta que, al ser pequeños depósitos 
de calcio es posible que no sea tan claro visualmente, es por esto que se pretende usar 
algunas técnicas de preprocesamiento de imágenes. 
Por ende, todos los algoritmos de procesamiento de imágenes tienen como función 
resaltar, agudizar o contrastar algunos aspectos en la imagen o suprimir ruido no deseado 
(Álvarez, Guevara, & Holguín, 2006). 
Existen diferentes tipos de técnicas de procesamiento de imágenes, las más conocidas 
son los filtros de suavizado, detección de bordes, transformaciones basadas en 
histogramas, método Otsu; cabe resaltar que algunos de esos métodos fueron utilizados 
en el preprocesamiento de las imágenes mamográficas para el modelo planteado pero 
debido a que no se obtuvo un resultado favorable no se hace énfasis de ello en este 
apartado. 
 
5 ReLu: Unidad Lineal Rectificada.
47 
 
 
4.5 Morfología matemática 
Las técnicas derivadas de la morfología matemática son usadas ampliamente en el 
análisis de imágenes biomédicas, de rostros, de paisajes, etc. Dos operaciones 
fundamentales de la morfología matemática son la dilatación y la erosión. La dilatación 
es un término que hace énfasis en el aumento, expansión de un objeto cualquiera, por 
otro lado, la erosión se refiere a la contracción o disminución de un objeto. 
4.5.1 Dilatación 
La dilatación es justo lo opuesto a la erosión, aquí un elemento de pixel es 1 si al menos 
un pixel de la imagen de los objetos que caen dentro de la ventana del kernel es 1. Por 
lo tanto, esta operación aumenta la región blanca en la imagen o aumenta el tamaño del 
objeto en primer plano y reduce las regiones oscuras, como se muestra en la ilustración 
15. 
Ilustración 15: Dilatación 
Fuente: Tomado de Pawlovsky y Nagahashi (2014). 
4.5.2 Erosión 
El proceso de erosión es similar a la convolución, en este proceso un kernel se desliza a 
través de la imagen binaria. Un pixel de la imagen original (1 o 0), solo se considerará 1 
si todos los pixeles que caen dentro de la ventana del kernel son 1, de lo contrario se 
erosiona (se hace cero). Por tanto, todos los pixeles cerca de los bordes de los objetos 
de la imagen serán descartados dependiendo el tamaño del kernel. Un claro ejemplo se 
ve en la ilustración 16. 
 
48 
 
 
Ilustración 16: Erosión 
Fuente: Tomado de Pawlovsky y Nagahashi (2014). 
49 
 
5. DESARROLLO DE LA INVESTIGACIÓN 
En esta sección se describe el desarrollo de las actividades que se definieron en la 
metodología planteada durante la primera fase de esta monografía, los medios para 
lograr cada objetivo y aplicación de las tecnologías descritas en el marco teórico. 
5.1 Infraestructura tecnológica del sistema 
Para el desarrollo de este sistema de detección y clasificación de anomalías se dispuso 
de una caracterización de los lenguajes de programación para proyectos con Deep 
Learning donde se examina las fortalezas y debilidades de cada uno de ellos como se 
puede ver en la tabla 3, por lo tanto se utilizó Python en su versión 3, además, se hizo 
uso de las librerías: scikit-Learn que suministra una gran variedad de algoritmos de 
aprendizaje supervisado y no supervisados, es una librería muy importante dentro del 
Machine Learning, cv2 que es la librería de Open Cv para el análisis y tratamiento de las 
imágenes mamográficas mediante algoritmos de inteligencia artificial. Esto fue necesario 
debido a que las imágenes del dataset Mini-MIAS contaban con una baja calidad en 
contraste y definición. 
Tabla 3: Comparación lenguajes de programación para proyectos de Machine Learning 
 
Fuente: Tomado de Pawlovsky y Nagahashi (2014). 
Es de mencionar que, con la ayuda del entorno Jupyter en Anaconda Navigator se 
realizaron las pruebas de los algoritmos, Jupyter es una interfaz de código abierto que 
50 
 
permite la inclusión de texto, imágenes, videos; además permite ejecutar bloques 
específicos de código que dan una ventaja clara a la hora de realizar diferentes pruebas. 
5.2 Agrupación de las imágenes 
Uno de los factores más importantes de esta investigación fueron las imágenes, es 
indispensable contar con datos que en realidad aporten enla respuesta que se espera 
obtener del sistema. Sin embargo, para obtener un dataset universal fue necesario unir 
tres bases de datos encontradas de forma libre en la web MINI-Mias (SUCKLING, 1994), 
INBreast (Moreira et al., 2012) y algunas imágenes de DDSM (Heath et al., 2007), las 
cuales se muestran en la tabla 4; dejando el 70% de las imágenes mamográficas para el 
entrenamiento y el 30% para la prueba, debido a que fue la partición que mejor se ajustó 
en términos de métricas, en el capítulo 6 se muestra los resultados con otras divisiones 
del dataset. Es importante mencionar que se realizó una solicitud para obtener imágenes 
en centros de salud de la ciudad, pero no fue posible, por esta razón se eligieron bases 
de datos de acceso libre. 
Tabla 4: Resumen datasets escogidos para el sistema 
DATASET CANTIDAD DE IMÁGENES CATEGORIAS 
AÑO DE 
CREACION 
ORIGEN 
MINIMias 322 
Calcificaciones 
Masas bien definidas 
Masas espiculadas 
Otras masas 
Distorcion 
Asimetria 
Normal 
1994 Reino Unido 
Inbreast 410 
Asimetria 
Calcificaciones 
Distorcion 
Masas o nodulos 
Multiples encuentros 
Normal 
Entre 2008 y 
2010 
Porto 
DDSM 
10480 correspondientes a 
2620 casos 
Normal 
Cancer 
Benigna 
1999 Estados Unidos 
 
51 
 
Fuente: elaboración propia. 
5.3 Adquisición de imágenes 
Existe un gran número de bases de datos de imágenes mamográficas digitales como B-
SCREEN (Bayesian Decision Support in Medical Screening), IRMA (Image Retrieval in 
Medical Applications), ADMI (Indexed Atlas of Digital Mammograms) que no son de 
acceso libre y en general son propiedad de universidades o centros médicos de diferentes 
países. 
También se pueden encontrar bases de datos de instituciones que han sido puestas a 
disposición del público para tema de investigación, dentro de las más conocidas está: 
 Base de datos MINI-Mias: la sociedad de análisis de imágenes mamográficas 
(MIAS), es una organización de grupos de investigación del Reino Unido que ha 
generado una base de datos de mamografías digitales de acceso libre, las 
imágenes tomadas del programa de detección del cáncer de mama del Reino 
Unido se han digitalizado a un tamaño de pixel de 50 micras con un micro 
densitómetro, la base de datos contiene 322 imágenes con información 
importante como calcificaciones presentes, coordenadas de las anomalías, 
benignidad o malignidad (Mammographic Image, 2011). La ilustración 17 muestra 
dos ejemplos de este dataset. 
Ilustración 17: Ejemplo de dos casos encontrados en la base de datos MIAS 
 
Fuente: tomado de Mammographic Image (2011). 
52 
 
 Base de datos digital para mamografía de detección (DDSM): esta base de 
datos contiene aproximadamente 2500 estudios gracias a la colaboración entre 
el Hospital general de Massachusetts, los Laboratorios Nacionales Sandia y el 
Departamento de Ingeniería y Ciencias de la Computación de la Universidad del 
sur de Florida. Cada estudio contiene dos imágenes de cada seno junto con 
información asociada a la edad del paciente, clasificación de densidad mamaria, 
clasificación de anomalías, además, las imágenes que contienen áreas 
sospechosas tienen asociada información básica a nivel de pixel sobre las 
ubicaciones y los tipos de regiones sospechosas (Mammographic Image, 2011). 
La ilustración 18 muestra un ejemplo de este dataset. 
Ilustración 18: Ejemplo del caso Case C-0071-1 de la base de datos DDSM 
Fuente: tomado de Mammographic Image (2011). 
 Base de datos INbreast: 
La base de datos INBreast contiene 411 imágenes de 115 casos, de los cuales 90 casos 
son de mujeres con sus dos senos afectados (cuatro imágenes por caso) y 25 casos son 
de pacientes mastectomizadas (dos imágenes por caso). Se muestran varios tipos de 
lesiones como masas, calcificaciones, asimetrías y distorsiones. 
A continuación, en la tabla 5 se evidencia un resumen enfocado en las fortalezas y 
limitación de algunas bases de datos. 
53 
 
 
Tabla 5: Resumen de fortalezas y limitaciones de las bases de datos: DDSM, IRMA, 
INbreast, MIAS y BCDR 
 
Fuente: elaboración propia. 
Una vez revisada la bibliografía, se eligieron dos bases de datos: Inicialmente se probó 
el sistema con la base de datos mini-MIAS, este contiene un archivo plano con 
información detallada de cada imagen, permitiendo un mejor análisis de estas en 
comparación con las otras bases de datos en las que son necesarias varias conversiones 
y más espacio en la memoria. Es importante aclarar que las imágenes de la base de 
datos mini-MIAS vienen dadas en un formato “pgm” por lo que fue necesario convertirlas 
a un formato “png” para su previa visualización. Posteriormente se elige la base de datos 
INbreast con el objetivo de tener más imágenes para hacer más preciso el sistema. Las 
Bases de datos Fortalezas Debilidades Tamaño
Gran base de datos 
ampliamente utilizada
No tiene un formato estandar
Lesiones de diferentes 
tamaños
La posicion de las lesiones 
no es precisa
Posición precisa de las 
lesiones
Alta resolución
Posicion preciosa de las 
lesiones
Tamaño limitado
Variaciones de forma 
limitadas en imágenes con 
masas
Base de datos antigua
Se sigue utilizando 
ampliamente en la 
actualidad
Tamaño limitado
Diferentes resoluciones Imágenes con baja resolucion
Posición precisa de las 
lesiones
Formato estandar
Aun está en fase de 
desarrollo
322 imágenesMIAS
BCDR Tamaño limitado 1734 casos
DDSM 2620 casos
IRMA No tiene un formato estandar 12677 imágenes
Formato estandar
Inbreast 410 imágenes
54 
 
imágenes de la base de datos INbreast vienen dadas en un formato “dcm” así que al igual 
que la base datos anterior fue necesario convertirlas en un formato “png”. A diferencia de 
la anterior las imágenes de esta base de datos tienen mejor calidad en cuanto a un borde 
y anomalías un poco más visibles como se puede observar en la ilustración 19. 
Ilustración 19: Ejemplo de cuatro casos encontrados en la base de datos INbreast 
Fuente: INbreast (2022). 
En menos del 10% de los casos, se evidenciaron varias calcificaciones desplegadas por 
toda la imagen, por lo que fue necesario omitir la información de la quinta a la sexta 
columna. 
Por términos de precisión del modelo fue necesario incluir algunas imágenes de un tercer 
dataset llamado DDSM con el fin de equilibrar la base de datos para el sistema propuesto 
como se muestra en el histograma de la ilustración 20. 
Teniendo en cuenta que las características encontradas en las tres bases de datos son 
diferentes, se tienen en cuenta solo cuatro categorías en común: 
 BENIGNE MASSES: Imágenes con masas benignas 
 CALC: Mamografías con microcalcificaciones o calcificaciones en general. 
 MALIGNANT MASSES: Aquí se encuentra mamografías con masas malignas 
 NORM: Imágenes normales o sanas. 
55 
 
 
Ilustración 20: Histograma de frecuencia categorías para las cuatro categorías 
Fuente: elaboración propia. 
Las bases de datos MiniMIAS y INBreast cuentan con pocas imágenes de la categoría 
“distortion” (como las que se muestran en la ilustración 21) y “masamicro” por lo que fue 
necesario omitirlas. 
Ilustración 21: Categoría Distorsión en la base de datos INBreast 
 
Fuente: INbreast (2022). 
5.4 Preprocesamiento digital de imágenes 
Primero, se descargaron los archivos de cada una de las bases de datos previamente 
mencionadas (MAMMOGRAPHIC IMAGE ANALYSIS HOMEPAGE → MIAS 
MiniMammographic Database), (KAGGLE → INBreast dataset) y (KAGGLE → DDSM 
56 
 
dataset), para posteriormente realizar la conversión manual del formato original a “.png” 
en los dos primeros datasets. 
Ahora bien, la etapa de preprocesamiento de los datos estuvo constituida por dos fases 
descritas a continuación: 
El primer paso fue crear un Notebook de Jupyter, que permite trabajar con código Python, 
importar las librerías necesarias y ejecutar el programa escrito para procesar las 
imágenes, aquí se aplican los filtros: erosión y dilatación,