Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS GRADO EN BIOTECNOLOGÍA DEPARTAMENTO DE INGENIERÍA AGROFORESTAL Uso de inteligencia artificial para prevenir la formación de fístulas colónicas y su relación con la microbiota intestinal. TRABAJO FIN DE GRADO Autor/a: Víctor Patón González Tutor/a: Javier Galeano Prieto Junio de 2021 II UNIVERSIDAD POLITÉCNICA DE MADRID ESCUELA TÉCNICA SUPERIOR DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS GRADO DE BIOTECNOLOGÍA USO DE INTELIGENCIA ARTIFICIAL PARA PREVENIR LA FORMACIÓN DE FÍSTULAS COLÓNICAS Y SU RELACIÓN CON LA MICROBIOTA INTESTINAL TRABAJO FIN DE GRADO Víctor Patón González MADRID, 2021 Director: Javier Galeano Prieto Profesor Titular Dpto. de Ingeniería Agroforestal III USO DE INTELIGENCIA ARTIFICIAL PARA PREVENIR LA FORMACIÓN DE FÍSTULAS COLÓNICAS Y SU RELACIÓN CON LA MICROBIOTA INTESTINAL Memoria presentada por Víctor Patón González para la obtención del título de Graduado en Biotecnología por la Universidad Politécnica de Madrid Fdo: Víctor Patón González VºBº Tutor D. Javier Galeano Prieto Profesor Titular Dpto. de Ingeniería Agroforestal ETSIAAB - Universidad Politécnica de Madrid Madrid, 21 de junio, 2021 IV Agradecimientos Mientras escribo estas líneas, pienso en el Víctor de 2017 poniendo un pie por primera vez en la universidad. Pienso en todo lo que ha vivido estos 4 años y que me han hecho crecer como persona y como profesional. Pienso también en toda las personas maravillosas que he conocido y a la que me llena de orgullo llamar amigos, así como en algunos profesores entregados que dotan de sentido y dignidad a su profesión. Tengo tanto que agradecer que no sé por dónde empezar, pero allá voy. Primero, qué menos empezar por Javier, el mejor tutor con el que podría haber dado. Gracias por haberme dejado total libertad para expresar lo que quería contar y cómo quería contarlo, y, a la vez, apoyarme con tu tiempo y tu experiencia. Ha sido un gusto trabajar contigo, y espero que mantengamos el contacto por muchos años. También agradecer a Patri, la mejor doctoranda (también te pido perdón por darte tanto la brasa). Eres una profesional que se va a sacar el doctorado y todo lo que te propongas. Por último, agradecer a Rosa del Campo y su equipo la cesión de los datos con los que se ha realizado este trabajo. En segundo lugar, quiero dar las gracias a mis amigos. A los de Colme, por estar siempre a mi lado. Aún me acuerdo cuando éramos unos críos y todo esto lo veíamos muy lejano, pero aquí estamos, acabando juntos, igual el primer día de guardería. A los de la uni, Varygnon y GD, os debo el haber pasado los mejores años de mi vida. Me habéis hecho cambiar hasta niveles que mi yo de bachillerato jamás hubiera sospechado. A todos, uni y Colme, sé que os voy a tener siempre conmigo, a pesar de los caminos que tomemos cada uno. En último lugar, quiero dar las gracias a mi familia. Gracias a mis padres por el apoyo incondicional que siempre me habéis dado y por depositar vuestra confianza en mí y en todas las decisiones que me han llevado hasta aquí. Y, por último, gracias a mi abuela, por haberme enseñado a no rendirme, a reinventarme constantemente y, sobre todo, a enseñarme el verdadero significado de ser una familia. Sin todos y cada uno de vosotros, no estaría hoy aquí. Gracias V Índice Índice de figuras ............................................................................................................... VII Lista de símbolos ............................................................................................................. VIII Abstract .............................................................................................................................IX Capítulo I: Introducción ....................................................................................................... 1 1 Prevalencia del cáncer ....................................................................................................... 1 1.1 Incidencia de cáncer de colon en el mundo y en la Unión Europea ......................... 1 1.2 Incidencia del cáncer de colon en España ................................................................. 1 2 Adenocarcinoma de colon................................................................................................. 2 2.1 Diagnóstico y tratamiento ......................................................................................... 3 3 Fuga anastomótica colorrectal .......................................................................................... 3 3.1 Definición .................................................................................................................. 3 3.2 Clasificación y tratamiento ........................................................................................ 4 3.3 Factores de riesgo ..................................................................................................... 5 4 La relación de la FAC con la microbiota intestinal ............................................................ 6 4.1 El papel de la microbiota intestinal y su relación con el ser humano ....................... 6 4.2 La microbiota en pacientes de cáncer de colon ........................................................ 6 4.3 Relación entre la microbiota intestinal y la FAC........................................................ 7 5 Objetivos del trabajo ......................................................................................................... 8 Capítulo II: Material y métodos ............................................................................................ 9 1 Obtención y tratamiento de los datos .............................................................................. 9 1.1 Procesamiento de los datos .................................................................................... 10 2 Algoritmos de Machine Learning .................................................................................... 10 2.1 Árboles de decisión ................................................................................................. 11 2.2 SVM ......................................................................................................................... 12 2.3 KNN .......................................................................................................................... 13 VI 2.4 Redes neuronales .................................................................................................... 14 3 Sistemas de evaluación ................................................................................................... 14 3.1 Matrices de confusión ............................................................................................. 14 3.2 Curvas ROC y AUC ................................................................................................... 15 3.3 F1 score ................................................................................................................... 15 4 Implementación en Python ............................................................................................. 16 Capítulo III: Resultados ...................................................................................................... 17 1 Distribución por sexos ..................................................................................................... 17 2 Evaluación de los algoritmos ........................................................................................... 17 2.1 F1 score ...................................................................................................................17 2.2 Matrices de confusión ............................................................................................. 18 2.3 Curva ROC y AUC ..................................................................................................... 19 3 Bacterias más importantes consideradas por el algoritmo ............................................ 20 Capítulo IV: Discusión ........................................................................................................ 22 1 El modelo de SVM como método de diagnóstico ........................................................... 22 2 Parámetros potencialmente asociados a la FAC ............................................................. 22 2.1 Bacterias potencialmente asociadas a la formación de FAC ................................... 22 2.2 Bacterias potencialmente asociadas a la ausencia de FAC ..................................... 23 2.3 Sexo ......................................................................................................................... 24 3 Limitaciones del estudio .................................................................................................. 24 Capítulo V: Conclusiones .................................................................................................... 25 Capítulo VI: Bibliografía ..................................................................................................... 26 VII Índice de figuras Figura 1: tasas estandarizadas por edad de la incidencia de cáncer de colon en ambos sexos (2020). Fuente y elaboración: (Ferlay J et al., 2020). .................................................................... 1 Figura 2: proyección de la incidencia y mortalidad de cáncer de colon en España en: a) Personas mayores de 65 años y b) personas menores de 65 años. Fuente: (Ferlay J et al., 2020). Elaboración propia. ....................................................................................................................... 2 Figura 3: distribución por edad (izquierda) y sexos (derecha) del grupo de estudio.................... 9 Figura 4: disposición y datos que alberga una matriz de confusión. .......................................... 15 Figura 5: distribución de sexos en los casos en los que hubo formación de FAC y en los que no ..................................................................................................................................................... 17 Figura 6: F1 score de los cuatro algoritmos utilizados en los casos en los que se desarrolla FAC y en los que no. .............................................................................................................................. 17 Figura 7: matrices de confusión de los 4 algoritmos probados. ................................................. 18 Figura 8: curvas ROC y AUC de los 4 modelos analizados. La diagonal indica la curva ROC de un clasificador que asigna clases de forma aleatoria. ...................................................................... 19 Figura 9: pesos asignados a cada género bacteriano por el algoritmo de SVM. Valores más altos indican mayor importancia en la presencia de FAC. ................................................................... 20 Figura 10: pesos asignados a cada género bacteriano por el algoritmo de SVM. Valores más bajos indican mayor importancia en la ausencia de FAC. ........................................................... 21 VIII Lista de símbolos Símbolo Significado N Número de muestras pj Fracción de instancias que pertenecen a la clase j H Entropía de Shannon k Proporción de instancias en cada grupo tras la partición m Número de particiones resultantes w Peso de un atributo wT Vector de pesos, es normal al hiperplano xi Vector de atributos de la instancia i b Umbral de separación. Define el punto de corte del hiperplano y Clase a la que pertenece una instancia λ Coeficiente de regularización IX Abstract Colorectal cancer (CRC) is a major health problem, projected to account for more than a million deaths worldwide by 2030. In the EU and Spain, the prevalence in the elder groups is expected to increase, compared to the stable trend expected for the younger groups. More than 95% of the CRCs are adenocarcinomes, which are usually diagnosed by image test and biopsy analysis. The widespread surgical treatment is the resection and anastomosis of the affected portion of the colon. However, in some cases, a colorectal anastomotic leak (CAL) is found after the surgery. Some factors have been associated with a greater risk of developing CAL. Some of them are lifestyle-related, such as obesity, alcoholism, smoking, nutritional state, or gender. In addition, there are other risk factors related to surgeries, such as their duration. However, in most cases the cause of the CAL development is unknown, since it may also appear in patients lacking these risk factors. Therefore, a relationship between CAL and gut microbiota was hypothesized. Samples from a group of 111 patients were collected. The V3 and V4 regions from 16S rRNA gene were amplified and sequenced by high-throughput sequencing using Illumina equipment. The resulting amplicon sequence variants (ASVs) were classified in 466 bacteria genres. Several machine learning classifiers were developed using 4 approaches: decision trees, support- vector machines (SVM), k-nearest neighbours (KNN) and neural networks. The samples were divided into a training group comprising 70% of the samples, and a testing group with the remaining 30%. Model evaluations were performed using confusion matrixes, F1 scores, receiver operating characteristic curves, and AUC. The best results were obtained by the SVM classifier, scoring a recall of nearly 90%. The model found Bifidobacterium and Faecalibacterium, among others, to be associated with a low risk of developing CAL. On the other side, Citrobacter, Tyzzerella, Butyricimonas, Blautia, and Prevotella were associated with a higher risk of developing CAL. In addition, women had a lower CAL prevalence than men, despite representing almost half of the group members. However, the small sample size and the model’s imperfect classification are parameters to take into account to point out the limitations of this study. Therefore, in order to fully understand the relationship between CAL development and gut microbiota, further studies need to be conducted. 1 Capítulo I: Introducción 1 Prevalencia del cáncer 1.1 Incidencia de cáncer de colon en el mundo y en la Unión Europea El cáncer colorrectal es el cuarto tipo de cáncer más diagnosticado en el mundo y la segunda causa de muerte por neoplasia maligna (Ferlay J et al., 2020). Se calcula que esta enfermedad crecerá más de un 60% hasta 2.2 millones de nuevos casos y 1.1 millones de muertes en 2030. La mayoría de los casos actualmente se dan en los países desarrollados (Figura 1), pero el número de nuevos casos no deja de crecer en países en vías de desarrollo. En Europa, el cáncer colorrectal es el primero en incidencia y el segundo en mortalidad en ambos sexos (Sung et al., 2021). Sin embargo, los programas de detección precoz impulsados por la UE y otros países desarrollados han servido para aumentar la supervivencia de los pacientes (Zavoral et al., 2009). La incidencia de la enfermedad en la población permanece estable, señal de que una detección precoz es clave para un buen pronóstico de la misma. Sin embargo, se espera que el número de casos y el de muertes aumente con el tiempo, como consecuencia del envejecimiento de la población en todo el continente. 1.2 Incidencia del cáncer de colon en España El cáncer de colon es el tumor con mayor frecuencia en la población española, constituyendo un 15% del total de diagnosticados, por delante del cáncer de próstata (12%) ymama (11%) (Ferlay Figura 1: tasas estandarizadas por edad de la incidencia de cáncer de colon en ambos sexos (2020). Fuente y elaboración: (Ferlay J et al., 2020). 2 J et al., 2020). En cuanto a mortalidad, el cáncer colorrectal ocupa el segundo puesto en mayor número de fallecidos, por detrás del cáncer de pulmón. España es además uno de los países de la UE con mayor prevalencia de esta enfermedad. Se calcula que en las próximas décadas aumenten tanto el número de casos como el número de muertes, en línea con el resto de las regiones de Europa. Este aumento se dará sobre todo en la franja de edad de mayores de 65 años, mientras que en el resto de las franjas la tendencia es estable (Figura 2). El principal factor de riesgo es la edad: más del 90% de los casos diagnosticados se dan en personas con más de 50 años (Ferlay J et al., 2020). Además, si estas tienen antecedentes familiares de cáncer colorrectal o presentan factores de riesgo adicionales como enfermedades inflamatorias intestinales (como la enfermedad de Crohn), antecedentes de pólipos intestinales o factores de riesgo relacionados con el estilo de vida (como la obesidad, el tabaquismo o el consumo de embutidos y otras carnes procesadas), el peligro aumenta exponencialmente (Rawla et al., 2019). 2 Adenocarcinoma de colon Es el tipo histológico más frecuente en el cáncer colorrectal, con un 95% de los casos (Asociación Española Contra el Cáncer, 2018). Los adenocarcinomas se definen como una neoplasia de tejido epitelial de origen glandular (exocrina) (Thrumurthy et al., 2016). Figura 2: proyección de la incidencia y mortalidad de cáncer de colon en España en: a) Personas mayores de 65 años y b) personas menores de 65 años. Fuente: (Ferlay J et al., 2020). Elaboración propia. a) b) 3 2.1 Diagnóstico y tratamiento El tumor se suele diagnosticar por colonoscopia o un examen TAC abdominal. Posteriormente, el procedimiento más utilizado es la resección (se realizan dos cortes en el tubo intestinal para aislar y extraer la zona afectada) del fragmento afectado y posterior anastomosis (unión de extremos) de los dos fragmentos del intestino (Wilkinson & Scott-Conner, 2008). La resección no sólo involucra al tubo digestivo, sino que se acompaña en la mayoría de los casos de una linfadenectomía: se aconseja la retirada de al menos los 12 ganglios linfáticos más cercanos al tumor primario para evitar un desarrollo metastásico (Greene et al., 2002). Diversos estudios demuestran que la cirugía de resección y anastomosis es capaz, por sí sola, de situar en un 50 a 60% la tasa de supervivencia a 5 años del paciente (QUASAR Collaborative Group, 2007). En ciertos casos en los que el cáncer afecta a las secciones finales del intestino (como el recto), la cirugía a menudo conlleva una colostomía permanente. Sin embargo, nuevas técnicas de cirugía no invasiva como la cirugía laparoscópica pueden utilizarse en ciertos casos, reduciendo la probabilidad de complicaciones y el tiempo de recuperación. Además, se han documentado los beneficios de la quimioterapia como adyuvantes en pacientes de cáncer colorrectal en estadio III (nodo positivo) (Moertel et al., 1995; Wolmark et al., 1993). En concreto, está extendido el uso del tratamiento quimioterapéutico adyuvante con fluorouracilo y ácido folínico para tumores en estadio III (QUASAR Collaborative Group, 2007). Sin embargo, los beneficios del mismo tratamiento para pacientes en estadio II no fueron significativos (Moertel et al., 1995). Por tanto, los adyuvantes sólo se prescriben para estadios avanzados de la enfermedad, mientras que la cirugía por sí sola es suficiente para controlar la enfermedad en su desarrollo inicial. De todas formas, la cirugía no está exenta de riesgos. Más allá de los riesgos intrínsecamente postoperatorios, los pacientes se enfrentan a trastornos funcionales (algunos permanentes), abscesos intraabdominales, infección de la herida o fugas anastomóticas. 3 Fuga anastomótica colorrectal 3.1 Definición La fuga anastomótica colorrectal (FAC) es una condición médica que aparece en un 11% de las cirugías de resección y posterior anastomosis colorrectal (Rahbari et al., 2010). El Grupo de Estudio Internacional del Cáncer Colorrectal propone la siguiente definición: la FAC se define como “un defecto en la integridad de la pared intestinal en el sitio anastomótico que provoca 4 una comunicación de los compartimentos intra y extraluminales” (Rahbari et al., 2010). Este material puede acumularse en el abdomen o filtrarse al exterior a través de las suturas de la operación. Las FAC se pueden clasificar en base a la gravedad de sus consecuencias, variando desde aquellas asintomáticas a aquellas más graves, que pueden poner en riesgo la vida del paciente. Rahbari et al. (2010) propusieron una clasificación de las FAC de acuerdo con el impacto clínico sobre el paciente. 3.2 Clasificación y tratamiento 3.2.1 Fuga radiológica o de grado A Las FAC denominadas radiológicas son aquellas que no requieren intervención terapéutica activa (Bruce et al., 2001). El escape del contenido luminal a una zona adyacente y en ausencia de signos y síntomas clínicos es un ejemplo de FAC leve. Como no presentan signos apreciables, este tipo de FAC suelen detectarse por accidente mediante prueba de imagen (de ahí el término ampliamente difundido en la literatura: fuga radiológica). Asimismo, no requieren de un tratamiento. Sin embargo, puede retrasar otros procedimientos posteriores, como el cierre de colostomía. 3.2.2 Fuga anastomótica de tipo B Las FAC de tipo B revisten mayor gravedad que las anteriores, ya que estas sí necesitan intervención médica (aunque no quirúrgica). La mayoría de los pacientes reportan malestar leve o moderado, con dolor pélvico y abdominal. El tratamiento suele consistir en la administración de antibióticos y puede involucrar la colocación de un drenaje pélvico para eliminar el exceso de líquido del lumen. Estos síntomas pueden aparecer días después de la operación, incluso tras el alta del paciente, que puede acabar requiriendo un reingreso hospitalario. 3.2.3 Fuga anastomótica de tipo C Los pacientes con este tipo de lesiones a menudo sufren malestar intenso, con signos como fiebre intensa, dolor abdominal y, en última instancia, peritonitis. Además, los valores de parámetros relacionados con procesos de infección son significativamente superiores (leucocitosis, proteína C-reactiva). A menudo acaban requiriendo una laparotomía correctora, con todas las consecuencias postoperatorias que ello conlleva. La mayoría de las laparotomías van dirigidas a la creación de una colostomía descendente con el objetivo de reducir la inflamación. En estos casos, si no se toman medidas urgentes, la FAC puede conllevar sepsis, 5 fallo orgánico y la muerte. 3.3 Factores de riesgo Existen diversos factores de riesgo que pueden favorecer la formación de una FAC. Estos incluyen tanto factores preoperatorios como intraoperatorios. 3.3.1 Factores preoperatorios La obesidad incrementa el riesgo de FAC debido a dificultades de la limpieza correcta del extremo proximal, así como la tensión y la isquemia provocada por un mesenterio más grueso (Kingham & Pachter, 2009). El mesenterio es un órgano formado por dos capas, una en contacto con el intestino y otra en contacto con la pared abdominal. Entre ambas capas se disponen vasos sanguíneos y linfáticos que irrigan el intestino. Además, es clave en el almacenaje de grasas. A medida que este depósito aumenta por encima de niveles saludables, los vasos que irrigan el intestino pueden verse afectados, reduciendo su aporte sanguíneo. El tabaquismo es otro de los factores de riesgo relacionados con el estilo de vida. La relación con la FAC puede radicar en la isquemia provocada por el deterioro microvascular causado por el tabaco (Kingham & Pachter,2009). Numerosos estudios señalan la relación entre las condiciones nutricionales del paciente y la FAC. Por ejemplo, el abuso de alcohol está relacionado con un estado nutricional precario. El estado nutricional del paciente se puede medir mediante varios marcadores. Uno de ellos, el nivel de albúmina en sangre, se ha relacionado con la FAC en estudios previos (Mäkelä et al., 2003). Por ello, es imperativo retomar la alimentación por via oral en el menor tiempo posible después de la operación, más aún cuando se ha visto que este procedimiento no eleva el riesgo de FAC. El sexo es otro factor a tener en cuenta. En un análisis multivariable, la tasa de formación de FAC fue del 11% en hombres, comparado con el 3% en mujeres (Law et al., 2000). Esta diferencia se ha encontrado en otros estudios, aunque los porcentajes varían. Por último, existen otros factores relevantes como la radiación, el consumo de esteroides u otras enfermedades como la diverticulitis, aunque su relación con las FAC está más difusa. 3.3.2 Factores asociados a la operación Se encontró una relación significativa entre la duración de la operación y el mayor riesgo de FAC en aquellos pacientes en los que la operación duró más de 4 horas. Otro factor de interés es la isquemia anastomótica, señalada por numerosos estudios como causa de FAC: aquellos pacientes en los que se desarrolló FAC sufrieron una reducción del flujo sanguíneo de un 16%, 6 comparado con una reducción del 6% en aquellos pacientes que no desarrollaron FAC (Vignali et al., 2000). La relación con otras causas, como el uso de drenajes, no está tan clara. 4 La relación de la FAC con la microbiota intestinal A pesar de los posibles factores identificados, en la mayoría de los casos se desconoce la o las causas, ya que también se dan en pacientes sin factores de riesgo. En estas circunstancias, se ha propuesto que la causa de la formación de FAC puede estar relacionada con la composición de la microbiota intestinal. 4.1 El papel de la microbiota intestinal y su relación con el ser humano La microbiota es una parte integral del ser humano. El tracto intestinal de los mamíferos (entre los que se encuentra el ser humano) alberga uno de los ecosistemas microbianos más grandes y complejos del planeta: más de 100 billones de bacterias, de miles de especies distintas, estableciendo relaciones entre sí y con el hospedador (Lederberg, 2000). La microbiota intestinal es dinámica y se ha aceptado que el sistema huésped-bacteria evoluciona de forma conjunta. A menudo, la microbiota se ha catalogado como comensalista o como simbionte, pero la realidad es mucho más compleja. Las comunidades microbianas son importantes para multitud de procesos metabólicos e inmunológicos, entre otros. Incluso, algunos estudios reportan que la microbiota puede modular el comportamiento del hospedador (Borre et al., 2014). Esta microbiota se puede ver alterada por diversos factores: obesidad, fármacos y drogas, estrés, cirugías, etc (Adak & Khan, 2019). De hecho, es posible que las alteraciones en el microbioma provocadas por estos factores puedan estar detrás del desarrollo de enfermedades autoinmunes (Round & Mazmanian, 2009). Un estudio en ratones mostró que los individuos estériles (sin bacterias intestinales) desarrollaron déficits en la formación de tejido linfoide asociado con el intestino (GALT) y tuvieron significativamente menos placas de Peyer y nodos linfáticos mesentéricos (Macpherson & Harris, 2004). Dado el importante papel de la microbiota en el desarrollo y buen funcionamiento del sistema inmune, resulta plausible pensar que la microbiota intestinal puede ser clave en la correcta cicatrización de las anastomosis del colon y así evitar FACs. 4.2 La microbiota en pacientes de cáncer de colon Cuando el equilibrio de la microbiota se deteriora, se pueden generar señales metabólicas que desencadenen un estado proinflamatorio de las células intestinales. En este estado, se pueden 7 dar las condiciones para la aparición de mutaciones en el DNA que acaben desembocando en un carcinoma. Varios estudios muestran un aumento de la expresión de Toll-like receptors (TLR2, TLR4, TLR5), así como de otras moléculas relacionadas con la respuesta inmune innata (COX1 y 2, TNFα, NFkappaB, PPAR-gamma), en células tumorales en todos los estadios de desarrollo (Pimentel-Nunes et al., 2012). Además, Pimentel-Nunes et al. (2013) revelaron una relación significativa entre el riesgo de desarrollar cáncer colorrectal y la presencia de polimorfismos de TLR2 y TLR4. Estos resultados son prueba indirecta de que la cascada de señalización de los TLR puede ser esencial para el desarrollo y la progresión del cáncer colorrectal. Los estudios de Gao et al. (2015) mostraron diferencias en la composición de la microbiota en pacientes con cáncer de colon y sanos. Los géneros Alistipes, Porphyromonadaceae, Coriobacteridae, Staphylococcaceae, Akkermansia spp. y Methanobacteriales aumentaron su presencia, mientras que Bifidobacterium, Lactobacillus, Ruminococcus, Faecalibacterium spp., Roseburia, y Treponema la redujeron. Otras bacterias asociadas a lesiones cancerosas son Streptococcus bovis y Streptococcus gallolyticus subsp. Gallolyticus (Abdulamir et al., 2011). Entre el 25 y el 80% de las personas que desarrollan bacteriemia (aparición de bacterias en el flujo sanguíneo) con estos dos géneros llevan asociada la aparición de adenomas, que pueden desembocar en adenocarcinomas. Este puede detectarse incluso años después de haber desarrollado la bacteriemia. 4.3 Relación entre la microbiota intestinal y la FAC Los primeros estudios se publicaron en 1955. Cohn & Rives (1955) desarrollaron un procedimiento por el cual se administraron antibióticos a través de un catéter directamente a la lesión anastomótica (realizada en perros), constatando que dicha administración permitió una revascularización completa de la zona y una protección contra la FAC. En esta línea, estudios posteriores demostraron la idoneidad del uso de antibióticos por vía oral frente a la vía intravenosa para prevenir la infección de la lesión, debido a que esta permite una difusión más directa a la lesión en las etapas iniciales del postoperatorio (Deierhoi et al., 2013). A pesar de esto, la administración oral de antibióticos antes y después de la intervención no es una práctica extendida, en comparación con la vía intravenosa. 4.3.1 Identificación de los géneros bacterianos asociados a la FAC En el estudio de Ohigashi et al. (2013), la apertura del colon al ambiente aerobio producido durante la operación resultó en una disminución de 6 grupos de anaerobios obligados. Por el 8 contrario, Enterococcus, Pseudomonas y Staphylococcus (géneros patógenos) aumentaron su presencia en el colon. Además, también se vio alterada la concentración de varios ácidos grasos de cadena corta, un mensajero entre el microbioma y el sistema inmune mediante GPCRs (receptores acoplados a proteínas G) (Ratajczak et al., 2019). De hecho, se ha probado a desarrollar métodos de detección temprana de la FAC mediante la detección de Enterococcus faecalis mediante Rt-qPCR (Komen et al., 2014). En concreto, esta bacteria es capaz de adquirir genes que codifican una colagenasa, por un lado, y que activan la metaloproteinasa 9 (degrada colágeno tipo IV), por otro (Shogan et al., 2015). El colágeno tipo I y tipo IV es crucial para el mantenimiento y la reparación de la matriz extracelular tras la operación. En esta línea, los suplementos con L-arginina ayudaron en la recuperación en un grupo de ratones tras una laparotomía (Wittmann et al., 2005). Pseudomonas aeruginosa es otra bacteria que puede desarrollar un fenotipo virulento (Olivas et al., 2012). La cepa resultante mostraba una actividad colagenasa mucho más alta que en la no virulenta y una alteración de la producción de piocianinas.Se ha documentado que la ingesta de polímeros de polietilenglicol o polifosfatos pueden suprimir la producción de colagenasas y, por tanto, prevenir la FAC (Hyoju et al., 2018). Todos estos datos sugieren una relación entre la presencia de ciertos géneros bacterianos con un mayor riesgo de formación de FAC. Sin embargo, actualmente no existen pruebas de que la disbiosis (desequilibrio en la homeostasis de la microbiota intestinal) anterior a la cirugía de resección del colon sea un impedimento para la correcta cicatrización de la lesión anastomótica. 5 Objetivos del trabajo • Encontrar la relación entre ciertos géneros de bacterias de la microbiota y la formación de FACs mediante modelos de machine learning1. • Desarrollar un método de diagnóstico basado en machine learning para predecir la formación de una FAC en pacientes a partir de su población microbiana preoperatoria. 1 Los términos machine learning, deep learning y otros conceptos relacionados no se han traducido al español por su uso extendido en inglés en el campo de la computación. 9 Capítulo II: Material y métodos 1 Obtención y tratamiento de los datos Los datos se obtuvieron gracias al trabajo del grupo de Microbiología del Instituto Ramón y Cajal de Investigación Sanitaria (IRYCIS), en el Hospital Universitario Ramón y Cajal. Se tomaron muestras de 111 pacientes de cáncer de colon, además de 4 pacientes sanos que actuaron como control negativo. De los 111, 10 (9% del total) desarrollaron FAC tras la operación. El grupo de edad más numeroso en el estudio fue el de 70 a 75 años, siendo todos los participantes mayores de 50 años. La distribución de sexos fue de un 44% de mujeres por un 56% de hombres (Figura 3). De cada paciente, se tomaron 3 muestras: una biopsia distal, una biopsia proximal y una muestra de heces. Estas se obtuvieron antes de la cirugía de resección y anastomosis. A continuación, se extrajo el DNA de la muestra y se procedió a secuenciar las regiones variables V3 y V4 del gen 16S rRNA mediante Illumina. Al tener regiones conservadas y regiones variables, este gen es ampliamente utilizado en estudios de filogenia. Las regiones variables permiten separar cada género, mientras que las regiones conservadas permiten diseñar primers efectivos para amplificar las secuencias, obteniendo ASVs. ASV o Amplicon sequence variant hace referencia a secuencias de DNA obtenidas mediante secuenciación de alto rendimiento, y Figura 3: distribución por edad (izquierda) y sexos (derecha) del grupo de estudio. 10 pueden detectar diferencias de incluso un nucleótido entre secuencias. Los ASV se procesaron mediante Qiime2 (Bolyen et al., 2019) y se clasificaron en 466 géneros bacterianos. Qiime2 eliminó las muestras consideradas de baja calidad. Esto ocurre si en la muestra no hay suficiente biomasa y, por tanto, suficiente material genético para hacer una amplificación correcta, o cuando la secuenciación tiene un número bajo de reads (baja cobertura de secuencia). 1.1 Procesamiento de los datos Una vez filtrados por Qiime2, los datos se procesaron con los paquetes Pandas y Scikit-learn en un kernel de Python 3.8 en el entorno Anaconda. Como cada muestra tenía una carga bacteriana distinta, se procedió a normalizar cada uno de los grupos por la suma total de ASVs de cada muestra para obtener distribuciones comparables entre las mismas. Cada muestra se trató con independencia de su procedencia: región distal o proximal del colon, o materia fecal, con el objetivo de tener suficientes muestras de distintos ambientes para poder extraer conclusiones sólidas. Por tanto, un total de 244 muestras procedentes de 107 pacientes se consideraron aptas para incorporarlas al algoritmo de aprendizaje. Se dividió el grupo de datos en 2 subgrupos: un grupo de entrenamiento con un 70% de las instancias y otro grupo de evaluación con el 30% restante para así evitar problemas de overfitting2. 2 Algoritmos de Machine Learning Después de ver la gran complejidad de los datos y las relaciones entre ellos, resulta evidente que una aproximación tradicional, construyendo un algoritmo en base al análisis exploratorio de los datos, no es viable. En cambio, resulta más interesante que los datos construyan el algoritmo: se optó por utilizar una aproximación basada en el Machine Learning (ML). La ventaja de este enfoque es que permite detectar relaciones complejas y sutiles de una forma más rápida y eficiente que la realizada por humanos. Dentro de las distintas ramas del ML, el problema de este estudio se considera una clasificación, ya que las muestras están etiquetadas. En este caso, la etiqueta es la aparición de FAC (Sí/No). Por tanto, en este trabajo se utilizaron 4 métodos de clasificación de ML: árboles de decisión, máquinas de vectores de soporte (Support Vector Machine, SVM), K-vecinos más cercanos (K- nearest neigbours, KNN) y redes neuronales. 2 El fenómeno de overfitting (en español se podría traducir como “sobreajuste”) se da cuando un algoritmo se ajusta demasiado a un conjunto de datos de forma que no es generalizable a otro conjunto de datos distinto. 11 (1) (2) ) 2.1 Árboles de decisión Los árboles de decisión son un tipo de aprendizaje automático supervisado donde los datos son divididos sucesivamente en función de un atributo: se trata de un algoritmo de partición recursiva (Safavian & Landgrebe, 1991). El objetivo es que en cada división se mantenga la mayor homogeneidad dentro de cada división, eligiendo el mejor atributo en cada nodo del árbol. La repetición de este proceso genera un árbol de decisiones binarias, cuya iteración se detiene cuando los grupos generados tienen suficiente homología o cuando se alcanza un número máximo de particiones. 2.1.1 Criterio de homogeneidad: entropía de Shannon y divergencia de Kullback-Leibler Publicado en 1948, el trabajo de Shannon fue clave en el desarrollo de las bases de la teoría de la información. Definió la llamada entropía de información, el nivel medio de información e incertidumbre en los posibles resultados de la variable (Shannon, 1948). Dada una variable discreta X (en este caso, si el paciente desarrollará FAC o no) que ocurra con probabilidad p, la entropía de X se define formalmente como (1). 𝐻 = − ∑ 𝑝𝑗 log2 𝑝𝑗 𝑁 𝑗=1 donde H es la entropía, N el número de instancias y p la proporción de instancias en cada clase. Sin embargo, la entropía de Shannon no ofrece por sí sola un criterio suficiente para determinar la ganancia de información. Para ello, es necesario determinar cómo de diferente es una distribución de probabilidad comparada con otra de referencia. En este caso, se debe determinar cómo de distinta es la distribución de probabilidad de las clases antes y después de realizar la división en base a un atributo. Esta es la definición de la divergencia de Kullback- Leibler, también llamada entropía relativa, y sirve para cuantificar la ganancia de información (Kullback & Leibler, 1951). La divergencia de Kullback-Leibler (2) mide cómo de distintas son las probabilidades entre una distribución P y una distribución Q derivada de P. El cálculo de la entropía posterior se define como la suma de las entropías de todas las particiones resultantes, ajustada a la proporción de instancias que pertenecen a cada grupo respecto al conjunto original: 𝐷𝐾𝐿(𝑃|𝑄) = − ∑ 𝑝𝑗 log2 𝑞𝑗 𝑁 𝑗=1 + ∑ 𝑝𝑗 log2 𝑝𝑗 𝑁 𝑗=1 Esto, a efectos del algoritmo de árboles de decisión, supone hallar la diferencia entre las 12 (3) ) (5) ) entropías antes y después de la división binaria de cada nodo del árbol. Por tanto, la entropía posterior es la suma de todas las entropías de Shannon de los m subgrupos formados tras la división, pesados por la proporción k de instancias totales que engloban (3)(4). 𝛥𝐻 = 𝐻𝑎𝑛𝑡𝑒𝑠 − 𝐻𝑑𝑒𝑠𝑝𝑢é𝑠 ∆𝐻 = − ∑ 𝑝𝑗log2 𝑝𝑗 𝑁 𝑗=1 + ∑ 𝑘𝑖 𝑚 𝑖=1 ∑ 𝑝𝑙 log2 𝑝𝑙 𝑘·𝑁 𝑙=1 Para elegir el atributo que se usa en cada nodo, se busca el que genere una ganancia de información (ΔH) más grande. 2.2 SVM Las máquinas de vectores de soporte (SVM por sus siglas en inglés) son otra clase de modelos de aprendizaje supervisado (Boser et al., 1992). Se definen como sistemas que usan el espacio hipotético de funciones lineales en un espacio dimensional superior para maximizar el margen entre el hiperplano y los dos puntos más cercanos de las categorías que se quieren separar. Un hiperplano es un subespacio cuya dimensión es una menos que la de su ambiente (por ejemplo, una línea en un espacio bidimensional, un plano en un espacio tridimensional). Cada punto está caracterizado por un vector de p dimensiones, siendo cada dimensión un atributo de la instancia. El hiperplano que mejor separe las dos clases será el elegido. En otras palabras, se busca el hiperplano que maximice los márgenes entre las dos categorías. Los puntos más cercanos al hiperplano son los que definen los márgenes, y se denominan vectores de soporte. Además, son los más difíciles de clasificar. 2.2.1 Kernels Cuando los datos no se pueden separar mediante un hiperplano lineal, se utiliza un kernel no lineal. Los kernel son funciones que trasladan el conjunto de datos a un espacio de dimensión superior con el objetivo de encontrar un hiperplano lineal que permita separar correctamente los datos. Esta aproximación se denomina kernel trick, y es muy potente para crear separaciones a priori no lineales de una forma computacionalmente poco exigente. 2.2.2 Función de pérdida En un conjunto de datos linealmente separable, cada instancia i debe cumplir la siguiente condición (5)(6): 𝑤𝑇𝑥𝑖 − 𝑏 ≥ 1, 𝑠𝑖 𝑦𝑖 = 1 (4) ) 13 (6) ) (7) ) (8) ) o 𝑤𝑇𝑥𝑖 − 𝑏 ≤ −1, 𝑠𝑖 𝑦𝑖 = −1 donde wT es el vector de pesos, xi el vector de atributos, b el umbral de separación e yi la clase a la que pertenece la instancia i. En otras palabras, los conjuntos de datos deben situarse a un lado o a otro de los márgenes del hiperplano, nunca entre ambos. Sin embargo, esta condición no siempre se da, por lo que se introduce una función de pérdida. La función de pérdida penaliza aquellas instancias que se sitúan entre los márgenes del hiperplano. Por tanto, para datos no linealmente separables, esta aproximación permite el uso de SVM en estos casos. Por tanto, el objetivo del algoritmo es minimizar la función de pérdida (7). 𝐿(𝑤) = ∑ max (0, 𝑁 𝑖=1 1 − 𝑦𝑖(𝑤𝑇𝑥𝑖 − 𝑏)) + 𝜆‖𝑤‖2 donde λ es un coeficiente de regularización (representa la disyuntiva entre aumentar el margen y clasificar correctamente el mayor número de instancias posibles). 2.3 KNN El algoritmo de K vecinos más cercanos (k-nearest neighbours) es otro método de clasificación supervisada (Altman, 1992). Se basa en la asunción de que los atributos de aquellas instancias que pertenezcan a la misma clase tendrán valores similares. Al punto de clase desconocida se le asignará la etiqueta mayoritaria en su entorno más próximo. Para medir la distancia con el resto de las instancias clasificadas, se suele usar la distancia euclídea (8). 𝑑(𝑥1𝑥2) = √∑(𝑥𝑘1 − 𝑥𝑘2)2 𝑛 𝑘=1 siendo m el número total de atributos. 2.3.1 Elección de k Se probaron valores del 1 al 20, obteniendo los mejores valores de clasificación con k=1. Este valor se alineó con lo esperado ya que, proporcionalmente, hay muchas menos muestras FAC- positivas que FAC-negativas. 14 2.4 Redes neuronales Las redes neuronales son una aproximación computacional al funcionamiento de un cerebro biológico. Se basa en unidades funcionales de procesamiento llamadas neuronas, que a su vez forman una red de interacciones entre ellas a través de la cual intercambian señales. Las conexiones se regulan por dos parámetros: el peso y el sesgo. 2.4.1 Componentes de las neuronas Cada neurona se compone de una o varias entradas, una función de activación y una salida. Cada entrada va ajustada por un peso que determina la importancia de la misma. El input de la neurona se define como la suma, ponderada por dichos pesos, de todas las señales de entrada. Esta entrada se evalúa mediante una función normalmente no lineal que genera una señal u otra dependiendo de su umbral de activación. Existen muchos tipos de funciones de activación: desde las de todo-o-nada a funciones que producen una señal gradual. A su vez, esta señal de salida se puede conectar con otras neuronas, formando así una red. 2.4.2 Tipos de neurona Existen 3 tipos principales: neuronas de entrada, neuronas de salida y neuronas ocultas. Entre las neuronas de entrada y las de salida se encuentran las neuronas ocultas. La arquitectura que se implementó en el trabajo fue una capa oculta de 100 neuronas. De las cientos de arquitecturas testadas, fue la que mejores resultados obtuvo. 2.4.3 Entrenamiento En primera instancia, los pesos de cada relación se asignan aleatoriamente. Cuando se ofrecen datos anotados (con la variable objetivo descrita), los pesos son ajustados para minimizar una función de error. La constante de aprendizaje indica la magnitud del cambio de dichos pesos tras cada iteración. Si esta es muy grande, los pesos anteriores se eliminarán completamente y la red generalmente acabará oscilando entre comportamientos opuestos, por lo que sólo pueden recordar patrones individuales. Por el contrario, si es muy pequeña, la extracción de información es insuficiente para construir un modelo generalista. 3 Sistemas de evaluación 3.1 Matrices de confusión Las matrices de confusión son tablas que permiten evaluar el desempeño de la clasificación de los algoritmos de machine learning. Las filas representan las instancias de cada clase en la 15 realidad, y cada columna representa las clases predichas por el algoritmo. Las tablas presentadas se normalizaron por número de instancias por clase real. Dicho de otro modo, se sumaron las instancias de cada clase real (las filas) y se dividió cada clase predicha (las columnas) por dicha suma. Esta forma de representación constituye una manera sencilla de visualizar la tasa de falsos positivos y fasos negativos del algoritmo de clasificación. 3.2 Curvas ROC y AUC Las curvas ROC (Receiver Operating Characteristic, Característica Operativa del Receptor) representan la sensibilidad (o proporción de verdaderos positivos) frente a la especificidad (1 menos la proporción de falsos positivos). Representan los intercambios entre falsos positivos y verdaderos positivos de acuerdo a un score. Los que presenten scores altos se asignarán a una clase, mientras que los que presenten scores bajos se asignarán a la contraria. Si el score predice correctamente la clase positiva, dicha instancia contará como un verdadero positivo. Si predice incorrectamente como negativa una clase realmente positiva, entonces dicha instancia contará como un falso positivo. El área bajo la curva ROC (AUC) es un buen estimador del desempeño de los algoritmos de ML. Su valor se halla entre 0 y 1, siendo 1 el mejor clasificador posible. Un valor de 0.5 indica que el clasificador no es mejor que un clasificador que asigne clases aleatorias a las instancias. Valores inferiores a 0.5 indicarían que el clasificador es intencionadamente malo. 3.3 F1 score El F1 score (9) es la media armónica de la precisión y la sensibilidad o recall. Es una medida Figura 4: disposición y datos que alberga una matriz de confusión. 16 (9) ) (11) ) (10) ) robusta del desempeño de un clasificador para los casos en los que existe una distribución no equilibrada de las clases, como es el caso. 𝐹1 = 2 · 𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 · 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 + 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 Teniendo en cuenta los 4 gruposde instancias tomadas de la matriz de confusión, la precisión y la sensibilidad se definen como: 𝑃𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 La precisión (10) hace referencia a la proporción de instancias realmente positivas y que el algoritmo ha clasificado como tal (TP) respecto a todas las que el algoritmo ha clasificado como verdaderas (TP + FP). Un algoritmo con baja precisión, por tanto, tendrá un gran número de instancias realmente positivas clasificadas como negativas. La sensibilidad (11), por el contrario, señala la proporción de instancias TP respecto a todas las clases realmente positivas (TP + FN). Un algoritmo con baja sensibilidad tendrá dificultades para distinguir las clases positivas de las negativas, obteniendo un gran número de falsos positivos. Un clasificador con alta precisión y baja sensibilidad tendrá muy pocos falsos positivos pero un gran número de falsos negativos. De igual forma, un clasificador con alta sensibilidad y baja precisión tendrá muy pocos falsos negativos pero un gran número de falsos positivos. Por tanto, la utilidad del F1 score radica en que permite combinar los dos parámetros en uno solo. 4 Implementación en Python Los cuatro modelos detallados en el apartado anterior se implantaron en Python mediante el paquete Scikit-learn (Pedregosa et al., 2011). Scikit-learn es un módulo de Python que integra una gran variedad de algoritmos de ML, entre los que se encuentran los 4 algoritmos utilizados: Árboles de decisión, SVM, KNN y redes neuronales. Los modelos se ejecutaron en el entorno Anaconda con un kernel de Python 3.8.3. Para la producción de figuras, se usó el paquete Matplotlib. El código utilizado se puede consultar en el siguiente enlace. https://drive.google.com/drive/folders/1Jqqqxccu25ENN-vPzQExhzzcooBs0u3Z?usp=sharing 17 Capítulo III: Resultados 1 Distribución por sexos El 70% de los casos de formación de FAC ocurrieron en hombres, frente a un 30% en el caso de mujeres. Por el contrario, la distribución de sexos en los casos en los que no apareció FAC fue más equitativa: un 55% de hombres frente a un 45% de mujeres. 2 Evaluación de los algoritmos 2.1 F1 score Los 4 modelos predijeron de forma correcta los casos en los que no se desarrolla FAC. Sin embargo, presentaron importantes diferencias a la hora de predecir correctamente los casos en los que sí aparece FAC. Aquí, el árbol de decisión, el KNN y la red neuronal presentaron los Figura 5: distribución de sexos en los casos en los que hubo formación de FAC y en los que no Figura 6: F1 score de los cuatro algoritmos utilizados en los casos en los que se desarrolla FAC y en los que no. F1 s co re 18 peores resultados, todos igual o menores de 0.5. El SVM consiguió un F1 score de 0.64 (Figura 6). 2.2 Matrices de confusión La predicción de clases se representó en forma de matrices de confusión normalizadas por número de clases verdaderas (Figura 7). El árbol de decisión fue incapaz de clasificar correctamente las muestras FAC-positivas. El algoritmo de KNN acertó en la mitad de las muestras FAC-positivas, pero no es suficientemente preciso como para poder extraer conclusiones. Tanto la red neuronal como el SVM produjeron mejores resultados. Mientras que el SVM sobresalió en la correcta predicción de muestras FAC-positivas, la red neuronal, por el contrario, tuvo más dificultades en la predicción de estos casos. Figura 7: matrices de confusión de los 4 algoritmos probados. Los resultados están normalizados por filas. Los números indican la proporción de instancias de cada tipo según su categoría real. 19 2.3 Curva ROC y AUC Los 4 métodos se comportaron mejor que un clasificador binario. Sin embargo, se encontraron importantes diferencias entre ellos. Tanto el SVM como la red neuronal mostraron un AUC cercano a 1 y una curva muy alejada de la diagonal, lo que los cataloga como buenos clasificadores. En cambio, el KNN y, sobre todo, el árbol de decisión, sólo exhibieron un comportamiento ligeramente mejor que un clasificador aleatorio, insuficiente para tener algún tipo de valor diagnóstico (Figura 8). El objetivo del trabajo implica la necesidad de reducir al máximo el número de falsos negativos por encima de cualquier otro parámetro, ya que un diagnóstico fallido en estos casos podría acarrear graves consecuencias. Por tanto, se eligió el SVM como mejor clasificador ya que es el Figura 8: curvas ROC y AUC de los 4 modelos analizados. La diagonal indica la curva ROC de un clasificador que asigna clases de forma aleatoria. 20 algoritmo que mayor sensibilidad obtuvo. Además, el SVM permite extraer relaciones directas entre los pesos calculados por el modelo y los géneros bacterianos caracterizados. La red neuronal, por el contrario, funciona como una caja negra: los pesos se asocian a las neuronas, no a los atributos. 3 Bacterias más importantes consideradas por el algoritmo Como se ha detallado en el capítulo anterior, el SVM ajusta el algoritmo mediante la variación de los pesos de cada atributo para así establecer los márgenes que permiten separar las dos clases con la mayor precisión posible. Extrayendo los pesos asociados a cada género, se pueden extraer aquellos que el algoritmo ha considerado más importantes. Los pesos negativos se asociaron con la categoría negativa. Según las ecuaciones (5) y (6) introducidas en el capítulo II, los vectores de pesos multiplicados por la proporción de géneros bacterianos debían dar un resultado inferior a -1 o superior a 1. Por tanto, los valores negativos de pesos sirvieron para clasificar instancias en la categoría negativa (o ausencia de FAC), mientras que los valores positivos contribuyeron a clasificar las instancias en la categoría positiva (o presencia de FAC). Figura 9: pesos asignados a cada género bacteriano por el algoritmo de SVM. Valores más altos indican mayor importancia en la presencia de FAC. 21 Se representaron los 40 géneros con pesos más altos en valor absoluto que el algoritmo ha utilizado para diferenciar cada clase, del total de los 466 estudiados. Los géneros Citrobacter, Tyzzerella, Butyricimonas, Blautia y Prevotella fueron los géneros bacterianos más asociados a los pacientes con FAC (Figura 9), entre otros. Por el contrario, Ruminococcus, Erysipelatoclostridium y Anaeroplasma fueron los que más contribuyeron a diferenciar a los pacientes que no desarrollaron FAC (Figura 10). En este grupo también se encontraron bacterias relevantes como Bifidobacterium o Faecalibacterium. El resto de los géneros tuvieron pesos absolutos más bajos, la mayoría de ellos cercanos a cero, por lo que no se consideraron decisivos para separar ambas clases. Figura 10: pesos asignados a cada género bacteriano por el algoritmo de SVM. Valores más bajos indican mayor importancia en la ausencia de FAC. 22 Capítulo IV: Discusión 1 El modelo de SVM como método de diagnóstico Son cientos los estudios que ya han utilizado aplicaciones de machine learning en multitud de campos de la medicina como la oftalmología, la neurología o la oncología (Hosny et al., 2018). Incluso, un estudio desarrolló un algoritmo de machine learning para diagnosticar una infección por COVID-19 a partir de una imagen torácica de rayos X (Elaziz et al., 2020). La gran cantidad de estudios publicados en esta línea evidencia la necesidad de obtener métodos de diagnóstico fiables y rápidos. En esta línea, el algoritmo de SVM entrenados con los datos de poblaciones bacterianas han resultado ser un buen clasificador de muestras procedentes de pacientes con y sin FAC. Con un 89% de eficacia a la hora de clasificar las muestras FAC-negativas y un 88% para clasificar las FAC-positivas, el modelo logra una capacidad diagnóstica muy importante. Por tanto, se puede predecir con bastante fiabilidad si el pacientetiene riesgo alto de desarrollar una FAC y tomar medidas preventivas al respecto. Una de estas medidas puede ser la administración oral o in situ de antibióticos, como se expuso en el capítulo I. Sin embargo, el uso de este modelo predictivo puede servir para reducir su uso indiscriminado, utilizándose sólo en aquellos casos que tengan riesgo de formar FAC. Así, se consigue reducir el uso de antibióticos, reduciendo la aparición de cepas multirresistentes y evitando tratamientos, en ocasiones no exentos de efectos secundarios, a pacientes ya de por sí en condiciones de salud precarias. 2 Parámetros potencialmente asociados a la FAC 2.1 Bacterias potencialmente asociadas a la formación de FAC Los géneros con pesos positivos se consideran como contribuyentes a la formación de FAC. Citrobacter es un género de bacterias gramnegativas perteneciente a la familia Enterobacteriaceae (al igual que E.Coli, Klebsiella y Enterobacter, asociadas a infecciones oportunistas). Se ha documentado que este género puede desencadenar infecciones en pacientes ancianos y en estado de fragilidad. Además, Citrobacter se ha asociado a un estado de disbiosis intestinal en numerosos estudios (Kalinkovich & Livshits, 2019; Shukla et al., 2015). Se ha documentado que las infecciones del líquido peritoneal causadas por varios géneros incluyendo Citrobacter eran inesperadamente comunes, como consecuencia de la fuga de 23 material luminal del tracto intestinal al peritoneo (Lipsky et al., 1980). Tyzzerella es un género de bacterias Grampositivas que fue descubierto en 2013. Por tanto, hay poca literatura al respecto sobre su papel en infecciones oportunistas. Sí aparecen estudios que relacionan el aumento de Tyzzerella en gallinas con situaciones de estrés (Liu et al., 2020), pero nada más allá que la relacione con infecciones oportunistas. Butyricimonas es un género de bacterias Gramnegativas descubierto en 2009 y presentes en el tracto intestinal de numerosos mamíferos. Hasta ahora, se ha documentado su relación con patologías como la enfermedad de Crohn o la colitis ulcerosa, así como en varios casos de bacteriemias (Enemchukwu et al., 2016). Por otro lado, niveles altos de Prevotella en el intestino se asocia a procesos inflamatorios. En un estudio, se relaciona una mayor presencia de dicho género en el intestino con procesos inflamatorios del colon (Scher et al., 2013), lo cual puede estar relacionado con una mayor probabilidad de desarrollar FAC. Klebsiella es otro género relacionado con la disbiosis intestinal. Es responsable de multitud de infecciones oportunistas y además se ha documentado su mayor presencia tras cirugías que involucran al tubo intestinal (Ohigashi et al., 2013). En concreto, un estudio muestra la implicación de Klebsiella en fugas intraabdominales tras una gastrectomía (Althuwaini et al., 2018). En esa línea, los resultados muestran una asociación de estos géneros con la formación de FAC. Está documentada la relación entre estos géneros y diversas enfermedades y procesos inflamatorios, por lo que resulta plausible pensar que estos también jueguen un papel clave en la formación de FAC. 2.2 Bacterias potencialmente asociadas a la ausencia de FAC Los géneros representados se asociaron a pesos negativos, indicando que estos pueden prevenir la formación de FAC. El más representativo es Bifidobacterium, género ampliamente estudiado por su papel beneficioso para el desarrollo del sistema inmune, entre otros (Cukrowska et al., 2020). Un declive en sus poblaciones suele ser signo de disbiosis intestinal, ya que esta bacteria se sustenta en una compleja red de interacciones con multitud de otras especies (Luo et al., 2018). De hecho, los probióticos con Bifidobacterium llevan décadas utilizándose y han probado su eficacia a lo largo de los años en muchas patologías (Azad et al., 2018). Por tanto, su efecto protector en la formación de FAC reportado por el modelo SVM se alinea con lo descrito en la 24 literatura. Faecalibacterium es otra bacteria catalogada como beneficiosa por la literatura. Es la bacteria más abundante en la microbiota intestinal. Se ha documentado que cambios en sus poblaciones pueden ser signo inequívoco de disbiosis. Además, contribuye a generar un ambiente no proinflamatorio frente a estímulos externos. (Miquel et al., 2013). El resto de los géneros señalados por su papel protector o patogénico no tuvieron respaldo bibliográfico ni a favor ni en contra en cuanto a procesos de formación de FAC o procesos inflamatorios del intestino en general. 2.3 Sexo La población masculina del estudio presentó tasas muy superiores de formación de FAC respecto a la femenina a pesar de que la distribución de sexos en el estudio es más equitativa, por lo que el sexo podría ser un factor de riesgo a tener en cuenta. 3 Limitaciones del estudio Una de las principales limitaciones de este trabajo radica en el reducido número de muestras provenientes de pacientes que desarrollaron FAC. Esto limita la capacidad del algoritmo de ofrecer resultados extrapolables, así como distorsiona la carga bacteriana media de los pacientes. En el caso de los pacientes que desarrollaron FAC, sólo representan el 9% del total, por lo que los valores medios de ASVs son más sensibles a datos anómalos o outliers. Por otro lado, la estimación de la importancia de las bacterias se extrajo de un modelo que sólo es capaz de identificar el 88% de las muestras procedentes de un paciente que desarrolló FAC. Por tanto, existen factores desconocidos que el algoritmo no es capaz de dilucidar, por lo que las listas propuesta en este trabajo puede no reflejar al completo los géneros realmente involucrados en la formación de FAC. En definitiva, este estudio ofrece una primera visión general de los posibles géneros bacterianos que puedan estar favoreciendo la formación de FAC, así como presenta un modelo de predicción de riesgo a partir de la composición de la microbiota intestinal. Sin embargo, se deben desarrollar ensayos con un mayor número de pacientes para profundizar en el estudio de estas relaciones e intentar dilucidar los mecanismos de los que se valen las bacterias para provocar este tipo de lesiones. 25 Capítulo V: Conclusiones Este trabajo arroja luz sobre el papel de la microbiota intestinal en la formación de fugas anastomóticas colorrectales postoperatorias. Mediante modelos de machine learning, se encontraron relaciones entre varios géneros bacterianos y un mayor o menor riesgo de sufrir una FAC. Además, el modelo propuesto puede servir como herramienta de prevención, permitiendo tomar medidas profilácticas para minimizar el riesgo de formación de FAC. En consecuencia, las conclusiones extraídas de este trabajo son las siguientes: • El sexo es potencialmente un factor de riesgo a tener en cuenta en la formación de una FAC. • El modelo SVM entrenado puede tener valor como herramienta de diagnosis por su alta sensibilidad. • CItrobacter, Klebsiella, Tyzzerella, Butyricimonas, Prevotella y Staphylococcus se asociaron a un mayor riesgo de formación de FAC. • Bifidobacterium y Faecalibacterium se asociaron a un efecto protector contra la formación de FAC. • Debido al bajo número de pacientes, distorsiones en la medición de algunas muestras pueden haber introducido errores que hayan alterado los resultados del algoritmo. • Se necesitan estudios más específicos y con un mayor número de pacientes para esclarecer el papel de los géneros bacterianos en la formación de FAC. 26 Capítulo VI: Bibliografía Abdulamir, A. S., Hafidh, R. R., & Bakar, F. A. (2011). The association of Streptococcus bovis/gallolyticus with colorectal tumors: The nature and the underlying mechanisms of its etiological role. Journal of Experimental and Clinical Cancer Research, 30. Adak, A., & Khan, M. R. (2019). An insight into gut microbiotaand its functionalities. Cellular and Molecular Life Sciences, 76, 473–493. Althuwaini, S., Bamehriz, F., Alobaid, O., Barry, M., Somily, A., & Aldohayan, A. (2018). Identification of Bacterial and Fungal Pathogens in Patients with Post-Laparoscopic Sleeve Gastrectomy Leakage. Obesity Surgery, 28(12), 3965–3968. Altman, N. S. (1992). An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression. The American Statistician, 46(3). Asociación Española Contra el Cáncer. (2018). Adenocarcinoma de Colon. Madrid, España. Disponible en Internet: https://www.aecc.es/es/todo-sobre-cancer/tipos-cancer/cancer-colon/adenocarcinoma. Consultado el 03/06/2021. Azad, M. A. K., Sarker, M., Li, T., & Yin, J. (2018). Probiotic Species in the Modulation of Gut Microbiota: An Overview. BioMed Research International, 8(MAY). Bolyen, E., Rideout, J. R., Dillon, M. R., Bokulich, N. A., Abnet, C. C., Al-Ghalith, G. A., Alexander, H., Alm, E. J., Arumugam, M., Asnicar, F., Bai, Y., Bisanz, J. E., Bittinger, K., Brejnrod, A., Brislawn, C. J., Brown, C. T., Callahan, B. J., Caraballo-Rodríguez, A. M., Chase, J., … Caporaso, J. G. (2019). Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology, 37, 852–857. Borre, Y. E., Moloney, R. D., Clarke, G., Dinan, T. G., & Cryan, J. F. (2014). The impact of microbiota on brain and behavior: Mechanisms & therapeutic potential. Advances in Experimental Medicine and Biology, 817, 373–403. Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992). A training algorithm for optimal margin classifiers. Proceedings of the Fifth Annual ACM Workshop on Computational Learning Theory, 144–152. Bruce, J., Krukowski, Z. H., Al-Khairy, G., Russell, E. M., & Park, K. G. M. (2001). Systematic review of the definition and measurement of anastomotic leak after gastrointestinal surgery. British Journal of Surgery, 88(8), 1157–1168. Cohn, I., & Rives, J. D. (1955). Antibiotic protection of colon anastomoses. Annals of Surgery, 141(5), 707– 717. Cukrowska, B., Bierła, J. B., Zakrzewska, M., Klukowski, M., & Maciorkowska, E. (2020). The relationship https://www.aecc.es/es/todo-sobre-cancer/tipos-cancer/cancer-colon/adenocarcinoma 27 between the infant gut microbiota and allergy. The role of Bifidobacterium breve and prebiotic oligosaccharides in the activation of anti-allergic mechanisms in early life. Nutrients, 12(4). Deierhoi, R. J., Dawes, L. G., Vick, C., Itani, K. M. F., & Hawn, M. T. (2013). Choice of intravenous antibiotic prophylaxis for colorectal surgery does matter. Journal of the American College of Surgeons, 217(5), 763–769. Elaziz, M. A., Hosny, K. M., Salah, A., Darwish, M. M., Lu, S., & Sahlol, A. T. (2020). New machine learning method for imagebased diagnosis of COVID-19. PLoS ONE, 15(6). Enemchukwu, C. U., Ben-Faras, H., Gialanella, P., Szymczak, W. A., Nosanchuk, J. D., & Madaline, T. F. (2016). Butyricimonas virosa bacteraemia and bowel disease: Case report and review. New Microbes and New Infections, 13, 34–36. Ferlay J, Ervik M, Lam F, Colombet M, Mery L, Piñeros M, Znaor A, Soerjomataram I, & Bray F. (2020). Global Cancer Observatory: Cancer Today. Lyon, France: International Agency for Research on Cancer. Lyon, Francia. Disponible en: https://gco.iarc.fr/today/home. Consultado el 04/06/2021 Gao, Z., Guo, B., Gao, R., Zhu, Q., & Qin, H. (2015). Microbiota disbiosis is associated with colorectal cancer. Frontiers in Microbiology, 6(FEB). Greene, F. L., Page, D. L., Fleming, I. D., Fritz, A. G., Balch, C. M., Haller, D. G., & Morrow, M. (Eds.). (2002). AJCC Cancer Staging Manual (6th edition). Springer New York. Hosny, A., Parmar, C., Quackenbush, J., Schwartz, L. H., & Aerts, H. J. W. L. (2018). Artificial intelligence in radiology. Nature Reviews Cancer, 18(8), 500–510. Hyoju, S. K., Klabbers, R. E., Aaron, M., Krezalek, M. A., Zaborin, A., Wiegerinck, M., Hyman, N. H., Zaborina, O., van Goor, H., & Alverdy, J. C. (2018). Oral Polyphosphate Suppresses Bacterial Collagenase Production and Prevents Anastomotic Leak Due to Serratia marcescens and Pseudomonas aeruginosa. Annals of Surgery, 267(6), 1112–1118. Kalinkovich, A., & Livshits, G. (2019). A cross talk between dysbiosis and gut-associated immune system governs the development of inflammatory arthropathies. Seminars in Arthritis and Rheumatism, 49(3), 474–484. Kingham, T. P., & Pachter, H. L. (2009). Colonic Anastomotic Leak: Risk Factors, Diagnosis, and Treatment. Journal of the American College of Surgeon, 208(2), 269–278. Komen, N., Slieker, J., Willemsen, P., Mannaerts, G., Pattyn, P., Karsten, T., de Wilt, H., van der Harst, E., van Leeuwen, W., Decaestecker, C., Jeekel, H., & Lange, J. F. (2014). Polymerase chain reaction for Enterococcus faecalis in drain fluid: The first screening test for symptomatic colorectal anastomotic leakage. The Appeal-study: Analysis of Parameters Predictive for Evident Anastomotic Leakage. International Journal of Colorectal Disease, 29(1), 15–21. https://gco.iarc.fr/today/home 28 Kullback, S., & Leibler, R. A. (1951). On Information and Sufficiency. The Annals of Mathematical Statistics, 22(1), 79–86. Law, W. L., Chu, K. W., Ho, J. W. C., & Chan, C. W. (2000). Risk factors for anastomotic leakage after low anterior resection with total mesorectal excision. American Journal of Surgery, 179(2), 92–96. Lederberg, J. (2000). Infectious history. Science, 288(5464), 287–293. Lipsky, B. A., Hook, E. W., Smith, A. A., & Plorde, J. J. (1980). Citrobacter infections in humans: experience at the Seattle Veterans Administration Medical Center and a review of the literature. Reviews of infectious diseases, 2(5), 746–760. Liu, G., Zhu, H., Ma, T., Yan, Z., Zhang, Y., Geng, Y., Zhu, Y., & Shi, Y. (2020). Effect of chronic cyclic heat stress on the intestinal morphology, oxidative status and cecal bacterial communities in broilers. Journal of Thermal Biology, 91. Luo, J., Li, Y., Xie, J., Gao, L., Liu, L., Ou, S., Chen, L., & Peng, X. (2018). The primary biological network of Bifidobacterium in the gut. FEMS Microbiology Letters, 365(8), 57. Macpherson, A. J., & Harris, N. L. (2004). Interactions between commensal intestinal bacteria and the immune system. Nature Reviews Immunology, 4(6), 478–485. Mäkelä, J. T., Kiviniemi, H., & Laitinen, S. (2003). Risk factors for anastomotic leakage after left-sided colorectal resection with rectal anastomosis. Diseases of the Colon and Rectum, 46(5), 653–660. Miquel, S., Martín, R., Rossi, O., Bermúdez-Humarán, L. G., Chatel, J. M., Sokol, H., Thomas, M., Wells, J. M., & Langella, P. (2013). Faecalibacterium prausnitzii and human intestinal health. Current Opinion in Microbiology, 16(3), 255–261. Moertel, C. G., Fleming, T. R., Macdonald, J. S., Haller, D. G., Laurie, J. A., Tangen, C. M., Ungerleider, J. S., Emerson, W. A., Tormey, D. C., Glick, J. H., Veeder, M. H., Mailliard, J. A., & Graff, J. (1995). Fluorouracil plus levamisole as effective adjuvant therapy after resection of stage III colon carcinoma: A final report. Annals of Internal Medicine, 122(5), 321–326. Ohigashi, S., Sudo, K., Kobayashi, D., Takahashi, T., Nomoto, K., & Onodera, H. (2013). Significant Changes in the Intestinal Environment After Surgery in Patients with Colorectal Cancer. Journal of Gastrointestinal Surgery, 17(9), 1657–1664. Olivas, A. D., Shogan, B. D., Valuckaite, V., Zaborin, A., Belogortseva, N., Musch, M., Meyer, F., L.Trimble, W., An, G., Gilbert, J., Zaborina, O., & Alverdy, J. C. (2012). Intestinal Tissues Induce an SNP Mutation in Pseudomonas aeruginosa That Enhances Its Virulence: Possible Role in Anastomotic Leak. PLoS ONE, 7(8). 29 Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Müller, A., Nothman, J., Louppe, G., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J.,Passos, A., Cournapeau, D., Brucher, M., Perrot, M., & Duchesnay, É. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825–2830. Pimentel-Nunes, P., Gonçalves, N., Boal-Carvalho, I., Afonso, L., Lopes, P., Roncon-Albuquerque, R., Soares, J. B., Cardoso, E., Henrique, R., Moreira-Dias, L., Dinis-Ribeiro, M., & Leite-Moreira, A. F. (2012). Decreased toll-interacting protein and peroxisome proliferator-activated receptor γ are associated with increased expression of toll-like receptors in colon carcinogenesis. Journal of Clinical Pathology, 65(4), 302–308. Pimentel-Nunes, P., Teixeira, A. L., Pereira, C., Gomes, M., Brandão, C., Rodrigues, C., Gonçalves, N., Boal- Carvalho, I., Roncon-Albuquerque, R., Moreira-Dias, L., Leite-Moreira, A. F., Medeiros, R., & Dinis- Ribeiro, M. (2013). Functional polymorphisms of Toll-like receptors 2 and 4 alter the risk for colorectal carcinoma in Europeans. Digestive and Liver Disease, 45(1), 63–69. QUASAR Collaborative Group. (2007). Adjuvant chemotherapy versus observation in patients with colorectal cancer: a randomised study. Lancet, 370(9604), 2020–2029. Rahbari, N. N., Weitz, J., Hohenberger, W., Heald, R. J., Moran, B., Ulrich, A., Holm, T., Wong, W. D., Tiret, E., Moriya, Y., Laurberg, S., den Dulk, M., van de Velde, C., & Büchler, M. W. (2010). Definition and grading of anastomotic leakage following anterior resection of the rectum: A proposal by the International Study Group of Rectal Cancer. Surgery, 147(3), 339–351. Ratajczak, W., Rył, A., Mizerski, A., Walczakiewicz, K., Sipak, O., & Laszczyńska, M. (2019). Immunomodulatory potential of gut microbiome-derived shortchain fatty acids (SCFAs). Acta Biochimica Polonica, 66(1), 1–12. Rawla, P., Sunkara, T., & Barsouk, A. (2019). Epidemiology of colorectal cancer: Incidence, mortality, survival, and risk factors. Przeglad Gastroenterologiczny, 14(2), 89–103. Round, J. L., & Mazmanian, S. K. (2009). The gut microbiota shapes intestinal immune responses during health and disease. Nature Reviews Immunology, 9(5), 313–323. Safavian, S. R., & Landgrebe, D. (1991). A Survey of Decision Tree Classifier Methodology. IEEE Transactions on Systems, Man, and Cybernetics, 21(3). Scher, J. U., Sczesnak, A., Longman, R. S., Segata, N., Ubeda, C., Bielski, C., Rostron, T., Cerundolo, V., Pamer, E. G., Abramson, S. B., Huttenhower, C., & Littman, D. R. (2013). Expansion of intestinal Prevotella copri correlates with enhanced susceptibility to arthritis. ELife, 2013(2). Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3). Shogan, B. D., Belogortseva, N., Luong, P. M., Zaborin, A., Lax, S., Bethel, C., Ward, M., Muldoon, J. P., 30 Singer, M., An, G., Umanskiy, K., Konda, V., Shakhsheer, B., Luo, J., Klabbers, R., Hancock, L. E., Gilbert, J., Zaborina, O., & Alverdy, J. C. (2015). Collagen degradation and MMP9 activation by Enterococcus faecalis contribute to intestinal anastomotic leak. Science Translational Medicine, 7(286). Shukla, R., Ghoshal, U., Dhole, T. N., & Ghoshal, U. C. (2015). Fecal Microbiota in Patients with Irritable Bowel Syndrome Compared with Healthy Controls Using Real-Time Polymerase Chain Reaction: An Evidence of Dysbiosis. Digestive Diseases and Sciences, 60(10), 2953–2962. Sung, H., Ferlay, J., Siegel, R. L., Laversanne, M., Soerjomataram, I., Jemal, A., & Bray, F. (2021). Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA: A Cancer Journal for Clinicians, 71(3), 209–249. Thrumurthy, S. G., Thrumurthy, S. S. D., Gilbert, C. E., Ross, P., & Haji, A. (2016). Colorectal adenocarcinoma: Risks, prevention and diagnosis. BMJ (Online), 354. Vignali, A., Gianotti, L., Braga, M., Radaelli, G., Malvezzi, L., & di Carlo, V. (2000). Altered microperfusion at the rectal stump is predictive for rectal anastomotic leak. Diseases of the Colon and Rectum, 43(1), 76–82. Wilkinson, N., & Scott-Conner, C. E. H. (2008). Surgical Therapy for Colorectal Adenocarcinoma. Gastroenterology Clinics of North America, 37(1), 253–267. Wittmann, F., Prix, N., Mayr, S., Angele, P., Wichmann, M. W., van den Engel, N. K., Hernandez-Richter, T., Chaudry, I. H., Jauch, K. W., & Angele, M. K. (2005). L-arginine improves wound healing after trauma- hemorrhage by increasing collagen synthesis. Journal of Trauma - Injury, Infection and Critical Care, 59(1), 162–168. Wolmark, N., Rockette, H., Fisher, B., Wickerham, D. L., Redmond, C., Fisher, E. R., Jones, J., Mamounas, E. P., Ore, L., Petrelli, N. J., Spurr, C. L., Dimitrov, N., Romond, E. H., Sutherland, C. M., Kardinal, C. G., DeFusco, P. A., & Jochimsen, P. (1993). The benefit of leucovorin-modulated fluorouracil as postoperative adjuvant therapy for primary colon cancer: Results from National Surgical Adjuvant Breast and Bowel Project protocol C-03. Journal of Clinical Oncology, 11(10), 1879–1887. Zavoral, M., Suchanek, S., Zavada, F., Dusek, L., Muzik, J., Seifert, B., & Fric, P. (2009). Colorectal cancer screening in Europe. World Journal of Gastroenterology, 15(47), 5907–5915. 20BT_PATON GONZALEZ, VICTOR_Memoria del TFG_20210701
Compartir