Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE QUÍMICA APORTACIONES DE LA SECUENCIACIÓN DE ALTO RENDIMIENTO A LA BIOMEDICINA-TRABAJO MONOGRÁFICO DE ACTUALIZACIÓN QUE PARA OBTENER EL TÍTULO DE QUÍMICO FARMACÉUTICO BIÓLOGO PRESENTA AARÓN ELIEZER LÓPEZ LÓPEZ CIUDAD DE MÉXICO, A 13 DE AGOSTO DEL 2018. UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. JURADO ASIGNADO: PRESIDENTE: NANCY MONROY JARAMILLO VOCAL: ALBERTO ORTEGA VÁZQUEZ SECRETARIO: GEORGINA HERNÁNDEZ MONTES 1er. SUPLENTE: LIZBETH ESMERALDA GARCÍA VELÁZQUEZ 2° SUPLENTE: ALBERTO GRACÍA LOZANO SITIO DONDE SE DESARROLLÓ EL TEMA: RED DE APOYO A LA INVESTIGACIÓN (UNAM) ASESOR DEL TEMA: DRA. GEORGINA HERNÁNDEZ MONTES _________________________ SUSTENTANTE: AARÓN ELIEZER LÓPEZ LÓPEZ __________________________ ÍNDICE RESUMEN…………………………………………………………………………….....1 INTRODUCCIÓN………………………………………………………………….........4 OBJETIVOS……………………………………………………………………………..6 1.Secuenciación de alto rendimiento y medicina personalizada…………………..7 1.1 Antecedentes…………………………………………………………….….........9 1. 2 Secuenciadores comerciales…………………………………………............12 1.3. Aplicaciones de la tecnología de secuenciación……………….………......19 2. Secuenciación de genoma y variación………………….…………..…………...20 2.1 Variación genómica y cáncer………………………………………….…...23 3. Metagenómica………………………………………………………………..…....27 3.1 Secuenciación del microbioma………………………….……………….....28 3.2 Microbioma humano……………………………………………………….....31 3.3 Correlación entre salud y microbioma…………………………………..….36 4.Transcriptómica……………………………………….……….……………....….55 4.1 Transcriptómica y cáncer………………………….……………….........….58 4.2 Transcriptómica y enfermedades cardiovasculares……….......…..….....67 4.3 Transcriptómica y diabetes……………………………………...…..….…..71 5. Epigenómica……..………………………………...………………....…..…......74 5.1 Epigenómica y cáncer……………...…………………………...…………...79 5.2 Fármacos que actúan sobre el epigenoma……...…………...….....….….80 6. Alcances de la medicina de precisión…………………………..….....……….82 6.1 Medicina de precisión en México…………………………..……….……...85 DISCUSIÓN…………………………...….………………..………………..…...…….89 CONCLUSIONES………….…………...………………...………………..……….....93 BIBLIOGRAFÍA…………………………………………...…………………….…..….94 1 RESUMEN La medicina de precisión ha presentado un crecimiento exponencial en años recientes. La secuenciación del genoma humano fue un gran salto en el conocimiento biológico el cual abrió un nuevo panorama para la investigación en ciencias de la salud. Esto motivó el desarrollo de nuevas tecnologías de secuenciación que facilitarán considerablemente la secuenciación del material genético, no solo del ser humano, sino de prácticamente cualquier especie. Las tecnologías de secuenciación de nueva generación han abierto un nuevo camino a investigadores sobre la etiología y pronóstico de una gran cantidad de enfermedades de componente genético, principalmente cáncer, diabetes tipo 1 y 2 y enfermedades cardiovasculares entre otras. Gracias a estas nuevas plataformas, hoy en día es posible obtener una cantidad de datos considerable en períodos de tiempo relativamente bajos, y por un costo bastante inferior al que representaba secuenciar hace algunos años. Por ello, el objetivo de este trabajo es realizar una revisión exhaustiva del impacto de las tecnologías de secuenciación de nueva generación en el área de la biomedicina, principalmente en las áreas metagenómica,transcriptómica, epigenómica y variantes a nivel de genoma, ya que todas ellas se basan en la secuenciación como principal herramienta para generar datos bioinformáticos. El desarrollo de nuevas tecnologías de secuenciación, también ha permitido la caracterización de una gran cantidad de genomas, incluso a nivel de poblaciones completas. Esto ha facilitado la identificación de variantes de riesgo que predisponen a la aparición y desarrollo de ciertas enfermedades, como es el caso del cáncer de mama. Hoy en día es posible obtener un panorama más global del genoma, ya que por lo regular, hay más de un gen que se encuentra afectado para que pueda observarse la enfermedad en un individuo con predisposición genética. Además la secuenciación de alto rendimiento ha facilitado de manera considerable la identificación de nuevas variables de riesgo, asociadas a diversas enfermedades, y sobre todo en distintas poblaciones. Gracias a la secuenciación del metagenoma, se ha observado la influencia de la microbiota en la etiología de diversas enfermedades humanas, entre las cuales destacan el cáncer y la diabetes tipo 1 y 2. Diferentes especies microbianas producen metabolitos cuyo impacto puede afectar de manera considerable la salud 2 del hospedero. Por ejemplo, algunas especies interviene con el metabolismo de estrógenos al desconjugar los ácidos biliares primarios, permitiendo la reabsorción de estrógenos,los cuales se sabe están implicados en la aparición de diversos tipos de cáncer, como es el cáncer de endometrio. En el caso de la diabetes, algunas especies bacterianas pueden promover la autoinmunidad contra las células beta pancreáticas, al proporcionar un entrenamiento poco adecuado para el sistema inmune de niños en desarrollo, aumentando las posibilidades de que el infante presente diabetes tipo 1. Más aún, la caracterización del microbioma también ha permitido plantear el uso de este como un posible biomarcador para enfermedades, ya que en el caso de la diabetes, o bien en pronósticos para el cáncer, ya que se observa un aumento o disminución en determinadas especies bacterianas, lo cual puede correlacionarse con el desarrollo de la enfermedad. Incluso, se ha planteado el uso o modificación de la microbiota como posible herramienta terapéutica. La transcriptómica por su parte, se enfoca en el estudio del material genético transcrito de una célula, o bien de un organismo completo. Esto resulta de gran utilidad para la investigación en el cáncer, donde las células malignas se caracterizan por presentar un patrón transcriptómico aberrante. Sin embargo, el estudio de la transcriptómica no solo se limita a esta enfermedad, sino que también ha permitido la caracterización de diversos tipos de transcritos que pueden estar involucrados en la etiología de otras enfermedades, como ocurre en las enfermedades cardiovasculares y diabetes. Algunos tipos de RNA están involucrados en la respuesta a daño vascular, mientras que otros se especula tiene una función importante en el metabolismo de la insulina y glucosa. La epigenómica, es el estudio de la expresión modificable del genoma. Típicamente, las células no utilizan en su totalidad su material genómico, por lo que se requieren de sofisticados mecanismos de silenciamiento y/o activación de genes para que todacélula lleve adecuadamente sus funciones. Para conocer las regiones del genoma que están sujetas a modificaciones covalentes,se requiere de enfoques epigenéticos. Hoy en día los dos principales son la secuenciación con bisulfito y ChiP-seq. Enfermedades como el cáncer, presenta alteraciones importantes en el 3 epigenoma, principalmente debidas al silenciamiento de genes supresores de tumores, y /o al activación de oncogenes. Además, es importante la adecuada caracterización de las regiones genómicas sujetas al silenciamiento o activación de genes, ya que esto también ha permitido el diseño de nuevos fármacos que actúan a nivel de epigenoma, restablecido el equilibrio en la regulación covalente de genes. Es por ello que cada día hay más iniciativas que buscan apoyar el desarrollo de la medicina de precisión a nivel mundial, ya que la medicina de precisión promete un gran avance en las ciencias de la salud para la humanidad. La medicina de precisión ha permitido una mejor caracterización genómica de las poblaciones de distintos países alrededor del mundo y México no es la excepción. El alto porcentaje de mestizaje en este país, proporciona un nuevo reto para la medicina de precisión, pues muchas de las variables de riesgo reportadas han sido detectadas en poblaciones caucásicas, asiáticas o de afrodescendientes, por lo que, poblaciones indígenas y mestizas en menor grado, han permanecido poco estudiadas en el contexto genómico, lo que abre un nuevo panorama para la medicina de precisión en este país. A pesar de los nuevos obstáculos que ahora se presentan en el desarrollo integral de la medicina de precisión, es importante destacar la gran cantidad de información que ha sido generada en los últimos años gracias a la investigación sistemática e implementación de estas nuevas tecnologías. Si bien hoy en día, aún no es del todo asequible la implementación de la medicina personalizada en el área clínica, gracias al desarrollo en la investigación, cada vez se vuelve más fácil imaginar este nuevo enfoque. 4 INTRODUCCIÓN La secuencia de bases nitrogenadas del DNA contiene la información necesaria para que todo organismo realice sus funciones vitales. Por ello, para poder comprender y modificar esta información, la secuenciación del ADN se ha vuelto indispensable para la investigación biomédica en décadas recientes. El primer método de secuenciación químico enzimático fue desarrollado por Frederick Sanger y colaboradores en el año de 1977. Este método contribuyó de manera significativa al desarrollo de las ciencias biológicas en décadas posteriores. Gracias a esta técnica, fue posible completar la secuencia del genoma humano en el año 2003. Las tecnologías posteriores al método de Sanger se consideran de segunda generación, ya que éstas tienen mayor rendimiento y los costos de secuenciación son considerablemente más bajos. Poco después, se logró eliminar el paso de amplificación, así como la monitorización en tiempo real en los equipos más modernos de secuenciación. Esto dio lugar a las tecnologías de tercera generación, siendo estas últimas el estado del arte en la tecnología de secuenciación actual. Las tecnologías de secuenciación de alto rendimiento han permitido abordar problemas biológicos desde una perspectiva global. Una de las aplicaciones más prometedoras de estas tecnologías es en el campo de la medicina personalizada, la cual busca diagnosticar y pronosticar el curso de diferentes enfermedades con base en la información genómica del paciente, en conjunto con los demás datos clínicos. Gracias a los nuevos equipos de secuenciación, es posible secuenciar el genoma de una gran cantidad de organismos, que de otro modo serían imposibles de caracterizar. Esto ha facilitado nuestra comprensión de la participación de la microbiota en los diferentes estados de salud. La secuenciación del alto rendimiento también ha facilitado la caracterización del transcriptoma, por lo que hoy en día conocemos un panorama más amplio de la gran cantidad de transcritos que hay en la célula, y cómo influyen en los diferentes estadios del desarrollo, los cuales también son cruciales para conocer la etiología de diversas enfermedades. Más aún, hoy en día es posible caracterizar el epigenoma. A excepción del zigoto totipotencial y las células de línea germinal, las células humanas, no requieren de su información genómica completa, por lo que los mecanismos de silenciamiento de genes son cruciales para su adecuado desarrollo y supervivencia. Finalmente, los 5 equipos de secuenciación de nueva generación han permitido detectar una gran cantidad de variantes genómicas en individuos de una misma población, las cuales podrían estar implicadas en la etiología y desarrollo de diversas enfermedades. A pesar de que este desarrollo tecnológico ha revolucionado por completo nuestra forma de abordar las preguntas en biomedicina y ha generado una gran cantidad de información, hoy en día aún quedan bastantes retos para poder aplicar este conocimiento al ámbito clínico. Actualmente han surgido iniciativas con el fin de desarrollar nuevas herramientas y metodologías que permitan la integración de información para implementar la medicina de personalizada. 6 OBJETIVOS ● Realizar una revisión exhaustiva de publicaciones científicas recientes, relacionadas con la biomedicina. ● Recopilar algunos de los hallazgos más significativos, relacionados con la secuenciación, en las diversas ramas de la medicina de precisión. ● Analizar cómo han contribuido las tecnologías de secuenciación masiva al desarrollo de la medicina de precisión. ● Comprender mejor cuál es el panorama actual de la medicina precisión, a nivel mundial y en México. 7 1. Secuenciación de alto rendimiento y medicina personalizada La mayoría de los conceptos centrales de la biología que se aceptan en la actualidad, fueron definidos a partir de la caracterización de las moléculas de ácido desoxirribonucleico (DNA por sus siglas en inglés deoxyribonucleic acid) y ácido ribonucleico (RNA por sus siglas en inglés ribonucleic acid) (Sanchez-Flores and Abreu-Goodger 2014). Entre estos destacan la función del DNA en la heredabilidad, así como su participación en el código genético, y el Dogma Central de la Biología molecular, donde la transcripción, la traducción, y la regulación de las mismas, hubieran resultado imposibles de definir sin una previa caracterización de la estructura química de los ácidos nucleicos que componen el código genético (Sanchez-Flores and Abreu-Goodger 2014). Con la caracterización de la estructura tridimensional del DNA, es decir, la doble hélice, el siguiente paso limitante para la investigación biológica, sería poder descifrar el código genético, es decir “leer” o secuenciar el DNA (Sanchez-Flores and Abreu-Goodger 2014; Heather and Chain 2016). El orden de ácidos nucleicos en las cadenas de polinucleótidos determina la información hereditaria y las propiedades bioquímicas que serán transmitidas a la progenie en toda forma de vida (Heather and Chain 2016). Es por ello, que la determinación de este orden o secuencia es fundamental para la investigación biológica. Gracias a la llegada de nuevas tecnologías de secuenciación del DNA, se ha observado un crecimiento exponencial en los datos genómicos y transcriptómicos en décadas recientes (Sanchez-Flores and Abreu-Goodger 2014). A pesar de que diversos factores también han contribuido al crecimiento exponencial de estos datos bioinformáticos, gran parte del avance se debe a las tecnologías de secuenciación de alto rendimiento (Sanchez-Flores and Abreu-Goodger 2014). Tomando como referencia el método de Sanger, éstastecnologías reducen drásticamente los costos de secuenciación, y al mismo tiempo, muestran un gran aumento en el rendimiento (Sanchez-Flores and Abreu-Goodger 2014). Si se considera el método de Sanger como el primer método estandarizado de secuenciación, podría decirse que las tecnologías posteriores son de segunda y tercer generación, respectivamente (Sanchez-Flores and Abreu-Goodger 2014). https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 8 La disminución en los costos de secuenciación, así como la mayor accesibilidad de estas tecnologías han permitido a universidades a instituciones desarrollar un amplio catálogo de aplicaciones para la secuenciación de alto rendimiento (Reuter et al. 2015). Una de las aplicaciones más interesantes de estas nuevas tecnologías está en el campo de la medicina personalizada o medicina de precisión, la cual se basa en el panorama genético de los pacientes para evaluar y monitorizar su estado de salud, así como los posibles riesgos médicos, que el mismo paciente puede presentar (Sanchez-Flores and Abreu-Goodger 2014). Para ello se requiere interpretar la información genómica y transcriptómica de cada paciente, en conjunto con los estudios clínicos e historia médica del paciente. Sin embargo, la integración de la información médica, así como la información de ciencias ómicas, no es una tarea sencilla, y requiere de la interpretación de expertos en ambas áreas para la integración de un diagnóstico útil (Sanchez-Flores and Abreu-Goodger 2014). El término “medicina de precisión” fue utilizado por primera vez en una publicación del US National Research Council donde se buscaba inspirar una nueva taxonomía para la clasificación de enfermedades a través de redes de conocimiento (Ashley 2016). Los autores de esta publicación sugieren el uso de este término, en vez del término más comúnmente usado, “medicina personalizada” ya que las terapias rara vez son desarrolladas para un individuo en particular, sino que se dirigen a un subgrupos de pacientes, en este caso, el subgrupo comparte ciertas características genómicas en común (Ashley 2016). La secuenciación del genoma humano llevó a una gran cantidad de avances potenciales para la medicina clínica (Ashley 2016). El comprender las bases genéticas de ciertas enfermedades naturalmente puede llevar a terapias mejor dirigidas (Ashley 2016). Es por ello que gracias a la disminución de costos y mayor accesibilidad de tecnologías de secuenciación de nueva generación se han descubierto nuevos genes causales, así como reportes de decisiones en la mediación, dirigidas con base en las características genómicas de un paciente (Ashley 2016). Debido a la complejidad del genoma humano, la secuenciación con el método tradicional de Sanger, no resultaba una alternativa viable para la investigación biomédica, principalmente por los elevados costos y el rendimiento relativamente https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 https://paperpile.com/c/OxVESO/3RN1 9 bajo que representaba este procedimiento. Esto dio lugar a diferentes iniciativas por parte de Instituciones y Universidades a nivel mundial para disminuir de manera drástica los costos de secuenciación, así como mejorar los rendimientos. Por ejemplo, el Instituto Nacional de Investigación del Genoma Humano (NGHRI por sus siglas en inglés National Human Genome Research Institute) invirtió 70 millones de dólares para reducir el costo de secuenciación del genoma humano a 1000 dólares, en tan sólo 10 años (Reuter et al. 2015). Gracias a esto surgieron diversas tecnologías de secuenciación innovadoras, dando lugar a las plataformas de secuenciación de segunda generación, las cuales tiene como principal característica que reducen el costo de secuenciación por base, requieren cantidades relativamente bajas de material genético y dan mayores rendimientos con respecto al método de Sanger (Sanchez-Flores and Abreu-Goodger 2014). La mejora continua en las tecnologías, dio origen posteriormente a nuevas plataformas de secuenciación, las cuales ya no requerían del paso de amplificación del material genético, y además, la secuenciación en estos equipos puede monitorizarse en tiempo real (Sanchez-Flores and Abreu-Goodger 2014). Por ello, estas últimas plataformas se denominan tecnologías de tercera generación (Sanchez-Flores and Abreu-Goodger 2014). A pesar de las ventajas que ofrecen los equipos de segunda generación, estos presentan ciertas limitaciones, por ejemplo longitudes de lectura cortas, problemas en el ensamblado de genomas y dificultades para la determinación de regiones genómicas complejas, detección de isoformas de genes y detección de la metilación (Rhoads and Au 2015). Algunos de estas limitaciones pueden superarse gracias a ciertos equipos de tercera generación (Rhoads and Au 2015). 1.1 Antecedentes Los ácidos nucleicos fueron descubiertos por primera vez en 1869 por Friedrich Miescher, quien los denominó como “nucleína”, no obstante, se desconocía su función en la herencia, y más aún, sus funciones bioquímicas (Sanchez-Flores and Abreu-Goodger 2014). Para 1953, fue elucidada por primera vez la estructura tridimensional del DNA, por Watson y Crick, con base en los datos cristalográficos obtenidos por Rosalind Franklin y Maurice Wilkins(Sanchez-Flores and Abreu- Goodger 2014; Heather and Chain 2016). Sin embargo, no se sabía como “leer” o interpretar esta información genética. No fue sino hasta 1965 cuando Robert Holley https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/f136+maJ1 10 y sus colegas obtuvieron la primer secuencia de una molécula completa de alanina de RNA de transferencia (tRNA) de Saccharomyces cerevisiae. Al mismo tiempo, Fred Sanger y colaboradores desarrollaron una técnica, basada en la detección de fragmentos parcialmente digeridos y marcados radiactivamente, después de un fraccionamiento bidimensional (Heather and Chain 2016).Posteriormente, Ray Wu y Dale Kaiser utilizaron el fago λ y la ADN polimerasa para llenar los extremos cohesivos usando nucleótidos radioactivos, proporcionando cada nucleótido, uno a la vez y midiendo su incorporación para deducir su secuencia (Heather and Chain 2016). Esta técnica permitió inferir el orden de los nucleótidos en cualquier sitio del genoma de los bacteriófagos (Heather and Chain 2016). El siguiente paso crítico sería el reemplazo del fraccionamiento bidimensional por una separación sencilla, en función de la longitud de los polinucleótidos a través de geles de poliacrilamida. Esta técnica recibió el nombre de “plus y minus”. El procedimiento consistía en el uso de la ADN polimerasa para sintetizar a partir de un iniciador, incorporando nucleótidos radiomarcados, antes de realizar dos reacciones seguidas de polimerización, la reacción “plus” en la cual solo un tipo de nucleótido estaba presente, así todas las extensiones serían terminadas con esa base, y posteriormente la reacción “minus” en la cual se usaban los otros tres nucleótidos, produciendo todas las secuencias antes de la posición del nucleótido faltante. Los productos obtenidos, se corren en un gel de poliacrilamida, y comparando entre los ocho carriles, es posible inferir la secuencia más probable. (Heather and Chain 2016). A pesar de que estos métodos constituyeron un gran avance en la tecnología de secuenciación, el mayor progreso que cambiaría para siempre la forma de secuenciar el ADN sería con la técnica de Sanger, desarrollada en 1977 (Heather and Chain 2016). Esta técnica emplea análogos químicos de los desoxirribonucleótidos (dNTPs) los cuales son monómeros de las hebras de ADN. Los didesoxirribonucleótidos (ddNTPs) carecen del grupo hidroxilo en el carbono 3´ el cual se requiere para las extensiones de las cadenas de ADN durante la polimerización, y por lo tanto no se pueden enlazar con el fosfato en el carbono 5´ del siguiente dNTP. Al mezclar ddNTPs marcados radioactivamente, a una fracción de la concentración de dNTPs, en una reacción de extensión de ADN, las hebras de ADN se extenderán tan largo como sea posible, hasta la incorporación de un https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/f136+maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 11 ddNTP, en un sitio aleatorio. De esta manera se detendrá la síntesis debido a que no hay un hidroxilo libre en 3´ para incorporar el siguiente nucleótido. Realizando una corrida de cuatro reacciones en paralelo conteniendo cada una, un ddNTP específico, y posteriormente corriendo los resultados en un gel de poliacrilamida de cuatro carriles, es posible determinar la secuencia de nucleótidos del molde original, usando autorradiografía para observar las bandas en el gel, las cuales varían en función de la longitud del fragmento (Heather and Chain 2016). Se realizaron una serie de mejoras a la técnica de secuenciación de Sanger, principalmente se reemplazó el marcado radiactivo con fósforo o tritio, por la detección fluorimétrica de bases, así como la mejora en la detección utilizando electroforesis capilar (Heather and Chain 2016). Ambas mejoras contribuyeron al desarrollo de máquinas de secuenciación de ADN cada vez más automatizadas. Las máquinas de secuenciación de primera generación producían lecturas ligeramente menores a una kilobase (kb), por lo que, para analizar fragmentos de mayor tamaño, los investigadores usaron técnicas como la secuenciación en “shotgun” donde los fragmentos de ADN se rompen en segmentos de menor tamaño, los cuales son clonados por separado, y ensamblados en una secuencia larga y continua in silico, utilizando algoritmos informáticos (Heather and Chain 2016). El desarrollo de técnicas como la reacción en cadena de la polimerasa (PCR por sus siglas en inglés Polymerase Chain Reaction) y tecnologías recombinantes de DNA permitieron generar altas concentraciones de fragmentos de ADN, requeridas para secuenciar (Heather and Chain 2016). Al mismo tiempo que se dio el desarrollo de métodos para secuenciar a gran escala, usando la técnica de Sanger, surgió una técnica luminiscente que abrió paso a la siguiente generación de secuenciadores de ADN. (Heather and Chain 2016). Consistía en un proceso de dos reacciones consecutivas, en el cual se empleó ATP sulfurilasa para convertir el pirofosfato en ATP, mismo que es usado como sustrato por la luciferasa, produciendo luz, proporcional a la cantidad inicial de pirofosfato. Este principio se usa para inferir el orden de nucleótidos midiendo la producción de pirofosfato conforme cada nucleótido es lavado a través del sistema, a lo largo del molde de ADN fijado a una fase sólida (Heather and Chain 2016). Este método recibió el nombre de pirosecuenciación, y al igual que el método de Sanger, requiere https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 12 la acción directa de la DNA polimerasa, sin embargo presenta ciertas ventajas, como el uso de nucleótidos naturales, además puede ser observada en tiempo real. 1.2. Secuenciadores comerciales La primera máquina de secuenciación de alto rendimiento que se comercializó ampliamente fue la máquina original 454, llamada GS 20, que posteriormente se convirtió en la 454 GS FLX, la cual utilizaba la técnica de pirosecuenciación y ofrecía un gran número de lecturas, así como datos de mejor calidad (Heather and Chain 2016). El desarrollo posterior de las tecnologías de secuenciación se dio de manera continua, sin embargo debido al fundamento de su técnica se clasificaron como tecnologías de primera, segunda y tercera generación. Puede decirse que todas las tecnologías de secuenciación que no requieran la amplificación de ADN, son consideradas de tercera generación, ya que todas las tecnologías previas a estas, si lo requieren (Heather and Chain 2016). A continuación se describen algunas plataformas de secuenciación comerciales de mayor relevancia. 1.2.1 Illumina Solexa liberó su equipo Genome analyzer II en 2006, que posteriormente sería adquirida por Illumina (Heather and Chain 2016). El proceso de secuenciación en la plataforma Illumina/Solexa involucra la amplificación clonal de fragmentos de ADN ligados a un adaptador en la superficie de una placa de vidrio. La lectura de las bases se realiza mediante terminación cíclica reversible, en la cual se secuencia la hebra molde, nucleótido por nucleótido (Reuter et al. 2015). Esto se realiza a través de rondas progresivas de incorporación a la base, lavado, obtención de imagen y escisión. Para llevar a cabo esta estrategia, se emplean 3´-O-azidometil-dNTPs marcados fluorescentemente para pausar la reacción de polimerización. De este modo, es posible remover las bases no incorporadas y obtener a su vez, la imagen fluorescente del nucleótido incorporado (Reuter et al. 2015). Para obtener la imagen, el equipo realiza un escaneo a la celda de flujo, mediante una cámara de dispositivo de carga acoplada (Reuter et al. 2015). Una vez obtenida la imagen, la mitad fluorescente y el bloque 3´ se remueven, dejando libre el 3´OH, y así el proceso se repitehasta obtener la secuencia completa (Reuter et al. 2015). En la Figura 1 se detalla el fundamento químico de esta plataforma, mientras que la Figura 2 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 13 muestran los equipos HiSeq 2000 ® y Miseq ® de la compañía Illumina, los cuales funcionan gracias a este principio. Figura 1. Fundamento químico de la terminación cíclica reversible Terminación reversible con cuatro colores en el método de Ilumina. Los moldes de ADN se amplifican clonalmente en la superficie de vidrio de la celda de flujo. La secuenciación se logra mediante rondas sucesivas de incorporación de base, lavado y obtención de la imagen. Tras la obtención de la imagen, se realiza una escisión del nucleótido marcado y se regenera el 3´OH para el siguiente ciclo. El análisis posterior de la imagen de cuatro colores permite determinar la secuencia de nucleótidos. Adaptada de (Reuter et al. 2015). Figura 2. Equipos HiSeq 2000 y MiSeq Equipos de secuenciación de terminación reversible. A)HiSeq 2000, al igual que las plataformas de Illumina, este equipo, se recomienda su uso para la secuenciación de exomas y análisis de transcriptoma completo. B)MiSeq, a pesar de que funciona bajo el mismo principio que otros equipos de la plataforma Illumina, se recomienda su uso para la secuenciación de genomas pequeños(virus, bacterias), gracias a sus cortos tiempos de corrida, y largas longitudes de lectura (https://www.eurofinsgenomics.co.in/en/next-generation-sequencing/rna-seq/small-rna-seq.aspx). https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://www.eurofinsgenomics.co.in/en/next-generation-sequencing/rna-seq/small-rna-seq.aspx 14 1.2.2 Life Technologies La mayoría de los equipos de secuenciación utilizaban la fluorescencia o luminiscencia como método de detección para las bases nitrogenadas. Sin embargo, para el año 2010 Life Technologies comercializó el equipo Ion Torrent en 2010. Esta fue la primera plataforma de secuenciación que dejó de emplear fluorescencia o luminiscencia. De manera análoga a 454, las poblaciones clonales de fragmentos de ADN (producidas por PCR en emulsión) son soportadas en perlas, y lavadas en placas de pozos, seguidas por la adhesión de cada nucleótido sucesivamente, sin embargo, la incorporación de cada nucleótido no se sigue por la liberación de pirofosfato, sino por cambios en el pH, producidos por la liberación de protones (H+) durante la polimerización (Heather and Chain 2016). Esta detección es posible gracias al uso de la tecnología de semiconductor complementario metal- óxido, usado en la manufactura de chips de microprocesadores (Heather and Chain 2016). 1.2.3 Helicos Biosciences La primera tecnología de secuenciación de una sola molécula, fue comercializado por Helicos BioSciences (Heather and Chain 2016). En este equipo los moldes están ligados a una superficie plana, y los dNTPs terminadores fluorescentes adecuados son lavados, uno por uno conforme se incorporan las bases, y al mismo tiempo se obtiene la imagen, antes de la escisión e incorporación de la siguiente base (Heather and Chain 2016). A pesar de ser relativamente lenta y cara, esta tecnología fue la primera que permitió secuenciar sin la necesidad de usar ADN amplificado, por lo que también eliminó todos los sesgos y errores asociados a este proceso (Heather and Chain 2016). 1.2.4 Pacific Biosciences Por otra parte, la tecnología de secuenciación de tercera generación probablemente más empleada, es la plataforma de secuenciación una sola molécula en tiempo real (SMRT por sus siglas en inglés Single Molecule Real Time), desarrollada por Pacific Biosciences (Heather and Chain 2016). En la secuenciación SMRT, la preparación del molde involucra el ligamiento de adaptadores de hebra sencilla en forma de horquilla a las moléculas de cDNA o ADN digerido, generando un molde tapado (Reuter et al. 2015). Se utiliza una polimerasa que desplaza la hebra de ADN, por lo https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 15 que la molécula original puede ser secuenciada múltiples veces, mejorando así la exactitud (Reuter et al. 2015). En este sistema, la amplificación clonal ya no es requerida, por lo que se puede secuenciar directamente del DNA nativo o parcialmente modificado (Rhoads and Au 2015). La síntesis del DNA ocurre en arreglos de nanoestructuras llamadas guías de onda de modo cero o ZMW (por sus siglas en inglés zero-mode waveguides), en las cuales una sola polimerasa se encuentra inmovilizada en el fondo de la cámara (Rhoads and Au 2015). La cámara cuenta con un orificio tan pequeño como la longitud de onda de la luz que lo atraviesa, lo que provoca un decaimiento exponencial, iluminando exclusivamente el fondo del pozo. Esto permite la visualización de una sola molécula fluorófora, cercana al fondo del ZMW, debido a la zona de excitación del láser. La simple deposición de cada base, debida a la polimerización del DNA coloca a los nucleótidos marcados fluorescentemente en la región iluminada, por lo que se puede seguir en tiempo real la incorporación de cada base, y elucidar así la secuencia de nucleótidos de la muestra de interés. En la Figura 3 se presenta un esquema del funcionamiento químico de esta plataforma, mientras que la Figura 4 muestra una fotografía del equipo PacBio RS II, el cual funciona con este principio. https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM 16 Figura 3. Fundamento químico de la secuenciación SMRT En esta plataforma una sola DNA polimerasa se encuentra fija en el fondo del ZMW. Versiones marcadas en el fosfato de cada uno de los cuatro dNTPs son incorporados a la reacción de polimerización a partir del DNA molde. La incorporación de las bases aumenta el tiempo de residencia del nucleótido en el ZMW, resultando en una señal fluorescente detectable que es capturada en video. Adaptada de (Reuter et al. 2015). Figura 4. Equipo PacBio RS II Este equipo utiliza la plataforma de Pacific Biosciences SMRT. No se requiere amplificar previamente el ADN a secuenciar, por lo que se considera un equipo de tercera generación. Una de sus ventajas es su gran longitud de lectura, la cual va de 10 a 60 kpb (https://www.genomescan.nl/pacbio-rs-ii-ultra-long-read-sequencing/). 1.2.5 Oxford Nanopore Technologies Posiblemente, la tecnología de secuenciación de tercera generación más novedosa sea la plataforma de secuenciación por nanoporos. El uso potencial de los https://paperpile.com/c/OxVESO/QWi2 https://www.genomescan.nl/pacbio-rs-ii-ultra-long-read-sequencing/17 nanoporos para la secuenciación fue descubierto incluso antes que muchas tecnologías de segunda generación (Heather and Chain 2016). En eso entonces, los investigadores demostraron que el DNA o RNA de una sola hebra que atravesaba una bicapa lipídica a través de un canal iónico de α-hemolisina, mediante electroforesis, generaba cambios en el flujo iónico, disminuyendo la corriente, por un intervalo de tiempo proporcional a la longitud de la cadena del ácido nucleico, por lo que se propuso el uso potencial de este principio para la secuenciación. La primera compañía que ofreció secuenciadores por nanoporo fue Oxford Nanopore Technologies, a través de las plataformas GridION y MinION (Heather and Chain 2016). A pesar de los perfiles de baja calidad observados actualmente, permite lecturas muy largas, sin necesidad de amplificar, produciendo datos de secuencias mucho más rápidos y baratos que cualquier otra tecnología anterior. Los secuenciadores de nanoporos han revolucionado no solo la cantidad de datos de secuenciación que se producen, sino también cuándo y dónde se obtienen esos datos y por quien se obtienen los mismos. La secuenciación por nanoporos se basa en la transición de ADN o nucleótidos individuales a través de un canal pequeño (Reuter et al. 2015). La tecnología de nanoporos de Oxford, utiliza celdas de flujo de secuenciación, las cuales comprenden cientos de micropozos individuales, cada uno conteniendo una bicapa sintética perforada por nanoporos biológicos (Reuter et al. 2015). La secuenciación se consigue midiendo cambios característicos en la intensidad de corriente que son inducidos conforme las bases atraviesan el poro gracias a una proteína motriz molecular. El primer adaptador se une con la enzima motriz adecuada, así como a un adaptador molecular, mientras que el segundo adaptador es un oligonucleótido en horquilla que a su vez es unido a una segunda proteína motriz llamada HP (Figura 5). En la Figura 6, se muestra una imagen del equipo MinION, el cual está diseñado para realizar ensayos de secuenciación masiva fuera del laboratorio, gracias a su tamaño pequeño. https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/maJ1 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 18 Figura 5. Fundamento químico de la secuenciación por nanoporos En el sistema de nanoporos de Oxford, los moldes de DNA se encuentran ligados a dos adaptadores, el primer adaptador se encuentra unido a la enzima motriz (color ámbar), al igual que a una correa molecular (color amarillo), el segundo adaptador está ligado a un oligo en forma de horquilla que está ligado a su vez a la proteína motriz HP (color azul). Una vez que los nucleótidos atraviesan el poro se produce un cambio en la intensidad de corriente característico de cada base, lo que permite discriminar entre ellas. Gracias al diseño de la biblioteca, se pueden secuenciar ambas hebras de DNA a partir de una sola molécula. Adaptada de (Reuter et al. 2015). Figura 6. Equipo MinION Este dispositivo es fácilmente transportable debido a su diminuto tamaño, por lo que permite secuenciar fuera del laboratorio. Utiliza la plataforma de Oxford Nanopore, de manera que puede realizar análisis en tiempo real y es adaptable para secuenciar directamente DNA o RNA. Tomada de (https://nanoporetech.com/products/minion ). Cada una de las plataformas de secuenciación de nueva generación opera con un principio químico diferente. En la Tabla 1 se realiza una comparación de algunas de las plataformas más utilizadas actualmente, considerando la longitud de lectura, el https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://nanoporetech.com/products/minion 19 rendimiento y el tiempo de corrida. Es importarte considerar las características de cada equipo, ya que éstas pueden aportar distintos tipos de sesgo o errores relativos, dependiendo del tipo de experimento que se desee realizar. Equipo Longitud de lectura(pb) Rendimiento (Gb) Tiempo por corrida(horas ) Referencias HiSeq 2500 (High-output) 250 600 264 (Sanchez-Flores and Abreu- Goodger 2014; Rhoads and Au 2015) HiSeq 2500 (Rapid-run) 500 90 40 (Sanchez-Flores and Abreu- Goodger 2014; Rhoads and Au 2015) Oxford Nanopore MinION 2000-5000 >0.0009 18-50 (Reuter et al. 2015; Rhoads and Au 2015) Ion Torrent- Ion proton 200 10 2-8 (Reuter et al. 2015) PacBio RS II 1000-15000 1 0.5-4 (Rhoads and Au 2015; Reuter et al. 2015) Tabla 1. Cuadro comparativo las principales tecnologías de secuenciación de alto rendimiento, utilizadas a la fecha. Se incluyen longitudes de lectura y rendimiento (Reuter et al. 2015; Rhoads and Au 2015; Sanchez-Flores and Abreu-Goodger 2014). 1.3. Aplicaciones de la tecnología de secuenciación Las tecnologías de secuenciación de alto rendimiento han permitido mejorar nuestra comprensión de las diversas moléculas que permiten la preservación y transmisión de la información. La secuenciación de genomas y exomas ha mejorado nuestro entendimiento de la genética en las enfermedades humanas, principalmente en los desórdenes monogénicos y multifactoriales como el cáncer (Reuter et al. 2015). Por otra parte, la secuenciación del RNA ha permitido identificar sistemáticamente los diferentes tipos de RNA tales como los RNA no codificantes largos (lncRNA), RNA pequeños nucleolares (snoRNA) y micro RNA (miRNA)), así como caracterizar su estructura, las interacciones RNA-proteína y su localización genómica (Reuter et al. https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/f136+S0xM https://paperpile.com/c/OxVESO/QWi2+S0xM https://paperpile.com/c/OxVESO/QWi2+S0xM https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/S0xM+QWi2 https://paperpile.com/c/OxVESO/S0xM+QWi2 https://paperpile.com/c/OxVESO/QWi2+S0xM+f136 https://paperpile.com/c/OxVESO/QWi2+S0xM+f136 https://paperpile.com/c/OxVESO/QWi2+S0xM+f136 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 20 2015). El mapeo genómico de elementos regulatorios del DNA en alta resolución ha permitido comparar la información regulatoria entre muchos genomas individuales o un solo genoma entre diferentes tipos celulares o tipos de tejido (Reuter et al. 2015). Finalmente la metagenómica ha permitido obtener un catálogo extenso de muestras de diferentes hábitats, proporcionando información sobre la diversidad microbiana en una gran variedad de ecosistemas (Reuter et al. 2015). En las siguientes secciones se hará una revisión de las diferentes aportaciones a cada uno de los campos antes mencionados. 2. Secuenciación de genoma y variación La secuencia de DNA a lo largo de los cromosomas cambia constantemente, y gracias a este proceso, el ser humano ha logrado evolucionar y adaptarse (Zarrei et al. 2015). La variación genética ha sido un tema de interés, pues desde tiempo atrás se sabe que la variación puede ocurrir en un amplio rango de tamaño, que va desde fragmentos del genoma citogeneticamente reconocibles, hasta variantes de un sólo nucleótido (Zarrei et al. 2015). Además, el significado de las variantes también sigue un gradiente, que va las variantes directamente involucradas con un desorden patogénico hasta las variantes benignas (Richards et al. 2015). La secuenciación del genoma humano, despertó el interés por la búsqueda de variantes genéticas en enfermedades humanas. Con la mejora continuaen las tecnologías de secuenciación, fue posible volver a secuenciar diversos genomas y exomas humanos, y de este modo, comparar las nuevas secuencias con el genoma de referencia, lo cual permitió identificar las variantes entre genomas muestra y el genoma de referencia (Reuter et al. 2015). Los individuos típicamente poseen de 3.5-4 millones de variantes de un sólo nucleótido, y cientos de miles inserciones y deleciones cortas, relativas al genoma de referencia (Reuter et al. 2015). Actualmente, la secuenciación de alto rendimiento ha sido aplicada a miles de genomas y decenas de miles de exomas, resultando en enormes hallazgos en la diversidad y enfermedades humanas (Reuter et al. 2015). Una mutación, se define como un cambio permanente en la secuencia de nucleótidos, mientras que un polimorfismo se define como una variante genética presente en más del 1% de una determinada población (Richards et al. 2015). Sin embargo ambos términos a menudo pueden llevar a confusiones, debido a https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/q9XK https://paperpile.com/c/OxVESO/q9XK https://paperpile.com/c/OxVESO/q9XK https://paperpile.com/c/OxVESO/q9XK https://paperpile.com/c/OxVESO/q9XK https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/QWi2 https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed 21 suposiciones incorrectas de los efectos benignos y patogénicos, respectivamente (Richards et al. 2015). El término “polimorfismo” es confuso ya que en algunas disciplinas se refiere a una variación en la secuencia que no causa enfermedad, mientras que en otras disciplinas se refiere a una variante presenten en el 1% o más de la población (den Dunnen et al. 2016). El término “mutación” también resulta ambiguo, ya que se usa tanto para hacer referencia a un simple cambio en la secuencia, como para un cambio causante de enfermedad (den Dunnen et al. 2016). Por ello, se recomienda el reemplazo de ambos términos por “variante” con las siguientes modificaciones: a)patogénica, b)probablemente patogénica, c) de significado incierto, d) probablemente benigna y e) benigna (Richards et al. 2015). A pesar de que estas modificaciones pueden no englobar todos los fenotipos humanos, comprenden un sistema de clasificación de cinco niveles relevante para los desórdenes Mendelianos (Richards et al. 2015). Para mejorar la claridad, así como facilitar los análisis computacionales y la descripción de variantes secuenciales, los cinco tipos de variantes básicos han sido definidos más estrictamente (den Dunnen et al. 2016). Además, las descripciones se han priorizado de tal manera que, cuando una variación puede entrar en más de una clase de descripciones, se le asigna únicamente la descripción de mayor prioridad (den Dunnen et al. 2016). Por ejemplo, si una variante puede considerarse como una inserción y una duplicación al mismo tiempo, se dice que esta es una duplicación, ya que esta descripción tiene mayor prioridad. El orden de prioridad para las descripciones es el siguiente ; 1) deleción, 2) inversión, 3) duplicación, 4) conversión e 5) inserción (den Dunnen et al. 2016). Las definiciones de cada categoría se presentan en la tabla 2. Tipo de variante Definición Sustitución (>) Cambio donde un nucleótido es reemplazado por otro. Deleción (del) Cambio donde uno o más nucleótidos no están presentes (borrados). Inversión (inv) Cambio donde más de un nucleótido reemplaza la secuencia original y es el complemento inverso de la misma (ejemplo CTCGA por TCGAG) https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/G7ed https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r 22 Duplicación (dup) Cambio donde una copia de uno o más nucleótidos es insertada directamente en la posición 3´ de la secuencia original. Inserción (ins) Cambio donde uno o más nucleótidos son insertados en la secuencia y la inserción no es una copia de se la secuencia inmediata en 5´. Conversión (cons) Tipo específico de deleción donde un rango de nucleótidos que reemplaza la secuencia original es una copia de otra secuencia presente en otra región del genoma. Deleción-Inserción (delins/indel) Cambio donde uno o más nucleótidos son reemplazados por uno o más nucleótidos, el cual no es una sustitución, inversión o conversión. Tabla 2. Definiciones de los tipos básicos de variaciones genómicas. Para una definición más completa debe entenderse “Cambio” como “ Cambio en una secuencia específica comparada con la secuencia de referencia”. Adaptada de (den Dunnen et al. 2016). Las variaciones genéticas se dividen en dos principales categorías, las variaciones de un sólo nucleótido ( SNV por sus siglas en inglés single nucleotide variation) y las variaciones estructurales (SV por sus siglas en inglés structural variation) (Liu et al. 2015). Inicialmente, las SV se definieron como alteraciones genómicas que involucran segmentos mayores a 1kb, pero posteriormente se amplió la definición para incluir a toda alteración en la secuencia del DNA diferente de las SNV (Liu et al. 2015). Las SNV son el tipo de variación genética más común en seres humanos, se estima que estos se presentan cada 290 pb en el genoma humano (Kosaloglu et al. 2016). Evidencia reciente relaciona a las SNV con un amplio rango de enfermedades en humanos tales como el cáncer o desórdenes autoinmunes, además se piensa que éstos pueden ser activados (Kosaloglu et al. 2016). La regulación transcripcional de una proteína, así como su estructura y función pueden verse afectados por la sustitución de una sola base, una inserción o deleción (Kosaloglu et al. 2016). Hasta la fecha se conocen dos tipos principales de SNV las SNV sinónimas (sSNV) y las SNV no sinónimas (nsSNV) (Kosaloglu et al. 2016). Las nsSNV tienen mayor probabilidad de afectar la función de una proteína (Kosaloglu et al. 2016). Las SV son un tipo importante de variación genética que incluyen inserciones, deleciones, duplicaciones, inversiones y rearreglos estructurales a gran escala (Lu et al. 2016). Las SV son más difíciles de detectar y de caracterizar que las SNV (Rhoads and Au 2015). Entre las SV mejor estudiadas se pueden mencionar las https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/p98r https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/3fqc https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/WebJ https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDALhttps://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM 23 variaciones en el número de copia (CNV por sus siglas en inglés copy number variant), las inversiones neutrales en el número de copia, la inserción de elementos móviles (MEI por sus siglas en inglés mobile-element insertion), deleciones y translocaciones , así como la combinación de estos eventos (Rhoads and Au 2015). Gracias a los adelantos en las tecnologías de secuenciación de nueva generación se han desarrollado varios métodos de análisis para detectar SV (Lu et al. 2016). Mientras que las sustituciones e inserciones y deleciones cortas pueden detectarse de manera relativamente sencilla por alineamiento de las lecturas, la identificación de SV de mayor tamaño se dificulta al emplear plataformas de lecturas de secuencia cortas (Lu et al. 2016). Para resolver estas dificultades, a menudo se requiere el uso de evidencias indirectas tales como la perturbación en el mapeo de la lectura, la cobertura de mapeo y los puntos de quiebre en el mapeo (Lu et al. 2016). La caracterización de las Sv es crucial para el estudio de muchas enfermedades, incluyendo el cáncer (Rhoads and Au 2015). Cerca del 13% del genoma humano está sujeto a SV, las cuales representan la mayoría de las variantes de bases (Rhoads and Au 2015). 2.1 Variación genómica y cáncer Los tumores generalmente emergen a partir de células normales cuando se acumulan en estas mutaciones específicas adquiridas en su genoma (Sudmant et al. 2015). Estas variantes somáticas pueden dividirse en dos categorías principales, SNV y SV (Sudmant et al. 2015). El uso de las tecnologías de secuenciación de nueva generación se ha vuelto una poderosa herramienta para caracterizar los panoramas genotípicos de las variantes somáticas y dianas terapéuticas en varios tipos de cáncer (Kohmoto et al. 2017). El cáncer gástrico (CG) ha sido una de las principales causas de mortalidad a nivel mundial, con un aumento en la incidencia en Asia, principalmente en Japón (Kohmoto et al. 2017). Las variaciones en cáncer humano, incluyendo CG, se clasifican en seis categorías principales de sustituciones de bases, la cuales son: C>A, C>G, C>T, T>A, T>C y T>G (Kohmoto et al. 2017). C>T es la sustitución predominantemente reportada en CG, principalmente en los trinucleótidos NpCpGp o TpCpN (Kohmoto et al. 2017). La causa del incremento en C>T, se considera que puede estar relacionada a la https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/KDAL https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/S0xM https://paperpile.com/c/OxVESO/6S8T https://paperpile.com/c/OxVESO/6S8T https://paperpile.com/c/OxVESO/6S8T https://paperpile.com/c/OxVESO/6S8T https://paperpile.com/c/OxVESO/6S8T https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM 24 edad, debido a la alta tasa de desaminación espontánea de 5-metilcitosina (NpCpGp) o a la sobreactivación de la familia APOBEC de desaminansas de citidina (Kohmoto et al. 2017). Otro tipo de cáncer que también ha sido estudiado desde el punto de vista de llamado de variantes es el cáncer colorrectal (CCR). En un estudio realizado por Betge et. al. (2015) se evaluó la estabilidad de la secuenciación por amplicones de muestras embebidas en parafina fijadas en formalina (FFPE por sus siglas en inglés formalin-fixed paraffin-embebed) y muestras congeladas de CCR con metástasis al hígado, utilizando tres diferentes herramientas de procesamiento de datos para el análisis bioinformático (Betge et al. 2015). La secuenciación dirigida permite alcanzar una mayor profundidad de lectura (>1000 lecturas) lo cual facilita la detección de variantes de baja frecuencia en muestras heterogéneas de tumores (Betge et al. 2015). Sin embargo, este enfoque presenta ciertas dificultades en la práctica clínica, ya que frecuentemente se prefiere utilizar muestras FFPE, pues estas pueden almacenarse con mayor facilidad que las muestras congeladas de tumor. No obstante, las muestras FFPE almacenadas por largos periodos de tiempo pueden llevar a alteraciones en el DNA, debidas a la formación de enlaces covalentes del DNA, RNA y proteínas con puentes metileno, así como desaminación y reacciones oxidativas, las cuales fragmentan el DNA y dan lugar a fuentes de error en los datos de secuenciación (Betge et al. 2015). Las variaciones más frecuentes se encontraron en los genes TP53 (10), APC (7), PIK3CA (3) y KRAS (2) (Betge et al. 2015). Se observó una alta concordancia entre las mutaciones reportadas en muestras FFPE y las muestras de tumores congelados (Betge et al. 2015). Sin embargo, se observaron diferencias significativas entre los resultados de distintas herramientas bioinformáticas para llamado de variante, las cuales no estaban relacionadas a la calidad del DNA (Betge et al. 2015). Es por ello que se reitera la necesidad de fuentes de información para llamado de variante, lo cual permitiría la traducción de ésta información al ámbito clínico (Betge et al. 2015). Betge et. al. (2015) concluyeron que la secuenciación de amplicones potencialmente es un enfoque viable para detectar mutaciones predictivas o pronósticas en el genoma de CCR debido al grado de concordancia entre ambas muestras, sin embargo sugieren optimizar los algoritmos bioinformáticos para llamado de variante. https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq https://paperpile.com/c/OxVESO/kiNq 25 A pesar de que las nuevas tecnologías de secuenciación y el desarrollo de algoritmos computacionales han mejorado la precisión en el llamado de variantes somáticas, aún es un proceso difícil, debido a factores tales como los alelos de baja frecuencia, poca pureza en las muestras, heterogeneidad clonal, cobertura de secuencia inadecuada, errores de secuenciación y ambigüedades en el mapeo de lecturas cortas (Kohmoto et al. 2017). El cáncer de mama (CM) es una enfermedad, cuya etiología se ve influenciada por factores ambientales, hormonales y genéticos. La investigación genómica se ha concentrado principalmente en familias con antecedentes de CM, con alto riesgo de presentar alteraciones en los genes BRCA1 y BRCA2, los cuáles están asociados con el riesgo más alto de presentar la enfermedad, a lo largo de toda la vida (De Summa et al. 2017). Sin embargo, en la mayoría de las familias con múltiples pacientes de CM, no se observan mutaciones en estos genes (De Summa et al. 2017). Estas observaciones han llevado a suponer que la susceptibilidad de CM es altamente poligénica, por lo que ésta se ve afectada por un gran número de loci, cada uno de los cuales podría tener una pequeña contribución en el riesgo de CM (De Summa et al. 2017). El descubrimientode nuevos genes de susceptibilidad para CM es crítico para mejorar la evaluación del riesgo de contraer la enfermedad y a su vez, proporcionar un vistazo hacia los mecanismos etiopatogénicos, así como el desarrollo de terapias más efectivas (Chandler et al. 2016). A la fecha las variantes de riesgo para CM han sido obtenidas a resolución de una sola base, y se asume que pequeñas inserciones o deleciones que truncan las proteínas pueden estar generando pérdidas de función (Chandler et al. 2016). Gracias a los estudios de asociación de genoma completo (GWAS por sus siglas en inglés genome-wide association studies), más de 100 variantes comunes, principalmente SNV, se han reportado asociadas con incrementos menores en el riesgo de CM (Li et al. 2018). Uno de los principales objetivos de los investigadores ha sido identificar las variantes causales como primer paso para comprender cómo es que estas variantes aumentan el riesgo de CM (Li et al. 2018). La mayoría de las SNV reportadas no son codificantes, y se sugiere que algunos de ellos se encuentran en regiones regulatorias, y alteran la expresión de genes tales como https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/asJM https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/6l0R https://paperpile.com/c/OxVESO/5fBV https://paperpile.com/c/OxVESO/5fBV https://paperpile.com/c/OxVESO/5fBV https://paperpile.com/c/OxVESO/5fBV https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 26 CCND1, o afectan la regulación post-transcripcional, al alterar el splicing, como es el caso de TERT (Li et al. 2018). Sin embargo, para la mayoría de los loci de riesgo que han sido reportados en CM, el mecanismo de incremento en el riesgo no ha sido del todo explicado, aunque se espera que, para muchas de estas SNV, el mecanismo sea a través de la modificación de la regulación o expresión del gen diana en la vecindad de la SNV (Li et al. 2018). En un estudio realizado por Li et. al. (2018), se investigaron los cambios en el nivel de riesgo de CM, debidos a variantes codificantes de algunos genes (Li et al. 2018). Los investigadores plantearon , que si los cambios sutiles en la expresión llegaban a conferir baja susceptibilidad de CM, las variantes codificantes en algunos genes podrían conferir niveles de riesgo mucho más altos (Li et al. 2018). Para ello, se secuenciaron todos los exones y uniones exón-intrón de 56 genes que contienen SNV de riesgo para CM en casos índices de 1043 familias con CM familiar, las cuales resultaron negativas para las pruebas de mutaciones patogénicas en los genes BRCA1 y BRCA2 (Li et al. 2018). De acuerdo con sus resultados, la mayoría de las SNV de baja penetrancia de CM, se localizan en regiones genómicas no codificantes, y a pesar de que se han planteado diversas hipótesis, los mecanismos biológicos mediante los cuales estas SNV contribuyen al riesgo de CM no se han elucidado por completo (Li et al. 2018). A la fecha se ha demostrado que al menos algunos de ellos alteran regiones activadoras o promotoras, o afectar el splicing de RNA (Li et al. 2018). Partiendo de este supuesto, estos autores propusieron que si las alteraciones sutiles en la expresión de genes resultan en pequeños incrementos al riesgo de CM, entonces las alteraciones en variantes codificantes podrían tener efectos de mayor importancia en la función de los genes, dando lugar a niveles de riesgo mayores (Li et al. 2018) . Los genes con la mayor contribución a las variantes de pérdida de función incluyeron TET2, NRIP1, RAD51B y SNX32 , mientras que ZNF283 y CASP8 contribuyeron ampliamente a las variantes sin sentido (Li et al. 2018). En el caso de las variantes de pérdida de función, el gen TET2 tuvo una fuerte contribución (Li et al. 2018). TET2 ha sido reportado como un gen con influencia a nivel genómico en la expresión de genes al alterar la metilación del DNA, mientras https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 27 que su desregulación ha sido asociada con una metilación de DNA aberrante, y se ha involucrado en el desarrollo de leucemia mieloide aguda (Li et al. 2018). De acuerdo con los datos de estos investigadores, las variantes raras de pérdida de función, así como las variantes sin sentido están asociadas con SNV de baja penetrancia que podría contribuir a un riesgo adicional en CM, sin embargo, es muy poco probable que estas sean los principales contribuyentes a la heredabilidad de CM (Li et al. 2018). 3. Metagenómica El desarrollo reciente de las tecnologías de nueva generación, así como la expansión en paralelo de poderosos programas bioinformáticos han hecho posible el análisis genómico de más de 1000 organismos procariontes, 100 eucariontes y más de 1200 genomas humanos completos (Belizário and Napolitano 2015). La metagenómica es un enfoque biotecnológico encargado del estudio de las secuencias genómicas de microorganismos directamente de su hábitat natural o nicho biológico (Belizário and Napolitano 2015). Esto permite el análisis simultáneo de la diversidad microbiana, conectando todas las funciones específicas de la microbiota en distintos ambientes tales como el suelo, el mar y el mismo cuerpo humano (Belizário and Napolitano 2015). En 2008, los Institutos Nacionales de Salud de los Estados Unidos (NIH por sus siglas en inglés National Institute of Health) lanzaron una iniciativa para identificar y caracterizar los microorganismos asociados a los humanos en condiciones de salud y enfermedad, que se llamó proyecto del microbioma humano. Este proyecto tenía como objetivos el desarrollo de un conjunto de genomas de referencia y la caracterización preliminar de el microbioma humano, el efecto de la dieta en el microbioma, la elucidación de la relación entre enfermedades y el el cambio en la composición del microbioma humano, así como su posible uso como biomarcador. También buscaba favorecer el desarrollo de nuevas técnicas de aislamiento y cultivo de microorganismos así como el desarrollo de herramientas computacionales para el análisis bioinformático de los datos obtenidos (http://commonfund.nih.gov/hmp/initiatives#resources). https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/zfe3 https://paperpile.com/c/OxVESO/z24E https://paperpile.com/c/OxVESO/z24E https://paperpile.com/c/OxVESO/z24E https://paperpile.com/c/OxVESO/z24E https://paperpile.com/c/OxVESO/z24E https://paperpile.com/c/OxVESO/z24E http://commonfund.nih.gov/hmp/initiatives#resources 28 3.1 Secuenciación del microbioma El microbioma comprende todo el material genético de una comunidad microbiana en un nicho específico (microbiota). El microbioma puede subdividirse para su estudio en bacterioma, viroma y microbioma eucariótico o eucarioma. La diversidad microbianapuede determinarse mediante dos enfoques diferentes: la secuenciación de amplicones o bien, la metagenómica “Shotgun”. En el primer enfoque, se amplifican regiones específicas de DNA de las comunidades utilizando como objetivo cebadores taxonómicamente informativos tales como el gen de rRNA 16S para procariontes y espaciadores intergénicos transcritos (ITS por sus siglas en inglés Intergenic Transcribe Spacers) y el gen para la subunidad larga ribosomal (LSU por sus siglas en inglés Large ribosomal SubUnit) en el caso de los eucariontes. En el segundo enfoque, la metagenómica “Shotgun”, se reconstruyen fragmentos largos e incluso genomas completos de organismos en una comunidad, sin aislamiento previo, permitiendo así, la caracterización de una gran cantidad de secuencias codificantes y no codificantes que pueden ser usadas como marcadores filogenéticos (Escobar-Zepeda et al. 2015). Figura 7. Análisis por Amplicones y metagenómica Shotgun https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC 29 Principales enfoques de la metagenómica. El primero de ellos se basa en el perfil del gen rRNA 16S, es cual es un marcador genético altamente conservado. El segundo enfoque es la metagenómica “Shotgun” en el cual mediante el uso de cóntigos, se secuencia todo el material genético presente en la muestra, y a partir de este enfoque derivan tres enfoques más que son la metagenómica(DNA), metatranscriptómica (RNA) y viromica (partículas virales). Adaptada de (Bikel et al. 2015). 3.1.1 Análisis del perfil del gen rRNA 16S El análisis de secuenciación de amplicones o “metaprofiling” consiste en el estudio de todos los miembros de una comunidad microbiana basado en un solo gen o marcador para propósitos taxonómicos y filogenéticos. Para el estudio de bacterias y arqueas se utiliza el gen de la subunidad ribosomal pequeña 16S mientras que para los eucariontes se utiliza el 18S. Los fragmentos amplificados del gen o amplicones en procariontes corresponden a regiones cortas hipervariables seleccionadas, que van por rangos de V1 a V9 como se muestra en la Figura 8 (Bikel et al. 2015), mientras que para eucariontes se amplifican los ITS y LSU (Escobar-Zepeda et al. 2015).Tanto las regiones ITS como LSU, ofrecen buenas alternativas para clasificar organismos eucariontes a nivel de especie ya que ofrecen alta precisión (Escobar-Zepeda et al. 2015). Las regiones ITS son marcadores moleculares que contienen regiones no codificantes que se caracterizan por una alta tasa de sustitución de nucleótidos y han demostrado ser útiles para elucidar relaciones filogenéticas a nivel de género y especie (Sevİndİk et al. 2016). LSU por otro lado, es considerado un buen marcador filogenético, ya que proporciona muy buena resolución en Metazoa (Kumar et al. 2014). La secuenciación por amplicones ha sido una de las técnicas más empleadas ya que permite realizar clasificaciones filogenéticas y taxonómicas a partir de muestras grandes y complejas, además de que puede realizarse con casi todas las plataformas de secuenciación que existen actualmente (Escobar-Zepeda et al. 2015). Además, la secuenciación por amplicones es la opción más económica tanto en la preparación de bibliotecas, como en la misma secuenciación, principalmente en plataformas como Ion Torrent o Illumina (Escobar-Zepeda et al. 2015). Sin embargo, las ventajas de la secuenciación por amplicones se ven contrastadas por los sesgos generados usando un solo marcador filogenético, como es el caso del gen ribosomal 16S, o una región variable del mismo. Una de las limitaciones de https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/4nXz https://paperpile.com/c/OxVESO/4nXz https://paperpile.com/c/OxVESO/iUeY https://paperpile.com/c/OxVESO/iUeY https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC 30 esta estrategia es la baja resolución a nivel de especies, un rango en el número de copias de genes de varias especies, la transferencia horizontal de los genes rRNA 16S y el hecho de que menos del 0.1% del genoma total son genes ribosomales, lo cual dificulta la amplificación de este marcador genómico de muy baja abundancia pre en la muestra (Escobar-Zepeda et al. 2015). Otra limitación de este enfoque es que se limita a identificar especies de bacterias conocidas, por lo tanto no puede encontrar especies nuevas o que no han sido descritas previamente (Kim et al. 2015). La Figura 8 muestra una representación gráfica de éste enfoque. Figura 8. Análisis del gen 16S rRNA En el perfil del gen rRNA 16S, se suelen utilizar las regiones hipervariables V, las cuales pueden variar de acuerdo con el grupo de bacterias que se desea clasificar, ya que algunas regiones son más útiles que otras como marcadores genéticos para cierto tipo de bacterias. Adaptada de (Bikel et al. 2015). 3.1.2 Metagenómica “Shotgun” La secuenciación metagenómica permite determinar el potencial funcional codificado en el microbioma. Esta característica ha permitido el descubrimiento de nuevas funciones enzimáticas, microorganismos y genes que pueden ser utilizados en diferentes campos como la biorremediación, la comprensión de la interacción patógeno-hospedero y para nuevas estrategias terapéuticas en enfermedades del humano (Bikel et al. 2015). A este tipo de enfoque metagenómico se le conoce como metagenómica “Shotgun” ya que las secuencias totales de material genético se fragmentan en secuencias de menor tamaño, obteniendo todo el ADN presente https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/1AUC https://paperpile.com/c/OxVESO/kz94 https://paperpile.com/c/OxVESO/kz94 https://paperpile.com/c/OxVESO/kz94 https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/P7yT https://paperpile.com/c/OxVESO/P7yT 31 en un determinado nicho biológico. Teóricamente, este enfoque permite obtener una representación de todos los genomas en la muestra (Escobar-Zepeda et al. 2015). Esto permite escoger entre un amplio margen de marcadores filogenéticos además de los marcadores ribosomales para realizar una anotación taxonómica. De manera general, un protocolo experimental de metagenómica comprende varios pasos que pueden dividirse en tres etapas: a) La extracción de DNA de la muestra, el fraccionamiento y generación de bibliotecas, b) el proceso de secuenciación y generación de los archivos de secuencias y c) el análisis bioinformático que incluye el ensamblado, la asignación taxonómicas, el cálculo de abundancia de las secuencias, el cálculo de la diversidad microbiana y la caracterización de las funciones metabólicas. Este enfoque tiene la ventaja de que permite realizar una caracterización más profunda de la comunidad en estudio. Sin embargo este enfoque aún presenta limitaciones tanto metodológicas como técnicas, ya que no se ha podido eliminar por completo el DNA del hospedero en la muestra, en el caso de microbioma humano. O bien la falta del desarrollo de mejores herramientas para el ensamble de organismos desconocidos. 3.2 Microbioma humano A la fecha se ha caracterizado la microbiota de las diferentes partes del cuerpo humano tales como el tracto gastrointestinal, piel, cavidad oral y vagina, principalmente (Figura 9). El tracto gastrointestinal humano involucra una comunidad microbiana extremadamente dinámica y compleja, la cual incluye virus, bacterias, arqueas y eucariontes (Bikel et al. 2015). Sin embargo, la mayoría de los microorganismos
Compartir