Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
TÉCNICAS DE SECUENCIACIÓN DE NUEVA GENERACIÓN O MASIVA EN PARALELO Las enfermedades monogénicas con amplia heterogeneidad alélica y de locus (p. ej., sorderas neurosensoriales, trastornos mitocondriales, retinosis pigmentarias, trastornos neuromusculares diversos, entre otras), y la necesidad de secuenciar a gran escala en un solo procedimiento, a un menor costo (0.1 a 0.5 dólares por megabase; https://www.genome.gov/sequencingcosts/) y tiempo (p. ej., programas de tamiz neonatal basados en genotipo), han propiciado el desarrollo de nuevas herramientas moleculares como la secuenciación masiva en paralelo, también denominada secuenciación de nueva generación (SNG). La SNG tiene como fundamento el ensamblado de secuencias de millones de bases (Mb) a partir de fragmentos de DNA cortos (25 pb a 20 kb) con la finalidad de estudiar genomas completos y complejos (como el de células neoplásicas), así como transcriptomas y metagenomas. Si bien hasta la fecha han surgido tres generaciones de secuenciación de ácidos nucleicos, la automatizada de tipo Sanger (primera generación) es aún el punto de referencia en la validación de los variantes de nucleótido sencillo (VNS) y pequeñas inserciones o deleciones (“indel”). FUNDAMENTO DE LAS PRINCIPALES PLATAFORMAS DE SNG En la actualidad están disponibles en el mercado diversas plataformas de SNG, algunas con mayor aceptación por las ventajas que representan en los costos del equipo e insumos, longitud y precisión de las lecturas (reads) y el tiempo de corrida. Los equipos de secuenciación más utilizados son MiSeq y HiSeq de Illumina, Ion Torrent de Thermo Fisher Scientific y PacBio RSII de Pacific Biosciences (cuadro 3-1). Si bien existen variaciones en el fundamento general, todas las metodologías empleadas incluyen las etapas ilustradas en las figuras 3-7 y 3-8. CUADRO 3–1. Características de los principales instrumentos y metodologías de la SNG Plataforma Tiempo de corrida Longitud de la lectura (pb) Rendimiento por corrida Lecturas pareadas Precisión Tasa de error observada % MiSeq/Illumina 26 h Hasta 150 1.5 a 2 Gb Sí >Q30 0.80 HiSeq/Illumina 11 días Hasta 150 600 Gb Sí >Q30 0.26 Ion Torrent 2 h ~200 Hasta 1 Gb Sí Q20 1.71 PacBio 0.5 a 2 h ~1 500 500 Mb a 1 Gb No >30 10 a 13 h, horas; pb, pares de bases; Mb, Megabases; Gb, Gigabases; Q, calidad en escala Phred utlilizada como valor de calidad en todas las tecnologías de secuenciación. Un valor de Phred 30 asume que puede existir un error por cada 1 000 bases secuenciadas. FIGURA 3-7 Esquema general del proceso de SNG en las principales plataformas (tomado y modificado a partir de: http://www.uco.es/users/bb1rofra/BiologiaSistemas/Tema6_Genomica/6.genomica.html). (i) Fragmentación del DNA por métodos mecánicos (ultrasonicación, nebulización y sonicación en agua) o químicos (enzimas de restricción) de 300 a 500 pares de bases (pb). (ii) Preparación de las genotecas: se ligan secuencias conocidas (adaptadores) a uno o ambos extremos de los fragmentos de DNA; los adaptadores son secuencias universales y específicas en cada plataforma. (iii) Amplificación clonal: los fragmentos de las genotecas se amplifican in situ en una superficie sólida o en una PCR en emulsión. PacBio RSII es el único que no lleva a cabo este paso, ya que se realiza una secuenciación en tiempo real de una molécula única de DNA (SMRT). Las plataformas de 454 e Ion Torrent efectúan una PCR en emulsión en la cual ocurren miles de reacciones de PCR independientes en un solo tubo o microperla que generan un fragmento único. En Illumina, la amplificación se lleva a cabo en una superficie sólida en la que se depositan las genotecas a amplificar en una reacción en puente. Esto da lugar a una amplificación clonal del fragmento inicial en colonias únicas y definidas. (iv) Secuenciación y detección de nucleótidos: ambos procesos se realizan de forma simultánea y consisten en ciclos alternados que producen millones de reacciones de secuenciación en cada corrida; de ahí el nombre de secuenciación masiva en paralelo. La plataforma 454 se efectúa por medio de ciclos en los que se agrega una base nitrogenada cada vez de manera secuencial y durante la incorporación de cada una de las bases nitrogenadas a la nueva cadena de DNA se libera un pirofosfato que se convierte en emisión de luz durante la reacción de síntesis, la cual detecta una cámara en cada ciclo y posición. Ion Torrent se basa en la liberación de protones durante la incorporación de los nucleótidos que reconoce un sistema de semiconductores electrónicos. Las plataformas HiSeq y MiSeq utilizan nucleótidos modificados capaces de liberar una molécula fluorescente después de incorporarse a la molécula de DNA sintetizada. La plataforma PacBio permite la detección de nucleótidos modificados que se incorporan a una única molécula de DNA, los cuales emiten fluorescencia mientras se polimerizan y se detectan en tiempo real a través de sistemas láser y óptico de registro. (v) Análisis bioinformático: una vez completada la secuenciación, los datos crudos (raw data) se procesan mediante herramientas bioinformáticas disponibles (SAMTools, BWA, análisis de herramientas genómicas: GATK, plataforma Galaxy). La elección de una u otra herramienta depende de los objetivos y la pregunta de investigación. La animación del fundamento de cada plataforma de SNG se puede consultar en: https://www.youtube.com/watch?v=rsJoG- AulNE (454 Roche), https://www.youtube.com/watch?v= womKfikWlxM (Illumina), https://www.youtube.com/watch?v=WYBzbxIfuKs (Thermo Fisher Scientific) y https://www.youtube.com/watch?v=WMZmG00uhwU (PacBio). FIGURA 3-8 Ejemplo gráfico de las lecturas únicas y las de extremo pareado. Si las lecturas se realizan tan sólo en un extremo del fragmento del DNA se obtiene una lectura única (single-read), a diferencia de las secuencias en ambos extremos que se denominan de extremo pareado (paired-end). (a) Lectura única (single-read): se secuencia sólo un extremo del fragmento del DNA y luego se remueve la secuencia del adaptador (línea amarilla) para poder alinear las lecturas (línea roja discontinua) y formar una secuencia consenso (barra azul). (b) Lectura de extremo pareado (paired-end): se secuencian ambos extremos del fragmento del DNA (lecturas 1 y 2). A partir del alineamiento de las lecturas 1 y 2 también se produce una secuencia de consenso (barra azul). DETECCIÓN DE VARIANTES ESTRUCTURALES DE TIPO VNS E INDEL MEDIANTE SNG En genética médica se utilizan algoritmos bioinformáticos (pipeline) que permiten identificar VNS e indel incluso en mosaicos somáticos o germinales en baja proporción (<10%) y CNV. La detección se efectúa mediante el alineamiento de las lecturas (reads) de una muestra problema respecto de una secuencia de referencia que identifica las diferencias entre ambas. El algoritmo bioinformático general incluye: a) el preprocesamiento de los datos en el cual se remueven los adaptadores y se evalúa la calidad de las lecturas (quality control, QC), paso crucial para reconocer una secuenciación irregular a través de las lecturas, posible contaminación o duplicidad, y para filtrar lecturas de baja calidad. Uno de los programas más utilizados para evaluar el QC es el FASTQC. Algunos de los parámetros estadísticos de calidad se muestran en la figura 3-9; b) alineamiento de las lecturas: se refiere a la asignación de la localización genómica de cada una de las lecturas mediante un alineamiento con la secuencia de referencia; c) identificación de las variantes (variant call) de tipo VNS e indel que difieren con respecto a la secuencia de referencia para asignarles a continuación un efecto funcional y biológico (sinónimas y no sinónimas) mediante la posición exacta en el genoma de referencia (exón, intrón, región no traducida, sitio de empalme, promotor, sitio potenciador). La asignación de un posible efecto patogénico de cada variante no sinónima se determina mediante la comparación contra bases de datos públicas (ExAC, dbSNP, ClinVar, etc). Las variantesno registradas previamente se evalúan con programas de predicción in silico como SIFT, Polyphen y MutationTaster, entre otros. Los resultados son archivos de gran tamaño por lo que es inefectivo leerlos en una computadora personal y en código binario (Bam), por lo que se requieren programas especializados como IGV (Integrative Genomics Viewer) y Tablet (James Hutton Institute) para su visualización. FIGURA 3-9 Ejemplo general de algunos de los reportes de calidad que genera el programa FASTQC para datos de Illumina. A) Resumen de los estadísticos básicos: proporciona datos sobre la composición del archivo que se analizó, como nombre y tipo de fichero, total de secuencias procesadas, número de secuencias filtradas, longitud de la secuencia más larga y el porcentaje de bases GC. B) Calidad a través de las bases: cada posición es graficada; la línea roja representa la mediana, la caja amarilla el intervalo del cuartil 25 a 75%, las líneas superiores e inferiores el 10% y el 90% y la línea azul la calidad media. El eje Y representa los valores de calidad: cuanto mayores sean, mejor será la asignación de cada base. Los colores en el fondo dividen el gráfico de acuerdo con el valor de Phred: color verde, muy buena calidad (valor Phred >28); color naranja, calidad razonable (valor Phred 20 a 28); y color rojo, baja calidad (valor Phred 0 a 20). C) Calidad a través de las lecturas: hace posible visualizar si algún conjunto de datos tiene valores bajos. D) Distribución de la composición de las secuencias a través de las bases: se muestra la proporción de cada base por posición. Es de esperar que haya poca o ninguna diferencia entre las distintas bases, lo que da lugar a líneas paralelas entre sí. E) Contenido de GC en las bases: esta gráfica muestra el contenido de GC a lo largo de toda la longitud de cada secuencia y lo compara con una distribución normal de GC. F) Distribución de la longitud de las secuencias: se muestra la distribución de tamaños de los fragmentos en el archivo analizado. Existen otros parámetros de calidad no representados que incluyen presencia de secuencias duplicadas o sobrerrepresentadas, contenido de adaptadores, etc.
Compartir