Logo Studenta

TÉCNICAS DE SECUENCIACIÓN DE NUEVA GENERACIÓN O MASIVA EN PARALELO

¡Estudia con miles de materiales!

Vista previa del material en texto

TÉCNICAS DE SECUENCIACIÓN DE NUEVA GENERACIÓN
O MASIVA EN PARALELO
 
Las enfermedades monogénicas con amplia heterogeneidad alélica y de locus (p. ej.,
sorderas neurosensoriales, trastornos mitocondriales, retinosis pigmentarias, trastornos
neuromusculares diversos, entre otras), y la necesidad de secuenciar a gran escala en un
solo procedimiento, a un menor costo (0.1 a 0.5 dólares por megabase;
https://www.genome.gov/sequencingcosts/) y tiempo (p. ej., programas de tamiz neonatal
basados en genotipo), han propiciado el desarrollo de nuevas herramientas moleculares
como la secuenciación masiva en paralelo, también denominada secuenciación de nueva
generación (SNG).
La SNG tiene como fundamento el ensamblado de secuencias de millones de bases (Mb) a
partir de fragmentos de DNA cortos (25 pb a 20 kb) con la finalidad de estudiar genomas
completos y complejos (como el de células neoplásicas), así como transcriptomas y
metagenomas. Si bien hasta la fecha han surgido tres generaciones de secuenciación de
ácidos nucleicos, la automatizada de tipo Sanger (primera generación) es aún el punto de
referencia en la validación de los variantes de nucleótido sencillo (VNS) y pequeñas
inserciones o deleciones (“indel”).
 
FUNDAMENTO DE LAS PRINCIPALES PLATAFORMAS DE
SNG
En la actualidad están disponibles en el mercado diversas plataformas de SNG, algunas con
mayor aceptación por las ventajas que representan en los costos del equipo e insumos,
longitud y precisión de las lecturas (reads) y el tiempo de corrida. Los equipos de
secuenciación más utilizados son MiSeq y HiSeq de Illumina, Ion Torrent de Thermo
Fisher Scientific y PacBio RSII de Pacific Biosciences (cuadro 3-1). Si bien existen
variaciones en el fundamento general, todas las metodologías empleadas incluyen las etapas
ilustradas en las figuras 3-7 y 3-8.
 
CUADRO 3–1. Características de los principales instrumentos y metodologías de la SNG
Plataforma Tiempo de
corrida
Longitud de la lectura
(pb)
Rendimiento por
corrida
Lecturas
pareadas
Precisión Tasa de error
observada %
MiSeq/Illumina 26 h Hasta 150 1.5 a 2 Gb Sí >Q30 0.80
HiSeq/Illumina 11 días Hasta 150 600 Gb Sí >Q30 0.26
Ion Torrent 2 h ~200 Hasta 1 Gb Sí Q20 1.71
PacBio 0.5 a 2 h ~1 500 500 Mb a 1 Gb No >30 10 a 13
h, horas; pb, pares de bases; Mb, Megabases; Gb, Gigabases; Q, calidad en escala Phred utlilizada como valor de calidad en todas las tecnologías de
secuenciación. Un valor de Phred 30 asume que puede existir un error por cada 1 000 bases secuenciadas.
 
 
FIGURA
3-7
Esquema general del proceso de SNG en las principales plataformas (tomado y modificado a partir de:
http://www.uco.es/users/bb1rofra/BiologiaSistemas/Tema6_Genomica/6.genomica.html).
(i) Fragmentación del DNA por métodos mecánicos (ultrasonicación, nebulización y sonicación en agua) o
químicos (enzimas de restricción) de 300 a 500 pares de bases (pb). (ii) Preparación de las genotecas: se
ligan secuencias conocidas (adaptadores) a uno o ambos extremos de los fragmentos de DNA; los
adaptadores son secuencias universales y específicas en cada plataforma. (iii) Amplificación clonal: los
fragmentos de las genotecas se amplifican in situ en una superficie sólida o en una PCR en emulsión. PacBio
RSII es el único que no lleva a cabo este paso, ya que se realiza una secuenciación en tiempo real de una
molécula única de DNA (SMRT). Las plataformas de 454 e Ion Torrent efectúan una PCR en emulsión en la
cual ocurren miles de reacciones de PCR independientes en un solo tubo o microperla que generan un
fragmento único. En Illumina, la amplificación se lleva a cabo en una superficie sólida en la que se depositan
las genotecas a amplificar en una reacción en puente. Esto da lugar a una amplificación clonal del fragmento
inicial en colonias únicas y definidas. (iv) Secuenciación y detección de nucleótidos: ambos procesos se
realizan de forma simultánea y consisten en ciclos alternados que producen millones de reacciones de
secuenciación en cada corrida; de ahí el nombre de secuenciación masiva en paralelo. La plataforma 454 se
efectúa por medio de ciclos en los que se agrega una base nitrogenada cada vez de manera secuencial y
durante la incorporación de cada una de las bases nitrogenadas a la nueva cadena de DNA se libera un
pirofosfato que se convierte en emisión de luz durante la reacción de síntesis, la cual detecta una cámara en
cada ciclo y posición. Ion Torrent se basa en la liberación de protones durante la incorporación de los
nucleótidos que reconoce un sistema de semiconductores electrónicos. Las plataformas HiSeq y MiSeq
utilizan nucleótidos modificados capaces de liberar una molécula fluorescente después de incorporarse a la
molécula de DNA sintetizada. La plataforma PacBio permite la detección de nucleótidos modificados que se
incorporan a una única molécula de DNA, los cuales emiten fluorescencia mientras se polimerizan y se
detectan en tiempo real a través de sistemas láser y óptico de registro. (v) Análisis bioinformático: una vez
completada la secuenciación, los datos crudos (raw data) se procesan mediante herramientas bioinformáticas
disponibles (SAMTools, BWA, análisis de herramientas genómicas: GATK, plataforma Galaxy). La elección
de una u otra herramienta depende de los objetivos y la pregunta de investigación. La animación del
fundamento de cada plataforma de SNG se puede consultar en: https://www.youtube.com/watch?v=rsJoG-
AulNE (454 Roche), https://www.youtube.com/watch?v= womKfikWlxM (Illumina),
https://www.youtube.com/watch?v=WYBzbxIfuKs (Thermo Fisher Scientific) y
https://www.youtube.com/watch?v=WMZmG00uhwU (PacBio).
 
 
FIGURA
3-8
Ejemplo gráfico de las lecturas únicas y las de extremo pareado. Si las lecturas se realizan tan sólo en un
extremo del fragmento del DNA se obtiene una lectura única (single-read), a diferencia de las secuencias en
ambos extremos que se denominan de extremo pareado (paired-end). (a) Lectura única (single-read): se
secuencia sólo un extremo del fragmento del DNA y luego se remueve la secuencia del adaptador (línea
amarilla) para poder alinear las lecturas (línea roja discontinua) y formar una secuencia consenso (barra
azul). (b) Lectura de extremo pareado (paired-end): se secuencian ambos extremos del fragmento del DNA
(lecturas 1 y 2). A partir del alineamiento de las lecturas 1 y 2 también se produce una secuencia de consenso
(barra azul).
 
 
DETECCIÓN DE VARIANTES ESTRUCTURALES DE TIPO
VNS E INDEL MEDIANTE SNG
En genética médica se utilizan algoritmos bioinformáticos (pipeline) que permiten
identificar VNS e indel incluso en mosaicos somáticos o germinales en baja proporción
(<10%) y CNV. La detección se efectúa mediante el alineamiento de las lecturas (reads) de
una muestra problema respecto de una secuencia de referencia que identifica las diferencias
entre ambas.
El algoritmo bioinformático general incluye: a) el preprocesamiento de los datos en el cual
se remueven los adaptadores y se evalúa la calidad de las lecturas (quality control, QC),
paso crucial para reconocer una secuenciación irregular a través de las lecturas, posible
contaminación o duplicidad, y para filtrar lecturas de baja calidad. Uno de los programas
más utilizados para evaluar el QC es el FASTQC. Algunos de los parámetros estadísticos de
calidad se muestran en la figura 3-9; b) alineamiento de las lecturas: se refiere a la
asignación de la localización genómica de cada una de las lecturas mediante un
alineamiento con la secuencia de referencia; c) identificación de las variantes (variant call)
de tipo VNS e indel que difieren con respecto a la secuencia de referencia para asignarles a
continuación un efecto funcional y biológico (sinónimas y no sinónimas) mediante la
posición exacta en el genoma de referencia (exón, intrón, región no traducida, sitio de
empalme, promotor, sitio potenciador). La asignación de un posible efecto patogénico de
cada variante no sinónima se determina mediante la comparación contra bases de datos
públicas (ExAC, dbSNP, ClinVar, etc). Las variantesno registradas previamente se evalúan
con programas de predicción in silico como SIFT, Polyphen y MutationTaster, entre otros.
Los resultados son archivos de gran tamaño por lo que es inefectivo leerlos en una
computadora personal y en código binario (Bam), por lo que se requieren programas
especializados como IGV (Integrative Genomics Viewer) y Tablet (James Hutton Institute)
para su visualización.
 
FIGURA
3-9
Ejemplo general de algunos de los reportes de calidad que genera el programa FASTQC para datos de
Illumina. A) Resumen de los estadísticos básicos: proporciona datos sobre la composición del archivo que se
analizó, como nombre y tipo de fichero, total de secuencias procesadas, número de secuencias filtradas,
longitud de la secuencia más larga y el porcentaje de bases GC. B) Calidad a través de las bases: cada
posición es graficada; la línea roja representa la mediana, la caja amarilla el intervalo del cuartil 25 a 75%,
las líneas superiores e inferiores el 10% y el 90% y la línea azul la calidad media. El eje Y representa los
valores de calidad: cuanto mayores sean, mejor será la asignación de cada base. Los colores en el fondo
dividen el gráfico de acuerdo con el valor de Phred: color verde, muy buena calidad (valor Phred >28); color
naranja, calidad razonable (valor Phred 20 a 28); y color rojo, baja calidad (valor Phred 0 a 20). C) Calidad a
través de las lecturas: hace posible visualizar si algún conjunto de datos tiene valores bajos. D) Distribución
de la composición de las secuencias a través de las bases: se muestra la proporción de cada base por posición.
Es de esperar que haya poca o ninguna diferencia entre las distintas bases, lo que da lugar a líneas paralelas
entre sí. E) Contenido de GC en las bases: esta gráfica muestra el contenido de GC a lo largo de toda la
longitud de cada secuencia y lo compara con una distribución normal de GC. F) Distribución de la longitud
de las secuencias: se muestra la distribución de tamaños de los fragmentos en el archivo analizado. Existen
otros parámetros de calidad no representados que incluyen presencia de secuencias duplicadas o
sobrerrepresentadas, contenido de adaptadores, etc.

Otros materiales