Logo Studenta

Unidad 4 Biot

¡Este material tiene más páginas!

Vista previa del material en texto

Biotecnología I
Unidad IV
Carrera: LICENCIATURA EN BIOTECNOLOGIA
Trayecto curricular: Ciclo de Formación Inicial
Período: 2º Cuatrimestre – 2019
Tecnologías OMICAS
Sufijo para referirse al estudio de la totalidad o del conjunto de algo, 
como genes, proteínas o incluso las relaciones entre ellos.
El mundo de las OMICAS
Genomica, Omicas & Technología
• Biología molecular = disciplina científica principal de los 
últimos ~ 50 años
• Genómica = "análisis de genomas": se convirtió en ciencia 
importante durante la década de 1990
• Los análisis de varias otras moléculas biológicas se han 
convertido en sus propias disciplinas científicas; p.ej. 
Metabolómica = "análisis de metabolitos", etc.
• Transcriptómica/Proteómica = desarrollada durante los 
últimos 10-15 años
• Bioinformática = se ha desarrollado como una rama 
importante de la ciencia: permite el análisis eficiente de 
datos de experimentos "ómicos"
• Biología de sistemas integradores
Extraer conocimiento biológico 
de las ómicas a través de la 
integración
• Biología de sistemas predictiva
Predecir el futuro del 
biosistema utilizando el 
conocimiento de las ómicas
Es un campo en biología que apunta a la comprensión a nivel de 
sistemas de procesos biológicos, donde un conjunto de partes están 
conectadas entre sí y trabajan juntas. Intenta crear modelos predictivos 
de células, órganos, procesos bioquímicos y organismos completos.
Biología de Sistemas (System Biology)
Diferenciales ómicas es el 
comienzo de la Biología de 
Sistemas
molécula
célula
tejido
organismo
…
Biología de sistemas – Espacio Omicas
Genómica & Tecnología
La importancia de las "omicas" coincide con mejoras 
dramáticas de diferentes tecnologías:
• Biología molecular: nuevos desarrollos para la 
purificación y manipulación de proteínas y ácidos 
nucleicos
• Computadoras: requeridas para reunir y analizar datos
• Internet: permite que los datos se compartan de forma 
rápida y fácil
Todos los desarrollos han aumentado la velocidad y la 
rentabilidad, lo que permitió que los estudios ómicos
estén disponibles para una audiencia mucho más amplia
Transcriptómica
• Genoma: toda la información hereditaria codificada en el 
ADN (o ARN)
• Transcriptoma: conjunto de todos los ARNm 
("transcritos") o RNA pequeños producidos a partir de un 
genoma
• El término se puede aplicar a:
- conjunto completo de transcripciones para un 
organismo dado
- subconjunto específico de transcripciones presentes 
en un tipo de célula particular o en condiciones de 
crecimiento específicas
• El Transcriptoma varía porque refleja genes que se 
expresan activamente en un momento dado
Microarrays muestran diferencias en la expresión génica
• Los chips de los microarrays contienen fragmentos de 
genes/microRNAs, etc. en el grupo que se analizará
Ej. Genoma completo de bacterias o levaduras, o familias 
de proteínas de genomas más grandes
• ARNm o ADNc de diferentes muestras se marcan 
diferencialmente
• El análisis en el mismo chip muestra diferencias
Transcriptómica - Microarrays 
• Transcriptómica utiliza
técnología high-throughput 
basada en microarrays de ADN
Transcriptómica - Microarrays
Nelson & Cox, “Lehninger, Principles of 
Biochemistry”, 4th edn, 2004, p. 328
Nelson & Cox, “Lehninger, Principles of 
Biochemistry”, 4th edn, 2004, p. 328
Transcriptómica - Microarrays
Nelson & Cox, “Lehninger, Principles of 
Biochemistry”, 4th edn, 2004, p. 328
Transcriptómica - Microarrays
Nelson & Cox, “Lehninger, Principles of 
Biochemistry”, 4th edn, 2004, p. 328
Transcriptómica - Microarrays
Nelson & Cox, “Lehninger, Principles of 
Biochemistry”, 4th edn, 2004, p. 328
Transcriptomics
• Experimentos realizados 
en diferentes condiciones
• Determina el efecto de las 
condiciones en la 
expresión génica
• Produce una gran cantidad 
de datos
• Se requieren muchas 
repeticiones: costoso
Transcriptómica - Microarrays
Microarrays de ADN: Aplicaciones
Los microarrays de ADN permiten el screening simultáneo 
de muchos miles de genes: screening de alto rendimiento
- Genotipado del genoma completo
¿Qué genes están presentes en este individuo?
- Expresión génica específica del tejido
¿Qué genes se usan para hacer proteínas?
- Análisis mutacional
¿Qué genes han sido mutados?
Secuenciación
Sanger
1977: F. Sanger y W. Gilbert - DNA Sequencing
En 1958, fue galardonado con el Premio Nobel 
de Química por su trabajo sobre la 
“estructura de las proteínas”, especialmente la 
de la insulina. En 1980, compartió con Walter 
Gilbert la mitad del premio de química "por 
sus contribuciones sobre la determinación de 
secuencias de bases en ácidos nucleicos". La 
otra mitad fue otorgada a Paul Berg "por sus 
estudios fundamentales de la bioquímica de 
los ácidos nucleicos, con especial atención al 
ADN recombinante"
Secuenciación de Sanger
Uso de 
terminadores 
radioactivos
Secuenciación de Sanger
1987 - Primera Secuenciadora
• ABI 370
Secuenciación 
por capilares
Uso de 
terminadores 
fluorescentes
Los equipos tienen
entre 1 y 96 capilares
NGS – Next Generation Sequencing
Tecnología que permite secuenciar cientos de millones de secuencias cortas 
(35pb- >1000pb) en una única corrida.
Métodos /Tecnologías de secuenciación masiva
(disponibles a partir del 2005)
-Single-molecule real-time sequencing (Pacific Biosciences)
- Oxford Nanopore
- Semiconductor (Ion Torrent sequencing)
- Sequencing by synthesis (Solexa, Illumina)
- Pyrosequencing (454)
- Sequencing by ligation (SOLiD sequencing)
TODAS efectúan millones de reacciones de secuenciado en 
paralelo produciendo gran cantidad de datos
A pesar de que el largo de los reads generados es mucho más corto
con estos métodos que con el sistema de secuenciación capilar todas 
las plataformas generan datos suficientes como para secuenciar
un genoma bacteriano en una única corrida.
Inicialmente largo promedio:
454FLX 100-230 pb
454 Titanium 300-400 pb
Illumina Solexa 35-76 pb
SOLiD 23-35 pb
Datos de “Comparison of next generation sequencing technologies for transcriptome
characterization”, P Kerr Wall et al., BMC Genomics 2009
NGS significa alta capacidad de secuenciación
Oxford nanopore
Single Molecular Real Time (SMRT) technology
Cada chip tiene pequeños agujeros de 100nm donde hay una ADN
polimerasa que realiza secuenciado por síntesis utilizando 
nucleótidos marcados con fluorocromos.
Reads de alta calidad, de entre 1Kb y 60Kb de largo
Rápido y económico
Pacific Biosciences
Las 4 bases se incorporan de a una en orden secuencial.
La señal es proporcional al número de nucleótidos incorporados. Pero luego de 
cierto numero (6-8) la relación intensidad/numero de nucleótidos ya no es 
proporcional.
Pyrosequencing (454)
Dos instrumentos:
PGM (para secuenciaciones de baja escala)
Proton (para grandes secuenciaciones)
Rápido (corrida ~ 2-4 horas)
Mide cambios en el pH
El secuenciado es sobre un chip
Ion Torrent
Cuando un nucleótido es incorporado en una cadena
de ADN por una polimerasa un ión H es liberado.
Cada molécula de ADN es colocada en un well en un
array con alta densidad de wells.
Debajo del well existe una capa sensible a iones y un
sensor.
Se colocan los nucleótidos en forma secuencial y si un
nucleótido es agregado, un H+ es liberado y se detecta
un cambio de pH.
10Mb de secuencias de “alta calidad”
ABI SOLiD
-Secuenciado por ligación/detección
- Generación de bibliotecas vía PCR en emulsión
- SOLiD usa una mezcla de oligonucleótidos 
marcados y busca cuales son las bases correctas en 
la hebra molde utilizando hibridación y ligasas.
-Cada base es interrogada 2 veces:
Permite distinguir entre errores y verdaderos 
polimorfismos.
Permite detectar variaciones complicadas.
Illumina (Solexa)
Secuenciación Por Síntesis (Polimerasa)
Illumina (Solexa)
Secuenciación Por Síntesis (Polimerasa)
Illumina (Solexa)
Secuenciación Por Síntesis (Polimerasa)
Illumina (Solexa)
Secuenciación Por Síntesis (Polimerasa)
Comparación de métodosde secuenciación masiva
Aplicaciones de NGS
Transcriptómica 
por NGS
Workflow/pipelines
- FUNCIÓN DE LA PROTEÍNA
- MODIFICACIONES POSTRADUCCIONALES
- ESTUDIOS DE EXPRESIÓN PROTÉICA
- INTERACCIONES PROTEÍNA-PROTEÍNA
- LOCALIZACIÓN Y COMPARTIMENTALIZACIÓN
Proteómica
LA EXPRESIÓN DIFERENCIAL DE LOS GENES/SMALL RNAs NO ALCANZA
Estudio completo de la estructura, localización, modificaciones post traduccionales,
funciones e interacciones de todas las proteínas expresadas por una determinada célula,
tejido u organismo en un dado momento bajo ciertas condiciones.
Protéomica
Genoma humano (2003)
Técnicas OMICAS para entender procesos celulares que no se explican por genómica
40000 genes Splicing alternativo 10 isoformas por gen 
PTM (Modificaciones post traduccionales) 430 PTM
1X10 Proteoformas
Activación
Vida media
Expresión
Conformación
Localización subcelular
Proteómica Global: Identificar y catalogar todas las posibles proteínas
Proteómica Dirigida: Identificar y deducir mutaciones y cambios de proteínas individuales, 
a partir de mezclas complejas en alguna condición particular (durante el desarrollo de una 
enfermedad)
6
Proteómica
• Proteoma: conjunto de todas las proteínas producidas bajo 
un conjunto dado de condiciones
• El término se puede aplicar a:
- conjunto completo de proteínas para un 
organismo dado
-subconjunto específico de proteínas 
presentes en un tipo de célula particular o en 
condiciones de crecimiento específicas
• El proteoma varía porque refleja proteínas que se 
expresan activamente en un momento dado
• La proteómica analiza muchas muestras usando 2D-
electroforesis y espectrometría de masas
• High-throughput, pero inferior a la transcriptómica
• Complejidad de la muestra
Aproximadamente 25000 tipos de genes 
codificadores de proteínas presentes en 
humanos. La base de datos del IPI humano 
(v3.25) tiene 67,250 entradas, que podrían 
generar aproximadamente 106-8 péptidos
Más de cien modificaciones postraduccionales
(PTM) podrían ocurrir en un proteoma
• Gran diferencia de concentración de proteínas
107-8 en células humanas, y al menos 1012 en 
plasma humano
El rango dinámico de una LC-MS es de 
aproximadamente 104-6
• 12 proteínas de alta abundancia constituyen 
aproximadamente el 95% de la masa proteica 
total del plasma/suero
Albúmina, IgG, fibrinógeno, transferrina, IgA, 
IgM, haptoglobina, alfa 2-macroglobulina, alfa 
1-ácido glicoproteína, alfa 1-antitripsina y HDL 
(Apo A-I y Apo A-II).
• Sistema dinámico, sujeto a muchas variaciones
Body Fluid profiling: biomarker platform
High concentration
compounds
Low concentration
compounds
Generic
Sample prep.
Focused
Sample prep.
ng/ml
pg/ml
g/ml
Desafíos de la proteómica
Electroforesis en Gel 
• La electroforesis separa las moléculas por tamaño
• La resolución es limitada
Isoelectroenfoque
• Electroforesis a través de un gradiente de pH
• Las proteínas migran según su punto isoeléctrico
Electroforesis en geles de 2-
dimensiones
• Muestra de proteína 
fraccionada 
inicialmente en una 
dimensión mediante 
isoelectroenfoque
• SDS-PAGE realizado 
perpendicular a la 
dirección original
• Separa las proteínas 
de acuerdo al pI y a la 
masa
• Proteínas de E. coli 
separadas por 2D-
electroforesis
• > 1,000 proteínas
pueden ser resueltas
Electroforesis en geles de 2-
dimensiones
Espectrometría de Masa
Técnica que permite determinar la masa de moléculas por medio de la 
medida de la relación masa/carga (m/z).
La masa molecular es una propiedad física fundamental e inalterable de la 
materia, y a partir de esta se derivan todas las determinaciones.
Espectrometría de Masa
Determinación de la masa de moléculas individuales ionizadas en fase gaseosa.
La muestra de proteína se ioniza y se expone al campo eléctrico. 
Los iones viajan de acuerdo al tamaño.
John Fenn (1988)
Premio Nobel 2002
Fuente de ionización Electrospray (ESI) 
Ionización de moléculas disueltas en una solución acuosa ácida 
El alto voltaje aplicado a la aguja lleva a la formación 
de un cono de Taylor del cual salen pequeñísimas 
gotas de la solución peptídica cargadas positivamente 
hacia el cono del instrumento, que tiene una carga 
negativa relativa a la aguja.
La temperatura aplicada al cono y una 
corriente de nitrógeno lleva a que las gotas se 
evaporen y liberen iones positivos que son 
dirigidos mediante campos eléctricos hacia el 
analizador.
Analizador de masas Trampa iónica (IT)
En los analizadores del tipo trampa iónica los iones generados en la fuente de ionización 
son atraídos hacia el capilar debido a la aplicación de un potencial eléctrico y son 
rápidamente enfocados hacia el interior del analizador gracias al campo creado por dos 
octapolos colocados en tanden.
Mediante la estabilización de su energía (por temperatura) y el uso de potenciales 
adecuados, los iones quedan confinados.
Los iones atrapados son enfocados 
hacia el centro de la trampa 
mediante la acción de un potencial 
oscilante de un anillo generador de 
radiofrecuencias.
Analizador de masas Trampa iónica (IT)
La TI funciona como un filtro de iones y 
se puede aislar una sola masa (m/z) 
mediante la aplicación de determinadas 
RF en el anillo.
Espectro de masas MALDI-TOF
• MALDI-TOF proporciona buenas estimaciones de pesos moleculares
• Se puede usar para identificar algunas proteínas dentro de una mezcla
Fuente de ionización
Matrix-Assisted Laser Desorption/Ionization (MALDI) 
Volatilización y ionización de moléculas cristalizadas en fase sólida.
Matriz: compuesto orgánico 
pequeño, absorbe luz-UV, 
derivados del ácido sinapínico.
Proteínas: co-cristalizan junto 
con la matriz.
Analizador Time of Flight (TOF)
Un campo electrostático acelera los iones en función de su 
masa y los pasa a una región libre de campo eléctrico donde 
se separan en función de la relación m/z
Analizador Time of Flight (TOF)
Analizador Time of Flight (TOF)
ESI
•Análisis de mezclas complejas
•Muestra se consume en el momento
•Iones con carga múltiple son más 
comunes que en MALDI, permite mayor 
exactitud en masas
•Permite medición de moléculas de bajo 
PM, ya que no hay matriz que interfiera
MALDI
•Rápido y fácil
•Estabilidad de las muestras una vez 
sembradas
•Espectros más fáciles de interpretar 
(iones monocargados). 
Detección directa de masas de mayor 
m/z
•Mayor “Throughput” (>1000 muestras 
por hora)
•Fácil mantenimiento
Espectros de MALDI y ESI de RNasa (13700 Da)
Citocromo c
(12.4 kDa)
Por datos de MS: determinación de la masa exacta de péptidos 
derivados de una proteína
Por datos de MSMS (sinónimos: MS2 o MS en tándem) : datos de la 
masa exacta de fragmentos obtenidos a partir de un péptido 
Dos grandes maneras de identificar proteínas:
Abordaje clásico para identificación de proteínas
Análisis proteómico por espectrometría de masa - MS
• Proteínas separadas por 
electroforesis 2D
• Proteínas individuales 
eluidas
• La digestión con tripsina 
dará fragmentos con un 
conjunto único de tamaños
• Tamaños identificados por 
espectrometría de masas y 
combinados con la base de 
datos
• Permite la identificación de 
proteínas desconocidas
Principales puntos a destacar:
-La cobertura de la secuencia de la proteína con los péptidos identificados no es 
completa
-Si se quiere tener mayor cobertura se puede hacer otro experimento con una 
enzima de diferente especificidad de corte. Por ej. Tripsina y Glu-C
-No hay necesidad de que la secuencia esté toda cubierta para tener un buen 
score en la identificación
Espectrometía de masa en tándem MSMS
Espectrometía de masa en tándem MSMS
Los fragmentos cargados se denominan serie b o y de acuerdo a si 
provienen del extremo N-o C-terminal del péptido respectivamente.
Los péptidos de las series y son más abundantes
Resumiendo:
-La identificación por MS se basa en la coincidencia entre las m/z 
experimentales de los péptidos proteolíticos derivados de una proteína, 
con losfragmentos virtuales derivados del corte de todas las proteínas 
contenidas en una determinada base de datos con la misma proteasa
-La identificación por MS/MS está basada en la comparación del patrón 
de fragmentación experimental de un péptido tríptico de un cierto m/z 
con la fragmentación in silico de todos los peptidos de la base de datos 
que tengan el mismo m/z
-Los dos abordajes están basados en diferentes criterios
-Para identificar una proteína por MS uno tiene que tener el m/z de 
varios péptidos derivados de ella (estrategia usada en MALDI-TOF)
-La identificación de una proteína por MS/MS está basada en la 
fragmentación de uno o más peptidos si es que sus series y y b están 
completas.
- complejidad de la muestra
- análisis cualitativo o cuantitativo
- alcance: análisis comprehensivo (mg y meses) > 1000 hits
- análisis de espectro amplio (mg y semanas) 100-1000 hits
- análisis enfocados (ng y días) 10-100 hits
- modificaciones postraduccionales (PTM)
- proteína pura (mg y semanas)
- análisis global (mg y meses)
Abordajes proteómicos: Consideraciones para LC-MSMS
Ejemplos del uso de abordajes proteómicos:
Identificación y localización de modificaciones Post-traduccionales
Fosforilación
Glicosilación
Acetilación 
Metilación
Ubiquitinación
Regulan:
Localización subcelular
Función
Actividad
Cascadas de transducción de señales
Métodos de enriquecimiento
Distintas estrategias de fragmentación
Tratamiento con enzimas (glicosidasas, fosfatasas , etc.)
Transcriptómica v Proteómica
• Transcriptómica y proteómica son ambas muy poderosas
• Diferencias en su aplicación práctica son:
Transcriptómica es robusta, relativamente rentable y 
fácil de usar
La proteómica sigue siendo relativamente limitada: 
quedan aún problemas con la purificación y la 
estabilidad de las proteínas
• Descubrimiento de biomarcadores para el cáncer
• Nano-medicina
1. La proteómica y la metabolómica diferenciales permiten una 
comparación cualitativa y cuantitativa del proteoma y el 
metaboloma en diferentes condiciones que permiten desentrañar 
procesos biológicos complejos.
2. Se puede usar para estudiar cualquier fenómeno científico que 
genere cambios en el proteoma y/o el metaboloma de un sistema 
vivo.
NIH
Medicina preventiva
- Medio ambiente
- Comida y nutrición
Proteómica y metabolómica diferenciales
•Los metabolitos tienen una amplia gama de 
pesos moleculares y grandes variaciones en la 
concentración
•El metaboloma es mucho más dinámico que el 
proteoma y el genoma, lo que hace que sea más 
sensible al tiempo
•Los metabolitos pueden ser polares o no 
polares, así como moléculas orgánicas o 
inorgánicas. Esto hace que la separación 
química sea un paso clave en la metabolómica
•Los metabolitos tienen estructuras químicas, lo 
que hace que la identificación con MS sea un 
desafío extremo
colesta-3,5-dieno
Desafíos en Metabolómica
Metabolómica – Medición de pequeñas moléculas
Epigenómica
“Omicas” - Reseña
• Los análisis de varias moléculas biológicas se han 
desarrollado en sus propias disciplinas científicas; p.ej. 
Metabolómica = "análisis de metabolitos", etc.
• Transcriptoma: conjunto de todos los ARNm 
("transcritos") producidos a partir de un genoma
• Proteoma: conjunto de todas las proteínas producidas bajo 
un conjunto dado de condiciones
• Ambas pueden variar porque reflejan genes que se 
expresan activamente en un momento dado
• La transcriptómica y la proteómica son potentes, pero se 
usan de manera diferente: la transcriptómica es más 
económica y más fácil de usar que la proteómica
Bioinformática:
Minería de los datos
Bioinformática & Bases de datos
(Databases)
 Los últimos datos biológicos se recopilan, organizan y 
difunden a través de grandes bases de datos
 Las bases de datos incluyen:
- EBI, NCBI, Pfam, SMART, SWISS-PROT, TAIR, etc.
 Información en bases de datos bioinformáticas:
- secuencias, estructuras, búsquedas de homología, 
microarrays, RNA-Seq, etc
 Los rápidos motores de búsqueda permiten acceso a la 
información a todo quien tenga acceso a Internet, ¡las 
bases de datos son tan útiles como los resultados que 
ayudan a generar!
 Herramientas mejoradas para el análisis de secuencias
Bases de datos – Algunas URLs
Recurso URL
European Bioinformatics 
Institute
GenBank 
NCBI 
Protein DataBank
Sanger Centre
SMART
The Arabidopsis 
Information Resource 
(TAIR)
www.ebi.ac.uk/
www.ncbi.nlm.nih.gov/Genbank/
www.ncbi.nlm.nih.gov/
http://www.rcsb.org/pdb/home/home.do
www.sanger.ac.uk/
smart.embl-heidelberg.de
www.arabidopsis.org/ 
NCBI: Genomas completos
NCBI: Genomas eucarióticos
NCBI: Genomas eucariotas
NCBI: Genomas microbianos
Bases de datos - Advertencias
 Las bases de datos contienen errores (baja proporción del total de 
datos):
-errores de datos primarios
-errores de análisis de datos
-errores de anotación
 Los errores son difíciles de corregir
 Haga de la interpretación de los datos su propia responsabilidad!!
Validación!!!
NCBI – Enlaces útiles
Breve descripción de todos los 
recursos en NCBI
Resumen de Bases de Datos
• Hay muchas bases de datos están disponibles
- algunas tienen mucha información general (NCBI, EBI)
- algunas tienen datos específicos (Pfam, SWISS-PROT)
- algunas se relacionan con intereses de investigación 
específicos (TAIR)
• Una amplia gama de bases de datos, sitios web y otros 
recursos están disponibles para el análisis in silico de datos 
biológicos
• Grandes ventajas, pero tenga cuidado con las advertencias y 
peligros potenciales: ¡comprenda las capacidades y 
limitaciones!
• Hay que usar información de manera inteligente:
- Analizar siempre si las conclusiones tienen sentido biológico
- puede requerir más análisis o experimentación (Validación)
Sacarle el jugo a los datos multidimensionales: 
integración y minería de datos
Desafíos bioinformáticos de NGS
Tengo mis secuencias/imágenes. 
¿Ahora que?
NGS empuja las necesidades de la (bio)informática
Necesidad de gran poder de procesamiento
• Archivos de texto MUY grandes (~ 10 millones de líneas de largo)
- No se puede hacer 'negocios como de costumbre' con herramientas 
conocidas como Perl / Python.
- Uso de memoria y tiempo de ejecución imposibles
• Imposible buscar problemas
• Necesita de Filtrado de calidad sequencial
• Necesidad de una gran cantidad de potencia de CPU
• Los grupos de informática deben administrar clústeres de cálculo
• Retos en la paralelización del software existente o el rediseño de 
algoritmos para trabajar en una entorno paralelo
• ¡Necesidad de poder bioinformático!
• ¡Los desafíos pasan de la generación de datos al análisis de datos!
• ¿Cómo debería estructurarse la bioinformática?
• ¿Grandes servicios de bioinformática centralizada? (¿o grupos de 
investigación que brindan servicio?)
• Modelo distribuido: los bioinformáticos deben ser parte de los temas. 
Interoperabilidad?
Problemas de gestión de datos
Los datos crudos son pesados. ¿Cuánto tiempo deberían 
mantenerse?
• Los datos procesados son manejables para la mayoría de las 
personas
- 20 millones de lecturas (50 pb) ~ 1 GB
• Más de un problema para una instalación: HiSeq recomienda
32 núcleos de CPU, cada uno con 4 GB de RAM
• Ciertos estudios requieren mucha más información que otros
- Secuenciación completa del genoma
• Un par genómico de cobertura 30X (tumor / normal) ~ 500 
GB
• 50 pares de genomas ~ 25 TB
Entonces???
• En NGS se procesan grandes cantidades de datos,
que no es trivial en términos de informática.
• Los grandes proyectos de NGS requieren infraestructuras de 
supercomputadoras
• O dicho de otra manera: no es el caso que alguien pueda hacer
todo.
- Las pequeñas instalaciones deben elegir cuidadosamente sus proyectos 
para ser escalados con sus capacidades de computación
Alternativas
Cloud computing
• Pros
- Flexibilidad.
- Pagas lo que usas.
- No necesita mantener un centro de 
datos.
• Contras
- Transferirgrandes conjuntos de 
datos a través de Internet es lento.
- Pagas por el ancho de banda 
consumido (problema con grandes 
conjuntos de datos).
- Menor rendimiento.
- Preocupaciones de privacidad / 
seguridad.
- Más caro para grande proyectos y de 
largo plazo
Grid computing
• Pros
- Más barato.
- Más recursos disponibles.
• Contras
- Ambiente heterogéneo.
- Conectividad lenta (especialmente
en Argentina).
- Mucho tiempo requerido para 
encontrar buenos recursos en la grilla.
Etapas de análisis de datos NGS
• Formato FastA (todo el mundo lo conoce)
- La línea del encabezado comienza con ">" seguido 
de una ID de secuencia
- Secuencia (cadena de nt).
• Formato FastQ
(http://maq.sourceforge.net/fastq.shtml)
- Primero es la secuencia (como Fasta pero 
comenzando con "@")
- Luego "+" e ID de secuencia (opcional) y en la 
siguiente línea son QV codificados como códigos 
ASCII de un solo byte
• Diferentes variantes de codificación de calidad
• Casi todos los análisis posteriores toman FastQ
como secuencia de entrada
Formato de datos
¿Qué software para el análisis de NGS (datos)?
• La respuesta no es directa.
• Muchas posibles clasificaciones
- Dominios biológicos
• Descubrimiento de SNP, Genomics, ChIP-Seq, RNA-Seq, ensamblaje de novo, ...
- Métodos bioinformáticos
• Mapeo, Ensamblaje, Alineación, Seq-QC, ...
- Tecnología
• Illumina, 454, ABI SOLID, Ion Torrent, ...
- Sistema operativo
• Linux, Mac OS X, Windows, ...
- Tipo de licencia
• GPLv3, GPL, Comercial, Gratis para uso académico, ...
- Idioma de programación
• C ++, Perl, Java, C, Phyton, R…
- Interfaz
• Soluciones basadas en web, integradas, herramientas de línea de comandos, 
pipelines, ...
Algunas herramientas y webs lugares populares

Continuar navegando