Logo Studenta

TALLER_BD - Clase3

¡Este material tiene más páginas!

Vista previa del material en texto

Explorando el 
navegador de 
Ensembl genome 
INTRODUCCIÓN 
¿Por qué necesitamos navegadores genómicos? 
• 1977: primer genoma en ser secuenciado (5 kb) 
• 2004: secuencia humana terminada (3 Gb) 
¿QUÉ ES ENSEMBL? 
 
 Ensembl es un proyecto que trata de "desarrollar un sistema 
de software que produzca y mantenga anotaciones 
automáticas en genomas seleccionados". 
 Toda la información y software generados en el proyecto es de 
libre uso y acceso. 
Ensembl anota y mapea características genómicas de secuencias provenientes de diferentes 
genomas 
¿QUÉ ES ENSEMBL? 
 
 Ensembl es un "recurso de valor agregado" que reúne 
información de una amplia gama de otras bases de datos en 
un solo sitio. 
¿QUÉ ES ENSEMBL? 
 
www.ncbi.nlm.nih.gov/genome/gdv/ 
 
www.genome.ucsc.edu 
 
www.ensembl.org 
 www.ensemblgenomes.org 
 
http://www.ncbi.nlm.nih.gov/genome/gdv/
http://www.genome.ucsc.edu/
http://www.ensembl.org/
http://www.ensemblgenomes.org/
ENSEMBL - Características 
 
 Información genéticas para > 200 especies. 
 Árboles filogenéticos. 
 Información regulatoria (ENCODE). 
 Variantes y VEP. 
 Visualización de los datos del usuario. 
 BioMart (exportación de datos). 
 Acceso programático a través de las APIs. 
 Completamente de código abierto (Open source). 
Especies de vertebrados 
en ENSEMBL 
No vertebrados en 
ENSEMBL Genomes 
Bacterias Protistas 
Hongos Metazoos Plantas 
http://ensemblgenomes.org/ 
http://ensemblgenomes.org/
ENSEMBL y EMSEMBLGenomes 
Ciclo de liberación de la 
información 
99 
(Enero 2020) 
Ensamblado de Genomas 
GENOMA 
“ADN dentro de la célula” 
ENSAMBLE DEL GENOMA 
• Representación del genoma. 
• Contiene errores y gaps. 
Ensamblado 
de Genomas 
Clonado en BACs 
Realizar un contig 
Contigs a Scaffolds 
Contigs de 
Genomas 
Ensamblado de Genomas Humanos 
GRCh38 (aka hg38) 
• No gaps. Muchos alelos raros/privados fueron reemplazados 
• www.ensembl.org 
• Tiene soporte y es el más actualizado a la fecha. 
 
GRCh37 (aka hg19) 
• 250 gaps 
• http://grch37.ensembl.org/index.html 
• Datos y software con limitada actualización. 
• Todavía es el genoma preferido por la comunidad médica. 
 
NCBI36 (aka hg18) 
• 150,000 gaps 
• http://may2009.archive.ensembl.org/index.html 
• Ya no se actualiza. 
http://www.ensembl.org/
http://grch37.ensembl.org/index.html
http://may2009.archive.ensembl.org/index.html
Herramientas 
Lista de todas las especies 
cuyo genoma está disponible 
Tutoriales de las principales 
características de ENSEMBL 
La actualización 
más reciente y 
sus novedades 
Búsquedas 
Hagan clic en el genoma de humanos.. 
Búsquedas 
Información y 
estadística 
Links a ejemplos de algunas 
características de ENSEMBL 
Puede aparecer un cuadro con 
novedades si es que hay 
actualizaciones del genoma. 
Información 
Estadísticas 
Links a las otras website 
de los distintos taxas. 
Novedades 
Cada taxa está con 
un código de color 
diferente… 
Bacterias Protistas 
Hongos Metazoos Plantas 
Novedades 
Buscar por especie 
Buscar por gen 
Información de 
la web 
• No hay una lista completa de 
especies. 
• Se recomienda comenzar a 
escribir el nombre de la 
especie en el cuadro de 
búsqueda (por especie). 
Ej.: Peptoclostridium difficile 
“Region in detail” 
www.ensembl.org 
 Se puede buscar una región determinada por medio de la caja 
de búsqueda. Es necesario especificar la especie. 
 Ejemplo: human 4:122868000-122946000 
http://www.ensembl.org/
Herramientas 
Cromosoma 
Ayuda específica de la página 
Overview de la región 
Vistas de la localización 
Información de la región en 
detalle 
Haplotipos y 
parches 
Nuestra posición 
Bandeo 
cromosómico 
Región de 
interés 
Cada bloque 
representa 
genes (leyenda 
abajo) 
Botones de desplazamiento 
La barra azul es 
el genoma 
Leyendas 
Barra de posición 
Transcriptos 
forwards 
Transcriptos 
reverse 
Genes y 
Transcriptos 
Intrón, 
Forward strand 
Exón, NO 
codificante 
Intrón, 
Reverse strand 
Exón, 
codificante 
Transcripto NO codificante 
Unión de transcripto 
Transcripto codificante 
“Golden transcripts” 
 Se denominan “transcriptos dorados” a aquellos que poseen 
anotación idéntica en y 
 Los modelos de transcripción se comparan y fusionan cuando 
su estructura de “splicing” es idéntica. 
 Si los extremos difieren entre los dos modelos, se utilizan 
aquellos anotados en 
 Alta calidad y confiabilidad. 
Anotación - 
AUTOMÁTICA MANUAL 
Anotación AUTOMÁTICA de Genes 
 Determinación de todo el genoma 
utilizando el “pipeline” automático 
de ENSEMBL. 
 Predicciones basadas en datos 
experimentales (biológicos). 
 Proteínas conocidas / ADNc 
mapeados en el genoma usando 
complementariedad de bases. 
Evidencia Biológica 
 INSDC (International Nucleotide Sequence Database Collaboration) 
 ADNc 
 ESTs 
 RNA-seq 
 
 Bases de datos de secuencias de proteínas. 
 Swiss-Prot: curado manualmente. 
 TrEMBL: traducciones no revisadas. 
 
 Inferir genes a partir de la homología a otras especies. 
 Ej.: predecir genes de la especie1 al mapear 
ADNc/proteínas de la especie2 en el genoma de especie1. 
sp1 sp2 
Anotación MANUAL de Genes 
 Determinación de genes, en todo el 
genoma, en forma manual (una 
persona). 
 Utiliza datos de: 
 INSDC, 
 RNA-seq, 
 Datos transcriptómicos (lecturas 
largas), 
 Datos de intrones, 
 Publicaciones, 
 Etc. 
Transcriptos CCDS (Consensus coding DNA sequence) 
 Acuerdo entre EBI (Ensembl, Havana, HGNC), MGI y NCBI. 
 https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi 
 
 
 
http://training.ensembl.org/events 
 
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
http://training.ensembl.org/events
http://training.ensembl.org/events
Transcriptos MANE 
(Matched Annotation from the NCBI and EBI) 
 Los transcriptos se establecen con 100% de identidad entre los 
recursos (inyendo regiones no codificantes). 
 El primer conjunto de transcriptos (versión "beta“) de MANE 
Select v0.5 se lanzó con ENSEMBL 96. 
 Solo hay ~ 50% de las transcripciones sobre proteínas humanas. 
http://training.ensembl.org/events 
 
http://training.ensembl.org/events
http://training.ensembl.org/events
Visualización de Genes 
http://training.ensembl.org/events 
 
Transcripto NO codificante Unión de transcripto Transcripto codificante 
Exón, codificante Exón, NO codificante 
Intrón 
http://training.ensembl.org/events
http://training.ensembl.org/events
¿Cuál transcripto debería usar? 
http://training.ensembl.org/events 
 
http://training.ensembl.org/events
http://training.ensembl.org/events
PRÁCTICA • Vamos a buscar el gen ESPN en Humanos. 
http://training.ensembl.org/events 
 
http://training.ensembl.org/events
http://training.ensembl.org/events
PRÁCTICA • Vamos a buscar el gen ESPN en Humanos. 
http://training.ensembl.org/events 
 
Filtros 
Resultados 
Links 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Ventana del Gen 
Visualización 
Tabla de 
transcriptos 
La barra azul es 
el genoma 
Transcriptos 
forwards 
Transcriptos 
reverse 
http://training.ensembl.org/events
http://training.ensembl.org/events
Paraver la 
SECUENCIA 
Exón ESPN 
Otro exón en el gen 
Región upstream 
Opciones: BLAST o descargar la sec. 
Opciones de 
configuración 
Mostrar 
variantes 
Links a las 
diferentes 
variantes 
Leyenda 
¿Por qué GO (Gene Ontology)? 
http://training.ensembl.org/events 
 
Múltiples términos para la misma cosa 
Descripciones demasiado especifica de genes 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Los términos GO forman un vocabulario 
controlado 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Los términos GO son jerárquicos 
http://training.ensembl.org/events
http://training.ensembl.org/events
PRÁCTICA 
• Vamos a buscar el gen ESPN y encontrar información 
sobre él y sus transcriptos. 
PRÁCTICA 
• Vamos a buscar el gen ESPN y encontrar información 
sobre él y sus transcriptos. 
Evidencia 
Categorías de 
GO 
Los términos GO están 
ligados a dif. transcriptos 
Otros genes con el 
mismo término 
Tejidos 
Experimentos 
Nivel de expresión 
Al colocar el cursor sobre 
un tejido se ilumina el 
ideograma 
Isoforma de 
splicing 
 Si solo tuviéramos que elegir UNA transcripción para analizar, 
elegiríamos aquellos que tienen: 
 Anotación coincidente entre métodos automáticos y manuales (oro). 
 Anotación CDS coincidente, dándole una identificación CCDS. 
 Alta compatibilidad de transcripción (TSL1). 
 Una estructura completa que lo convierte en miembro de GENCODE Basic. 
Click en… 
Supporting evidence 
Exon 
Click en… 
Supporting evidence 
Exon 
Link a los registros originales 
Estructura del 
transcripto 
Evidencias 
Evidencia 
HAVANA 
Evidencia 
ENSEMBL 
AZUL: Sec. codificante 
VERDE: Sec. flanqueantes 
ROJO: Sec. UTR 
GRIS: Intrón 
Click en… 
cDNA 
Protein summary 
Click en… 
cDNA 
Protein summary 
Los colores alternados de 
violeta indican la 
estructura de los exones 
Variación 
TIPOS DE VARIACIÓN 
 Corta escala (uno o pocos nucleótidos de un gen). 
 Pequeñas inserciones y deleciones (Indels). 
 Polimorfismo de nucleótido único (SNP). 
 
 
 Gran escala (estructura cromosómica - variación estructural). 
 Variación en el número de copias (CNV). 
 Grandes eliminaciones/duplicaciones, inserciones, translocaciones. 
 Deleción Duplicación Inserción Traslocación 
Origen de la Variación 
http://www.ensembl.org/info/genome/variation/species/sources_documentation.html 
http://www.ensembl.org/info/genome/variation/species/sources_documentation.html
Proyecto HapMap 
 Genotipado de 1301 individuos de 11 poblaciones. 
Proyecto 1000 Genomas 
 Secuenciado de 2500 individuos con una cobertura 4X. 
“Variation consequences” 
 Para cada variante que se asigna al genoma de referencia, 
ENSEMBL identifica todas las transcripciones superpuestas. 
 Se predicen los efectos que cada alelo puede tener en cada 
transcripto. 
“Consequence terms” 
 Conjunto de términos definidos por “Sequence Ontology” (SO), 
para facilitar la comparación cruzada en las anotaciones. 
ALELOS DE REFERENCIA 
 Frecuencia T = 0.05, frecuencia G = 0.95. 
 G = alelo en todos los primates. 
 T = causa susceptibilidad a una enfermedad. 
 
 T es alelo en el contig utilizado. 
 T es el alelo de referencia. 
 G es el alelo alternativo. 
 Los alelos son T/G. 
PRÁCTICA • Vamos a buscar el gen MCM6 en Humanos. 
• Vean la secuencia. 
http://training.ensembl.org/events 
 
http://training.ensembl.org/events
http://training.ensembl.org/events
PRÁCTICA • Vamos a buscar el gen MCM6 en Humanos. 
• Vean la secuencia. 
http://training.ensembl.org/events 
 
Leyenda de los tipos 
de variantes 
Link a las 
variantes 
Variantes en la secuencia 
(código IUPAC) 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Transcripto afectado ID de la variante 
Evidencia de la variante 
(mover cursor) 
Filtrar por término de 
“Consequences” 
Filtros 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Tabla con todos los SVs 
Pequeños SVs se 
muestran en forma 
independiente 
Grandes SVs se muestran 
condensados en una sola 
barra 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Fenotipo asociado con el gen 
Fenotipos asociados con las variantes del gen 
Fenotipos asociados con ortólogos del gen Lista de las 
variantes 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Información de la variante 
Diferentes 
opciones con 
inf. variantes 
Iconos de variantes. Los 
números indican que 
tienen información 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events 
 
Gráficos de las 
frecuencias alélicas 
Tabla con información 
más detallada Expandir subpoblación 
http://training.ensembl.org/events
http://training.ensembl.org/events

Continuar navegando

Materiales relacionados