Logo Studenta

TALLER_BD - Clase3

¡Este material tiene más páginas!

Vista previa del material en texto

Clase I – Bases 
de datos 
bibliográficas
Clase II –
Genbank
Clase III –
Navegador de 
Ensembl
Genome
Clase IV –
Uniprot y PDB
Taller de Manejo de Software y 
Base de Datos (2228)
Licenciatura en Biotecnología
UNM – Noviembre 2020
Clase 3 – Explorando el 
navegador de Ensembl genoma
Taller de Manejo de Software y Base de Datos (2228)
Licenciatura en Biotecnología
UNM – Noviembre 2020
INTRODUCCIÓN 
¿Por qué necesitamos navegadores genómicos?
• 1977: primer genoma en ser secuenciado (5 kb)
• 2004: secuencia humana terminada (3 Gb)
¿QUÉ ES ENSEMBL? 
▪ Ensembl es un proyecto que trata de "desarrollar un sistema
de software que produzca y mantenga anotaciones
automáticas en genomas seleccionados".
▪ Toda la información y software generados en el proyecto es de
libre uso y acceso.
Ensembl anota y mapea características genómicas de secuencias provenientes de diferentes 
genomas
¿QUÉ ES ENSEMBL? 
▪ Ensembl es un "recurso de valor agregado" que reúne
información de una amplia gama de otras bases de datos en
un solo sitio.
¿QUÉ ES ENSEMBL? 
www.ncbi.nlm.nih.gov/genome/gdv/
www.genome.ucsc.edu
www.ensembl.org
www.ensemblgenomes.org
http://www.ncbi.nlm.nih.gov/genome/gdv/
http://www.genome.ucsc.edu/
http://www.ensembl.org/
http://www.ensemblgenomes.org/
ENSEMBL - Características
▪ Información genéticas para > 200 especies.
▪ Árboles filogenéticos.
▪ Información regulatoria (ENCODE).
▪ Variantes y VEP.
▪ Visualización de los datos del usuario.
▪ BioMart (exportación de datos).
▪ Acceso programático a través de las APIs.
▪ Completamente de código abierto (Open source).
Especies de vertebrados 
en ENSEMBL
No vertebrados en
ENSEMBL Genomes
Bacterias Protistas
Hongos Metazoos Plantas
http://ensemblgenomes.org/
http://ensemblgenomes.org/
ENSEMBL y EMSEMBLGenomes
Ciclo de liberación de la 
información
99
(Enero 2020)
Ensamblado de Genomas
GENOMA
“ADN dentro de la célula”
ENSAMBLE DEL GENOMA
• Representación del genoma.
• Contiene errores y gaps.
Ensamblado de
Genomas
Realizar un contig
Contigs a Scaffolds
Contigs de
Genomas
Ensamblado de Genomas Humanos
GRCh38 (aka hg38)
• No gaps. Muchos alelos raros/privados fueron reemplazados
• www.ensembl.org
• Tiene soporte y es el más actualizado a la fecha.
GRCh37 (aka hg19)
• 250 gaps
• http://grch37.ensembl.org/index.html
• Datos y software con limitada actualización.
• Todavía es el genoma preferido por la comunidad médica.
NCBI36 (aka hg18)
• 150,000 gaps
• http://may2009.archive.ensembl.org/index.html 
• Ya no se actualiza.
http://www.ensembl.org/
http://grch37.ensembl.org/index.html
http://may2009.archive.ensembl.org/index.html
Herramientas
Lista de todas las especies 
cuyo genoma está disponible
Tutoriales de las principales 
características de ENSEMBL
La actualización 
más reciente y 
sus novedades
Búsquedas
Versiones previas
Click en “humano”
Búsquedas
Información y 
estadística
Links a ejemplos de algunas 
características de ENSEMBL
Puede aparecer un cuadro con 
novedades si es que hay 
actualizaciones del genoma.
Ya en humanos…
Información
Estadísticas (entre ellas, largo 
el pb del genoma, nro de 
genes identificados, etc…)
Links a las otras website
de los distintos taxas.
Novedades
http://ensemblgenomes.org
Cada taxa tiene con 
un código de color
diferente…
Bacterias Protistas
Hongos Metazoos Plantas
Novedades
Buscar por especie
Buscar por gen
Información de 
la web
• A diferencia de los otros Ensembl, para
bacteria no hay una lista completa de
especies.
• Se recomienda comenzar a escribir el nombre
de la especie en el cuadro de búsqueda (por
especie).
Novedades
Buscar por especie
Buscar por gen
Información de 
la web
• A diferencia de los otros
Ensembl, para bacteria no
hay una lista completa de
especies.
• Se recomienda comenzar a
escribir el nombre de la
especie en el cuadro de
búsqueda (por especie). Ej.: Peptoclostridium difficile
Búsquedas
“Region in detail”
www.ensembl.org
▪ Se puede buscar una región determinada por medio de alguna
de las dos cajas de búsqueda. Es necesario especificar la
especie.
▪ Ejemplo: human 4:122868000-122946000
http://www.ensembl.org/
Herramientas
Cromosoma
Ayuda específica de la página
Overview de la región
Funciones/ vistas/ datos varios
Información de la región en 
detalle (ampliado)
Haplotipos y 
parches
Nuestra posición
Bandeo 
cromosómico
Región de 
interés
Cada bloque 
representa 
genes (leyenda 
abajo)
Botones de desplazamiento
La barra azul es 
el genoma
Leyendas
Barra de posición
Transcriptos 
forwards
Transcriptos 
reverse
Genes y 
Transcriptos
Intrón,
Forward strand
Exón, NO 
codificante
Intrón,
Reverse strand
Exón, 
codificante
Transcripto NO codificante
Unión de transcripto
Transcripto codificante
Anotación ENSEMBL -
AUTOMÁTICA MANUAL
“Golden transcripts”
▪ Se denominan “transcriptos dorados” a aquellos que poseen
anotación idéntica en y
▪ Los modelos de transcripción se comparan y fusionan cuando
su estructura de “splicing” es idéntica.
▪ Si los extremos difieren entre los dos modelos, se utilizan
aquellos anotados en
▪ Alta calidad y confiabilidad.
Anotación AUTOMÁTICA de Genes
▪ Determinación de todo el genoma
utilizando el “pipeline” automático
de ENSEMBL.
▪ Predicciones basadas en datos
experimentales (biológicos).
▪ Proteínas conocidas / ADNc
mapeados en el genoma usando
complementariedad de bases.
Evidencia Biológica
▪ INSDC (International Nucleotide Sequence Database Collaboration)
✓ ADNc
✓ ESTs
✓ RNA-seq
▪ Bases de datos de secuencias de proteínas.
✓ Swiss-Prot: curado manualmente.
✓ TrEMBL: traducciones no revisadas.
▪ Inferir genes a partir de la homología a otras especies.
✓ Ej.: predecir genes de la especie1 al mapear
ADNc/proteínas de la especie2 en el genoma de especie1.
sp1 sp2
Anotación MANUAL de Genes
▪ Determinación de genes, en todo el
genoma, en forma manual (es decir,
hay personas que trabajan en esto…).
▪ Utiliza datos de:
✓ INSDC,
✓ RNA-seq,
✓ Datos transcriptómicos (lecturas
largas),
✓ Datos de intrones,
✓ Publicaciones,
✓ Etc.
Transcriptos CCDS (Consensus coding DNA sequence)
▪ Acuerdo entre EBI (Ensembl, Havana, HGNC), MGI y NCBI
(EEUU).
▪ https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
▪
http://training.ensembl.org/events
https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi
http://training.ensembl.org/events
Transcriptos MANE
(Matched Annotation from the NCBI and EBI)
▪ Los transcriptos se establecen con 100% de identidad entre EBI y
NCBI (incluyendo regiones no codificantes).
▪ El primer conjunto de transcriptos (versión "beta“) de MANE
Select v0.5 se lanzó con ENSEMBL 96.
▪ Solo hay ~ 50% de las transcripciones sobre proteínas humanas.
http://training.ensembl.org/events
http://training.ensembl.org/events
Visualización de Genes
http://training.ensembl.org/events
Transcripto NO codificanteUnión de transcripto Transcripto codificante
Exón, codificante Exón, NO codificante
Intrón
http://training.ensembl.org/events
¿Cuál transcripto debería usar?
http://training.ensembl.org/events
Largo transcripto Largo proteína
http://training.ensembl.org/events
http://training.ensembl.org/events
Ejemplo • Vamos a buscar el gen ESPN en Humanos.
http://training.ensembl.org/events
http://training.ensembl.org/events
Filtros
Resultados
Links
Ejemplo • Vamos a buscar el gen ESPN en Humanos.
http://training.ensembl.org/events
http://training.ensembl.org/events
Ventana del Gen
Visualización
FENOTIPOS que están 
asociado este gen (ej.: 
enfermedades)
Localización
Números de transcriptos 
tiene este gen
¿Qué puedo hacer con ese gen en Ensembl?
Información
general del gen
http://training.ensembl.org/events
http://training.ensembl.org/events
Tabla de 
transcriptos
La barra azul es 
el genoma
Transcriptos 
forwards
Transcriptos 
reverse
¿Qué puedo hacer con ese gen en Ensembl?
http://training.ensembl.org/events
1) Para verla 
SECUENCIA
Exón del gen ESPN
Otro exón (no 
perteneciente al gen 
ESPN)
Región upstream
Opciones: BLAST o descargar la sec.
1) Si quieren configurar qué ver 
en esa secuencia (ej. variantes)
Opciones de 
configuración
Mostrar variantes (y podriamos pedir 
tb los links a BD en las que aparecen 
dichas variantes)
Links a las 
diferentes 
variantes
Leyenda (cada 
color indica un 
TIPO de 
variante 
diferente)
Predicción del efecto y posición de las variantes, 
relativo a la estructura del transcripto
Más información: 
https://www.ensembl.org/info/genome/variation/prediction/predicted_data.html
https://www.ensembl.org/info/genome/variation/prediction/predicted_data.html
Si quieren ver cuál es la función 
de ese gen, en donde participa 
(lugar de la célula) y proceso 
biológico en el que está 
involucrado…
¿Por qué GO (Gene Ontology)?
http://training.ensembl.org/events
Múltiples términos para la misma cosa
Descripciones demasiado especifica de genes
http://training.ensembl.org/events
http://training.ensembl.org/events
Los términos GO forman un vocabulario 
controlado
http://training.ensembl.org/events
http://training.ensembl.org/events
Los términos GO son jerárquicos
http://training.ensembl.org/events
Categorías de 
GO: lugar de la 
célula donde 
actua este gen
Los términos GO están 
ligados a dif. transcriptos
Evidencia
Ejemplo • Volvamos al gen ESPN… ahora queremos encontrar
información sobre él y sus transcriptos.
Categorías de 
GO: Función 
molecular
Categorías de 
GO: proceso 
biológico
Ejemplo • Si buscamos información sobre dónde se expresa dicho gen…
Tejidos
Experimentos
Nivel de expresión
Al colocar el cursor sobre 
un tejido se ilumina el 
ideograma
Tejidos
Experimentos
Nivel de expresión
Al colocar el cursor sobre 
un tejido se ilumina el 
ideograma
Tabla de 
transcriptos
▪ Si solo tuviéramos que elegir UN solo transcripto de la tabla para
analizar, elegiríamos aquel que tiene:
✓ Anotación coincidente entre métodos automáticos y manuales (oro).
✓ Anotación CDS coincidente, dándole una identificación CCDS.
✓ Alta compatibilidad de transcripción (TSL1).
✓ Una estructura completa que lo convierte en miembro de GENCODE Basic.
Click en…
Click en…
Supporting evidence
Exon
Link a los registros originales
Estructura del 
transcripto
Evidencias
Evidencia 
HAVANA
Evidencia 
ENSEMBL
AZUL: Sec. codificante
VERDE: Sec. flanqueantes
ROJO: Sec. UTR
GRIS: Intrón
Click en…
cDNA
Protein summary
Click en…
cDNA
Protein summary
Los colores alternados de 
violeta indican la 
estructura de los exones
Variación
TIPOS DE VARIACIÓN
▪ Corta escala (uno o pocos nucleótidos de un gen).
✓ Pequeñas inserciones y deleciones (Indels).
✓ Polimorfismo de nucleótido único (SNP).
▪ Gran escala (estructura cromosómica - variación estructural).
✓ Variación en el número de copias (CNV).
✓ Grandes eliminaciones/duplicaciones, inserciones, translocaciones.
Deleción Duplicación Inserción Traslocación
Origen de la Variación
http://www.ensembl.org/info/genome/variation/species/sources_documentation.html
http://www.ensembl.org/info/genome/variation/species/sources_documentation.html
Proyecto HapMap
▪ Genotipado de 1301 individuos de 11 poblaciones.
Proyecto 1000 Genomas
▪ Secuenciación de 2500 individuos con una cobertura 4X.
“Variation consequences”
▪ Para cada variante que se asigna al genoma de referencia,
ENSEMBL identifica todas las transcripciones superpuestas.
▪ Se predicen los efectos que cada alelo puede tener en cada
transcripto.
“Consequence terms”
▪ Conjunto de términos definidos por “Sequence Ontology” (SO),
para facilitar la comparación cruzada en las anotaciones.
Ejemplo • Vamos a buscar el gen MCM6 en Humanos.
• Vean la secuencia.
http://training.ensembl.org/events
http://training.ensembl.org/events
Ejemplo • Vamos a buscar el gen MCM6 en Humanos.
• Vean la secuencia.
http://training.ensembl.org/events
Leyenda de los tipos 
de variantes
Link a las 
variantes
Variantes en la secuencia 
(código IUPAC)
http://training.ensembl.org/events
Click en…
http://training.ensembl.org/events
Transcripto afectadoID de la variante (se puede 
usar para hacer 
búsquedas)
Evidencia de la variante 
(mover cursor)
Filtros
http://training.ensembl.org/events
http://training.ensembl.org/events
Filtrar por término de 
“Consequences”
Tipo de “Consequences”… por default 
se muestran todas, pero si quieren ver 
sólo algunas, click en “turn all off” y 
luego seleccionar la que les interese…
http://training.ensembl.org/events
Click en…
http://training.ensembl.org/events
Tabla con todas las SVs
Pequeñas SVs se 
muestran en forma 
independiente
Grandes SVs se muestran 
condensadas en una sola 
barra
http://training.ensembl.org/events
Click en…
http://training.ensembl.org/events
Fenotipo asociado con el gen
Fenotipos asociados con las variantes del gen
Fenotipos asociados con ortólogos del gen Lista de las 
variantes
http://training.ensembl.org/events
Ejemplo • Vamos a buscar la variante (SNP) rs4988235 en Humanos.
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events
Información de la variante
Diferentes 
opciones con 
inf. variantes
Iconos de variantes. Los 
números indican que 
tienen información
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events
http://training.ensembl.org/events
Gráficos de las 
frecuencias alélicas
Tabla con información 
más detallada Expandir subpoblación
http://training.ensembl.org/events
Ejemplo • Vamos a buscar una enfermedad (Huntington disease) en Humanos.• Trataremos de identificar genes (y sus variantes) asociados con esta
enfermedad.
TP Clase III - Ensembl

Continuar navegando

Materiales relacionados

30 pag.
TEXTO GUIA DE GENÉTICA

SIN SIGLA

User badge image

Brando Yanez

51 pag.
128 pag.
tesis-n6994-Biagioli

UNCA

User badge image

Contenidos y mucho más

73 pag.
TALLER_BD - Clase3

SIN SIGLA

User badge image

Agustina Guerrero