Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Explorando el navegador de Ensembl genome INTRODUCCIÓN ¿Por qué necesitamos navegadores genómicos? • 1977: primer genoma en ser secuenciado (5 kb) • 2004: secuencia humana terminada (3 Gb) ¿QUÉ ES ENSEMBL? Ensembl es un proyecto que trata de "desarrollar un sistema de software que produzca y mantenga anotaciones automáticas en genomas seleccionados". Toda la información y software generados en el proyecto es de libre uso y acceso. Ensembl anota y mapea características genómicas de secuencias provenientes de diferentes genomas ¿QUÉ ES ENSEMBL? Ensembl es un "recurso de valor agregado" que reúne información de una amplia gama de otras bases de datos en un solo sitio. ¿QUÉ ES ENSEMBL? www.ncbi.nlm.nih.gov/genome/gdv/ www.genome.ucsc.edu www.ensembl.org www.ensemblgenomes.org http://www.ncbi.nlm.nih.gov/genome/gdv/ http://www.genome.ucsc.edu/ http://www.ensembl.org/ http://www.ensemblgenomes.org/ ENSEMBL - Características Información genéticas para > 200 especies. Árboles filogenéticos. Información regulatoria (ENCODE). Variantes y VEP. Visualización de los datos del usuario. BioMart (exportación de datos). Acceso programático a través de las APIs. Completamente de código abierto (Open source). Especies de vertebrados en ENSEMBL No vertebrados en ENSEMBL Genomes Bacterias Protistas Hongos Metazoos Plantas http://ensemblgenomes.org/ http://ensemblgenomes.org/ ENSEMBL y EMSEMBLGenomes Ciclo de liberación de la información 99 (Enero 2020) Ensamblado de Genomas GENOMA “ADN dentro de la célula” ENSAMBLE DEL GENOMA • Representación del genoma. • Contiene errores y gaps. Ensamblado de Genomas Clonado en BACs Realizar un contig Contigs a Scaffolds Contigs de Genomas Ensamblado de Genomas Humanos GRCh38 (aka hg38) • No gaps. Muchos alelos raros/privados fueron reemplazados • www.ensembl.org • Tiene soporte y es el más actualizado a la fecha. GRCh37 (aka hg19) • 250 gaps • http://grch37.ensembl.org/index.html • Datos y software con limitada actualización. • Todavía es el genoma preferido por la comunidad médica. NCBI36 (aka hg18) • 150,000 gaps • http://may2009.archive.ensembl.org/index.html • Ya no se actualiza. http://www.ensembl.org/ http://grch37.ensembl.org/index.html http://may2009.archive.ensembl.org/index.html Herramientas Lista de todas las especies cuyo genoma está disponible Tutoriales de las principales características de ENSEMBL La actualización más reciente y sus novedades Búsquedas Hagan clic en el genoma de humanos.. Búsquedas Información y estadística Links a ejemplos de algunas características de ENSEMBL Puede aparecer un cuadro con novedades si es que hay actualizaciones del genoma. Información Estadísticas Links a las otras website de los distintos taxas. Novedades Cada taxa está con un código de color diferente… Bacterias Protistas Hongos Metazoos Plantas Novedades Buscar por especie Buscar por gen Información de la web • No hay una lista completa de especies. • Se recomienda comenzar a escribir el nombre de la especie en el cuadro de búsqueda (por especie). Ej.: Peptoclostridium difficile “Region in detail” www.ensembl.org Se puede buscar una región determinada por medio de la caja de búsqueda. Es necesario especificar la especie. Ejemplo: human 4:122868000-122946000 http://www.ensembl.org/ Herramientas Cromosoma Ayuda específica de la página Overview de la región Vistas de la localización Información de la región en detalle Haplotipos y parches Nuestra posición Bandeo cromosómico Región de interés Cada bloque representa genes (leyenda abajo) Botones de desplazamiento La barra azul es el genoma Leyendas Barra de posición Transcriptos forwards Transcriptos reverse Genes y Transcriptos Intrón, Forward strand Exón, NO codificante Intrón, Reverse strand Exón, codificante Transcripto NO codificante Unión de transcripto Transcripto codificante “Golden transcripts” Se denominan “transcriptos dorados” a aquellos que poseen anotación idéntica en y Los modelos de transcripción se comparan y fusionan cuando su estructura de “splicing” es idéntica. Si los extremos difieren entre los dos modelos, se utilizan aquellos anotados en Alta calidad y confiabilidad. Anotación - AUTOMÁTICA MANUAL Anotación AUTOMÁTICA de Genes Determinación de todo el genoma utilizando el “pipeline” automático de ENSEMBL. Predicciones basadas en datos experimentales (biológicos). Proteínas conocidas / ADNc mapeados en el genoma usando complementariedad de bases. Evidencia Biológica INSDC (International Nucleotide Sequence Database Collaboration) ADNc ESTs RNA-seq Bases de datos de secuencias de proteínas. Swiss-Prot: curado manualmente. TrEMBL: traducciones no revisadas. Inferir genes a partir de la homología a otras especies. Ej.: predecir genes de la especie1 al mapear ADNc/proteínas de la especie2 en el genoma de especie1. sp1 sp2 Anotación MANUAL de Genes Determinación de genes, en todo el genoma, en forma manual (una persona). Utiliza datos de: INSDC, RNA-seq, Datos transcriptómicos (lecturas largas), Datos de intrones, Publicaciones, Etc. Transcriptos CCDS (Consensus coding DNA sequence) Acuerdo entre EBI (Ensembl, Havana, HGNC), MGI y NCBI. https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi http://training.ensembl.org/events https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi http://training.ensembl.org/events http://training.ensembl.org/events Transcriptos MANE (Matched Annotation from the NCBI and EBI) Los transcriptos se establecen con 100% de identidad entre los recursos (inyendo regiones no codificantes). El primer conjunto de transcriptos (versión "beta“) de MANE Select v0.5 se lanzó con ENSEMBL 96. Solo hay ~ 50% de las transcripciones sobre proteínas humanas. http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Visualización de Genes http://training.ensembl.org/events Transcripto NO codificante Unión de transcripto Transcripto codificante Exón, codificante Exón, NO codificante Intrón http://training.ensembl.org/events http://training.ensembl.org/events ¿Cuál transcripto debería usar? http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events PRÁCTICA • Vamos a buscar el gen ESPN en Humanos. http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events PRÁCTICA • Vamos a buscar el gen ESPN en Humanos. http://training.ensembl.org/events Filtros Resultados Links http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Ventana del Gen Visualización Tabla de transcriptos La barra azul es el genoma Transcriptos forwards Transcriptos reverse http://training.ensembl.org/events http://training.ensembl.org/events Paraver la SECUENCIA Exón ESPN Otro exón en el gen Región upstream Opciones: BLAST o descargar la sec. Opciones de configuración Mostrar variantes Links a las diferentes variantes Leyenda ¿Por qué GO (Gene Ontology)? http://training.ensembl.org/events Múltiples términos para la misma cosa Descripciones demasiado especifica de genes http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Los términos GO forman un vocabulario controlado http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Los términos GO son jerárquicos http://training.ensembl.org/events http://training.ensembl.org/events PRÁCTICA • Vamos a buscar el gen ESPN y encontrar información sobre él y sus transcriptos. PRÁCTICA • Vamos a buscar el gen ESPN y encontrar información sobre él y sus transcriptos. Evidencia Categorías de GO Los términos GO están ligados a dif. transcriptos Otros genes con el mismo término Tejidos Experimentos Nivel de expresión Al colocar el cursor sobre un tejido se ilumina el ideograma Isoforma de splicing Si solo tuviéramos que elegir UNA transcripción para analizar, elegiríamos aquellos que tienen: Anotación coincidente entre métodos automáticos y manuales (oro). Anotación CDS coincidente, dándole una identificación CCDS. Alta compatibilidad de transcripción (TSL1). Una estructura completa que lo convierte en miembro de GENCODE Basic. Click en… Supporting evidence Exon Click en… Supporting evidence Exon Link a los registros originales Estructura del transcripto Evidencias Evidencia HAVANA Evidencia ENSEMBL AZUL: Sec. codificante VERDE: Sec. flanqueantes ROJO: Sec. UTR GRIS: Intrón Click en… cDNA Protein summary Click en… cDNA Protein summary Los colores alternados de violeta indican la estructura de los exones Variación TIPOS DE VARIACIÓN Corta escala (uno o pocos nucleótidos de un gen). Pequeñas inserciones y deleciones (Indels). Polimorfismo de nucleótido único (SNP). Gran escala (estructura cromosómica - variación estructural). Variación en el número de copias (CNV). Grandes eliminaciones/duplicaciones, inserciones, translocaciones. Deleción Duplicación Inserción Traslocación Origen de la Variación http://www.ensembl.org/info/genome/variation/species/sources_documentation.html http://www.ensembl.org/info/genome/variation/species/sources_documentation.html Proyecto HapMap Genotipado de 1301 individuos de 11 poblaciones. Proyecto 1000 Genomas Secuenciado de 2500 individuos con una cobertura 4X. “Variation consequences” Para cada variante que se asigna al genoma de referencia, ENSEMBL identifica todas las transcripciones superpuestas. Se predicen los efectos que cada alelo puede tener en cada transcripto. “Consequence terms” Conjunto de términos definidos por “Sequence Ontology” (SO), para facilitar la comparación cruzada en las anotaciones. ALELOS DE REFERENCIA Frecuencia T = 0.05, frecuencia G = 0.95. G = alelo en todos los primates. T = causa susceptibilidad a una enfermedad. T es alelo en el contig utilizado. T es el alelo de referencia. G es el alelo alternativo. Los alelos son T/G. PRÁCTICA • Vamos a buscar el gen MCM6 en Humanos. • Vean la secuencia. http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events PRÁCTICA • Vamos a buscar el gen MCM6 en Humanos. • Vean la secuencia. http://training.ensembl.org/events Leyenda de los tipos de variantes Link a las variantes Variantes en la secuencia (código IUPAC) http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Transcripto afectado ID de la variante Evidencia de la variante (mover cursor) Filtrar por término de “Consequences” Filtros http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Tabla con todos los SVs Pequeños SVs se muestran en forma independiente Grandes SVs se muestran condensados en una sola barra http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Fenotipo asociado con el gen Fenotipos asociados con las variantes del gen Fenotipos asociados con ortólogos del gen Lista de las variantes http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Información de la variante Diferentes opciones con inf. variantes Iconos de variantes. Los números indican que tienen información http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Gráficos de las frecuencias alélicas Tabla con información más detallada Expandir subpoblación http://training.ensembl.org/events http://training.ensembl.org/events
Compartir