Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Clase I – Bases de datos bibliográficas Clase II – Genbank Clase III – Navegador de Ensembl Genome Clase IV – Uniprot y PDB Taller de Manejo de Software y Base de Datos (2228) Licenciatura en Biotecnología UNM – Noviembre 2020 Clase 3 – Explorando el navegador de Ensembl genoma Taller de Manejo de Software y Base de Datos (2228) Licenciatura en Biotecnología UNM – Noviembre 2020 INTRODUCCIÓN ¿Por qué necesitamos navegadores genómicos? • 1977: primer genoma en ser secuenciado (5 kb) • 2004: secuencia humana terminada (3 Gb) ¿QUÉ ES ENSEMBL? ▪ Ensembl es un proyecto que trata de "desarrollar un sistema de software que produzca y mantenga anotaciones automáticas en genomas seleccionados". ▪ Toda la información y software generados en el proyecto es de libre uso y acceso. Ensembl anota y mapea características genómicas de secuencias provenientes de diferentes genomas ¿QUÉ ES ENSEMBL? ▪ Ensembl es un "recurso de valor agregado" que reúne información de una amplia gama de otras bases de datos en un solo sitio. ¿QUÉ ES ENSEMBL? www.ncbi.nlm.nih.gov/genome/gdv/ www.genome.ucsc.edu www.ensembl.org www.ensemblgenomes.org http://www.ncbi.nlm.nih.gov/genome/gdv/ http://www.genome.ucsc.edu/ http://www.ensembl.org/ http://www.ensemblgenomes.org/ ENSEMBL - Características ▪ Información genéticas para > 200 especies. ▪ Árboles filogenéticos. ▪ Información regulatoria (ENCODE). ▪ Variantes y VEP. ▪ Visualización de los datos del usuario. ▪ BioMart (exportación de datos). ▪ Acceso programático a través de las APIs. ▪ Completamente de código abierto (Open source). Especies de vertebrados en ENSEMBL No vertebrados en ENSEMBL Genomes Bacterias Protistas Hongos Metazoos Plantas http://ensemblgenomes.org/ http://ensemblgenomes.org/ ENSEMBL y EMSEMBLGenomes Ciclo de liberación de la información 99 (Enero 2020) Ensamblado de Genomas GENOMA “ADN dentro de la célula” ENSAMBLE DEL GENOMA • Representación del genoma. • Contiene errores y gaps. Ensamblado de Genomas Realizar un contig Contigs a Scaffolds Contigs de Genomas Ensamblado de Genomas Humanos GRCh38 (aka hg38) • No gaps. Muchos alelos raros/privados fueron reemplazados • www.ensembl.org • Tiene soporte y es el más actualizado a la fecha. GRCh37 (aka hg19) • 250 gaps • http://grch37.ensembl.org/index.html • Datos y software con limitada actualización. • Todavía es el genoma preferido por la comunidad médica. NCBI36 (aka hg18) • 150,000 gaps • http://may2009.archive.ensembl.org/index.html • Ya no se actualiza. http://www.ensembl.org/ http://grch37.ensembl.org/index.html http://may2009.archive.ensembl.org/index.html Herramientas Lista de todas las especies cuyo genoma está disponible Tutoriales de las principales características de ENSEMBL La actualización más reciente y sus novedades Búsquedas Versiones previas Click en “humano” Búsquedas Información y estadística Links a ejemplos de algunas características de ENSEMBL Puede aparecer un cuadro con novedades si es que hay actualizaciones del genoma. Ya en humanos… Información Estadísticas (entre ellas, largo el pb del genoma, nro de genes identificados, etc…) Links a las otras website de los distintos taxas. Novedades http://ensemblgenomes.org Cada taxa tiene con un código de color diferente… Bacterias Protistas Hongos Metazoos Plantas Novedades Buscar por especie Buscar por gen Información de la web • A diferencia de los otros Ensembl, para bacteria no hay una lista completa de especies. • Se recomienda comenzar a escribir el nombre de la especie en el cuadro de búsqueda (por especie). Novedades Buscar por especie Buscar por gen Información de la web • A diferencia de los otros Ensembl, para bacteria no hay una lista completa de especies. • Se recomienda comenzar a escribir el nombre de la especie en el cuadro de búsqueda (por especie). Ej.: Peptoclostridium difficile Búsquedas “Region in detail” www.ensembl.org ▪ Se puede buscar una región determinada por medio de alguna de las dos cajas de búsqueda. Es necesario especificar la especie. ▪ Ejemplo: human 4:122868000-122946000 http://www.ensembl.org/ Herramientas Cromosoma Ayuda específica de la página Overview de la región Funciones/ vistas/ datos varios Información de la región en detalle (ampliado) Haplotipos y parches Nuestra posición Bandeo cromosómico Región de interés Cada bloque representa genes (leyenda abajo) Botones de desplazamiento La barra azul es el genoma Leyendas Barra de posición Transcriptos forwards Transcriptos reverse Genes y Transcriptos Intrón, Forward strand Exón, NO codificante Intrón, Reverse strand Exón, codificante Transcripto NO codificante Unión de transcripto Transcripto codificante Anotación ENSEMBL - AUTOMÁTICA MANUAL “Golden transcripts” ▪ Se denominan “transcriptos dorados” a aquellos que poseen anotación idéntica en y ▪ Los modelos de transcripción se comparan y fusionan cuando su estructura de “splicing” es idéntica. ▪ Si los extremos difieren entre los dos modelos, se utilizan aquellos anotados en ▪ Alta calidad y confiabilidad. Anotación AUTOMÁTICA de Genes ▪ Determinación de todo el genoma utilizando el “pipeline” automático de ENSEMBL. ▪ Predicciones basadas en datos experimentales (biológicos). ▪ Proteínas conocidas / ADNc mapeados en el genoma usando complementariedad de bases. Evidencia Biológica ▪ INSDC (International Nucleotide Sequence Database Collaboration) ✓ ADNc ✓ ESTs ✓ RNA-seq ▪ Bases de datos de secuencias de proteínas. ✓ Swiss-Prot: curado manualmente. ✓ TrEMBL: traducciones no revisadas. ▪ Inferir genes a partir de la homología a otras especies. ✓ Ej.: predecir genes de la especie1 al mapear ADNc/proteínas de la especie2 en el genoma de especie1. sp1 sp2 Anotación MANUAL de Genes ▪ Determinación de genes, en todo el genoma, en forma manual (es decir, hay personas que trabajan en esto…). ▪ Utiliza datos de: ✓ INSDC, ✓ RNA-seq, ✓ Datos transcriptómicos (lecturas largas), ✓ Datos de intrones, ✓ Publicaciones, ✓ Etc. Transcriptos CCDS (Consensus coding DNA sequence) ▪ Acuerdo entre EBI (Ensembl, Havana, HGNC), MGI y NCBI (EEUU). ▪ https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi ▪ http://training.ensembl.org/events https://www.ncbi.nlm.nih.gov/CCDS/CcdsBrowse.cgi http://training.ensembl.org/events Transcriptos MANE (Matched Annotation from the NCBI and EBI) ▪ Los transcriptos se establecen con 100% de identidad entre EBI y NCBI (incluyendo regiones no codificantes). ▪ El primer conjunto de transcriptos (versión "beta“) de MANE Select v0.5 se lanzó con ENSEMBL 96. ▪ Solo hay ~ 50% de las transcripciones sobre proteínas humanas. http://training.ensembl.org/events http://training.ensembl.org/events Visualización de Genes http://training.ensembl.org/events Transcripto NO codificanteUnión de transcripto Transcripto codificante Exón, codificante Exón, NO codificante Intrón http://training.ensembl.org/events ¿Cuál transcripto debería usar? http://training.ensembl.org/events Largo transcripto Largo proteína http://training.ensembl.org/events http://training.ensembl.org/events Ejemplo • Vamos a buscar el gen ESPN en Humanos. http://training.ensembl.org/events http://training.ensembl.org/events Filtros Resultados Links Ejemplo • Vamos a buscar el gen ESPN en Humanos. http://training.ensembl.org/events http://training.ensembl.org/events Ventana del Gen Visualización FENOTIPOS que están asociado este gen (ej.: enfermedades) Localización Números de transcriptos tiene este gen ¿Qué puedo hacer con ese gen en Ensembl? Información general del gen http://training.ensembl.org/events http://training.ensembl.org/events Tabla de transcriptos La barra azul es el genoma Transcriptos forwards Transcriptos reverse ¿Qué puedo hacer con ese gen en Ensembl? http://training.ensembl.org/events 1) Para verla SECUENCIA Exón del gen ESPN Otro exón (no perteneciente al gen ESPN) Región upstream Opciones: BLAST o descargar la sec. 1) Si quieren configurar qué ver en esa secuencia (ej. variantes) Opciones de configuración Mostrar variantes (y podriamos pedir tb los links a BD en las que aparecen dichas variantes) Links a las diferentes variantes Leyenda (cada color indica un TIPO de variante diferente) Predicción del efecto y posición de las variantes, relativo a la estructura del transcripto Más información: https://www.ensembl.org/info/genome/variation/prediction/predicted_data.html https://www.ensembl.org/info/genome/variation/prediction/predicted_data.html Si quieren ver cuál es la función de ese gen, en donde participa (lugar de la célula) y proceso biológico en el que está involucrado… ¿Por qué GO (Gene Ontology)? http://training.ensembl.org/events Múltiples términos para la misma cosa Descripciones demasiado especifica de genes http://training.ensembl.org/events http://training.ensembl.org/events Los términos GO forman un vocabulario controlado http://training.ensembl.org/events http://training.ensembl.org/events Los términos GO son jerárquicos http://training.ensembl.org/events Categorías de GO: lugar de la célula donde actua este gen Los términos GO están ligados a dif. transcriptos Evidencia Ejemplo • Volvamos al gen ESPN… ahora queremos encontrar información sobre él y sus transcriptos. Categorías de GO: Función molecular Categorías de GO: proceso biológico Ejemplo • Si buscamos información sobre dónde se expresa dicho gen… Tejidos Experimentos Nivel de expresión Al colocar el cursor sobre un tejido se ilumina el ideograma Tejidos Experimentos Nivel de expresión Al colocar el cursor sobre un tejido se ilumina el ideograma Tabla de transcriptos ▪ Si solo tuviéramos que elegir UN solo transcripto de la tabla para analizar, elegiríamos aquel que tiene: ✓ Anotación coincidente entre métodos automáticos y manuales (oro). ✓ Anotación CDS coincidente, dándole una identificación CCDS. ✓ Alta compatibilidad de transcripción (TSL1). ✓ Una estructura completa que lo convierte en miembro de GENCODE Basic. Click en… Click en… Supporting evidence Exon Link a los registros originales Estructura del transcripto Evidencias Evidencia HAVANA Evidencia ENSEMBL AZUL: Sec. codificante VERDE: Sec. flanqueantes ROJO: Sec. UTR GRIS: Intrón Click en… cDNA Protein summary Click en… cDNA Protein summary Los colores alternados de violeta indican la estructura de los exones Variación TIPOS DE VARIACIÓN ▪ Corta escala (uno o pocos nucleótidos de un gen). ✓ Pequeñas inserciones y deleciones (Indels). ✓ Polimorfismo de nucleótido único (SNP). ▪ Gran escala (estructura cromosómica - variación estructural). ✓ Variación en el número de copias (CNV). ✓ Grandes eliminaciones/duplicaciones, inserciones, translocaciones. Deleción Duplicación Inserción Traslocación Origen de la Variación http://www.ensembl.org/info/genome/variation/species/sources_documentation.html http://www.ensembl.org/info/genome/variation/species/sources_documentation.html Proyecto HapMap ▪ Genotipado de 1301 individuos de 11 poblaciones. Proyecto 1000 Genomas ▪ Secuenciación de 2500 individuos con una cobertura 4X. “Variation consequences” ▪ Para cada variante que se asigna al genoma de referencia, ENSEMBL identifica todas las transcripciones superpuestas. ▪ Se predicen los efectos que cada alelo puede tener en cada transcripto. “Consequence terms” ▪ Conjunto de términos definidos por “Sequence Ontology” (SO), para facilitar la comparación cruzada en las anotaciones. Ejemplo • Vamos a buscar el gen MCM6 en Humanos. • Vean la secuencia. http://training.ensembl.org/events http://training.ensembl.org/events Ejemplo • Vamos a buscar el gen MCM6 en Humanos. • Vean la secuencia. http://training.ensembl.org/events Leyenda de los tipos de variantes Link a las variantes Variantes en la secuencia (código IUPAC) http://training.ensembl.org/events Click en… http://training.ensembl.org/events Transcripto afectadoID de la variante (se puede usar para hacer búsquedas) Evidencia de la variante (mover cursor) Filtros http://training.ensembl.org/events http://training.ensembl.org/events Filtrar por término de “Consequences” Tipo de “Consequences”… por default se muestran todas, pero si quieren ver sólo algunas, click en “turn all off” y luego seleccionar la que les interese… http://training.ensembl.org/events Click en… http://training.ensembl.org/events Tabla con todas las SVs Pequeñas SVs se muestran en forma independiente Grandes SVs se muestran condensadas en una sola barra http://training.ensembl.org/events Click en… http://training.ensembl.org/events Fenotipo asociado con el gen Fenotipos asociados con las variantes del gen Fenotipos asociados con ortólogos del gen Lista de las variantes http://training.ensembl.org/events Ejemplo • Vamos a buscar la variante (SNP) rs4988235 en Humanos. http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Información de la variante Diferentes opciones con inf. variantes Iconos de variantes. Los números indican que tienen información http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events http://training.ensembl.org/events Gráficos de las frecuencias alélicas Tabla con información más detallada Expandir subpoblación http://training.ensembl.org/events Ejemplo • Vamos a buscar una enfermedad (Huntington disease) en Humanos.• Trataremos de identificar genes (y sus variantes) asociados con esta enfermedad. TP Clase III - Ensembl
Compartir