Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNM – Noviembre 2020 Licenciatura en Biotecnología Taller de Manejo de Software y Base de Datos (2228) Taller de Manejo de Software y Base de Datos (2228) CLASE 2 - GenBank Licenciatura en Biotecnología UNM – Noviembre 2020 ▪ Una base de datos (BD) es una colección de datos. ✓ Una agenda de teléfonos es un sencillo ejemplo de una base de datos. ▪ Los datos se almacenan en registros. ▪ Cada registro debe tener un identificador único y estable. ▪ La información que contiene cada registro está distribuida en campos. BASES DE DATOS ▪ Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos “biológicas”. ▪ Las bases de datos están escritas en SQL. ✓ SQL es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y recuperar información de sistemas de gestión de bases de datos relacionales. ✓ SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de datos y un lenguaje de control de datos. ✓ El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la creación y modificación de esquemas y el control de acceso a los datos. SQL (STRUCTURED QUERY LANGUAGE) SQL (STRUCTURED QUERY LANGUAGE) ▪ En bioinformática, el concepto de “base de datos biológica” no alude tanto a la tecnología usada como al contenido almacenado. ▪ Una base de datos biológica es un “almacén de datos” para información derivada de datos obtenidos de experimentos biológicos. ▪ Una base de datos bioinformática es un almacén de datos para información derivada de datos biológicos y programas bioinformáticos. ▪ Si bajamos al nivel más técnico, las bases de datos biológicas y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. BASES DE DATOS BIOLÓGICAS Y BIOINFORMÁTICAS ▪ Hay BD que almacenan los datos tal y como han sido depositados por quienes los han generado. Se las denomina BD primarias o bancos de datos. ▪ Suele haber redundancia (la misma información repetida varias veces): Ej.: muchos datos de secuenciación a genoma completo del virus SARS-COV-2. ✓ Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan). ✓ Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB. ✓ Ej. de BD primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank) y de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid database). BASES DE DATOS PRIMARIAS ▪ A partir del análisis de la información depositada en las BD primarias se pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. ▪ En muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva BD. ▪ No hay redundancia ▪ Son las llamadas BD secundarias o derivadas. ✓ Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam. ✓ Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence) → Sólo tiene una secuencia por gen y organismo. BASES DE DATOS SECUNDARIAS ▪ GenBank es una BD pública que contiene una extensa colección de secuencias de nucleótidos obtenidas a partir de más de 300.000 especies. ▪ Además de la secuencia, incluye información bibliográfica, anotaciones funcionales y, si se trata de una secuencia codificante, su traducción conceptual a proteína. ▪ De la gestión y distribución de GenBank se encarga el NCBI (National Center for Biotechnology Information) - Estados Unidos. GENBANK (https://www.ncbi.nlm.nih.gov/genbank/) https://www.ncbi.nlm.nih.gov/genbank/ Nuevo! Gran sección destinada específicamente a SARS-COV-2/ COVID19 Buscador Secciones en las cuales hacer búsquedas Nuevo! Gran sección destinada específicamente a SARS-COV-2/ COVID19 Buscador Secciones en las cuales hacer búsquedas ▪ Los contenidos de GenBank son accesibles de forma pública y gratuita a través de Internet (https://www.ncbi.nlm.nih.gov/genbank/). ▪ También es posible descargar los ficheros que contienen la BD desde el lugar ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/). ▪ Cada dos meses sale una nueva versión de la BD. ▪ Desde 1982, el número de secuencias almacenadas en GenBank se ha duplicado aproximadamente cada 18 meses. GENBANK https://www.ncbi.nlm.nih.gov/genbank/ ftp://ftp.ncbi.nlm.nih.gov/ ▪ Cada registro contiene una secuencia ininterrumpida de una molécula de ác. nucleicos. ▪ Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN pequeño citoplasmático. ▪ El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos registros antiguos pueden tener secuencias más cortas). ▪ No hay límite máximo: se pueden mandar genomas completos. GENBANK ▪ Los registros incluyen anotaciones bibliográficas y biológicas. ▪ GenBank asigna un número de acceso al registro que contiene la secuencia y las anotaciones. ✓ El número de acceso es un identificador único que utilizan las tres bases de datos (GenBank, ENA y DDBJ) y siempre estará asociado a ésta. ✓ Es una combinación de letras y números como, por ej.: U12345 o AF123456. ✓ Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y se indica después del número de acceso por un punto (ej.: U12345.1). ✓ Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el identificador U12345.2. GENBANK ▪ Se puede buscar directamente por nombre (de una proteina, un gen, una especie…) ▪ Siempre en inglés ▪ También se puede introducir el nombre del autor (o de la persona que ha enviado la secuencia). ▪ Si lo sabemos, podemos buscar por número de acceso/ ID (accession number) de una secuencia o genoma en particular… BÚSQUEDAS EN GENBANK ▪ Los resultados de la búsqueda se pueden filtrar según diversos criterios como: ✓ Tipo de molécula, ✓ Longitud, ✓ Especie, ✓ Base de datos, ✓ Fechas de envío o revisión, etc. BÚSQUEDAS EN GENBANK BÚSQUEDAS EN GENBANK – Por número de acceso (identificador único). Ej.: NM_002020 Acá se informan características varias de dicha secuencia o registro de la base de datos. Ej.: si contiene un gen, de dónde a dónde va dicho gen, si hay algún exon/ exones de dónde a donde van dichos exones, traducción a proteina posible, etc. Si seguimos explorando la salida de nuestra búsqueda en GenBank vamos a llegar a la sección “features” Y finalmente la secuencia (cada línea de la secuencia contiene 60 nucleótidos dispuestos en 6 bloques de 10) ¿CÓMO DESCARGAR DICHA SECUENCIA? ! ▪ En bioinformática, el formato FASTA es un formato de archivo basado en texto, utilizado para representar secuencias nucleicas o peptídicas, y en el que los pares de bases o los aminoácidos se representan usando códigos de una única letra. ✓ Comienza con una descripción en una única línea (línea de cabecera), seguida por líneas de datos de secuencia. La línea de descripción se distingue de los datos de secuencia por un símbolo '>' (mayor que) en la primera columna. ✓ La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto de la línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>' y la primera letra del identificador. FORMATO FASTA FORMATO FASTA ¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA GENBANK? Herramientas Papers (PUBMED) ▪ Las secuencias de ADN (y proteína) definen la función de las proteínas en los seres vivos. ✓ Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por ellas tenderán a ser más similares también. ✓ Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir comparten un ancestro común. ✓ A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o son homólogas (derivan del mismo ancestro)o no lo son. BLAST - ALINEAMIENTO DE SECUENCIAS ▪ Para poder cuantificar el grado de similitud de dos secuencias lo primero que hay que hacer es alinearlas. ✓ Alinear es, probablemente, la herramienta más utilizada en bioinformática. ✓ OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras al azar. ✓ Por lo tanto además de hacer el alineamiento hay que estimar la significación estadística del mismo. ALINEAMIENTO DE SECUENCIAS ▪ El alineamiento con mejor puntuación debería ser el más razonable (biológicamente). ▪ Para comparar distintos alineamientos entre sí se pueden asignar puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap) (para ADN, ARN y proteínas). ▪ Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud fisicoquímica de los diferentes aminoácidos. PUNTACIÓN DE LOS ALINEAMIENTOS ▪ Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1. ✓ Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)? ✓ SOLUCIÓN: matrices de sustitución!!!! PUNTACIÓN DE LOS ALINEAMIENTOS Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4 ▪ Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia más corta a que cubra la secuencia más larga (introduciendo los gaps que sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas más parecidas (Alineamiento local)? ▪ Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG PUNTACIÓN DE LOS ALINEAMIENTOS ▪ Representa los alineamientos gráficamente. ✓ Da resultados intuitivos e informa de posibles alineamientos alternativos. ✓ Sirve para descubrir repeticiones, inserciones, deleciones. ✓ Las secuencias similares aparecen en la diagonal. ✓ Ej: alinear AGCTACATGTA y AACTAGCATCT MÉTODO DE ALINEAMIENTO DE PARES DE SECUENCIA – DOT PLOT ▪ Consiste en alinear una secuencia con todas las de una base de datos, para identificar qué secuencias se parecen a nuestra secuencia “incógnita”. ▪ Para hacer esto es necesario contar con un algoritmo muy rápido porque hay millones de alineamientos que procesar… es decir, necesitamos que sea “computacionalmente viable” BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS ▪ Se genera un índice de palabras cortas contenidas en la secuencia problema (largo default: 3aa, 11 nt). ▪ Se buscan las secuencias de la base de datos que presentan alguna de las palabras de la lista anterior. ▪ Se extienden esas “palabras” hasta que la puntuación del alineamiento comienza a disminuir. ▪ Para determinar si un alineamiento es significativo se compara su puntuación con la de alineamientos de secuencias al azar (e-value). BLAST (ALGORITMO) EVALUE ✓ Similar a p-valor (estadística) ✓ Es la probabilidad de encontrar un alineamiento así al azar… ✓ Siempre e-value MENOR es MEJOR HSP Score (high scoring pair) ✓ Puntaje dado al alineamiento. ✓ Siempre SCORE MAYOR es MEJOR. ¿CÓMO SE PUNTUAN LOS ALINEAMIENTOS, PARA SABER CUÁL ES EL MEJOR? E-VALUE Y HSP VERSIONES DE BLAST ▪ Existen varios programas BLAST dependiendo de las secuencias que queramos comparar: ✓ BLASTP: compara proteínas con una base de datos de proteínas. ✓ BLASTN: compara nucleótidos con una base de datos de nucleótidos. ✓ BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con una base de datos de proteínas. ✓ TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos en sus 6 marcos abiertos de lectura). ✓ TBLASTX: compara nucleótidos con una base de datos de nucleótidos traduciendo todas las secuencias. VERSIONES DE BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi https://blast.ncbi.nlm.nih.gov/Blast.cgi EJ. 1: BLAST DESDE NUESTRA BÚSQUEDA EN GENBANK (PARA BUSCAR SECUENCIAS RELACIONADAS A FLT4 EN BASES DE DATOS) Si de toda la secuencia sólo les interesara una porción (ej. las primeras 100 bases), pueden especificarlo aquí, diciendo que use para el alineamiento solo las bases 1-100 de la secuencia (from 1 to 100) Acá pueden elegir sobre qué tipo de bases de datos hacer la búsqueda/ alineamiento. Hay bases primarias y secundarias (REFSEQ) Pueden pedir que las búsquedas las haga solo contra algún(os) organismos o especies en particular (o que NO las haga sobre alguno en particular) Acá automáticamente el software pegó el número de acceso. Pero podrían pegar una secuencia (ej. FASTA) o subir un archivo FASTA. Arriba los mejores alineamientos (mayor Score, menor Evalue). Importantes parámetros: Verificar porcentaje de cobertura (porción de mi secuencia que se parece a la reportada por BLAST) y porcentaje de identidad (qué tan parecidas son, mi secuencia a la reportada por BLAST) Obviamente (dado que la secuencia es de humanos) los mejores resultados me dan con HUMANO (Homo Sapiens). Podría querer EXCLUIR humano y buscar esa secuencia a qué secuencia de OTRAS especies se parece. Para eso uso filtros… Fíjense que algunos no cubren toda mi secuencia (aquí es la “query”) → Alineamiento “LOCAL” (No global) Alineamientos: línea vertical: match (igualdad), espacio: mismatch (bases alineadas diferentes), gap (no hay aquí, sino se verían guiones) Este es el ID de la secuencia con la que BLAST hizo el alineamiento. Si hacemos click, vamos a la página de GenBank de dicha secuencia =) Otra información relacionada con esta secuencia (link a otras herramientas de NCBI) Si hacemos click en “gene”, nos lleva a la sección de NCBI con información acerca de dicho gen. Ej. resumen de su función, en qué cromosoma está… Si hacemos click en “gene”, nos lleva a la sección de NCBI con información acerca de dicho gen. Ej. en qué tejido se expresa (en este caso se expresa más en FAT-grasa, LUNG-pulmón y SPLEEN-bazo), bibliografía al respecto, proteínas con las que interactúa, en qué rutas metabólicas participa, etc… Agregan “organismo” → Ojo, tienen que saber (o googlear) el nombre científico. En caso de tratarse de virus, podemos poner la familia (ej el VIH pertenece a la familia retroviridae) EJ. 1.1: BÚSQUEDA ESPECÍFICAMENTE EN DOS ESPECIES (EJ. BUSCAR REGIONES SIMILARES EN RATÓN (MUS MUSCULUS) Y GATO (FELIS CATTUS)) Resultados… vean que los Scores son más bajos que los obtenidos cuando comparábamos con todos los organismos (entre ellos humano, gorila…) ▪ Ej.: A partir de una muestra de sangre de un paciente se hizo extracción de material nucleico, PCR y secuenciación. Queremos determinar, a partir de la secuencia, qué enfermedad tenía dicho paciente: ✓ Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué BLAST usamos? ✓ Si es secuencia de ADN y queremos comparar con base de datos de PROTEINAS, qué BLAST usamos? ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAAGCA ATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTTACGTGTT CTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAA GATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA EJ. 2: PARTIENDO DE UNA SECUENCIA NUCLEOTÍDICA ▪ Ej.: Tenemos una secuencia proteica (AA) de un virus y queremos determinar de qué virus se trata… ✓ Si es secuencia de AA y queremos comparar con base de datos de PROTEINAS, qué BLAST usamos? ✓ Si es secuencia de AA y queremos comparar con base de datos de ADN, qué BLAST usamos? ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAA GCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTT ACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA EJ. 3: PARTIENDO DE UNA SECUENCIA AMINOACÍDICA Puedo elegir bases de datos. Ej. nr o Refseq (curada, secundaria) Pego la secuencia a buscar Salida de este BLASTP usando la base de datos refse1… Base de datos más curada, 1 campo o pocos por especie 4 hits con ZIKA y el resto otros virus Salida de este BLASTP usando la base de datos “nr” (combinación de varias bases de datos secundarias… Varios campos por especie) Muchos hits con ZIKA… REDUNDANCIA Otras herramientas de GenBank: PRIMER BLAST - https://www.ncbi.nlm.nih.gov/tools/primer-blast/ ▪ Herramienta de NCBI que combina primer3 (http://primer3.ut.ee, software para diseñar primers) con BLAST (para testear especificidad de los primers. Ej.: ver si amplifica en especies no blanco). https://www.ncbi.nlm.nih.gov/tools/primer-blast/ http://primer3.ut.ee/ ¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA GENBANK? Pueden decir entre qué regiones (en pb) caigan el primer forward y el reverse (ej. que el F caiga entre las bases 1 y la 100 de la secuencia y el R entre las bases 600 y 700). Pueden especificar qué rango de tamaño tenga el fragmento de PCR (x default, de 70 a 1000 pb) Si usan como molde secuencias de mRNA de refSeq pueden filtrar para que los primers incluyan o no intrones, exones, etc. Ej. 1: Diseñar primers Acá automáticamente se pegó el accession number de la secuencia para la cual quiero diseñar primers. Pero también puedo pegar una secuencia, o subir el archivo FASTA. Resultados (dejando todos los parámetros por defecto: es decir, sin cambiar nada) 10 pares de primers que amplificar fragmentos de distintos tamaños a partir de esa secuencia… Resultados (continuación). Además de buscar primers, hace BLAST para ver la especificidad de dichos primers… y acá en este reporte nos informa que esos primers diseñados podrían tener producto inespecífico, amplificando no solo nuestra secuencia sino otras… Ej. 2: Ver especificidad de Primers ya diseñados ▪ El kit que recomienda usar la Organización Mundial de la Salud (WHO) para la detección de SARS- COV-2 en pacientes implica el uso de primers para Real Time PCR ▪ Es necesario que dichos primers sean 100% específicos de coronavirus. Es decir, que NO amplifiquen ni sobre ADN humano ni otro material nucleico de otras especies/ virus. Podemos ver si estos primers son específicos de este virus, usando PRIMER- BLAST https://www.who.int/docs/default- source/coronaviruse/real-time-rt-pcr- assays-for-the-detection-of-sars-cov-2- institut-pasteur- paris.pdf?sfvrsn=3662fcb6_2 https://www.who.int/docs/default-source/coronaviruse/real-time-rt-pcr-assays-for-the-detection-of-sars-cov-2-institut-pasteur-paris.pdf?sfvrsn=3662fcb6_2 Pegar los primers a testear especificidad Vaciar el campo “organismos” (o no, depende de qué queramos hacer. Acá queremos saber si pegan en algún organismo, y en cuyo caso en cuál, por eso no escribimos nada). Elegir la base de datos a usar (ej. RefSEQ) Un único resultado (usando esta base REFSEQ, altamente curada). Solo amplifica en SARS-COV-2. Si quieren hagan la prueba con la base de datos “nr”… van a tener varios resultados, pero todos de SARS-COV-2. Primers altamente específicos!!! Se pueden usar para diagnóstico https://nextstrain.org/ncov/globalEj. (reciente) uso de datos de secuenciación https://nextstrain.org/ncov/global TP Clase II - GenBank !
Compartir