Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Taller de bases de datos biomédicas, servidores web y otros recursos online GenBank, BLAST y pr imer -BLAST U N M – Fe b re ro 2 0 2 0 Una base de datos (BD) es una colección de datos. Una agenda de teléfonos es un sencillo ejemplo de una base de datos. Los datos se almacenan en registros. Cada registro debe tener un identificador único y estable. La información que contiene cada registro está distribuida en campos. BASES DE DATOS Además de almacenar información, las bases de datos deben disponer de herramientas que permitan: BASES DE DATOS 1) organizar eficazmente la información, 2) recuperar la información de forma rápida y precisa (motores de búsqueda eficaces), 3) actualizar y revisar los contenidos periódicamente, enviar nuevas secuencias, 4) transferir sus contenidos a otras bases de datos o a determinados programas de análisis y 5) personalizar la interfaz con el usuario para que su uso sea más sencillo. Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos “biológicas”. Las bases de datos están escritas en SQL. SQL es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y recuperar información de sistemas de gestión de bases de datos relacionales. SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de datos y un lenguaje de control de datos. El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la creación y modificación de esquemas y el control de acceso a los datos. SQL (STRUCTURED QUERY LANGUAGE) SQL (STRUCTURED QUERY LANGUAGE) En bioinformática, el concepto de “base de datos biológica” no alude tanto a la tecnología usada como al contenido almacenado. Una base de datos biológica es un “almacén de datos” para información derivada de datos obtenidos de experimentos biológicos. Una base de datos bioinformática es un almacén de datos para información derivada de datos biológicos y programas bioinformáticos. Si bajamos al nivel más técnico, las bases de datos biológicas y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. BASES DE DATOS BIOLÓGICAS Y BIOINFORMÁTICAS Los diversos tipos de datos biológicos están estrechamente relacionados entre sí: las secuencias codificantes de ADN dan lugar a proteínas con una estructura tridimensional y una función característica. Normalmente, las proteínas no funcionan solas sino que forman parte de rutas metabólicas en las que establecen relaciones con otros tipos de biomoléculas. Toda esta información está reflejada en las publicaciones científicas. Hay BD que almacenan los datos tal y como han sido depositados por quienes los han generado. Son las denominadas BD primarias o bancos de datos. Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European Nucleotide Archive) y DDBJ (DNA Data Bank of Japan). Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB. BD primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank) y de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid database). BASES DE DATOS PRIMARIAS A partir del análisis de la información depositada en las BD primarias se pueden descubrir nuevas propiedades o establecer nuevas relaciones entre los datos. En muchos casos resulta interesante almacenar todo este "valor añadido" en una nueva BD. Son las llamadas BD secundarias o derivadas. Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam. Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence). Sólo tiene una secuencia por gen y organismo. BASES DE DATOS SECUNDARIAS GenBank es una BD pública que contiene una extensa colección de secuencias de nucleótidos obtenidas a partir de más de 300.000 especies. Además de la secuencia, incluye información bibliográfica, anotaciones funcionales y, si se trata de una secuencia codificante, su traducción conceptual a proteína. De la gestión y distribución de GenBank se encarga el NCBI (National Center for Biotechnology Information) en los Estados Unidos. GENBANK Los contenidos de GenBank son accesibles de forma pública y gratuita a través de Internet (https://www.ncbi.nlm.nih.gov/genbank/). También es posible descargar los ficheros que contienen la BD desde el lugar ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/). Cada dos meses sale una nueva versión de la BD. Desde 1982, el número de secuencias almacenadas en GenBank se ha duplicado aproximadamente cada 18 meses. GENBANK https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ https://www.ncbi.nlm.nih.gov/genbank/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ ftp://ftp.ncbi.nlm.nih.gov/ Cada registro contiene una secuencia ininterrumpida de una molécula de ác. nucleicos. Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN pequeño citoplasmático. El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos registros antiguos pueden tener secuencias más cortas). No hay límite máximo: se pueden mandar genomas completos. GENBANK Los registros incluyen anotaciones bibliográficas y biológicas. GenBank asigna un número de acceso al registro que contiene la secuencia y las anotaciones. El número de acceso es un identificador único que utilizan las tres bases de datos (GenBank, ENA y DDBJ) y siempre estará asociado a ésta. Es una combinación de letras y números como, por ej.: U12345 o AF123456. Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y se indica después del número de acceso por un punto (ej.: U12345.1). Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el identificador U12345.2. GENBANK Las secuencias de GenBank se encuentran distribuidas en 20 divisiones. Doce (12) son taxonómicas como, por ejemplo, BCT (bacterias), PRI, (primates) o ROD (roedores). Ocho (8) son funcionales, ya que hacen referencia a las diversas estrategias de secuenciación como, por ejemplo, EST (expressed sequence tags), HTG (high- throughput genomic sequences) o GSS (genome survey sequences). COMO INTERPRETAR ENTRADAS DE GENBANK COMO INTERPRETAR ENTRADAS DE GENBANK Contiene información general sobre el registro (en varias líneas de información). ESTRUCTURA DE UN REGISTRO DE GENBANK 1. Encabezado Cada registro contiene una referencia bibliográfica que incluye el nombre de los autores, el título del artículo, la revista donde se ha publicado y el identificador de PubMed (PMID). Si hay más de una referencia, éstas aparecen numeradas y se muestran por orden cronológico (comenzando por las más antiguas). ESTRUCTURA DE UN REGISTRO DE GENBANK 2. Referencias Bibliográficas En éste apartado se incluyen las anotaciones de la sec. o del producto proteico. Por regla general, las anotaciones describen las regiones de la secuencia que llevan a cabo una función biológica o que resultanparticularmente interesante por algún otro motivo (estructura secundaria o terciaria, interacción con moléculas, si han sido revisadas o corregidas, etc.). ESTRUCTURA DE UN REGISTRO DE GENBANK 3. Tabla de Características (Features Table) En este apartado se incluye la secuencia completa. Cada línea tiene 60 nucleótidos dispuestos en 6 bloques de 10. Las secuencias se escriben con el tipo de letra "Courier“ porque cada carácter ocupa exactamente el mismo tamaño. ESTRUCTURA DE UN REGISTRO DE GENBANK 4. Secuencia Se pueden hacer búsquedas mediante palabras clave (como en EuropePMC o Google). Los términos compuestos se ponen entre comillas (ej.: "duchenne muscular dystrophy"). Se pueden utilizar operadores lógicos (AND, OR, NOT). Pero no es recomendable porque las anotaciones no suelen incluir palabras clave (o no están suficientemente actualizadas). Por lo que a veces es imposible acceder a un registro utilizando palabras clave. BÚSQUEDAS EN GENBANK Es mejor introducir el nombre de la proteína o del gen (completo o abreviado). También se puede introducir el nombre del autor (o de la persona que ha enviado la secuencia). Para ello, primero se pone el apellido, después se deja un espacio y, a continuación, se pone la inicial o iniciales del nombre (por ejemplo: Smith JR). No se tienen en cuenta las mayúsculas o minúsculas. BÚSQUEDAS EN GENBANK Los resultados de la búsqueda se pueden filtrar según diversos criterios como: Tipo de molécula, Longitud, Especie, Base de datos, fechas de envío o revisión, etc. Para acceder directamente a un registro se introduce el número de acceso (ej.: NM_002020). BÚSQUEDAS EN GENBANK En bioinformática, el formato FASTA es un formato de archivo basado en texto, utilizado para representar secuencias nucleicas o peptídicas, y en el que los pares de bases o los aminoácidos se representan usando códigos de una única letra. Comienza con una descripción en una única línea (línea de cabecera), seguida por líneas de datos de secuencia. La línea de descripción se distingue de los datos de secuencia por un símbolo '>' (mayor que) en la primera columna. La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto de la línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>' y la primera letra del identificador. FORMATO FASTA FORMATO FASTA Las secuencias de ADN (y proteína) definen la función de las proteínas en los seres vivos. Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por ellas tenderán a ser más similares también. Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir comparten un ancestro común. A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o son homólogas (derivan del mismo ancestro) o no lo son. ALINEAMIENTO DE SECUENCIAS Para poder cuantificar el grado de similitud de dos secuencias lo primero que hay que hacer es alinearlas. Alinear es, probablemente, la herramienta más utilizada en bioinformática. OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras al azar. Por lo tanto además de hacer el alineamiento hay que estimar la significación estadística del mismo. ALINEAMIENTO DE SECUENCIAS El alineamiento con mejor puntuación debería ser el más razonable (biológicamente). Para comparar distintos alineamientos entre sí se pueden asignar puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap) (para ADN, ARN y proteínas). Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud fisicoquímica de los diferentes aminoácidos. PUNTACIÓN DE LOS ALINEAMIENTOS Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1. Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)? SOLUCIÓN: matrices de sustitución!!!! PUNTACIÓN DE LOS ALINEAMIENTOS Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4 Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia más corta a que cubra la secuencia más larga (introduciendo los gaps que sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas más parecidas (Alineamiento local)? Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG PUNTACIÓN DE LOS ALINEAMIENTOS Representa los alineamientos gráficamente. Da resultados intuitivos e informa de posibles alineamientos alternativos. Sirve para descubrir repeticiones, inserciones, deleciones. Las secuencias similares aparecen en la diagonal. Ej: alinear AGCTACATGTA y AACTAGCATCT MÉTODO DE ALINEAMIENTO DE PARES DE SECUENCIA – DOT PLOT Consiste en alinear una secuencia con todas las de una base de datos, para identificar qué secuencias se parecen a nuestra secuencia “incógnita”. Para hacer esto es necesario contar con un algoritmo muy rápido porque hay millones de alineamientos que procesar… es decir, necesitamos que sea “computacionalmente viable” BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS Para simplificar la búsqueda, antes de comenzar, se genera un índice de todas las palabras cortas contenidas en la secuencia incógnita. Se buscan las secuencias de la base de datos que presentan alguna de las palabras de la lista. ALGORITMO El tamaño de las palabras influye en la sensibilidad del BLAST(OJO!). Cuanto más pequeñas, más sensible será la búsqueda pero tambien más lenta. Se buscan diagonales en la matriz que presenten palabras comunes (high scoring pair - HSP). Los HSP se extienden hasta que la puntuación del alineamiento comienza a disminuir. Si el HSP acaba teniendo un valor de significación mayor que el dado se incluirá en el alineamiento final. Para determinar si un alineamiento es significativo se compara su puntuación con la de alineamientos de secuencias al azar. ALGORITMO ¿Cual es la probabilidad de que un alineamiento con una puntuación (score) similar se obtenga por azar entre dos secuencias no relacionadas? El e-value (Expect) es el número de alineamientos que esperamos para una puntuación (score) X (o superior) en la búsqueda que estamos realizando si la base de datos fuese una colección de letras al azar. Para calcular esta probabilidad se pueden generar secuencias al azar de la misma longitud y composición que la query y se alinean. Si la BD es suficientemente grande y contiene mayoritariamente secuencias no relacionadas la distribución de scores observados debe coincidir con la distribución de scores esperados por azar. A partir de estos alineamientos se estudia la distribución de scores. E-VALUE PARA PUNTUAR ALINEAMIENTOS Se espera encontrar muchos alineamientos al azar con puntuaciones bajas, pero muy pocos con puntuaciones altas (para éstos los evalues son muy bajos). El valor evalue dado por el blast depende de la base de datos empleada y de la longitud de la secuencia. En búsquedas reales son comunes evalues de entre 10e-6 y 10e-100. E-VALUE PARA PUNTUAR ALINEAMIENTOS EJEMPLO EJEMPLO VERSIONES DE BLAST Existen varios programas BLAST dependiendo de las secuencias que queramos comparar: BLASTP: compara proteínas con una base de datos de proteínas. BLASTN: compara nucleótidos con una base de datos de nucleótidos. BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con una base de datos de proteínas. TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos en sus 6 marcos abiertos de lectura). TBLASTX: compara nucleótidoscon una base de datos de nucleótidos traduciendo todas las secuencias. VERSIONES DE BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi https://blast.ncbi.nlm.nih.gov/Blast.cgi EJEMPLO PRÁCTICO: BLAST EN NCBI La página principal del BLAST en el NCBI nos permite elegir directamente distintos organismos (Human, Mouse, etc.), distintos programas (blastn, blastp, etc.) y otras búsquedas más especializadas. Vamos a hacer un blast con ADN (nucleotide blast) utilizando una secuencia de ejemplo de rata (573649). Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué BLAST usamos? EJEMPLO PRÁCTICO: BLAST EN NCBI En la página de búsqueda del BLAST podemos modificar numerosos parámetros: El más importante es: Enter Query Sequence, donde podemos nuestra secuencia en formato fasta o con el número de acceso de Genbank. Luego es la BD con la que vamos a comparar nuestra secuencia (Choose Search Set). Podemos elegir una de las numerosas bases de datos ofrecidas por el NBCI (humano, ratón, nr, refseq, etc.) Por último, podemos seleccionar el programa a utilizar: megablast (para encontrar secuencias muy similares), discontiguous megablast (para secuencias algo diferentes) y blast para secuencias algo más distintas. OJO! Cuanto más sensible sea el algoritmo más tiempo tardará la búsqueda. Pueden cambiar parámetros de la búsqueda, como por ej el largo de las “palabras” para armar la lista. EJEMPLO PRÁCTICO: BLAST EN NCBI Como ejemplo realizar una búsqueda con blast sobre la base de datos humana. Mientras el BLAST se está ejecutando veremos una página en la que se nos informa sobre el tiempo estimado que requerirá la búsqueda. SALIDA OTRO EJEMPLO PRÁCTICO: Tenemos una secuencia “incógnita” y queremos intentar descubrir qué es. Secuencia: VDAFLGTWKLVDSKNFDDYMKSLGVGFATRQVASMTKPTTIIEKNGDILTLK THSTFKNTEISFKLGVEFDETTADDRKVKSIVTLDGGKLVHLQKWDGQETT LVRELIDGKLILTLTHGTAVCTRTYEKE Para esto, vamos a hacer un BLAST de proteína contra base de datos de proteínas (¿Quéprograma de BLAST debemos usar?). PRIMER BLAST - https://www.ncbi.nlm.nih.gov/tools/primer-blast/ Herramienta de NCBI que combina primer3 (http://primer3.ut.ee, software para diseñar primers) con BLAST https://www.ncbi.nlm.nih.gov/tools/primer-blast/ https://www.ncbi.nlm.nih.gov/tools/primer-blast/ https://www.ncbi.nlm.nih.gov/tools/primer-blast/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/ http://primer3.ut.ee/
Compartir