Logo Studenta

TALLER_BD - Clase2

¡Este material tiene más páginas!

Vista previa del material en texto

Taller de bases de datos 
biomédicas, servidores web y 
otros recursos online 
GenBank, BLAST y pr imer -BLAST 
U N M – Fe b re ro 2 0 2 0 
 Una base de datos (BD) es una colección de datos. 
 Una agenda de teléfonos es un sencillo ejemplo de una base de datos. 
 
 Los datos se almacenan en registros. 
 
 Cada registro debe tener un identificador único y estable. 
 
 La información que contiene cada registro está distribuida en campos. 
BASES DE DATOS 
 Además de almacenar información, las bases de datos deben 
disponer de herramientas que permitan: 
BASES DE DATOS 
1) organizar eficazmente la información, 
 
2) recuperar la información de forma rápida y precisa (motores de búsqueda 
eficaces), 
 
3) actualizar y revisar los contenidos periódicamente, enviar nuevas secuencias, 
 
4) transferir sus contenidos a otras bases de datos o a determinados programas 
de análisis y 
 
5) personalizar la interfaz con el usuario para que su uso sea más sencillo. 
 Casi todos los desarrollos que se hacen a día de hoy en bioinformática 
de una u otra manera hacen uso de datos almacenados en bases de 
datos “biológicas”. 
 
 Las bases de datos están escritas en SQL. 
 
 SQL es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y 
recuperar información de sistemas de gestión de bases de datos relacionales. 
 
 SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de datos y un 
lenguaje de control de datos. 
 
 El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la creación y 
modificación de esquemas y el control de acceso a los datos. 
SQL (STRUCTURED QUERY LANGUAGE) 
SQL (STRUCTURED QUERY LANGUAGE) 
 En bioinformática, el concepto de “base de datos biológica” no alude tanto a 
la tecnología usada como al contenido almacenado. 
 
 Una base de datos biológica es un “almacén de datos” para información 
derivada de datos obtenidos de experimentos biológicos. 
 
 Una base de datos bioinformática es un almacén de datos para información 
derivada de datos biológicos y programas bioinformáticos. 
 
 Si bajamos al nivel más técnico, las bases de datos biológicas y 
bioinformáticas están disponibles generalmente como un conjunto de ficheros 
planos, cuyo tamaño suele ser enorme. 
BASES DE DATOS BIOLÓGICAS Y 
BIOINFORMÁTICAS 
 Los diversos tipos de datos biológicos están estrechamente 
relacionados entre sí: las secuencias codificantes de ADN dan lugar a 
proteínas con una estructura tridimensional y una función característica. 
 
 Normalmente, las proteínas no funcionan solas sino que forman parte de 
rutas metabólicas en las que establecen relaciones con otros tipos de 
biomoléculas. Toda esta información está reflejada en las publicaciones 
científicas. 
 Hay BD que almacenan los datos tal y como han sido depositados por 
quienes los han generado. 
 Son las denominadas BD primarias o bancos de datos. 
 Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European 
Nucleotide Archive) y DDBJ (DNA Data Bank of Japan). 
 Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB. 
 BD primaria de estructura tridimensional de proteínas es PDB (Protein Data 
Bank) y de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid 
database). 
BASES DE DATOS PRIMARIAS 
 A partir del análisis de la información depositada en las BD primarias se 
pueden descubrir nuevas propiedades o establecer nuevas relaciones entre 
los datos. 
 En muchos casos resulta interesante almacenar todo este "valor añadido" en 
una nueva BD. 
 Son las llamadas BD secundarias o derivadas. 
 Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam. 
 Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence). Sólo tiene 
una secuencia por gen y organismo. 
BASES DE DATOS SECUNDARIAS 
 GenBank es una BD pública que contiene una extensa colección de 
secuencias de nucleótidos obtenidas a partir de más de 300.000 especies. 
 Además de la secuencia, incluye información bibliográfica, anotaciones 
funcionales y, si se trata de una secuencia codificante, su traducción 
conceptual a proteína. 
 De la gestión y distribución de GenBank se encarga el NCBI (National Center 
for Biotechnology Information) en los Estados Unidos. 
GENBANK 
 Los contenidos de GenBank son accesibles de forma pública y gratuita a 
través de Internet (https://www.ncbi.nlm.nih.gov/genbank/). 
 También es posible descargar los ficheros que contienen la BD desde el 
lugar ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/). 
 Cada dos meses sale una nueva versión de la BD. 
 Desde 1982, el número de secuencias almacenadas en GenBank se ha 
duplicado aproximadamente cada 18 meses. 
GENBANK 
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
 Cada registro contiene una secuencia ininterrumpida de una molécula de 
ác. nucleicos. 
 Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN 
ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN 
pequeño citoplasmático. 
 El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos 
registros antiguos pueden tener secuencias más cortas). 
 No hay límite máximo: se pueden mandar genomas completos. 
GENBANK 
 Los registros incluyen anotaciones bibliográficas y biológicas. 
 GenBank asigna un número de acceso al registro que contiene la secuencia 
y las anotaciones. 
 El número de acceso es un identificador único que utilizan las tres bases de 
datos (GenBank, ENA y DDBJ) y siempre estará asociado a ésta. 
 Es una combinación de letras y números como, por ej.: U12345 o AF123456. 
 Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y 
se indica después del número de acceso por un punto (ej.: U12345.1). 
 Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el 
identificador U12345.2. 
GENBANK 
 Las secuencias de GenBank se encuentran distribuidas en 20 divisiones. 
 Doce (12) son taxonómicas como, por ejemplo, BCT (bacterias), PRI, (primates) o 
ROD (roedores). 
 Ocho (8) son funcionales, ya que hacen referencia a las diversas estrategias de 
secuenciación como, por ejemplo, EST (expressed sequence tags), HTG (high-
throughput genomic sequences) o GSS (genome survey sequences). 
COMO INTERPRETAR ENTRADAS DE 
GENBANK 
COMO INTERPRETAR ENTRADAS DE 
GENBANK 
 Contiene información general sobre el registro (en varias líneas de información). 
ESTRUCTURA DE UN REGISTRO DE GENBANK 
1. Encabezado 
 Cada registro contiene una referencia bibliográfica que incluye el nombre de los 
autores, el título del artículo, la revista donde se ha publicado y el identificador de 
PubMed (PMID). 
 Si hay más de una referencia, éstas aparecen numeradas y se muestran por orden 
cronológico (comenzando por las más antiguas). 
ESTRUCTURA DE UN REGISTRO DE GENBANK 
2. Referencias Bibliográficas 
 En éste apartado se incluyen las anotaciones de la sec. o del producto proteico. 
 Por regla general, las anotaciones describen las regiones de la secuencia que llevan 
a cabo una función biológica o que resultanparticularmente interesante por algún 
otro motivo (estructura secundaria o terciaria, interacción con moléculas, si han sido 
revisadas o corregidas, etc.). 
ESTRUCTURA DE UN REGISTRO DE GENBANK 
3. Tabla de Características (Features Table) 
 En este apartado se incluye la secuencia completa. 
 Cada línea tiene 60 nucleótidos dispuestos en 6 bloques de 10. 
 Las secuencias se escriben con el tipo de letra "Courier“ porque cada 
carácter ocupa exactamente el mismo tamaño. 
ESTRUCTURA DE UN REGISTRO DE GENBANK 
4. Secuencia 
 Se pueden hacer búsquedas mediante palabras clave (como en 
EuropePMC o Google). 
 Los términos compuestos se ponen entre comillas (ej.: "duchenne muscular 
dystrophy"). 
 Se pueden utilizar operadores lógicos (AND, OR, NOT). 
 Pero no es recomendable porque las anotaciones no suelen incluir palabras 
clave (o no están suficientemente actualizadas). Por lo que a veces es 
imposible acceder a un registro utilizando palabras clave. 
BÚSQUEDAS EN GENBANK 
 Es mejor introducir el nombre de la proteína o del gen (completo o 
abreviado). 
 También se puede introducir el nombre del autor (o de la persona que ha 
enviado la secuencia). 
 Para ello, primero se pone el apellido, después se deja un espacio y, a 
continuación, se pone la inicial o iniciales del nombre (por ejemplo: Smith JR). No 
se tienen en cuenta las mayúsculas o minúsculas. 
BÚSQUEDAS EN GENBANK 
 Los resultados de la búsqueda se pueden filtrar según diversos criterios 
como: 
 Tipo de molécula, 
 Longitud, 
 Especie, 
 Base de datos, 
 fechas de envío o revisión, etc. 
 Para acceder directamente a un registro se introduce el número de acceso 
(ej.: NM_002020). 
BÚSQUEDAS EN GENBANK 
 En bioinformática, el formato FASTA es un formato de archivo basado en 
texto, utilizado para representar secuencias nucleicas o peptídicas, y en el 
que los pares de bases o los aminoácidos se representan usando códigos de 
una única letra. 
 Comienza con una descripción en una única línea (línea de cabecera), seguida por 
líneas de datos de secuencia. La línea de descripción se distingue de los datos de 
secuencia por un símbolo '>' (mayor que) en la primera columna. 
 La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto 
de la línea es la descripción (ambos son opcionales). No debería existir espacio 
entre el '>' y la primera letra del identificador. 
FORMATO FASTA 
FORMATO FASTA 
 Las secuencias de ADN (y proteína) definen la función de las proteínas en los 
seres vivos. 
 Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas 
por ellas tenderán a ser más similares también. 
 Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir 
comparten un ancestro común. 
 A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o 
son homólogas (derivan del mismo ancestro) o no lo son. 
ALINEAMIENTO DE SECUENCIAS 
 Para poder cuantificar el grado de similitud de dos secuencias lo primero que 
hay que hacer es alinearlas. 
 Alinear es, probablemente, la herramienta más utilizada en bioinformática. 
 OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se 
obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras 
al azar. 
 Por lo tanto además de hacer el alineamiento hay que estimar la significación 
estadística del mismo. 
ALINEAMIENTO DE SECUENCIAS 
 El alineamiento con mejor puntuación debería ser el más razonable 
(biológicamente). 
 Para comparar distintos alineamientos entre sí se pueden asignar 
puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap) (para 
ADN, ARN y proteínas). 
 Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud 
fisicoquímica de los diferentes aminoácidos. 
PUNTACIÓN DE LOS ALINEAMIENTOS 
 Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1. 
 
 
 
 
 
 Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos 
que tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)? 
 SOLUCIÓN: matrices de sustitución!!!! 
PUNTACIÓN DE LOS ALINEAMIENTOS 
Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4 
 Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia 
más corta a que cubra la secuencia más larga (introduciendo los gaps que 
sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas 
más parecidas (Alineamiento local)? 
 Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG 
PUNTACIÓN DE LOS ALINEAMIENTOS 
 Representa los alineamientos gráficamente. 
 Da resultados intuitivos e informa de posibles 
alineamientos alternativos. 
 Sirve para descubrir repeticiones, inserciones, 
deleciones. 
 Las secuencias similares aparecen en la 
diagonal. 
 Ej: alinear AGCTACATGTA y AACTAGCATCT 
MÉTODO DE ALINEAMIENTO DE PARES DE 
SECUENCIA – DOT PLOT 
 Consiste en alinear una secuencia con todas las de una base de datos, para 
identificar qué secuencias se parecen a nuestra secuencia “incógnita”. 
 Para hacer esto es necesario contar con un algoritmo muy rápido porque hay 
millones de alineamientos que procesar… es decir, necesitamos que sea 
“computacionalmente viable” 
BÚSQUEDA DE SECUENCIAS EN BASES DE 
DATOS 
 Para simplificar la búsqueda, antes de comenzar, se genera un índice de 
todas las palabras cortas contenidas en la secuencia incógnita. 
 
 
 
 
 Se buscan las secuencias de la base de datos que presentan alguna de las 
palabras de la lista. 
ALGORITMO 
 El tamaño de las palabras influye en la sensibilidad del BLAST(OJO!). 
 Cuanto más pequeñas, más sensible será la búsqueda pero tambien más lenta. 
 Se buscan diagonales en la matriz que presenten palabras comunes (high 
scoring pair - HSP). 
 Los HSP se extienden hasta que la puntuación del alineamiento comienza a disminuir. 
 Si el HSP acaba teniendo un valor de significación mayor que el dado se incluirá en el 
alineamiento final. 
 Para determinar si un alineamiento es significativo se compara su puntuación 
con la de alineamientos de secuencias al azar. 
ALGORITMO 
 ¿Cual es la probabilidad de que un alineamiento con una puntuación (score) 
similar se obtenga por azar entre dos secuencias no relacionadas? 
 El e-value (Expect) es el número de alineamientos que esperamos para una puntuación 
(score) X (o superior) en la búsqueda que estamos realizando si la base de datos fuese 
una colección de letras al azar. 
 Para calcular esta probabilidad se pueden generar secuencias al azar de la misma 
longitud y composición que la query y se alinean. 
 Si la BD es suficientemente grande y contiene mayoritariamente secuencias no 
relacionadas la distribución de scores observados debe coincidir con la distribución de 
scores esperados por azar. 
 A partir de estos alineamientos se estudia la distribución de scores. 
E-VALUE PARA PUNTUAR ALINEAMIENTOS 
 Se espera encontrar muchos alineamientos al 
azar con puntuaciones bajas, pero muy pocos 
con puntuaciones altas (para éstos los evalues 
son muy bajos). 
 El valor evalue dado por el blast depende de la 
base de datos empleada y de la longitud de la 
secuencia. 
 En búsquedas reales son comunes evalues de 
entre 10e-6 y 10e-100. 
E-VALUE PARA PUNTUAR ALINEAMIENTOS 
EJEMPLO 
EJEMPLO 
VERSIONES DE BLAST 
 Existen varios programas BLAST dependiendo de las secuencias que 
queramos comparar: 
 BLASTP: compara proteínas con una base de datos de proteínas. 
 BLASTN: compara nucleótidos con una base de datos de nucleótidos. 
 BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con 
una base de datos de proteínas. 
 TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos 
en sus 6 marcos abiertos de lectura). 
 TBLASTX: compara nucleótidoscon una base de datos de nucleótidos traduciendo 
todas las secuencias. 
VERSIONES DE BLAST 
https://blast.ncbi.nlm.nih.gov/Blast.cgi 
https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJEMPLO PRÁCTICO: BLAST EN NCBI 
 La página principal del BLAST en el NCBI nos permite elegir directamente 
distintos organismos (Human, Mouse, etc.), distintos programas (blastn, 
blastp, etc.) y otras búsquedas más especializadas. 
 Vamos a hacer un blast con ADN (nucleotide blast) utilizando una secuencia de 
ejemplo de rata (573649). 
 Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué 
BLAST usamos? 
EJEMPLO PRÁCTICO: BLAST EN NCBI 
 En la página de búsqueda del BLAST podemos modificar numerosos 
parámetros: 
 El más importante es: Enter Query Sequence, donde podemos nuestra secuencia 
en formato fasta o con el número de acceso de Genbank. 
 Luego es la BD con la que vamos a comparar nuestra secuencia (Choose Search 
Set). Podemos elegir una de las numerosas bases de datos ofrecidas por el NBCI 
(humano, ratón, nr, refseq, etc.) 
 Por último, podemos seleccionar el programa a utilizar: megablast (para encontrar 
secuencias muy similares), discontiguous megablast (para secuencias algo 
diferentes) y blast para secuencias algo más distintas. OJO! Cuanto más sensible 
sea el algoritmo más tiempo tardará la búsqueda. 
Pueden cambiar parámetros de la búsqueda, como por ej el largo de las “palabras” para 
armar la lista. 
EJEMPLO PRÁCTICO: BLAST EN NCBI 
 Como ejemplo realizar una búsqueda con blast sobre la base de datos 
humana. 
 Mientras el BLAST se está ejecutando veremos una página en la que se nos 
informa sobre el tiempo estimado que requerirá la búsqueda. 
SALIDA 
OTRO EJEMPLO PRÁCTICO: 
 Tenemos una secuencia “incógnita” y queremos intentar descubrir qué es. 
 Secuencia: 
VDAFLGTWKLVDSKNFDDYMKSLGVGFATRQVASMTKPTTIIEKNGDILTLK
THSTFKNTEISFKLGVEFDETTADDRKVKSIVTLDGGKLVHLQKWDGQETT
LVRELIDGKLILTLTHGTAVCTRTYEKE 
 Para esto, vamos a hacer un BLAST de proteína contra base de datos de proteínas 
(¿Quéprograma de BLAST debemos usar?). 
PRIMER BLAST - 
https://www.ncbi.nlm.nih.gov/tools/primer-blast/ 
 Herramienta de NCBI que combina 
primer3 (http://primer3.ut.ee, software 
para diseñar primers) con BLAST 
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/

Continuar navegando

Materiales relacionados

22 pag.
Base de datos (1)

User badge image

Rafael Palomino

64 pag.
128 pag.
tesis-n6994-Biagioli

UNCA

User badge image

Contenidos y mucho más