TALLER_BD - Clase2

Principios de Banco de Datos

•

SIN SIGLA

Agustina Guerrero

19/9/2023

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Principios de Banco de Datos

1728 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Taller de bases de datos
biomédicas, servidores web y
otros recursos online
GenBank, BLAST y pr imer -BLAST
U N M – Fe b re ro 2 0 2 0
 Una base de datos (BD) es una colección de datos.
 Una agenda de teléfonos es un sencillo ejemplo de una base de datos.

 Los datos se almacenan en registros.

 Cada registro debe tener un identificador único y estable.

 La información que contiene cada registro está distribuida en campos.
BASES DE DATOS
 Además de almacenar información, las bases de datos deben
disponer de herramientas que permitan:
BASES DE DATOS
1) organizar eficazmente la información,

2) recuperar la información de forma rápida y precisa (motores de búsqueda
eficaces),

3) actualizar y revisar los contenidos periódicamente, enviar nuevas secuencias,

4) transferir sus contenidos a otras bases de datos o a determinados programas
de análisis y

5) personalizar la interfaz con el usuario para que su uso sea más sencillo.
 Casi todos los desarrollos que se hacen a día de hoy en bioinformática
de una u otra manera hacen uso de datos almacenados en bases de
datos “biológicas”.

 Las bases de datos están escritas en SQL.

 SQL es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y
recuperar información de sistemas de gestión de bases de datos relacionales.

 SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de datos y un
lenguaje de control de datos.

 El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la creación y
modificación de esquemas y el control de acceso a los datos.
SQL (STRUCTURED QUERY LANGUAGE)
SQL (STRUCTURED QUERY LANGUAGE)
 En bioinformática, el concepto de “base de datos biológica” no alude tanto a
la tecnología usada como al contenido almacenado.

 Una base de datos biológica es un “almacén de datos” para información
derivada de datos obtenidos de experimentos biológicos.

 Una base de datos bioinformática es un almacén de datos para información
derivada de datos biológicos y programas bioinformáticos.

 Si bajamos al nivel más técnico, las bases de datos biológicas y
bioinformáticas están disponibles generalmente como un conjunto de ficheros
planos, cuyo tamaño suele ser enorme.
BASES DE DATOS BIOLÓGICAS Y
BIOINFORMÁTICAS
 Los diversos tipos de datos biológicos están estrechamente
relacionados entre sí: las secuencias codificantes de ADN dan lugar a
proteínas con una estructura tridimensional y una función característica.

 Normalmente, las proteínas no funcionan solas sino que forman parte de
rutas metabólicas en las que establecen relaciones con otros tipos de
biomoléculas. Toda esta información está reflejada en las publicaciones
científicas.
 Hay BD que almacenan los datos tal y como han sido depositados por
quienes los han generado.
 Son las denominadas BD primarias o bancos de datos.
 Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European
Nucleotide Archive) y DDBJ (DNA Data Bank of Japan).
 Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB.
 BD primaria de estructura tridimensional de proteínas es PDB (Protein Data
Bank) y de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid
database).
BASES DE DATOS PRIMARIAS
 A partir del análisis de la información depositada en las BD primarias se
pueden descubrir nuevas propiedades o establecer nuevas relaciones entre
los datos.
 En muchos casos resulta interesante almacenar todo este "valor añadido" en
una nueva BD.
 Son las llamadas BD secundarias o derivadas.
 Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam.
 Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence). Sólo tiene
una secuencia por gen y organismo.
BASES DE DATOS SECUNDARIAS
 GenBank es una BD pública que contiene una extensa colección de
secuencias de nucleótidos obtenidas a partir de más de 300.000 especies.
 Además de la secuencia, incluye información bibliográfica, anotaciones
funcionales y, si se trata de una secuencia codificante, su traducción
conceptual a proteína.
 De la gestión y distribución de GenBank se encarga el NCBI (National Center
for Biotechnology Information) en los Estados Unidos.
GENBANK
 Los contenidos de GenBank son accesibles de forma pública y gratuita a
través de Internet (https://www.ncbi.nlm.nih.gov/genbank/).
 También es posible descargar los ficheros que contienen la BD desde el
lugar ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/).
 Cada dos meses sale una nueva versión de la BD.
 Desde 1982, el número de secuencias almacenadas en GenBank se ha
duplicado aproximadamente cada 18 meses.
GENBANK
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
https://www.ncbi.nlm.nih.gov/genbank/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
ftp://ftp.ncbi.nlm.nih.gov/
 Cada registro contiene una secuencia ininterrumpida de una molécula de
ác. nucleicos.
 Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN
ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN
pequeño citoplasmático.
 El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos
registros antiguos pueden tener secuencias más cortas).
 No hay límite máximo: se pueden mandar genomas completos.
GENBANK
 Los registros incluyen anotaciones bibliográficas y biológicas.
 GenBank asigna un número de acceso al registro que contiene la secuencia
y las anotaciones.
 El número de acceso es un identificador único que utilizan las tres bases de
datos (GenBank, ENA y DDBJ) y siempre estará asociado a ésta.
 Es una combinación de letras y números como, por ej.: U12345 o AF123456.
 Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y
se indica después del número de acceso por un punto (ej.: U12345.1).
 Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el
identificador U12345.2.
GENBANK
 Las secuencias de GenBank se encuentran distribuidas en 20 divisiones.
 Doce (12) son taxonómicas como, por ejemplo, BCT (bacterias), PRI, (primates) o
ROD (roedores).
 Ocho (8) son funcionales, ya que hacen referencia a las diversas estrategias de
secuenciación como, por ejemplo, EST (expressed sequence tags), HTG (high-
throughput genomic sequences) o GSS (genome survey sequences).
COMO INTERPRETAR ENTRADAS DE
GENBANK
COMO INTERPRETAR ENTRADAS DE
GENBANK
 Contiene información general sobre el registro (en varias líneas de información).
ESTRUCTURA DE UN REGISTRO DE GENBANK
1. Encabezado
 Cada registro contiene una referencia bibliográfica que incluye el nombre de los
autores, el título del artículo, la revista donde se ha publicado y el identificador de
PubMed (PMID).
 Si hay más de una referencia, éstas aparecen numeradas y se muestran por orden
cronológico (comenzando por las más antiguas).
ESTRUCTURA DE UN REGISTRO DE GENBANK
2. Referencias Bibliográficas
 En éste apartado se incluyen las anotaciones de la sec. o del producto proteico.
 Por regla general, las anotaciones describen las regiones de la secuencia que llevan
a cabo una función biológica o que resultanparticularmente interesante por algún
otro motivo (estructura secundaria o terciaria, interacción con moléculas, si han sido
revisadas o corregidas, etc.).
ESTRUCTURA DE UN REGISTRO DE GENBANK
3. Tabla de Características (Features Table)
 En este apartado se incluye la secuencia completa.
 Cada línea tiene 60 nucleótidos dispuestos en 6 bloques de 10.
 Las secuencias se escriben con el tipo de letra "Courier“ porque cada
carácter ocupa exactamente el mismo tamaño.
ESTRUCTURA DE UN REGISTRO DE GENBANK
4. Secuencia
 Se pueden hacer búsquedas mediante palabras clave (como en
EuropePMC o Google).
 Los términos compuestos se ponen entre comillas (ej.: "duchenne muscular
dystrophy").
 Se pueden utilizar operadores lógicos (AND, OR, NOT).
 Pero no es recomendable porque las anotaciones no suelen incluir palabras
clave (o no están suficientemente actualizadas). Por lo que a veces es
imposible acceder a un registro utilizando palabras clave.
BÚSQUEDAS EN GENBANK
 Es mejor introducir el nombre de la proteína o del gen (completo o
abreviado).
 También se puede introducir el nombre del autor (o de la persona que ha
enviado la secuencia).
 Para ello, primero se pone el apellido, después se deja un espacio y, a
continuación, se pone la inicial o iniciales del nombre (por ejemplo: Smith JR). No
se tienen en cuenta las mayúsculas o minúsculas.
BÚSQUEDAS EN GENBANK
 Los resultados de la búsqueda se pueden filtrar según diversos criterios
como:
 Tipo de molécula,
 Longitud,
 Especie,
 Base de datos,
 fechas de envío o revisión, etc.
 Para acceder directamente a un registro se introduce el número de acceso
(ej.: NM_002020).
BÚSQUEDAS EN GENBANK
 En bioinformática, el formato FASTA es un formato de archivo basado en
texto, utilizado para representar secuencias nucleicas o peptídicas, y en el
que los pares de bases o los aminoácidos se representan usando códigos de
una única letra.
 Comienza con una descripción en una única línea (línea de cabecera), seguida por
líneas de datos de secuencia. La línea de descripción se distingue de los datos de
secuencia por un símbolo '>' (mayor que) en la primera columna.
 La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto
de la línea es la descripción (ambos son opcionales). No debería existir espacio
entre el '>' y la primera letra del identificador.
FORMATO FASTA
FORMATO FASTA
 Las secuencias de ADN (y proteína) definen la función de las proteínas en los
seres vivos.
 Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas
por ellas tenderán a ser más similares también.
 Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir
comparten un ancestro común.
 A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o
son homólogas (derivan del mismo ancestro) o no lo son.
ALINEAMIENTO DE SECUENCIAS
 Para poder cuantificar el grado de similitud de dos secuencias lo primero que
hay que hacer es alinearlas.
 Alinear es, probablemente, la herramienta más utilizada en bioinformática.
 OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se
obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras
al azar.
 Por lo tanto además de hacer el alineamiento hay que estimar la significación
estadística del mismo.
ALINEAMIENTO DE SECUENCIAS
 El alineamiento con mejor puntuación debería ser el más razonable
(biológicamente).
 Para comparar distintos alineamientos entre sí se pueden asignar
puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap) (para
ADN, ARN y proteínas).
 Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud
fisicoquímica de los diferentes aminoácidos.
PUNTACIÓN DE LOS ALINEAMIENTOS
 Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1.

 Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos
que tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)?
 SOLUCIÓN: matrices de sustitución!!!!
PUNTACIÓN DE LOS ALINEAMIENTOS
Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4
 Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia
más corta a que cubra la secuencia más larga (introduciendo los gaps que
sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas
más parecidas (Alineamiento local)?
 Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG
PUNTACIÓN DE LOS ALINEAMIENTOS
 Representa los alineamientos gráficamente.
 Da resultados intuitivos e informa de posibles
alineamientos alternativos.
 Sirve para descubrir repeticiones, inserciones,
deleciones.
 Las secuencias similares aparecen en la
diagonal.
 Ej: alinear AGCTACATGTA y AACTAGCATCT
MÉTODO DE ALINEAMIENTO DE PARES DE
SECUENCIA – DOT PLOT
 Consiste en alinear una secuencia con todas las de una base de datos, para
identificar qué secuencias se parecen a nuestra secuencia “incógnita”.
 Para hacer esto es necesario contar con un algoritmo muy rápido porque hay
millones de alineamientos que procesar… es decir, necesitamos que sea
“computacionalmente viable”
BÚSQUEDA DE SECUENCIAS EN BASES DE
DATOS
 Para simplificar la búsqueda, antes de comenzar, se genera un índice de
todas las palabras cortas contenidas en la secuencia incógnita.

 Se buscan las secuencias de la base de datos que presentan alguna de las
palabras de la lista.
ALGORITMO
 El tamaño de las palabras influye en la sensibilidad del BLAST(OJO!).
 Cuanto más pequeñas, más sensible será la búsqueda pero tambien más lenta.
 Se buscan diagonales en la matriz que presenten palabras comunes (high
scoring pair - HSP).
 Los HSP se extienden hasta que la puntuación del alineamiento comienza a disminuir.
 Si el HSP acaba teniendo un valor de significación mayor que el dado se incluirá en el
alineamiento final.
 Para determinar si un alineamiento es significativo se compara su puntuación
con la de alineamientos de secuencias al azar.
ALGORITMO
 ¿Cual es la probabilidad de que un alineamiento con una puntuación (score)
similar se obtenga por azar entre dos secuencias no relacionadas?
 El e-value (Expect) es el número de alineamientos que esperamos para una puntuación
(score) X (o superior) en la búsqueda que estamos realizando si la base de datos fuese
una colección de letras al azar.
 Para calcular esta probabilidad se pueden generar secuencias al azar de la misma
longitud y composición que la query y se alinean.
 Si la BD es suficientemente grande y contiene mayoritariamente secuencias no
relacionadas la distribución de scores observados debe coincidir con la distribución de
scores esperados por azar.
 A partir de estos alineamientos se estudia la distribución de scores.
E-VALUE PARA PUNTUAR ALINEAMIENTOS
 Se espera encontrar muchos alineamientos al
azar con puntuaciones bajas, pero muy pocos
con puntuaciones altas (para éstos los evalues
son muy bajos).
 El valor evalue dado por el blast depende de la
base de datos empleada y de la longitud de la
secuencia.
 En búsquedas reales son comunes evalues de
entre 10e-6 y 10e-100.
E-VALUE PARA PUNTUAR ALINEAMIENTOS
EJEMPLO
EJEMPLO
VERSIONES DE BLAST
 Existen varios programas BLAST dependiendo de las secuencias que
queramos comparar:
 BLASTP: compara proteínas con una base de datos de proteínas.
 BLASTN: compara nucleótidos con una base de datos de nucleótidos.
 BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con
una base de datos de proteínas.
 TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos
en sus 6 marcos abiertos de lectura).
 TBLASTX: compara nucleótidoscon una base de datos de nucleótidos traduciendo
todas las secuencias.
VERSIONES DE BLAST
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJEMPLO PRÁCTICO: BLAST EN NCBI
 La página principal del BLAST en el NCBI nos permite elegir directamente
distintos organismos (Human, Mouse, etc.), distintos programas (blastn,
blastp, etc.) y otras búsquedas más especializadas.
 Vamos a hacer un blast con ADN (nucleotide blast) utilizando una secuencia de
ejemplo de rata (573649).
 Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué
BLAST usamos?
EJEMPLO PRÁCTICO: BLAST EN NCBI
 En la página de búsqueda del BLAST podemos modificar numerosos
parámetros:
 El más importante es: Enter Query Sequence, donde podemos nuestra secuencia
en formato fasta o con el número de acceso de Genbank.
 Luego es la BD con la que vamos a comparar nuestra secuencia (Choose Search
Set). Podemos elegir una de las numerosas bases de datos ofrecidas por el NBCI
(humano, ratón, nr, refseq, etc.)
 Por último, podemos seleccionar el programa a utilizar: megablast (para encontrar
secuencias muy similares), discontiguous megablast (para secuencias algo
diferentes) y blast para secuencias algo más distintas. OJO! Cuanto más sensible
sea el algoritmo más tiempo tardará la búsqueda.
Pueden cambiar parámetros de la búsqueda, como por ej el largo de las “palabras” para
armar la lista.
EJEMPLO PRÁCTICO: BLAST EN NCBI
 Como ejemplo realizar una búsqueda con blast sobre la base de datos
humana.
 Mientras el BLAST se está ejecutando veremos una página en la que se nos
informa sobre el tiempo estimado que requerirá la búsqueda.
SALIDA
OTRO EJEMPLO PRÁCTICO:
 Tenemos una secuencia “incógnita” y queremos intentar descubrir qué es.
 Secuencia:
VDAFLGTWKLVDSKNFDDYMKSLGVGFATRQVASMTKPTTIIEKNGDILTLK
THSTFKNTEISFKLGVEFDETTADDRKVKSIVTLDGGKLVHLQKWDGQETT
LVRELIDGKLILTLTHGTAVCTRTYEKE
 Para esto, vamos a hacer un BLAST de proteína contra base de datos de proteínas
(¿Quéprograma de BLAST debemos usar?).
PRIMER BLAST -
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
 Herramienta de NCBI que combina
primer3 (http://primer3.ut.ee, software
para diseñar primers) con BLAST
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/
http://primer3.ut.ee/