Logo Studenta

TALLER_BD - Clase2

¡Este material tiene más páginas!

Vista previa del material en texto

UNM – Noviembre 2020
Licenciatura en Biotecnología
Taller de Manejo de Software y Base de Datos 
(2228)
Taller de Manejo de Software y Base de 
Datos (2228)
CLASE 2 - GenBank
Licenciatura en Biotecnología
UNM – Noviembre 2020
▪ Una base de datos (BD) es una colección de datos.
✓ Una agenda de teléfonos es un sencillo ejemplo de una base de datos.
▪ Los datos se almacenan en registros.
▪ Cada registro debe tener un identificador único y estable.
▪ La información que contiene cada registro está distribuida en
campos.
BASES DE DATOS
▪ Casi todos los desarrollos que se hacen a día de hoy en
bioinformática de una u otra manera hacen uso de datos
almacenados en bases de datos “biológicas”.
▪ Las bases de datos están escritas en SQL.
✓ SQL es un lenguaje de dominio específico utilizado en programación, diseñado para
administrar, y recuperar información de sistemas de gestión de bases de datos
relacionales.
✓ SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de
datos y un lenguaje de control de datos.
✓ El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la
creación y modificación de esquemas y el control de acceso a los datos.
SQL (STRUCTURED QUERY LANGUAGE)
SQL (STRUCTURED QUERY LANGUAGE)
▪ En bioinformática, el concepto de “base de datos biológica” no alude
tanto a la tecnología usada como al contenido almacenado.
▪ Una base de datos biológica es un “almacén de datos” para
información derivada de datos obtenidos de experimentos biológicos.
▪ Una base de datos bioinformática es un almacén de datos para
información derivada de datos biológicos y programas bioinformáticos.
▪ Si bajamos al nivel más técnico, las bases de datos biológicas y
bioinformáticas están disponibles generalmente como un conjunto de
ficheros planos, cuyo tamaño suele ser enorme.
BASES DE DATOS BIOLÓGICAS Y BIOINFORMÁTICAS
▪ Hay BD que almacenan los datos tal y como han sido depositados por
quienes los han generado. Se las denomina BD primarias o bancos de
datos.
▪ Suele haber redundancia (la misma información repetida varias veces): Ej.:
muchos datos de secuenciación a genoma completo del virus SARS-COV-2.
✓ Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European
Nucleotide Archive) y DDBJ (DNA Data Bank of Japan).
✓ Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB.
✓ Ej. de BD primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank) y
de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid database).
BASES DE DATOS PRIMARIAS
▪ A partir del análisis de la información depositada en las BD primarias se
pueden descubrir nuevas propiedades o establecer nuevas relaciones entre
los datos.
▪ En muchos casos resulta interesante almacenar todo este "valor añadido"
en una nueva BD.
▪ No hay redundancia
▪ Son las llamadas BD secundarias o derivadas.
✓ Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam.
✓ Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence) → Sólo
tiene una secuencia por gen y organismo.
BASES DE DATOS SECUNDARIAS
▪ GenBank es una BD pública que contiene una extensa colección de
secuencias de nucleótidos obtenidas a partir de más de 300.000 especies.
▪ Además de la secuencia, incluye información bibliográfica, anotaciones
funcionales y, si se trata de una secuencia codificante, su traducción
conceptual a proteína.
▪ De la gestión y distribución de GenBank se encarga el NCBI (National Center
for Biotechnology Information) - Estados Unidos.
GENBANK (https://www.ncbi.nlm.nih.gov/genbank/)
https://www.ncbi.nlm.nih.gov/genbank/
Nuevo! Gran sección
destinada específicamente a 
SARS-COV-2/ COVID19
Buscador
Secciones en las
cuales hacer
búsquedas
Nuevo! Gran sección
destinada específicamente a 
SARS-COV-2/ COVID19
Buscador
Secciones en las
cuales hacer
búsquedas
▪ Los contenidos de GenBank son accesibles de forma pública y gratuita a
través de Internet (https://www.ncbi.nlm.nih.gov/genbank/).
▪ También es posible descargar los ficheros que contienen la BD desde el lugar
ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/).
▪ Cada dos meses sale una nueva versión de la BD.
▪ Desde 1982, el número de secuencias almacenadas en GenBank se ha
duplicado aproximadamente cada 18 meses.
GENBANK
https://www.ncbi.nlm.nih.gov/genbank/
ftp://ftp.ncbi.nlm.nih.gov/
▪ Cada registro contiene una secuencia ininterrumpida de una molécula de
ác. nucleicos.
▪ Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN
ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN
pequeño citoplasmático.
▪ El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos
registros antiguos pueden tener secuencias más cortas).
▪ No hay límite máximo: se pueden mandar genomas completos.
GENBANK
▪ Los registros incluyen anotaciones bibliográficas y biológicas.
▪ GenBank asigna un número de acceso al registro que contiene la secuencia y
las anotaciones.
✓ El número de acceso es un identificador único que utilizan las tres bases de datos
(GenBank, ENA y DDBJ) y siempre estará asociado a ésta.
✓ Es una combinación de letras y números como, por ej.: U12345 o AF123456.
✓ Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y se
indica después del número de acceso por un punto (ej.: U12345.1).
✓ Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el
identificador U12345.2.
GENBANK
▪ Se puede buscar directamente por nombre (de una proteina, un gen, una
especie…)
▪ Siempre en inglés
▪ También se puede introducir el nombre del autor (o de la persona que ha
enviado la secuencia).
▪ Si lo sabemos, podemos buscar por número de acceso/ ID (accession
number) de una secuencia o genoma en particular…
BÚSQUEDAS EN GENBANK
▪ Los resultados de la búsqueda se pueden filtrar según diversos criterios como:
✓ Tipo de molécula,
✓ Longitud,
✓ Especie,
✓ Base de datos,
✓ Fechas de envío o revisión, etc.
BÚSQUEDAS EN GENBANK
BÚSQUEDAS EN GENBANK – Por número de acceso 
(identificador único). Ej.: NM_002020
Acá se informan características varias de dicha secuencia o 
registro de la base de datos. Ej.: si contiene un gen, de dónde a 
dónde va dicho gen, si hay algún exon/ exones de dónde a 
donde van dichos exones, traducción a proteina posible, etc. 
Si seguimos explorando la salida de nuestra búsqueda en 
GenBank vamos a llegar a la sección “features”
Y finalmente la secuencia (cada línea de la secuencia contiene 
60 nucleótidos dispuestos en 6 bloques de 10)
¿CÓMO DESCARGAR DICHA SECUENCIA?
!
▪ En bioinformática, el formato FASTA es un formato de archivo basado en
texto, utilizado para representar secuencias nucleicas o peptídicas, y en el que
los pares de bases o los aminoácidos se representan usando códigos de una
única letra.
✓ Comienza con una descripción en una única línea (línea de cabecera), seguida por líneas
de datos de secuencia. La línea de descripción se distingue de los datos de
secuencia por un símbolo '>' (mayor que) en la primera columna.
✓ La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto de la
línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>'
y la primera letra del identificador.
FORMATO FASTA
FORMATO FASTA
¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA 
GENBANK?
Herramientas
Papers
(PUBMED)
▪ Las secuencias de ADN (y proteína) definen la función de las proteínas en los
seres vivos.
✓ Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por
ellas tenderán a ser más similares también.
✓ Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir
comparten un ancestro común.
✓ A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o
son homólogas (derivan del mismo ancestro)o no lo son.
BLAST - ALINEAMIENTO DE SECUENCIAS
▪ Para poder cuantificar el grado de similitud de dos secuencias lo primero que
hay que hacer es alinearlas.
✓ Alinear es, probablemente, la herramienta más utilizada en bioinformática.
✓ OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se
obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras al
azar.
✓ Por lo tanto además de hacer el alineamiento hay que estimar la significación
estadística del mismo.
ALINEAMIENTO DE SECUENCIAS
▪ El alineamiento con mejor puntuación debería ser el más razonable
(biológicamente).
▪ Para comparar distintos alineamientos entre sí se pueden asignar
puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap)
(para ADN, ARN y proteínas).
▪ Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud
fisicoquímica de los diferentes aminoácidos.
PUNTACIÓN DE LOS ALINEAMIENTOS
▪ Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1.
✓ Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que
tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)?
✓ SOLUCIÓN: matrices de sustitución!!!!
PUNTACIÓN DE LOS ALINEAMIENTOS
Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4
▪ Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia
más corta a que cubra la secuencia más larga (introduciendo los gaps que
sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas
más parecidas (Alineamiento local)?
▪ Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG
PUNTACIÓN DE LOS ALINEAMIENTOS
▪ Representa los alineamientos gráficamente.
✓ Da resultados intuitivos e informa de posibles
alineamientos alternativos.
✓ Sirve para descubrir repeticiones, inserciones,
deleciones.
✓ Las secuencias similares aparecen en la
diagonal.
✓ Ej: alinear AGCTACATGTA y AACTAGCATCT
MÉTODO DE ALINEAMIENTO DE PARES DE 
SECUENCIA – DOT PLOT
▪ Consiste en alinear una secuencia con todas las de una base de datos, para
identificar qué secuencias se parecen a nuestra secuencia “incógnita”.
▪ Para hacer esto es necesario contar con un algoritmo muy rápido porque hay
millones de alineamientos que procesar… es decir, necesitamos que sea
“computacionalmente viable”
BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS
▪ Se genera un índice de palabras cortas contenidas
en la secuencia problema (largo default: 3aa, 11 nt).
▪ Se buscan las secuencias de la base de datos que
presentan alguna de las palabras de la lista
anterior.
▪ Se extienden esas “palabras” hasta que la
puntuación del alineamiento comienza a disminuir.
▪ Para determinar si un alineamiento es
significativo se compara su puntuación con la de
alineamientos de secuencias al azar (e-value).
BLAST (ALGORITMO)
EVALUE
✓ Similar a p-valor (estadística)
✓ Es la probabilidad de encontrar un alineamiento así al azar…
✓ Siempre e-value MENOR es MEJOR
HSP Score (high scoring pair)
✓ Puntaje dado al alineamiento.
✓ Siempre SCORE MAYOR es MEJOR.
¿CÓMO SE PUNTUAN LOS ALINEAMIENTOS, PARA 
SABER CUÁL ES EL MEJOR? E-VALUE Y HSP
VERSIONES DE BLAST
▪ Existen varios programas BLAST dependiendo de las secuencias que queramos
comparar:
✓ BLASTP: compara proteínas con una base de datos de proteínas.
✓ BLASTN: compara nucleótidos con una base de datos de nucleótidos.
✓ BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con una
base de datos de proteínas.
✓ TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos en
sus 6 marcos abiertos de lectura).
✓ TBLASTX: compara nucleótidos con una base de datos de nucleótidos traduciendo
todas las secuencias.
VERSIONES DE BLAST
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJ. 1: BLAST DESDE NUESTRA BÚSQUEDA EN GENBANK (PARA BUSCAR 
SECUENCIAS RELACIONADAS A FLT4 EN BASES DE DATOS)
Si de toda la secuencia sólo les 
interesara una porción (ej. las 
primeras 100 bases), pueden 
especificarlo aquí, diciendo que 
use para el alineamiento solo las 
bases 1-100 de la secuencia 
(from 1 to 100)
Acá pueden elegir sobre qué 
tipo de bases de datos hacer 
la búsqueda/ alineamiento. 
Hay bases primarias y 
secundarias (REFSEQ)
Pueden pedir que las búsquedas 
las haga solo contra algún(os) 
organismos o especies en 
particular (o que NO las haga 
sobre alguno en particular)
Acá automáticamente el 
software pegó el número 
de acceso. Pero podrían 
pegar una secuencia (ej. 
FASTA) o subir un archivo 
FASTA.
Arriba los mejores 
alineamientos (mayor 
Score, menor Evalue). 
Importantes parámetros: 
Verificar porcentaje de 
cobertura (porción de mi 
secuencia que se parece a la 
reportada por BLAST) y 
porcentaje de identidad (qué 
tan parecidas son, mi 
secuencia a la reportada por 
BLAST)
Obviamente (dado que la secuencia es de humanos) los mejores resultados me dan con 
HUMANO (Homo Sapiens). Podría querer EXCLUIR humano y buscar esa secuencia a qué 
secuencia de OTRAS especies se parece. Para eso uso filtros…
Fíjense que algunos no cubren toda mi 
secuencia (aquí es la “query”) →
Alineamiento “LOCAL” (No global)
Alineamientos: línea vertical: 
match (igualdad), espacio:
mismatch (bases alineadas 
diferentes), gap (no hay aquí, sino 
se verían guiones)
Este es el ID de la secuencia con la que 
BLAST hizo el alineamiento. Si hacemos 
click, vamos a la página de GenBank de 
dicha secuencia =)
Otra información relacionada con 
esta secuencia (link a otras 
herramientas de NCBI)
Si hacemos click en “gene”, 
nos lleva a la sección de 
NCBI con información 
acerca de dicho gen. 
Ej. resumen de su función, 
en qué cromosoma está…
Si hacemos click en “gene”, 
nos lleva a la sección de NCBI 
con información acerca de 
dicho gen. 
Ej. en qué tejido se expresa 
(en este caso se expresa más 
en FAT-grasa, LUNG-pulmón y 
SPLEEN-bazo), bibliografía al 
respecto, proteínas con las 
que interactúa, en qué rutas 
metabólicas participa, etc…
Agregan “organismo” → Ojo, tienen que saber (o 
googlear) el nombre científico.
En caso de tratarse de virus, podemos poner la 
familia (ej el VIH pertenece a la familia 
retroviridae)
EJ. 1.1: BÚSQUEDA ESPECÍFICAMENTE EN DOS ESPECIES (EJ. BUSCAR REGIONES 
SIMILARES EN RATÓN (MUS MUSCULUS) Y GATO (FELIS CATTUS))
Resultados… vean que los Scores son más bajos 
que los obtenidos cuando comparábamos con 
todos los organismos (entre ellos humano, 
gorila…)
▪ Ej.: A partir de una muestra de sangre de un paciente se hizo extracción de
material nucleico, PCR y secuenciación. Queremos determinar, a partir de la
secuencia, qué enfermedad tenía dicho paciente:
✓ Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué BLAST
usamos?
✓ Si es secuencia de ADN y queremos comparar con base de datos de PROTEINAS, qué
BLAST usamos?
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAAGCA
ATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTTACGTGTT
CTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAA
GATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJ. 2: PARTIENDO DE UNA SECUENCIA NUCLEOTÍDICA
▪ Ej.: Tenemos una secuencia proteica (AA) de un virus y queremos determinar
de qué virus se trata…
✓ Si es secuencia de AA y queremos comparar con base de datos de PROTEINAS, qué
BLAST usamos?
✓ Si es secuencia de AA y queremos comparar con base de datos de ADN, qué BLAST
usamos?
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAA
GCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTT
ACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJ. 3: PARTIENDO DE UNA SECUENCIA AMINOACÍDICA
Puedo elegir bases de datos. Ej. nr o Refseq
(curada, secundaria)
Pego la secuencia a buscar
Salida de este BLASTP usando la base 
de datos refse1… Base de datos más 
curada, 1 campo o pocos por especie
4 hits con ZIKA y 
el resto otros 
virus
Salida de este BLASTP usando la base de 
datos “nr” (combinación de varias bases 
de datos secundarias… Varios campos por 
especie)
Muchos hits con ZIKA…
REDUNDANCIA
Otras herramientas de GenBank: PRIMER BLAST -
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
▪ Herramienta de NCBI que combina
primer3 (http://primer3.ut.ee, software
para diseñar primers) con BLAST (para
testear especificidad de los primers. Ej.:
ver si amplifica en especies no blanco).
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
http://primer3.ut.ee/
¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA 
GENBANK?
Pueden decir entre 
qué regiones (en 
pb) caigan el 
primer forward y el 
reverse (ej. que el F 
caiga entre las 
bases 1 y la 100 de 
la secuencia y el R 
entre las bases 600 
y 700).
Pueden especificar qué 
rango de tamaño tenga el 
fragmento de PCR (x 
default, de 70 a 1000 pb)
Si usan como molde 
secuencias de mRNA de 
refSeq pueden filtrar 
para que los primers
incluyan o no intrones, 
exones, etc.
Ej. 1: Diseñar 
primers
Acá automáticamente se 
pegó el accession number
de la secuencia para la cual 
quiero diseñar primers. 
Pero también puedo pegar 
una secuencia, o subir el 
archivo FASTA. 
Resultados (dejando todos los 
parámetros por defecto: es decir, 
sin cambiar nada) 10 pares de 
primers que amplificar fragmentos 
de distintos tamaños a partir de 
esa secuencia…
Resultados (continuación). 
Además de buscar primers, 
hace BLAST para ver la 
especificidad de dichos 
primers… y acá en este 
reporte nos informa que 
esos primers diseñados 
podrían tener producto 
inespecífico, amplificando 
no solo nuestra secuencia 
sino otras…
Ej. 2: Ver especificidad de Primers ya diseñados
▪ El kit que recomienda usar la Organización Mundial de la Salud (WHO) para la detección de SARS-
COV-2 en pacientes implica el uso de primers para Real Time PCR
▪ Es necesario que dichos primers sean 100% específicos de coronavirus. Es decir, que NO
amplifiquen ni sobre ADN humano ni otro material nucleico de otras especies/ virus.
Podemos ver si estos primers son 
específicos de este virus, usando PRIMER-
BLAST
https://www.who.int/docs/default-
source/coronaviruse/real-time-rt-pcr-
assays-for-the-detection-of-sars-cov-2-
institut-pasteur-
paris.pdf?sfvrsn=3662fcb6_2
https://www.who.int/docs/default-source/coronaviruse/real-time-rt-pcr-assays-for-the-detection-of-sars-cov-2-institut-pasteur-paris.pdf?sfvrsn=3662fcb6_2
Pegar los primers a testear 
especificidad
Vaciar el campo “organismos” (o no, depende de 
qué queramos hacer. Acá queremos saber si 
pegan en algún organismo, y en cuyo caso en 
cuál, por eso no escribimos nada).
Elegir la base de datos a usar (ej. RefSEQ)
Un único resultado (usando esta base REFSEQ, altamente 
curada). Solo amplifica en SARS-COV-2.
Si quieren hagan la prueba con la base de datos “nr”… van a 
tener varios resultados, pero todos de SARS-COV-2.
Primers altamente específicos!!! Se pueden usar para 
diagnóstico
https://nextstrain.org/ncov/globalEj. (reciente) uso de datos de secuenciación
https://nextstrain.org/ncov/global
TP Clase II - GenBank
!

Continuar navegando