TALLER_BD - Clase2

•

SIN SIGLA

Agustina Guerrero

2/4/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Bioestadísticas

3851 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNM – Noviembre 2020
Licenciatura en Biotecnología
Taller de Manejo de Software y Base de Datos
(2228)
Taller de Manejo de Software y Base de
Datos (2228)
CLASE 2 - GenBank
Licenciatura en Biotecnología
UNM – Noviembre 2020
▪ Una base de datos (BD) es una colección de datos.
✓ Una agenda de teléfonos es un sencillo ejemplo de una base de datos.
▪ Los datos se almacenan en registros.
▪ Cada registro debe tener un identificador único y estable.
▪ La información que contiene cada registro está distribuida en
campos.
BASES DE DATOS
▪ Casi todos los desarrollos que se hacen a día de hoy en
bioinformática de una u otra manera hacen uso de datos
almacenados en bases de datos “biológicas”.
▪ Las bases de datos están escritas en SQL.
✓ SQL es un lenguaje de dominio específico utilizado en programación, diseñado para
administrar, y recuperar información de sistemas de gestión de bases de datos
relacionales.
✓ SQL consiste en un lenguaje de definición de datos, un lenguaje de manipulación de
datos y un lenguaje de control de datos.
✓ El alcance de SQL incluye la inserción de datos, consultas, actualizaciones y borrado, la
creación y modificación de esquemas y el control de acceso a los datos.
SQL (STRUCTURED QUERY LANGUAGE)
SQL (STRUCTURED QUERY LANGUAGE)
▪ En bioinformática, el concepto de “base de datos biológica” no alude
tanto a la tecnología usada como al contenido almacenado.
▪ Una base de datos biológica es un “almacén de datos” para
información derivada de datos obtenidos de experimentos biológicos.
▪ Una base de datos bioinformática es un almacén de datos para
información derivada de datos biológicos y programas bioinformáticos.
▪ Si bajamos al nivel más técnico, las bases de datos biológicas y
bioinformáticas están disponibles generalmente como un conjunto de
ficheros planos, cuyo tamaño suele ser enorme.
BASES DE DATOS BIOLÓGICAS Y BIOINFORMÁTICAS
▪ Hay BD que almacenan los datos tal y como han sido depositados por
quienes los han generado. Se las denomina BD primarias o bancos de
datos.
▪ Suele haber redundancia (la misma información repetida varias veces): Ej.:
muchos datos de secuenciación a genoma completo del virus SARS-COV-2.
✓ Ej. de BD primarias de secuencias de nucleótidos son GenBank, ENA (European
Nucleotide Archive) y DDBJ (DNA Data Bank of Japan).
✓ Ej. de BD primarias de secuencias de proteínas son SWISS-PROT y Uniprot-KB.
✓ Ej. de BD primaria de estructura tridimensional de proteínas es PDB (Protein Data Bank) y
de estructura tridimensional de ác. nucleicos es NDB (Nucleic acid database).
BASES DE DATOS PRIMARIAS
▪ A partir del análisis de la información depositada en las BD primarias se
pueden descubrir nuevas propiedades o establecer nuevas relaciones entre
los datos.
▪ En muchos casos resulta interesante almacenar todo este "valor añadido"
en una nueva BD.
▪ No hay redundancia
▪ Son las llamadas BD secundarias o derivadas.
✓ Ej. de BD secundarias de secuencias de proteínas son Prosite, Prints y Pfam.
✓ Ej. de BD secundarias de datos nucleotídico es Refseq (Reference Sequence) → Sólo
tiene una secuencia por gen y organismo.
BASES DE DATOS SECUNDARIAS
▪ GenBank es una BD pública que contiene una extensa colección de
secuencias de nucleótidos obtenidas a partir de más de 300.000 especies.
▪ Además de la secuencia, incluye información bibliográfica, anotaciones
funcionales y, si se trata de una secuencia codificante, su traducción
conceptual a proteína.
▪ De la gestión y distribución de GenBank se encarga el NCBI (National Center
for Biotechnology Information) - Estados Unidos.
GENBANK (https://www.ncbi.nlm.nih.gov/genbank/)
https://www.ncbi.nlm.nih.gov/genbank/
Nuevo! Gran sección
destinada específicamente a
SARS-COV-2/ COVID19
Buscador
Secciones en las
cuales hacer
búsquedas
Nuevo! Gran sección
destinada específicamente a
SARS-COV-2/ COVID19
Buscador
Secciones en las
cuales hacer
búsquedas
▪ Los contenidos de GenBank son accesibles de forma pública y gratuita a
través de Internet (https://www.ncbi.nlm.nih.gov/genbank/).
▪ También es posible descargar los ficheros que contienen la BD desde el lugar
ftp (File Transfer Protocol) del NCBI (ftp://ftp.ncbi.nlm.nih.gov/).
▪ Cada dos meses sale una nueva versión de la BD.
▪ Desde 1982, el número de secuencias almacenadas en GenBank se ha
duplicado aproximadamente cada 18 meses.
GENBANK
https://www.ncbi.nlm.nih.gov/genbank/
ftp://ftp.ncbi.nlm.nih.gov/
▪ Cada registro contiene una secuencia ininterrumpida de una molécula de
ác. nucleicos.
▪ Podemos encontrar: ADN/ARN genómico, ARNm (ADNc), ARN
ribosómico, ARN de transferencia, ARN pequeño nuclear o ARN
pequeño citoplasmático.
▪ El tamaño mínimo de las sec. almacenadas es de 50 nucleótidos (algunos
registros antiguos pueden tener secuencias más cortas).
▪ No hay límite máximo: se pueden mandar genomas completos.
GENBANK
▪ Los registros incluyen anotaciones bibliográficas y biológicas.
▪ GenBank asigna un número de acceso al registro que contiene la secuencia y
las anotaciones.
✓ El número de acceso es un identificador único que utilizan las tres bases de datos
(GenBank, ENA y DDBJ) y siempre estará asociado a ésta.
✓ Es una combinación de letras y números como, por ej.: U12345 o AF123456.
✓ Si hay cambios en el registro (secuencia o anotaciones), se modifica la versión y se
indica después del número de acceso por un punto (ej.: U12345.1).
✓ Si se producen cambios en el registro U12345.1, el nuevo registro tendrá el
identificador U12345.2.
GENBANK
▪ Se puede buscar directamente por nombre (de una proteina, un gen, una
especie…)
▪ Siempre en inglés
▪ También se puede introducir el nombre del autor (o de la persona que ha
enviado la secuencia).
▪ Si lo sabemos, podemos buscar por número de acceso/ ID (accession
number) de una secuencia o genoma en particular…
BÚSQUEDAS EN GENBANK
▪ Los resultados de la búsqueda se pueden filtrar según diversos criterios como:
✓ Tipo de molécula,
✓ Longitud,
✓ Especie,
✓ Base de datos,
✓ Fechas de envío o revisión, etc.
BÚSQUEDAS EN GENBANK
BÚSQUEDAS EN GENBANK – Por número de acceso
(identificador único). Ej.: NM_002020
Acá se informan características varias de dicha secuencia o
registro de la base de datos. Ej.: si contiene un gen, de dónde a
dónde va dicho gen, si hay algún exon/ exones de dónde a
donde van dichos exones, traducción a proteina posible, etc.
Si seguimos explorando la salida de nuestra búsqueda en
GenBank vamos a llegar a la sección “features”
Y finalmente la secuencia (cada línea de la secuencia contiene
60 nucleótidos dispuestos en 6 bloques de 10)
¿CÓMO DESCARGAR DICHA SECUENCIA?
!
▪ En bioinformática, el formato FASTA es un formato de archivo basado en
texto, utilizado para representar secuencias nucleicas o peptídicas, y en el que
los pares de bases o los aminoácidos se representan usando códigos de una
única letra.
✓ Comienza con una descripción en una única línea (línea de cabecera), seguida por líneas
de datos de secuencia. La línea de descripción se distingue de los datos de
secuencia por un símbolo '>' (mayor que) en la primera columna.
✓ La palabra siguiente (a ése símbolo) es el identificador de la secuencia, y el resto de la
línea es la descripción (ambos son opcionales). No debería existir espacio entre el '>'
y la primera letra del identificador.
FORMATO FASTA
FORMATO FASTA
¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA
GENBANK?
Herramientas
Papers
(PUBMED)
▪ Las secuencias de ADN (y proteína) definen la función de las proteínas en los
seres vivos.
✓ Cuando más similares sean dos secuencias, las funciones de las proteínas codificadas por
ellas tenderán a ser más similares también.
✓ Normalmente dos secuencias tienen una alta similitud porque son homólogas, es decir
comparten un ancestro común.
✓ A diferencia de la similitud, la homología no es un término cuantitativo, dos secuencias o
son homólogas (derivan del mismo ancestro)o no lo son.
BLAST - ALINEAMIENTO DE SECUENCIAS
▪ Para poder cuantificar el grado de similitud de dos secuencias lo primero que
hay que hacer es alinearlas.
✓ Alinear es, probablemente, la herramienta más utilizada en bioinformática.
✓ OJO: Siempre que se usa un algoritmo de alineamiento con un par de secuencias se
obtiene un alineamiento, incluso aunque las secuencias estén compuestas por letras al
azar.
✓ Por lo tanto además de hacer el alineamiento hay que estimar la significación
estadística del mismo.
ALINEAMIENTO DE SECUENCIAS
▪ El alineamiento con mejor puntuación debería ser el más razonable
(biológicamente).
▪ Para comparar distintos alineamientos entre sí se pueden asignar
puntuaciones: igualdad (match), desigualdad (mismatch), Indel (gap)
(para ADN, ARN y proteínas).
▪ Para proteínas: el porcentaje de similitud, tiene en cuenta la similitud
fisicoquímica de los diferentes aminoácidos.
PUNTACIÓN DE LOS ALINEAMIENTOS
▪ Ejemplo de sistemas de puntuación básico: match: +1, mismatch: 0, gap: -1.
✓ Pero… valen igual todos los mismatch?? Qué pasa con los cambios en aminoácidos que
tienen diferentes propiedades (hidrofóbicos, hidrofílicos, ácidos…)?
✓ SOLUCIÓN: matrices de sustitución!!!!
PUNTACIÓN DE LOS ALINEAMIENTOS
Puntuación: 10 matches * 1 + 1 mimatch * 0 + 6 gaps * -1 = 4
▪ Si tengo dos secuencias de distinto largo… conviene “forzar” a la secuencia
más corta a que cubra la secuencia más larga (introduciendo los gaps que
sean necesarios… Alineamiento global)? O conviene sólo alinear las zonas
más parecidas (Alineamiento local)?
▪ Ej: Alinear TAGCTAGTCGTAG Y TACGGGGCTAGCTATCGTAG
PUNTACIÓN DE LOS ALINEAMIENTOS
▪ Representa los alineamientos gráficamente.
✓ Da resultados intuitivos e informa de posibles
alineamientos alternativos.
✓ Sirve para descubrir repeticiones, inserciones,
deleciones.
✓ Las secuencias similares aparecen en la
diagonal.
✓ Ej: alinear AGCTACATGTA y AACTAGCATCT
MÉTODO DE ALINEAMIENTO DE PARES DE
SECUENCIA – DOT PLOT
▪ Consiste en alinear una secuencia con todas las de una base de datos, para
identificar qué secuencias se parecen a nuestra secuencia “incógnita”.
▪ Para hacer esto es necesario contar con un algoritmo muy rápido porque hay
millones de alineamientos que procesar… es decir, necesitamos que sea
“computacionalmente viable”
BÚSQUEDA DE SECUENCIAS EN BASES DE DATOS
▪ Se genera un índice de palabras cortas contenidas
en la secuencia problema (largo default: 3aa, 11 nt).
▪ Se buscan las secuencias de la base de datos que
presentan alguna de las palabras de la lista
anterior.
▪ Se extienden esas “palabras” hasta que la
puntuación del alineamiento comienza a disminuir.
▪ Para determinar si un alineamiento es
significativo se compara su puntuación con la de
alineamientos de secuencias al azar (e-value).
BLAST (ALGORITMO)
EVALUE
✓ Similar a p-valor (estadística)
✓ Es la probabilidad de encontrar un alineamiento así al azar…
✓ Siempre e-value MENOR es MEJOR
HSP Score (high scoring pair)
✓ Puntaje dado al alineamiento.
✓ Siempre SCORE MAYOR es MEJOR.
¿CÓMO SE PUNTUAN LOS ALINEAMIENTOS, PARA
SABER CUÁL ES EL MEJOR? E-VALUE Y HSP
VERSIONES DE BLAST
▪ Existen varios programas BLAST dependiendo de las secuencias que queramos
comparar:
✓ BLASTP: compara proteínas con una base de datos de proteínas.
✓ BLASTN: compara nucleótidos con una base de datos de nucleótidos.
✓ BLASTX: compara nucleótidos (traducidos en sus 6 marcos abiertos de lectura) con una
base de datos de proteínas.
✓ TBLASTN: compara proteínas contra una base de datos de nucleótidos (traducidos en
sus 6 marcos abiertos de lectura).
✓ TBLASTX: compara nucleótidos con una base de datos de nucleótidos traduciendo
todas las secuencias.
VERSIONES DE BLAST
https://blast.ncbi.nlm.nih.gov/Blast.cgi
https://blast.ncbi.nlm.nih.gov/Blast.cgi
EJ. 1: BLAST DESDE NUESTRA BÚSQUEDA EN GENBANK (PARA BUSCAR
SECUENCIAS RELACIONADAS A FLT4 EN BASES DE DATOS)
Si de toda la secuencia sólo les
interesara una porción (ej. las
primeras 100 bases), pueden
especificarlo aquí, diciendo que
use para el alineamiento solo las
bases 1-100 de la secuencia
(from 1 to 100)
Acá pueden elegir sobre qué
tipo de bases de datos hacer
la búsqueda/ alineamiento.
Hay bases primarias y
secundarias (REFSEQ)
Pueden pedir que las búsquedas
las haga solo contra algún(os)
organismos o especies en
particular (o que NO las haga
sobre alguno en particular)
Acá automáticamente el
software pegó el número
de acceso. Pero podrían
pegar una secuencia (ej.
FASTA) o subir un archivo
FASTA.
Arriba los mejores
alineamientos (mayor
Score, menor Evalue).
Importantes parámetros:
Verificar porcentaje de
cobertura (porción de mi
secuencia que se parece a la
reportada por BLAST) y
porcentaje de identidad (qué
tan parecidas son, mi
secuencia a la reportada por
BLAST)
Obviamente (dado que la secuencia es de humanos) los mejores resultados me dan con
HUMANO (Homo Sapiens). Podría querer EXCLUIR humano y buscar esa secuencia a qué
secuencia de OTRAS especies se parece. Para eso uso filtros…
Fíjense que algunos no cubren toda mi
secuencia (aquí es la “query”) →
Alineamiento “LOCAL” (No global)
Alineamientos: línea vertical:
match (igualdad), espacio:
mismatch (bases alineadas
diferentes), gap (no hay aquí, sino
se verían guiones)
Este es el ID de la secuencia con la que
BLAST hizo el alineamiento. Si hacemos
click, vamos a la página de GenBank de
dicha secuencia =)
Otra información relacionada con
esta secuencia (link a otras
herramientas de NCBI)
Si hacemos click en “gene”,
nos lleva a la sección de
NCBI con información
acerca de dicho gen.
Ej. resumen de su función,
en qué cromosoma está…
Si hacemos click en “gene”,
nos lleva a la sección de NCBI
con información acerca de
dicho gen.
Ej. en qué tejido se expresa
(en este caso se expresa más
en FAT-grasa, LUNG-pulmón y
SPLEEN-bazo), bibliografía al
respecto, proteínas con las
que interactúa, en qué rutas
metabólicas participa, etc…
Agregan “organismo” → Ojo, tienen que saber (o
googlear) el nombre científico.
En caso de tratarse de virus, podemos poner la
familia (ej el VIH pertenece a la familia
retroviridae)
EJ. 1.1: BÚSQUEDA ESPECÍFICAMENTE EN DOS ESPECIES (EJ. BUSCAR REGIONES
SIMILARES EN RATÓN (MUS MUSCULUS) Y GATO (FELIS CATTUS))
Resultados… vean que los Scores son más bajos
que los obtenidos cuando comparábamos con
todos los organismos (entre ellos humano,
gorila…)
▪ Ej.: A partir de una muestra de sangre de un paciente se hizo extracción de
material nucleico, PCR y secuenciación. Queremos determinar, a partir de la
secuencia, qué enfermedad tenía dicho paciente:
✓ Si es secuencia de ADN y queremos comparar con base de datos de ADN, qué BLAST
usamos?
✓ Si es secuencia de ADN y queremos comparar con base de datos de PROTEINAS, qué
BLAST usamos?
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAAGCA
ATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTTACGTGTT
CTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAA
GATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJ. 2: PARTIENDO DE UNA SECUENCIA NUCLEOTÍDICA
▪ Ej.: Tenemos una secuencia proteica (AA) de un virus y queremos determinar
de qué virus se trata…
✓ Si es secuencia de AA y queremos comparar con base de datos de PROTEINAS, qué
BLAST usamos?
✓ Si es secuencia de AA y queremos comparar con base de datos de ADN, qué BLAST
usamos?
ACGGTTAGTAACATGGCCGAGGTAAGATCCTATTGCTACGAGGCATCGATATCGGACATGGCTTCGGACAGTCGTTGCCCAACACAAGGTGAAGCCTACCTTGACAA
GCAATCAGACACTCAATATGTCTGCAAAAGAACATTAGTGGACAGAGGTTGGGGAAACGGTTGTGGACTTTTTGGCAAAGGGAGCTTGGTGACATGTGCCAAGTTT
ACGTGTTCTAAGAAGATGACCGGGAAGAGCATTCAACCGGAAAATCTGGAGTATCGGATAATGCTATCAGTGCATGGCTCCCAGCATAGCGGGATGATTGGATATGAAACTGACGAAGATAGAGCGAAAGTCGAGGTTACGCCTAATTCACCAAGAGCGGAAGCAACCTTGGGAGGCTTTGGAAGCTTAGGACTTGACTGTGAACCA
EJ. 3: PARTIENDO DE UNA SECUENCIA AMINOACÍDICA
Puedo elegir bases de datos. Ej. nr o Refseq
(curada, secundaria)
Pego la secuencia a buscar
Salida de este BLASTP usando la base
de datos refse1… Base de datos más
curada, 1 campo o pocos por especie
4 hits con ZIKA y
el resto otros
virus
Salida de este BLASTP usando la base de
datos “nr” (combinación de varias bases
de datos secundarias… Varios campos por
especie)
Muchos hits con ZIKA…
REDUNDANCIA
Otras herramientas de GenBank: PRIMER BLAST -
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
▪ Herramienta de NCBI que combina
primer3 (http://primer3.ut.ee, software
para diseñar primers) con BLAST (para
testear especificidad de los primers. Ej.:
ver si amplifica en especies no blanco).
https://www.ncbi.nlm.nih.gov/tools/primer-blast/
http://primer3.ut.ee/
¿QUÉ MÁS PUEDO HACER A PARTIR DE UNA BÚSQUEDA
GENBANK?
Pueden decir entre
qué regiones (en
pb) caigan el
primer forward y el
reverse (ej. que el F
caiga entre las
bases 1 y la 100 de
la secuencia y el R
entre las bases 600
y 700).
Pueden especificar qué
rango de tamaño tenga el
fragmento de PCR (x
default, de 70 a 1000 pb)
Si usan como molde
secuencias de mRNA de
refSeq pueden filtrar
para que los primers
incluyan o no intrones,
exones, etc.
Ej. 1: Diseñar
primers
Acá automáticamente se
pegó el accession number
de la secuencia para la cual
quiero diseñar primers.
Pero también puedo pegar
una secuencia, o subir el
archivo FASTA.
Resultados (dejando todos los
parámetros por defecto: es decir,
sin cambiar nada) 10 pares de
primers que amplificar fragmentos
de distintos tamaños a partir de
esa secuencia…
Resultados (continuación).
Además de buscar primers,
hace BLAST para ver la
especificidad de dichos
primers… y acá en este
reporte nos informa que
esos primers diseñados
podrían tener producto
inespecífico, amplificando
no solo nuestra secuencia
sino otras…
Ej. 2: Ver especificidad de Primers ya diseñados
▪ El kit que recomienda usar la Organización Mundial de la Salud (WHO) para la detección de SARS-
COV-2 en pacientes implica el uso de primers para Real Time PCR
▪ Es necesario que dichos primers sean 100% específicos de coronavirus. Es decir, que NO
amplifiquen ni sobre ADN humano ni otro material nucleico de otras especies/ virus.
Podemos ver si estos primers son
específicos de este virus, usando PRIMER-
BLAST
https://www.who.int/docs/default-
source/coronaviruse/real-time-rt-pcr-
assays-for-the-detection-of-sars-cov-2-
institut-pasteur-
paris.pdf?sfvrsn=3662fcb6_2
https://www.who.int/docs/default-source/coronaviruse/real-time-rt-pcr-assays-for-the-detection-of-sars-cov-2-institut-pasteur-paris.pdf?sfvrsn=3662fcb6_2
Pegar los primers a testear
especificidad
Vaciar el campo “organismos” (o no, depende de
qué queramos hacer. Acá queremos saber si
pegan en algún organismo, y en cuyo caso en
cuál, por eso no escribimos nada).
Elegir la base de datos a usar (ej. RefSEQ)
Un único resultado (usando esta base REFSEQ, altamente
curada). Solo amplifica en SARS-COV-2.
Si quieren hagan la prueba con la base de datos “nr”… van a
tener varios resultados, pero todos de SARS-COV-2.
Primers altamente específicos!!! Se pueden usar para
diagnóstico
https://nextstrain.org/ncov/globalEj. (reciente) uso de datos de secuenciación
https://nextstrain.org/ncov/global
TP Clase II - GenBank
!

TALLER_BD - Clase2

SIN SIGLA

Bioestadísticas

Continuar navegando

Otros materiales