Logo Studenta

TALLER_BD - Clase4

¡Este material tiene más páginas!

Vista previa del material en texto

Clase I – Bases 
de datos 
bibliográficas
Clase II –
Genbank
Clase III –
Navegador de 
Ensembl
Genome
Clase IV –
Uniprot y PDB
Taller de Manejo de Software y 
Base de Datos (2228)
Licenciatura en Biotecnología
UNM – Noviembre 2020
Taller de Manejo de Software 
y Base de Datos (2228)
(Parte de las diapositivas fueron tomadas de la webpage de EMBL-EBI Training)
EMBL-EBI
Clase 4 – Uniprot y PDB
Licenciatura en Biotecnología
UNM – Noviembre 2020
UniProt: explorando la secuencia de 
proteínas e información funcional
▪ www.uniprot.org
▪ Universal Protein Knowledge Database
▪ La misión de UniProt es proporcionar, a la comunidad científica,
un recurso integral (de alta calidad y de libre acceso) de
secuencia de proteínas e información funcional.
http://www.uniprot.org/
Tipos de datos en una entrada de 
UniProt
• Nombres, identificadores y Taxonomía.
• Información de curado, basado en bibliografía.
Tipos de datos en una entrada de 
UniProt
• Características de la secuencia proteica.
• Secuencia.
• Gos.
• Referencias a otras BD.
Tipos de datos en una entrada de 
UniProt
• Van a encontrar “etiquetas” que nos hablan de 
la evidencia que existe de esa proteína.
Tipos de datos en una entrada de 
UniProt
• Etiquetas que nos hablan de la evidencia que 
existe de esa proteína.
a) MANUALES (color dorado/amarillo)
b) AUTOMÁTICAS (color AZUL)
UniProt
RECURSOS DE 
UNIPROT
Secuencias UniProtKB
▪ Más del 95% de las secuencias de proteínas proporcionadas por
UniProtKB provienen de traducciones de secuencias codificantes
(CDS) enviadas a ENA/GenBank/DDBJ -> TrEMBL
▪ Además de los CDS traducidos, las secuencias de proteínas
UniProtKB pueden provenir de:
✓ La base de datos PDB.
✓ Secuencias obtenidas por secuenciación directa de proteínas y enviadas a
UniProt.
✓ Secuencias escaneadas de la literatura.
✓ Secuencias derivadas de la predicción de genes pero que no se han
enviado a ENA/GenBank/DDBJ. Estas se importan de recursos tales como
ENSEMBL y RefSeq.
Secuencias UniProtKB
Secuencias UniParc y UniRef
▪ Secuencias UniParc: Está diseñado para capturar todos los datos de secuencia de
proteínas disponibles en las principales BD de secuencias de proteínas. Una lista
completa de las BD empleadas se encuentra disponible en el sitio de UniProt.
▪ Secuencias UniRef: Proporciona conjuntos de secuencias agrupadas de UniProtKB y
seleccionadas de UniParc.
Información funcional
▪ La información funcional se encuentra en UniProtKB.
UniProtKB
Curado manual de bases de datos 
que conforman UniProt
UniProt
Herramientas
UniProt
Descargas, 
estadísticas de la 
BD, etc.
UniProt
Panel de búsqueda
UniProt
Panel de 
búsqueda
UniProt: búsqueda avanzada
UniProt: búsqueda avanzada
• Gene Name: REST
• Organism: Human (9606)
UniProt: búsqueda avanzada
UniProt: búsqueda avanzada
UniProt: guardar elem. de una búsqueda
UniProt: guardar en “cesta”
UniProt: modificar tabla de resultados
Para modificar esta “tabla de 
resultados” (sacar o poner 
columnas). Ej.: Si no me interesa el 
largo, lo puedo sacar.
UniProt: modificar tabla de resultados
Categorías actualmente 
mostradas
Todo lo que puedo 
pedir/ sacar
UniProt: explorar una entrada
ID
Nombre del gen, de la proteína, organismo…
Evidencia
INFORMACIÓN GENERAL
Publicaciones relacionadas
INFORMACIÓN sobre esta proteína
Información acerca de si esta proteína está implicada 
en alguna patología, y la evidencia (papers) soporte
UniProt: explorar una entrada
Feature viewer
Feature viewer
INFORMACIÓN (gráfica) 
sobre esta proteína
Feature viewer
Límites de la proteína (se puede “hacer zoom” sobre una región en 
particular, solo moviendo estos límites con el cursor)
Feature viewer
Si presionan (click) cualquier característica (ej. 
variante), les da información de artículos y 
demás (ej. tipo de variante)…
Predicción del 
efecto de esas 
variantes 
(benigna, causa 
enfermedad, 
etc). Se puede 
usar para filtrar
Combinación con la información del 
Protein data bank (https://www.rcsb.org)
Dos secciones de la proteína con estructura 3D (la 
estructura viene del Protein Data Bank) y está AL 
FINAL DE ESTA PÁGINA.
Si presionan la secuencia y 
mueven el mouse sin dejar 
de presionar, la proteína 
rota (y pueden verla desde 
distintos ángulos).
Links del PDB (para 
esa proteína)
Método de obtención de esa estructura 3D (NMR o rayos X).
Pueden ver estructura 
secundaria de las 
proteínas (láminas Beta, 
alfa-helices, loops…)
Feature viewer
UniProt: proteomas
¿Qué es un proteoma?
UniProt: proteomas
UniProt: proteomas
Pueden hacer búsquedas usando el 
nombre o el ID del organismo para el 
cual buscan el proteoma…
UniProt: proteomas – Ej.: buscar el proteoma de 
Staphylococcus aureus (bacteria)
1 proteoma de referencia y otros 8969 proteomas para esta 
bacteria… mucha redundancia (lógico, hay muchos datos de 
secuenciación para bacterias implicadas en enfermedades 
infecciosas)!!! Qué/cómo/cuál elegir???
Si tiene este logo rojo, es el 
proteoma de referencia
ID del proteoma
N° de proteínas en este proteoma
Link para descargar en formato FASTA
Genoma de 
referencia
Info de la 
especie
Publicaciones relacionadas
UniProt: proteomas – Ej.: buscar el proteoma de 
Staphylococcus aureus (bacteria)
EJEMPLOS USANDO UNIPROT
Ej.1: para encontrar la función 
proteica
Buscar: “CDC7” para humanos.
Ej.1: para encontrar la función 
proteica
Nombre, 
gen, 
organismo, 
estado
Función (con evidencia en una 
publicación)
Ej.2: de enfermedad a proteína a 
variante
Buscar: “SMA2”
UniProt facilita la identificación y recuperación de proteínas
relacionadas con una enfermedad y a las variantes que causan la
misma.
Ej.2: de enfermedad a proteína a 
variante
Ej.2: de enfermedad a proteína a variante
Ej.2: de enfermedad a proteína a variante
Ej.2: de enfermedad a proteína a variante
Información adicional de la 
enfermedad: con un resumen y 
las variantes que la producen 
(con las publicaciones).
Ej.3: descargar el proteoma de E. coli
(cepa K12)
Ej.3: descargar el proteoma de E. coli
(cepa K12)
Buscar: “Escherichia coli”
Ej.3: descargar el proteoma de E. coli
(cepa K12)
Opciones de visualización: 
generalidades, 
componentes, publicaciones
Ej.3: descargar el proteoma de E. coli
(cepa K12)
Ej.3: descargar el proteoma de E. coli
(cepa K12)
Ej.4: Variola virus (agente causal de la 
viruela - small pox)
• Este año (08/05/2020), se conmemoró el 40 aniversario de la
erradicación oficial de la VIRUELA. La única enfermedad humana
eliminada y que durante alrededor de 3.000 años afectó a unos 300
millones de personas en el mundo y que sólo en el siglo XX, mató a
unos 4 millones anualmente.
• El fin de esta enfermedad se confirmó el 9 de diciembre de 1979, y
cinco meses más tarde, el 8 de mayo de 1980, la 33ª Asamblea
Mundial de la Salud emitió su declaración oficial de que "el mundo y
todos sus pueblos" se habían "liberado de la viruela".
Ej.4: Búsqueda avanzada (viruela y humanos… 
para buscar posibles receptores asociados con esta 
enfermedad)
Ej.4: Búsqueda avanzada (viruela y humanos… 
para buscar posibles receptores asociados con esta 
enfermedad)
Único resultado “curado” 
(Swiss-prot)
Ej.4: Búsqueda avanzada (viruela y humanos… 
para buscar posibles receptores asociados con esta 
enfermedad)
Información general
GOs (Gene Ontology)
Ej.4: Búsqueda avanzada (viruela y humanos… 
para buscar posibles receptores asociados con esta 
enfermedad)
Ubicación subcelular de esta proteína 
(pintado: membrana) Como es 
AMARILLO, es de revisión manual (si 
estuviera pintado de AZUL, sería 
anotación automática)
Ej.4: Búsqueda avanzada (viruela y humanos… 
para buscar posibles receptores asociados con esta 
enfermedad)
Estructura 3D (sacado del Protein Data Bank). Se 
obtuvo x cristalografía Rayos X.
Alfa-hélice
Lámina Beta
TP Clase IV - Uniprot

Continuar navegando

Materiales relacionados