Logo Studenta

TALLER_BD - Clase1

¡Este material tiene más páginas!

Vista previa del material en texto

Clase I – Bases 
de datos 
bibliográficas
Clase II –
Genbank
Clase III –
Navegador de 
Ensembl
Genome
Clase IV –
Uniprot y PDB
Taller de Manejo de Software y 
Base de Datos (2228)
Licenciatura en Biotecnología
UNM – Noviembre 2020
Manejo dentro de la plataforma de la 
universidad
Manejo dentro de la plataforma de la 
universidad
!
Manejo dentro de la plataforma de la 
universidad
CLASE 1
Bases de datos bibliográficas
Licenciatura en Biotecnología
UNM – Agosto 2020
Taller de Manejo de Software 
y Base de Datos (2228)
• El ciclo de los datos
¿Cómo se organizan los datos e información biológica?
Bases de datos
Uno de los principales desafíos de la Bioinformática es ordenar los datos públicos, de modo que se 
facilite su disponibilidad, consulta y acceso…. INCLUSO PARA NO BIOINFORMÁTICOS!!
• Solución: Base de Datos (un conjunto de datos relacionados y almacenados para un propósito 
particular con una estructura lógica).
Bases de datos – Organización del
conocimiento (Ej: bibliografia, secuencias,
estructuras, datos funcionales).
Bases de datos biológicas
Las bases de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, 
proteínas, estructura de proteínas, genomas, expresión genética, bibliografía, taxonomía, 
metabolismo, factores de transcripción, etc.
Las primeras bases de datos biológicas…
▪ Hoy es lógico asociar las bases de datos con internet… que tuvo sus inicios en 1969 con ARPANET.
▪ Pero las primeras bases de datos biológicas datan de 1965!!!!
▪ Ej: Atlas of protein Sequence and Structure (1965), es la primer base de datos de proteínas. Contaba 
con 65 secuencias!! Trabajo de Dayhoff et. al.
▪ En 1971 se crea el “Protein Data Bank”, con 7 estructuras de proteínas (obtenidas por cristalografía de 
rayos X).
▪ En 1982 el GeneBank (US) comienza a almacenar secuencias de ADN (606 secuencias).
Genbank and EMBL: 
NucleotideSequences 1986/1987 
Volumes I to VII.
CDRomof Genbankv100
Proyectos internacionales – Bases de datos
▪ Conforme las bases de datos iban creciendo, el perfil de gestor de las mismas se fue profesionalizando, 
pasando a ser cada vez más computacional.
▪ A partir de ese momento surgieron proyectos internacionales que se hicieron cargo de estas bases de 
datos, dos de estas iniciativas son:
▪ European Bioinformatics Institute (EBI). El EBI forma parte del EMBL
(European Molecular Biology Laboratory) y se construy ́o en el año 1992 en el
campus Wellcome Trust Genome en Hinxton (Inglaterra) para dar soporte a la
gran cantidad de datos que se estaban generando con los proyectos de
secuenciación del Instituto Sanger.
▪ National Centre for Biotechnology Information (NCBI). El NCBI es parte
de la Biblioteca Nacional de Medicina de los Estados Unidos (NLM) que es a
su vez parte del Instituto Nacional de Salud (NIH). El NCBI está en Maryland
y se fundó en 1988 para desarrollar sistemas de información en el campo de la
biología molecular.
• Miembros de EMBL
Austria, Bélgica, Croacia, Checo 
República, Dinamarca, Finlandia, 
Francia, Alemania, Grecia, Hungría, 
Islandia, Irlanda, Israel, Italia, 
Luxemburgo, Malta, Montenegro, los 
Países Bajos, Noruega, Portugal, 
Eslovaquia, España, Suecia, Suiza y el 
Reino Unido.
• Miembros asociados: Argentina, 
Australia.
• Miembros potenciales: Lituania, 
Polonia.
Las bases de datos están relacionadas
Figura 1.7: Referencias cruzadas: a partir de
la entrada correspondiente a una secuencia
de UniProt se llega a la estructura resuelta
por rayos X (PDB) y de ahí a la publicación
donde se describe la estructura (PubMed).
▪ Todos los años, Nucleic Acid Research (NAR) publica una edición con las nuevas bases de
datos biológicas disponibles y sus actualizaciones.
▪ Hay 1637 bases de datos (NAR 2020) – en crecimiento.
Revisión de bases de datos
▪ El número publicado en 2020 es
el volumen 48, e incluye 59
nuevas bases de datos y,
actualización de otras 79 pre-
existentes.
▪ En la actualidad NARS a
revisado, actualizado 305
entradas, añadido 65 nuevas bases
y eliminado 125 URLs
discontinuos.
Primer tipo de base de datos que veremos:
Bibliográfica
▪ Hay varios tipos de bases de datos de bibliografía.
▪ Podemos encontrar papers, capítulos de libros, libros completos, patentes, etc.
▪ Cosas a saber de las publicaciones científicas:
1. Respecto a los costos: Independientemente del tipo de publicación, el título y
abstract (resumen) son libres, pero…
✓ Hay publicaciones que son de tipo “open access”, es decir que son
completamente libres, gratuitas para el lector. Normalmente en estos casos el
costo lo cubre quien pública.
✓ Para otras es necesario pagar una suscripción a la revista o bien pagar para
descargar el artículo completo (en USD). En estas, el costo para quien publica
suele ser nulo.
Primer tipo de base de datos que veremos:
Bibliográfica
2. Respecto de la validez científica:
✓ Los artículos por lo general deben ser novedosos, y deben estar acompañados
por una buena descripción de la metodología usada, resultados y discusión.
✓ Generalmente las revistas científicas de prestigio y/o reconocidas son revisadas
por pares (arbitraje) dentro de la comunidad científica, en un intento de asegurar
un máximo de estándares de calidad, así como validez científica. Contras: se
puede demorar mucho tiempo en publicar; conflictos de interés por parte del
revisor? Costos…
✓ Aunque ahora está aumentando el número de pre-prints (publicaciones hechas
sin revisión de pares) - Rápida publicación (horas), puede luego ser publicado en
una revista con revisión de pares, costo cero, puede ser citado. Contras: en
muchos casos la academia no lo considera como publicación, hay revistas que
no aceptan publicaciones previas en pre-prints, temor a que te “roben los
datos”.
Primer tipo de base de datos que veremos:
Bibliográfica
2. a. Respecto de los pre-prints…
✓ En el último tiempo, debido a la pandemia COVID-19, ha aumentado en forma
exponencial la cantidad de artículos científicos relacionados con esta
enfermedad y el virus SARS-COV2.
✓ Muchos son pre-prints…
✓ Recomendación: Mucho
cuidado con lo que dicen
estos artículos, publicados
en forma tan rápida y son
revisión de pares…
Fuente: https://asapbio.org/state-of-preprinting-2020-04
Primer tipo de base de datos que veremos:
Bibliográfica
3. Respecto del “impacto”:
✓ Actualmente existen diversas herramientas de evaluación del impacto de revistas
científicas como la Web of Science (WOS) de Clarivate Analytics, Scopus de
Elsevier, Google Scholar Metrics (GSM), scimagojr.
✓ Los impactos de las revistas suelen dividirse en cuartiles. Ej: CONICET puntúa
mejor a publicaciones hechas en revistas del primer cuartil (Q1) > Q2 > Q3.
Primer tipo de base de datos que veremos:
Bibliográfica
▪ Las bases de bibliografias más usadas son:
✓ PubMED (https://www.ncbi.nlm.nih.gov › pubmed) - pertenece a NCBI.
✓ EuropePMC (https://europepmc.org) - pertenece a EMBL-EBI.
✓ Google Scholar: más que como BD, como buscador de publicaciones y relacionados
(http://scholar.google.com).
✓ Sci-hub (…)
https://www.ncbi.nlm.nih.gov/
https://europepmc.org/
http://scholar.google.com/
Primer tipo de base de datos que veremos:
Bibliográfica
▪ ¿Qué pasa con Google Scholar (http://scholar.google.com)?
✓ Los algoritmos que usa Google Scholar para “decidir” que artículos incluir en su base
de datos bibliográficos no son tan específicos y, puede llevar a error.
✓ Ejemplo:
http://scholar.google.com/
Aprovechando al máximo la búsqueda de 
bibliografía
▪ EuropePMC es socio de PubMed Central International.
▪ Fue construido y desarrollado en colaboración con PMC USA y PMC Canadá.
▪ Todos los nodos comparten contenido (~ 4.2 millones de artículos).
▪ EuropePMC difiere en la gama de contenido que proporciona y servicios en capas en la 
parte superior
• ¿Qué buscamos en Europe PMC?
• Contenido en EuropePMC
29M
Peer reviewed
publications
PudMed, Agrícola
158K
PreprintsbioRxiv’ ChemRxiv’
Prepints.org,etc.
4,2M
Patents
EPO
1,296
Clinical
guidelines
Abstracts
37M
Full text
6.2M
http://europepmc.org/
http://europepmc.org/
• Búsqueda única de todo el contenido
▪ Cada búsqueda de “palabras claves” consulta el texto completo así como los resúmenes.
Encontrar trabajos de investigación sobre 
un tema específico
http://europepmc.org
• Ejemplo: p53 mutation DNA damage
• MeSH y sinónimos
▪ Europe PMC expande automáticamente su búsqueda utilizando sinónimos MeSH.
✓ Medical Subject Headings (MeSH) es un vocabulario controlado y jerárquicamente organizado producido
por la Biblioteca Nacional de Medicina. Se utiliza para indexar, catalogar y buscar información biomédica y
relacionada con la salud.
▪ Ej.: p53 se traduce en:
✓ p53 = oncoproteína p53, proteína TRP53, proteína supresora de tumores p53, pp53 
fosfoproteína...
✓ ¿Cómo agregar estos sinónimos, usando MeSH?
• MeSH y sinónimos
▪ Active la opción de sinónimos en el filtro de “búsqueda avanzada” (Advanced Search):
• Búsqueda exacta
▪ La búsqueda de p53 mutation encuentra mutations, mutational y resultados como... 
mutation... p53.
▪ Para obtener una coincidencia exacta, utilice comillas dobles: “p53 mutation”.
• Búsqueda exacta
▪ Para obtener una coincidencia exacta, utilice comillas dobles: “p53 mutation”.
• Operadores lógicos (AND; OR; NOT)
▪ Pueden usar operadores lógicos (AND; OR; NOT) para hacer las búsquedas
▪ OJO! Siempre en mayúsculas (and; or; not)
▪ Si no escriben nada, por default asume que se usa AND
• Operadores lógicos (AND; OR; NOT)
▪ Se pueden hacer búsquedas combinando operadores lógicos (AND; OR; NOT) y 
paréntesis, para acotar las búsquedas
▪ Ej:
Gestión de resultados
• Ordenar resultados
• Ordenar resultados: por fecha
Se pueden ordenar los artículos por 
fecha para encontrar publicaciones 
más recientes o más antiguas.
• Ordenar resultados: por cita
Se pueden ordenar los artículos 
para encontrar las publicaciones 
más citadas
• Ordenar resultados: FILTROS
• Ordenar resultados: FILTROS – Sólo resultados de 
investigaciones
• Ordenar resultados: FILTROS – Solo revisiones 
Los reviews aparecen 
siempre etiquetados 
en amarillo
Búsqueda exactas de citas
• Búsqueda por título (título completo, correctamente 
escrito, entre comillas)
• Búsqueda por ID del artículo (PMID, PMC…)
▪ PMID, acrónimo de «PubMed Identifier» o «PubMed Unique Identifier», es un número 
único asignado a cada cita de artículos que recoge PubMed.
Búsquedas avanzadas (advanced search)
• Búsqueda avanzada
• Búsqueda avanzada
Nombre de la revista
Apellido de autor/es
Búsqueda por fecha
Búsqueda por palabra 
que debe aparecer en el 
título del artículo
Búsqueda por campos 
(secciones) del artículo
Ej.: Affiliation (Lugar de 
trabajo del autor)
• Búsqueda avanzada – pueden combinar varias veces el 
mismo campo, usando operadores lógicos
Dos posibles nombres de revista
Dos posibles Apellido de autor/es
Dos posibles campos (Ej. : lugar 
de trabajo del autor y agencia 
que financió el subsidio con el 
cual se hizo dicho trabajo)
Para duplicar los 
campos, click en el +
• Búsqueda avanzada
Esta es la traducción de su “búsqueda 
avanzada” usando operadores lógicos…
La pueden COPIAR; GUARDAR y volver a usar
Section search• Búsqueda avanzada: por sección del artículo
Pueden pedir que busque si sus “palabras clave” se encuentran en 
determinada sección. Ej.: si están queriendo buscar un protocolo, 
podrían poner como filtro que la búsqueda se haga solo en la 
sección “materiales y métodos” (materials&methods)
• Búsqueda avanzada: por tipo de dato soporte al que 
tendré acceso son ese artículo, o bases de datos que se 
usaron
This article mentions 
a PDB accession 
number in the text
This article has been 
curated into ChEMBL
Búsqueda por autores y ORCIDs
• Búsqueda por autor
Ej.: quiero buscar un artículo y 
lo único que sé es que el primer 
autor es Perez Garcia M…
¡Pero hay varias opciones!
¿Cuál es el Perez García M que 
yo busco?
• Desambiguación de autores
Perez García M
Perez García M
• Identificación (ID) de investigadores - ORCIDs
Perez García M
Perez García M
• Búsqueda por ORCIDs
Los ORCIDs son únicos. 
Si buscar por ORCID 
sólo tendrán un 
resultado.
• Búsqueda por ORCIDs
Pueden mirar el perfil del 
autor (otras publicaciones, 
cantidad de citas, período
activo como investigador, 
subsidios (grants) que han 
ganado, etc).
• Búsqueda por ORCIDs – Explorar perfil de autores
• Búsqueda por ORCIDs – Explorar perfil de autores
• ORCIDs en Europe PMC
Europe PMC
Búsquedas especiales - Datos asociados
a cada artículo
Es decir… si yo estoy leyendo un artículo, qué datos 
extra puedo conseguir usando EuropePMC?
• Integración de datos en la literatura
Data in the paper
Al acceder a un artículo usando EuropePMC uno tiene acceso también a datos soporte, 
datos relacionados, bases de datos relacionadas o que curaron dichos datos etc…
• Ver términos de interés 
Highlighting terms with Europe PMC SciLite
• Ver términos de interés Data integration in the literature
• Mirar los Datos soporte o relacionados (Ej: estructura 
3D de proteínas)
https://europepmc.org/article/MED/31619095
Data
• Mirar los Datos soporte o relacionados (Ej.: protocolos)
https://europepmc.org/article/MED/31923209
• Número de citas que tiene un artículo y su impacto
http://europepmc.org/article/MED/18509338
Citation & impact
Búsquedas especiales – Información de 
Financiación (subsidios)
• Filtrar publicaciones por Información de Financiación
▪ Usar la búsqueda avanzada para encontrar artículos asociados por financiación 
específica o subsidios con los que se financió (es una forma de saber tb qué 
fuente de financiación tienen los investigadores que publicaron dicho artículo)
• Filtrar publicaciones por Información de Financiación
▪ Usar la búsqueda avanzada para encontrar artículos asociados por financiación
específica o subsidios con los que se financió (es una forma de saber también
qué fuente de financiación tienen los investigadores que publicaron dicho
artículo)
Estos son todos los artículos que se financiaron 
usando el subsidio (GRANT) 260746, otorgado 
por el “European Research Council”
• Filtrar publicaciones por Información de Financiación
• Filtrar subsidios o 
entidades que financian 
(o financiaron) 
determinados temas…
Gestión de búsquedas
• Exportar todos los resultados de la búsqueda
Export
Export• Exportar todos los resultados de la búsqueda
• Alertas
• RSS
▪ RSS son las siglas de Really Simple Syndication, un formato XML para distribuir contenido en la web. Se utiliza
para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos.

Continuar navegando

Materiales relacionados