Logo Studenta

TALLER_BD - Clase1

¡Este material tiene más páginas!

Vista previa del material en texto

Taller de bases de datos 
biomédicas, servidores web y 
otros recursos online 
Bases de datos bibliográficas 
 
UNM – Febrero 2020 
• El ciclo de los datos 
¿Cómo se organizan los datos e información biológica? 
Bases de datos 
Uno de los principales desafíos de la Bioinformática es ordenar los datos públicos, de modo que se 
facilite su disponibilidad, consulta y acceso…. INCLUSO PARA NO BIOINFORMÁTICOS!! 
 
• Solución: Base de Datos (un conjunto de datos relacionados y almacenados para un propósito 
particular con una estructura lógica). 
Bases de datos – Organización del 
conocimiento (Ej: bibliografia, secuencias, 
estructuras, datos funcionales). 
Bases de datos biológicas 
Las bases de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, 
proteínas, estructura de proteínas, genomas, expresión genética, bibliografía, taxonomía, 
metabolismo, factores de transcripción, etc. 
Las primeras bases de datos biológicas… 
 Hoy es lógico asociar las bases de datos con internet… que tuvo sus inicios en 1969 con ARPANET. 
 Pero las primeras bases de datos biológicas datan de 1965!!!! 
 Ej: Atlas of protein Sequence and Structure (1965), es la primer base de datos de proteínas. Contaba con 
65 secuencias!! Trabajo de Dayhoff et. al. 
 En 1971 se crea el “Protein Data Bank”, con 7 estructuras de proteínas (obtenidas por cristalografía de 
rayos X). 
 En 1982 el GeneBank (US) comienza a almacenar secuencias de ADN (606 secuencias). 
Genbank and EMBL: 
NucleotideSequences 1986/1987 
Volumes I to VII. 
CDRomof Genbankv100 
Proyectos internacionales – Bases de datos 
 Conforme las bases de datos iban creciendo, el perfil de gestor de las mismas se fue profesionalizando, 
pasando a ser cada vez más computacional. 
 
 A partir de ese momento surgieron proyectos internacionales que se hicieron cargo de estas bases de 
datos, dos de estas iniciativas son: 
 European Bioinformatics Institute (EBI). El EBI forma parte del EMBL 
(European Molecular Biology Laboratory) y se construy ́o en el año 1992 en el 
campus Wellcome Trust Genome en Hinxton (Inglaterra) para dar soporte a la 
gran cantidad de datos que se estaban generando con los proyectos de 
secuenciación del Instituto Sanger. 
 
 National Centre for Biotechnology Information (NCBI). El NCBI es parte 
de la Biblioteca Nacional de Medicina de los Estados Unidos (NLM) que es a 
su vez parte del Instituto Nacional de Salud (NIH). El NCBI está en Maryland 
y se fundó en 1988 para desarrollar sistemas de información en el campo de la 
biología molecular. 
• Miembros de EMBL 
 
Austria, Bélgica, Croacia, Checo 
República, Dinamarca, Finlandia, 
Francia, Alemania, Grecia, Hungría, 
Islandia, Irlanda, Israel, Italia, 
Luxemburgo, Malta, Montenegro, los 
Países Bajos, Noruega, Portugal, 
Eslovaquia, España, Suecia, Suiza y el 
Reino Unido. 
• Miembros asociados: Argentina, 
Australia. 
 
• Miembros potenciales: Lituania, 
Polonia. 
Las bases de datos están relacionadas 
Figura 1.7: Referencias cruzadas: a partir de 
la entrada correspondiente a una secuencia 
de UniProt se llega a la estructura resuelta 
por rayos X (PDB) y de ahí a la publicación 
donde se describe la estructura (PubMed). 
 Todos los años, Nucleic Acid Research (NAR) publica una edición con las nuevas bases de 
datos biológicas disponibles y sus actualizaciones. 
 Hay 1637 bases de datos (NAR 2020) – en crecimiento. 
Revisión de bases de datos 
 El número publicado en 2020 es 
el volumen 48, e incluye 59 
nuevas bases de datos y, 
actualización de otras 79 pre-
existentes. 
 
 En la actualidad NARS a 
revisado, actualizado 305 
entradas, añadido 65 nuevas bases 
y eliminado 125 URLs 
discontinuos. 
Primer tipo de base de datos que veremos: 
Bibliográfica 
 Hay varios tipos de bases de datos de bibliografía. 
 Podemos encontrar papers, capítulos de libros, libros completos, patentes, etc. 
 Cosas a saber de las publicaciones científicas: 
 
1. Respecto a los costos: Independientemente del tipo de publicación, el título y 
abstract (resumen) son libres, pero… 
 Hay publicaciones que son de tipo “open access”, es decir que son 
completamente libres, gratuitas para el lector. Normalmente en estos casos el 
costo lo cubre quien pública. 
 
 Para otras es necesario pagar una suscripción a la revista o bien pagar para 
descargar el artículo completo (en USD). En estas, el costo para quien publica 
suele ser nulo. 
Primer tipo de base de datos que veremos: 
Bibliográfica 
2. Respecto de la validez científica: 
 Los artículos por lo general deben ser novedosos, y deben estar acompañados 
por una buena descripción de la metodología usada, resultados y discusión. 
 
 Generalmente las revistas científicas de prestigio y/o reconocidas son revisadas 
por pares (arbitraje) dentro de la comunidad científica, en un intento de asegurar 
un máximo de estándares de calidad, así como validez científica. Contras: se 
puede demorar mucho tiempo en publicar; conflictos de interés por parte del 
revisor? Costos… 
 
 Aunque ahora está aumentando el número de pre-prints (publicaciones hechas 
sin revisión de pares) - Rápida publicación (horas), puede luego ser publicado en 
una revista con revisión de pares, costo cero, puede ser citado. Contras: en 
muchos casos la academia no lo considera como publicación, hay revistas que 
no aceptan publicaciones previas en pre-prints, temor a que te “roben los 
datos”. 
Primer tipo de base de datos que veremos: 
Bibliográfica 
3. Respecto del “impacto”: 
 Actualmente existen diversas herramientas de evaluación del impacto de revistas 
científicas como la Web of Science (WOS) de Clarivate Analytics, Scopus de 
Elsevier, Google Scholar Metrics (GSM), scimagojr. 
 
 Los impactos de las revistas suelen dividirse en cuartiles. Ej: CONICET puntúa 
mejor a publicaciones hechas en revistas del primer cuartil (Q1) > Q2 > Q3. 
Primer tipo de base de datos que veremos: 
Bibliográfica 
 Las bases de bibliografias más usadas son: 
 
 PubMED (https://www.ncbi.nlm.nih.gov › pubmed) - pertenece a NCBI. 
 EuropePMC (https://europepmc.org) - pertenece a EMBL-EBI. 
 Google Scholar: más que como BD, como buscador de publicaciones y relacionados 
(http://scholar.google.com). 
 
 
 Sci-hub (…) 
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://www.ncbi.nlm.nih.gov/
https://europepmc.org/
https://europepmc.org/
https://europepmc.org/
https://europepmc.org/
https://europepmc.org/
http://scholar.google.com/
http://scholar.google.com/
http://scholar.google.com/
http://scholar.google.com/
http://scholar.google.com/
http://scholar.google.com/
http://scholar.google.com/
Aprovechando al máximo la búsqueda de 
bibliografía 
• Contenidos 
 ¿Qué buscamos en Europa PMC? 
 Encontrar trabajos de investigación sobre un tema específico. 
 Gestión de resultados: clasificación, filtrado. 
 Búsqueda exactas de citas. 
 Búsqueda por autores y ORCIDs. 
 Búsquedas especiales: datos asociados, información de financiación. 
 Búsqueda Avanzada. 
 Gestión de búsquedas: exportar, cuentas, RSS. 
¿Qué buscamos en Europa PMC? 
• ¿Qué buscamos en Europa PMC? 
 Europe PMC es un repositorio digital global y gratuito de productos biomédicos, y 
literatura de ciencias de la vida. 
 Cuenta con el apoyo de 27 patrocinadores de investigación como el designado repositorio 
para sus mandatos de publicación de acceso abierto: 
 
 
 
 
 
 
 Europa PMC está alojada en EMBL-EBI. 
 Europe PMC es socio de PubMed Central International. 
 Fue construido y desarrollado en colaboración con PMC USA y PMC Canadá. 
 
 
 
 
 
 Todos los nodos comparten contenidode texto completo (~ 4.2 millones de artículos). 
 Europa PMC difiere en la gama de contenido que proporciona y servicios en capas en la 
parte superior 
• ¿Qué buscamos en Europa PMC? 
• Contenido en Europa PMC 
 Más de 32 millones de resúmenes de diversas fuentes: 
 PubMed / MEDLINE 
 Agricola 
 Resúmenes biológicos chinos 
 Texto completo gratuito para 4.2 millones de publicaciones. 
 Subconjunto de acceso abierto con 1,6 millones de publicaciones. 
 Patentes biológicas de la Oficina Europea de Patentes, tesis doctorales, pautas 
clínicas del NHS, etc. 
 Pre-Prints. 
 Financiamiento de los fundadores de Europe PMC. 
http://europepmc.org/Help#whatserachingEPMC 
http://europepmc.org/Help#whatserachingEPMC
http://europepmc.org/Help#whatserachingEPMC
• Búsqueda única de todo el contenido 
 Cada búsqueda de “palabras claves” consulta el texto completo así como los resúmenes. 
Encontrar trabajos de investigación sobre 
un tema específico 
• Ejemplo: p53 mutation DNA damage 
• MeSH y sinónimos 
 Europe PMC expande automáticamente su búsqueda utilizando sinónimos MeSH. 
 El tesauro Medical Subject Headings (MeSH) es un vocabulario controlado y jerárquicamente organizado 
producido por la Biblioteca Nacional de Medicina. Se utiliza para indexar, catalogar y buscar información 
biomédica y relacionada con la salud. 
 
 Ej.: p53 se traduce en: 
 p53 = oncoproteína p53, proteína TRP53, proteína supresora de tumores p53, pp53 
fosfoproteína... 
 
 Active y desactive la opción de sinónimos en el filtro de búsqueda avanzada: 
• Búsqueda exacta 
 La búsqueda de p53 mutation encuentra mutations, mutational y resultados como... 
mutation... p53. 
 
 
 
 
 
 
 
 
 Para obtener una coincidencia exacta, utilice comillas dobles: “p53 mutation”. 
Gestión de resultados 
• Clasificación de resultados 
• Clasificación de resultados 
• Relevancia 
 Para clasificar los artículos por relevancia, se asigna una puntuación a un documento 
según la frecuencia con la que se encuentra el término de búsqueda. 
 La puntuación por relevancia cuenta los términos raros. 
 Los documentos más nuevos aparecen más arriba en el orden de relevancia. 
• Fecha 
 Se pueden ordenar los artículos por fecha para encontrar publicaciones más recientes o 
más antiguas. 
• Citas 
 Se pueden ordenar los artículos para encontrar las publicaciones más citadas. 
• Filtros 
• Filtros 
• Filtros 
Búsqueda exactas de citas 
• Búsqueda por título 
P53 pathway determines the 
cellular response to alcohol-
induced DNA damage 
• Búsqueda por título 
• Búsqueda por PMID 
 PMID, acrónimo de «PubMed Identifier» o «PubMed Unique Identifier», es un número único asignado a cada cita 
de un artículo de revistas biomédicas y de ciencias de la vida que recoge PubMed. 
Búsqueda por autores y ORCIDs 
• Búsqueda por autor 
• Búsqueda por autor 
• Desambiguación de autores 
• Identificación (iD) de investigadores - ORCIDs 
• ORCIDs en Europe PMC 
Más de 4000000 publicaciones en 
ciencias de la vida se encuentran 
asociadas a un registro de ORCID en 
Europe PMC. 
Hay más de 450000 investigadores en 
ciencias de la vida que publican usando 
un la identificación de ORCID. 
• Búsqueda por ORCID 
 Al usar el campo de autor, la sugerencia automática mostrará un ORCID, si está 
disponible: 
• Búsqueda por ORCID 
• Perfil del Autor 
• Perfil del Autor 
Búsquedas especiales - Datos asociados 
• Integración de datos en la literatura 
• Integración de datos en la literatura 
• Integración de datos en la literatura 
• Integración de datos en la literatura 
Búsquedas especiales – Información de 
Financiación 
• Filtrar publicaciones por Información de Financiación 
 Usar la búsqueda avanzada para encontrar artículos asociados por financiación 
específica o subvenciones individuales 
• Filtrar publicaciones por Información de Financiación 
 Usar la búsqueda avanzada para encontrar artículos asociados por financiación 
específica o subvenciones individuales 
Búsqueda Avanzada 
• Operador/Expresión Booleana (Boolean operators) 
 Combinar palabras claves con operadores AND, OR y NOT utilizando la 
Búsqueda Avanzada. 
• Búsqueda por Revista (Journal) 
• Filtros de búsqueda 
Gestión de búsquedas 
• Exportar 
• Exportar 
• Exportar 
• Salvar búsquedas 
• Salvar búsquedas 
• Cuenta de Europe PMC 
• Salvar búsquedas 
• Salvar búsquedas 
• Salvar búsquedas 
• Salvar búsquedas 
• Alertas 
• RSS 
 RSS son las siglas de Really Simple Syndication, un formato XML para distribuir contenido en la web. Se utiliza 
para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos.

Continuar navegando