Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Clase I – Bases de datos bibliográficas Clase II – Genbank Clase III – Navegador de Ensembl Genome Clase IV – Uniprot y PDB Taller de Manejo de Software y Base de Datos (2228) Licenciatura en Biotecnología UNM – Noviembre 2020 Manejo dentro de la plataforma de la universidad Manejo dentro de la plataforma de la universidad ! Manejo dentro de la plataforma de la universidad CLASE 1 Bases de datos bibliográficas Licenciatura en Biotecnología UNM – Agosto 2020 Taller de Manejo de Software y Base de Datos (2228) • El ciclo de los datos ¿Cómo se organizan los datos e información biológica? Bases de datos Uno de los principales desafíos de la Bioinformática es ordenar los datos públicos, de modo que se facilite su disponibilidad, consulta y acceso…. INCLUSO PARA NO BIOINFORMÁTICOS!! • Solución: Base de Datos (un conjunto de datos relacionados y almacenados para un propósito particular con una estructura lógica). Bases de datos – Organización del conocimiento (Ej: bibliografia, secuencias, estructuras, datos funcionales). Bases de datos biológicas Las bases de datos más relevantes en biología incluyen datos de secuencias de nucleótidos, proteínas, estructura de proteínas, genomas, expresión genética, bibliografía, taxonomía, metabolismo, factores de transcripción, etc. Las primeras bases de datos biológicas… ▪ Hoy es lógico asociar las bases de datos con internet… que tuvo sus inicios en 1969 con ARPANET. ▪ Pero las primeras bases de datos biológicas datan de 1965!!!! ▪ Ej: Atlas of protein Sequence and Structure (1965), es la primer base de datos de proteínas. Contaba con 65 secuencias!! Trabajo de Dayhoff et. al. ▪ En 1971 se crea el “Protein Data Bank”, con 7 estructuras de proteínas (obtenidas por cristalografía de rayos X). ▪ En 1982 el GeneBank (US) comienza a almacenar secuencias de ADN (606 secuencias). Genbank and EMBL: NucleotideSequences 1986/1987 Volumes I to VII. CDRomof Genbankv100 Proyectos internacionales – Bases de datos ▪ Conforme las bases de datos iban creciendo, el perfil de gestor de las mismas se fue profesionalizando, pasando a ser cada vez más computacional. ▪ A partir de ese momento surgieron proyectos internacionales que se hicieron cargo de estas bases de datos, dos de estas iniciativas son: ▪ European Bioinformatics Institute (EBI). El EBI forma parte del EMBL (European Molecular Biology Laboratory) y se construy ́o en el año 1992 en el campus Wellcome Trust Genome en Hinxton (Inglaterra) para dar soporte a la gran cantidad de datos que se estaban generando con los proyectos de secuenciación del Instituto Sanger. ▪ National Centre for Biotechnology Information (NCBI). El NCBI es parte de la Biblioteca Nacional de Medicina de los Estados Unidos (NLM) que es a su vez parte del Instituto Nacional de Salud (NIH). El NCBI está en Maryland y se fundó en 1988 para desarrollar sistemas de información en el campo de la biología molecular. • Miembros de EMBL Austria, Bélgica, Croacia, Checo República, Dinamarca, Finlandia, Francia, Alemania, Grecia, Hungría, Islandia, Irlanda, Israel, Italia, Luxemburgo, Malta, Montenegro, los Países Bajos, Noruega, Portugal, Eslovaquia, España, Suecia, Suiza y el Reino Unido. • Miembros asociados: Argentina, Australia. • Miembros potenciales: Lituania, Polonia. Las bases de datos están relacionadas Figura 1.7: Referencias cruzadas: a partir de la entrada correspondiente a una secuencia de UniProt se llega a la estructura resuelta por rayos X (PDB) y de ahí a la publicación donde se describe la estructura (PubMed). ▪ Todos los años, Nucleic Acid Research (NAR) publica una edición con las nuevas bases de datos biológicas disponibles y sus actualizaciones. ▪ Hay 1637 bases de datos (NAR 2020) – en crecimiento. Revisión de bases de datos ▪ El número publicado en 2020 es el volumen 48, e incluye 59 nuevas bases de datos y, actualización de otras 79 pre- existentes. ▪ En la actualidad NARS a revisado, actualizado 305 entradas, añadido 65 nuevas bases y eliminado 125 URLs discontinuos. Primer tipo de base de datos que veremos: Bibliográfica ▪ Hay varios tipos de bases de datos de bibliografía. ▪ Podemos encontrar papers, capítulos de libros, libros completos, patentes, etc. ▪ Cosas a saber de las publicaciones científicas: 1. Respecto a los costos: Independientemente del tipo de publicación, el título y abstract (resumen) son libres, pero… ✓ Hay publicaciones que son de tipo “open access”, es decir que son completamente libres, gratuitas para el lector. Normalmente en estos casos el costo lo cubre quien pública. ✓ Para otras es necesario pagar una suscripción a la revista o bien pagar para descargar el artículo completo (en USD). En estas, el costo para quien publica suele ser nulo. Primer tipo de base de datos que veremos: Bibliográfica 2. Respecto de la validez científica: ✓ Los artículos por lo general deben ser novedosos, y deben estar acompañados por una buena descripción de la metodología usada, resultados y discusión. ✓ Generalmente las revistas científicas de prestigio y/o reconocidas son revisadas por pares (arbitraje) dentro de la comunidad científica, en un intento de asegurar un máximo de estándares de calidad, así como validez científica. Contras: se puede demorar mucho tiempo en publicar; conflictos de interés por parte del revisor? Costos… ✓ Aunque ahora está aumentando el número de pre-prints (publicaciones hechas sin revisión de pares) - Rápida publicación (horas), puede luego ser publicado en una revista con revisión de pares, costo cero, puede ser citado. Contras: en muchos casos la academia no lo considera como publicación, hay revistas que no aceptan publicaciones previas en pre-prints, temor a que te “roben los datos”. Primer tipo de base de datos que veremos: Bibliográfica 2. a. Respecto de los pre-prints… ✓ En el último tiempo, debido a la pandemia COVID-19, ha aumentado en forma exponencial la cantidad de artículos científicos relacionados con esta enfermedad y el virus SARS-COV2. ✓ Muchos son pre-prints… ✓ Recomendación: Mucho cuidado con lo que dicen estos artículos, publicados en forma tan rápida y son revisión de pares… Fuente: https://asapbio.org/state-of-preprinting-2020-04 Primer tipo de base de datos que veremos: Bibliográfica 3. Respecto del “impacto”: ✓ Actualmente existen diversas herramientas de evaluación del impacto de revistas científicas como la Web of Science (WOS) de Clarivate Analytics, Scopus de Elsevier, Google Scholar Metrics (GSM), scimagojr. ✓ Los impactos de las revistas suelen dividirse en cuartiles. Ej: CONICET puntúa mejor a publicaciones hechas en revistas del primer cuartil (Q1) > Q2 > Q3. Primer tipo de base de datos que veremos: Bibliográfica ▪ Las bases de bibliografias más usadas son: ✓ PubMED (https://www.ncbi.nlm.nih.gov › pubmed) - pertenece a NCBI. ✓ EuropePMC (https://europepmc.org) - pertenece a EMBL-EBI. ✓ Google Scholar: más que como BD, como buscador de publicaciones y relacionados (http://scholar.google.com). ✓ Sci-hub (…) https://www.ncbi.nlm.nih.gov/ https://europepmc.org/ http://scholar.google.com/ Primer tipo de base de datos que veremos: Bibliográfica ▪ ¿Qué pasa con Google Scholar (http://scholar.google.com)? ✓ Los algoritmos que usa Google Scholar para “decidir” que artículos incluir en su base de datos bibliográficos no son tan específicos y, puede llevar a error. ✓ Ejemplo: http://scholar.google.com/ Aprovechando al máximo la búsqueda de bibliografía ▪ EuropePMC es socio de PubMed Central International. ▪ Fue construido y desarrollado en colaboración con PMC USA y PMC Canadá. ▪ Todos los nodos comparten contenido (~ 4.2 millones de artículos). ▪ EuropePMC difiere en la gama de contenido que proporciona y servicios en capas en la parte superior • ¿Qué buscamos en Europe PMC? • Contenido en EuropePMC 29M Peer reviewed publications PudMed, Agrícola 158K PreprintsbioRxiv’ ChemRxiv’ Prepints.org,etc. 4,2M Patents EPO 1,296 Clinical guidelines Abstracts 37M Full text 6.2M http://europepmc.org/ http://europepmc.org/ • Búsqueda única de todo el contenido ▪ Cada búsqueda de “palabras claves” consulta el texto completo así como los resúmenes. Encontrar trabajos de investigación sobre un tema específico http://europepmc.org • Ejemplo: p53 mutation DNA damage • MeSH y sinónimos ▪ Europe PMC expande automáticamente su búsqueda utilizando sinónimos MeSH. ✓ Medical Subject Headings (MeSH) es un vocabulario controlado y jerárquicamente organizado producido por la Biblioteca Nacional de Medicina. Se utiliza para indexar, catalogar y buscar información biomédica y relacionada con la salud. ▪ Ej.: p53 se traduce en: ✓ p53 = oncoproteína p53, proteína TRP53, proteína supresora de tumores p53, pp53 fosfoproteína... ✓ ¿Cómo agregar estos sinónimos, usando MeSH? • MeSH y sinónimos ▪ Active la opción de sinónimos en el filtro de “búsqueda avanzada” (Advanced Search): • Búsqueda exacta ▪ La búsqueda de p53 mutation encuentra mutations, mutational y resultados como... mutation... p53. ▪ Para obtener una coincidencia exacta, utilice comillas dobles: “p53 mutation”. • Búsqueda exacta ▪ Para obtener una coincidencia exacta, utilice comillas dobles: “p53 mutation”. • Operadores lógicos (AND; OR; NOT) ▪ Pueden usar operadores lógicos (AND; OR; NOT) para hacer las búsquedas ▪ OJO! Siempre en mayúsculas (and; or; not) ▪ Si no escriben nada, por default asume que se usa AND • Operadores lógicos (AND; OR; NOT) ▪ Se pueden hacer búsquedas combinando operadores lógicos (AND; OR; NOT) y paréntesis, para acotar las búsquedas ▪ Ej: Gestión de resultados • Ordenar resultados • Ordenar resultados: por fecha Se pueden ordenar los artículos por fecha para encontrar publicaciones más recientes o más antiguas. • Ordenar resultados: por cita Se pueden ordenar los artículos para encontrar las publicaciones más citadas • Ordenar resultados: FILTROS • Ordenar resultados: FILTROS – Sólo resultados de investigaciones • Ordenar resultados: FILTROS – Solo revisiones Los reviews aparecen siempre etiquetados en amarillo Búsqueda exactas de citas • Búsqueda por título (título completo, correctamente escrito, entre comillas) • Búsqueda por ID del artículo (PMID, PMC…) ▪ PMID, acrónimo de «PubMed Identifier» o «PubMed Unique Identifier», es un número único asignado a cada cita de artículos que recoge PubMed. Búsquedas avanzadas (advanced search) • Búsqueda avanzada • Búsqueda avanzada Nombre de la revista Apellido de autor/es Búsqueda por fecha Búsqueda por palabra que debe aparecer en el título del artículo Búsqueda por campos (secciones) del artículo Ej.: Affiliation (Lugar de trabajo del autor) • Búsqueda avanzada – pueden combinar varias veces el mismo campo, usando operadores lógicos Dos posibles nombres de revista Dos posibles Apellido de autor/es Dos posibles campos (Ej. : lugar de trabajo del autor y agencia que financió el subsidio con el cual se hizo dicho trabajo) Para duplicar los campos, click en el + • Búsqueda avanzada Esta es la traducción de su “búsqueda avanzada” usando operadores lógicos… La pueden COPIAR; GUARDAR y volver a usar Section search• Búsqueda avanzada: por sección del artículo Pueden pedir que busque si sus “palabras clave” se encuentran en determinada sección. Ej.: si están queriendo buscar un protocolo, podrían poner como filtro que la búsqueda se haga solo en la sección “materiales y métodos” (materials&methods) • Búsqueda avanzada: por tipo de dato soporte al que tendré acceso son ese artículo, o bases de datos que se usaron This article mentions a PDB accession number in the text This article has been curated into ChEMBL Búsqueda por autores y ORCIDs • Búsqueda por autor Ej.: quiero buscar un artículo y lo único que sé es que el primer autor es Perez Garcia M… ¡Pero hay varias opciones! ¿Cuál es el Perez García M que yo busco? • Desambiguación de autores Perez García M Perez García M • Identificación (ID) de investigadores - ORCIDs Perez García M Perez García M • Búsqueda por ORCIDs Los ORCIDs son únicos. Si buscar por ORCID sólo tendrán un resultado. • Búsqueda por ORCIDs Pueden mirar el perfil del autor (otras publicaciones, cantidad de citas, período activo como investigador, subsidios (grants) que han ganado, etc). • Búsqueda por ORCIDs – Explorar perfil de autores • Búsqueda por ORCIDs – Explorar perfil de autores • ORCIDs en Europe PMC Europe PMC Búsquedas especiales - Datos asociados a cada artículo Es decir… si yo estoy leyendo un artículo, qué datos extra puedo conseguir usando EuropePMC? • Integración de datos en la literatura Data in the paper Al acceder a un artículo usando EuropePMC uno tiene acceso también a datos soporte, datos relacionados, bases de datos relacionadas o que curaron dichos datos etc… • Ver términos de interés Highlighting terms with Europe PMC SciLite • Ver términos de interés Data integration in the literature • Mirar los Datos soporte o relacionados (Ej: estructura 3D de proteínas) https://europepmc.org/article/MED/31619095 Data • Mirar los Datos soporte o relacionados (Ej.: protocolos) https://europepmc.org/article/MED/31923209 • Número de citas que tiene un artículo y su impacto http://europepmc.org/article/MED/18509338 Citation & impact Búsquedas especiales – Información de Financiación (subsidios) • Filtrar publicaciones por Información de Financiación ▪ Usar la búsqueda avanzada para encontrar artículos asociados por financiación específica o subsidios con los que se financió (es una forma de saber tb qué fuente de financiación tienen los investigadores que publicaron dicho artículo) • Filtrar publicaciones por Información de Financiación ▪ Usar la búsqueda avanzada para encontrar artículos asociados por financiación específica o subsidios con los que se financió (es una forma de saber también qué fuente de financiación tienen los investigadores que publicaron dicho artículo) Estos son todos los artículos que se financiaron usando el subsidio (GRANT) 260746, otorgado por el “European Research Council” • Filtrar publicaciones por Información de Financiación • Filtrar subsidios o entidades que financian (o financiaron) determinados temas… Gestión de búsquedas • Exportar todos los resultados de la búsqueda Export Export• Exportar todos los resultados de la búsqueda • Alertas • RSS ▪ RSS son las siglas de Really Simple Syndication, un formato XML para distribuir contenido en la web. Se utiliza para difundir información actualizada frecuentemente a usuarios que se han suscrito a la fuente de contenidos.
Compartir