Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Reporte 05 Nombre: Téllez González Jorge Luis Fecha: 02 de mayo de 2023 Referencia bibliográfica APA Wang, L. L. et al. (2020, abril). CORD-19: The COVID-19 Open Research Dataset. Pubmed – ArXiv: 2004.10706v4. https://pubmed.ncbi.nlm.nih.gov/32510522/ IEEE Lucy L. W. et al, " CORD-19: The COVID-19 Open Research ", Pubmed – ArXiv: 2004.10706v4, abril de 2020. Accedido el 02 de mayo de 2023. [En línea]. Disponible: https://doi.org/10.1016/j.dsx.2020.06.063 Autor (es) Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang, Darrin Eide, Kathryn Funk, Rodney Kinney, Ziyang Liu, William Merrill, Paul Mooney, Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex D. Wade, Kuansan Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld, Oren Etzioni y Sebastian Kohlmeier. Título CORD-19: The COVID-19 Open Research Dataset Año 2020 Tipo de publicación Artículo de divulgación Nombre de la revista, conferencia, Editorial u otro PubMed Número de páginas 12 Problema abordado El artículo aborda el dataset denominado CORD-19, el cual se trata de una iniciativa pública para facilitar el desarrollo de minería de textos y recuperación de información relacionada a los estudios científicos sobre el COVID-19, desarrollada por el Allen Institute for AI y The White House Office of Science and Technology Policy (OSTP), National Library of Medicine (NLM), Chan Zuckerburg Initiative (CZI), Microsoft Research y Kaggle, coordinados con el Georgetown University’s Center for Security and Emerging Technology (CSET). Objetivo El objetivo del artículo se trata de describir las mecánicas utilizadas para construir el conjunto de datos, decisiones clave en su diseño y retos durante su construcción. Así mismo, busca mostrar una vista previa de cómo ha sido utilizado CORD-19 y las herramientas de minería que se han desarrollado sobre el mismo. Justificación CORD-19 fue desarrollado con el objetivo de conectar a la comunidad del Aprendizaje de Máquinas con los expertos de la biomedicina y políticos para el desarrollo de tratamientos efectivos y políticas de gestión relacionadas al COVID-19. Por medio de la minería de datos y el procesamiento de lenguaje natural, se busca poder acceder a información relevante y de utilidad de manera eficaz y rápida a lo largo de todo el acervo de artículos registrados en el conjunto de datos. Marco teórico CORD-19 integra papers de diversas fuentes con sus respectivos metadatos. Cada paper se define como una unidad básica de conocimiento publicado asociado con un conjunto de metadatos bibliográficos como autores, datos de publicación e identificadores únicos (DOIs, PubMed ID...). Los autores definieron los siguientes conceptos relacionados a los metadatos: • Metadatos armonizados: se refiere a metadatos con un formato consistente a lo largo de todos los papers, lo que se lleva a cabo combinando metadatos de distintas fuentes. • Metadatos deduplicados: metadatos sin entradas duplicadas tras un proceso de limpieza. • Clúster: se refiere a una agrupación de papers que se consideran como pertenecientes a una misma categoría por compartir un identificador único (CORD_UID) relacionado a la revista u organización de publicación. • Metadatos canónicos: se refiere a aquellos metadatos considerados confiables y completos en cada clúster que están asociados con archivos de documentos que tienen las licencias de reproducción más permisivas. Método utilizado Para llevar a cabo una limpieza inicial de los papers recuperados y comenzar la construcción del dataset (73k registros con sus metadatos) se usan 2 técnicas: • Clusterización de papers duplicados empleando identificadores. • Selección de metadatos canónicos por cada clúster. • Filtrado de clústers para eliminar elementos que no sean papers. Los autores muestran, adicionalmente, el proceso de extracción de texto y bibliografía asociada a los papers usando un pipeline empleado en el dataset S2ORC que consiste en: • Analizar todos los archivos PDF a archivos XML TEI utilizando GROBID15 • Analizar todos los archivos XML TEI al formato JSON deseado. • Procesar posteriormente para limpiar los enlaces entre las citas en línea y las entradas de bibliografía. Fuentes de investigación utilizada Artículos de investigación de diversas fuentes: World Health Organization, PubMed Central, Elsevier, Springer Nature, bioRxiv y medRxiv. Herramientas utilizadas Semantic Scholar, GROBID Resultados alcanzados Por medio de la creación de CORD-19 se obtuvo un dataset que cumpliese con los siguientes requerimientos: • Estar actualizado de forma flexible y rápida para su recuperación, acorde al volumen de investigación creciente sobre el COVID-19. • Capaz de manejar datos de múltiples fuentes y organizaciones, armonizando cada uno de los metadatos contenidos en el mismo. • Limpieza de metadatos canónicos para reducir al mínimo posible la posibilidad de duplicados; aunque no sea posible eliminar el problema por completo. • Contar con una estructura de datos tratable computacionalmente por medio de archivos con formato JSON. • Considerar los derechos de copyright asociados a los papers almacenados en el dataset. Gracias al trabajo realizado, se han llevado a cabo múltiples trabajos sobre CORD- 19: • Recuperación de información con BM25, Neural Covidex, Covid-Scholar y KDCovid usando consultas. • Extracción de información usando ScispaCy, BioBERT-base o SciBERT-bas. • Grafos de conocimiento con herramientas de visualización como Coviz o SeVeN. • Tareas variadas como respuestas a preguntas con Covidask, AUEB y BioASQ. Aspectos de interés El uso de datasets públicos demuestra la gran importancia que tiene la democratización de los datos y el libre acceso a ellos. Si las licencias de publicación de estos trabajos de investigación fuesen demasiado restrictivas, estas iniciativas no podrían llevarse a cabo. De este modo, se tiene una forma de generar un cúmulo de conocimiento de manera relativamente rápida y comenzar a trabajar con el mismo. Resulta muy interesante para mi notar el gran poder que tiene la minería de datos en la investigación y el análisis clínico. Incluso, tal es la importancia que tiene que incluso es posible pensar que en un futuro próximo exista una especialización médica específica a la formación en el uso de la minería de datos para la investigación en áreas de la salud. El COVID-19 trajo cambios sustanciales al mundo, y es posible que estemos presenciando un cambio radical en la manera en que se lleva a cabo la investigación y la labor de la medicina en la nueva era de los datos.
Compartir