Logo Studenta

TGJL-Lectura5

¡Estudia con miles de materiales!

Vista previa del material en texto

Reporte 05 
 
Nombre: Téllez González Jorge Luis 
Fecha: 02 de mayo de 2023 
 
 
Referencia 
bibliográfica 
APA 
Wang, L. L. et al. (2020, abril). CORD-19: The COVID-19 Open Research Dataset. 
Pubmed – ArXiv: 2004.10706v4. 
https://pubmed.ncbi.nlm.nih.gov/32510522/ 
 
IEEE 
Lucy L. W. et al, " CORD-19: The COVID-19 Open Research ", Pubmed – ArXiv: 
2004.10706v4, abril de 2020. 
Accedido el 02 de mayo de 2023. [En línea]. Disponible: 
https://doi.org/10.1016/j.dsx.2020.06.063 
 
Autor (es) 
 
Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang, 
Darrin Eide, Kathryn Funk, Rodney Kinney, Ziyang Liu, William Merrill, Paul Mooney, 
Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex 
D. Wade, Kuansan Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld, 
Oren Etzioni y Sebastian Kohlmeier. 
 
Título 
 
CORD-19: The COVID-19 Open Research Dataset 
 
Año 
 
2020 
 
Tipo de 
publicación 
 
Artículo de divulgación 
 
Nombre de la 
revista, 
conferencia, 
Editorial u otro 
 
 
PubMed 
 
 
Número de 
páginas 
 
12 
 
Problema 
abordado 
El artículo aborda el dataset denominado CORD-19, el cual se trata de una iniciativa 
pública para facilitar el desarrollo de minería de textos y recuperación de 
información relacionada a los estudios científicos sobre el COVID-19, desarrollada 
por el Allen Institute for AI y The White House Office of Science and Technology Policy 
(OSTP), National Library of Medicine (NLM), Chan Zuckerburg Initiative (CZI), 
 
 
 
Microsoft Research y Kaggle, coordinados con el Georgetown University’s Center for 
Security and Emerging Technology (CSET). 
Objetivo 
El objetivo del artículo se trata de describir las mecánicas utilizadas para construir el 
conjunto de datos, decisiones clave en su diseño y retos durante su construcción. Así 
mismo, busca mostrar una vista previa de cómo ha sido utilizado CORD-19 y las 
herramientas de minería que se han desarrollado sobre el mismo. 
 
Justificación 
CORD-19 fue desarrollado con el objetivo de conectar a la comunidad del 
Aprendizaje de Máquinas con los expertos de la biomedicina y políticos para el 
desarrollo de tratamientos efectivos y políticas de gestión relacionadas al COVID-19. 
Por medio de la minería de datos y el procesamiento de lenguaje natural, se busca 
poder acceder a información relevante y de utilidad de manera eficaz y rápida a lo 
largo de todo el acervo de artículos registrados en el conjunto de datos. 
Marco teórico 
 
CORD-19 integra papers de diversas fuentes con sus respectivos metadatos. Cada 
paper se define como una unidad básica de conocimiento publicado asociado con un 
conjunto de metadatos bibliográficos como autores, datos de publicación e 
identificadores únicos (DOIs, PubMed ID...). 
 
Los autores definieron los siguientes conceptos relacionados a los metadatos: 
 
• Metadatos armonizados: se refiere a metadatos con un formato consistente 
a lo largo de todos los papers, lo que se lleva a cabo combinando metadatos 
de distintas fuentes. 
• Metadatos deduplicados: metadatos sin entradas duplicadas tras un 
proceso de limpieza. 
• Clúster: se refiere a una agrupación de papers que se consideran como 
pertenecientes a una misma categoría por compartir un identificador único 
(CORD_UID) relacionado a la revista u organización de publicación. 
• Metadatos canónicos: se refiere a aquellos metadatos considerados 
confiables y completos en cada clúster que están asociados con archivos de 
documentos que tienen las licencias de reproducción más permisivas. 
Método 
utilizado 
 
Para llevar a cabo una limpieza inicial de los papers recuperados y comenzar la 
construcción del dataset (73k registros con sus metadatos) se usan 2 técnicas: 
 
• Clusterización de papers duplicados empleando identificadores. 
• Selección de metadatos canónicos por cada clúster. 
• Filtrado de clústers para eliminar elementos que no sean papers. 
 
Los autores muestran, adicionalmente, el proceso de extracción de texto y 
bibliografía asociada a los papers usando un pipeline empleado en el dataset S2ORC 
que consiste en: 
 
• Analizar todos los archivos PDF a archivos XML TEI utilizando GROBID15 
• Analizar todos los archivos XML TEI al formato JSON deseado. 
 
 
 
• Procesar posteriormente para limpiar los enlaces entre las citas en línea y 
las entradas de bibliografía. 
Fuentes de 
investigación 
utilizada 
 
Artículos de investigación de diversas fuentes: World Health Organization, PubMed 
Central, Elsevier, Springer Nature, bioRxiv y medRxiv. 
Herramientas 
utilizadas 
 
Semantic Scholar, GROBID 
Resultados 
alcanzados 
 
Por medio de la creación de CORD-19 se obtuvo un dataset que cumpliese con los 
siguientes requerimientos: 
 
• Estar actualizado de forma flexible y rápida para su recuperación, acorde al 
volumen de investigación creciente sobre el COVID-19. 
• Capaz de manejar datos de múltiples fuentes y organizaciones, armonizando 
cada uno de los metadatos contenidos en el mismo. 
• Limpieza de metadatos canónicos para reducir al mínimo posible la 
posibilidad de duplicados; aunque no sea posible eliminar el problema por 
completo. 
• Contar con una estructura de datos tratable computacionalmente por medio 
de archivos con formato JSON. 
• Considerar los derechos de copyright asociados a los papers almacenados 
en el dataset. 
 
Gracias al trabajo realizado, se han llevado a cabo múltiples trabajos sobre CORD-
19: 
 
• Recuperación de información con BM25, Neural Covidex, Covid-Scholar y 
KDCovid usando consultas. 
• Extracción de información usando ScispaCy, BioBERT-base o SciBERT-bas. 
• Grafos de conocimiento con herramientas de visualización como Coviz o 
SeVeN. 
• Tareas variadas como respuestas a preguntas con Covidask, AUEB y BioASQ. 
Aspectos de 
interés 
El uso de datasets públicos demuestra la gran importancia que tiene la 
democratización de los datos y el libre acceso a ellos. Si las licencias de publicación 
de estos trabajos de investigación fuesen demasiado restrictivas, estas iniciativas no 
podrían llevarse a cabo. De este modo, se tiene una forma de generar un cúmulo de 
conocimiento de manera relativamente rápida y comenzar a trabajar con el mismo. 
 
Resulta muy interesante para mi notar el gran poder que tiene la minería de datos 
en la investigación y el análisis clínico. Incluso, tal es la importancia que tiene que 
incluso es posible pensar que en un futuro próximo exista una especialización 
médica específica a la formación en el uso de la minería de datos para la 
investigación en áreas de la salud. El COVID-19 trajo cambios sustanciales al mundo, 
y es posible que estemos presenciando un cambio radical en la manera en que se 
lleva a cabo la investigación y la labor de la medicina en la nueva era de los datos.

Continuar navegando