TGJL-Lectura5

Ciencia de Datos

•

UNAM

Jorge Luis Tellez

4/7/2023

¡Estudia con miles de materiales!

Vista previa del material en texto

Reporte 05

Nombre: Téllez González Jorge Luis
Fecha: 02 de mayo de 2023

Referencia
bibliográfica
APA
Wang, L. L. et al. (2020, abril). CORD-19: The COVID-19 Open Research Dataset.
Pubmed – ArXiv: 2004.10706v4.
https://pubmed.ncbi.nlm.nih.gov/32510522/

IEEE
Lucy L. W. et al, " CORD-19: The COVID-19 Open Research ", Pubmed – ArXiv:
2004.10706v4, abril de 2020.
Accedido el 02 de mayo de 2023. [En línea]. Disponible:
https://doi.org/10.1016/j.dsx.2020.06.063

Autor (es)

Lucy Lu Wang, Kyle Lo, Yoganand Chandrasekhar, Russell Reas, Jiangjiang Yang,
Darrin Eide, Kathryn Funk, Rodney Kinney, Ziyang Liu, William Merrill, Paul Mooney,
Dewey Murdick, Devvret Rishi, Jerry Sheehan, Zhihong Shen, Brandon Stilson, Alex
D. Wade, Kuansan Wang, Chris Wilhelm, Boya Xie, Douglas Raymond, Daniel S. Weld,
Oren Etzioni y Sebastian Kohlmeier.

Título

CORD-19: The COVID-19 Open Research Dataset

Año

2020

Tipo de
publicación

Artículo de divulgación

Nombre de la
revista,
conferencia,
Editorial u otro

PubMed

Número de
páginas

Problema
abordado
El artículo aborda el dataset denominado CORD-19, el cual se trata de una iniciativa
pública para facilitar el desarrollo de minería de textos y recuperación de
información relacionada a los estudios científicos sobre el COVID-19, desarrollada
por el Allen Institute for AI y The White House Office of Science and Technology Policy
(OSTP), National Library of Medicine (NLM), Chan Zuckerburg Initiative (CZI),

Microsoft Research y Kaggle, coordinados con el Georgetown University’s Center for
Security and Emerging Technology (CSET).
Objetivo
El objetivo del artículo se trata de describir las mecánicas utilizadas para construir el
conjunto de datos, decisiones clave en su diseño y retos durante su construcción. Así
mismo, busca mostrar una vista previa de cómo ha sido utilizado CORD-19 y las
herramientas de minería que se han desarrollado sobre el mismo.

Justificación
CORD-19 fue desarrollado con el objetivo de conectar a la comunidad del
Aprendizaje de Máquinas con los expertos de la biomedicina y políticos para el
desarrollo de tratamientos efectivos y políticas de gestión relacionadas al COVID-19.
Por medio de la minería de datos y el procesamiento de lenguaje natural, se busca
poder acceder a información relevante y de utilidad de manera eficaz y rápida a lo
largo de todo el acervo de artículos registrados en el conjunto de datos.
Marco teórico

CORD-19 integra papers de diversas fuentes con sus respectivos metadatos. Cada
paper se define como una unidad básica de conocimiento publicado asociado con un
conjunto de metadatos bibliográficos como autores, datos de publicación e
identificadores únicos (DOIs, PubMed ID...).

Los autores definieron los siguientes conceptos relacionados a los metadatos:

• Metadatos armonizados: se refiere a metadatos con un formato consistente
a lo largo de todos los papers, lo que se lleva a cabo combinando metadatos
de distintas fuentes.
• Metadatos deduplicados: metadatos sin entradas duplicadas tras un
proceso de limpieza.
• Clúster: se refiere a una agrupación de papers que se consideran como
pertenecientes a una misma categoría por compartir un identificador único
(CORD_UID) relacionado a la revista u organización de publicación.
• Metadatos canónicos: se refiere a aquellos metadatos considerados
confiables y completos en cada clúster que están asociados con archivos de
documentos que tienen las licencias de reproducción más permisivas.
Método
utilizado

Para llevar a cabo una limpieza inicial de los papers recuperados y comenzar la
construcción del dataset (73k registros con sus metadatos) se usan 2 técnicas:

• Clusterización de papers duplicados empleando identificadores.
• Selección de metadatos canónicos por cada clúster.
• Filtrado de clústers para eliminar elementos que no sean papers.

Los autores muestran, adicionalmente, el proceso de extracción de texto y
bibliografía asociada a los papers usando un pipeline empleado en el dataset S2ORC
que consiste en:

• Analizar todos los archivos PDF a archivos XML TEI utilizando GROBID15
• Analizar todos los archivos XML TEI al formato JSON deseado.

• Procesar posteriormente para limpiar los enlaces entre las citas en línea y
las entradas de bibliografía.
Fuentes de
investigación
utilizada

Artículos de investigación de diversas fuentes: World Health Organization, PubMed
Central, Elsevier, Springer Nature, bioRxiv y medRxiv.
Herramientas
utilizadas

Semantic Scholar, GROBID
Resultados
alcanzados

Por medio de la creación de CORD-19 se obtuvo un dataset que cumpliese con los
siguientes requerimientos:

• Estar actualizado de forma flexible y rápida para su recuperación, acorde al
volumen de investigación creciente sobre el COVID-19.
• Capaz de manejar datos de múltiples fuentes y organizaciones, armonizando
cada uno de los metadatos contenidos en el mismo.
• Limpieza de metadatos canónicos para reducir al mínimo posible la
posibilidad de duplicados; aunque no sea posible eliminar el problema por
completo.
• Contar con una estructura de datos tratable computacionalmente por medio
de archivos con formato JSON.
• Considerar los derechos de copyright asociados a los papers almacenados
en el dataset.

Gracias al trabajo realizado, se han llevado a cabo múltiples trabajos sobre CORD-
19:

• Recuperación de información con BM25, Neural Covidex, Covid-Scholar y
KDCovid usando consultas.
• Extracción de información usando ScispaCy, BioBERT-base o SciBERT-bas.
• Grafos de conocimiento con herramientas de visualización como Coviz o
SeVeN.
• Tareas variadas como respuestas a preguntas con Covidask, AUEB y BioASQ.
Aspectos de
interés
El uso de datasets públicos demuestra la gran importancia que tiene la
democratización de los datos y el libre acceso a ellos. Si las licencias de publicación
de estos trabajos de investigación fuesen demasiado restrictivas, estas iniciativas no
podrían llevarse a cabo. De este modo, se tiene una forma de generar un cúmulo de
conocimiento de manera relativamente rápida y comenzar a trabajar con el mismo.

Resulta muy interesante para mi notar el gran poder que tiene la minería de datos
en la investigación y el análisis clínico. Incluso, tal es la importancia que tiene que
incluso es posible pensar que en un futuro próximo exista una especialización
médica específica a la formación en el uso de la minería de datos para la
investigación en áreas de la salud. El COVID-19 trajo cambios sustanciales al mundo,
y es posible que estemos presenciando un cambio radical en la manera en que se
lleva a cabo la investigación y la labor de la medicina en la nueva era de los datos.

Contenido elegido para ti

309 pag.

TGJL-Lectura5

Ciencia de Datos

UNAM

Más contenidos de este tema

Contenido elegido para ti

El Cuarto Descubrimiento Científico

CUARDENILLO NUTRICION 2011

Analisis-de-la-recuperacion-de-informacion-en-Infobila

Biocuracion-de-literatura

Ciberinfraestructura-para-literatura-especializada-en-ciencias-biomedicas

Preguntas de este disciplina

La mayoría de las personas piensa que la economía es un asunto complejo y difuso que no tiene nada que ver con sus vidas. Pero están en un error. E...

¿Cuáles son los dos métodos de asignación de recursos mencionados en el texto? a) El mercado y la economía centralmente planificada. b) El mercad...

¿Cuáles son las tres características fundamentales del sistema de mercado? a) Competencia, libertad de elección e interés personal. b) Propiedad ...

¿Qué es un ayllu y cuál era su función en el Imperio Inca? a) Un ayllu era una agrupación alrededor del parentesco y su función era la organizaci...

¿Cuál fue el objetivo de la transición económica en Polonia? a) Pasar de una economía dirigida por el Estado a una economía de mercado. b) Pasar ...