El Cuarto Descubrimiento Científico

•

UFRPE

Alexandra Elbakyan

5/5/2021

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Computación

7960 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

E l c UA R T O pA R A D I G M A
RECTOR GENERAL
Salvador Vega y León
SECRETARIO GENERAL
Norberto Manjarrez Álvarez
COORDINADOR GENERAL DE DIFUSIÓN
Walterio Beller Taboada
DIRECTOR DE PUBLICACIONES Y PROMOCIÓN EDITORIAL
Bernardo Ruiz
SUBDIRECTORA DE PUBLICACIONES
Laura González Durán
SUBDIRECTOR DE DISTRIBUCIÓN Y PROMOCIÓN EDITORIAL
Marco Moctezuma
El
c U A R T O
De s c u br i m i e n t o c i e n t í f ic o i n t e nsi vo
e n Dat o s
p A R A D I G M A
EDITADO POR
TONY HEY, STEWART TANSLEY
Y KRISTIN TOLLE
TRADUCCIÓN DE
JOSÉ LUIS ACOSTA,
RODRIGO CAMBRAY-NÚÑEZ Y
ABDIEL MACÍAS ARVIZU
Para Jim
Copyright © 2009 Microsoft Corporation
Excepto donde se indique lo contrario, el contenido de esta
publicación se encuentra bajo la licencia Creative Commons
Attribution-Share Alike 3.0 United States, disponible en
http://creativecommons.org/licenses/by-sa/3.0/us/legalcode.
Segunda impresión, versión 1.1, octubre 2009.
ISBN 978-0-9825442-0-4
Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server,
Virtual Earth y Windows son marcas registradas del grupo de consorcios de
Microsoft. Todas las demás marcas registradas son propiedad de sus respecti-
vos dueños.
La información, hallazgos, perspectivas y opiniones contenidas en esta publi-
cación pertenecen a los autores y no necesariamente reflejan los puntos de vista
de Microsoft Corporation o de Microsoft Research. Microsoft Corporation no
garantiza la exactitud de la información contenida en la presente obra.
Microsoft Research
http://research.microsoft.com
Título original en inglés The Fourth Paradigm, Microsoft Research, 2009.
Edited by Tony Hey, Stewart Tansley and Kristin Tolle.
Traducción al español: José Luis Acosta, Rodrigo Cambray-Núñez y Abdiel Macías Arvizu
Revisión técnica: Manuel López Michelone
D.R. © 2014, Universidad Autónoma Metropolitana
Prolongación Canal de Miramontes 3855, Ex hacienda San Juan de Dios, delegación Tlalpan,
14387 México, D.F.
Esta publicación no puede ser reproducida, total ni parcialmente, ni registrada en un sistema
de recuperación de información, ni transmitida por ningún medio, sea mecánico, fotoquí-
mico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso
previo, por escrito, de los editores.
ISBN de la obra: 978-607-28-0151-6
Impreso en México/Printed in Mexico
Para Jim
CONTE NIDO
xi prólogo Gordon Bell
xvii jim gray sobre la e-ciencia: un método científico transformado
Editado por Tony Hey, Stewart Tansley y Kristin Tolle
1 . TIERR A Y MEDIO AMBIENTE
3 introducción Dan Fay
7 las leyes de gray: cómputo científico centrado en bases de datos
Alexander S. Szalay, José A. Blakeley
15 la nueva ciencia de las aplicaciones ambientales
Jeff Dozier, William B. Gail
23 redefiniendo la ciencia ecológica mediante los datos
James R. Hunt, Dennis D. Baldocchi, Catharine van Ingen
29 una visión de la oceanografía en el año 2020
John R. Delaney, Roger S. Barga
41 acercando el cielo nocturno: descubrimientos
en la avalancha de datos
Alyssa A. Goodman, Curtis G. Wong
49 la instrumentación de la tierra: redes de sensores
de próxima generación y las ciencias del ambiente
Michael Lehning, Nicholas Dawes, Mathias Bavay,
Marc Parlange, Suman Nath, Feng Zhao
2 . SALUD Y BIENESTAR
59 introducción Simon Mercer
63 la singularidad de la asistencia sanitaria y la era
de la medicina semántica
Michael Gillam, Craig Feied, Jonathan Handler, Eliza Moody,
Ben Shneiderman, Catherine Plaisant, Mark Smith, John Dickason
71 la provisión de servicios de salud en los países en vías
de desarrollo: desafíos y soluciones potenciales
Joel Robertson, Del DeHart, Kristin Tolle, David Heckerman
81 descubriendo el esquema de conexiones del cerebro
Jeff W. Lichtman, R. Clay Reid, Hanspeter Pfister, Michael F. Cohen
91 hacia un microscopio computacional para la neurobiología
Eric Horvitz, William Kristan
99 un enfoque de modelado unificado para la asistencia
sanitaria intensiva en datos
Iain Buchan, John Winn, Chris Bishop
107 visualización en modelos de álgebra de procesos
de sistemas biológicos
Luca Cardelli, Corrado Priami
3. INFR AESTRUCTUR A CIENTÍFICA
117 introducción Daron Green
121 ¿una nueva ruta para la ciencia? Mark R. Abbott
129 más allá del tsunami: a edificación de la infraestructura
para el tratamiento de los datos de las ciencias biológicas
Christopher Southan, Graham Cameron
137 la computación multinúcleo y el descubrimiento científico
James Larus, Dennis Gannon
143 el paralelismo y la nube Dennis Gannon, Dan Reed
149 el impacto de las herramientas de flujo de trabajo en la
investigación centrada en datos Carole Goble, David de Roure
159 la e-ciencia semántica: la codificación de significado en la
ciencia mejorada digitalmente de la siguiente generación
Peter Fox, James Hendler
165 visualización para la ciencia intensiva en datos
Charles Hansen, Chris R. Johnson, Valerio Pascucci, Claudio T. Silva
177 una plataforma para todo lo que sabemos: la creación
de una infraestructura de investigación basada
en los conocimientos Savas Parastatidis
4. COMUNICACIÓN ACADÉMICA
187 introducción Lee Dirks
191 el cuarto paradigma de jim gray y la construcción
del registro científico Clifford Lynch
199 el texto en un mundo centrado en datos Paul Ginsparg
207 todos a bordo: hacia un sistema de comunicación
académica amigable con las máquinas
Herbert van de Sompel, Carl Lagoze
215 el futuro de las políticas de datos
Anne Fitzgerald, Brian Fitzgerald, Kylie Pappalardo
225 he visto el cambio de paradigma, y somos nosotros
John Wilbanks
233 de la web 2.0 a la base de datos global Timo Hannay
241 el camino por recorrer Craig Mundie
245 conclusiones Tony Hey, Stewart Tansley y Kristin Tolle
249 siguientes pasos
250 agradecimientos
253 algunas palabras sobre jim…
255 glosario
259 índice
xiEL CUARTO PARADIGM A
GORDON BELL | Microsoft Research
Prólogo
ste libro propone un novedoso cuarto paradigma para la ciencia basado
en la computación intensiva en datos. Esta investigación se encuentra en un
momento parecido al de la invención de la imprenta de tipos móviles, que tardó
un milenio en desarrollarse y evolucionar hasta sus múltiples manifestaciones
actuales. El uso de computadoras para obtener conocimientos a partir de los datos creados
y respaldados en nuestros depósitos electrónicos tomará décadas o, quizá, menos. Los
coautores de esta obra han hecho un trabajo extraordinario que ayuda a la comprensión
más precisa de este nuevo paradigma desde diversos puntos de vista especializados.
En varios aspectos, la ciencia va atrás del mundo comercial en cuanto a inferir un
significado a partir de los datos y actuar con base en él. Sin embargo, en los negocios las
cosas son comparativamente sencillas: los objetos que pueden describirse con un nom-
bre o con unos cuantos números se manufacturan para ser comprados y vendidos. Las
disciplinas científicas no pueden encapsularse en unos pocos nombres y números de fácil
comprensión, y muchos datos científicos carecen de un valor económico suficientemente
elevado capaz de propiciar un progreso más intenso de los descubrimientos científicos.
El asistente de Tycho Brahe, Johannes Kepler, al estudiar el catálogo sistemático de
las observaciones astronómicas de Brahe, descubrió las leyes del movimiento planetario.
Con ello se establece la división entre la exploración y el análisis de datos experimen-
tales cuidadosamente registrados y la formulación de teorías. Tal división es un rasgo
propio del cuarto paradigma.
En el siglo xx, los datos que fundamentaban las teorías científicas se hallaban con
frecuencia sepultados en libretas o, para algunos aspectos relacionados con la “alta cien-
cia”, almacenados en medios magnéticos que terminaron siendo ilegibles. En especial
E
xii
los personalesy los de pequeños laboratorios, son inaccesibles; en su mayoría, se
desechan cuando el investigador se retira o, acaso, se conservan en una biblioteca
institucional antes de eliminarlos. El registro a largo plazo del origen de los datos, o
el común acceso comunitario a los datos distribuidos, son sólo algunos de los retos.
Afortunadamente, algunos “centros de datos”, como el National Center for At-
mospheric Research1 (ncar), se prestan para recibir investigadores de ciencias de la
Tierra que buscan analizar los datos curados procedentes de mediciones y modelos
computacionales. Con ello, en una sola institución tenemos la cadena de obtención,
curaduría y análisis de datos para toda una disciplina.
En el siglo xxi es muy factible que la mayor parte del vasto y continuo volumen
de datos capturados por nuevos instrumentos de manera ininterrumpida, junto con
la información generada en los mundos artificiales de los modelos computarizados,
residan de manera permanente en una forma viva, de amplio acceso público y curada
para efectos de su continuo análisis. Éste conducirá al desarrollo de nuevas teorías.
Pronto atestiguaremos que los datos se conservan a perpetuidad como materiales de
archivo —como sucede con el registro en papel— y serán accesibles a todos, humanos
y máquinas, en la nube. Es reciente imaginar tal permanencia para los datos como lo
pensamos para los objetos de bibliotecas y museos nacionales. Ese grado de duración
era inverosímil, hasta que notamos que la captura del origen de los datos —incluso los
registros de los investigadores, y a veces toda la información sobre ellos— es lo que
piden y —han deseado— las bibliotecas. La “nube” de polarizaciones magnéticas que
codifica datos y documentos en la biblioteca digital se convertirá en el equivalente
de los kilómetros de estantes de bibliotecas que almacenan papel y tinta.
En 2005, el Consejo Nacional de Ciencia de la National Science Foundation publicó
el informe “Long-Lived Digital Data Collections: Enabling Research and Education in
the 21st Century”, que inicia un diálogo sobre el interés de la preservación de los datos y
la importancia de su cuidado y soporte con un nuevo equipo: los “científicos de datos”:
El interés de los científicos de datos —expertos de la información y la com-
putación, ingenieros y programadores de bases de datos y software, y ex-
pertos interdisciplinarios, curadores y expertos anotadores, bibliotecarios,
archivistas y otros actores cruciales para la exitosa administración de una
colección digital de datos— se basa en el reconocimiento a su creatividad y
sus contribuciones intelectuales. [1]
1 www.ncar.ucar.edu
PROLOGO
xiiiEL CUARTO PARADIGM A
EL CUARTO PARADIGMA: UN ÉNFASIS EN LOS SISTEMAS INTENSIVOS DE DATOS
Y LA COMUNICACIÓN CIENTÍFICA
En su última conferencia para la Comisión de Ciencias de la Computación y de
Telecomunicaciones el 11 de enero de 2007 [2], Jim Gray describió su visión del
cuarto paradigma de la investigación científica. Hizo un exhorto en dos partes para
el financiamiento de herramientas para la obtención, curación y análisis de datos, y
para la creación de una infraestructura de comunicación y publicación. Argumentó
en favor del desarrollo de modernos repositorios para los datos y los documentos,
que compitieran con las bibliotecas tradicionales. La versión editada de su trabajo,
introduce la escena para los capítulos siguientes.
La ciencia intensiva en datos se basa en tres actividades: obtención, curación y
análisis. Los datos existen en todos los tamaños y formas, lo que incluye los de grandes
experimentos internacionales; observaciones provenientes de redes de laboratorios,
laboratorios particulares e individuos; y potencialmente vidas personales.2 La disciplina
y la escala de los experimentos individuales, y en particular sus tasas de datos, hacen
del asunto de las herramientas un magno problema. El proyecto de radiotelescopios
Australian Square Kilometre Array,3 el Gran Colisionador de Hadrones4 del cern y
el sistema de telescopios astronómicos Pan-STARRS5 tienen la capacidad de generar
varios petabytes (pb) de datos cada día, mas sus directrices los limitan a tasas de
recolección más manejables hoy. Los dispositivos de secuenciación genética presen-
tan rendimientos más modestos por su costo, de modo que sólo se secuencian por
individuo algunas regiones de secuencias genómicas (25 kb por unos cuantos cientos
de miles de pares de bases). Sin embargo, esto es, cuando mucho, temporal hasta
que se otorgue el X Prize for Genomics6 de 10 millones de dólares —100 individuos
completamente secuenciados en 10 días, a menos a 10 000 dólares por cada uno,
cubriendo 3 000 millones de pares de bases por cada genoma humano—.
Es necesario invertir en la creación de una serie de herramientas genéricas que
cubran el total de actividades: desde la obtención y validación de los datos hasta la
curaduría, el análisis y, finalmente, el almacenamiento permanente. La curaduría
abarca un amplio espectro de tareas, que empiezan con la determinación de las es-
tructuras de datos idóneas para ser distribuidas en diversos depósitos. Esto incluye
los archivos de esquema y los metadatos necesarios para la preservación a largo
2 http://research.microsoft.com/en-us/projects/mylifebits
3 www.ska.gov.au
4 http://public.web.cern.ch/public/en/LHC/LHC-en.html
5 http://pan-starrs.ifa.hawaii.edu/public
6 http://genomics.xprize.org
xiv
plazo, y para la integración por medio de dispositivos, experimentos y laboratorios.
Sin ellos, la interpretación sólo es implícita y queda muy subordinada a los progra-
mas específicos para el análisis. Finalmente, los datos no curados se perderán. Debe
considerarse con cuidado qué datos han de conservarse por siempre y cuáles otros
metadatos serían necesarios para ello.
El análisis de datos abarca actividades durante todo el flujo de trabajo. Incluye el
uso de bases de datos (en vez de la recolección de archivos planos que una base de
datos lee), análisis, modelado y visualización de datos. La receta de Jim Gray para
el diseño de una base de datos para determinada disciplina implica que debe ser ca-
paz de responder las veinte preguntas principales que el científico quisiera hacerle.
En buena parte del mundo científico las bases de datos se usan actualmente como
almacenes para guardar algunas propiedades de los datos, más que como un espacio
para los datos mismos; esto se explica porque el tiempo requerido para explorar toda
la información hace inviable el análisis. Hace una década, la relectura de los datos
era apenas factible. Hasta 2010, los discos tenían 1 000 veces más capacidad, pero
el tiempo de acceso a su contenido mejoró apenas en un factor de dos.
BIBLIOTECAS DIGITALES PARA DATOS Y DOCUMENTOS: EQUIPARABLES A LAS MODERNAS
BIBLIOTECAS DE DOCUMENTOS
La comunicación científica, incluyendo sus procesos de arbitraje, también expe-
rimenta cambios esenciales. Las bibliotecas públicas digitales están asumiendo la
función de resguardar publicaciones de bibliotecas convencionales —sea por su
costo, la necesidad de un servicio expedito o la conveniencia de mantener reunidos
los datos experimentales y la documentación acerca de ellos.
Así, las bibliotecas de datos digitales se encuentran aún en fase de desarrollo, con
dimensiones, formas y principios constitutivos divergentes. Por supuesto, ncar es
una de las entidades más antiguas en lo que respecta al modelado, recopilación y
curación de datos de las ciencias de la Tierra. El San Diego Supercomputer Center
(sdsc) en la Universidad de California, San Diego, que normalmente está asociado
con el abastecimiento de poder de cómputo para la comunidad científica, fue una
de las primeras organizaciones en reconocer la necesidad de agregar los datos a su
misión. El sdsc creó su sitio Data Central,7 que aloja 27 pb de datos en más de 100
bases de datos específicas (por ejemplo, para bioinformática y recursos hídricos).
En 2009, reservó 400 terabytes(tb) de espacio en disco para bases de datos tanto
7 http://datacentral.sdsc.edu/index.html
PROLOGO
xvEL CUARTO PARADIGM A
públicas como privadas y para colecciones de datos que dan servicio a una extensa
gama de instituciones científicas, incluyendo laboratorios, bibliotecas y museos.
El Australian National Data Service8 (ands) ofrece servicios como el Register
My Data, una especie de “fichero catalográfico” que registra la identidad, estruc-
tura, nombre y ubicación (dirección ip) de las diversas bases de datos, incluso las
de particulares. El solo hecho de levantar tal registro es un gran paso hacia el
almacenamiento a largo plazo. ands busca influir en la política nacional de su país
en lo tocante al manejo de los datos, e ilustrar sobre las mejores prácticas para la
curación de datos, con lo que las distintas y divergentes colecciones de datos de
investigación se transformarían en un conjunto coherente de recursos de investi-
gación. En el Reino Unido, el Comité Conjunto de Sistemas de Información (jisc,
por sus siglas en inglés) ha financiado la creación del Digital Curation Centre9 para
estudiar estas cuestiones. Se espera que con el tiempo surjan muchos otros centros
de datos como éste. La Dirección de Ciencia e Ingeniería de Computación y de
Información, de la National Science Foundation, lanzó ya una convocatoria para
la solicitudes de becas a largo plazo para investigadores en cómputo intensivo en
datos y en almacenamiento de larga duración.
Esta obra considera en sus capítulos las múltiples oportunidades y desafíos que
entraña la ciencia intensiva en datos, incluídas la cooperación y el entrenamiento
interdisciplinarios, el intercambio de información entre organizaciones para crear
“hibridaciones” (mashups) de datos científicos, la instauración de nuevos procesos y
rutas de trabajo, así como una agenda de investigación que explote las oportunidades
y sostenga la vanguardia de la avalancha de datos. Estos retos exigirán una vasta
inversión económica y operacional. El sueño de erigir una infraestructura de datos
con “sensores ubicuos” que apoye nuevas modalidades de investigación científica
requerirá de una extraordinaria cooperación entre organismos de financiamiento,
científicos e ingenieros. Un sueño que vale la pena alentar y financiar activamente.
REFERENCIAS
[1] National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the
21st Century, Technical Report NSB-05-40, National Science Foundation, septiembre de 2005,
www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[2] Conferencia de Jim Gray al NRC-CSTB en Mountain View, California, el 11 de enero de 2007,
http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Transcripción editada
también en esta obra.)
8 www.ands.org.au
9 www.dcc.ac.uk
xviiEL CUARTO PARADIGM A
enemos que mejorar en la producción de herramientas para apo-
yar todo el ciclo de la investigación —desde la captura de los datos y su
curación hasta su análisis y visualización—.1Hoy en día, las herramien-
tas para la captura de datos, tanto a megaescala como a miliescala, son
simplemente terribles. Después de que se han capturado los datos, es necesario
curarlos antes de que se pueda empezar a hacer cualquier tipo de análisis con ellos,
y carecemos de herramientas adecuadas para dicha2curación y análisis. Luego sigue
la publicación de los resultados de la investigación, y la literatura publicada es sólo la
punta del iceberg de datos. Con esto quiero decir que las personas reúnen una gran
cantidad de datos que luego reducen a una determinada cantidad de pulgadas de
columna en Science o en Nature —o a diez páginas si quien escribe es un especialista
en ciencias de la computación—. A lo que me refiero con “iceberg de datos” es que
hay una gran cantidad de ellos que se recopilan, pero que no se curan ni se publican
de manera sistemática. Hay algunas excepciones, y creo que éstas son instancias en
las que debemos basarnos para determinar mejores prácticas. Voy a hablar de cómo
todo el proceso de revisión por pares tiene que cambiar, así como de la manera en
1 National Research Council (NRC), http://sites.nationalacademies.org/NRC/index.htm; Computer Science and
Telecommunications Board (CSTB), http://sites.nationalacademies.org/cstb/index.htm.
2 Esta presentación es, emotivamente, la última publicada en la página web de Jim en Microsoft Research antes
de desaparecer en el mar el 28 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/talks/
NRCCSTB_eScience.ppt
Jim Gray sobre la e-ciencia:
un método científico transformado
EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research
Basado en la transcripción de una conferencia impartida por Jim Gray ante
la Comisión de Ciencias de la Computación y de Telecomunicaciones del
Consejo Nacional de Investigación (nrc-cstb) 1 en Mountain View,
California, el 11 de enero de 2007 2
T
xviii
la que visualizo como está cambiando, y lo que la Comisión de Ciencias de la Com-
putación y de Telecomunicaciones (cstb) puede hacer para ayudarnos a todos para
tener acceso a nuestras investigaciones.
LA E-CIENCIA: ¿QUÉ ES?
La e-ciencia es “donde las tecnologías de información y los científicos convergen”.
Los investigadores utilizan muchos métodos diferentes para recopilar o generar datos
—desde sensores y dispositivos de acoplamiento de carga (ccd) hasta supercompu-
tadoras y colisionadores de partículas—. Cuando los datos finalmente aparecen en
su computadora, ¿qué hace usted con toda esa información que está ahora en su caja
digital? La gente constantemente está buscándome, me dice: “¡Auxilio! Tengo todos
estos datos. ¿Qué se supone que debo hacer con ellos? ¡Mis hojas de cálculo de Excel
se desbordan!” Así que, ¿qué sigue? ¿Qué sucede cuando se tienen 10 000 hojas de
cálculo de Excel, cada una con 50 páginas? Digamos que las he estado nombrando
de manera sistemática, pero ahora, ¿qué hago?
PARADIGMAS DE LA CIENCIA
Muestro esta diapositiva (véase la figura 1) cada vez que imparto alguna conferencia.
Creo que es justo decir que esta idea se me ocurrió en un estudio de la cstb sobre
el futuro de la computación. Decíamos: “Mira, la ciencia computacional es una
FIGURA 1.
4πGp
3 K
c2
a2
=aa
2.
• Hace mil años:
la ciencia era empírica
descripción de fenómenos naturales
• Últimos siglos:
rama teórica
utilización de modelos, generalizaciones
• Últimas décadas:
una rama computacional
simulación de fenómenos complejos
• Hoy: la exploración de datos (e-ciencia)
unificación de teoría, experimentación y simulación
– Los datos se capturan mediante instrumentos
o se generan mediante simulador
– Procesados mediante software
– La información/conocimientos se almacenan
en computadora
– El científico analiza la base de datos o los archivos
mediante administración de datos y estadística
Paradigmas de la ciencia
JIM GRAY SOBRE LA E- CIENCIA
xixEL CUARTO PARADIGM A
tercera pierna”. Originalmente sólo existía la ciencia experimental, y luego apareció
la ciencia teórica, con las leyes de Kepler, las leyes de Newton del movimiento, las
ecuaciones de Maxwell, y así sucesivamente. Entonces, para muchos problemas,
los modelos teóricos se volvieron demasiado complicados como para ser resueltos
analíticamente, y la gente tuvo que empezar a utilizar la simulación. Estas simula-
ciones nos han servido a lo largo de gran parte de la segunda mitad del milenio más
reciente. En la actualidad, éstas generan una gran cantidad de datos junto con un
enorme aumento en los datos de las ciencias experimentales. Ahora la gente real-
mente no mira a través de telescopios: en lugar de ello están “mirando” a través de
complejos instrumentos de gran escala que transmiten información a las centrales
de datos, y sólo entonces es cuando examinan la información en sus computadoras.
El mundo de la ciencia ha cambiado, y no hay duda alguna sobre esto. El nuevo
modelo consiste en que los datosse capturan mediante instrumentos o se generan
a través de simulaciones antes de procesarlos con software. La información o el co-
nocimiento resultantes se almacenan en computadoras. Los científicos sólo llegan a
mirar sus datos bastante tarde en esta secuencia. Las técnicas y las tecnologías para
tal ciencia intensiva en datos son tan diferentes que vale la pena distinguir la ciencia
intensiva en datos de la ciencia computacional como un nuevo paradigma: el cuarto
paradigma para la exploración científica [1].
DISCIPLINAS INFORMÁTICAS Y DISCIPLINAS COMPUTACIONALES
En todas las disciplinas presenciamos la evolución de dos ramas, como se muestra
en la siguiente diapositiva (véase la figura 2). Si nos fijamos en la ecología, existen
actualmente tanto la ecología computacional, que tiene que ver con la simulación
de ecologías, como la ecoinformática, que tiene que ver con la recolección y el aná-
lisis de información ecológica. De manera semejante, tenemos la bioinformática,
que recoge y analiza información de muchos experimentos diferentes, y la biología
computacional, que simula cómo funcionan los sistemas biológicos, las vías metabó-
licas, el comportamiento de una célula o la forma en que se construye una proteína.
Esto se acerca a la noción de Jeannette Wing del “pensamiento computacional”, en
el que las técnicas y las tecnologías de las ciencias de la computación se aplican a
diferentes disciplinas [2].
La meta de muchos científicos es codificar su información para poder intercam-
biarla con otros científicos. ¿Por qué necesitan codificarla? Porque si guardo alguna
información en mi computadora, la única manera en que usted podrá entenderla será
que el programa que usted utilice pueda entenderla. Esto significa que la información
xx
tiene que representarse de manera algorítmica. Para conseguir esto necesitamos una
representación estándar de lo que es un gen o de lo que es una galaxia o de lo que es
una medición de temperatura.
ENTRE UNA CUARTA PARTE Y LA MITAD DE LOS PRESUPUESTOS PARA EXPERIMENTACIÓN
SE DESTINA AL SOFTWARE
Durante los últimos 10 años he estado tratando con astrónomos y tengo la opor-
tunidad de ir a algunas de sus estaciones de base. Quedo maravillado al ver sus
telescopios, es algo simplemente increíble. Se trata de equipo que representa
básicamente una inversión de 15 a 20 millones de dólares, el cual es operado
por unas 20 a 50 personas. Entonces uno entiende que hay literalmente miles
de personas escribiendo código para hacer frente al volumen de información
que genera este instrumento, y de que se necesitan millones de líneas de código
para analizar toda esa información. En realidad, ¡el costo del software domina el
gasto de capital! Esto es cierto en el caso del Sloan Digital Sky Survey (sdss), y
seguirá siendo cierto para proyectos de exploración celeste de mayores dimensio-
nes, y para muchos experimentos a gran escala. No estoy seguro de que el costo
de software sea también dominante en el caso de la comunidad de la física de
partículas y su Gran Colisionador de Hadrones (gch), pero sin duda lo es en los
experimentos del gch.
FIGURA 2.
Hechos
Hechos
Hechos
Hechos
• Ingesta de datos
• Administración de un petabyte
• Esquemas comunes
• Cómo organizarlos
• Cómo reorganizarlos
• Cómo compartirlos con otros
Disciplinas informáticas
• La evolución de la rama informática y la rama
• computacional para cada disciplina
• Cómo codificar y representar nuestros conocimientos
Los problemas genéricos
• Herramientas de consulta y de visualización
• Construcción y la ejecución de modelos
• Integración de los datos y la literatura
• Documentación de experimentos
• Curación y conservación a largo plazo
Preguntas
Respuestas
Simulaciones
Literatura
Otros archivos
Experimentos
e instrumentos
JIM GRAY SOBRE LA E- CIENCIA
xxiEL CUARTO PARADIGM A
Incluso en las ciencias de “datos pequeños” se ve a la gente reuniendo información
y luego dedicando mucha más energía en el análisis de esa información que en reca-
barla en primera instancia. El software es típicamente muy particular, ya que existen
muy pocas herramientas genéricas disponibles para que el científico de laboratorio
recopile, analice y procese los datos. Esto es algo que los científicos computacionales
podríamos ayudar a remediar mediante la construcción de herramientas genéricas
para la comunidad científica.
Tengo una lista de asuntos para los responsables de políticas, como la cstb. El
primero de ellos es básicamente promover y apoyar la construcción de herramientas.
La National Science Foundation (nsf) cuenta ahora con una organización de ciberin-
fraestructura; y no quiero decir nada malo acerca de ellos, pero se necesita más que
sólo apoyo para el proyecto TeraGrid y la computación de alto rendimiento. Ahora
sabemos cómo construir clústeres Beowulf para conseguir cómputo de alto rendi-
miento barato; pero no sabemos cómo construir una verdadera malla de datos (data
grid) o cómo crear almacenes de información a partir de “ladrillos de datos” de bajo
costo donde alguien pueda guardar todos sus datos y luego analizar la información.
En realidad hemos hecho progresos en las herramientas de simulación, pero no en
las herramientas de análisis de datos.
PIRÁMIDES DE PROYECTOS Y FINANCIAMIENTO DE LA PIRÁMIDE
En esta sección hago simplemente una observación acerca de la manera en que la
mayoría de los proyectos científicos parecen funcionar. Hay pocos proyectos interna-
cionales, hay más proyectos multicampus, y luego hay muchos más proyectos de un
solo laboratorio. Así que básicamente tenemos esta pirámide de instalaciones nivel 1,
nivel 2 y nivel 3, que encontramos una y otra vez en muchos campos diferentes.
Los proyectos de los niveles 1 y 2 generalmente están organizados y administrados
de manera sistemática; pero existen relativamente pocos proyectos de esa índole.
Estos grandes proyectos pueden darse el lujo de tener un presupuesto para software
y otro para hardware, y asignar equipos de científicos para escribir software a la
medida del experimento. A modo de ejemplo, he estado viendo que el observa-
torio de océanos estadounidense-canadiense —el proyecto Neptune— asigna aproxi-
madamente 30% de su presupuesto a ciberinfraestructura [3]. En números redondos,
eso es 30% de 350 millones de dólares, o algo así como ¡100 millones de dólares! De
manera semejante, los experimentos del gch cuentan con un enorme presupuesto
para software, y esta tendencia hacia presupuestos cuantiosos para software también
es evidente desde el temprano experimento BaBar [4, 5]. Pero si es usted un científico
xxii
de laboratorio en la parte inferior de la pirámide, ¿qué puede hacer para conseguir
algún presupuesto para software? Básicamente terminará comprando matlab3 y
Excel4 o algún otro paquete similar y arreglándoselas con este tipo de herramientas
comerciales. No hay mucho más que pueda hacer.
Así pues, los gigaproyectos y los megaproyectos se ven impulsados en gran medida
por la necesidad de algunos recursos de gran escala, como supercomputadoras, teles-
copios u otras instalaciones experimentales de gran magnitud. Estas instalaciones
normalmente las utiliza una importante comunidad de científicos y necesitan ser
financiadas en su totalidad por organismos como la nsf o el Departamento de
Energía. Los proyectos de menor escala por lo general obtienen fondos de una mayor
diversidad de fuentes, con apoyo de organismos de financiamiento a menudo con-
juntamente con alguna otra organización —que podría ser la propia universidad—.
En el artículo que Gordon Bell, Alex Szalay y yo escribimos para ieee Computer
[6] hicimos notar que las instalaciones de nivel 1, como el gch, son financiadas
por un consorcio internacional de organismos, pero los experimentos del gch de
nivel 2 y las instalaciones de nivel 3 son financiadas por los investigadores, que
traen consigo sus propias fuentes de financiamiento. Así que los organismos de
financiamiento deben apoyareconómicamente en su totalidad los gigaproyectos
de nivel 1 y luego asignar la otra mitad de sus fondos a la ciberinfraestructura para
proyectos más pequeños.
SISTEMAS DE ADMINISTRACIÓN DE INFORMACIÓN PARA LABORATORIOS
Para resumir lo que he estado diciendo sobre software, lo que efectivamente nece-
sitamos son “sistemas de administración de información para laboratorios”. Tales
sistemas de software ofrecen una ruta desde los datos que se obtienen mediante el
instrumento o la simulación hasta un archivo o depósito de datos, y es algo que es-
tamos a punto de lograr en varios casos modelo sobre los que he estado trabajando.
Básicamente, colocamos los datos de un grupo de instrumentos en una secuencia
que los calibra y los “limpia”, e inclusive llena los huecos según sea necesario. En
seguida, volvemos a “cuadrar”5 (re-grid) la información y finalmente la guardamos en
una base de datos, la cual podríamos “publicar” en internet y de esa manera permitir
que la gente tenga acceso a nuestra información.
3 www.mathworks.com
4 http://office.microsoft.com/en-us/excel/default.aspx
5 Esto significa “regularizar” la organización de los datos de manera que quede una variable de datos por fila, lo cual
es análogo a la normalización en las bases de datos relacionales.
JIM GRAY SOBRE LA E- CIENCIA
xxiiiEL CUARTO PARADIGM A
Toda la cuestión de pasar de un instrumento a un navegador Web implica un enor-
me número de habilidades. Sin embargo, lo que en realidad sucede es muy simple.
Debiéramos poder crear un paquete tipo Beowulf y algunas plantillas que permitirían
a quienes llevan a cabo experimentos de laboratorio húmedo simplemente reunir
sus datos, guardarlos en una base de datos y publicarlos. Para lograr esto habría que
crear unos cuantos prototipos y documentarlos. Tomará varios años lograrlo, pero
repercutirá de manera decisiva en la manera en que se hace la ciencia.
Como ya he dicho, esas secuencias de software se denominan sistemas de admi-
nistración de información para laboratorios (sail). Entre paréntesis: existen versiones
comerciales, y uno puede comprar un sistema sail listo para ser usado. El problema
es que tales sistemas en realidad están dirigidos a personas que son muy ricas y que
se encuentran en un entorno industrial. Además, a menudo son bastante específicos
para una u otra tarea propia de alguna comunidad en particular —tal como tomar
datos de una máquina de secuenciación o un espectrómetro de masas, correrlos en
el sistema y obtener resultados en la salida—.
ADMINISTRACIÓN DE INFORMACIÓN Y ANÁLISIS DE DATOS
He aquí una situación típica. La gente está reuniendo datos ya sea a partir de
instrumentos o de sensores, o corriendo simulaciones. Muy pronto se ven con
millones de archivos, y no hay una manera fácil de administrar o analizar sus
datos. He ido de puerta en puerta y he visto lo que los científicos han hecho. En
general, hacen una de dos cosas: o bien están buscando agujas en pajares o están
buscando los pajares mismos. Las consultas del tipo “aguja en el pajar” son en
realidad muy fáciles: uno busca anomalías específicas en los datos, y generalmente
se tiene una idea del tipo de señal que se está buscando. Los físicos de partículas
están buscando la partícula de Higgs en el gch, y tienen una buena idea de cómo
se verá en sus detectores el decaimiento de tal partícula pesada. Los arreglos de
clústeres compartidos de computadoras son ideales para consultas del tipo “aguja
en el pajar”, pero son pésimos en el análisis de tendencias, el agrupamiento esta-
dístico y el descubrimiento de patrones globales en los datos.
En realidad necesitamos algoritmos mucho mejores para efectuar operaciones de
agrupamiento y para lo que es esencialmente minería de datos. Desafortunadamente,
los algoritmos de agrupamiento no son de orden N o N log N, sino que típicamente
son cúbicos en N, de modo que cuando N se vuelve demasiado grande este método
no funciona. De esta manera, nos vemos obligados a inventar nuevos algoritmos, y
uno tiene que vivir con respuestas que son sólo aproximadas. Por ejemplo, resulta
xxiv
ser sorprendentemente eficaz el uso de la mediana aproximada. ¿Y quién lo habría
adivinado? ¡Yo no!
Gran parte del análisis estadístico tiene que ver con crear muestras uniformes, llevar
a cabo algún filtrado de datos, incorporar o comparar algunas simulaciones Monte
Carlo, y así sucesivamente, todo lo cual genera una gran cantidad de archivos. Y la
situación con tales archivos es que cada uno contiene sólo un manojo de bytes. Si le
diera a usted uno de estos archivos, tendría que esforzarse mucho para averiguar lo que
significan los datos contenidos en él. Por tanto, es muy importante que los archivos sean
autodescriptivos. Cuando la gente utiliza el término base de datos, lo que fundamental-
mente está diciendo es que los datos debieran ser autodescriptivos y venir acompañados
de un esquema. Eso es realmente todo lo que significa el término base de datos. De esta
manera, si le doy una colección particular de información podrá verla y decir: “Quiero
todos los genes que tienen esta propiedad”, o “Quiero todas las estrellas que tienen esta
propiedad”, o “Quiero todas las galaxias que tienen esta propiedad”. Pero si sólo le doy
un montón de archivos, ni siquiera podrá utilizar el concepto de galaxia, y tendrá que
investigar y descubrir por usted mismo cuál es el esquema efectivo para los datos de
ese archivo. Si cuenta usted con ese esquema, podrá indexar los datos, reunirlos con
diversos criterios, ejecutar búsquedas paralelas y realizar consultas ad hoc; además,
será mucho más fácil construir algunas herramientas genéricas de visualización.
En toda justicia, debo decir que la comunidad científica ha inventado un montón
de formatos que para mí califican como formatos de bases de datos. El hdf (Hierar-
chical Data Format)6 es uno de tales formatos, y el NetCDF (Network Common Data
Form)7 es otro. Estos formatos se utilizan para el intercambio de información y llevan
consigo el esquema de los datos. Pero la ciencia en general necesita herramientas
mucho mejores que hdf y NetCDF para lograr que los datos sean autodefinitorios.
LA ENTREGA DE DATOS: LLEGANDO AL LÍMITE
La otra cuestión clave es que a medida que los conjuntos de datos se hacen más gran-
des, ya no es posible simplemente transferirlos por ftp o efectuar en ellos búsquedas
mediante expresiones regulares. ¡Es muy difícil transferir por ftp un petabyte de
datos! Así que en algún punto se necesitan índices y acceso en paralelo a éstos, y es
aquí donde las bases de datos pueden ayudar. Para su análisis, una posibilidad es
llevarlos hasta usted, pero la otra es trasladar su consulta hasta los datos. Así que se
6 www.hdfgroup.org
7 www.unidata.ucar.edu/software/netcdf
JIM GRAY SOBRE LA E- CIENCIA
xxvEL CUARTO PARADIGM A
puede trasladar las consultas o los datos. Con frecuencia, resulta ser más eficiente
trasladar las consultas que trasladar los datos.
LA NECESIDAD DE HERRAMIENTAS DE DATOS: “QUE FLOREZCAN CIEN FLORES”
Lo que he estado sugiriendo hasta ahora es que actualmente tenemos pésimas herra-
mientas para la administración de datos en la mayoría de las disciplinas científicas.
Las organizaciones comerciales como Walmart pueden permitirse el lujo de construir
su propio software de administración de datos, pero en la ciencia no podemos darnos
ese lujo. En la actualidad, difícilmente contamos con herramientas de visualización y
análisis de datos. Algunas comunidades de investigación utilizan matlab, por ejem-
plo, pero los organismos de financiamiento en Estados Unidos y en otras partes tienen
que hacer mucho más para promover la construcción de herramientas que permitan
a los científicos ser más productivos. Es verdaderamente pavoroso ir y ver lo que los
científicos están haciendo día tras día en términos de análisis de datos. Y sospecho
que muchos de ustedes están en la misma situación en la que me encuentro: ¡Esen-
cialmente las únicas herramientasque tengo a mi disposición son matlab y Excel!
Sí contamos con algunas buenas herramientas, como los clústeres Beowulf,8
que nos ofrecen cómputo rentable de alto rendimiento mediante la combinación de
muchas computadoras de bajo costo. Tenemos un software llamado Condor,9 el cual
permite recolectar ciclos de procesamiento de máquinas departamentales. Asimis-
mo, tenemos el boinc10 (Berkeley Open Infrastructure for Network Computing),
que es un software que permite la recolección de ciclos de pc como en el proyecto
seti@Home. Y tenemos algunos productos comerciales como el matlab. Todas estas
herramientas surgieron de la comunidad de investigación, y no puedo entender por
qué éstas en particular tuvieron éxito.
También tenemos el Linux y el Unix Freebsd. El Freebsd antecedió a Linux, pero de
alguna manera Linux despegó y Freebsd no. Creo que estas cuestiones tienen mucho
que ver con la comunidad, las personalidades y el momento. Así que mi sugerencia
es, simplemente, que debiéramos tener muchas cosas. Tenemos herramientas co-
merciales como Labview,11 por ejemplo, pero debiéramos crear otros tantos sistemas
similares. Y sólo necesitamos esperar que algunos de éstos despeguen. No debiera
ser muy caro sembrar un gran número de proyectos.
8 www.beowulf.org
9 www.cs.wisc.edu/condor
10 http://boinc.berkeley.edu
11 www.ni.com/labview
xxvi
LA REVOLUCIÓN QUE SE AVECINA EN LA COMUNICACIÓN ACADÉMICA
He llegado al final de la primera parte de mi conferencia, que trató sobre la necesidad
de crear herramientas para ayudar a los científicos a capturar sus datos, curarlos,
analizarlos y después visualizarlos. La segunda parte de la conferencia es acerca de la
comunicación académica. Hace aproximadamente tres años, el Congreso de Estados
Unidos aprobó una ley que recomendaba que si usted obtenía fondos de los National
Institutes of Health (nih) para financiar su investigación, debía depositar los infor-
mes de esa investigación en la National Library of Medicine (nlm), de manera que
el texto completo de los artículos quedara en el dominio público. El cumplimiento
voluntario de esta ley ha sido sólo de 3%, así que las cosas están a punto de cambiar.
Ahora es probable que veamos que toda la literatura científica apoyada con fondos
públicos sea forzada por los organismos de financiamiento a publicarse en línea.
En la actualidad existe un proyecto de ley patrocinado por los senadores Cornyn y
Lieberman que hará que sea obligatorio para los beneficiarios de las subvenciones
de los nih depositar sus artículos de investigación en el repositorio PubMed Central
de la nlm.12 En el Reino Unido, el Wellcome Trust ha puesto en acción un mandato
semejante para los beneficiarios de la investigación que financia, y ha creado un
espejo del repositorio PubMed Central.
Sin embargo, internet puede hacer más que poner a disposición pública el texto
completo de los artículos de investigación. En principio, puede unificar todos los
datos científicos con toda la literatura para crear un mundo en el que los datos y la
literatura interactúen entre sí (véase la figura 3). Usted podría estar leyendo un artí-
culo de alguien y luego ir a ver los datos originales; incluso podría volver a efectuar
el análisis en cuestión. O podría estar revisando algunos datos y luego ir a localizar
toda la literatura acerca de ellos. Esta posibilidad aumentará la “velocidad de la infor-
mación” de las ciencias y mejorará la productividad científica de los investigadores.
¡Y creo que esto sería un desarrollo muy bueno!
Tómese el ejemplo de alguien que trabaja para los National Institutes of Health
—que es el caso que se está discutiendo aquí— y que elabora un informe. Supongamos
que descubre algo sobre la enfermedad X. Usted va al médico y dice: “Doctor, ¡no me
siento muy bien!”, y él dice: “Andy, le vamos a hacer unos cuantos análisis clínicos”.
Y le hacen unos cuantos análisis clínicos. Su médico lo llama al día siguiente y le
dice: “No hay nada malo con usted. Tómese dos aspirinas, y tome unas vacaciones”.
12 Véase el Open Access Newsletter de Peter Suber para un resumen de la situación actual: www.earlham.edu/~peters
/fos/newsletter/01-02-08.htm.
JIM GRAY SOBRE LA E- CIENCIA
xxviiEL CUARTO PARADIGM A
Regresa usted un año después y se repite la historia. Tres años más tarde, el médico
lo llama y le dice: “Andy, ¡descubrimos que usted tiene X!” Pregunta usted: “¿Qué
es X?”, y él responde: “No tengo idea, es una enfermedad rara, pero hay un tipo en
Nueva York que sabe todo acerca de ella”. Así que entra a Google13 y escribe todos sus
síntomas. En la primera página de los resultados aparece X. Selecciona el enlace y es
dirigido a PubMed Central y al resumen del artículo “Todo acerca de X”. Selecciona
eso y llega al sitio de la New England Journal of Medicine, donde se le pide: “Páguenos
por favor 100 dólares y le permitiremos leer acerca de X”. Busca y encuentra que
el autor trabaja para los nih, que funciona gracias al dinero de sus impuestos. Por
lo anterior, Lieberman14 y otros han manifestado: “Esto es un asco. La información
científica pasa ahora por un filtro de revisión de expertos y se coloca en el dominio
público, pero sólo en el sentido de que cualquiera puede leerla si paga por ello. ¿De
qué se trata entonces? Ya hemos pagado por ello”.
Los editores académicos ofrecen el servicio de organizar la revisión por pares,
imprimir la revista y distribuir la información a las bibliotecas. Sin embargo, internet
es ahora nuestro distribuidor, y es más o menos gratuito. Todo esto está relacionado
con el momento de reflexión por el que está pasando la sociedad acerca de dónde
inicia y dónde termina la propiedad intelectual. La literatura científica, y en par-
13 O como Jim podría haber sugerido hoy: Bing.
14 Ley Federal de Acceso Público a la Investigación (Federal Research Public Access Act), de 2006, por Cornyn y
Lieberman.
Todos los datos científicos en línea
• Muchas disciplinas se superponen y utilizan •
datos de otras ciencias
• Internet puede unificar toda la literatura
• y los datos
• Ir desde la literatura a los cómputos
• y los datos, y de vuelta a la literatura
• La información al alcance de todos
• en todas partes
• Aumentar la velocidad de
• la información científica
• Enorme aumento en la productividad
• científica
Datos derivados y
recombinados
Literatura
Datos sin procesar
FIGURA 3.
xxviii
ticular la que sigue un proceso de revisión por pares, es probablemente uno de los
lugares donde termina. Si desea obtener información acerca de la enfermedad X,
probablemente podrá descubrir que las semillas del durazno son un magnífico tra-
tamiento para X. Pero esa información no proviene de la literatura arbitrada y está
disponible sólo porque hay por ahí un tipo que le quiere vender semillas de durazno
para curar X. Así que quienes han liderado el movimiento hacia el acceso abierto
han sido principalmente personas que trabajan en el campo de la salud pública, ya
que la buena información sobre el cuidado de la salud está resguardada bajo llave,
mientras que la mala información circula por internet.
LA NUEVA BIBLIOTECA DIGITAL
¿Cómo funciona la nueva biblioteca? Bueno, es gratis porque es muy fácil publicar
una página o un artículo en internet. Cada uno de ustedes puede darse el lujo de
publicar en PubMed Central. Sólo le costaría unos pocos miles de dólares obtener
una computadora —¡aunque no sé qué cantidad de accesos tendría!—. Sin embargo,
la curaduría no es barata. Colocar la información en la computadora, interindexarla
y todo ese tipo de cuestiones implican para la nlm un costo de curaduría de alre-
dedor de 100 dólares por artículo presentado. Si recibe un millón de artículos al
año, que es aproximadamente lo que espera obtener, sólo la curación del material
va a costar 100 millones de dólares anuales. Por eso es necesario automatizar todo
el proceso de curación.
Lo que está sucediendo ahora es que PubMed Central, el brazo digital dela nlm, se
ha vuelto portátil. Hay versiones de PubMed Central en funcionamiento en el Reino
Unido, en Italia, en Sudáfrica, en Japón y en China. La del Reino Unido se puso en línea
apenas la semana pasada. Podrán entender ustedes, por ejemplo, que los franceses no
quieren que su biblioteca nacional de medicina se encuentre en Bethesda, Maryland,
o en inglés. Y los ingleses no quieren que el texto esté en inglés estadounidense, por
lo que la versión del Reino Unido probablemente utilizará, para lo que aparezca en
su interfaz Web, la ortografía del inglés británico. Pero fundamentalmente, se puede
colocar un documento en cualquiera de estos archivos y éste se reproducirá en el resto.
Es bastante barato administrar alguno de estos archivos, pero los grandes desafíos
radican en cómo hacer la curación y el arbitraje o revisión por pares.
REVISTAS ARBITRADAS DE ACCESO ABIERTO
Así es como pienso que podría funcionar, para lo cual me baso en el concepto de
las revistas arbitradas de acceso abierto (overlay journals). La idea es que tenemos
JIM GRAY SOBRE LA E- CIENCIA
xxixEL CUARTO PARADIGM A
archivos para datos y archivos para literatura. Los artículos se depositan en los ar-
chivos de literatura, y los datos van a los archivos de datos. Entonces hay un sistema
de administración de revistas que alguien ha construido, el cual nos permite, como
grupo, producir una revista sobre X. Permitimos que las personas envíen artículos
a nuestra revista depositándolos en el archivo. Los sometemos a revisión por pares
y, para los que nos gustan, elaboramos una portada donde decimos: “Éstos son los
artículos que nos gustan”, y también la ponemos en el archivo. Ahora, llega un mo-
tor de búsqueda y eleva la calificación de todos esos artículos clasificándolos como
buenos gracias a que ahora están referenciados por esta muy importante página ini-
cial. Estos artículos, por supuesto, también pueden referirnos de vuelta a los datos.
Entonces entra en escena un sistema de colaboración que permite a las personas
hacer anotaciones y comentar sobre los artículos de la revista. Los comentarios no
se almacenan en el archivo arbitrado sino aparte, ya que no han sido revisados por
pares, aunque podrían moderarse.
La National Library of Medicine va a hacer todo esto para la comunidad biomé-
dica, pero no está ocurriendo lo mismo en otras comunidades científicas. Deben
saber, como miembros de la cstb, que la comunidad de ciencias de la computación
podría ayudar a que esto suceda proporcionando herramientas adecuadas para las
otras disciplinas científicas.
Hay un software que hemos creado en Microsoft Research llamado Herramienta
de Administración de Congresos (cmt, Conference Management Tool). Hemos lle-
vado a cabo cerca de 300 congresos con ella, y el servicio de cmt hace que sea trivial
crear un congreso. La herramienta cubre todo el flujo de trabajo: la formación de un
comité a cargo del programa, la publicación de un sitio web, la aceptación de manus-
critos, la declaración de conflictos de interés y la recusación personal, la producción
de reseñas, la decisión sobre los artículos que han de aceptarse, la confección del
programa, la notificación a los autores, las revisiones y así sucesivamente. Ahora esta-
mos trabajando en agregar un botón que permita depositar los artículos en arXiv.org
o en PubMed Central, y también trabajamos en incorporar la portada. Esto nos
da ahora la posibilidad de capturar talleres y congresos con mucha facilidad; pero
también permitirá editar una revista en línea. Este mecanismo haría que fuese muy
fácil crear revistas arbitradas de acceso abierto.
Alguien preguntó antes si esto no signficaría un duro golpe para los editores
académicos. Y la respuesta es que sí. ¿Pero acaso no va a ser también difícil para la
ieee y la acm? La respuesta es que las sociedades profesionales están aterrorizadas
ante la posibilidad de que si no tienen algún artículo que enviarles, ustedes no se
xxx
afiliarán a ellas. Creo que van a tener que lidiar con esto de alguna manera, porque
pienso que el acceso abierto será una realidad. Mirando a mi alrededor en esta sala,
me doy cuenta de que la mayoría de nosotros somos viejos y no de la generación X.
La mayoría de nosotros nos afiliamos a estas organizaciones simplemente porque
pensamos que es parte de ser un profesional en nuestro campo. El problema es que
los miembros de la generación X no se afilian a organizaciones.
¿QUÉ SUCEDE CON LA REVISIÓN POR PARES?
Esto no es una cuestión que les haya preocupado a ustedes, pero mucha gente dice:
“¿Por qué es absolutamente necesaria la revisión por pares? ¿Por qué no sólo tenemos
una wiki?” Y pienso que la respuesta es que la revisión por pares es diferente. Está
muy estructurada, se modera y hay determinado grado de confidencialidad sobre
lo que dice la gente. Una wiki es mucho más igualitaria. Creo que las wikis tienen
mucho sentido si se trata de reunir comentarios acerca de la literatura después de que
se ha publicado determinado artículo. Se necesita alguna estructura para el proceso
de revisión por pares, como la que provee la cmt.
LA PUBLICACIÓN DE DATOS
Es mejor que me apresure y comente rápidamente la publicación de datos. He ha-
blado acerca de la publicación de artículos, pero si la respuesta es 42, ¿cuáles son
las unidades? Uno puede colocar algunos datos en un archivo en internet, pero esto
nos lleva de vuelta al problema de los archivos. El registro importante para mostrar
nuestro trabajo en contexto se llama procedencia de los datos. ¿Cómo se obtuvo el
número 42?
He aquí un experimento imaginario. Usted ha hecho algo de ciencia, y quiere
publicar sus resultados. ¿Cómo los publica para que otros puedan leerlos y además
reproducirlos de aquí a cien años? Mendel lo hizo, y también Darwin, pero a duras
penas. Ahora estamos más rezagados que Mendel y Darwin en cuanto a las técnicas
para hacer esto. Es un desastre, y tenemos que trabajar en este problema.
DATOS, INFORMACIÓN Y CONOCIMIENTOS: LAS ONTOLOGÍAS Y LA SEMÁNTICA
Estamos tratando de hacer objetivos los conocimientos. Podemos ayudar con cues-
tiones básicas como las unidades, lo que es una medición, quién tomó esa medición
y cuándo la tomó. Éstas son cuestiones genéricas que se aplican en todos los campos.
Aquí [en Microsoft Research] hacemos ciencia de la computación. ¿Qué queremos
decir con planeta, estrella y galaxia?; eso es astronomía. ¿Qué es un gen?; eso es
JIM GRAY SOBRE LA E- CIENCIA
xxxiEL CUARTO PARADIGM A
biología. Así que ¿cuáles son los objetos, cuáles son los atributos y cuáles son los
métodos (en el sentido de orientación a objetos) que se utilizan en dichos objetos? Y
nótese, entre paréntesis, que internet realmente se está convirtiendo en un sistema
orientado a objetos en el que la gente extrae objetos. En el mundo de los negocios se
está objetivando lo que es un cliente, lo que es una factura, y así sucesivamente. En
las ciencias, por ejemplo, y de manera similar, necesitamos objetivar lo que es un
gen —que es lo que hace GenBank—.15
Y aquí es necesario advertir que, para ir más lejos, necesariamente tropeza-
remos con las palabras “ontología”, “esquema” y “vocabularios controlados”. Es
decir, al tomar este camino empezaremos a hablar de semántica; en otras pala-
bras, ¿qué significan las cosas? Y por supuesto que cada quien tiene una opinión
diferente de lo que significan las cosas, por lo que las conversaciones pueden
extenderse sin fin.
El mejor ejemplo de todo esto es Entrez,16 el motor de búsqueda de las ciencias
biológicas creado por el National Center for Biotechnology Information para la nlm.
Entrez permite búsquedas en PubMed Central, que contiene las publicaciones, pero
también tienen datos de filogenia, secuencias de nucleótidos, secuencias de proteí-
nas y sus estructuras en 3-D, y también cuentan con GenBank. Es un sistema muy
impresionante en realidad. También han construido la base de datos PubChem y
muchas otras cosas. Todo estoconstituye un ejemplo de la interoperabilidad de los
datos y la literatura. Usted puede estar examinando un artículo, ir a los datos gené-
ticos, seguir el camino desde el gen hasta la enfermedad, regresar a la literatura y
así sucesivamente. ¡Es realmente asombroso!
Así que en este mundo, tradicionalmente hemos tenido autores, editores, curado-
res y consumidores. En el nuevo mundo, los científicos individuales trabajan ahora
en equipo, y las revistas se están convirtiendo en sitios Web que alojan los datos y
otros detalles de los experimentos. Los curadores se encargan ahora de voluminosos
archivos digitales, y lo único que sigue permaneciendo aproximadamente igual es
el científico individual. Verdaderamente es un cambio radical en la forma en que
hacemos ciencia.
Un problema es que todos los proyectos terminan en determinado momento y
no hay claridad sobre lo que pasa entonces con los datos. Los datos aparecen a toda
escala. Hay antropólogos reuniendo información en campo y anotándola en sus
15 www.ncbi.nlm.nih.gov/Genbank
16 www.ncbi.nlm.nih.gov/Entrez
xxxii
cuadernos; y luego están los físicos de partículas en el gch. La mayoría de los bytes
se encuentran en el extremo superior de la cadena, pero la mayoría de los conjuntos
de datos se encuentran en el extremo inferior. Ahora estamos empezando a ver “hi-
bridaciones” (mashups) en las que las personas toman conjuntos de datos de varios
lugares y los reúnen para crear un nuevo conjunto de datos. Así, en el mismo sentido
en que necesitamos archivos para publicaciones en revistas, necesitamos archivos
para los datos.
Así que ésta es mi última recomendación a la cstb: promuevan las bibliotecas
digitales de datos. Francamente, el proyecto de la Biblioteca Digital de la nsf se
trataba enteramente de metadatos para bibliotecas y no de verdaderas bibliotecas
digitales. Debiéramos construir bibliotecas digitales reales tanto para los datos como
para la literatura.
RESUMEN
He querido exponer que casi todo lo relacionado con la ciencia está cambiando
gracias al impacto de la tecnología de la información. Las ciencias experimentales,
las teóricas y las computacionales todas están siendo afectadas por la avalancha de
datos, y está surgiendo un cuarto paradigma de la ciencia: la ciencia intensiva
en datos. La meta es tener un mundo en el que toda la literatura científica esté en
línea, todos los datos científicos estén en línea, y que interactúen. Se necesitan mu-
chas herramientas nuevas para que esto suceda.
NOTA DE LOS EDITORES
La transcripción completa y las diapositivas en PowerPoint de la conferencia de Jim
se pueden encontrar en el sitio Web Fourth Paradigm.17 Las preguntas y respuestas
durante la conferencia se han extraído de este texto y están disponibles en el sitio
Web (téngase en cuenta que no se ha identificado a los interlocutores por su nom-
bre). El texto que aquí se presenta incluye algunas ediciones menores para mejorar
la legibilidad, así como notas al pie y referencias que hemos agregado, pero creemos
que el texto sigue siendo fiel a la presentación de Jim.
17 www.fourthparadigm.org
JIM GRAY SOBRE LA E- CIENCIA
xxxiiiEL CUARTO PARADIGM A
REFERENCIAS
[1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 2009, pp.
1297-1298, doi: 10.1126/science.1170411.
[2] J. Wing, “Computational Thinking”, Comm. ACM, vol. 49, núm. 3, marzo de 2006, doi:
10.1145/1118178.1118215.
[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.
[4] Experimentos del Gran Colisionador de Hadrones, http://public.web.cern.ch/Public/en/LHC/LHC
Experiments-en.html.
[5] Experimento BaBar, www.slac.stanford.edu/BFROOT.
[6] G. Bell, J. Gray y A. Szalay, “Petascale Computational Systems”, IEEE Computer, vol. 39, 2006, pp.
110-112, doi: 10.1109/MC.2006.29.
1 . T I E R R A Y M E D I O A M B I E N T E
3EL CUARTO PARADIGM A
TI ER R A Y M EDIO AM BI ENTE
Introducción
l cambio es inevitable: el universo se expande, la na-
turaleza se adapta y evoluciona, y así deben hacerlo las
herramientas científicas y las tecnologías que empleamos
para alimentar nuestra búsqueda implacable de mayores
conocimientos en las ciencias del espacio, de la Tierra y del medio
ambiente. Las oportunidades y los desafíos son muchos. Las nuevas
tecnologías computacionales, tales como la computación en la nube
y los procesadores multinúcleo, no pueden proporcionarnos la solu-
ción completa en sus formas genéricas, pero la aplicación efectiva y
oportuna de tales tecnologías nos puede ayudar a avanzar de manera
significativa en nuestra comprensión del mundo, incluyendo sus
desafíos ambientales y cómo podríamos abordarlos.
Con la ciencia en proceso de volverse computacional y basada
en datos, los principales retos tecnológicos incluyen la necesidad
de capturar, analizar, modelar y visualizar información científica
de mejor manera. El objetivo final es ayudar a los científicos, a los
investigadores, a los responsables de políticas y al público en general
en la toma de decisiones informadas. Conforme la sociedad exige
acción y capacidad de respuesta a los crecientes problemas ambien-
tales, los nuevos tipos de aplicaciones basadas en la investigación
científica tendrán que pasar del descubrimiento puro y la obten-
ción de datos básicos que conducen al conocimiento, a informar
la toma de decisiones prácticas. Problemas apremiantes como el
E
DAN FAY | Microsoft Research
4 TIERRA Y MEDIO AMBIENTE
cambio climático no esperarán hasta que los científicos reúnan todos los datos para
llenar sus vacíos de conocimiento.
Como se desprende de los capítulos de esta parte del libro, los científicos en
realidad están buscando activamente el saber científico mediante el uso de nuevas
tecnologías computacionales. Szalay y Blakeley describen las reglas informales de
Jim Gray para el desarrollo centrado en datos, y la forma en que sirven como modelo
para lograr que conjuntos de datos a gran escala sean accesibles mediante el uso de
bases de datos, aprovechando tanto los sistemas de administración de datos como
el procesamiento en paralelo incorporados a los servidores sql.
Con el fin de facilitar la toma informada de decisiones con base en evidencias
científicas confiables, Dozier y Gail exploran cómo el uso aplicado de la tecnología y
de los conocimientos científicos actuales son clave para proporcionar herramientas
a los responsables de las políticas y de la toma de decisiones. Hunt, Baldocchi y Van
Ingen describen los cambios en curso en las ciencias ecológicas, que están pasando
de la “ciencia en lo pequeño” a las grandes colaboraciones basadas en la síntesis de da-
tos. Estos conjuntos agregados de datos exponen la necesidad de herramientas
de colaboración en la nube, así como de herramientas de visualización y de análi-
sis fáciles de usar. A continuación, Delaney y Barga proporcionan perspicaces in-
tuiciones convincentes sobre la necesidad de monitorear en tiempo real la compleja
dinámica en el mar mediante la creación de un laboratorio marino interactivo. Esta
novedosa ciberinfraestructura permitirá nuevos descubrimientos y conocimientos
a través de mejores modelos oceánicos.
Goodman y Wong destacan la necesidad de nuevas tecnologías de exploración
científica. Para impulsar la vinculación entre los recursos existentes, los astróno-
mos pueden usar una nueva clase de herramientas de visualización, tales como el
WorldWide Telescope (wwt). Esta nueva clase de herramienta ofrece acceso a datos e
información no sólo a los científicos profesionales, sino también al público en general,
tanto para la educación como para posiblemente permitir nuevos descubrimientos
por parte de cualquier persona que tenga acceso a Internet. Por último, Lehning y sus
colaboradores proporcionan detalles acerca del uso de sensores en tiempo real den-
samente desplegados en combinación con recursos de visualización para una mayor
comprensión de la dinámica del ambiente —comoun telescopio virtual que mira hacia
la Tierra—. Estas aplicaciones ilustran cómo los científicos y los tecnólogos tienen la
oportunidad de implicar y hacer participar a científicos ciudadanos en sus esfuerzos.
En la Parte 1, y en todo el libro, veremos cómo es que nuevos sensores e infraes-
tructuras permiten el acceso en tiempo real a potencialmente enormes cantidades de
5EL CUARTO PARADIGM A
datos, pero con capacidad de repetición experimental mediante el uso de flujos de tra-
bajo. Las arquitecturas orientadas a servicios están ayudando a mitigar la transición
a las nuevas tecnologías subyacentes y permiten la vinculación de datos y recursos.
Este proceso de rápida evolución es el único mecanismo que tenemos para hacer
frente al torrente de datos que surge de nuestros instrumentos.
La pregunta es cómo los recursos intelectuales y tecnológicos del mundo se pueden
instrumentar mejor para guiar con autoridad nuestras respuestas a los retos actuales y
futuros de la sociedad. Los capítulos que siguen ofrecen algunas excelentes respuestas.
7EL CUARTO PARADIGM A
TI ER R A Y M EDIO AM BI ENTE
Las leyes de Gray:
cómputo científico centrado
en bases de datos
ALEXANDER S .
SZALAY
The Johns Hopkins
University
JOSÉ A . BLAKELEY
Microsoft
l crecimiento explosivo de los datos científicos plantea
un desafío importante a la investigación de frontera. Ante
conjuntos de datos que rebasan las decenas de terabytes,
los científicos no cuentan con herramientas comerciales
prediseñadas que puedan aplicar en el manejo y análisis de la in-
formación [1]. Los proyectos exitosos a la fecha han recurrido a
distintas combinaciones de archivos planos y bases de datos [2]; sin
embargo, muchas de estas soluciones han sido creadas a la medida
de proyectos específicos y su generalización o escalamiento para la
próxima generación de experimentos no parece una tarea sencilla.
Por otro lado, las modernas arquitecturas computacionales pre-
sentan un creciente desequilibrio; la brecha de latencia entre los
cpu multinúcleo y los discos duros mecánicos aumenta cada año,
lo que dificulta aún más remontar los retos que supone el cómputo
intensivo en datos [3]. Es necesario un enfoque sistemático general
respecto a estos problemas, aunado al diseño de arquitecturas con
capacidad de escalamiento futuro.
LAS LEYES DE GRAY
Jim Gray formuló una serie de lineamientos o leyes informales que
codifican la forma de abordar problemas de ingeniería de datos
relacionados con el procesamiento de grandes volúmenes de infor-
mación científica. Las leyes son las siguientes:
E
8 TIERRA Y MEDIO AMBIENTE
1. El cómputo científico se está volviendo cada vez más intensivo en datos.
2. La solución radica en una arquitectura con “escalabilidad horizontal”.
3. Llevar los cálculos a los datos, más que los datos a los cálculos.
4. Empezar el diseño con las “20 preguntas”.
5. Avanzar de “funcional a funcional”.
Es importante notar que el análisis de los conjuntos de datos provenientes de obser-
vaciones está rigurosamente limitado por el bajo desempeño de entrada/salida (e/s) que
presentan muchas plataformas computacionales modernas; de hecho, las simulaciones
numéricas de alto rendimiento también están resintiendo el “cuello de botella de e/s”.
Una vez que determinado conjunto de datos excede la capacidad de memoria ram del
sistema, la localidad en caché multicapa resulta ineficaz [4]; sin embargo, muy pocas
plataformas de alto nivel cuentan con subsistemas de e/s suficientemente veloces.
La computación numérica escalable de alto desempeño también representa un reto
algorítmico. Los paquetes tradicionales de análisis numérico están diseñados para
operar en conjuntos de datos que caben en ram. Cuando los análisis por realizar son
varios órdenes de magnitud mayores, estos paquetes deben rediseñarse para trabajar
en múltiples fases, siguiendo una estrategia de “dividir y vencer”, pero sin perder
precisión numérica. Esto sugiere un criterio en el que un problema de gran escala se
descompone en piezas más pequeñas que pueden resolverse en ram, mientras que
el resto del conjunto de datos reside en disco. Este enfoque es análogo a la manera
en que los algoritmos de bases de datos, como los ordenamientos y combinaciones
(joins), funcionan en conjuntos de datos mayores que el ram. Estos retos están al-
canzando un momento crítico.
Adquirir sistemas más grandes de almacenamiento en red y añadírselos a clús-
ters de nodos de cómputo no va a solucionar el problema, ya que las velocidades de
red y de interconexión no crecen lo suficientemente rápido como para lidiar con
las necesidades de almacenamiento que se duplican anualmente. Las soluciones
escalables horizontalmente proponen el uso de bloques simples en los cuales los
datos se encuentren particionados entre nodos con almacenaje local incorporado
[5]. Entre más pequeños y sencillos sean estos bloques mejor será el balance entre
los cpu, discos y redes. Gray visualizó “ciberladrillos” simples, donde cada unidad de
disco contaba con su propio cpu y conexión de red [6]. Si bien el número de nodos
en un sistema de este tipo sería mucho más grande que en una arquitectura “esca-
lable verticalmente”, la sencillez y bajo costo de cada nodo, así como el desempeño
combinado, compensarían con creces la complejidad adicional. Con el surgimien-
9EL CUARTO PARADIGM A
to de los discos de estado sólido y las tarjetas madre de bajo consumo estamos cerca
de poder construir sistemas de este tipo [7].
CÓMPUTO CENTRADO EN BASES DE DATOS
Muchos análisis de datos científicos se realizan en una serie jerárquica de pasos. En
una primera etapa se extrae un subconjunto de los datos, ya sea filtrando a partir
de ciertos atributos (por ejemplo, eliminando datos erróneos) o extrayendo un sub-
conjunto vertical de las columnas. En el siguiente paso, los datos son generalmente
transformados o reunidos de alguna manera. Por supuesto, en conjuntos de datos más
complejos, estos patrones se acompañan frecuentemente de combinaciones complejas
entre múltiples conjuntos de datos, como sería el caso de las calibraciones externas
o la extracción y análisis de distintas porciones de una secuencia genética [8]. Dado
que los conjuntos de datos son cada vez más grandes, la manera más eficiente de
realizar estas operaciones es claramente llevar las funciones de análisis tan cerca
de los datos como sea posible. También tenemos que muchos de estos patrones se
pueden expresar fácilmente mediante un lenguaje declarativo orientado a conjuntos,
cuya ejecución puede beneficiarse enormemente de la optimización de consultas
(queries) basada en costos, paralelismo automático e índices.
Gray y sus colaboradores han mostrado en varios proyectos que las actuales tec-
nologías de bases de datos relacionales pueden aplicarse con éxito en este contexto
[9]. También existen maneras transparentes de incorporar complejas bibliotecas de
clases escritas en lenguajes de procedimientos como una extensión de la maquinaria
de base de datos subyacente [10, 11].
En años recientes, MapReduce ha ganado popularidad como un paradigma de cóm-
puto y de análisis distribuido de datos [12]. Los principios detrás de este paradigma
son semejantes a las capacidades de agrupamiento distribuido y de agregación que
existen desde hace algún tiempo en sistemas paralelos de bases de datos relacionales.
Bases de datos paralelas de nueva generación, como Teradata, Aster Data y Vertica,
han rebautizado estas capacidades como “MapReduce en la base de datos”. Se han
desarrollado nuevos indicadores para comparar los méritos de cada estrategia [13].
COMUNICACIÓN CON LOS CIENTÍFICOS
Uno de los problemas más desafiantes al diseñar bases de datos científicas es esta-
blecer una comunicación efectiva entre el autor de la base de datos y los científicos
del área interesados en el análisis. Casi todos los proyectos cometen el error de tratar
de ser “todo para todos”; es claro que algunas funciones son másimportantes que
10 TIERRA Y MEDIO AMBIENTE
otras y que es necesario hacer algunas concesiones en el diseño, lo que conlleva
concesiones de desempeño.
Jim Gray creó la regla heurística de las “20 preguntas”. En cada proyecto en el
que participaba solicitaba a los investigadores una lista de las 20 preguntas más
importantes que querían que respondiera el sistema de datos. Él sostenía que cinco
preguntas no son suficientes para ver un patrón más amplio y que 100 preguntas
producirían una pérdida de enfoque. Como casi toda elección que incluye decisiones
humanas sigue una distribución de “larga cola” —la llamada distribución 1/f—, es
claro que la información relativa en las preguntas ordenadas por importancia es
logarítmica; por lo tanto, la ganancia obtenida al pasar de unas 20 (24.5) preguntas
a 100 (26.5) es muy pequeña [14].
La regla de las “20 preguntas” es sólo un rótulo para designar una etapa en el
diseño donde el científico del área y el ingeniero de bases de datos entablan una con-
versación que ayuda a superar la brecha semántica entre los sustantivos y los verbos
que se emplean en el campo científico en cuestión y las entidades y relaciones que se
almacenan en la base de datos. Las preguntas definen así el conjunto específico de
consultas, en términos de entidades y relaciones, que los científicos del área esperan
hacerle a la base de datos. Al final de un ciclo completo de este ejercicio, el científico
y la base de datos hablan el mismo idioma.
Esta estrategia ha sido muy exitosa para mantener el proceso de diseño enfocado
en las funciones más importantes que el sistema debe proveer y, al mismo tiempo,
ayudar a los científicos del área a entender mejor las limitaciones del sistema de base
de datos, reduciendo así la “sobrecarga de funciones”.
Otra regla de diseño es avanzar de versión funcional en versión funcional. Gray
era plenamente consciente de la rapidez con que cambia la arquitectura del cómputo
basado en datos, especialmente si esos datos son distribuidos. Nuevos paradigmas de
cómputo distribuido nacen y mueren cada año, haciendo sumamente difícil emprender
un ciclo descendente (top-down) de diseño e implementación que abarque un periodo
de varios años, ya que para cuando tal proyecto se concluye las premisas iniciales han
quedado obsoletas. Si construimos un sistema que comience a funcionar únicamente
cuando todos sus componentes funcionen de manera correcta, nunca terminaremos.
En un contexto así, la única manera de sobrevivir y progresar es construir sistemas
modulares en los que cada componente individual pueda ser reemplazado cuando la
tecnología en la cual está basado evolucione. Las actuales arquitecturas orientadas
a servicios son un buen ejemplo de esto; los servicios Web han pasado ya por varias
etapas evolutivas y el fin de este proceso aún no se vislumbra.
11EL CUARTO PARADIGM A
DE LOS TERABYTES A LOS PETABYTES EN LAS BASES DE DATOS CIENTÍFICAS
Hemos abordado de manera exitosa varios proyectos del rango de unos cuantos
terabytes (tb) a decenas de terabytes utilizando Microsoft sql Server [15-17]. La
implementación de bases de datos que pronto excederán los 100 tb aparenta ser
también un proceso directo [18]; pero no es del todo claro cómo es que la ciencia
podrá cruzar la barrera de los petabytes. En la medida en que las bases de datos
sigan creciendo, tendrán que recurrir a arquitecturas cada vez más escalables ho-
rizontalmente. Los datos estarán fuertemente segmentados, provocando que las
consultas distribuidas no locales y las combinaciones distribuidas (distributed joins)
sean cada vez más difíciles.
Para casi todos los problemas que actualmente alcanzan la escala de los petabytes
se ha aplicado con éxito una estrategia simple de rastreo sobre particiones de datos
masivamente escaladas horizontalmente y que no tienen elementos en común (Map-
Reduce, Hadoop, etc.). Sin embargo, es claro que este diseño está muy por debajo
de lo óptimo, ya que un buen índice podría mejorar el desempeño en varios órdenes
de magnitud. Las combinaciones entre tablas de muy diferentes cardinalidades son
particularmente difíciles de usar con los rastreadores (crawlers).
Las bases de datos tienen mucho que ofrecernos en términos de planes más
eficientes. También tenemos que repensar la utilidad de esperar un conjunto mo-
nolítico de resultados. Podemos imaginar rastreadores trabajando sobre bases de
datos altamente segmentadas, implementando una estructura que pueda generar
resultados un bloque a la vez, lo que facilitaría el control punto a punto y la recu-
peración en medio de una consulta extensa. Esta estrategia también es útil para
funciones agregadas con una cláusula que detendría la búsqueda cuando se estime
que el resultado se acerca, digamos, a un 99% de exactitud. Estas sencillas mejoras
serían de gran ayuda para evitar enormes consultas monolíticas, dividiéndolas en
consultas pequeñas y más manejables.
La computación en la nube es otro paradigma que ha surgido recientemente. Ofre-
ce ventajas evidentes como la ubicación concurrente de los datos con los cómputos
y una economía de escala en el alojamiento Web de los servicios. Si bien es evidente
que estas plataformas desempeñan muy bien las tareas para las que están pensadas
en los motores de búsqueda o en los sistemas de alojamiento flexible de sitios Web
comerciales, su papel en la informática científica está todavía por definirse. En algu-
nos escenarios de análisis científico, los datos tienen que estar cerca del experimento;
en otros casos, los nodos tienen que estar estrechamente integrados con una latencia
muy baja, y en otros casos más se requiere un gran ancho de banda de e/s. Ninguna
12 TIERRA Y MEDIO AMBIENTE
de estas estrategias de análisis daría resultados óptimos en los actuales ambientes de
virtualización. Ciertamente, se espera que nubes de datos más especializadas surjan
pronto. En los próximos años veremos si la computación científica se traslada de las
universidades a los proveedores comerciales de servicios o si es necesario que los
grandes almacenes de datos científicos se fusionen en uno solo.
CONCLUSIONES
La ciencia experimental está generando grandes volúmenes de datos. El proyecto
Pan-starrs capturará 2.5 petabytes (pb) de datos cada año cuando entre en actividad
[18]. El Gran Colisionador de Hadrones (gch) generará entre 50 y 100 pb de datos
cada año, con cerca de 20 pb de esos datos almacenados y procesados en una federa-
ción mundial de redes nacionales enlazando 100 000 cpu [19]. Sin embargo, todavía
no se dispone de soluciones genéricas centradas en datos que puedan afrontar estos
volúmenes de información ni sus correspondientes análisis [20].
Los científicos y las instituciones científicas necesitan un modelo y un reperto-
rio de buenas prácticas que conduzcan a arquitecturas de hardware equilibradas y
software correspondiente para manejar esos volúmenes de datos. De esta manera,
se reduce la necesidad de reinventar la rueda. Ciertas propiedades de las bases de
datos, como los lenguajes declarativos orientados a conjuntos y el paralelismo auto-
mático, que han sido exitosas para construir aplicaciones científicas a gran escala,
son claramente necesarias.
Creemos que la actual generación de bases de datos puede lidiar con al menos
otro orden de magnitud en escala, así que por ahora podemos seguir trabajando. Sin
embargo, es momento de empezar a pensar en la siguiente generación. Las bases
de datos científicas son un indicador temprano de los requerimientos que en su
momento serán necesarios para las aplicaciones corporativas convencionales; por
tanto, lo que se invierta en estas aplicaciones llevarán a desarrollar tecnologías que
serán ampliamente aplicables en unos cuantos años. Los desafíos científicos actuales
son buenos representantes de los desafíos del manejo de datos para el siglo xxi. Las
leyes de Gray representan un excelente conjunto de principios rectores para diseñar
los sistemas intensivos