Logo Studenta

El Cuarto Descubrimiento Científico

¡Este material tiene más páginas!

Vista previa del material en texto

E l c UA R T O pA R A D I G M A
RECTOR GENERAL
Salvador Vega y León
SECRETARIO GENERAL
Norberto Manjarrez Álvarez
COORDINADOR GENERAL DE DIFUSIÓN
Walterio Beller Taboada
DIRECTOR DE PUBLICACIONES Y PROMOCIÓN EDITORIAL
Bernardo Ruiz
SUBDIRECTORA DE PUBLICACIONES
Laura González Durán
SUBDIRECTOR DE DISTRIBUCIÓN Y PROMOCIÓN EDITORIAL
Marco Moctezuma
El 
c U A R T O
De s c u br i m i e n t o c i e n t í f ic o i n t e nsi vo 
e n Dat o s
p A R A D I G M A
EDITADO POR 
TONY HEY, STEWART TANSLEY 
Y KRISTIN TOLLE
TRADUCCIÓN DE
JOSÉ LUIS ACOSTA,
RODRIGO CAMBRAY-NÚÑEZ Y
ABDIEL MACÍAS ARVIZU
Para Jim
Copyright © 2009 Microsoft Corporation 
Excepto donde se indique lo contrario, el contenido de esta 
publicación se encuentra bajo la licencia Creative Commons 
Attribution-Share Alike 3.0 United States, disponible en 
http://creativecommons.org/licenses/by-sa/3.0/us/legalcode.
Segunda impresión, versión 1.1, octubre 2009.
ISBN 978-0-9825442-0-4
Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server, 
Virtual Earth y Windows son marcas registradas del grupo de consorcios de 
Microsoft. Todas las demás marcas registradas son propiedad de sus respecti-
vos dueños.
La información, hallazgos, perspectivas y opiniones contenidas en esta publi- 
cación pertenecen a los autores y no necesariamente reflejan los puntos de vista 
de Microsoft Corporation o de Microsoft Research. Microsoft Corporation no 
garantiza la exactitud de la información contenida en la presente obra.
Microsoft Research
http://research.microsoft.com 
Título original en inglés The Fourth Paradigm, Microsoft Research, 2009.
Edited by Tony Hey, Stewart Tansley and Kristin Tolle.
Traducción al español: José Luis Acosta, Rodrigo Cambray-Núñez y Abdiel Macías Arvizu
Revisión técnica: Manuel López Michelone
D.R. © 2014, Universidad Autónoma Metropolitana
Prolongación Canal de Miramontes 3855, Ex hacienda San Juan de Dios, delegación Tlalpan, 
14387 México, D.F.
Esta publicación no puede ser reproducida, total ni parcialmente, ni registrada en un sistema 
de recuperación de información, ni transmitida por ningún medio, sea mecánico, fotoquí-
mico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso 
previo, por escrito, de los editores.
ISBN de la obra: 978-607-28-0151-6
Impreso en México/Printed in Mexico
Para Jim
CONTE NIDO
 xi prólogo Gordon Bell
 xvii jim gray sobre la e-ciencia: un método científico transformado 
 Editado por Tony Hey, Stewart Tansley y Kristin Tolle
 1 . TIERR A Y MEDIO AMBIENTE
 3 introducción Dan Fay
 7 las leyes de gray: cómputo científico centrado en bases de datos 
 Alexander S. Szalay, José A. Blakeley
 15 la nueva ciencia de las aplicaciones ambientales 
 Jeff Dozier, William B. Gail
 23 redefiniendo la ciencia ecológica mediante los datos 
 James R. Hunt, Dennis D. Baldocchi, Catharine van Ingen
 29 una visión de la oceanografía en el año 2020 
 John R. Delaney, Roger S. Barga
 41 acercando el cielo nocturno: descubrimientos 
 en la avalancha de datos 
 Alyssa A. Goodman, Curtis G. Wong
 49 la instrumentación de la tierra: redes de sensores 
 de próxima generación y las ciencias del ambiente 
 Michael Lehning, Nicholas Dawes, Mathias Bavay, 
 Marc Parlange, Suman Nath, Feng Zhao
 2 . SALUD Y BIENESTAR 
 59 introducción Simon Mercer
 63 la singularidad de la asistencia sanitaria y la era 
 de la medicina semántica 
 Michael Gillam, Craig Feied, Jonathan Handler, Eliza Moody, 
 Ben Shneiderman, Catherine Plaisant, Mark Smith, John Dickason
 71 la provisión de servicios de salud en los países en vías 
 de desarrollo: desafíos y soluciones potenciales 
 Joel Robertson, Del DeHart, Kristin Tolle, David Heckerman
 81 descubriendo el esquema de conexiones del cerebro 
 Jeff W. Lichtman, R. Clay Reid, Hanspeter Pfister, Michael F. Cohen
 91 hacia un microscopio computacional para la neurobiología 
 Eric Horvitz, William Kristan
 99 un enfoque de modelado unificado para la asistencia 
 sanitaria intensiva en datos 
 Iain Buchan, John Winn, Chris Bishop
 107 visualización en modelos de álgebra de procesos 
 de sistemas biológicos 
 Luca Cardelli, Corrado Priami
 3. INFR AESTRUCTUR A CIENTÍFICA
 117 introducción Daron Green
 121 ¿una nueva ruta para la ciencia? Mark R. Abbott
 129 más allá del tsunami: a edificación de la infraestructura 
 para el tratamiento de los datos de las ciencias biológicas 
 Christopher Southan, Graham Cameron
 137 la computación multinúcleo y el descubrimiento científico 
 James Larus, Dennis Gannon
 143 el paralelismo y la nube Dennis Gannon, Dan Reed
 149 el impacto de las herramientas de flujo de trabajo en la 
 investigación centrada en datos Carole Goble, David de Roure
 159 la e-ciencia semántica: la codificación de significado en la 
 ciencia mejorada digitalmente de la siguiente generación 
 Peter Fox, James Hendler
 165 visualización para la ciencia intensiva en datos 
 Charles Hansen, Chris R. Johnson, Valerio Pascucci, Claudio T. Silva
 177 una plataforma para todo lo que sabemos: la creación 
 de una infraestructura de investigación basada 
 en los conocimientos Savas Parastatidis 
 4. COMUNICACIÓN ACADÉMICA 
 187 introducción Lee Dirks
 191 el cuarto paradigma de jim gray y la construcción 
 del registro científico Clifford Lynch
 199 el texto en un mundo centrado en datos Paul Ginsparg
 207 todos a bordo: hacia un sistema de comunicación 
 académica amigable con las máquinas 
 Herbert van de Sompel, Carl Lagoze
 215 el futuro de las políticas de datos 
 Anne Fitzgerald, Brian Fitzgerald, Kylie Pappalardo
 225 he visto el cambio de paradigma, y somos nosotros 
 John Wilbanks
 233 de la web 2.0 a la base de datos global Timo Hannay
 241 el camino por recorrer Craig Mundie
 245 conclusiones Tony Hey, Stewart Tansley y Kristin Tolle
 249 siguientes pasos
 250 agradecimientos
 253 algunas palabras sobre jim…
 255 glosario
 259 índice
xiEL CUARTO PARADIGM A
GORDON BELL | Microsoft Research
Prólogo
ste libro propone un novedoso cuarto paradigma para la ciencia basado 
en la computación intensiva en datos. Esta investigación se encuentra en un 
momento parecido al de la invención de la imprenta de tipos móviles, que tardó 
un milenio en desarrollarse y evolucionar hasta sus múltiples manifestaciones 
actuales. El uso de computadoras para obtener conocimientos a partir de los datos creados 
y respaldados en nuestros depósitos electrónicos tomará décadas o, quizá, menos. Los 
coautores de esta obra han hecho un trabajo extraordinario que ayuda a la comprensión 
más precisa de este nuevo paradigma desde diversos puntos de vista especializados.
En varios aspectos, la ciencia va atrás del mundo comercial en cuanto a inferir un 
significado a partir de los datos y actuar con base en él. Sin embargo, en los negocios las 
cosas son comparativamente sencillas: los objetos que pueden describirse con un nom-
bre o con unos cuantos números se manufacturan para ser comprados y vendidos. Las 
disciplinas científicas no pueden encapsularse en unos pocos nombres y números de fácil 
comprensión, y muchos datos científicos carecen de un valor económico suficientemente 
elevado capaz de propiciar un progreso más intenso de los descubrimientos científicos.
El asistente de Tycho Brahe, Johannes Kepler, al estudiar el catálogo sistemático de 
las observaciones astronómicas de Brahe, descubrió las leyes del movimiento planetario. 
Con ello se establece la división entre la exploración y el análisis de datos experimen-
tales cuidadosamente registrados y la formulación de teorías. Tal división es un rasgo 
propio del cuarto paradigma.
En el siglo xx, los datos que fundamentaban las teorías científicas se hallaban con 
frecuencia sepultados en libretas o, para algunos aspectos relacionados con la “alta cien-
cia”, almacenados en medios magnéticos que terminaron siendo ilegibles. En especial 
E
xii
los personalesy los de pequeños laboratorios, son inaccesibles; en su mayoría, se 
desechan cuando el investigador se retira o, acaso, se conservan en una biblioteca 
institucional antes de eliminarlos. El registro a largo plazo del origen de los datos, o 
el común acceso comunitario a los datos distribuidos, son sólo algunos de los retos.
Afortunadamente, algunos “centros de datos”, como el National Center for At-
mospheric Research1 (ncar), se prestan para recibir investigadores de ciencias de la 
Tierra que buscan analizar los datos curados procedentes de mediciones y modelos 
computacionales. Con ello, en una sola institución tenemos la cadena de obtención, 
curaduría y análisis de datos para toda una disciplina.
En el siglo xxi es muy factible que la mayor parte del vasto y continuo volumen 
de datos capturados por nuevos instrumentos de manera ininterrumpida, junto con 
la información generada en los mundos artificiales de los modelos computarizados, 
residan de manera permanente en una forma viva, de amplio acceso público y curada 
para efectos de su continuo análisis. Éste conducirá al desarrollo de nuevas teorías. 
Pronto atestiguaremos que los datos se conservan a perpetuidad como materiales de 
archivo —como sucede con el registro en papel— y serán accesibles a todos, humanos 
y máquinas, en la nube. Es reciente imaginar tal permanencia para los datos como lo 
pensamos para los objetos de bibliotecas y museos nacionales. Ese grado de duración 
era inverosímil, hasta que notamos que la captura del origen de los datos —incluso los 
registros de los investigadores, y a veces toda la información sobre ellos— es lo que 
piden y —han deseado— las bibliotecas. La “nube” de polarizaciones magnéticas que 
codifica datos y documentos en la biblioteca digital se convertirá en el equivalente 
de los kilómetros de estantes de bibliotecas que almacenan papel y tinta.
En 2005, el Consejo Nacional de Ciencia de la National Science Foundation publicó 
el informe “Long-Lived Digital Data Collections: Enabling Research and Education in 
the 21st Century”, que inicia un diálogo sobre el interés de la preservación de los datos y 
la importancia de su cuidado y soporte con un nuevo equipo: los “científicos de datos”:
El interés de los científicos de datos —expertos de la información y la com-
putación, ingenieros y programadores de bases de datos y software, y ex-
pertos interdisciplinarios, curadores y expertos anotadores, bibliotecarios, 
archivistas y otros actores cruciales para la exitosa administración de una 
colección digital de datos— se basa en el reconocimiento a su creatividad y 
sus contribuciones intelectuales. [1]
1 www.ncar.ucar.edu
PROLOGO
xiiiEL CUARTO PARADIGM A
EL CUARTO PARADIGMA: UN ÉNFASIS EN LOS SISTEMAS INTENSIVOS DE DATOS 
Y LA COMUNICACIÓN CIENTÍFICA
En su última conferencia para la Comisión de Ciencias de la Computación y de 
Telecomunicaciones el 11 de enero de 2007 [2], Jim Gray describió su visión del 
cuarto paradigma de la investigación científica. Hizo un exhorto en dos partes para 
el financiamiento de herramientas para la obtención, curación y análisis de datos, y 
para la creación de una infraestructura de comunicación y publicación. Argumentó 
en favor del desarrollo de modernos repositorios para los datos y los documentos, 
que compitieran con las bibliotecas tradicionales. La versión editada de su trabajo, 
introduce la escena para los capítulos siguientes.
La ciencia intensiva en datos se basa en tres actividades: obtención, curación y 
análisis. Los datos existen en todos los tamaños y formas, lo que incluye los de grandes 
experimentos internacionales; observaciones provenientes de redes de laboratorios, 
laboratorios particulares e individuos; y potencialmente vidas personales.2 La disciplina 
y la escala de los experimentos individuales, y en particular sus tasas de datos, hacen 
del asunto de las herramientas un magno problema. El proyecto de radiotelescopios 
Australian Square Kilometre Array,3 el Gran Colisionador de Hadrones4 del cern y 
el sistema de telescopios astronómicos Pan-STARRS5 tienen la capacidad de generar 
varios petabytes (pb) de datos cada día, mas sus directrices los limitan a tasas de 
recolección más manejables hoy. Los dispositivos de secuenciación genética presen-
tan rendimientos más modestos por su costo, de modo que sólo se secuencian por 
individuo algunas regiones de secuencias genómicas (25 kb por unos cuantos cientos 
de miles de pares de bases). Sin embargo, esto es, cuando mucho, temporal hasta 
que se otorgue el X Prize for Genomics6 de 10 millones de dólares —100 individuos 
completamente secuenciados en 10 días, a menos a 10 000 dólares por cada uno, 
cubriendo 3 000 millones de pares de bases por cada genoma humano—.
Es necesario invertir en la creación de una serie de herramientas genéricas que 
cubran el total de actividades: desde la obtención y validación de los datos hasta la 
curaduría, el análisis y, finalmente, el almacenamiento permanente. La curaduría 
abarca un amplio espectro de tareas, que empiezan con la determinación de las es-
tructuras de datos idóneas para ser distribuidas en diversos depósitos. Esto incluye 
los archivos de esquema y los metadatos necesarios para la preservación a largo 
2 http://research.microsoft.com/en-us/projects/mylifebits
3 www.ska.gov.au
4 http://public.web.cern.ch/public/en/LHC/LHC-en.html
5 http://pan-starrs.ifa.hawaii.edu/public
6 http://genomics.xprize.org
xiv
plazo, y para la integración por medio de dispositivos, experimentos y laboratorios. 
Sin ellos, la interpretación sólo es implícita y queda muy subordinada a los progra-
mas específicos para el análisis. Finalmente, los datos no curados se perderán. Debe 
considerarse con cuidado qué datos han de conservarse por siempre y cuáles otros 
metadatos serían necesarios para ello.
El análisis de datos abarca actividades durante todo el flujo de trabajo. Incluye el 
uso de bases de datos (en vez de la recolección de archivos planos que una base de 
datos lee), análisis, modelado y visualización de datos. La receta de Jim Gray para 
el diseño de una base de datos para determinada disciplina implica que debe ser ca-
paz de responder las veinte preguntas principales que el científico quisiera hacerle. 
En buena parte del mundo científico las bases de datos se usan actualmente como 
almacenes para guardar algunas propiedades de los datos, más que como un espacio 
para los datos mismos; esto se explica porque el tiempo requerido para explorar toda 
la información hace inviable el análisis. Hace una década, la relectura de los datos 
era apenas factible. Hasta 2010, los discos tenían 1 000 veces más capacidad, pero 
el tiempo de acceso a su contenido mejoró apenas en un factor de dos.
BIBLIOTECAS DIGITALES PARA DATOS Y DOCUMENTOS: EQUIPARABLES A LAS MODERNAS
BIBLIOTECAS DE DOCUMENTOS
La comunicación científica, incluyendo sus procesos de arbitraje, también expe-
rimenta cambios esenciales. Las bibliotecas públicas digitales están asumiendo la 
función de resguardar publicaciones de bibliotecas convencionales —sea por su 
costo, la necesidad de un servicio expedito o la conveniencia de mantener reunidos 
los datos experimentales y la documentación acerca de ellos.
Así, las bibliotecas de datos digitales se encuentran aún en fase de desarrollo, con 
dimensiones, formas y principios constitutivos divergentes. Por supuesto, ncar es 
una de las entidades más antiguas en lo que respecta al modelado, recopilación y 
curación de datos de las ciencias de la Tierra. El San Diego Supercomputer Center 
(sdsc) en la Universidad de California, San Diego, que normalmente está asociado 
con el abastecimiento de poder de cómputo para la comunidad científica, fue una 
de las primeras organizaciones en reconocer la necesidad de agregar los datos a su 
misión. El sdsc creó su sitio Data Central,7 que aloja 27 pb de datos en más de 100 
bases de datos específicas (por ejemplo, para bioinformática y recursos hídricos). 
En 2009, reservó 400 terabytes(tb) de espacio en disco para bases de datos tanto 
7 http://datacentral.sdsc.edu/index.html
PROLOGO
xvEL CUARTO PARADIGM A
públicas como privadas y para colecciones de datos que dan servicio a una extensa 
gama de instituciones científicas, incluyendo laboratorios, bibliotecas y museos.
El Australian National Data Service8 (ands) ofrece servicios como el Register 
My Data, una especie de “fichero catalográfico” que registra la identidad, estruc-
tura, nombre y ubicación (dirección ip) de las diversas bases de datos, incluso las 
de particulares. El solo hecho de levantar tal registro es un gran paso hacia el 
almacenamiento a largo plazo. ands busca influir en la política nacional de su país 
en lo tocante al manejo de los datos, e ilustrar sobre las mejores prácticas para la 
curación de datos, con lo que las distintas y divergentes colecciones de datos de 
investigación se transformarían en un conjunto coherente de recursos de investi-
gación. En el Reino Unido, el Comité Conjunto de Sistemas de Información (jisc, 
por sus siglas en inglés) ha financiado la creación del Digital Curation Centre9 para 
estudiar estas cuestiones. Se espera que con el tiempo surjan muchos otros centros 
de datos como éste. La Dirección de Ciencia e Ingeniería de Computación y de 
Información, de la National Science Foundation, lanzó ya una convocatoria para 
la solicitudes de becas a largo plazo para investigadores en cómputo intensivo en 
datos y en almacenamiento de larga duración.
Esta obra considera en sus capítulos las múltiples oportunidades y desafíos que 
entraña la ciencia intensiva en datos, incluídas la cooperación y el entrenamiento 
interdisciplinarios, el intercambio de información entre organizaciones para crear 
“hibridaciones” (mashups) de datos científicos, la instauración de nuevos procesos y 
rutas de trabajo, así como una agenda de investigación que explote las oportunidades 
y sostenga la vanguardia de la avalancha de datos. Estos retos exigirán una vasta 
inversión económica y operacional. El sueño de erigir una infraestructura de datos 
con “sensores ubicuos” que apoye nuevas modalidades de investigación científica 
requerirá de una extraordinaria cooperación entre organismos de financiamiento, 
científicos e ingenieros. Un sueño que vale la pena alentar y financiar activamente.
REFERENCIAS
[1] National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the 
21st Century, Technical Report NSB-05-40, National Science Foundation, septiembre de 2005, 
www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf.
[2] Conferencia de Jim Gray al NRC-CSTB en Mountain View, California, el 11 de enero de 2007, 
http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Transcripción editada 
también en esta obra.)
8 www.ands.org.au
9 www.dcc.ac.uk
xviiEL CUARTO PARADIGM A
enemos que mejorar en la producción de herramientas para apo-
yar todo el ciclo de la investigación —desde la captura de los datos y su 
curación hasta su análisis y visualización—.1Hoy en día, las herramien-
tas para la captura de datos, tanto a megaescala como a miliescala, son 
simplemente terribles. Después de que se han capturado los datos, es necesario 
curarlos antes de que se pueda empezar a hacer cualquier tipo de análisis con ellos, 
y carecemos de herramientas adecuadas para dicha2curación y análisis. Luego sigue 
la publicación de los resultados de la investigación, y la literatura publicada es sólo la 
punta del iceberg de datos. Con esto quiero decir que las personas reúnen una gran 
cantidad de datos que luego reducen a una determinada cantidad de pulgadas de 
columna en Science o en Nature —o a diez páginas si quien escribe es un especialista 
en ciencias de la computación—. A lo que me refiero con “iceberg de datos” es que 
hay una gran cantidad de ellos que se recopilan, pero que no se curan ni se publican 
de manera sistemática. Hay algunas excepciones, y creo que éstas son instancias en 
las que debemos basarnos para determinar mejores prácticas. Voy a hablar de cómo 
todo el proceso de revisión por pares tiene que cambiar, así como de la manera en 
1 National Research Council (NRC), http://sites.nationalacademies.org/NRC/index.htm; Computer Science and 
Telecommunications Board (CSTB), http://sites.nationalacademies.org/cstb/index.htm.
2 Esta presentación es, emotivamente, la última publicada en la página web de Jim en Microsoft Research antes 
de desaparecer en el mar el 28 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/talks/
NRCCSTB_eScience.ppt
Jim Gray sobre la e-ciencia:
un método científico transformado
EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research
Basado en la transcripción de una conferencia impartida por Jim Gray ante 
la Comisión de Ciencias de la Computación y de Telecomunicaciones del 
Consejo Nacional de Investigación (nrc-cstb) 1 en Mountain View, 
California, el 11 de enero de 2007 2
T
xviii
la que visualizo como está cambiando, y lo que la Comisión de Ciencias de la Com-
putación y de Telecomunicaciones (cstb) puede hacer para ayudarnos a todos para 
tener acceso a nuestras investigaciones.
LA E-CIENCIA: ¿QUÉ ES?
La e-ciencia es “donde las tecnologías de información y los científicos convergen”. 
Los investigadores utilizan muchos métodos diferentes para recopilar o generar datos 
—desde sensores y dispositivos de acoplamiento de carga (ccd) hasta supercompu-
tadoras y colisionadores de partículas—. Cuando los datos finalmente aparecen en 
su computadora, ¿qué hace usted con toda esa información que está ahora en su caja 
digital? La gente constantemente está buscándome, me dice: “¡Auxilio! Tengo todos 
estos datos. ¿Qué se supone que debo hacer con ellos? ¡Mis hojas de cálculo de Excel 
se desbordan!” Así que, ¿qué sigue? ¿Qué sucede cuando se tienen 10 000 hojas de 
cálculo de Excel, cada una con 50 páginas? Digamos que las he estado nombrando 
de manera sistemática, pero ahora, ¿qué hago?
PARADIGMAS DE LA CIENCIA
Muestro esta diapositiva (véase la figura 1) cada vez que imparto alguna conferencia. 
Creo que es justo decir que esta idea se me ocurrió en un estudio de la cstb sobre 
el futuro de la computación. Decíamos: “Mira, la ciencia computacional es una 
FIGURA 1.
4πGp
3 K
c2
a2
=aa
2.
• Hace mil años: 
 la ciencia era empírica
 descripción de fenómenos naturales
• Últimos siglos: 
 rama teórica
 utilización de modelos, generalizaciones
• Últimas décadas: 
 una rama computacional
 simulación de fenómenos complejos
• Hoy: la exploración de datos (e-ciencia)
 unificación de teoría, experimentación y simulación
– Los datos se capturan mediante instrumentos
 o se generan mediante simulador
– Procesados mediante software
– La información/conocimientos se almacenan
 en computadora
– El científico analiza la base de datos o los archivos
 mediante administración de datos y estadística
Paradigmas de la ciencia
JIM GRAY SOBRE LA E- CIENCIA
xixEL CUARTO PARADIGM A
tercera pierna”. Originalmente sólo existía la ciencia experimental, y luego apareció 
la ciencia teórica, con las leyes de Kepler, las leyes de Newton del movimiento, las 
ecuaciones de Maxwell, y así sucesivamente. Entonces, para muchos problemas, 
los modelos teóricos se volvieron demasiado complicados como para ser resueltos 
analíticamente, y la gente tuvo que empezar a utilizar la simulación. Estas simula-
ciones nos han servido a lo largo de gran parte de la segunda mitad del milenio más 
reciente. En la actualidad, éstas generan una gran cantidad de datos junto con un 
enorme aumento en los datos de las ciencias experimentales. Ahora la gente real-
mente no mira a través de telescopios: en lugar de ello están “mirando” a través de 
complejos instrumentos de gran escala que transmiten información a las centrales 
de datos, y sólo entonces es cuando examinan la información en sus computadoras.
El mundo de la ciencia ha cambiado, y no hay duda alguna sobre esto. El nuevo 
modelo consiste en que los datosse capturan mediante instrumentos o se generan 
a través de simulaciones antes de procesarlos con software. La información o el co-
nocimiento resultantes se almacenan en computadoras. Los científicos sólo llegan a 
mirar sus datos bastante tarde en esta secuencia. Las técnicas y las tecnologías para 
tal ciencia intensiva en datos son tan diferentes que vale la pena distinguir la ciencia 
intensiva en datos de la ciencia computacional como un nuevo paradigma: el cuarto 
paradigma para la exploración científica [1].
DISCIPLINAS INFORMÁTICAS Y DISCIPLINAS COMPUTACIONALES
En todas las disciplinas presenciamos la evolución de dos ramas, como se muestra 
en la siguiente diapositiva (véase la figura 2). Si nos fijamos en la ecología, existen 
actualmente tanto la ecología computacional, que tiene que ver con la simulación 
de ecologías, como la ecoinformática, que tiene que ver con la recolección y el aná-
lisis de información ecológica. De manera semejante, tenemos la bioinformática, 
que recoge y analiza información de muchos experimentos diferentes, y la biología 
computacional, que simula cómo funcionan los sistemas biológicos, las vías metabó-
licas, el comportamiento de una célula o la forma en que se construye una proteína. 
Esto se acerca a la noción de Jeannette Wing del “pensamiento computacional”, en 
el que las técnicas y las tecnologías de las ciencias de la computación se aplican a 
diferentes disciplinas [2].
La meta de muchos científicos es codificar su información para poder intercam-
biarla con otros científicos. ¿Por qué necesitan codificarla? Porque si guardo alguna 
información en mi computadora, la única manera en que usted podrá entenderla será 
que el programa que usted utilice pueda entenderla. Esto significa que la información 
xx
tiene que representarse de manera algorítmica. Para conseguir esto necesitamos una 
representación estándar de lo que es un gen o de lo que es una galaxia o de lo que es 
una medición de temperatura.
ENTRE UNA CUARTA PARTE Y LA MITAD DE LOS PRESUPUESTOS PARA EXPERIMENTACIÓN
SE DESTINA AL SOFTWARE
Durante los últimos 10 años he estado tratando con astrónomos y tengo la opor-
tunidad de ir a algunas de sus estaciones de base. Quedo maravillado al ver sus 
telescopios, es algo simplemente increíble. Se trata de equipo que representa 
básicamente una inversión de 15 a 20 millones de dólares, el cual es operado 
por unas 20 a 50 personas. Entonces uno entiende que hay literalmente miles 
de personas escribiendo código para hacer frente al volumen de información 
que genera este instrumento, y de que se necesitan millones de líneas de código 
para analizar toda esa información. En realidad, ¡el costo del software domina el 
gasto de capital! Esto es cierto en el caso del Sloan Digital Sky Survey (sdss), y 
seguirá siendo cierto para proyectos de exploración celeste de mayores dimensio-
nes, y para muchos experimentos a gran escala. No estoy seguro de que el costo 
de software sea también dominante en el caso de la comunidad de la física de 
partículas y su Gran Colisionador de Hadrones (gch), pero sin duda lo es en los 
experimentos del gch.
FIGURA 2.
Hechos
Hechos
Hechos
Hechos
• Ingesta de datos
• Administración de un petabyte
• Esquemas comunes
• Cómo organizarlos
• Cómo reorganizarlos
• Cómo compartirlos con otros
Disciplinas informáticas
• La evolución de la rama informática y la rama 
• computacional para cada disciplina
• Cómo codificar y representar nuestros conocimientos
Los problemas genéricos
• Herramientas de consulta y de visualización
• Construcción y la ejecución de modelos
• Integración de los datos y la literatura
• Documentación de experimentos
• Curación y conservación a largo plazo
Preguntas
Respuestas
Simulaciones
Literatura
Otros archivos
Experimentos 
e instrumentos
JIM GRAY SOBRE LA E- CIENCIA
xxiEL CUARTO PARADIGM A
Incluso en las ciencias de “datos pequeños” se ve a la gente reuniendo información 
y luego dedicando mucha más energía en el análisis de esa información que en reca-
barla en primera instancia. El software es típicamente muy particular, ya que existen 
muy pocas herramientas genéricas disponibles para que el científico de laboratorio 
recopile, analice y procese los datos. Esto es algo que los científicos computacionales 
podríamos ayudar a remediar mediante la construcción de herramientas genéricas 
para la comunidad científica.
Tengo una lista de asuntos para los responsables de políticas, como la cstb. El 
primero de ellos es básicamente promover y apoyar la construcción de herramientas. 
La National Science Foundation (nsf) cuenta ahora con una organización de ciberin-
fraestructura; y no quiero decir nada malo acerca de ellos, pero se necesita más que 
sólo apoyo para el proyecto TeraGrid y la computación de alto rendimiento. Ahora 
sabemos cómo construir clústeres Beowulf para conseguir cómputo de alto rendi-
miento barato; pero no sabemos cómo construir una verdadera malla de datos (data 
grid) o cómo crear almacenes de información a partir de “ladrillos de datos” de bajo 
costo donde alguien pueda guardar todos sus datos y luego analizar la información. 
En realidad hemos hecho progresos en las herramientas de simulación, pero no en 
las herramientas de análisis de datos.
PIRÁMIDES DE PROYECTOS Y FINANCIAMIENTO DE LA PIRÁMIDE
En esta sección hago simplemente una observación acerca de la manera en que la 
mayoría de los proyectos científicos parecen funcionar. Hay pocos proyectos interna-
cionales, hay más proyectos multicampus, y luego hay muchos más proyectos de un 
solo laboratorio. Así que básicamente tenemos esta pirámide de instalaciones nivel 1, 
nivel 2 y nivel 3, que encontramos una y otra vez en muchos campos diferentes. 
Los proyectos de los niveles 1 y 2 generalmente están organizados y administrados 
de manera sistemática; pero existen relativamente pocos proyectos de esa índole. 
Estos grandes proyectos pueden darse el lujo de tener un presupuesto para software 
y otro para hardware, y asignar equipos de científicos para escribir software a la 
medida del experimento. A modo de ejemplo, he estado viendo que el observa- 
torio de océanos estadounidense-canadiense —el proyecto Neptune— asigna aproxi-
madamente 30% de su presupuesto a ciberinfraestructura [3]. En números redondos, 
eso es 30% de 350 millones de dólares, o algo así como ¡100 millones de dólares! De 
manera semejante, los experimentos del gch cuentan con un enorme presupuesto 
para software, y esta tendencia hacia presupuestos cuantiosos para software también 
es evidente desde el temprano experimento BaBar [4, 5]. Pero si es usted un científico 
xxii
de laboratorio en la parte inferior de la pirámide, ¿qué puede hacer para conseguir 
algún presupuesto para software? Básicamente terminará comprando matlab3 y 
Excel4 o algún otro paquete similar y arreglándoselas con este tipo de herramientas 
comerciales. No hay mucho más que pueda hacer.
Así pues, los gigaproyectos y los megaproyectos se ven impulsados en gran medida 
por la necesidad de algunos recursos de gran escala, como supercomputadoras, teles- 
copios u otras instalaciones experimentales de gran magnitud. Estas instalaciones 
normalmente las utiliza una importante comunidad de científicos y necesitan ser 
financiadas en su totalidad por organismos como la nsf o el Departamento de 
Energía. Los proyectos de menor escala por lo general obtienen fondos de una mayor 
diversidad de fuentes, con apoyo de organismos de financiamiento a menudo con-
juntamente con alguna otra organización —que podría ser la propia universidad—. 
En el artículo que Gordon Bell, Alex Szalay y yo escribimos para ieee Computer 
[6] hicimos notar que las instalaciones de nivel 1, como el gch, son financiadas 
por un consorcio internacional de organismos, pero los experimentos del gch de 
nivel 2 y las instalaciones de nivel 3 son financiadas por los investigadores, que 
traen consigo sus propias fuentes de financiamiento. Así que los organismos de 
financiamiento deben apoyareconómicamente en su totalidad los gigaproyectos 
de nivel 1 y luego asignar la otra mitad de sus fondos a la ciberinfraestructura para 
proyectos más pequeños.
SISTEMAS DE ADMINISTRACIÓN DE INFORMACIÓN PARA LABORATORIOS
Para resumir lo que he estado diciendo sobre software, lo que efectivamente nece-
sitamos son “sistemas de administración de información para laboratorios”. Tales 
sistemas de software ofrecen una ruta desde los datos que se obtienen mediante el 
instrumento o la simulación hasta un archivo o depósito de datos, y es algo que es-
tamos a punto de lograr en varios casos modelo sobre los que he estado trabajando. 
Básicamente, colocamos los datos de un grupo de instrumentos en una secuencia 
que los calibra y los “limpia”, e inclusive llena los huecos según sea necesario. En 
seguida, volvemos a “cuadrar”5 (re-grid) la información y finalmente la guardamos en 
una base de datos, la cual podríamos “publicar” en internet y de esa manera permitir 
que la gente tenga acceso a nuestra información.
3 www.mathworks.com
4 http://office.microsoft.com/en-us/excel/default.aspx
5 Esto significa “regularizar” la organización de los datos de manera que quede una variable de datos por fila, lo cual 
es análogo a la normalización en las bases de datos relacionales.
JIM GRAY SOBRE LA E- CIENCIA
xxiiiEL CUARTO PARADIGM A
Toda la cuestión de pasar de un instrumento a un navegador Web implica un enor-
me número de habilidades. Sin embargo, lo que en realidad sucede es muy simple. 
Debiéramos poder crear un paquete tipo Beowulf y algunas plantillas que permitirían 
a quienes llevan a cabo experimentos de laboratorio húmedo simplemente reunir 
sus datos, guardarlos en una base de datos y publicarlos. Para lograr esto habría que 
crear unos cuantos prototipos y documentarlos. Tomará varios años lograrlo, pero 
repercutirá de manera decisiva en la manera en que se hace la ciencia.
Como ya he dicho, esas secuencias de software se denominan sistemas de admi-
nistración de información para laboratorios (sail). Entre paréntesis: existen versiones 
comerciales, y uno puede comprar un sistema sail listo para ser usado. El problema 
es que tales sistemas en realidad están dirigidos a personas que son muy ricas y que 
se encuentran en un entorno industrial. Además, a menudo son bastante específicos 
para una u otra tarea propia de alguna comunidad en particular —tal como tomar 
datos de una máquina de secuenciación o un espectrómetro de masas, correrlos en 
el sistema y obtener resultados en la salida—.
ADMINISTRACIÓN DE INFORMACIÓN Y ANÁLISIS DE DATOS
He aquí una situación típica. La gente está reuniendo datos ya sea a partir de 
instrumentos o de sensores, o corriendo simulaciones. Muy pronto se ven con 
millones de archivos, y no hay una manera fácil de administrar o analizar sus 
datos. He ido de puerta en puerta y he visto lo que los científicos han hecho. En 
general, hacen una de dos cosas: o bien están buscando agujas en pajares o están 
buscando los pajares mismos. Las consultas del tipo “aguja en el pajar” son en 
realidad muy fáciles: uno busca anomalías específicas en los datos, y generalmente 
se tiene una idea del tipo de señal que se está buscando. Los físicos de partículas 
están buscando la partícula de Higgs en el gch, y tienen una buena idea de cómo 
se verá en sus detectores el decaimiento de tal partícula pesada. Los arreglos de 
clústeres compartidos de computadoras son ideales para consultas del tipo “aguja 
en el pajar”, pero son pésimos en el análisis de tendencias, el agrupamiento esta-
dístico y el descubrimiento de patrones globales en los datos.
En realidad necesitamos algoritmos mucho mejores para efectuar operaciones de 
agrupamiento y para lo que es esencialmente minería de datos. Desafortunadamente, 
los algoritmos de agrupamiento no son de orden N o N log N, sino que típicamente 
son cúbicos en N, de modo que cuando N se vuelve demasiado grande este método 
no funciona. De esta manera, nos vemos obligados a inventar nuevos algoritmos, y 
uno tiene que vivir con respuestas que son sólo aproximadas. Por ejemplo, resulta 
xxiv
ser sorprendentemente eficaz el uso de la mediana aproximada. ¿Y quién lo habría 
adivinado? ¡Yo no!
Gran parte del análisis estadístico tiene que ver con crear muestras uniformes, llevar 
a cabo algún filtrado de datos, incorporar o comparar algunas simulaciones Monte 
Carlo, y así sucesivamente, todo lo cual genera una gran cantidad de archivos. Y la 
situación con tales archivos es que cada uno contiene sólo un manojo de bytes. Si le 
diera a usted uno de estos archivos, tendría que esforzarse mucho para averiguar lo que 
significan los datos contenidos en él. Por tanto, es muy importante que los archivos sean 
autodescriptivos. Cuando la gente utiliza el término base de datos, lo que fundamental-
mente está diciendo es que los datos debieran ser autodescriptivos y venir acompañados 
de un esquema. Eso es realmente todo lo que significa el término base de datos. De esta 
manera, si le doy una colección particular de información podrá verla y decir: “Quiero 
todos los genes que tienen esta propiedad”, o “Quiero todas las estrellas que tienen esta 
propiedad”, o “Quiero todas las galaxias que tienen esta propiedad”. Pero si sólo le doy 
un montón de archivos, ni siquiera podrá utilizar el concepto de galaxia, y tendrá que 
investigar y descubrir por usted mismo cuál es el esquema efectivo para los datos de 
ese archivo. Si cuenta usted con ese esquema, podrá indexar los datos, reunirlos con 
diversos criterios, ejecutar búsquedas paralelas y realizar consultas ad hoc; además, 
será mucho más fácil construir algunas herramientas genéricas de visualización.
En toda justicia, debo decir que la comunidad científica ha inventado un montón 
de formatos que para mí califican como formatos de bases de datos. El hdf (Hierar-
chical Data Format)6 es uno de tales formatos, y el NetCDF (Network Common Data 
Form)7 es otro. Estos formatos se utilizan para el intercambio de información y llevan 
consigo el esquema de los datos. Pero la ciencia en general necesita herramientas 
mucho mejores que hdf y NetCDF para lograr que los datos sean autodefinitorios.
LA ENTREGA DE DATOS: LLEGANDO AL LÍMITE
La otra cuestión clave es que a medida que los conjuntos de datos se hacen más gran-
des, ya no es posible simplemente transferirlos por ftp o efectuar en ellos búsquedas 
mediante expresiones regulares. ¡Es muy difícil transferir por ftp un petabyte de 
datos! Así que en algún punto se necesitan índices y acceso en paralelo a éstos, y es 
aquí donde las bases de datos pueden ayudar. Para su análisis, una posibilidad es 
llevarlos hasta usted, pero la otra es trasladar su consulta hasta los datos. Así que se 
6 www.hdfgroup.org
7 www.unidata.ucar.edu/software/netcdf
JIM GRAY SOBRE LA E- CIENCIA
xxvEL CUARTO PARADIGM A
puede trasladar las consultas o los datos. Con frecuencia, resulta ser más eficiente 
trasladar las consultas que trasladar los datos.
LA NECESIDAD DE HERRAMIENTAS DE DATOS: “QUE FLOREZCAN CIEN FLORES”
Lo que he estado sugiriendo hasta ahora es que actualmente tenemos pésimas herra-
mientas para la administración de datos en la mayoría de las disciplinas científicas. 
Las organizaciones comerciales como Walmart pueden permitirse el lujo de construir 
su propio software de administración de datos, pero en la ciencia no podemos darnos 
ese lujo. En la actualidad, difícilmente contamos con herramientas de visualización y 
análisis de datos. Algunas comunidades de investigación utilizan matlab, por ejem-
plo, pero los organismos de financiamiento en Estados Unidos y en otras partes tienen 
que hacer mucho más para promover la construcción de herramientas que permitan 
a los científicos ser más productivos. Es verdaderamente pavoroso ir y ver lo que los 
científicos están haciendo día tras día en términos de análisis de datos. Y sospecho 
que muchos de ustedes están en la misma situación en la que me encuentro: ¡Esen-
cialmente las únicas herramientasque tengo a mi disposición son matlab y Excel!
Sí contamos con algunas buenas herramientas, como los clústeres Beowulf,8 
que nos ofrecen cómputo rentable de alto rendimiento mediante la combinación de 
muchas computadoras de bajo costo. Tenemos un software llamado Condor,9 el cual 
permite recolectar ciclos de procesamiento de máquinas departamentales. Asimis-
mo, tenemos el boinc10 (Berkeley Open Infrastructure for Network Computing), 
que es un software que permite la recolección de ciclos de pc como en el proyecto 
seti@Home. Y tenemos algunos productos comerciales como el matlab. Todas estas 
herramientas surgieron de la comunidad de investigación, y no puedo entender por 
qué éstas en particular tuvieron éxito. 
También tenemos el Linux y el Unix Freebsd. El Freebsd antecedió a Linux, pero de 
alguna manera Linux despegó y Freebsd no. Creo que estas cuestiones tienen mucho 
que ver con la comunidad, las personalidades y el momento. Así que mi sugerencia 
es, simplemente, que debiéramos tener muchas cosas. Tenemos herramientas co-
merciales como Labview,11 por ejemplo, pero debiéramos crear otros tantos sistemas 
similares. Y sólo necesitamos esperar que algunos de éstos despeguen. No debiera 
ser muy caro sembrar un gran número de proyectos.
8 www.beowulf.org
9 www.cs.wisc.edu/condor
10 http://boinc.berkeley.edu
11 www.ni.com/labview
xxvi
LA REVOLUCIÓN QUE SE AVECINA EN LA COMUNICACIÓN ACADÉMICA
He llegado al final de la primera parte de mi conferencia, que trató sobre la necesidad 
de crear herramientas para ayudar a los científicos a capturar sus datos, curarlos, 
analizarlos y después visualizarlos. La segunda parte de la conferencia es acerca de la 
comunicación académica. Hace aproximadamente tres años, el Congreso de Estados 
Unidos aprobó una ley que recomendaba que si usted obtenía fondos de los National 
Institutes of Health (nih) para financiar su investigación, debía depositar los infor-
mes de esa investigación en la National Library of Medicine (nlm), de manera que 
el texto completo de los artículos quedara en el dominio público. El cumplimiento 
voluntario de esta ley ha sido sólo de 3%, así que las cosas están a punto de cambiar. 
Ahora es probable que veamos que toda la literatura científica apoyada con fondos 
públicos sea forzada por los organismos de financiamiento a publicarse en línea. 
En la actualidad existe un proyecto de ley patrocinado por los senadores Cornyn y 
Lieberman que hará que sea obligatorio para los beneficiarios de las subvenciones 
de los nih depositar sus artículos de investigación en el repositorio PubMed Central 
de la nlm.12 En el Reino Unido, el Wellcome Trust ha puesto en acción un mandato 
semejante para los beneficiarios de la investigación que financia, y ha creado un 
espejo del repositorio PubMed Central.
Sin embargo, internet puede hacer más que poner a disposición pública el texto 
completo de los artículos de investigación. En principio, puede unificar todos los 
datos científicos con toda la literatura para crear un mundo en el que los datos y la 
literatura interactúen entre sí (véase la figura 3). Usted podría estar leyendo un artí-
culo de alguien y luego ir a ver los datos originales; incluso podría volver a efectuar 
el análisis en cuestión. O podría estar revisando algunos datos y luego ir a localizar 
toda la literatura acerca de ellos. Esta posibilidad aumentará la “velocidad de la infor-
mación” de las ciencias y mejorará la productividad científica de los investigadores. 
¡Y creo que esto sería un desarrollo muy bueno!
Tómese el ejemplo de alguien que trabaja para los National Institutes of Health 
—que es el caso que se está discutiendo aquí— y que elabora un informe. Supongamos 
que descubre algo sobre la enfermedad X. Usted va al médico y dice: “Doctor, ¡no me 
siento muy bien!”, y él dice: “Andy, le vamos a hacer unos cuantos análisis clínicos”. 
Y le hacen unos cuantos análisis clínicos. Su médico lo llama al día siguiente y le 
dice: “No hay nada malo con usted. Tómese dos aspirinas, y tome unas vacaciones”. 
12 Véase el Open Access Newsletter de Peter Suber para un resumen de la situación actual: www.earlham.edu/~peters 
/fos/newsletter/01-02-08.htm.
JIM GRAY SOBRE LA E- CIENCIA
xxviiEL CUARTO PARADIGM A
Regresa usted un año después y se repite la historia. Tres años más tarde, el médico 
lo llama y le dice: “Andy, ¡descubrimos que usted tiene X!” Pregunta usted: “¿Qué 
es X?”, y él responde: “No tengo idea, es una enfermedad rara, pero hay un tipo en 
Nueva York que sabe todo acerca de ella”. Así que entra a Google13 y escribe todos sus 
síntomas. En la primera página de los resultados aparece X. Selecciona el enlace y es 
dirigido a PubMed Central y al resumen del artículo “Todo acerca de X”. Selecciona 
eso y llega al sitio de la New England Journal of Medicine, donde se le pide: “Páguenos 
por favor 100 dólares y le permitiremos leer acerca de X”. Busca y encuentra que 
el autor trabaja para los nih, que funciona gracias al dinero de sus impuestos. Por 
lo anterior, Lieberman14 y otros han manifestado: “Esto es un asco. La información 
científica pasa ahora por un filtro de revisión de expertos y se coloca en el dominio 
público, pero sólo en el sentido de que cualquiera puede leerla si paga por ello. ¿De 
qué se trata entonces? Ya hemos pagado por ello”.
Los editores académicos ofrecen el servicio de organizar la revisión por pares, 
imprimir la revista y distribuir la información a las bibliotecas. Sin embargo, internet 
es ahora nuestro distribuidor, y es más o menos gratuito. Todo esto está relacionado 
con el momento de reflexión por el que está pasando la sociedad acerca de dónde 
inicia y dónde termina la propiedad intelectual. La literatura científica, y en par-
13 O como Jim podría haber sugerido hoy: Bing.
14 Ley Federal de Acceso Público a la Investigación (Federal Research Public Access Act), de 2006, por Cornyn y 
Lieberman.
Todos los datos científicos en línea
• Muchas disciplinas se superponen y utilizan • 
 datos de otras ciencias
• Internet puede unificar toda la literatura
• y los datos
• Ir desde la literatura a los cómputos
• y los datos, y de vuelta a la literatura
• La información al alcance de todos
• en todas partes
• Aumentar la velocidad de
• la información científica
• Enorme aumento en la productividad
• científica
Datos derivados y 
recombinados
Literatura
Datos sin procesar
FIGURA 3.
xxviii
ticular la que sigue un proceso de revisión por pares, es probablemente uno de los 
lugares donde termina. Si desea obtener información acerca de la enfermedad X, 
probablemente podrá descubrir que las semillas del durazno son un magnífico tra-
tamiento para X. Pero esa información no proviene de la literatura arbitrada y está 
disponible sólo porque hay por ahí un tipo que le quiere vender semillas de durazno 
para curar X. Así que quienes han liderado el movimiento hacia el acceso abierto 
han sido principalmente personas que trabajan en el campo de la salud pública, ya 
que la buena información sobre el cuidado de la salud está resguardada bajo llave, 
mientras que la mala información circula por internet.
LA NUEVA BIBLIOTECA DIGITAL
¿Cómo funciona la nueva biblioteca? Bueno, es gratis porque es muy fácil publicar 
una página o un artículo en internet. Cada uno de ustedes puede darse el lujo de 
publicar en PubMed Central. Sólo le costaría unos pocos miles de dólares obtener 
una computadora —¡aunque no sé qué cantidad de accesos tendría!—. Sin embargo, 
la curaduría no es barata. Colocar la información en la computadora, interindexarla 
y todo ese tipo de cuestiones implican para la nlm un costo de curaduría de alre-
dedor de 100 dólares por artículo presentado. Si recibe un millón de artículos al 
año, que es aproximadamente lo que espera obtener, sólo la curación del material 
va a costar 100 millones de dólares anuales. Por eso es necesario automatizar todo 
el proceso de curación.
Lo que está sucediendo ahora es que PubMed Central, el brazo digital dela nlm, se 
ha vuelto portátil. Hay versiones de PubMed Central en funcionamiento en el Reino 
Unido, en Italia, en Sudáfrica, en Japón y en China. La del Reino Unido se puso en línea 
apenas la semana pasada. Podrán entender ustedes, por ejemplo, que los franceses no 
quieren que su biblioteca nacional de medicina se encuentre en Bethesda, Maryland, 
o en inglés. Y los ingleses no quieren que el texto esté en inglés estadounidense, por 
lo que la versión del Reino Unido probablemente utilizará, para lo que aparezca en 
su interfaz Web, la ortografía del inglés británico. Pero fundamentalmente, se puede 
colocar un documento en cualquiera de estos archivos y éste se reproducirá en el resto. 
Es bastante barato administrar alguno de estos archivos, pero los grandes desafíos 
radican en cómo hacer la curación y el arbitraje o revisión por pares.
REVISTAS ARBITRADAS DE ACCESO ABIERTO
Así es como pienso que podría funcionar, para lo cual me baso en el concepto de 
las revistas arbitradas de acceso abierto (overlay journals). La idea es que tenemos 
JIM GRAY SOBRE LA E- CIENCIA
xxixEL CUARTO PARADIGM A
archivos para datos y archivos para literatura. Los artículos se depositan en los ar-
chivos de literatura, y los datos van a los archivos de datos. Entonces hay un sistema 
de administración de revistas que alguien ha construido, el cual nos permite, como 
grupo, producir una revista sobre X. Permitimos que las personas envíen artículos 
a nuestra revista depositándolos en el archivo. Los sometemos a revisión por pares 
y, para los que nos gustan, elaboramos una portada donde decimos: “Éstos son los 
artículos que nos gustan”, y también la ponemos en el archivo. Ahora, llega un mo-
tor de búsqueda y eleva la calificación de todos esos artículos clasificándolos como 
buenos gracias a que ahora están referenciados por esta muy importante página ini-
cial. Estos artículos, por supuesto, también pueden referirnos de vuelta a los datos. 
Entonces entra en escena un sistema de colaboración que permite a las personas 
hacer anotaciones y comentar sobre los artículos de la revista. Los comentarios no 
se almacenan en el archivo arbitrado sino aparte, ya que no han sido revisados por 
pares, aunque podrían moderarse.
La National Library of Medicine va a hacer todo esto para la comunidad biomé-
dica, pero no está ocurriendo lo mismo en otras comunidades científicas. Deben 
saber, como miembros de la cstb, que la comunidad de ciencias de la computación 
podría ayudar a que esto suceda proporcionando herramientas adecuadas para las 
otras disciplinas científicas.
Hay un software que hemos creado en Microsoft Research llamado Herramienta 
de Administración de Congresos (cmt, Conference Management Tool). Hemos lle-
vado a cabo cerca de 300 congresos con ella, y el servicio de cmt hace que sea trivial 
crear un congreso. La herramienta cubre todo el flujo de trabajo: la formación de un 
comité a cargo del programa, la publicación de un sitio web, la aceptación de manus-
critos, la declaración de conflictos de interés y la recusación personal, la producción 
de reseñas, la decisión sobre los artículos que han de aceptarse, la confección del 
programa, la notificación a los autores, las revisiones y así sucesivamente. Ahora esta-
mos trabajando en agregar un botón que permita depositar los artículos en arXiv.org 
o en PubMed Central, y también trabajamos en incorporar la portada. Esto nos 
da ahora la posibilidad de capturar talleres y congresos con mucha facilidad; pero 
también permitirá editar una revista en línea. Este mecanismo haría que fuese muy 
fácil crear revistas arbitradas de acceso abierto.
Alguien preguntó antes si esto no signficaría un duro golpe para los editores 
académicos. Y la respuesta es que sí. ¿Pero acaso no va a ser también difícil para la 
ieee y la acm? La respuesta es que las sociedades profesionales están aterrorizadas 
ante la posibilidad de que si no tienen algún artículo que enviarles, ustedes no se 
xxx
afiliarán a ellas. Creo que van a tener que lidiar con esto de alguna manera, porque 
pienso que el acceso abierto será una realidad. Mirando a mi alrededor en esta sala, 
me doy cuenta de que la mayoría de nosotros somos viejos y no de la generación X. 
La mayoría de nosotros nos afiliamos a estas organizaciones simplemente porque 
pensamos que es parte de ser un profesional en nuestro campo. El problema es que 
los miembros de la generación X no se afilian a organizaciones.
¿QUÉ SUCEDE CON LA REVISIÓN POR PARES?
Esto no es una cuestión que les haya preocupado a ustedes, pero mucha gente dice: 
“¿Por qué es absolutamente necesaria la revisión por pares? ¿Por qué no sólo tenemos 
una wiki?” Y pienso que la respuesta es que la revisión por pares es diferente. Está 
muy estructurada, se modera y hay determinado grado de confidencialidad sobre 
lo que dice la gente. Una wiki es mucho más igualitaria. Creo que las wikis tienen 
mucho sentido si se trata de reunir comentarios acerca de la literatura después de que 
se ha publicado determinado artículo. Se necesita alguna estructura para el proceso 
de revisión por pares, como la que provee la cmt.
LA PUBLICACIÓN DE DATOS
Es mejor que me apresure y comente rápidamente la publicación de datos. He ha-
blado acerca de la publicación de artículos, pero si la respuesta es 42, ¿cuáles son 
las unidades? Uno puede colocar algunos datos en un archivo en internet, pero esto 
nos lleva de vuelta al problema de los archivos. El registro importante para mostrar 
nuestro trabajo en contexto se llama procedencia de los datos. ¿Cómo se obtuvo el 
número 42?
He aquí un experimento imaginario. Usted ha hecho algo de ciencia, y quiere 
publicar sus resultados. ¿Cómo los publica para que otros puedan leerlos y además 
reproducirlos de aquí a cien años? Mendel lo hizo, y también Darwin, pero a duras 
penas. Ahora estamos más rezagados que Mendel y Darwin en cuanto a las técnicas 
para hacer esto. Es un desastre, y tenemos que trabajar en este problema.
DATOS, INFORMACIÓN Y CONOCIMIENTOS: LAS ONTOLOGÍAS Y LA SEMÁNTICA
Estamos tratando de hacer objetivos los conocimientos. Podemos ayudar con cues-
tiones básicas como las unidades, lo que es una medición, quién tomó esa medición 
y cuándo la tomó. Éstas son cuestiones genéricas que se aplican en todos los campos. 
Aquí [en Microsoft Research] hacemos ciencia de la computación. ¿Qué queremos 
decir con planeta, estrella y galaxia?; eso es astronomía. ¿Qué es un gen?; eso es 
JIM GRAY SOBRE LA E- CIENCIA
xxxiEL CUARTO PARADIGM A
biología. Así que ¿cuáles son los objetos, cuáles son los atributos y cuáles son los 
métodos (en el sentido de orientación a objetos) que se utilizan en dichos objetos? Y 
nótese, entre paréntesis, que internet realmente se está convirtiendo en un sistema 
orientado a objetos en el que la gente extrae objetos. En el mundo de los negocios se 
está objetivando lo que es un cliente, lo que es una factura, y así sucesivamente. En 
las ciencias, por ejemplo, y de manera similar, necesitamos objetivar lo que es un 
gen —que es lo que hace GenBank—.15
Y aquí es necesario advertir que, para ir más lejos, necesariamente tropeza-
remos con las palabras “ontología”, “esquema” y “vocabularios controlados”. Es 
decir, al tomar este camino empezaremos a hablar de semántica; en otras pala-
bras, ¿qué significan las cosas? Y por supuesto que cada quien tiene una opinión 
diferente de lo que significan las cosas, por lo que las conversaciones pueden 
extenderse sin fin.
El mejor ejemplo de todo esto es Entrez,16 el motor de búsqueda de las ciencias 
biológicas creado por el National Center for Biotechnology Information para la nlm. 
Entrez permite búsquedas en PubMed Central, que contiene las publicaciones, pero 
también tienen datos de filogenia, secuencias de nucleótidos, secuencias de proteí-
nas y sus estructuras en 3-D, y también cuentan con GenBank. Es un sistema muy 
impresionante en realidad. También han construido la base de datos PubChem y 
muchas otras cosas. Todo estoconstituye un ejemplo de la interoperabilidad de los 
datos y la literatura. Usted puede estar examinando un artículo, ir a los datos gené-
ticos, seguir el camino desde el gen hasta la enfermedad, regresar a la literatura y 
así sucesivamente. ¡Es realmente asombroso!
Así que en este mundo, tradicionalmente hemos tenido autores, editores, curado-
res y consumidores. En el nuevo mundo, los científicos individuales trabajan ahora 
en equipo, y las revistas se están convirtiendo en sitios Web que alojan los datos y 
otros detalles de los experimentos. Los curadores se encargan ahora de voluminosos 
archivos digitales, y lo único que sigue permaneciendo aproximadamente igual es 
el científico individual. Verdaderamente es un cambio radical en la forma en que 
hacemos ciencia.
Un problema es que todos los proyectos terminan en determinado momento y 
no hay claridad sobre lo que pasa entonces con los datos. Los datos aparecen a toda 
escala. Hay antropólogos reuniendo información en campo y anotándola en sus 
15 www.ncbi.nlm.nih.gov/Genbank
16 www.ncbi.nlm.nih.gov/Entrez
xxxii
cuadernos; y luego están los físicos de partículas en el gch. La mayoría de los bytes 
se encuentran en el extremo superior de la cadena, pero la mayoría de los conjuntos 
de datos se encuentran en el extremo inferior. Ahora estamos empezando a ver “hi-
bridaciones” (mashups) en las que las personas toman conjuntos de datos de varios 
lugares y los reúnen para crear un nuevo conjunto de datos. Así, en el mismo sentido 
en que necesitamos archivos para publicaciones en revistas, necesitamos archivos 
para los datos.
Así que ésta es mi última recomendación a la cstb: promuevan las bibliotecas 
digitales de datos. Francamente, el proyecto de la Biblioteca Digital de la nsf se 
trataba enteramente de metadatos para bibliotecas y no de verdaderas bibliotecas 
digitales. Debiéramos construir bibliotecas digitales reales tanto para los datos como 
para la literatura.
RESUMEN
He querido exponer que casi todo lo relacionado con la ciencia está cambiando 
gracias al impacto de la tecnología de la información. Las ciencias experimentales, 
las teóricas y las computacionales todas están siendo afectadas por la avalancha de 
datos, y está surgiendo un cuarto paradigma de la ciencia: la ciencia intensiva 
en datos. La meta es tener un mundo en el que toda la literatura científica esté en 
línea, todos los datos científicos estén en línea, y que interactúen. Se necesitan mu-
chas herramientas nuevas para que esto suceda.
NOTA DE LOS EDITORES
La transcripción completa y las diapositivas en PowerPoint de la conferencia de Jim 
se pueden encontrar en el sitio Web Fourth Paradigm.17 Las preguntas y respuestas 
durante la conferencia se han extraído de este texto y están disponibles en el sitio 
Web (téngase en cuenta que no se ha identificado a los interlocutores por su nom-
bre). El texto que aquí se presenta incluye algunas ediciones menores para mejorar 
la legibilidad, así como notas al pie y referencias que hemos agregado, pero creemos 
que el texto sigue siendo fiel a la presentación de Jim.
17 www.fourthparadigm.org
JIM GRAY SOBRE LA E- CIENCIA
xxxiiiEL CUARTO PARADIGM A
REFERENCIAS
[1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 2009, pp. 
1297-1298, doi: 10.1126/science.1170411.
[2] J. Wing, “Computational Thinking”, Comm. ACM, vol. 49, núm. 3, marzo de 2006, doi: 
10.1145/1118178.1118215.
[3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu.
[4] Experimentos del Gran Colisionador de Hadrones, http://public.web.cern.ch/Public/en/LHC/LHC 
Experiments-en.html.
[5] Experimento BaBar, www.slac.stanford.edu/BFROOT.
[6] G. Bell, J. Gray y A. Szalay, “Petascale Computational Systems”, IEEE Computer, vol. 39, 2006, pp. 
110-112, doi: 10.1109/MC.2006.29.
1 . T I E R R A Y M E D I O A M B I E N T E
3EL CUARTO PARADIGM A
TI ER R A Y M EDIO AM BI ENTE
Introducción
l cambio es inevitable: el universo se expande, la na-
turaleza se adapta y evoluciona, y así deben hacerlo las 
herramientas científicas y las tecnologías que empleamos 
para alimentar nuestra búsqueda implacable de mayores 
conocimientos en las ciencias del espacio, de la Tierra y del medio 
ambiente. Las oportunidades y los desafíos son muchos. Las nuevas 
tecnologías computacionales, tales como la computación en la nube 
y los procesadores multinúcleo, no pueden proporcionarnos la solu-
ción completa en sus formas genéricas, pero la aplicación efectiva y 
oportuna de tales tecnologías nos puede ayudar a avanzar de manera 
significativa en nuestra comprensión del mundo, incluyendo sus 
desafíos ambientales y cómo podríamos abordarlos.
Con la ciencia en proceso de volverse computacional y basada 
en datos, los principales retos tecnológicos incluyen la necesidad 
de capturar, analizar, modelar y visualizar información científica 
de mejor manera. El objetivo final es ayudar a los científicos, a los 
investigadores, a los responsables de políticas y al público en general 
en la toma de decisiones informadas. Conforme la sociedad exige 
acción y capacidad de respuesta a los crecientes problemas ambien-
tales, los nuevos tipos de aplicaciones basadas en la investigación 
científica tendrán que pasar del descubrimiento puro y la obten- 
ción de datos básicos que conducen al conocimiento, a informar 
la toma de decisiones prácticas. Problemas apremiantes como el 
E
DAN FAY | Microsoft Research
4 TIERRA Y MEDIO AMBIENTE
cambio climático no esperarán hasta que los científicos reúnan todos los datos para 
llenar sus vacíos de conocimiento.
Como se desprende de los capítulos de esta parte del libro, los científicos en 
realidad están buscando activamente el saber científico mediante el uso de nuevas 
tecnologías computacionales. Szalay y Blakeley describen las reglas informales de 
Jim Gray para el desarrollo centrado en datos, y la forma en que sirven como modelo 
para lograr que conjuntos de datos a gran escala sean accesibles mediante el uso de 
bases de datos, aprovechando tanto los sistemas de administración de datos como 
el procesamiento en paralelo incorporados a los servidores sql.
Con el fin de facilitar la toma informada de decisiones con base en evidencias 
científicas confiables, Dozier y Gail exploran cómo el uso aplicado de la tecnología y 
de los conocimientos científicos actuales son clave para proporcionar herramientas 
a los responsables de las políticas y de la toma de decisiones. Hunt, Baldocchi y Van 
Ingen describen los cambios en curso en las ciencias ecológicas, que están pasando 
de la “ciencia en lo pequeño” a las grandes colaboraciones basadas en la síntesis de da- 
tos. Estos conjuntos agregados de datos exponen la necesidad de herramientas 
de colaboración en la nube, así como de herramientas de visualización y de análi- 
sis fáciles de usar. A continuación, Delaney y Barga proporcionan perspicaces in-
tuiciones convincentes sobre la necesidad de monitorear en tiempo real la compleja 
dinámica en el mar mediante la creación de un laboratorio marino interactivo. Esta 
novedosa ciberinfraestructura permitirá nuevos descubrimientos y conocimientos 
a través de mejores modelos oceánicos.
Goodman y Wong destacan la necesidad de nuevas tecnologías de exploración 
científica. Para impulsar la vinculación entre los recursos existentes, los astróno-
mos pueden usar una nueva clase de herramientas de visualización, tales como el 
WorldWide Telescope (wwt). Esta nueva clase de herramienta ofrece acceso a datos e 
información no sólo a los científicos profesionales, sino también al público en general, 
tanto para la educación como para posiblemente permitir nuevos descubrimientos 
por parte de cualquier persona que tenga acceso a Internet. Por último, Lehning y sus 
colaboradores proporcionan detalles acerca del uso de sensores en tiempo real den-
samente desplegados en combinación con recursos de visualización para una mayor 
comprensión de la dinámica del ambiente —comoun telescopio virtual que mira hacia 
la Tierra—. Estas aplicaciones ilustran cómo los científicos y los tecnólogos tienen la 
oportunidad de implicar y hacer participar a científicos ciudadanos en sus esfuerzos.
En la Parte 1, y en todo el libro, veremos cómo es que nuevos sensores e infraes-
tructuras permiten el acceso en tiempo real a potencialmente enormes cantidades de 
5EL CUARTO PARADIGM A
datos, pero con capacidad de repetición experimental mediante el uso de flujos de tra-
bajo. Las arquitecturas orientadas a servicios están ayudando a mitigar la transición 
a las nuevas tecnologías subyacentes y permiten la vinculación de datos y recursos. 
Este proceso de rápida evolución es el único mecanismo que tenemos para hacer 
frente al torrente de datos que surge de nuestros instrumentos.
La pregunta es cómo los recursos intelectuales y tecnológicos del mundo se pueden 
instrumentar mejor para guiar con autoridad nuestras respuestas a los retos actuales y 
futuros de la sociedad. Los capítulos que siguen ofrecen algunas excelentes respuestas.
7EL CUARTO PARADIGM A
TI ER R A Y M EDIO AM BI ENTE
Las leyes de Gray:
cómputo científico centrado 
en bases de datos
ALEXANDER S . 
SZALAY 
The Johns Hopkins 
University
JOSÉ A . BLAKELEY 
Microsoft 
l crecimiento explosivo de los datos científicos plantea 
un desafío importante a la investigación de frontera. Ante 
conjuntos de datos que rebasan las decenas de terabytes, 
los científicos no cuentan con herramientas comerciales 
prediseñadas que puedan aplicar en el manejo y análisis de la in-
formación [1]. Los proyectos exitosos a la fecha han recurrido a 
distintas combinaciones de archivos planos y bases de datos [2]; sin 
embargo, muchas de estas soluciones han sido creadas a la medida 
de proyectos específicos y su generalización o escalamiento para la 
próxima generación de experimentos no parece una tarea sencilla. 
Por otro lado, las modernas arquitecturas computacionales pre-
sentan un creciente desequilibrio; la brecha de latencia entre los 
cpu multinúcleo y los discos duros mecánicos aumenta cada año, 
lo que dificulta aún más remontar los retos que supone el cómputo 
intensivo en datos [3]. Es necesario un enfoque sistemático general 
respecto a estos problemas, aunado al diseño de arquitecturas con 
capacidad de escalamiento futuro.
LAS LEYES DE GRAY
Jim Gray formuló una serie de lineamientos o leyes informales que 
codifican la forma de abordar problemas de ingeniería de datos 
relacionados con el procesamiento de grandes volúmenes de infor-
mación científica. Las leyes son las siguientes:
E
8 TIERRA Y MEDIO AMBIENTE
1. El cómputo científico se está volviendo cada vez más intensivo en datos.
2. La solución radica en una arquitectura con “escalabilidad horizontal”.
3. Llevar los cálculos a los datos, más que los datos a los cálculos.
4. Empezar el diseño con las “20 preguntas”.
5. Avanzar de “funcional a funcional”.
Es importante notar que el análisis de los conjuntos de datos provenientes de obser-
vaciones está rigurosamente limitado por el bajo desempeño de entrada/salida (e/s) que 
presentan muchas plataformas computacionales modernas; de hecho, las simulaciones 
numéricas de alto rendimiento también están resintiendo el “cuello de botella de e/s”. 
Una vez que determinado conjunto de datos excede la capacidad de memoria ram del 
sistema, la localidad en caché multicapa resulta ineficaz [4]; sin embargo, muy pocas 
plataformas de alto nivel cuentan con subsistemas de e/s suficientemente veloces.
La computación numérica escalable de alto desempeño también representa un reto 
algorítmico. Los paquetes tradicionales de análisis numérico están diseñados para 
operar en conjuntos de datos que caben en ram. Cuando los análisis por realizar son 
varios órdenes de magnitud mayores, estos paquetes deben rediseñarse para trabajar 
en múltiples fases, siguiendo una estrategia de “dividir y vencer”, pero sin perder 
precisión numérica. Esto sugiere un criterio en el que un problema de gran escala se 
descompone en piezas más pequeñas que pueden resolverse en ram, mientras que 
el resto del conjunto de datos reside en disco. Este enfoque es análogo a la manera 
en que los algoritmos de bases de datos, como los ordenamientos y combinaciones 
(joins), funcionan en conjuntos de datos mayores que el ram. Estos retos están al-
canzando un momento crítico.
Adquirir sistemas más grandes de almacenamiento en red y añadírselos a clús-
ters de nodos de cómputo no va a solucionar el problema, ya que las velocidades de 
red y de interconexión no crecen lo suficientemente rápido como para lidiar con 
las necesidades de almacenamiento que se duplican anualmente. Las soluciones 
escalables horizontalmente proponen el uso de bloques simples en los cuales los 
datos se encuentren particionados entre nodos con almacenaje local incorporado 
[5]. Entre más pequeños y sencillos sean estos bloques mejor será el balance entre 
los cpu, discos y redes. Gray visualizó “ciberladrillos” simples, donde cada unidad de 
disco contaba con su propio cpu y conexión de red [6]. Si bien el número de nodos 
en un sistema de este tipo sería mucho más grande que en una arquitectura “esca-
lable verticalmente”, la sencillez y bajo costo de cada nodo, así como el desempeño 
combinado, compensarían con creces la complejidad adicional. Con el surgimien- 
9EL CUARTO PARADIGM A
to de los discos de estado sólido y las tarjetas madre de bajo consumo estamos cerca 
de poder construir sistemas de este tipo [7].
CÓMPUTO CENTRADO EN BASES DE DATOS
Muchos análisis de datos científicos se realizan en una serie jerárquica de pasos. En 
una primera etapa se extrae un subconjunto de los datos, ya sea filtrando a partir 
de ciertos atributos (por ejemplo, eliminando datos erróneos) o extrayendo un sub-
conjunto vertical de las columnas. En el siguiente paso, los datos son generalmente 
transformados o reunidos de alguna manera. Por supuesto, en conjuntos de datos más 
complejos, estos patrones se acompañan frecuentemente de combinaciones complejas 
entre múltiples conjuntos de datos, como sería el caso de las calibraciones externas 
o la extracción y análisis de distintas porciones de una secuencia genética [8]. Dado 
que los conjuntos de datos son cada vez más grandes, la manera más eficiente de 
realizar estas operaciones es claramente llevar las funciones de análisis tan cerca 
de los datos como sea posible. También tenemos que muchos de estos patrones se 
pueden expresar fácilmente mediante un lenguaje declarativo orientado a conjuntos, 
cuya ejecución puede beneficiarse enormemente de la optimización de consultas 
(queries) basada en costos, paralelismo automático e índices.
Gray y sus colaboradores han mostrado en varios proyectos que las actuales tec-
nologías de bases de datos relacionales pueden aplicarse con éxito en este contexto 
[9]. También existen maneras transparentes de incorporar complejas bibliotecas de 
clases escritas en lenguajes de procedimientos como una extensión de la maquinaria 
de base de datos subyacente [10, 11].
En años recientes, MapReduce ha ganado popularidad como un paradigma de cóm-
puto y de análisis distribuido de datos [12]. Los principios detrás de este paradigma 
son semejantes a las capacidades de agrupamiento distribuido y de agregación que 
existen desde hace algún tiempo en sistemas paralelos de bases de datos relacionales. 
Bases de datos paralelas de nueva generación, como Teradata, Aster Data y Vertica, 
han rebautizado estas capacidades como “MapReduce en la base de datos”. Se han 
desarrollado nuevos indicadores para comparar los méritos de cada estrategia [13].
COMUNICACIÓN CON LOS CIENTÍFICOS
Uno de los problemas más desafiantes al diseñar bases de datos científicas es esta-
blecer una comunicación efectiva entre el autor de la base de datos y los científicos 
del área interesados en el análisis. Casi todos los proyectos cometen el error de tratar 
de ser “todo para todos”; es claro que algunas funciones son másimportantes que 
10 TIERRA Y MEDIO AMBIENTE
otras y que es necesario hacer algunas concesiones en el diseño, lo que conlleva 
concesiones de desempeño.
Jim Gray creó la regla heurística de las “20 preguntas”. En cada proyecto en el 
que participaba solicitaba a los investigadores una lista de las 20 preguntas más 
importantes que querían que respondiera el sistema de datos. Él sostenía que cinco 
preguntas no son suficientes para ver un patrón más amplio y que 100 preguntas 
producirían una pérdida de enfoque. Como casi toda elección que incluye decisiones 
humanas sigue una distribución de “larga cola” —la llamada distribución 1/f—, es 
claro que la información relativa en las preguntas ordenadas por importancia es 
logarítmica; por lo tanto, la ganancia obtenida al pasar de unas 20 (24.5) preguntas 
a 100 (26.5) es muy pequeña [14].
La regla de las “20 preguntas” es sólo un rótulo para designar una etapa en el 
diseño donde el científico del área y el ingeniero de bases de datos entablan una con-
versación que ayuda a superar la brecha semántica entre los sustantivos y los verbos 
que se emplean en el campo científico en cuestión y las entidades y relaciones que se 
almacenan en la base de datos. Las preguntas definen así el conjunto específico de 
consultas, en términos de entidades y relaciones, que los científicos del área esperan 
hacerle a la base de datos. Al final de un ciclo completo de este ejercicio, el científico 
y la base de datos hablan el mismo idioma.
Esta estrategia ha sido muy exitosa para mantener el proceso de diseño enfocado 
en las funciones más importantes que el sistema debe proveer y, al mismo tiempo, 
ayudar a los científicos del área a entender mejor las limitaciones del sistema de base 
de datos, reduciendo así la “sobrecarga de funciones”.
Otra regla de diseño es avanzar de versión funcional en versión funcional. Gray 
era plenamente consciente de la rapidez con que cambia la arquitectura del cómputo 
basado en datos, especialmente si esos datos son distribuidos. Nuevos paradigmas de 
cómputo distribuido nacen y mueren cada año, haciendo sumamente difícil emprender 
un ciclo descendente (top-down) de diseño e implementación que abarque un periodo 
de varios años, ya que para cuando tal proyecto se concluye las premisas iniciales han 
quedado obsoletas. Si construimos un sistema que comience a funcionar únicamente 
cuando todos sus componentes funcionen de manera correcta, nunca terminaremos.
En un contexto así, la única manera de sobrevivir y progresar es construir sistemas 
modulares en los que cada componente individual pueda ser reemplazado cuando la 
tecnología en la cual está basado evolucione. Las actuales arquitecturas orientadas 
a servicios son un buen ejemplo de esto; los servicios Web han pasado ya por varias 
etapas evolutivas y el fin de este proceso aún no se vislumbra.
11EL CUARTO PARADIGM A
DE LOS TERABYTES A LOS PETABYTES EN LAS BASES DE DATOS CIENTÍFICAS
Hemos abordado de manera exitosa varios proyectos del rango de unos cuantos 
terabytes (tb) a decenas de terabytes utilizando Microsoft sql Server [15-17]. La 
implementación de bases de datos que pronto excederán los 100 tb aparenta ser 
también un proceso directo [18]; pero no es del todo claro cómo es que la ciencia 
podrá cruzar la barrera de los petabytes. En la medida en que las bases de datos 
sigan creciendo, tendrán que recurrir a arquitecturas cada vez más escalables ho-
rizontalmente. Los datos estarán fuertemente segmentados, provocando que las 
consultas distribuidas no locales y las combinaciones distribuidas (distributed joins) 
sean cada vez más difíciles.
Para casi todos los problemas que actualmente alcanzan la escala de los petabytes 
se ha aplicado con éxito una estrategia simple de rastreo sobre particiones de datos 
masivamente escaladas horizontalmente y que no tienen elementos en común (Map- 
Reduce, Hadoop, etc.). Sin embargo, es claro que este diseño está muy por debajo 
de lo óptimo, ya que un buen índice podría mejorar el desempeño en varios órdenes 
de magnitud. Las combinaciones entre tablas de muy diferentes cardinalidades son 
particularmente difíciles de usar con los rastreadores (crawlers).
Las bases de datos tienen mucho que ofrecernos en términos de planes más 
eficientes. También tenemos que repensar la utilidad de esperar un conjunto mo-
nolítico de resultados. Podemos imaginar rastreadores trabajando sobre bases de 
datos altamente segmentadas, implementando una estructura que pueda generar 
resultados un bloque a la vez, lo que facilitaría el control punto a punto y la recu-
peración en medio de una consulta extensa. Esta estrategia también es útil para 
funciones agregadas con una cláusula que detendría la búsqueda cuando se estime 
que el resultado se acerca, digamos, a un 99% de exactitud. Estas sencillas mejoras 
serían de gran ayuda para evitar enormes consultas monolíticas, dividiéndolas en 
consultas pequeñas y más manejables.
La computación en la nube es otro paradigma que ha surgido recientemente. Ofre-
ce ventajas evidentes como la ubicación concurrente de los datos con los cómputos 
y una economía de escala en el alojamiento Web de los servicios. Si bien es evidente 
que estas plataformas desempeñan muy bien las tareas para las que están pensadas 
en los motores de búsqueda o en los sistemas de alojamiento flexible de sitios Web 
comerciales, su papel en la informática científica está todavía por definirse. En algu-
nos escenarios de análisis científico, los datos tienen que estar cerca del experimento; 
en otros casos, los nodos tienen que estar estrechamente integrados con una latencia 
muy baja, y en otros casos más se requiere un gran ancho de banda de e/s. Ninguna 
12 TIERRA Y MEDIO AMBIENTE
de estas estrategias de análisis daría resultados óptimos en los actuales ambientes de 
virtualización. Ciertamente, se espera que nubes de datos más especializadas surjan 
pronto. En los próximos años veremos si la computación científica se traslada de las 
universidades a los proveedores comerciales de servicios o si es necesario que los 
grandes almacenes de datos científicos se fusionen en uno solo.
CONCLUSIONES
La ciencia experimental está generando grandes volúmenes de datos. El proyecto 
Pan-starrs capturará 2.5 petabytes (pb) de datos cada año cuando entre en actividad 
[18]. El Gran Colisionador de Hadrones (gch) generará entre 50 y 100 pb de datos 
cada año, con cerca de 20 pb de esos datos almacenados y procesados en una federa-
ción mundial de redes nacionales enlazando 100 000 cpu [19]. Sin embargo, todavía 
no se dispone de soluciones genéricas centradas en datos que puedan afrontar estos 
volúmenes de información ni sus correspondientes análisis [20].
Los científicos y las instituciones científicas necesitan un modelo y un reperto-
rio de buenas prácticas que conduzcan a arquitecturas de hardware equilibradas y 
software correspondiente para manejar esos volúmenes de datos. De esta manera, 
se reduce la necesidad de reinventar la rueda. Ciertas propiedades de las bases de 
datos, como los lenguajes declarativos orientados a conjuntos y el paralelismo auto-
mático, que han sido exitosas para construir aplicaciones científicas a gran escala, 
son claramente necesarias. 
Creemos que la actual generación de bases de datos puede lidiar con al menos 
otro orden de magnitud en escala, así que por ahora podemos seguir trabajando. Sin 
embargo, es momento de empezar a pensar en la siguiente generación. Las bases 
de datos científicas son un indicador temprano de los requerimientos que en su 
momento serán necesarios para las aplicaciones corporativas convencionales; por 
tanto, lo que se invierta en estas aplicaciones llevarán a desarrollar tecnologías que 
serán ampliamente aplicables en unos cuantos años. Los desafíos científicos actuales 
son buenos representantes de los desafíos del manejo de datos para el siglo xxi. Las 
leyes de Gray representan un excelente conjunto de principios rectores para diseñar 
los sistemas intensivos

Continuar navegando