Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
E l c UA R T O pA R A D I G M A RECTOR GENERAL Salvador Vega y León SECRETARIO GENERAL Norberto Manjarrez Álvarez COORDINADOR GENERAL DE DIFUSIÓN Walterio Beller Taboada DIRECTOR DE PUBLICACIONES Y PROMOCIÓN EDITORIAL Bernardo Ruiz SUBDIRECTORA DE PUBLICACIONES Laura González Durán SUBDIRECTOR DE DISTRIBUCIÓN Y PROMOCIÓN EDITORIAL Marco Moctezuma El c U A R T O De s c u br i m i e n t o c i e n t í f ic o i n t e nsi vo e n Dat o s p A R A D I G M A EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE TRADUCCIÓN DE JOSÉ LUIS ACOSTA, RODRIGO CAMBRAY-NÚÑEZ Y ABDIEL MACÍAS ARVIZU Para Jim Copyright © 2009 Microsoft Corporation Excepto donde se indique lo contrario, el contenido de esta publicación se encuentra bajo la licencia Creative Commons Attribution-Share Alike 3.0 United States, disponible en http://creativecommons.org/licenses/by-sa/3.0/us/legalcode. Segunda impresión, versión 1.1, octubre 2009. ISBN 978-0-9825442-0-4 Microsoft, Amalga, Bing, Excel, HealthVault, Microsoft Surface, SQL Server, Virtual Earth y Windows son marcas registradas del grupo de consorcios de Microsoft. Todas las demás marcas registradas son propiedad de sus respecti- vos dueños. La información, hallazgos, perspectivas y opiniones contenidas en esta publi- cación pertenecen a los autores y no necesariamente reflejan los puntos de vista de Microsoft Corporation o de Microsoft Research. Microsoft Corporation no garantiza la exactitud de la información contenida en la presente obra. Microsoft Research http://research.microsoft.com Título original en inglés The Fourth Paradigm, Microsoft Research, 2009. Edited by Tony Hey, Stewart Tansley and Kristin Tolle. Traducción al español: José Luis Acosta, Rodrigo Cambray-Núñez y Abdiel Macías Arvizu Revisión técnica: Manuel López Michelone D.R. © 2014, Universidad Autónoma Metropolitana Prolongación Canal de Miramontes 3855, Ex hacienda San Juan de Dios, delegación Tlalpan, 14387 México, D.F. Esta publicación no puede ser reproducida, total ni parcialmente, ni registrada en un sistema de recuperación de información, ni transmitida por ningún medio, sea mecánico, fotoquí- mico, electrónico, magnético, electroóptico, por fotocopia o cualquier otro, sin el permiso previo, por escrito, de los editores. ISBN de la obra: 978-607-28-0151-6 Impreso en México/Printed in Mexico Para Jim CONTE NIDO xi prólogo Gordon Bell xvii jim gray sobre la e-ciencia: un método científico transformado Editado por Tony Hey, Stewart Tansley y Kristin Tolle 1 . TIERR A Y MEDIO AMBIENTE 3 introducción Dan Fay 7 las leyes de gray: cómputo científico centrado en bases de datos Alexander S. Szalay, José A. Blakeley 15 la nueva ciencia de las aplicaciones ambientales Jeff Dozier, William B. Gail 23 redefiniendo la ciencia ecológica mediante los datos James R. Hunt, Dennis D. Baldocchi, Catharine van Ingen 29 una visión de la oceanografía en el año 2020 John R. Delaney, Roger S. Barga 41 acercando el cielo nocturno: descubrimientos en la avalancha de datos Alyssa A. Goodman, Curtis G. Wong 49 la instrumentación de la tierra: redes de sensores de próxima generación y las ciencias del ambiente Michael Lehning, Nicholas Dawes, Mathias Bavay, Marc Parlange, Suman Nath, Feng Zhao 2 . SALUD Y BIENESTAR 59 introducción Simon Mercer 63 la singularidad de la asistencia sanitaria y la era de la medicina semántica Michael Gillam, Craig Feied, Jonathan Handler, Eliza Moody, Ben Shneiderman, Catherine Plaisant, Mark Smith, John Dickason 71 la provisión de servicios de salud en los países en vías de desarrollo: desafíos y soluciones potenciales Joel Robertson, Del DeHart, Kristin Tolle, David Heckerman 81 descubriendo el esquema de conexiones del cerebro Jeff W. Lichtman, R. Clay Reid, Hanspeter Pfister, Michael F. Cohen 91 hacia un microscopio computacional para la neurobiología Eric Horvitz, William Kristan 99 un enfoque de modelado unificado para la asistencia sanitaria intensiva en datos Iain Buchan, John Winn, Chris Bishop 107 visualización en modelos de álgebra de procesos de sistemas biológicos Luca Cardelli, Corrado Priami 3. INFR AESTRUCTUR A CIENTÍFICA 117 introducción Daron Green 121 ¿una nueva ruta para la ciencia? Mark R. Abbott 129 más allá del tsunami: a edificación de la infraestructura para el tratamiento de los datos de las ciencias biológicas Christopher Southan, Graham Cameron 137 la computación multinúcleo y el descubrimiento científico James Larus, Dennis Gannon 143 el paralelismo y la nube Dennis Gannon, Dan Reed 149 el impacto de las herramientas de flujo de trabajo en la investigación centrada en datos Carole Goble, David de Roure 159 la e-ciencia semántica: la codificación de significado en la ciencia mejorada digitalmente de la siguiente generación Peter Fox, James Hendler 165 visualización para la ciencia intensiva en datos Charles Hansen, Chris R. Johnson, Valerio Pascucci, Claudio T. Silva 177 una plataforma para todo lo que sabemos: la creación de una infraestructura de investigación basada en los conocimientos Savas Parastatidis 4. COMUNICACIÓN ACADÉMICA 187 introducción Lee Dirks 191 el cuarto paradigma de jim gray y la construcción del registro científico Clifford Lynch 199 el texto en un mundo centrado en datos Paul Ginsparg 207 todos a bordo: hacia un sistema de comunicación académica amigable con las máquinas Herbert van de Sompel, Carl Lagoze 215 el futuro de las políticas de datos Anne Fitzgerald, Brian Fitzgerald, Kylie Pappalardo 225 he visto el cambio de paradigma, y somos nosotros John Wilbanks 233 de la web 2.0 a la base de datos global Timo Hannay 241 el camino por recorrer Craig Mundie 245 conclusiones Tony Hey, Stewart Tansley y Kristin Tolle 249 siguientes pasos 250 agradecimientos 253 algunas palabras sobre jim… 255 glosario 259 índice xiEL CUARTO PARADIGM A GORDON BELL | Microsoft Research Prólogo ste libro propone un novedoso cuarto paradigma para la ciencia basado en la computación intensiva en datos. Esta investigación se encuentra en un momento parecido al de la invención de la imprenta de tipos móviles, que tardó un milenio en desarrollarse y evolucionar hasta sus múltiples manifestaciones actuales. El uso de computadoras para obtener conocimientos a partir de los datos creados y respaldados en nuestros depósitos electrónicos tomará décadas o, quizá, menos. Los coautores de esta obra han hecho un trabajo extraordinario que ayuda a la comprensión más precisa de este nuevo paradigma desde diversos puntos de vista especializados. En varios aspectos, la ciencia va atrás del mundo comercial en cuanto a inferir un significado a partir de los datos y actuar con base en él. Sin embargo, en los negocios las cosas son comparativamente sencillas: los objetos que pueden describirse con un nom- bre o con unos cuantos números se manufacturan para ser comprados y vendidos. Las disciplinas científicas no pueden encapsularse en unos pocos nombres y números de fácil comprensión, y muchos datos científicos carecen de un valor económico suficientemente elevado capaz de propiciar un progreso más intenso de los descubrimientos científicos. El asistente de Tycho Brahe, Johannes Kepler, al estudiar el catálogo sistemático de las observaciones astronómicas de Brahe, descubrió las leyes del movimiento planetario. Con ello se establece la división entre la exploración y el análisis de datos experimen- tales cuidadosamente registrados y la formulación de teorías. Tal división es un rasgo propio del cuarto paradigma. En el siglo xx, los datos que fundamentaban las teorías científicas se hallaban con frecuencia sepultados en libretas o, para algunos aspectos relacionados con la “alta cien- cia”, almacenados en medios magnéticos que terminaron siendo ilegibles. En especial E xii los personalesy los de pequeños laboratorios, son inaccesibles; en su mayoría, se desechan cuando el investigador se retira o, acaso, se conservan en una biblioteca institucional antes de eliminarlos. El registro a largo plazo del origen de los datos, o el común acceso comunitario a los datos distribuidos, son sólo algunos de los retos. Afortunadamente, algunos “centros de datos”, como el National Center for At- mospheric Research1 (ncar), se prestan para recibir investigadores de ciencias de la Tierra que buscan analizar los datos curados procedentes de mediciones y modelos computacionales. Con ello, en una sola institución tenemos la cadena de obtención, curaduría y análisis de datos para toda una disciplina. En el siglo xxi es muy factible que la mayor parte del vasto y continuo volumen de datos capturados por nuevos instrumentos de manera ininterrumpida, junto con la información generada en los mundos artificiales de los modelos computarizados, residan de manera permanente en una forma viva, de amplio acceso público y curada para efectos de su continuo análisis. Éste conducirá al desarrollo de nuevas teorías. Pronto atestiguaremos que los datos se conservan a perpetuidad como materiales de archivo —como sucede con el registro en papel— y serán accesibles a todos, humanos y máquinas, en la nube. Es reciente imaginar tal permanencia para los datos como lo pensamos para los objetos de bibliotecas y museos nacionales. Ese grado de duración era inverosímil, hasta que notamos que la captura del origen de los datos —incluso los registros de los investigadores, y a veces toda la información sobre ellos— es lo que piden y —han deseado— las bibliotecas. La “nube” de polarizaciones magnéticas que codifica datos y documentos en la biblioteca digital se convertirá en el equivalente de los kilómetros de estantes de bibliotecas que almacenan papel y tinta. En 2005, el Consejo Nacional de Ciencia de la National Science Foundation publicó el informe “Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century”, que inicia un diálogo sobre el interés de la preservación de los datos y la importancia de su cuidado y soporte con un nuevo equipo: los “científicos de datos”: El interés de los científicos de datos —expertos de la información y la com- putación, ingenieros y programadores de bases de datos y software, y ex- pertos interdisciplinarios, curadores y expertos anotadores, bibliotecarios, archivistas y otros actores cruciales para la exitosa administración de una colección digital de datos— se basa en el reconocimiento a su creatividad y sus contribuciones intelectuales. [1] 1 www.ncar.ucar.edu PROLOGO xiiiEL CUARTO PARADIGM A EL CUARTO PARADIGMA: UN ÉNFASIS EN LOS SISTEMAS INTENSIVOS DE DATOS Y LA COMUNICACIÓN CIENTÍFICA En su última conferencia para la Comisión de Ciencias de la Computación y de Telecomunicaciones el 11 de enero de 2007 [2], Jim Gray describió su visión del cuarto paradigma de la investigación científica. Hizo un exhorto en dos partes para el financiamiento de herramientas para la obtención, curación y análisis de datos, y para la creación de una infraestructura de comunicación y publicación. Argumentó en favor del desarrollo de modernos repositorios para los datos y los documentos, que compitieran con las bibliotecas tradicionales. La versión editada de su trabajo, introduce la escena para los capítulos siguientes. La ciencia intensiva en datos se basa en tres actividades: obtención, curación y análisis. Los datos existen en todos los tamaños y formas, lo que incluye los de grandes experimentos internacionales; observaciones provenientes de redes de laboratorios, laboratorios particulares e individuos; y potencialmente vidas personales.2 La disciplina y la escala de los experimentos individuales, y en particular sus tasas de datos, hacen del asunto de las herramientas un magno problema. El proyecto de radiotelescopios Australian Square Kilometre Array,3 el Gran Colisionador de Hadrones4 del cern y el sistema de telescopios astronómicos Pan-STARRS5 tienen la capacidad de generar varios petabytes (pb) de datos cada día, mas sus directrices los limitan a tasas de recolección más manejables hoy. Los dispositivos de secuenciación genética presen- tan rendimientos más modestos por su costo, de modo que sólo se secuencian por individuo algunas regiones de secuencias genómicas (25 kb por unos cuantos cientos de miles de pares de bases). Sin embargo, esto es, cuando mucho, temporal hasta que se otorgue el X Prize for Genomics6 de 10 millones de dólares —100 individuos completamente secuenciados en 10 días, a menos a 10 000 dólares por cada uno, cubriendo 3 000 millones de pares de bases por cada genoma humano—. Es necesario invertir en la creación de una serie de herramientas genéricas que cubran el total de actividades: desde la obtención y validación de los datos hasta la curaduría, el análisis y, finalmente, el almacenamiento permanente. La curaduría abarca un amplio espectro de tareas, que empiezan con la determinación de las es- tructuras de datos idóneas para ser distribuidas en diversos depósitos. Esto incluye los archivos de esquema y los metadatos necesarios para la preservación a largo 2 http://research.microsoft.com/en-us/projects/mylifebits 3 www.ska.gov.au 4 http://public.web.cern.ch/public/en/LHC/LHC-en.html 5 http://pan-starrs.ifa.hawaii.edu/public 6 http://genomics.xprize.org xiv plazo, y para la integración por medio de dispositivos, experimentos y laboratorios. Sin ellos, la interpretación sólo es implícita y queda muy subordinada a los progra- mas específicos para el análisis. Finalmente, los datos no curados se perderán. Debe considerarse con cuidado qué datos han de conservarse por siempre y cuáles otros metadatos serían necesarios para ello. El análisis de datos abarca actividades durante todo el flujo de trabajo. Incluye el uso de bases de datos (en vez de la recolección de archivos planos que una base de datos lee), análisis, modelado y visualización de datos. La receta de Jim Gray para el diseño de una base de datos para determinada disciplina implica que debe ser ca- paz de responder las veinte preguntas principales que el científico quisiera hacerle. En buena parte del mundo científico las bases de datos se usan actualmente como almacenes para guardar algunas propiedades de los datos, más que como un espacio para los datos mismos; esto se explica porque el tiempo requerido para explorar toda la información hace inviable el análisis. Hace una década, la relectura de los datos era apenas factible. Hasta 2010, los discos tenían 1 000 veces más capacidad, pero el tiempo de acceso a su contenido mejoró apenas en un factor de dos. BIBLIOTECAS DIGITALES PARA DATOS Y DOCUMENTOS: EQUIPARABLES A LAS MODERNAS BIBLIOTECAS DE DOCUMENTOS La comunicación científica, incluyendo sus procesos de arbitraje, también expe- rimenta cambios esenciales. Las bibliotecas públicas digitales están asumiendo la función de resguardar publicaciones de bibliotecas convencionales —sea por su costo, la necesidad de un servicio expedito o la conveniencia de mantener reunidos los datos experimentales y la documentación acerca de ellos. Así, las bibliotecas de datos digitales se encuentran aún en fase de desarrollo, con dimensiones, formas y principios constitutivos divergentes. Por supuesto, ncar es una de las entidades más antiguas en lo que respecta al modelado, recopilación y curación de datos de las ciencias de la Tierra. El San Diego Supercomputer Center (sdsc) en la Universidad de California, San Diego, que normalmente está asociado con el abastecimiento de poder de cómputo para la comunidad científica, fue una de las primeras organizaciones en reconocer la necesidad de agregar los datos a su misión. El sdsc creó su sitio Data Central,7 que aloja 27 pb de datos en más de 100 bases de datos específicas (por ejemplo, para bioinformática y recursos hídricos). En 2009, reservó 400 terabytes(tb) de espacio en disco para bases de datos tanto 7 http://datacentral.sdsc.edu/index.html PROLOGO xvEL CUARTO PARADIGM A públicas como privadas y para colecciones de datos que dan servicio a una extensa gama de instituciones científicas, incluyendo laboratorios, bibliotecas y museos. El Australian National Data Service8 (ands) ofrece servicios como el Register My Data, una especie de “fichero catalográfico” que registra la identidad, estruc- tura, nombre y ubicación (dirección ip) de las diversas bases de datos, incluso las de particulares. El solo hecho de levantar tal registro es un gran paso hacia el almacenamiento a largo plazo. ands busca influir en la política nacional de su país en lo tocante al manejo de los datos, e ilustrar sobre las mejores prácticas para la curación de datos, con lo que las distintas y divergentes colecciones de datos de investigación se transformarían en un conjunto coherente de recursos de investi- gación. En el Reino Unido, el Comité Conjunto de Sistemas de Información (jisc, por sus siglas en inglés) ha financiado la creación del Digital Curation Centre9 para estudiar estas cuestiones. Se espera que con el tiempo surjan muchos otros centros de datos como éste. La Dirección de Ciencia e Ingeniería de Computación y de Información, de la National Science Foundation, lanzó ya una convocatoria para la solicitudes de becas a largo plazo para investigadores en cómputo intensivo en datos y en almacenamiento de larga duración. Esta obra considera en sus capítulos las múltiples oportunidades y desafíos que entraña la ciencia intensiva en datos, incluídas la cooperación y el entrenamiento interdisciplinarios, el intercambio de información entre organizaciones para crear “hibridaciones” (mashups) de datos científicos, la instauración de nuevos procesos y rutas de trabajo, así como una agenda de investigación que explote las oportunidades y sostenga la vanguardia de la avalancha de datos. Estos retos exigirán una vasta inversión económica y operacional. El sueño de erigir una infraestructura de datos con “sensores ubicuos” que apoye nuevas modalidades de investigación científica requerirá de una extraordinaria cooperación entre organismos de financiamiento, científicos e ingenieros. Un sueño que vale la pena alentar y financiar activamente. REFERENCIAS [1] National Science Board, Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century, Technical Report NSB-05-40, National Science Foundation, septiembre de 2005, www.nsf.gov/pubs/2005/nsb0540/nsb0540.pdf. [2] Conferencia de Jim Gray al NRC-CSTB en Mountain View, California, el 11 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/JimGrayTalks.htm. (Transcripción editada también en esta obra.) 8 www.ands.org.au 9 www.dcc.ac.uk xviiEL CUARTO PARADIGM A enemos que mejorar en la producción de herramientas para apo- yar todo el ciclo de la investigación —desde la captura de los datos y su curación hasta su análisis y visualización—.1Hoy en día, las herramien- tas para la captura de datos, tanto a megaescala como a miliescala, son simplemente terribles. Después de que se han capturado los datos, es necesario curarlos antes de que se pueda empezar a hacer cualquier tipo de análisis con ellos, y carecemos de herramientas adecuadas para dicha2curación y análisis. Luego sigue la publicación de los resultados de la investigación, y la literatura publicada es sólo la punta del iceberg de datos. Con esto quiero decir que las personas reúnen una gran cantidad de datos que luego reducen a una determinada cantidad de pulgadas de columna en Science o en Nature —o a diez páginas si quien escribe es un especialista en ciencias de la computación—. A lo que me refiero con “iceberg de datos” es que hay una gran cantidad de ellos que se recopilan, pero que no se curan ni se publican de manera sistemática. Hay algunas excepciones, y creo que éstas son instancias en las que debemos basarnos para determinar mejores prácticas. Voy a hablar de cómo todo el proceso de revisión por pares tiene que cambiar, así como de la manera en 1 National Research Council (NRC), http://sites.nationalacademies.org/NRC/index.htm; Computer Science and Telecommunications Board (CSTB), http://sites.nationalacademies.org/cstb/index.htm. 2 Esta presentación es, emotivamente, la última publicada en la página web de Jim en Microsoft Research antes de desaparecer en el mar el 28 de enero de 2007, http://research.microsoft.com/en-us/um/people/gray/talks/ NRCCSTB_eScience.ppt Jim Gray sobre la e-ciencia: un método científico transformado EDITADO POR TONY HEY, STEWART TANSLEY Y KRISTIN TOLLE | Microsoft Research Basado en la transcripción de una conferencia impartida por Jim Gray ante la Comisión de Ciencias de la Computación y de Telecomunicaciones del Consejo Nacional de Investigación (nrc-cstb) 1 en Mountain View, California, el 11 de enero de 2007 2 T xviii la que visualizo como está cambiando, y lo que la Comisión de Ciencias de la Com- putación y de Telecomunicaciones (cstb) puede hacer para ayudarnos a todos para tener acceso a nuestras investigaciones. LA E-CIENCIA: ¿QUÉ ES? La e-ciencia es “donde las tecnologías de información y los científicos convergen”. Los investigadores utilizan muchos métodos diferentes para recopilar o generar datos —desde sensores y dispositivos de acoplamiento de carga (ccd) hasta supercompu- tadoras y colisionadores de partículas—. Cuando los datos finalmente aparecen en su computadora, ¿qué hace usted con toda esa información que está ahora en su caja digital? La gente constantemente está buscándome, me dice: “¡Auxilio! Tengo todos estos datos. ¿Qué se supone que debo hacer con ellos? ¡Mis hojas de cálculo de Excel se desbordan!” Así que, ¿qué sigue? ¿Qué sucede cuando se tienen 10 000 hojas de cálculo de Excel, cada una con 50 páginas? Digamos que las he estado nombrando de manera sistemática, pero ahora, ¿qué hago? PARADIGMAS DE LA CIENCIA Muestro esta diapositiva (véase la figura 1) cada vez que imparto alguna conferencia. Creo que es justo decir que esta idea se me ocurrió en un estudio de la cstb sobre el futuro de la computación. Decíamos: “Mira, la ciencia computacional es una FIGURA 1. 4πGp 3 K c2 a2 =aa 2. • Hace mil años: la ciencia era empírica descripción de fenómenos naturales • Últimos siglos: rama teórica utilización de modelos, generalizaciones • Últimas décadas: una rama computacional simulación de fenómenos complejos • Hoy: la exploración de datos (e-ciencia) unificación de teoría, experimentación y simulación – Los datos se capturan mediante instrumentos o se generan mediante simulador – Procesados mediante software – La información/conocimientos se almacenan en computadora – El científico analiza la base de datos o los archivos mediante administración de datos y estadística Paradigmas de la ciencia JIM GRAY SOBRE LA E- CIENCIA xixEL CUARTO PARADIGM A tercera pierna”. Originalmente sólo existía la ciencia experimental, y luego apareció la ciencia teórica, con las leyes de Kepler, las leyes de Newton del movimiento, las ecuaciones de Maxwell, y así sucesivamente. Entonces, para muchos problemas, los modelos teóricos se volvieron demasiado complicados como para ser resueltos analíticamente, y la gente tuvo que empezar a utilizar la simulación. Estas simula- ciones nos han servido a lo largo de gran parte de la segunda mitad del milenio más reciente. En la actualidad, éstas generan una gran cantidad de datos junto con un enorme aumento en los datos de las ciencias experimentales. Ahora la gente real- mente no mira a través de telescopios: en lugar de ello están “mirando” a través de complejos instrumentos de gran escala que transmiten información a las centrales de datos, y sólo entonces es cuando examinan la información en sus computadoras. El mundo de la ciencia ha cambiado, y no hay duda alguna sobre esto. El nuevo modelo consiste en que los datosse capturan mediante instrumentos o se generan a través de simulaciones antes de procesarlos con software. La información o el co- nocimiento resultantes se almacenan en computadoras. Los científicos sólo llegan a mirar sus datos bastante tarde en esta secuencia. Las técnicas y las tecnologías para tal ciencia intensiva en datos son tan diferentes que vale la pena distinguir la ciencia intensiva en datos de la ciencia computacional como un nuevo paradigma: el cuarto paradigma para la exploración científica [1]. DISCIPLINAS INFORMÁTICAS Y DISCIPLINAS COMPUTACIONALES En todas las disciplinas presenciamos la evolución de dos ramas, como se muestra en la siguiente diapositiva (véase la figura 2). Si nos fijamos en la ecología, existen actualmente tanto la ecología computacional, que tiene que ver con la simulación de ecologías, como la ecoinformática, que tiene que ver con la recolección y el aná- lisis de información ecológica. De manera semejante, tenemos la bioinformática, que recoge y analiza información de muchos experimentos diferentes, y la biología computacional, que simula cómo funcionan los sistemas biológicos, las vías metabó- licas, el comportamiento de una célula o la forma en que se construye una proteína. Esto se acerca a la noción de Jeannette Wing del “pensamiento computacional”, en el que las técnicas y las tecnologías de las ciencias de la computación se aplican a diferentes disciplinas [2]. La meta de muchos científicos es codificar su información para poder intercam- biarla con otros científicos. ¿Por qué necesitan codificarla? Porque si guardo alguna información en mi computadora, la única manera en que usted podrá entenderla será que el programa que usted utilice pueda entenderla. Esto significa que la información xx tiene que representarse de manera algorítmica. Para conseguir esto necesitamos una representación estándar de lo que es un gen o de lo que es una galaxia o de lo que es una medición de temperatura. ENTRE UNA CUARTA PARTE Y LA MITAD DE LOS PRESUPUESTOS PARA EXPERIMENTACIÓN SE DESTINA AL SOFTWARE Durante los últimos 10 años he estado tratando con astrónomos y tengo la opor- tunidad de ir a algunas de sus estaciones de base. Quedo maravillado al ver sus telescopios, es algo simplemente increíble. Se trata de equipo que representa básicamente una inversión de 15 a 20 millones de dólares, el cual es operado por unas 20 a 50 personas. Entonces uno entiende que hay literalmente miles de personas escribiendo código para hacer frente al volumen de información que genera este instrumento, y de que se necesitan millones de líneas de código para analizar toda esa información. En realidad, ¡el costo del software domina el gasto de capital! Esto es cierto en el caso del Sloan Digital Sky Survey (sdss), y seguirá siendo cierto para proyectos de exploración celeste de mayores dimensio- nes, y para muchos experimentos a gran escala. No estoy seguro de que el costo de software sea también dominante en el caso de la comunidad de la física de partículas y su Gran Colisionador de Hadrones (gch), pero sin duda lo es en los experimentos del gch. FIGURA 2. Hechos Hechos Hechos Hechos • Ingesta de datos • Administración de un petabyte • Esquemas comunes • Cómo organizarlos • Cómo reorganizarlos • Cómo compartirlos con otros Disciplinas informáticas • La evolución de la rama informática y la rama • computacional para cada disciplina • Cómo codificar y representar nuestros conocimientos Los problemas genéricos • Herramientas de consulta y de visualización • Construcción y la ejecución de modelos • Integración de los datos y la literatura • Documentación de experimentos • Curación y conservación a largo plazo Preguntas Respuestas Simulaciones Literatura Otros archivos Experimentos e instrumentos JIM GRAY SOBRE LA E- CIENCIA xxiEL CUARTO PARADIGM A Incluso en las ciencias de “datos pequeños” se ve a la gente reuniendo información y luego dedicando mucha más energía en el análisis de esa información que en reca- barla en primera instancia. El software es típicamente muy particular, ya que existen muy pocas herramientas genéricas disponibles para que el científico de laboratorio recopile, analice y procese los datos. Esto es algo que los científicos computacionales podríamos ayudar a remediar mediante la construcción de herramientas genéricas para la comunidad científica. Tengo una lista de asuntos para los responsables de políticas, como la cstb. El primero de ellos es básicamente promover y apoyar la construcción de herramientas. La National Science Foundation (nsf) cuenta ahora con una organización de ciberin- fraestructura; y no quiero decir nada malo acerca de ellos, pero se necesita más que sólo apoyo para el proyecto TeraGrid y la computación de alto rendimiento. Ahora sabemos cómo construir clústeres Beowulf para conseguir cómputo de alto rendi- miento barato; pero no sabemos cómo construir una verdadera malla de datos (data grid) o cómo crear almacenes de información a partir de “ladrillos de datos” de bajo costo donde alguien pueda guardar todos sus datos y luego analizar la información. En realidad hemos hecho progresos en las herramientas de simulación, pero no en las herramientas de análisis de datos. PIRÁMIDES DE PROYECTOS Y FINANCIAMIENTO DE LA PIRÁMIDE En esta sección hago simplemente una observación acerca de la manera en que la mayoría de los proyectos científicos parecen funcionar. Hay pocos proyectos interna- cionales, hay más proyectos multicampus, y luego hay muchos más proyectos de un solo laboratorio. Así que básicamente tenemos esta pirámide de instalaciones nivel 1, nivel 2 y nivel 3, que encontramos una y otra vez en muchos campos diferentes. Los proyectos de los niveles 1 y 2 generalmente están organizados y administrados de manera sistemática; pero existen relativamente pocos proyectos de esa índole. Estos grandes proyectos pueden darse el lujo de tener un presupuesto para software y otro para hardware, y asignar equipos de científicos para escribir software a la medida del experimento. A modo de ejemplo, he estado viendo que el observa- torio de océanos estadounidense-canadiense —el proyecto Neptune— asigna aproxi- madamente 30% de su presupuesto a ciberinfraestructura [3]. En números redondos, eso es 30% de 350 millones de dólares, o algo así como ¡100 millones de dólares! De manera semejante, los experimentos del gch cuentan con un enorme presupuesto para software, y esta tendencia hacia presupuestos cuantiosos para software también es evidente desde el temprano experimento BaBar [4, 5]. Pero si es usted un científico xxii de laboratorio en la parte inferior de la pirámide, ¿qué puede hacer para conseguir algún presupuesto para software? Básicamente terminará comprando matlab3 y Excel4 o algún otro paquete similar y arreglándoselas con este tipo de herramientas comerciales. No hay mucho más que pueda hacer. Así pues, los gigaproyectos y los megaproyectos se ven impulsados en gran medida por la necesidad de algunos recursos de gran escala, como supercomputadoras, teles- copios u otras instalaciones experimentales de gran magnitud. Estas instalaciones normalmente las utiliza una importante comunidad de científicos y necesitan ser financiadas en su totalidad por organismos como la nsf o el Departamento de Energía. Los proyectos de menor escala por lo general obtienen fondos de una mayor diversidad de fuentes, con apoyo de organismos de financiamiento a menudo con- juntamente con alguna otra organización —que podría ser la propia universidad—. En el artículo que Gordon Bell, Alex Szalay y yo escribimos para ieee Computer [6] hicimos notar que las instalaciones de nivel 1, como el gch, son financiadas por un consorcio internacional de organismos, pero los experimentos del gch de nivel 2 y las instalaciones de nivel 3 son financiadas por los investigadores, que traen consigo sus propias fuentes de financiamiento. Así que los organismos de financiamiento deben apoyareconómicamente en su totalidad los gigaproyectos de nivel 1 y luego asignar la otra mitad de sus fondos a la ciberinfraestructura para proyectos más pequeños. SISTEMAS DE ADMINISTRACIÓN DE INFORMACIÓN PARA LABORATORIOS Para resumir lo que he estado diciendo sobre software, lo que efectivamente nece- sitamos son “sistemas de administración de información para laboratorios”. Tales sistemas de software ofrecen una ruta desde los datos que se obtienen mediante el instrumento o la simulación hasta un archivo o depósito de datos, y es algo que es- tamos a punto de lograr en varios casos modelo sobre los que he estado trabajando. Básicamente, colocamos los datos de un grupo de instrumentos en una secuencia que los calibra y los “limpia”, e inclusive llena los huecos según sea necesario. En seguida, volvemos a “cuadrar”5 (re-grid) la información y finalmente la guardamos en una base de datos, la cual podríamos “publicar” en internet y de esa manera permitir que la gente tenga acceso a nuestra información. 3 www.mathworks.com 4 http://office.microsoft.com/en-us/excel/default.aspx 5 Esto significa “regularizar” la organización de los datos de manera que quede una variable de datos por fila, lo cual es análogo a la normalización en las bases de datos relacionales. JIM GRAY SOBRE LA E- CIENCIA xxiiiEL CUARTO PARADIGM A Toda la cuestión de pasar de un instrumento a un navegador Web implica un enor- me número de habilidades. Sin embargo, lo que en realidad sucede es muy simple. Debiéramos poder crear un paquete tipo Beowulf y algunas plantillas que permitirían a quienes llevan a cabo experimentos de laboratorio húmedo simplemente reunir sus datos, guardarlos en una base de datos y publicarlos. Para lograr esto habría que crear unos cuantos prototipos y documentarlos. Tomará varios años lograrlo, pero repercutirá de manera decisiva en la manera en que se hace la ciencia. Como ya he dicho, esas secuencias de software se denominan sistemas de admi- nistración de información para laboratorios (sail). Entre paréntesis: existen versiones comerciales, y uno puede comprar un sistema sail listo para ser usado. El problema es que tales sistemas en realidad están dirigidos a personas que son muy ricas y que se encuentran en un entorno industrial. Además, a menudo son bastante específicos para una u otra tarea propia de alguna comunidad en particular —tal como tomar datos de una máquina de secuenciación o un espectrómetro de masas, correrlos en el sistema y obtener resultados en la salida—. ADMINISTRACIÓN DE INFORMACIÓN Y ANÁLISIS DE DATOS He aquí una situación típica. La gente está reuniendo datos ya sea a partir de instrumentos o de sensores, o corriendo simulaciones. Muy pronto se ven con millones de archivos, y no hay una manera fácil de administrar o analizar sus datos. He ido de puerta en puerta y he visto lo que los científicos han hecho. En general, hacen una de dos cosas: o bien están buscando agujas en pajares o están buscando los pajares mismos. Las consultas del tipo “aguja en el pajar” son en realidad muy fáciles: uno busca anomalías específicas en los datos, y generalmente se tiene una idea del tipo de señal que se está buscando. Los físicos de partículas están buscando la partícula de Higgs en el gch, y tienen una buena idea de cómo se verá en sus detectores el decaimiento de tal partícula pesada. Los arreglos de clústeres compartidos de computadoras son ideales para consultas del tipo “aguja en el pajar”, pero son pésimos en el análisis de tendencias, el agrupamiento esta- dístico y el descubrimiento de patrones globales en los datos. En realidad necesitamos algoritmos mucho mejores para efectuar operaciones de agrupamiento y para lo que es esencialmente minería de datos. Desafortunadamente, los algoritmos de agrupamiento no son de orden N o N log N, sino que típicamente son cúbicos en N, de modo que cuando N se vuelve demasiado grande este método no funciona. De esta manera, nos vemos obligados a inventar nuevos algoritmos, y uno tiene que vivir con respuestas que son sólo aproximadas. Por ejemplo, resulta xxiv ser sorprendentemente eficaz el uso de la mediana aproximada. ¿Y quién lo habría adivinado? ¡Yo no! Gran parte del análisis estadístico tiene que ver con crear muestras uniformes, llevar a cabo algún filtrado de datos, incorporar o comparar algunas simulaciones Monte Carlo, y así sucesivamente, todo lo cual genera una gran cantidad de archivos. Y la situación con tales archivos es que cada uno contiene sólo un manojo de bytes. Si le diera a usted uno de estos archivos, tendría que esforzarse mucho para averiguar lo que significan los datos contenidos en él. Por tanto, es muy importante que los archivos sean autodescriptivos. Cuando la gente utiliza el término base de datos, lo que fundamental- mente está diciendo es que los datos debieran ser autodescriptivos y venir acompañados de un esquema. Eso es realmente todo lo que significa el término base de datos. De esta manera, si le doy una colección particular de información podrá verla y decir: “Quiero todos los genes que tienen esta propiedad”, o “Quiero todas las estrellas que tienen esta propiedad”, o “Quiero todas las galaxias que tienen esta propiedad”. Pero si sólo le doy un montón de archivos, ni siquiera podrá utilizar el concepto de galaxia, y tendrá que investigar y descubrir por usted mismo cuál es el esquema efectivo para los datos de ese archivo. Si cuenta usted con ese esquema, podrá indexar los datos, reunirlos con diversos criterios, ejecutar búsquedas paralelas y realizar consultas ad hoc; además, será mucho más fácil construir algunas herramientas genéricas de visualización. En toda justicia, debo decir que la comunidad científica ha inventado un montón de formatos que para mí califican como formatos de bases de datos. El hdf (Hierar- chical Data Format)6 es uno de tales formatos, y el NetCDF (Network Common Data Form)7 es otro. Estos formatos se utilizan para el intercambio de información y llevan consigo el esquema de los datos. Pero la ciencia en general necesita herramientas mucho mejores que hdf y NetCDF para lograr que los datos sean autodefinitorios. LA ENTREGA DE DATOS: LLEGANDO AL LÍMITE La otra cuestión clave es que a medida que los conjuntos de datos se hacen más gran- des, ya no es posible simplemente transferirlos por ftp o efectuar en ellos búsquedas mediante expresiones regulares. ¡Es muy difícil transferir por ftp un petabyte de datos! Así que en algún punto se necesitan índices y acceso en paralelo a éstos, y es aquí donde las bases de datos pueden ayudar. Para su análisis, una posibilidad es llevarlos hasta usted, pero la otra es trasladar su consulta hasta los datos. Así que se 6 www.hdfgroup.org 7 www.unidata.ucar.edu/software/netcdf JIM GRAY SOBRE LA E- CIENCIA xxvEL CUARTO PARADIGM A puede trasladar las consultas o los datos. Con frecuencia, resulta ser más eficiente trasladar las consultas que trasladar los datos. LA NECESIDAD DE HERRAMIENTAS DE DATOS: “QUE FLOREZCAN CIEN FLORES” Lo que he estado sugiriendo hasta ahora es que actualmente tenemos pésimas herra- mientas para la administración de datos en la mayoría de las disciplinas científicas. Las organizaciones comerciales como Walmart pueden permitirse el lujo de construir su propio software de administración de datos, pero en la ciencia no podemos darnos ese lujo. En la actualidad, difícilmente contamos con herramientas de visualización y análisis de datos. Algunas comunidades de investigación utilizan matlab, por ejem- plo, pero los organismos de financiamiento en Estados Unidos y en otras partes tienen que hacer mucho más para promover la construcción de herramientas que permitan a los científicos ser más productivos. Es verdaderamente pavoroso ir y ver lo que los científicos están haciendo día tras día en términos de análisis de datos. Y sospecho que muchos de ustedes están en la misma situación en la que me encuentro: ¡Esen- cialmente las únicas herramientasque tengo a mi disposición son matlab y Excel! Sí contamos con algunas buenas herramientas, como los clústeres Beowulf,8 que nos ofrecen cómputo rentable de alto rendimiento mediante la combinación de muchas computadoras de bajo costo. Tenemos un software llamado Condor,9 el cual permite recolectar ciclos de procesamiento de máquinas departamentales. Asimis- mo, tenemos el boinc10 (Berkeley Open Infrastructure for Network Computing), que es un software que permite la recolección de ciclos de pc como en el proyecto seti@Home. Y tenemos algunos productos comerciales como el matlab. Todas estas herramientas surgieron de la comunidad de investigación, y no puedo entender por qué éstas en particular tuvieron éxito. También tenemos el Linux y el Unix Freebsd. El Freebsd antecedió a Linux, pero de alguna manera Linux despegó y Freebsd no. Creo que estas cuestiones tienen mucho que ver con la comunidad, las personalidades y el momento. Así que mi sugerencia es, simplemente, que debiéramos tener muchas cosas. Tenemos herramientas co- merciales como Labview,11 por ejemplo, pero debiéramos crear otros tantos sistemas similares. Y sólo necesitamos esperar que algunos de éstos despeguen. No debiera ser muy caro sembrar un gran número de proyectos. 8 www.beowulf.org 9 www.cs.wisc.edu/condor 10 http://boinc.berkeley.edu 11 www.ni.com/labview xxvi LA REVOLUCIÓN QUE SE AVECINA EN LA COMUNICACIÓN ACADÉMICA He llegado al final de la primera parte de mi conferencia, que trató sobre la necesidad de crear herramientas para ayudar a los científicos a capturar sus datos, curarlos, analizarlos y después visualizarlos. La segunda parte de la conferencia es acerca de la comunicación académica. Hace aproximadamente tres años, el Congreso de Estados Unidos aprobó una ley que recomendaba que si usted obtenía fondos de los National Institutes of Health (nih) para financiar su investigación, debía depositar los infor- mes de esa investigación en la National Library of Medicine (nlm), de manera que el texto completo de los artículos quedara en el dominio público. El cumplimiento voluntario de esta ley ha sido sólo de 3%, así que las cosas están a punto de cambiar. Ahora es probable que veamos que toda la literatura científica apoyada con fondos públicos sea forzada por los organismos de financiamiento a publicarse en línea. En la actualidad existe un proyecto de ley patrocinado por los senadores Cornyn y Lieberman que hará que sea obligatorio para los beneficiarios de las subvenciones de los nih depositar sus artículos de investigación en el repositorio PubMed Central de la nlm.12 En el Reino Unido, el Wellcome Trust ha puesto en acción un mandato semejante para los beneficiarios de la investigación que financia, y ha creado un espejo del repositorio PubMed Central. Sin embargo, internet puede hacer más que poner a disposición pública el texto completo de los artículos de investigación. En principio, puede unificar todos los datos científicos con toda la literatura para crear un mundo en el que los datos y la literatura interactúen entre sí (véase la figura 3). Usted podría estar leyendo un artí- culo de alguien y luego ir a ver los datos originales; incluso podría volver a efectuar el análisis en cuestión. O podría estar revisando algunos datos y luego ir a localizar toda la literatura acerca de ellos. Esta posibilidad aumentará la “velocidad de la infor- mación” de las ciencias y mejorará la productividad científica de los investigadores. ¡Y creo que esto sería un desarrollo muy bueno! Tómese el ejemplo de alguien que trabaja para los National Institutes of Health —que es el caso que se está discutiendo aquí— y que elabora un informe. Supongamos que descubre algo sobre la enfermedad X. Usted va al médico y dice: “Doctor, ¡no me siento muy bien!”, y él dice: “Andy, le vamos a hacer unos cuantos análisis clínicos”. Y le hacen unos cuantos análisis clínicos. Su médico lo llama al día siguiente y le dice: “No hay nada malo con usted. Tómese dos aspirinas, y tome unas vacaciones”. 12 Véase el Open Access Newsletter de Peter Suber para un resumen de la situación actual: www.earlham.edu/~peters /fos/newsletter/01-02-08.htm. JIM GRAY SOBRE LA E- CIENCIA xxviiEL CUARTO PARADIGM A Regresa usted un año después y se repite la historia. Tres años más tarde, el médico lo llama y le dice: “Andy, ¡descubrimos que usted tiene X!” Pregunta usted: “¿Qué es X?”, y él responde: “No tengo idea, es una enfermedad rara, pero hay un tipo en Nueva York que sabe todo acerca de ella”. Así que entra a Google13 y escribe todos sus síntomas. En la primera página de los resultados aparece X. Selecciona el enlace y es dirigido a PubMed Central y al resumen del artículo “Todo acerca de X”. Selecciona eso y llega al sitio de la New England Journal of Medicine, donde se le pide: “Páguenos por favor 100 dólares y le permitiremos leer acerca de X”. Busca y encuentra que el autor trabaja para los nih, que funciona gracias al dinero de sus impuestos. Por lo anterior, Lieberman14 y otros han manifestado: “Esto es un asco. La información científica pasa ahora por un filtro de revisión de expertos y se coloca en el dominio público, pero sólo en el sentido de que cualquiera puede leerla si paga por ello. ¿De qué se trata entonces? Ya hemos pagado por ello”. Los editores académicos ofrecen el servicio de organizar la revisión por pares, imprimir la revista y distribuir la información a las bibliotecas. Sin embargo, internet es ahora nuestro distribuidor, y es más o menos gratuito. Todo esto está relacionado con el momento de reflexión por el que está pasando la sociedad acerca de dónde inicia y dónde termina la propiedad intelectual. La literatura científica, y en par- 13 O como Jim podría haber sugerido hoy: Bing. 14 Ley Federal de Acceso Público a la Investigación (Federal Research Public Access Act), de 2006, por Cornyn y Lieberman. Todos los datos científicos en línea • Muchas disciplinas se superponen y utilizan • datos de otras ciencias • Internet puede unificar toda la literatura • y los datos • Ir desde la literatura a los cómputos • y los datos, y de vuelta a la literatura • La información al alcance de todos • en todas partes • Aumentar la velocidad de • la información científica • Enorme aumento en la productividad • científica Datos derivados y recombinados Literatura Datos sin procesar FIGURA 3. xxviii ticular la que sigue un proceso de revisión por pares, es probablemente uno de los lugares donde termina. Si desea obtener información acerca de la enfermedad X, probablemente podrá descubrir que las semillas del durazno son un magnífico tra- tamiento para X. Pero esa información no proviene de la literatura arbitrada y está disponible sólo porque hay por ahí un tipo que le quiere vender semillas de durazno para curar X. Así que quienes han liderado el movimiento hacia el acceso abierto han sido principalmente personas que trabajan en el campo de la salud pública, ya que la buena información sobre el cuidado de la salud está resguardada bajo llave, mientras que la mala información circula por internet. LA NUEVA BIBLIOTECA DIGITAL ¿Cómo funciona la nueva biblioteca? Bueno, es gratis porque es muy fácil publicar una página o un artículo en internet. Cada uno de ustedes puede darse el lujo de publicar en PubMed Central. Sólo le costaría unos pocos miles de dólares obtener una computadora —¡aunque no sé qué cantidad de accesos tendría!—. Sin embargo, la curaduría no es barata. Colocar la información en la computadora, interindexarla y todo ese tipo de cuestiones implican para la nlm un costo de curaduría de alre- dedor de 100 dólares por artículo presentado. Si recibe un millón de artículos al año, que es aproximadamente lo que espera obtener, sólo la curación del material va a costar 100 millones de dólares anuales. Por eso es necesario automatizar todo el proceso de curación. Lo que está sucediendo ahora es que PubMed Central, el brazo digital dela nlm, se ha vuelto portátil. Hay versiones de PubMed Central en funcionamiento en el Reino Unido, en Italia, en Sudáfrica, en Japón y en China. La del Reino Unido se puso en línea apenas la semana pasada. Podrán entender ustedes, por ejemplo, que los franceses no quieren que su biblioteca nacional de medicina se encuentre en Bethesda, Maryland, o en inglés. Y los ingleses no quieren que el texto esté en inglés estadounidense, por lo que la versión del Reino Unido probablemente utilizará, para lo que aparezca en su interfaz Web, la ortografía del inglés británico. Pero fundamentalmente, se puede colocar un documento en cualquiera de estos archivos y éste se reproducirá en el resto. Es bastante barato administrar alguno de estos archivos, pero los grandes desafíos radican en cómo hacer la curación y el arbitraje o revisión por pares. REVISTAS ARBITRADAS DE ACCESO ABIERTO Así es como pienso que podría funcionar, para lo cual me baso en el concepto de las revistas arbitradas de acceso abierto (overlay journals). La idea es que tenemos JIM GRAY SOBRE LA E- CIENCIA xxixEL CUARTO PARADIGM A archivos para datos y archivos para literatura. Los artículos se depositan en los ar- chivos de literatura, y los datos van a los archivos de datos. Entonces hay un sistema de administración de revistas que alguien ha construido, el cual nos permite, como grupo, producir una revista sobre X. Permitimos que las personas envíen artículos a nuestra revista depositándolos en el archivo. Los sometemos a revisión por pares y, para los que nos gustan, elaboramos una portada donde decimos: “Éstos son los artículos que nos gustan”, y también la ponemos en el archivo. Ahora, llega un mo- tor de búsqueda y eleva la calificación de todos esos artículos clasificándolos como buenos gracias a que ahora están referenciados por esta muy importante página ini- cial. Estos artículos, por supuesto, también pueden referirnos de vuelta a los datos. Entonces entra en escena un sistema de colaboración que permite a las personas hacer anotaciones y comentar sobre los artículos de la revista. Los comentarios no se almacenan en el archivo arbitrado sino aparte, ya que no han sido revisados por pares, aunque podrían moderarse. La National Library of Medicine va a hacer todo esto para la comunidad biomé- dica, pero no está ocurriendo lo mismo en otras comunidades científicas. Deben saber, como miembros de la cstb, que la comunidad de ciencias de la computación podría ayudar a que esto suceda proporcionando herramientas adecuadas para las otras disciplinas científicas. Hay un software que hemos creado en Microsoft Research llamado Herramienta de Administración de Congresos (cmt, Conference Management Tool). Hemos lle- vado a cabo cerca de 300 congresos con ella, y el servicio de cmt hace que sea trivial crear un congreso. La herramienta cubre todo el flujo de trabajo: la formación de un comité a cargo del programa, la publicación de un sitio web, la aceptación de manus- critos, la declaración de conflictos de interés y la recusación personal, la producción de reseñas, la decisión sobre los artículos que han de aceptarse, la confección del programa, la notificación a los autores, las revisiones y así sucesivamente. Ahora esta- mos trabajando en agregar un botón que permita depositar los artículos en arXiv.org o en PubMed Central, y también trabajamos en incorporar la portada. Esto nos da ahora la posibilidad de capturar talleres y congresos con mucha facilidad; pero también permitirá editar una revista en línea. Este mecanismo haría que fuese muy fácil crear revistas arbitradas de acceso abierto. Alguien preguntó antes si esto no signficaría un duro golpe para los editores académicos. Y la respuesta es que sí. ¿Pero acaso no va a ser también difícil para la ieee y la acm? La respuesta es que las sociedades profesionales están aterrorizadas ante la posibilidad de que si no tienen algún artículo que enviarles, ustedes no se xxx afiliarán a ellas. Creo que van a tener que lidiar con esto de alguna manera, porque pienso que el acceso abierto será una realidad. Mirando a mi alrededor en esta sala, me doy cuenta de que la mayoría de nosotros somos viejos y no de la generación X. La mayoría de nosotros nos afiliamos a estas organizaciones simplemente porque pensamos que es parte de ser un profesional en nuestro campo. El problema es que los miembros de la generación X no se afilian a organizaciones. ¿QUÉ SUCEDE CON LA REVISIÓN POR PARES? Esto no es una cuestión que les haya preocupado a ustedes, pero mucha gente dice: “¿Por qué es absolutamente necesaria la revisión por pares? ¿Por qué no sólo tenemos una wiki?” Y pienso que la respuesta es que la revisión por pares es diferente. Está muy estructurada, se modera y hay determinado grado de confidencialidad sobre lo que dice la gente. Una wiki es mucho más igualitaria. Creo que las wikis tienen mucho sentido si se trata de reunir comentarios acerca de la literatura después de que se ha publicado determinado artículo. Se necesita alguna estructura para el proceso de revisión por pares, como la que provee la cmt. LA PUBLICACIÓN DE DATOS Es mejor que me apresure y comente rápidamente la publicación de datos. He ha- blado acerca de la publicación de artículos, pero si la respuesta es 42, ¿cuáles son las unidades? Uno puede colocar algunos datos en un archivo en internet, pero esto nos lleva de vuelta al problema de los archivos. El registro importante para mostrar nuestro trabajo en contexto se llama procedencia de los datos. ¿Cómo se obtuvo el número 42? He aquí un experimento imaginario. Usted ha hecho algo de ciencia, y quiere publicar sus resultados. ¿Cómo los publica para que otros puedan leerlos y además reproducirlos de aquí a cien años? Mendel lo hizo, y también Darwin, pero a duras penas. Ahora estamos más rezagados que Mendel y Darwin en cuanto a las técnicas para hacer esto. Es un desastre, y tenemos que trabajar en este problema. DATOS, INFORMACIÓN Y CONOCIMIENTOS: LAS ONTOLOGÍAS Y LA SEMÁNTICA Estamos tratando de hacer objetivos los conocimientos. Podemos ayudar con cues- tiones básicas como las unidades, lo que es una medición, quién tomó esa medición y cuándo la tomó. Éstas son cuestiones genéricas que se aplican en todos los campos. Aquí [en Microsoft Research] hacemos ciencia de la computación. ¿Qué queremos decir con planeta, estrella y galaxia?; eso es astronomía. ¿Qué es un gen?; eso es JIM GRAY SOBRE LA E- CIENCIA xxxiEL CUARTO PARADIGM A biología. Así que ¿cuáles son los objetos, cuáles son los atributos y cuáles son los métodos (en el sentido de orientación a objetos) que se utilizan en dichos objetos? Y nótese, entre paréntesis, que internet realmente se está convirtiendo en un sistema orientado a objetos en el que la gente extrae objetos. En el mundo de los negocios se está objetivando lo que es un cliente, lo que es una factura, y así sucesivamente. En las ciencias, por ejemplo, y de manera similar, necesitamos objetivar lo que es un gen —que es lo que hace GenBank—.15 Y aquí es necesario advertir que, para ir más lejos, necesariamente tropeza- remos con las palabras “ontología”, “esquema” y “vocabularios controlados”. Es decir, al tomar este camino empezaremos a hablar de semántica; en otras pala- bras, ¿qué significan las cosas? Y por supuesto que cada quien tiene una opinión diferente de lo que significan las cosas, por lo que las conversaciones pueden extenderse sin fin. El mejor ejemplo de todo esto es Entrez,16 el motor de búsqueda de las ciencias biológicas creado por el National Center for Biotechnology Information para la nlm. Entrez permite búsquedas en PubMed Central, que contiene las publicaciones, pero también tienen datos de filogenia, secuencias de nucleótidos, secuencias de proteí- nas y sus estructuras en 3-D, y también cuentan con GenBank. Es un sistema muy impresionante en realidad. También han construido la base de datos PubChem y muchas otras cosas. Todo estoconstituye un ejemplo de la interoperabilidad de los datos y la literatura. Usted puede estar examinando un artículo, ir a los datos gené- ticos, seguir el camino desde el gen hasta la enfermedad, regresar a la literatura y así sucesivamente. ¡Es realmente asombroso! Así que en este mundo, tradicionalmente hemos tenido autores, editores, curado- res y consumidores. En el nuevo mundo, los científicos individuales trabajan ahora en equipo, y las revistas se están convirtiendo en sitios Web que alojan los datos y otros detalles de los experimentos. Los curadores se encargan ahora de voluminosos archivos digitales, y lo único que sigue permaneciendo aproximadamente igual es el científico individual. Verdaderamente es un cambio radical en la forma en que hacemos ciencia. Un problema es que todos los proyectos terminan en determinado momento y no hay claridad sobre lo que pasa entonces con los datos. Los datos aparecen a toda escala. Hay antropólogos reuniendo información en campo y anotándola en sus 15 www.ncbi.nlm.nih.gov/Genbank 16 www.ncbi.nlm.nih.gov/Entrez xxxii cuadernos; y luego están los físicos de partículas en el gch. La mayoría de los bytes se encuentran en el extremo superior de la cadena, pero la mayoría de los conjuntos de datos se encuentran en el extremo inferior. Ahora estamos empezando a ver “hi- bridaciones” (mashups) en las que las personas toman conjuntos de datos de varios lugares y los reúnen para crear un nuevo conjunto de datos. Así, en el mismo sentido en que necesitamos archivos para publicaciones en revistas, necesitamos archivos para los datos. Así que ésta es mi última recomendación a la cstb: promuevan las bibliotecas digitales de datos. Francamente, el proyecto de la Biblioteca Digital de la nsf se trataba enteramente de metadatos para bibliotecas y no de verdaderas bibliotecas digitales. Debiéramos construir bibliotecas digitales reales tanto para los datos como para la literatura. RESUMEN He querido exponer que casi todo lo relacionado con la ciencia está cambiando gracias al impacto de la tecnología de la información. Las ciencias experimentales, las teóricas y las computacionales todas están siendo afectadas por la avalancha de datos, y está surgiendo un cuarto paradigma de la ciencia: la ciencia intensiva en datos. La meta es tener un mundo en el que toda la literatura científica esté en línea, todos los datos científicos estén en línea, y que interactúen. Se necesitan mu- chas herramientas nuevas para que esto suceda. NOTA DE LOS EDITORES La transcripción completa y las diapositivas en PowerPoint de la conferencia de Jim se pueden encontrar en el sitio Web Fourth Paradigm.17 Las preguntas y respuestas durante la conferencia se han extraído de este texto y están disponibles en el sitio Web (téngase en cuenta que no se ha identificado a los interlocutores por su nom- bre). El texto que aquí se presenta incluye algunas ediciones menores para mejorar la legibilidad, así como notas al pie y referencias que hemos agregado, pero creemos que el texto sigue siendo fiel a la presentación de Jim. 17 www.fourthparadigm.org JIM GRAY SOBRE LA E- CIENCIA xxxiiiEL CUARTO PARADIGM A REFERENCIAS [1] G. Bell, T. Hey y A. Szalay, “Beyond the Data Deluge”, Science, vol. 323, núm. 5919, 2009, pp. 1297-1298, doi: 10.1126/science.1170411. [2] J. Wing, “Computational Thinking”, Comm. ACM, vol. 49, núm. 3, marzo de 2006, doi: 10.1145/1118178.1118215. [3] NSF Regional Scale Nodes, http://rsn.apl.washington.edu. [4] Experimentos del Gran Colisionador de Hadrones, http://public.web.cern.ch/Public/en/LHC/LHC Experiments-en.html. [5] Experimento BaBar, www.slac.stanford.edu/BFROOT. [6] G. Bell, J. Gray y A. Szalay, “Petascale Computational Systems”, IEEE Computer, vol. 39, 2006, pp. 110-112, doi: 10.1109/MC.2006.29. 1 . T I E R R A Y M E D I O A M B I E N T E 3EL CUARTO PARADIGM A TI ER R A Y M EDIO AM BI ENTE Introducción l cambio es inevitable: el universo se expande, la na- turaleza se adapta y evoluciona, y así deben hacerlo las herramientas científicas y las tecnologías que empleamos para alimentar nuestra búsqueda implacable de mayores conocimientos en las ciencias del espacio, de la Tierra y del medio ambiente. Las oportunidades y los desafíos son muchos. Las nuevas tecnologías computacionales, tales como la computación en la nube y los procesadores multinúcleo, no pueden proporcionarnos la solu- ción completa en sus formas genéricas, pero la aplicación efectiva y oportuna de tales tecnologías nos puede ayudar a avanzar de manera significativa en nuestra comprensión del mundo, incluyendo sus desafíos ambientales y cómo podríamos abordarlos. Con la ciencia en proceso de volverse computacional y basada en datos, los principales retos tecnológicos incluyen la necesidad de capturar, analizar, modelar y visualizar información científica de mejor manera. El objetivo final es ayudar a los científicos, a los investigadores, a los responsables de políticas y al público en general en la toma de decisiones informadas. Conforme la sociedad exige acción y capacidad de respuesta a los crecientes problemas ambien- tales, los nuevos tipos de aplicaciones basadas en la investigación científica tendrán que pasar del descubrimiento puro y la obten- ción de datos básicos que conducen al conocimiento, a informar la toma de decisiones prácticas. Problemas apremiantes como el E DAN FAY | Microsoft Research 4 TIERRA Y MEDIO AMBIENTE cambio climático no esperarán hasta que los científicos reúnan todos los datos para llenar sus vacíos de conocimiento. Como se desprende de los capítulos de esta parte del libro, los científicos en realidad están buscando activamente el saber científico mediante el uso de nuevas tecnologías computacionales. Szalay y Blakeley describen las reglas informales de Jim Gray para el desarrollo centrado en datos, y la forma en que sirven como modelo para lograr que conjuntos de datos a gran escala sean accesibles mediante el uso de bases de datos, aprovechando tanto los sistemas de administración de datos como el procesamiento en paralelo incorporados a los servidores sql. Con el fin de facilitar la toma informada de decisiones con base en evidencias científicas confiables, Dozier y Gail exploran cómo el uso aplicado de la tecnología y de los conocimientos científicos actuales son clave para proporcionar herramientas a los responsables de las políticas y de la toma de decisiones. Hunt, Baldocchi y Van Ingen describen los cambios en curso en las ciencias ecológicas, que están pasando de la “ciencia en lo pequeño” a las grandes colaboraciones basadas en la síntesis de da- tos. Estos conjuntos agregados de datos exponen la necesidad de herramientas de colaboración en la nube, así como de herramientas de visualización y de análi- sis fáciles de usar. A continuación, Delaney y Barga proporcionan perspicaces in- tuiciones convincentes sobre la necesidad de monitorear en tiempo real la compleja dinámica en el mar mediante la creación de un laboratorio marino interactivo. Esta novedosa ciberinfraestructura permitirá nuevos descubrimientos y conocimientos a través de mejores modelos oceánicos. Goodman y Wong destacan la necesidad de nuevas tecnologías de exploración científica. Para impulsar la vinculación entre los recursos existentes, los astróno- mos pueden usar una nueva clase de herramientas de visualización, tales como el WorldWide Telescope (wwt). Esta nueva clase de herramienta ofrece acceso a datos e información no sólo a los científicos profesionales, sino también al público en general, tanto para la educación como para posiblemente permitir nuevos descubrimientos por parte de cualquier persona que tenga acceso a Internet. Por último, Lehning y sus colaboradores proporcionan detalles acerca del uso de sensores en tiempo real den- samente desplegados en combinación con recursos de visualización para una mayor comprensión de la dinámica del ambiente —comoun telescopio virtual que mira hacia la Tierra—. Estas aplicaciones ilustran cómo los científicos y los tecnólogos tienen la oportunidad de implicar y hacer participar a científicos ciudadanos en sus esfuerzos. En la Parte 1, y en todo el libro, veremos cómo es que nuevos sensores e infraes- tructuras permiten el acceso en tiempo real a potencialmente enormes cantidades de 5EL CUARTO PARADIGM A datos, pero con capacidad de repetición experimental mediante el uso de flujos de tra- bajo. Las arquitecturas orientadas a servicios están ayudando a mitigar la transición a las nuevas tecnologías subyacentes y permiten la vinculación de datos y recursos. Este proceso de rápida evolución es el único mecanismo que tenemos para hacer frente al torrente de datos que surge de nuestros instrumentos. La pregunta es cómo los recursos intelectuales y tecnológicos del mundo se pueden instrumentar mejor para guiar con autoridad nuestras respuestas a los retos actuales y futuros de la sociedad. Los capítulos que siguen ofrecen algunas excelentes respuestas. 7EL CUARTO PARADIGM A TI ER R A Y M EDIO AM BI ENTE Las leyes de Gray: cómputo científico centrado en bases de datos ALEXANDER S . SZALAY The Johns Hopkins University JOSÉ A . BLAKELEY Microsoft l crecimiento explosivo de los datos científicos plantea un desafío importante a la investigación de frontera. Ante conjuntos de datos que rebasan las decenas de terabytes, los científicos no cuentan con herramientas comerciales prediseñadas que puedan aplicar en el manejo y análisis de la in- formación [1]. Los proyectos exitosos a la fecha han recurrido a distintas combinaciones de archivos planos y bases de datos [2]; sin embargo, muchas de estas soluciones han sido creadas a la medida de proyectos específicos y su generalización o escalamiento para la próxima generación de experimentos no parece una tarea sencilla. Por otro lado, las modernas arquitecturas computacionales pre- sentan un creciente desequilibrio; la brecha de latencia entre los cpu multinúcleo y los discos duros mecánicos aumenta cada año, lo que dificulta aún más remontar los retos que supone el cómputo intensivo en datos [3]. Es necesario un enfoque sistemático general respecto a estos problemas, aunado al diseño de arquitecturas con capacidad de escalamiento futuro. LAS LEYES DE GRAY Jim Gray formuló una serie de lineamientos o leyes informales que codifican la forma de abordar problemas de ingeniería de datos relacionados con el procesamiento de grandes volúmenes de infor- mación científica. Las leyes son las siguientes: E 8 TIERRA Y MEDIO AMBIENTE 1. El cómputo científico se está volviendo cada vez más intensivo en datos. 2. La solución radica en una arquitectura con “escalabilidad horizontal”. 3. Llevar los cálculos a los datos, más que los datos a los cálculos. 4. Empezar el diseño con las “20 preguntas”. 5. Avanzar de “funcional a funcional”. Es importante notar que el análisis de los conjuntos de datos provenientes de obser- vaciones está rigurosamente limitado por el bajo desempeño de entrada/salida (e/s) que presentan muchas plataformas computacionales modernas; de hecho, las simulaciones numéricas de alto rendimiento también están resintiendo el “cuello de botella de e/s”. Una vez que determinado conjunto de datos excede la capacidad de memoria ram del sistema, la localidad en caché multicapa resulta ineficaz [4]; sin embargo, muy pocas plataformas de alto nivel cuentan con subsistemas de e/s suficientemente veloces. La computación numérica escalable de alto desempeño también representa un reto algorítmico. Los paquetes tradicionales de análisis numérico están diseñados para operar en conjuntos de datos que caben en ram. Cuando los análisis por realizar son varios órdenes de magnitud mayores, estos paquetes deben rediseñarse para trabajar en múltiples fases, siguiendo una estrategia de “dividir y vencer”, pero sin perder precisión numérica. Esto sugiere un criterio en el que un problema de gran escala se descompone en piezas más pequeñas que pueden resolverse en ram, mientras que el resto del conjunto de datos reside en disco. Este enfoque es análogo a la manera en que los algoritmos de bases de datos, como los ordenamientos y combinaciones (joins), funcionan en conjuntos de datos mayores que el ram. Estos retos están al- canzando un momento crítico. Adquirir sistemas más grandes de almacenamiento en red y añadírselos a clús- ters de nodos de cómputo no va a solucionar el problema, ya que las velocidades de red y de interconexión no crecen lo suficientemente rápido como para lidiar con las necesidades de almacenamiento que se duplican anualmente. Las soluciones escalables horizontalmente proponen el uso de bloques simples en los cuales los datos se encuentren particionados entre nodos con almacenaje local incorporado [5]. Entre más pequeños y sencillos sean estos bloques mejor será el balance entre los cpu, discos y redes. Gray visualizó “ciberladrillos” simples, donde cada unidad de disco contaba con su propio cpu y conexión de red [6]. Si bien el número de nodos en un sistema de este tipo sería mucho más grande que en una arquitectura “esca- lable verticalmente”, la sencillez y bajo costo de cada nodo, así como el desempeño combinado, compensarían con creces la complejidad adicional. Con el surgimien- 9EL CUARTO PARADIGM A to de los discos de estado sólido y las tarjetas madre de bajo consumo estamos cerca de poder construir sistemas de este tipo [7]. CÓMPUTO CENTRADO EN BASES DE DATOS Muchos análisis de datos científicos se realizan en una serie jerárquica de pasos. En una primera etapa se extrae un subconjunto de los datos, ya sea filtrando a partir de ciertos atributos (por ejemplo, eliminando datos erróneos) o extrayendo un sub- conjunto vertical de las columnas. En el siguiente paso, los datos son generalmente transformados o reunidos de alguna manera. Por supuesto, en conjuntos de datos más complejos, estos patrones se acompañan frecuentemente de combinaciones complejas entre múltiples conjuntos de datos, como sería el caso de las calibraciones externas o la extracción y análisis de distintas porciones de una secuencia genética [8]. Dado que los conjuntos de datos son cada vez más grandes, la manera más eficiente de realizar estas operaciones es claramente llevar las funciones de análisis tan cerca de los datos como sea posible. También tenemos que muchos de estos patrones se pueden expresar fácilmente mediante un lenguaje declarativo orientado a conjuntos, cuya ejecución puede beneficiarse enormemente de la optimización de consultas (queries) basada en costos, paralelismo automático e índices. Gray y sus colaboradores han mostrado en varios proyectos que las actuales tec- nologías de bases de datos relacionales pueden aplicarse con éxito en este contexto [9]. También existen maneras transparentes de incorporar complejas bibliotecas de clases escritas en lenguajes de procedimientos como una extensión de la maquinaria de base de datos subyacente [10, 11]. En años recientes, MapReduce ha ganado popularidad como un paradigma de cóm- puto y de análisis distribuido de datos [12]. Los principios detrás de este paradigma son semejantes a las capacidades de agrupamiento distribuido y de agregación que existen desde hace algún tiempo en sistemas paralelos de bases de datos relacionales. Bases de datos paralelas de nueva generación, como Teradata, Aster Data y Vertica, han rebautizado estas capacidades como “MapReduce en la base de datos”. Se han desarrollado nuevos indicadores para comparar los méritos de cada estrategia [13]. COMUNICACIÓN CON LOS CIENTÍFICOS Uno de los problemas más desafiantes al diseñar bases de datos científicas es esta- blecer una comunicación efectiva entre el autor de la base de datos y los científicos del área interesados en el análisis. Casi todos los proyectos cometen el error de tratar de ser “todo para todos”; es claro que algunas funciones son másimportantes que 10 TIERRA Y MEDIO AMBIENTE otras y que es necesario hacer algunas concesiones en el diseño, lo que conlleva concesiones de desempeño. Jim Gray creó la regla heurística de las “20 preguntas”. En cada proyecto en el que participaba solicitaba a los investigadores una lista de las 20 preguntas más importantes que querían que respondiera el sistema de datos. Él sostenía que cinco preguntas no son suficientes para ver un patrón más amplio y que 100 preguntas producirían una pérdida de enfoque. Como casi toda elección que incluye decisiones humanas sigue una distribución de “larga cola” —la llamada distribución 1/f—, es claro que la información relativa en las preguntas ordenadas por importancia es logarítmica; por lo tanto, la ganancia obtenida al pasar de unas 20 (24.5) preguntas a 100 (26.5) es muy pequeña [14]. La regla de las “20 preguntas” es sólo un rótulo para designar una etapa en el diseño donde el científico del área y el ingeniero de bases de datos entablan una con- versación que ayuda a superar la brecha semántica entre los sustantivos y los verbos que se emplean en el campo científico en cuestión y las entidades y relaciones que se almacenan en la base de datos. Las preguntas definen así el conjunto específico de consultas, en términos de entidades y relaciones, que los científicos del área esperan hacerle a la base de datos. Al final de un ciclo completo de este ejercicio, el científico y la base de datos hablan el mismo idioma. Esta estrategia ha sido muy exitosa para mantener el proceso de diseño enfocado en las funciones más importantes que el sistema debe proveer y, al mismo tiempo, ayudar a los científicos del área a entender mejor las limitaciones del sistema de base de datos, reduciendo así la “sobrecarga de funciones”. Otra regla de diseño es avanzar de versión funcional en versión funcional. Gray era plenamente consciente de la rapidez con que cambia la arquitectura del cómputo basado en datos, especialmente si esos datos son distribuidos. Nuevos paradigmas de cómputo distribuido nacen y mueren cada año, haciendo sumamente difícil emprender un ciclo descendente (top-down) de diseño e implementación que abarque un periodo de varios años, ya que para cuando tal proyecto se concluye las premisas iniciales han quedado obsoletas. Si construimos un sistema que comience a funcionar únicamente cuando todos sus componentes funcionen de manera correcta, nunca terminaremos. En un contexto así, la única manera de sobrevivir y progresar es construir sistemas modulares en los que cada componente individual pueda ser reemplazado cuando la tecnología en la cual está basado evolucione. Las actuales arquitecturas orientadas a servicios son un buen ejemplo de esto; los servicios Web han pasado ya por varias etapas evolutivas y el fin de este proceso aún no se vislumbra. 11EL CUARTO PARADIGM A DE LOS TERABYTES A LOS PETABYTES EN LAS BASES DE DATOS CIENTÍFICAS Hemos abordado de manera exitosa varios proyectos del rango de unos cuantos terabytes (tb) a decenas de terabytes utilizando Microsoft sql Server [15-17]. La implementación de bases de datos que pronto excederán los 100 tb aparenta ser también un proceso directo [18]; pero no es del todo claro cómo es que la ciencia podrá cruzar la barrera de los petabytes. En la medida en que las bases de datos sigan creciendo, tendrán que recurrir a arquitecturas cada vez más escalables ho- rizontalmente. Los datos estarán fuertemente segmentados, provocando que las consultas distribuidas no locales y las combinaciones distribuidas (distributed joins) sean cada vez más difíciles. Para casi todos los problemas que actualmente alcanzan la escala de los petabytes se ha aplicado con éxito una estrategia simple de rastreo sobre particiones de datos masivamente escaladas horizontalmente y que no tienen elementos en común (Map- Reduce, Hadoop, etc.). Sin embargo, es claro que este diseño está muy por debajo de lo óptimo, ya que un buen índice podría mejorar el desempeño en varios órdenes de magnitud. Las combinaciones entre tablas de muy diferentes cardinalidades son particularmente difíciles de usar con los rastreadores (crawlers). Las bases de datos tienen mucho que ofrecernos en términos de planes más eficientes. También tenemos que repensar la utilidad de esperar un conjunto mo- nolítico de resultados. Podemos imaginar rastreadores trabajando sobre bases de datos altamente segmentadas, implementando una estructura que pueda generar resultados un bloque a la vez, lo que facilitaría el control punto a punto y la recu- peración en medio de una consulta extensa. Esta estrategia también es útil para funciones agregadas con una cláusula que detendría la búsqueda cuando se estime que el resultado se acerca, digamos, a un 99% de exactitud. Estas sencillas mejoras serían de gran ayuda para evitar enormes consultas monolíticas, dividiéndolas en consultas pequeñas y más manejables. La computación en la nube es otro paradigma que ha surgido recientemente. Ofre- ce ventajas evidentes como la ubicación concurrente de los datos con los cómputos y una economía de escala en el alojamiento Web de los servicios. Si bien es evidente que estas plataformas desempeñan muy bien las tareas para las que están pensadas en los motores de búsqueda o en los sistemas de alojamiento flexible de sitios Web comerciales, su papel en la informática científica está todavía por definirse. En algu- nos escenarios de análisis científico, los datos tienen que estar cerca del experimento; en otros casos, los nodos tienen que estar estrechamente integrados con una latencia muy baja, y en otros casos más se requiere un gran ancho de banda de e/s. Ninguna 12 TIERRA Y MEDIO AMBIENTE de estas estrategias de análisis daría resultados óptimos en los actuales ambientes de virtualización. Ciertamente, se espera que nubes de datos más especializadas surjan pronto. En los próximos años veremos si la computación científica se traslada de las universidades a los proveedores comerciales de servicios o si es necesario que los grandes almacenes de datos científicos se fusionen en uno solo. CONCLUSIONES La ciencia experimental está generando grandes volúmenes de datos. El proyecto Pan-starrs capturará 2.5 petabytes (pb) de datos cada año cuando entre en actividad [18]. El Gran Colisionador de Hadrones (gch) generará entre 50 y 100 pb de datos cada año, con cerca de 20 pb de esos datos almacenados y procesados en una federa- ción mundial de redes nacionales enlazando 100 000 cpu [19]. Sin embargo, todavía no se dispone de soluciones genéricas centradas en datos que puedan afrontar estos volúmenes de información ni sus correspondientes análisis [20]. Los científicos y las instituciones científicas necesitan un modelo y un reperto- rio de buenas prácticas que conduzcan a arquitecturas de hardware equilibradas y software correspondiente para manejar esos volúmenes de datos. De esta manera, se reduce la necesidad de reinventar la rueda. Ciertas propiedades de las bases de datos, como los lenguajes declarativos orientados a conjuntos y el paralelismo auto- mático, que han sido exitosas para construir aplicaciones científicas a gran escala, son claramente necesarias. Creemos que la actual generación de bases de datos puede lidiar con al menos otro orden de magnitud en escala, así que por ahora podemos seguir trabajando. Sin embargo, es momento de empezar a pensar en la siguiente generación. Las bases de datos científicas son un indicador temprano de los requerimientos que en su momento serán necesarios para las aplicaciones corporativas convencionales; por tanto, lo que se invierta en estas aplicaciones llevarán a desarrollar tecnologías que serán ampliamente aplicables en unos cuantos años. Los desafíos científicos actuales son buenos representantes de los desafíos del manejo de datos para el siglo xxi. Las leyes de Gray representan un excelente conjunto de principios rectores para diseñar los sistemas intensivos
Compartir