Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE QUÍMICA Comparación funcional entre agua y sedimentos mediante metagenómica, pistas funcionales para la sostenibilidad de Cuatro Ciénegas. Tesis QUE PARA OBTENER EL TÍTULO DE Química Farmacéutica Bióloga PRESENTA: Selene Molina Cruz MÉXICO, D.F. AÑO 2015 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. JURADO ASIGNADO: PRESIDENTE: Profesor: Luciano Hernández Gómez VOCAL: Profesor: Samuel Canizalez Quinteros SECRETARIO: Profesor: Luis David Alcaraz Peraza 1er. SUPLENTE: Profesor: Beatriz Ruiz Villafan 2° SUPLENTE: Profesor: Javier Fernández Torres SITIO DONDE SE DESARROLLÓ EL TEMA: Laboratorio Nacional de Ciencias de la Sostenibilidad del Instituto de Ecología, Universidad Nacional Autónoma de México. ASESOR DEL TEMA: Dr. Luis David Alcaraz Peraza SUSTENTANTE : Selene Molina Cruz Índice general Resumen.....................................................................................................................................1 Introducción.................................................................................................................................2 Sustentabilidad y metagenómica............................................................................................2 Secuenciación de próxima generación...................................................................................4 Bioinformática: herramientas para un análisis comparativo de metagenomas......................5 Antedecentes............................................................................................................................11 Justificación...............................................................................................................................16 Objetivos...................................................................................................................................16 Hipótesis....................................................................................................................................16 Metodología...............................................................................................................................17 Conjunto de datos utilizados.................................................................................................17 Anotación funcional por clasificación jerárquica en MG-RAST............................................19 Procesamiento de las tablas de abundancias funcionales por nivel jerárquico...................20 Análisis de ordenamiento: Mapas de calor y análisis de correspondencia..........................21 Diferencias significativas en las abundancias de los metagenomas...................................21 Resultados................................................................................................................................25 Estadísticas de anotación funcional de los metagenomas analizados................................25 Análisis funcional de los metagenomas...............................................................................27 Análisis de correspondencia de funciones en los metagenomas........................................34 Análisis de la diversidad taxonómica en los metagenomas analizados..............................37 Funciones y familias diferenciales significativamente, entre las muestras de agua y sedimento en los dos años...................................................................................................41 Discusión...................................................................................................................................51 Conclusiones.............................................................................................................................61 Perspectivas..............................................................................................................................62 Bibliografía................................................................................................................................63 Índice de Tablas Tabla 1. Información de los 22 metagenomas analizados........................................................18 Tabla 2. Detalle de los análisis estadísticos realizados............................................................22 Tabla 3. Características generales de las secuencias de cada metagenoma.........................26 Tabla 4. Familias con mayor frecuencia relativa.......................................................................38 Tabla 5. Familias de bacterias con frecuencia relativa mayor al promedio en los metagenomas analizados.........................................................................................................39 Tabla 6. Resumen resultados de funciones y familias diferencialmente abundantes en las muestras....................................................................................................................................42 Índice de Figuras Figura 1. Opciones de análisis en MG-RAST...........................................................................20 Figura 2. Ejemplo de tabla de abundancia agua......................................................................23 Figura 3. Salida del análisis de diferencias significativas.........................................................24 Figura 4. Secuencias anotadas funcionalmente en los metagenomas....................................27 Figura 5. Mapa de calor de la primera jerarquía de SEED.......................................................30 Figura 6. Mapa de calor de los 200 subsistemas más abundantes de la jerarquía de anotación del nivel 3 del SEED.................................................................................................32 Figura 7. Análisis de correspondencia funcional......................................................................35 Figura 8. Análisis de correspondencia funcional sin tres muestras atípicas............................36 Figura 9. Análisis de correspondencia de la diversidad taxonómica........................................40 Figura 10. Diferencias significativas en la taxonomía de las muestras de agua y sedimento de ambos años...............................................................................................................................44 Figura 11. Diferencias significativas a nivel funcional de las muestras de agua en los dos años del estudio........................................................................................................................45 Figura 12. Diferencias significativas funcionales entre de las muestras de agua y sedimento del 2011.....................................................................................................................................47 Figura 13. Diferencias significativas funcionales entre las muestras de agua y sedimento del año 2012...................................................................................................................................48 Figura 14. Diferencias significativas funcinales en muestras de agua y sedimento de ambos años...........................................................................................................................................50Resumen Cuatro Ciénegas (CC) es un ecosistema único en el Desierto de Chihuahua en el estado de Coahuila, CC contiene diversos cuerpos de agua dominado por tapetes microbianos y estromatolitos que han evolucionado aislados y bajo restricciones de nutrientes. Este ecosistema oligotrófico se encuentra limitado por nutrientes como fósforo y nitrógeno. A pesar de las condiciones extremas en CC, los tapetes microbianos presentan un alto nivel de diversidad y endemismo. El presente trabajo, describe a nivel funcional, a las comunidades bacterianas en sedimentos y agua del sistema hidrológico Churince, a través de la comparación de 22 metagenomas en dos años consecutivos. Inicialmente, se realizó la anotación funcional de los genes en los metagenomas y posteriormente se realizaron análisis multivariados para observar la variación espacio-temporal de las funciones. Se encontró que los sedimentos presentan resiliencia funcional a través del tiempo, siendo fundamentales para la sostenibilidad de CC. Además, se encontró que los sistemas de agua son los que presentan mayor fragilidad ante las perturbaciones en el medio. Con este trabajo, se amplió la información sobre las estrategias que ocupan las comunidades bacterianas para sobrevivir ante las condiciones extremas en CC (deficiencias nutrimentales, salinidad, pH alto y radiación solar). Finalmente, este trabajo demuestra la utilidad de la metagenómica para el monitoreo ambiental, ya que se encontraron genes que pueden ser utilizados como marcadores de estabilidad ambiental. Las funciones descritas en este trabajo también tienen implicaciones en estrategias de mitigación de daño ambiental y biorremediación de CC gracias a la resiliencia espacio-temporal que muestran. 1 Introducción Sustentabilidad y metagenómica Los microorganismos son esenciales para la vida ya que son la fuente primaria de nutrientes, además de ser los recicladores primarios de materia inerte haciéndola disponible como materia orgánica (Wooley, Godzik, & Friedberg, 2010). Los microorganismos que realizan sus funciones metabólicas básicas de manera independiente son considerados como bacterias de vida libre (Alberts et al., 2002). Las bacterias de vida libre se pueden encontrar en tapetes microbianos, una matriz orgánica que contiene diversas concentraciones de minerales (silicatos y carbonatos) y diferentes grupos de microorganismos estratificados verticalmente. Los tapetes microbianos son comunidades bénticas (que se encuentran en el nivel menos profundo en sistemas marinos o de agua dulce) que crecen en un sustrato sólido y la mayoría son considerados como autotróficos. Debido a la estratificación vertical, los diversos grupos de microorganismos originan gradientes fisicoquímicos que permiten identificar diversas funciones específicas en ellos (Bolhuis, Cretoiu, & Stal, 2014). La estratificación vertical en las comunidades bacterianas no sólo se observa en el sedimento, también se presenta en el agua de diversos ambientes marinos como en el mar Báltico (Thureborn et al., 2013). La estabilidad de cualquier comunidad depende del ambiente en el que existe, así como las densidades y las características de las especies que la forman. Una manera de medir la estabilidad en un ecosistema (comunidad con su ambiente físico) es a través de su resiliencia, es decir, la velocidad con la que una comunidad regresa a su estado de equilibrio después de que sufrió perturbación y desplazamiento de dicho estado (Begon Michael, Townsend Colin, 2006). Existen tres aspectos de la resiliencia que deben tomarse en cuenta, lo máximo que puede cambiar un sistema antes de perder su habilidad de recuperación 2 (latitud), la facilidad o dificultad con la que se puede cambiar el sistema (resistencia) y que tan cercano se encuentra el sistema de su límite (precariedad) (Walker, Holling, Carpenter, & Kinzig, 2004). Las condiciones en un ecosistema (temperatura, humedad, salinidad, compuestos tóxicos) nunca son constantes y el cambio en las condiciones pueden causar pérdidas ecológicas y/o recursos económicos (Scheffer, Carpenter, Foley, Folke, & Walker, 2001). En general, se tienen tres estrategias para mantener la resiliencia en un sistema: mitigar variaciones no deseadas para disminuir el tiempo en el que el sistema regresa al equilibrio deseado, manejo de procesos a multiples escalas y tener fuentes de renovación (Gunderson, 2000). Las perturbaciones son componentes naturales de los ecosistemas que promueven la diversidad y renovación de procesos, la manera para mantener la estabilidad en un ecosistema es a partir de construir y mantener su resiliencia en lugar de controlar las fluctuaciones o perturbaciones (Scheffer et al., 2001). En los diversos ecosistemas, la mayoría de las bacterias no son cultivables, por esta razón los métodos de estudio independientes de cultivo son esenciales para entender la diversidad genética, estructura poblacional y roles ecológicos de la mayoría de los microorganismos (Riesenfeld, Schloss, & Handelsman, 2004). La metagenómica es la disciplina que permite el estudio genómico de microorganismos de una manera independiente de técnicas de cultivo. Esto significa que, estudia a los microorganismos que se encuentran en un ambiente determinado, mediante el DNA de la comunidad, su metagenoma (Wooley et al., 2010). Para estudiar a los microorganismos ambientales se obtiene su DNA, y posteriormente se emplean técnicas de secuenciación masiva donde el DNA se fragmenta por medio de la técnica conocida como WGS (whole genome shotgun) para obtener las secuencias genómicas que reflejen la estructura de las comunidades microbianas, de esta manera se tiene conocimiento de su presencia y abundancia en el ambiente seleccionado (Xia, Cram, Chen, Fuhrman, & Sun, 2011). La abundancia de un microorganismo en una muestra, se calcula a partir de la frecuencia en las secuencias de DNA (Morgan, Darling, & Eisen, 2010). Así mismo, a partir de los 3 metagenomas, se puede observar la abundancia de genes que reflejan las funciones presentes en diversos ambientes (Lever, 2013; Martín-Cuadrado et al., 2007). La metagenómica utiliza herramientas bioinformáticas para responder preguntas como ¿Qué especies habitan en un ambiente determinado? ¿Qué funciones realizan los microorganimos que ahí se encuentran? ¿Cómo las llevan a cabo?. El análisis funcional a través de la metagenómica tiene dos objetivos generales: el primero consiste en obtener un panorama general de las funciones y procesos metabólicos de los diferentes miembros de la comunidad bacteriana y el segundo, es identificar si existen variaciones en la composición funcional de las diferentes comunidades (Prakash & Taylor, 2012). Para la realización de los análisis comparativos, se requiere la tabla de contingencia de observaciones o la matriz de abundancia de observaciones por muestra, que comprende la cuenta de grupos de genes ortólogos, taxa o actividades enzimáticas por cada metagenoma (McDonald et al., 2012). Secuenciación de próxima generación En 1975, Sanger introdujo el concepto de método de secuenciación de DNA, a través de la técnica enzimática dideoxi, basada en la terminación de la elongación de cadenas de DNA por análogos de dideoxinucleótidos (Pareek, Smoczynski, & Tretyn, 2011); esta técnica obtiene secuencias de una longitud de hasta 1,000 pb aproximadamente (Shendure & Ji, 2008). Los métodos de secuenciación de segunda generación tienen técnicas que se basan en la generación de “colonias de polimerasa” o polonies, que son amplicones de PCR que provienen de una sola molécula de ácido nucléico (Wooley et al., 2010). Las plataformas de segunda generaciónpueden originar alrededor de 500 millones de bases hasta miles de millones de bases en una sola corrida (Pareek et al., 2011). La diferencia entre las plataformas comerciales de secuenciación de segunda generación, se encuentra en la preparación del molde (secuencia de DNA compuesta por una región conocida, vector o adaptador y una región desconocida, que es la región de interés) y los métodos empleados para la secuenciación de DNA. Para la preparación de los moldes se 4 pueden utilizar dos técnicas: clonación amplificada de moldes a partir de una molécula de DNA (libre de células y requiere PCR) y moldes de una molécula de DNA (independiente de PCR). Los métodos de secuenciación se clasifican en: terminación cíclica reversible (Illumina/Solexa, Helicos BioSciences), pirosecuenciación (Roche/454), secuenciación por ligación (Life/APG's SOLiD3, Polonator G.007) y secuenciación en tiempo real (Pacific Biosciences) (Metzker, 2010). La plataforma de Illumina HiSeq 2500 adopta la tecnología de secuenciación por síntesis. Al DNA molde de doble cadena, se le agregan adaptadores, posteriormente se desnaturaliza el DNA y cada una de las cadenas se fijan en una celda, enseguida se forman clusters que contienen fragmentos de DNA clonales. Para obtener las secuencias, se adicionan los nucleótidos con etiquetas fluorescentes y se detecta la señal de cada uno de ellos en el momento que se van incorporando. Esta tecnología permite secuenciar 160 GB por día o 1 Tb por corrida (Liu et al., 2012). Bioinformática: herramientas para un análisis comparativo de metagenomas La bioinformática es la aplicación de la información tecnológica al campo de la biología molecular. Implica la creación y actualización de bases de datos, algoritmos, técnicas computacionales y estadísticas con la finalidad de resolver, de forma práctica, problemas que se presentan con el manejo y análisis de datos biológicos, aumentando así el entendimiento de los procesos biológicos. Las técnicas computacionales incluyen alineación de secuencias, asignación de genes, ensamble de genomas, alineamientos estructurales de proteínas, predicción de estructuras de proteínas, predicción de genes e interacciones entre proteínas, entre otros (Miner, et al., 2009). Independientemente de la tecnología de secuenciación empleada para generar los datos (secuencias de DNA), los primeros pasos en el análisis de cualquier metagenoma, involucran la comparación de esas secuencias con bases de datos de secuencias conocidas. De esta 5 manera, se obtiene información básica para realizar análisis subsecuentes que incluyen comparación filogenética, anotaciones funcionales (asignación de funciones a proteínas/genes específicos) y reconstrucciones metabólicas (F. Meyer, Paarmann, D’Souza, & Etal., 2008). La predicción de genes que codifican para proteínas se puede realizar a través del marco abierto de lectura (ORF por sus siglas en inglés), que consiste en una serie de codones que especifican la secuencia de aminoácidos de la proteína predicha codificada por el gen. Los ORF inician con un codon inicial (usualmente es ATG) y terminan con un codón terminal (TAA, TAG o TGA). En la secuencia de DNA, los genes se asignan a través de los ORF, es decir, se buscan los ORF a través de su codón de incio y su codón de término (Brown, 2002). El servidor MG-RAST (metagenomics Rapid Annotation using Subsystem Technology) realiza dos clases de predicciones de funciones de genes: la predicción basada en subsistemas (se apoya en el reconocimiento de variaciones funcionales de los subsistemas) y predicciones no basadas en subsistemas (usa acercamientos comunes basados en la identificación de homología mediante herramientas bioinformáticas) (Aziz et al., 2008). Un subsistema se define como un grupo de roles funcionales que en conjunto participan en un proceso biológico determinado o un complejo estructural. Los genes asignados dentro de un subsistema (población del subsistema) pueden estar conectados con más de un rol funcional, lo que induce conexiones con subsistemas específicos (conexión entre subsistemas). Uno de los objetivos de organizar la información en subsistemas es definir y poder actualizar, de una manera sencilla, la población de los subsistemas permitiendo el intercambio, archivo y actualización en Internet (Overbeek et al., 2005). El servidor MG-RAST está diseñado para producir anotaciones funcionales, comparables en calidad, con aquellos realizados por curadores humanos y extender esas anotaciones a todas las proteínas codificadas por genes en todos los genomas posibles. Esta función la realiza a través de la base de datos SEED (http://www.theseed.org), que integra la anotación de diversas fuentes (genomas anotados en RAST, datos de modelados metabólicos, literatura de referencia verificando anotaciones, otras bases de datos) y los usa para 6 http://www.theseed.org/wiki/Main_Page aumentar el conocimiento de los genomas microbianos. Los subsistemas de SEED son útiles para determinar, de una manera rápida, las proteínas que estan involucradas en alguna función, así como conocer las variaciones funcionales entre organismos (Overbeek et al., 2014). SEED organiza los subsistemas a través de cuatro jerarquías principales (Nivel 1, Nivel 2, Nivel 3 y Función) y cada una está dividida en diferentes subsistemas (http://www.nmpdr.org/FIG/subsys.cgi). Por ejemplo, el Nivel 1 tiene 28 categorías principales, dentro de las cuales se encuentra la categoría llamada metabolismo de azufre, ésta se divide en dos categorías: asimilación de azufre orgánico y asimilación de azufre inorgánico (Nivel 2). La subcategoría de asimilación de azufre orgánico contiene 7 subsistemas (Nivel 3); dentro de esta subcategoría se encuentra el subsistema de asimilación de sulfato que contiene 11 funciones (Función). Otra herramienta bioinformática útil para el análisis de metagenomas es QIIME (quantitative insights into microbial ecology), que permite tomar la información de la secuenciación para interpretarla y compararla con otras bases de datos. Apoya en la visualización dinámica del análisis de las comunidades microbianas. Permite realizar análisis a partir de las unidades taxonómicas operacionales (OTUs), alineamientos de secuencias, inferir árboles filogenéticos o análisis de diversidad entre muestras basados en taxones y filogenias (Caporaso et al., 2010). QIIME es una de las herramientas empleadas para la caracterización ecológica de la diversidad microbiana a partir de OTUs. Un OTU se define como los clusters de genes que tienen similitud con la subunidad pequeña (SSU) del gen 16S/18S rRNA (Schmidt, Matias Rodrigues, & von Mering, 2014). Un problema que se puede presentar durante el análisis comparativo de metagenomas, es tener una cantidad insuficiente de muestras, por lo que se han desarrollado técnicas de normalización y modelos estadísticos para aminorar el efecto de “bajo muestreo” para determinar las diferencias o variaciones entre las muestras. El software Metastats emplea métodos de normalización que incluyen cumulative sum scaling (CSS) que corrige los errores en la asignación de la abundancia diferencial, introducidos por total-sum normalization (TSS). 7 http://www.nmpdr.org/FIG/subsys.cgi Este último normaliza los conteos de los datos al dividir los conteos de las lecturas por el total de lecturas en cada muestra. Por otra parte, el modelo de distribución Gaussiana inflado por ceros permite corregir los errores de las abundancias diferenciales por las deficiencias de muestreo en las comunidades microbianas (Paulson, Stine, Bravo, 2012). Una manera en la que se analiza la información obtenida a partir de los metagenomas, es a través de análisis multivariados pormétodos que involucran el arreglo u ordenamiento de las especies o unidades de muestra a través de gradientes, llamados métodos de ordenamiento (http://ordination.okstate.edu/overview.htm). El análisis de datos genómicos requiere de un acercamiento que se enfoque en el ordenamiento de todo el grupo de observaciones y obtener una representación gráfica, a partir de la organización estadística, que posibilite asimilar y explorar los datos de una manera natural e intuitiva (Eisen, Spellman, Brown, 1999). Los mapas de calor presentan, de una manera compacta, una gran cantidad de información asociada a dos variables, por ejemplo entre genes y muestras (Rajaram & Oono, 2010). En él se generan patrones coherentes de colores, a partir del agrupamiento jerárquico en los ejes horizontales y verticales, de manera que agrupa aquellos que son similares. Las relaciones en los agrupamientos se indican a través de estructuras en formas de árboles (dendrogramas) contiguos al mapa de calor; los patrones de colores son indicadores de relaciones funcionales entre los genes y las muestras. Cabe recalcar, que el mapa de calor solamente proporciona un panorama general de toda la información contenida en los datos introducidos (Weinstein, 2008). La elaboración de un mapa de calor incluye: (i) el algoritmo de procesamiento (normalización de datos) para minimizar el ruido en el sistema, (ii) el algoritmo de agrupamiento o clustering, que determina como se agruparan los datos, (iii) la distancia métrica, que define lo que es similitud entre los genes o muestras y (iv) el esquema de colores, que determina la manera en que se resaltarán visualmente los patrones encontrados (Weinstein, 2008). 8 http://ordination.okstate.edu/overview.htm En estadística, existen tres tipos de variables (McDonald, 2014), las variables cuantitativas (expresadas en números), variables nominales (expresadas en nombres) y las variables ordinales (expresadas como posiciones). Los algoritmos de clustering a emplear dependen del tipo de variable que se tenga. Dos algoritmos que se utilizan son el coeficiente de correlación de Pearson y el coeficiente de correlación de Spearman. El coeficiente de correlación de Pearson es una medida de la relación linear entre dos variables (http://onlinestatbook.com/2/describing_bivariate_data/pearson.html). Mientras que el coeficiente de correlación de Spearman, se aplica cuando se quiere observar la asociación entre dos variables ordinales, una variable cuantitativa y una variable ordinal o como una alternativa no paramétrica cuando se tienen dos variables cuantitativas y una o ambas variables no tienen una distribución normal. En general, en el coeficiente de correlación de Spearman, se desea observar si al aumentar una variable, la otra tiende a aumentar o disminuir, convirtiendo las variables cuantitativas a variables ordinales (McDonald, 2014). La distancia métrica es el parámetro que se utiliza para cuantificar la similitud de los agrupamientos y se representa a través del dendrograma, donde se visualizan los patrones de agrupamiento y su similitud a distintos niveles. La mayoría de los algoritmos son variantes de los algoritmos single-link (la distancia entre dos clusters es la distancia entre los puntos más cercanos de ambos) y complete-link (la distancia entre dos clusters es la distancia entre los puntos más lejanos) (Jain, Murty, & Flynn, 1999). El análisis de correspondencia (CA) o promedio recíproco es una técnica multivariada que se desarrolló para analizar la información contenida en una matriz de incidencia o abundancia. En ecología, estas matrices contienen la presencia/ausencia o abundancia de las especies en una muestra (ter Braak, 1985). Esta técnica representa especies y muestras en un espacio ambiental o espacio de ordenamiento, además asume que las especies presentan una curva de respuesta unimodal, esto quiere decir que las especies tienen una condición ambiental óptima, si esta condición no se cumple (es menor al óptimo) entonces las especies tendrán una menor abundancia, por consiguiente cada especie se localiza en un espacio donde es más abundante (http://ordination.okstate.edu/glossary.htm#unimodal). El algoritmo empleado para el CA da como resultado un puntaje para las especies, un puntaje 9 http://ordination.okstate.edu/glossary.htm#unimodal http://onlinestatbook.com/2/describing_bivariate_data/pearson.html para las muestras y la relación que guardan entre sí a través de un eigen valor que es considerado como un coeficiente de correlación. Estos valores se visualizan a través de ejes, siendo el primer eje el que está relacionado con gradientes ambientales importantes (http://ordination.okstate.edu/CA.htm). 10 http://ordination.okstate.edu/CA.htm Antedecentes Cuatro Ciénegas (CC) se localiza en el centro del Desierto de Chihuaha en el estado de Coahuila, aproximadamente a 27° N y 104° W en un valle a 740 m sobre el nivel del mar y está rodeado por montañas que alcanzan una altura mayor a 2,500 m. Se estima que este valle tienen una antigüedad entre 30,000 – 40,000 años (E. R. Meyer, 1973). CC tiene un clima árido y tiene una temporada de lluvias de Mayo a Octubre. Las aguas superficiales en CC pueden ser desde efímeras inundaciones después de la lluvia, hasta largos y permanentes lagos y ríos (W. Minckley, 1969). La formación de depósitos de sal o suelos salinos se da por la evaporación del agua superficial, debido a las temperaturas extremas y temporadas de sequía (T. A. Minckley & Jackson, 2007). La diversidad de flora y fauna en CC comprende un total de 1,248 especies de mamíferos, aves, reptiles, anfibios, peces, moluscos, crustáceos, escorpiones y plantas vasculares. Del total de especies mencionadas, más de 70 especies son endémicas. Debido a la cantidad de especies endémicas de CC, se considera similar a las Islas Galápagos, en términos de ecosistemas únicos (http://www.desertfishes.org/cuatroc/organisms/organisms.php). CC es considerada “Área de Protección de Flora y Fauna” por el Gobierno Federal Mexicano y está administrada por la SEMARNAT (Secretaría del Medio Ambiente y Recurso Naturales), también se considera un área de alta prioridad para su conservación por otras organizaciones internacionales como la UNESCO (Souza, Siefert, Escalante, Elser, & Eguiarte, 2012). En sistemas áridos, la biota endémica es susceptible a las perturbaciones que causan una disminución en el flujo y la calidad del agua. Se tenían registrados modelos de flujo de agua subterránea en CC (Minckley and Cole, 1968; Rodriguez-Almaraz et al., 1997; Contreras- Arquieta, 1998), aunque faltaba la caracterización química del agua. Johannesson y colaboradores, realizaron la caracterización química de diversos sistemas hidrológicos, encontrando una riqueza en sulfatos, presencia de iones de Ca2+, Mg2+, Na+, K+ y Cl- y una alta alcalinidad (medida por la presencia de iones HCO3-), pero la composición química en los 11 http://www.desertfishes.org/cuatroc/organisms/organisms.php diversos cuerpos de agua difería entre ellos. Además, se obtuvo un indicio de que el agua subterránea en todo CC podría estar hidrogeológicamente conectada (Johannesson, Cortés, & Kilroy, 2004). La biodiversidad de CC se ha centrado históricamente en la descripción de macroorganismos (plantas, vertebrados e invertebrados). En el año 2002, se inició la descripción de la biodiversidad de microorganismos en CC. En este año, a partir de secuencias de genes 16S rRNA, se describió la estructura poblacional de cianobacterias en estromatolitos (Garcia-Pichel, Wade, & Farmer, 2002). En el año2005, se realizaron diversos estudios que tuvieron que ver con la estequiometría de C:N:P en las comunidades bénticas (estromatolitos) y en la especie de caracol endémica M. quadripaludium (Elser, Schampel, Garcia-Pichel, et al., 2005; Elser, Schampel, Kyle, et al., 2005). Al realizar mediciones de C, N y P se confirmó que el fósforo es un nutriente limitado en CC. Simultáneamente, se realizaron experimentos de enriquicimiento con fósforo en los estromatolitos. Se concluyó que la limitación de fósforo se debe en parte por la co- precipitación de fosfatos durante la deposición de calcio. Además, los microorganismos que presentan una mayor respuesta dentro de los estromatolitos son las diatomeas y las cianobacterias. Las comunidades bénticas pueden sufrir cambios en su estructura (composición de especies), biomasa y productividad debido a que especies de gasterópodos (entre otras) se alimentan de dichas comunidades, pero en este caso se observó lo contrario. M. quadripaludium no afecta a estas comunidades bénticas a pesar de que se alimenta de ellas; sin embargo, una alta concentración de fósforo puede ser perjudicial e incluso aumentar la mortalidad de los caracoles, debido a que son organismos adaptados a bajos requerimientos de fósforo. Se define un ambiente oligotrófico como aquél que presenta deficiencias en la disponibilidad de nutrientes (Burgess, 1997). En océanos, se encuentra deficiencia en fósforo, nitrógeno y hierro (Mills, Ridame, Davey, La Roche, & Geider, 2004). En el 2006, Souza y colaboradores, a partir de muestras de columna de agua en sitios dentro de CC y de áreas aledañas, descubrieron que en la microbiota de CC predominaban taxa similares a los microorganismos marinos a pesar de que la composición química del 12 agua de CC no es semejante al del agua marina y de que existe una distancia a 800 km del Golfo de México. Esta evidencia, junto con la baja probabilidad del transporte atmosférico de las bacterias y el bajo número de taxa de microorganismos típicos de ambientes de agua dulce (de las áreas aledañas), condujo a la hipótesis de que los microorganismos y el agua que se encuentra en CC quedaron atrapados en estratos Mesozoicos que posteriormente fueron liberados durante los procesos de karstificación de la superficie caliza. También se descubrió, a partir de análisis de T-RFLPs del gen 16S rRNA, una conexión hidrológica entre CC y los valles cercanos (Souza et al., 2006). En el 2008, se realizaron otros análisis con T-RFLPs de genes 16S rRNA en muestras de columnas de agua en sitios dentro de CC. Los filotipos más abundantes que se encontraron fueron Gamma- y Proteobacteria y halófilos extremos. Estos microorganismos pueden existir en los diferentes sitios y cada comunidad es única, sin embargo, no se observó un patrón geográfico que determine la composición de cada comunidad (Escalante et al., 2008). En este mismo año (2008) se realizaron estudios en los diversos sistemas hidrológicos en CC a nivel funcional. Se secuenció el genoma de Bacillus coahuilensis, bacteria formadora de esporas, que reside en el sistema hidrológico Churince. Este genoma aportó información sobre los mecanismos de adaptación genómica ante un ambiente oligotrófico extremo en CC. El genoma de B. coahuilensis tiene genes que codifican para enzimas claves para la síntesis de sulfolípidos (sqd1 y sqdX) y para receptores sensores de luz (bsr), que a diferencia de sus ortólogos en otras bacterias, estos genes se expresan constitutivamente. El genoma de B. coahuilensis carece de genes para llevar a cabo el ciclo del nitrógeno de manera independiente, así como el ciclo de la urea y rutas de degradación de la urea. También presenta el operón que codifica para transportadores de hierro y tiene especialización para adquirir aminoácidos en lugar de oligopétidos. Así mismo, se observó que B. coahuilensis perdió la capacidad de producir ácido teicoico y otros compuestos de fósforo, presentes como reserva en la pared celular (Alcaraz et al., 2008). Además, se comprobó que B. coahuilensis está filogenéticamente relacionado con otros Bacillus spp. marinos (R. Cerritos et al., 2008). 13 También del sistema hidrológico El Churince, se aisló y secuenció el genoma de otro bacilo: Bacillus sp. m3-13. A pesar de que B. coahuilensis y Bacillus sp. m3-13 viven en el mismo ambiente oligotrófico, tienen diferentes estrategias para sobrevivir en este sistema. Mientras B. coahuilensis reemplaza las membranas de fosfolípidos por membranas de sulfolípidos, Bacillus sp. m3-13 tiene genes phn que codifican para transportadores ABC de fosfonatos, permeasas y fosfonato-liasas para tomar y asimilar fosfonatos. Ambas estrategias son similares a las encontradas en otras bacterias acuáticas y marinas (Alcaraz et al., 2010). También se han estudiado interacciones entre bacterias cultivables de Bacillus sp. aisladas del sedimento y columna de agua del Churince. Para el establecimiento de las comunidades de bacilli en el sedimiento, se descubrió que existen interacciones antagonistas entre los sitios, que ayudan a seleccionar genotipos resistentes y por consiguiente afectan a la estructura taxonómica de la comunidad. Las interacciones dentro de las comunidades son del tipo de una cadena trófica, es decir, presentan jerarquías y direccionalidad, por lo que los miembros de los diferentes niveles tienden a pertenecer a diferentes grupos taxonómicos (Pérez-Gutiérrez et al., 2013). Esta diversidad de estrategias de supervivencia en Churince, también se observó en los metagenomas de otros sistemas hidrológicos en CC, Poza Roja (en el ejido Los Venados, es un estanque rojo con limitación de P) y Pozas Azules (estanque con limitación de N). A pesar de que ambos estanques tienen diferentes condiciones fisicoquímicas, presentan similitudes en cuanto a diversidad de funciones metabólicas y ambos tienen genes asociados con la asimilación de fósforo a partir de fuentes inorgánicas, la utilización de fosfatos como fuentes de reserva de fósforo y el reciclaje de fosfatos. Sin embargo, las funciones particulares que se presentan en cada sistema, están asociadas tanto a las condiciones particulares y a las especies que predominan en cada uno de ellos. En Poza Roja, el género más abundante es Pseudomonas (considerada una bacteria generalista), en este estanque se tiene una sobre- representación en genes relacionados con energía dependiente de sistemas de transporte, movilidad de la célula, regulación transcripcional y señales de transducción. Todos los genes antes mencionados son característicos de aquellos organismos que no dependen de la fijación de carbono y nitrógeno y son heterótrofos. Por otra parte, en Pozas Azules, la 14 limitación de N tiene como resultado una disminución en el tamaño de los genomas, el género más abundante es Cyanothece, y el estanque verde tiene una sobre-representación en genes relacionados con rutas metabólicas fijadoras de nitrógeno y carbono, así como genes involucrados en la reparación de DNA. En Pozas Azules, se sugiere que es importante la fotosíntesis y la fijación de N por lo tanto se tiene la presencia de bacterias especialistas, como las cianobacterias (Peimbert et al., 2012). Se realizó a detalle la composición estructural en ambos estanques, comparando los genes 16S rRNA y metagenomas. Se confirmó el predominio del género Pseudomonas (bacterias heterotróficas) en Poza roja y la presencia de las phyla Cyanobacteria, Clostridia, Gammaproteobacteria, Epsilonproteobacteria y Deltaproteobacteria (bacterias heterotróficas y fotosintéticas) en Pozas Azules. Además, al comparar la diversidad taxonómica de los sistemas de CC con otros sistemas oligotróficos como Guerrero Negro, se sugiere que las perturbaciones al sistema pueden tener un mayor impactoen la diversidad de la comunidad, que la disponibilidad de nutrientes (Bonilla-Rosso et al., 2012). El sistema hidrológico Churince está rodeado por dunas de yeso, presenta un alto gradiente de salinidad, temperatura, pH y oxígeno disuelto. Es extremadamente pobre en fosfatos pero rico en sulfatos y magnesio, aunque no se encuentran carbonatos de calcio. A pesar de las deficiencias de diversos nutrientes, se ha observado una alta diversidad de microorganismos de las phyla Firmicutes y Actinobacteria (René Cerritos et al., 2011). El trabajo de esta tesis es parte de un proyecto de secuenciación metagenómica coordinado por la Dra. Valeria Souza y su estudiante de doctorado Valerie de Anda (Instituto de Ecología, UNAM), en colaboración con Jim Elser de la Universidad de Arizona. Este trabajo pretende describir, exclusivamente, la diversidad funcional de las comunidades bacterianas de la condición control (en sedimento y agua) de un experimento (en proceso) que pretende caracterizar los efectos de enriquecimiento de nutrientes, en específico de fósforo, en el sistema hidrológico Churince. Por lo tanto, las secuencias de los 22 metagenomas (Tabla 1) que aquí se ocupan, estarán disponibles públicamente después de la publicación de los resultados. 15 Justificación Cuatro Ciénegas es un ecosistema que presenta altos niveles de endemismos biológicos. Aunque es un área protegida, ha sufrido perturbaciones por la actividad antropogénica que han disminuido el flujo de los sistemas hidrológicos superficiales. Una manera de conservar este sistema, es estudiar a nivel funcional, como es que las comunidades bacterianas sobreviven en un sistema con condiciones oligotróficas, analizar las funciones representativas de la comunidad y de esta forma tratar de entender su resiliencia. Objetivos Analizar la composición funcional de 22 metagenomas secuenciados de sedimento y columna de agua en El Churince, Cuatro Ciénegas, en dos años consecutivos y determinar la variación temporal y espacial de las funciones. Los objetivos particulares son: 1. Anotación funcional de los 22 metagenomas. 2. Análisis multivariados de las funciones asignadas a cada metagenoma. 3. Analizar la relación entre las funciones y los taxa (a nivel de familia) en los metagenomas. 4. Determinar las funciones que cambian significativamente de acuerdo al sitio y año de muestreo. Hipótesis Los distintos grupos taxonómicos presentes en las comunidades bacterianas tienen interacciones entre ellos, donde cada grupo puede llegar a realizar funciones específicas dentro de la comunidad. Debido a que las condiciones para establecer comunidades son distintas entre el agua y el sedimento, se esperan funciones distintas entre ellos. Además se esperan diferencias funcionales causadas por efectos temporales. 16 Metodología Conjunto de datos utilizados Se utilizaron los 22 metagenomas de los años 2011 y 2012 del sistema Churince, los datos identificadores del MG-RAST (usados como identificadores dentro de este trabajo), su sitio de aislamiento y año de muestreo se presentan en la Tabla 1. Los metagenomas fueron secuenciados mediante la plataforma de Illumina HiSeq 2000. La cantidad de lecturas o reads que se obtienen dependen de la calidad del DNA de la muestra. Como se mencionó con anterioridad, los 22 metagenomas corresponden a un experimento de enriquecimiento de nutrientes que está siendo evaluado en estos momentos por el grupo de la Dra. Valeria Souza, en partícular por su estudiante de doctorado Valerie de Anda. Los datos serán liberados eventualmente, en el momento de la aceptación de la publicación del trabajo del grupo de la Dra. Souza. 17 Tabla 1. Información de los 22 metagenomas analizados. Se muestra el identificador en el servidor MG-RAST, el sitio al que pertenece cada metagenoma (agua o sedimento) y el año en que se realizó la toma de muestra. 18 Archivo Identificador MG-RAST (ID) Sitio Año JP4B120525WATERRESIZEAMP 4557996.3 Agua 2012 JP4B120525WATER 4557995.3 Agua 2012 JP3CWATER120525AMPED 4557990.3 Agua 2012 JP2C120525WATERRESIZEAMP 4557989.3 Agua 2012 JP2C120525WATER 4557988.3 Agua 2012 JP1CWATER120525 4557981.3 Agua 2012 JP1C120525WATERRESIZEDAMD 4557980.3 Agua 2012 JP4A120525SEDIMENT 4557994.3 Sedimento 2012 JP2C120525SEDRESIZEAMP 4557987.3 Sedimento 2012 JP2C120525SEDIMENT 4557986.3 Sedimento 2012 JP1ASEDIMENT120525 4557979.3 Sedimento 2012 JP2110514WATERAMP 4559109.3 Agua 2011 JP5WATER110514AMP 4557998.3 Agua 2011 JP4110514WATERRESIZE 4557993.3 Agua 2011 JP4110514WATERAMP 4557992.3 Agua 2011 JP2110514WATERRESIZE 4557985.3 Agua 2011 JP1WATER110514 4557983.3 Agua 2011 JP1110514WATERRESIZED 4557978.3 Agua 2011 JP5SED110513AMP 4557997.3 Sedimento 2011 JP4110513SEDIMENT 4557991.3 Sedimento 2011 JP2110513SEDIMENT 4557984.3 Sedimento 2011 Cada metagenoma analizado mediante el servidor MG-RAST, pasa un control de calidad. Existen tres tipos de formatos de secuencias aceptados por el servidor: FASTA, FASTQ y SFF. El control de calidad aplicado sobre las secuencias incluye 9 pasos (F. Meyer et al., 2008; Wilke et al., 2014), a continuación se describe cada uno a detalle. 1. Preprocesamiento: inicialmente se pueden filtrar las secuencias de DNA de acuerdo a su longitud, número de bases ambiguas o valores de calidad (disponibles en los formatos FASTQ y SFF). 2. Desreplicación: como resultado de las plataformas de secuenciación de segunda generación, existen secuencias de DNA que son idénticas entre sí debido a procesos de amplificación (se consideran idénticas cuando sus primeras 50 pb son iguales), por lo que se tienen que eliminar (Gomez-Alvarez, Teal, & Schmidt, 2009). 3. Screening: a partir de las secuencias de DNA del paso anterior (2), en esta etapa se eliminan todas las secuencias que coinciden con secuencias de organismos modelo, por ejemplo: mosca, ratón, humano, etc. (Langmead, Trapnell, Pop, & Salzberg, 2009). 4. Predicción de genes: una vez eliminadas las secuencias de DNA de organimos modelo (3), con las secuencias restantes, se predicen regiones codificantes con el algoritmo FragGeneScan (Rho, Tang, & Ye, 2010), éste permite la identificación de marcos abiertos de lectura (ORF) dentro de las secuencias. Para reportar genes, éstos deben de cumplir tres condiciones: la longitud del gen mayor a 60 pb, los genes presentan un codón de inicio y un codón de término. Aunque también se pueden predecir genes fragmentados (sin codón de inicio o codón de término). 5. Anotación de RNAs: una vez identificados los genes codificantes (4), se predicen los RNAs principalmente rRNA y se agrupan usando un mínimo un 70% de identidad con secuencias ribosomales en las bases de datos Greengenes, Large Subunit (LSU), Small subunit (SSU) y Ribosomal Database Project (RDP). En este caso se utiliza la herramienta 18 QIIME-UCLUST (Edgar, 2010). 6. Agrupamiento fino del rRNA al 97% de identidad: considerando las secuencias anteriores (5), se hace un nuevo agrupamiento con el programa cd-hit (Li & Godzik, 2006) con las secuencias de RNA con un 97% de identidad. 7. Alineamiento de los rRNA con la base de datos M5RNA (Wilke et al., 2012): utilizando los dos agrupamientos anteriores (70% y 97% de identidad), la herramienta BLAT (Kent, 2002) realiza alineamientos de las secuencias de DNA contra secuencias en las bases de datos ribosomales (Greengenes, LSU, SSU y RDP). BLAT puede realizar dos clases de alineamientos, aquellos que tienen arriba del 95% de identidad o los que tienen como mínimo un 80% de identidad, en ambos casos se pueden tener insertos largos. 8. Clustering de proteínas al 90% de identidad: las secuencias de genes codificantes identificadas en el paso (4) se agrupan usando 90% de identidad. En este paso se predice la secuencia de aminoácidos en formato FASTA. 9. Anotación deproteínas: se utilizan las secuencias de aminoácidos que se obtuvieron en el paso anterior (8). Se utiliza la base de datos M5NR para la identificación de las proteínas. Anotación funcional por clasificación jerárquica en MG-RAST En el servidor MG-RAST, se seleccionó la opción de análisis en la que se presentan tres secciones para elegir diversos parámetros (Figura 1). Se seleccionaron los 22 metagenomas (Tabla 1), se eligió el análisis de clasificación jerárquica con la fuente de anotación por subsistemas (Aziz et al., 2008; Overbeek et al., 2005), el valor e mínimo de 1e-5, el porcentaje mínimo de identidad del 60% y la longitud mínima de alineamiento de 15 pb. Además, se generó una tabla con formato .tsv (valores separados por tabuladores). Posteriormente, se generó un reporte QIIME (Caporaso et al., 2010) y éste nos permite descargar un archivo con formato .biom que contiene las abundancias y anotaciones 19 taxonómicas y funcionales. Figura 1. Opciones de análisis en MG-RAST. Se muestran las opciones de análisis funcional y taxonómico posibles, además de las herramientas de visualización y descarga de los datos para el procesamiento a posteriori. Procesamiento de las tablas de abundancias funcionales por nivel jerárquico De los archivos de anotación en formato .tsv y mediante el uso de los comandos de Linux cut, sort, uniq y sed se seleccionaron las columnas de las cuatro jerarquías con sus respectivos subsistemas, identificadores y abundancias funcionales. Posteriormente, en R (R Core Team, 2015) con la biblioteca reshape2 (Wickham, 2014), se realizó la transformación de dicha tabla a una tabla de abundancias funcionales. Por motivos de facilitar la visualización en los mapas de calor funcionales (del nivel 3) se eligieron los doscientos subsistemas más abundantes para obtener un panorama general de las funciones más representativas en las comunidades. Los comandos utilizados están disponibles en el Anexo I (http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61). 20 http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61 En resumen se construyeron 4 tipos de tablas: 1. Tabla de abundancias funcionales completa: contiene el número de subsistemas, nombre del subsistema y los identificadores de los metagenomas. 2. Tabla de abundancias funcionales (sin nombres de subsistemas): presenta el número de subsistema y los identificadores de los metagenomas. 3. Tabla de frecuencias relativas de funciones: presenta el número de subsistema, identificadores de los metagenomas y sus abundancias funcionales en frecuencias relativas (abundancia de cada metagenoma por función, dividida entre el total de abundancias funcionales por cada columna, es decir, por cada metagenoma). 4. Tabla índice: tiene el número de subsistemas y el nombre de éstos. De la misma forma se generaron dichas tablas para los análisis taxonómicos exploratorios. Análisis de ordenamiento: Mapas de calor y análisis de correspondencia. Los mapas de calor se generaron a partir de las tablas de abundancias funcionales, se calcularon las frecuencias relativas en LibreOffice Calc. Los mapas de calor fueron hechos por medio de las bibliotecas RColorBrewer (Neuwirth, 2014) y gplots (Warnes et al., 2015) en R. Los análisis de correspondencia (CA) fueron hechos mediante las bibliotecas phyloseq (McMurdie & Holmes, 2013) y ggplot2 (Warnes et al., 2015) en R. Los comandos para cada uno de los análisis de ordenamiento, funcional y taxonómico, se encuentran en el Anexo I (http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61). Diferencias significativas en las abundancias de los metagenomas. 21 http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61 Metastats (Paulson, et al., 2013) es un software que permite determinar diferencias significativas entre dos o más grupos de diversas muestras. Dentro de los parámetros a elegir para calcular las diferencias significativas, se encuentran los valores p y los valores q. Los valores p miden que tan probable es obtener un punto de los datos si no existiera una diferencia real (falsos positivos). Mientras que los valores q, establecen cuántos valores significativos en realidad fueron falsos positivos, es decir, cuantos fueron falsos descubrimientos (por medio de los valores de p ajustados). En este caso, los datos diferenciales entre los grupos se obtuvieron a partir de los valores p. Se compararon agua- sedimento y cada sistema en dos años (agua-agua; sedimento-sedimento). Las comparaciones pueden ser consultadas en la Tabla 2 y Figura 2. Los resultados derivados de metastats son archivos que contienen el reporte de: número de subsistema (o familia, si se trata de taxonomía), media del grupo 1 (dada en proporciones), varianza del grupo 1, error estándar del grupo 1, media del grupo 2, varianza del grupo 2, error estándar del grupo 2, valores p y q (Figura 3). Tabla 2. Detalle de los análisis estadísticos realizados. Se describen las características de cada tabla para el análisis estadístico en Metastats (archivo de entrada, año, muestra y total de población), así como los parámetros que se solicitaron en el programa (sujetos primera población, valores de significancia, nivel de significancia, número de permutaciones y tipo de archivo de salida). Los archivos de entrada que presentan _b corresponden a las tablas de abundancia taxonómica del dominio bacteria. 22 Archivo Año Muestra Total Sujetos Valores de Nivel Número Tipo de de de primera de de de archivo de entrada población población significancia significancia permutaciones salida agua 2011 y 2012 Agua 14 7 p 0.001 1000 tmp as11 2011 Agua y sedimento 11 7 p 0.001 1000 tmp as12 2012 Agua y sedimento 11 7 p 0.001 1000 tmp as 2011 y 2012 Agua y sedimento 22 14 p 0.001 1000 tmp sedimento 2011 y 2012 Sedimento 8 4 p 0.001 1000 tmp agua_b 2011 y 2012 Agua 14 7 p 0.001 1000 tmp as11_b 2011 Agua y sedimento 11 7 p 0.001 1000 tmp as12_b 2012 Agua y sedimento 11 7 p 0.001 1000 tmp as_b 2011 y 2012 Agua y sedimento 22 14 p 0.001 1000 tmp sed_b 2011 y 2012 Sedimento 8 4 p 0.001 1000 tmp Figura 2. Ejemplo de tabla de abundancia agua. Se muestra la tabla de abundancia funcional de las muestras de agua, F se refiere a funciones y MG a metagenomas. En color verde están los números de las funciones, en color naranja se encuentran los metagenomas y las abundancias funcionales de las muestras de agua pertenecientes al año 2011 y en color morado estan los metagenomas y las abundancias funcionales de las muestras de agua del año 2012. El archivo está delimitado por tabuladores. 23 Figura 3. Salida del análisis de diferencias significativas. Cada renglón corresponde a una función y se muestra su identificador númerico. En esta tabla solamente aparecen los números de las funciones diferenciales significativas por grupo (p=0.001), así como sus valores distribución central como media, varianza, error estándar y los valores de p y q. 24 Resultados Estadísticas de anotación funcional de los metagenomas analizados. Los 22 metagenomas analizados de Cuatro Ciénegas, cuentan con un total de 4,241,330 secuencias de DNA (Tabla 3), de las cuales 4,201,995 secuencias (99.1%) pasaron hasta el cuarto filtro (screening) de control de calidad del servidor MG-RAST. En promedio, cada metagenoma cuenta con 191,000 secuencias (con una desviación estándar de ±147,808 secuencias) donde los metagenomas 4557979.3, 4557982.3, 4557991.3 y 4557994.3 tienen el menor número de secuencias (por debajo de 43,192 secuencias), es decir, son metagenomas con una cobertura menor que los demás. Por otra parte, los metagenomas 4557996.3, 4557997.3 y 4557109.3 tienen la mayor cantidad de secuencias (mas de 338,807 secuencias). Del total de secuencias que pasaron el filtrado, el 3.9% son rRNA, el 90.3% tienenregiones codificantes (para proteínas con función conocida y desconocida) y para el 5.7% de las secuencias no se encontraron homólogos en las bases de datos. En el suplemento Asignación_MGRAST (http:// figshare.com/s /7b8f7ad4710211e5969906ec4b8d1f61) se muestra la asignación de 108,557 funciones en los 22 metagenomas. Fue posible anotar funcionalmente un total de 9,979 funciones, agrupados en 1,105 subsistemas (nivel 3); 198 subsistemas (nivel 2) y 28 categorías en el nivel 1 (suplemento Niveles_Generales; http://figshare.com/s/78f0376270ff11e5a36a06ec4b8d1f61). Para la anotación, el promedio del e-value es de 1e-23 por alineamiento, con una identidad promedio de 76%, una longitud de alineamiento promedio de 68 pb y 11 aciertos por gen en promedio. De las funciones del nivel 1, las muestras 4557979.3, 4557982.3, 4557991.3 y 4557994.3 se encuentran por debajo del límite inferior del número de secuencias con anotación funcional (menos de 24,082). También se aprecia que las muestras 4557980.3 y 4557981.3 25 http://figshare.com/s/78f0376270ff11e5a36a06ec4b8d1f61 http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61 http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61 http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61 están cerca del límite inferior del número de secuencias anotadas funcionalmente (Figura 4). Tabla 3. Características generales de las secuencias de cada metagenoma. Se describen los datos particulares de las secuencias de cada metagenoma: total de secuencias que se ingresaron a MG-RAST (No. de secuencias), secuencias que pasaron los primeros cuatro filtros del control de calidad (secuencias que pasaron screening), secuencias asignadas a rRNA (secuencias de rRNA), secuencias que codifican para proteínas con función conocida y desconocida (secuencias con regiones codificantes) y las secuencias sin homólogos en las bases de datos (secuencias sin asignación). 26 Metagenoma 466,666 464,273 20,697 436,644 6,932 184,972 183,292 3,745 175,269 4,278 223,054 219,662 1,002 212,536 6,124 107,395 106,380 3,924 97,445 5,011 214,354 211,934 11,748 189,588 10,598 33,949 29,676 763 25,226 3,687 197,561 196,500 6,530 186,496 3,474 336,549 334,901 14,143 316,503 4,255 4,511 4,456 185 3,686 585 204,050 202,225 4,711 186,971 10,543 110,811 109,831 3,319 100,594 5,918 151,533 149,948 7,565 134,457 7,926 441,477 437,577 6,120 375,331 56,126 561,317 555,571 28,244 469,407 57,920 223,838 222,551 6,990 210,333 5,228 68,088 65,060 4,101 51,194 765 224,863 223,973 4,890 212,066 7,017 6,154 6,115 321 5,520 274 153,210 152,774 14,687 121,464 16,623 189,790 188,961 18,595 155,527 20,579 4,202 4,174 208 3,553 413 132,986 132,161 1,893 125,360 4,908 Total 4,241,330 4,201,995 164,381 3,795,170 239,184 No. secuencias Secuencias que pasaron screening Secuencias de rRNA Secuencias con regiones codificantes Secuencias sin asignación 4557109.3 4557998.3 4557997.3 4557996.3 4557995.3 4557994.3 4557993.3 4557992.3 4557991.3 4557990.3 4557989.3 4557988.3 4557987.3 4557986.3 4557985.3 4557984.3 4557983.3 4557982.3 4557981.3 4557980.3 4557979.3 4557978.3 Figura 4. Secuencias anotadas funcionalmente en los metagenomas. En el gráfico se identifican aquellos metagenomas con el menor número de secuencias con anotación funcional (por debajo del límite inferior). Se presenta el límite superior de 164,628 secuencias con anotación funcional (color amarillo), el límite inferior de 24,082 secuencias con anotación funcional (color verde), el promedio de las sencuencias anotadas funcionalmente es de 94,355 (color rojo) y el total de secuencias con anotación funcional por cada metagenoma (color azul). La desviación estándar es de ±70,273 secuencias anotadas funcionalmente. Análisis funcional de los metagenomas. En los mapas de calor jerárquicos (Figura 5), cada columna corresponde a los identificadores de cada metagenoma y cada renglón es un subsistema. Las muestras están divididas por tipo de sitio (sedimento o agua), también se indica el año que corresponde a la toma de la muestra (2011 o 2012). La escala de colores que aparece corresponde a los valores de frecuencia relativa (FR), el gradiente va de menor a mayor, es decir, al menor valor de FR se le asigna el primer color de la izquierda de la escala, mientras que al valor 27 más alto de FR le corresponde el último color de la derecha de la escala. En la parte superior de las columnas, se encuentra un dendrograma que nos indica el agrupamiento entre las muestras, así como la similitud o diferencias entre las mismas. En todos los mapas de calor, los dendrogramas señalan que existen agrupamientos entre si de las muestras de agua y entre las muestras de sedimento, algunos de éstos coinciden con el año en que se recolectó la muestra y en otros no. En el mapa de calor jerárquico del nivel 1 (Figura 5), se muestran un total de 28 categorías funcionales. Las categorías con la mayor frecuencia relativa son: agrupamiento basado en subsistemas (id=5; 0.13 – 0.15), esta categoría contiene múltiples funciones biológicas, se puede basar en el agrupamiento de familias de proteínas por identidad de secuencia o también por procesos generales que no han sido reubicados a otros subsistemas, las funciones pueden ser tan variadas en esta categoría que se pueden incluir desde proteínas totalmente hipotéticas conservadas, hasta genes de metabolismo central, esta categoría tiene que revisarse en cada caso particular de anotación (http://www.nmpdr.org/FIG/subsys.cgi); carbohidratos (id=2; 0.09 – 0.14), involucra funciones que tienen que ver en el metabolismo central de carbohidratos, fijación de CO2, fermentación, ácidos orgánicos; y aminoácidos y derivados (id=1; 0.07 – 0.14), agrupa proteínas que participan en la biosíntesis o degradación de cada aminoácido y sus derivados. Las categorías dormancía y esporulación (id=8), fotosíntesis (id=19), metabolismo de potasio (id=20) y metabolismo secundario (id=25) tienen una muy baja representación en todas las muestras, el valor máximo de FR (Frecuencia Relativa) que alcanzan es de 0.006. El bloque de categorías que comprende desde metabolismo de DNA (id=7) hasta metabolismo de compuestos aromáticos (id=12) tienen frecuencias relativas por debajo de 0.06, sin embargo, la muestra de agua 4557990.3 (año 2012) tiene una frecuencia relativa igual a 0.09 en la categoría de fagos, pro-fagos, elementos transponibles, plásmidos (id=17). Las categorías funcionales misceláneas (id=13), metabolismo de proteínas (id=21) y cofactores, vitaminas, grupos prostéticos y pigmentos (id=6) tienen frecuencias relativas entre 0.04 y 0.09. Las funciones clasificadas como misceláneas incluyen funciones relacionas con bioluminiscencia, biomineralización de carbonatos, luciferasas y quorum 28 http://www.nmpdr.org/FIG/subsys.cgi sensing. La categoría de metabolismo de proteínas incluye funciones en biosíntesis, degradación, plegado, procesamiento, modificación y secreción de proteínas. En la categoría de cofactores, vitaminas, grupos prostéticos y pigmentos se tienen funciones asociadas a biotina, coenzimas (A, B, F420, M), clusters de Fe-S, pterinas y folato, ácido lipoico, cofactores de quinona, riboflavinas, tetrapirroles, tiamina y pirofosfatos de tiamina, entre otras. En el dendrograma (Figura 5), se aprecia que la muestra de sedimento 4557991.3 (año 2011) tiene una mayor distancia del resto de las muestras. De la misma forma se observa la muestra de agua 4557990.3 (año 2012) y mientras el resto de las muestras analizadas se agrupan de forma más cercana que las tres muestras del grupo externo (4557991.3, 4557990.3 y 4557982.3). Enseguida, vemos que la muestra de sedimento 4557979.3 es similar a las muestras de agua 4557980.3y 4557981.3 (todas pertenecen al año 2012). Después vemos la agrupación de todas las muestras de agua del año 2011, en donde las muestras 4557978.3 y 4557983.3 son diferentes al resto de las muestras (4557998.3, 4557992.3, 4557993.3, 4557109.3 y 4557985.3). A continuación, podemos apreciar que las muestras de sedimento restantes del año 2011 (4557997.3 y 4557984.3) se agrupan con muestras de sedimento del año 2012 en dos diferentes grupos, el primero abarca las muestras 4557997.3, 4557987.3 y 4557986.3 y el segundo incluye las muestras 4557984.3 y 4557994.3. Por último, se observa el grupo de las muestras de agua restantes, del año 2012 (4557995.3, 4557996.3, 4557988.3 y 4557989.3). 29 Figura 5. Mapa de calor de la primera jerarquía de SEED. Se muestran las frecuencias relativas del primer nivel de la jerarquía de anotación del SEED (28 categorías) de los metagenomas analizados. En la parte inferior del mapa se observan 3 categorías con frecuencia relativa arriba del promedio, en la parte media, se observan 23 categorías con frecuencia relativa menor que el promedio y en la parte superior se observan 2 categorías con frecuencia relativa promedio. 30 De los 1,105 subsistemas funcionales del tercer nivel, considerando solamente los 200 más abundantes (por fines de visualización) (Figura 6), se observa que la proteína YgfZ (id=1095) y ciclo serina-glioxilato (id=887) presentan frecuencias relativas por arriba del promedio en la mayoría las muestras (0.01 – 0.04). YgfZ se encuentra dentro de la categoría de cofactores, vitaminas, grupos prostéticos y pigmentos y engloba 52 diferentes proteínas relacionadas con los cofactores folato y pterinas, que tienen que ver con el metabolismo de compuestos de un carbono. Por otra parte, el ciclo serina-glioxilato está dentro de la categoría de carbohidratos y contiene 73 proteínas involucradas en el metabolismo de compuestos con un solo carbono. La muestra de sedimento 4557979.3 (año 2012) presenta frecuencias relativas altas en los subsistemas utilización de carbohidratos en Thermotogales (id=943), operón de síntesis macromolecular (id=588) y síntesis de novo de pirimidina (id=362), con una frecuencia relativa igual a 0.03 en todos los casos. La muestra de sedimento 4557991.3 (año 2011) también tiene una frecuencia relativa igual a 0.03 en el subsistema resistencia cobalto-zinc-cadmio (id=298). La muestra de agua 4557990.3 (año 2012) tiene una mayor representación en los subsistemas proteínas de cápside en fagos (id=701; FR = 0.04) y fagos de Streptococcus tipo r1t (id=819; FR = 0.06). También, la muestra de agua 4557980.3 (año 2012) tiene una alta frecuencia relativa (0.03) en el subsistema beta-lactamasas (id=122). De los subsistemas restantes, el máximo valor de frecuencia relativa que se observa es menor o igual a 0.02. 31 Figura 6. Mapa de calor de los 200 subsistemas más abundantes de la jerarquía de anotación del nivel 3 del SEED. Se muestran las frecuencias relativas de los 200 subsistemas más abundantes en el nivel 3. La mayor parte de los subsistemas presentan una frecuencia relativa abajo del promedio. En la parte inferior se observan los subsistemas que tienen frecuencias relativas por arriba del promedio. 32 En el nivel más profundo de la jerarquía de anotación funcional (nivel 4; función) algunas de las 200 funciones más abundantes son la cisteína desulfurasa, EC 2.8.1.7 (id=1448) presenta una frecuencia relativa arriba del promedio en la mayoría de las muestras (0.01 – 0.04). La acetil-CoA acetiltransferasa, EC 2.3.1.9 (id=369) y Enoil-CoA hidratasa, EC 4.2.1.17 (id=1885) tienen mayor frecuencia relativa (0.01 – 0.06) en la mayoría de las muestras excepto en las muestras de agua 4557980.3, 4557981.3, 4557990.3 (año 2012) y las muestras de sedimento 4557991.3, 4557982.3 (año 2011) y 4557979.3 (año 2012). Las fumarilacetoacetato hidrolasa (id=2349) y beta-galactosidasa, EC 3.2.1.23 (id=847) sólo se encuentran con alta frecuencia relativa (0.06) en las muestras de agua 4557980.3 y 4557981.3 (año 2012). La muestra de sedimento 4557979.3 (año 2012) tiene una alta frecuencia relativa (0.04 – 0.10) en la ligasa de ácidos grasos de larga cadena-CoA ligasa, EC 6.2.1.3 (id=3280), alanil-tRNA sintetasa, EC 6.1.1.7 (id=473), carbamoil-fosfato sintasa, EC 6.3.5.5 (id=993), proteína de cápside de fagos (id=4232) y la proteína de partición de cromosoma (plásmido) ParA (id=1151). Además, en la muestra de sedimento 4557991.3 (año 2011) tenemos mayor representación (0.02 – 0.07) en las proteínas ClpB (id=1170), acetil- coenzima A sintetasa, EC 6.2.1.1 (id=381), serina hidroximetiltransferasa, EC 2.1.2.1 (id=5549), subunidad B de DNA girasa, EC 5.99.1.3 (id=1739), arilsulfatasa, EC 3.1.6.1 (id=673), fosfato acetiltrasferasa, EC 2.3.1.8 (id=4315) y la proteína de cápside de fagos (id=4232). La muestra de agua 4557990.3 (año 2012) también tiene altas frecuencias relativas de proteínas de cápside en fagos (id=4232; FR = 0.09) y ensamble de fagos (id=4208; FR = 0.04). En el suplemento 200_abundantes (http://figshare.com/s/de70649e710011e59d3106ec4bbcf141) se pueden consultar las categorías correspondientes a las 200 funciones más abundantes. 33 http://figshare.com/s/de70649e710011e59d3106ec4bbcf141 Análisis de correspondencia de funciones en los metagenomas. En los análisis de correspondencia (CA) funcionales se presentan los llamados bi-plots donde se gráfica la distribución de las muestras basándonos en sus abundancias funcionales en el panel izquierdo y en el panel derecho la distribución de las funciones coloreada por la jerarquía funcional de nivel 1 (Figuras 7 y 8). Se puede identificar en el bi-plot de la distribución de las muestras por su tipo de ambiente (agua o sedimento) y por el año de la toma de la muestra (2011 o 2012). En todos los CA se observa la agrupación que separa las muestras de agua y las muestras de sedimento. Adicionalmente, en algunos casos las muestras también se asocian de acuerdo al año de muestreo. En el CA (Figura 7), se observa que la muestra de sedimento 4557979.3 y las muestras de agua 4557980.3 y 4557981.3 (todas del año 2012) se separan drásticamente de las 19 muestras restantes, mostrando un patrón de distribución diferente. Al cotejar el número total de secuencias presentes en esas muestras, se contabilizan menos secuencias que el promedio de todas las muestras (menos de 192,788 secuencias) y se decide eliminar estos metagenomas para observar la distribución dentro del agrupamiento de los 19 metagenomas restantes. Cuando se remueven las muestras atípicas (de valores bajos de cobertura) 4557979.3, 4557980.3 y 4557981.3 del CA (Figura 8) se puede discriminar a detalle la dispersión y agrupamiento de los demás puntos de muestreo. En este mismo CA, las muestras de agua se separan en dos grupos de acuerdo al año de muestreo, aunque la muestra 4557990.3 (año 2012) se aleja de ambos grupos; en el caso del sedimento no hay una agrupación entre las muestras dependiente del año, pero están más cercanas entre las muestras de sedimento que con las de agua. La muestra de sedimento 4557994.3 (año 2012), se agrupa con las muestras de sedimento 4557997.3, 4557984.3 y 4557991.3 (año 2011). 34 Figura 7. Análisis de correspondencia funcional. En el recuadro de lado izquierdo se muestra la distribución de los 22 metagenomas de acuerdo al tipo de muestra y año de muestreo. Se observa la separación entre sí de las muestras de agua y sedimento. En el recuadro de lado derecho, los puntos de colores representan la distribución de las funciones, coloreadas de acuerdo al primer nivel de la jerarquía de anotación a laque pertenecen. 35 Figura 8. Análisis de correspondencia funcional sin tres muestras atípicas. En el recuadro de lado izquierdo se muestra la distribución de 19 metagenomas (sin las muestras 4557979.3, 4557980.3 y 4557981.3) de acuerdo al tipo de muestra y año de muestreo. Se observa la separación entre sí de las muestras de agua (lado izquierdo) y sedimento (lado derecho). En el recuadro de lado derecho, los puntos de colores representan la distribución de las funciones, coloreadas de acuerdo a la primer nivel de la jerarquía de anotación a la que pertenecen. 36 Análisis de la diversidad taxonómica en los metagenomas analizados. La familia de bacterias presente en todas las muestras y con mayor frecuencia relativa es Rhodobacteraceae (0.01 – 0.30). Otras familias con mayor frecuencia relativa (0.04 – 0.45) presentes en algunas muestras son: Desulfovibrionaceae, Enterobacteriaceae, Streptococcaceae, Cytophagaceae, Flavobacteriaceae, Bradyrhizobiaceae y Staphylococcaceae (Tabla 4). Del total de metagenomas, solamente 15 presentan al menos una familia con mayor frecuencia relativa; el número máximo de familias es de 3 (Desulfovibrionaceae, Enterobacteriaceae, Streptococcaceae) y se encuentran en el metagenoma 4557979.3 (Tabla 5). El análisis de correspondencia (CA) de la taxonomía de los metagenomas se presenta como un bi-plot en la Figura 9, de lado izquierdo se encuentra la distribución de las muestras, del lado derecho cada uno de los OTUs identificados, coloreado por su pertenencia al nivel de phylum. Cada muestra a su vez se identifica por el tipo de sitio (agua o sedimento) y por el año de muestreo (2011 o 2012). En panel izquierdo (Figura 9), observamos que las muestras se agrupan de forma independientemente del sitio y año de muestreo. Las muestras de sedimento 4557979.3, 4557994.3 y 4557984.3 están agrupadas con las muestras de agua 4557978.3, 4557985.3, 4557992.3 y 4557109.3 (años 2011 y 2012). Por otra parte la muestra de sedimento 4557982.3 (año 2011) se asocia con las muestras de agua 4557980.3, 4557988.3 y 4557989.3 (año 2012). Las muestras que se alejan del agrupamiento mayoritario en la esquina superior derecha son 4557996.3 (agua, año 2012) y 4557997.3 (sedimento, año 2011), así como las muestras 4557990.3 (agua, año 2012) y 4557991.3 (sedimento, año 2012) en la parte inferior central. Las muestras de agua 4557983.3, 4557993.3 y 4557981.3 forman un grupo (asignado cualitativamente), mientras que las muestras 4557987.3, 4557986.3 (sedimento), 4557995.3 y 4557998.3 (agua) no se observan como parte de los demás agrupamientos, aunque cabe mencionar que las muestras de agua son más cercanas entre si. Cabe señalar que algunas muestras de sedimento y agua están sobrepuestas en los CA, como son los casos de las muestras 4557984.3, 4557994.3, 4557982.3 (sedimento), 37 4557985.3, 4557109.3 y 4557980.3 (agua). Tabla 4. Familias con mayor frecuencia relativa. Se resumen las familias con mayor frecuencia relativa en el análisis taxonómico general (primeros 8 renglones) y en el análisis taxonómico de bacterias (últimos 7 renglones). En ambos casos se describen las muestras en las que están presentes dichas familias y el intervalo de frecuencia relativa (arriba del promedio). 38 Clave Dominio Familia Muestras Frecuencia Relativa 65 Bacteria Cytophagaceae 0.05 – 0.11 13 Bacteria Flavobacteriaceae 0.03 – 0.12 10 Bacteria Streptococcaceae 0.04 – 0.19 72 Bacteria Desulfovibrionaceae 0.16 – 0.39 53 Bacteria Enterobacteriaceae 0.06 – 0.19 36 Bacteria Alcaligenaceae 0.12 43 Bacteria Bradyrhizobiaceae 0.06 – 0.11 9 Bacteria Comamonadaceae 0.04 – 0.07 204 Bacteria Desulfovibrionaceae 0.19 – 0.45 239 Bacteria Enterobacteriaceae 0.14 – 0.32 117 Bacteria Streptococcaceae 0.13 - 0.24 57 Bacteria Cytophagaceae 0.11 – 0.12 60 Bacteria Flavobacteriaceae 0.09 – 0.14 157 Bacteria Bradyrhizobiaceae 0.13 – 0.13 109 Bacteria Staphylococcaceae 0.17 4557983.3, 4557978.3, 4557998.3, 4557993.3, 4557992.3, 4557985.3, 4557109.3 4557997.3, 4557995.3, 4557988.3, 4557989.3, 4557983.3, 4557978.3, 4557998.3, 4557993.3, 4557992.3, 4557985.3, 4557109.3 4557979.3, 4557982.3, 4557990.3, 4557991.3, 4557986.3, 4557987.3 4557979.3 y 4557982.3 4557979.3, 4557982.3, 4557981.3, 4557980.3, 4557990.3 4557979.3 4557997.3, 4557995.3, 4557988.3, 4557989.3 4557981.3, 4557980.3, 4557997.3, 4557995.3, 4557988.3, 4557989.3 4557979.3 y 4557982.3 4557979.3, 4557982.3, 4557980.3, 4557981.3 4557979.3, 4557990.3, 4557991.3, 4557987.3, 4557986.3 4557993.3, 4557992.3, 4557109.3, 4557985.3 4557998.3, 4557993.3, 4557992.3, 4557109.3, 4557985.3 4557995.3 y 4557997.3 4557990.3 Tabla 5. Familias de bacterias con frecuencia relativa mayor al promedio en los metagenomas analizados. Se marcaron (x) los metagenomas que tienen alguna de las 7 familias con frecuencia relativa mayor al promedio. También se muestra el total de familias por cada metagenoma. 39 Figura 9. Análisis de correspondencia de la diversidad taxonómica. En el recuadro de lado izquierdo se muestra la distribución de los 22 metagenomas, los agrupamientos existentes son independientes al tipo de muestra y año de muestreo. En el recuadro de lado derecho, los puntos de colores muestran la distribución de las familias dependiendo al phyla al que corresponden. 40 Funciones y familias diferenciales significativamente, entre las muestras de agua y sedimento en los dos años. Se calcularon un total de 1,503 funciones cuyas abundancias son diferentes significativamente (p=0.001) en las siguientes comparaciones: entre las muestras de agua de los años 2011-2012 (comparación=agua); agua del año 2011 y el sedimento del 2011 (comparación=as11); agua del año 2012 contra el sedimento del año 2012 (comparación=as12); agua y sedimento del año 2011 vs agua y sedimento del 2012 (comparación=as); y finalmente sedimento de ambos años 2011-2012 (comparación=sed). Las mismas comparaciones por grupos se hicieron para las diferencias taxonómicas y existen un total de 97 familias diferenciales entre todas las comparaciones. La información de las diferencias significativas funcionales puede consultarse en la tabla suplementaria Comparaciones_funcionales en la siguiente dirección: http://figshare.com/s/1c9acb16710011e5878206ec4b8d1f61 Un resultado central de este trabajo, es que tanto a nivel funcional y taxonómico, no existen diferencias significativas en el tiempo para las muestras de sedimento años 2011 y 2012. Sólo en taxonomía (familias), no existieron diferencias significativas en la comparación de las muestras de agua y sedimento del año 2012. En la Tabla 6, se muestra un resumen de la cantidad de funciones y familias diferenciales entre las comparaciones. 41 http://figshare.com/s/1c9acb16710011e5878206ec4b8d1f61 Tabla 6. Resumen resultados de funciones y familias diferencialmente abundantes en las muestras. En la primera columna, los primeros 5 archivos corresponden al análisis funcional y los últimos cinco archivos son parte del análisis taxonómico a nivel de familia del dominio Bacteria (_b). Se define el grupo 1 y grupo 2 en cada uno de los archivos, el análisis detectó las características diferencialmente abundantes que se encontraron en el grupo 2. Se muestra el rango del valor p en cada una de las características, descartando las familias Pseudomonadaceae (250) y Bdellovibrionaceae (196) que obtuvieron un valor p igual a cero. En las últimas dos columnas se muestran las funciones y familias diferencialmente abundantes en cada uno de los archivos (total). 42 Archivo Grupo 1 Grupo 2 valor p Funciones Taxonomía de diferencialmente (Familia) entrada min max abundantes Dif. Abundantes agua Agua 2011 Agua 2012 1.67E-07 1.00E-03 695 as11 Agua
Compartir