Logo Studenta

Comparacion-funcional-entre-agua-y-sedimentos-mediante-metagenomica-pistas-funcionales-para-la-sostenibilidad-de-cuatro-Cienegas

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE
MÉXICO
FACULTAD DE QUÍMICA
Comparación funcional entre agua y sedimentos
mediante metagenómica, pistas funcionales para la
sostenibilidad de Cuatro Ciénegas.
Tesis
QUE PARA OBTENER EL TÍTULO DE
Química Farmacéutica Bióloga
PRESENTA:
Selene Molina Cruz
 MÉXICO, D.F. AÑO 2015
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
JURADO ASIGNADO:
PRESIDENTE: Profesor: Luciano Hernández Gómez
VOCAL: Profesor: Samuel Canizalez Quinteros
SECRETARIO: Profesor: Luis David Alcaraz Peraza
1er. SUPLENTE: Profesor: Beatriz Ruiz Villafan
2° SUPLENTE: Profesor: Javier Fernández Torres
SITIO DONDE SE DESARROLLÓ EL TEMA: 
Laboratorio Nacional de Ciencias de la Sostenibilidad del Instituto de Ecología, Universidad 
Nacional Autónoma de México. 
ASESOR DEL TEMA: 
Dr. Luis David Alcaraz Peraza
SUSTENTANTE : 
Selene Molina Cruz
Índice general
Resumen.....................................................................................................................................1
Introducción.................................................................................................................................2
Sustentabilidad y metagenómica............................................................................................2
Secuenciación de próxima generación...................................................................................4
Bioinformática: herramientas para un análisis comparativo de metagenomas......................5
Antedecentes............................................................................................................................11
Justificación...............................................................................................................................16
Objetivos...................................................................................................................................16
Hipótesis....................................................................................................................................16
Metodología...............................................................................................................................17
Conjunto de datos utilizados.................................................................................................17
Anotación funcional por clasificación jerárquica en MG-RAST............................................19
Procesamiento de las tablas de abundancias funcionales por nivel jerárquico...................20
Análisis de ordenamiento: Mapas de calor y análisis de correspondencia..........................21
Diferencias significativas en las abundancias de los metagenomas...................................21
Resultados................................................................................................................................25
Estadísticas de anotación funcional de los metagenomas analizados................................25
Análisis funcional de los metagenomas...............................................................................27
Análisis de correspondencia de funciones en los metagenomas........................................34
Análisis de la diversidad taxonómica en los metagenomas analizados..............................37
Funciones y familias diferenciales significativamente, entre las muestras de agua y 
sedimento en los dos años...................................................................................................41
Discusión...................................................................................................................................51
Conclusiones.............................................................................................................................61
Perspectivas..............................................................................................................................62
Bibliografía................................................................................................................................63
Índice de Tablas
Tabla 1. Información de los 22 metagenomas analizados........................................................18
Tabla 2. Detalle de los análisis estadísticos realizados............................................................22
Tabla 3. Características generales de las secuencias de cada metagenoma.........................26
Tabla 4. Familias con mayor frecuencia relativa.......................................................................38
Tabla 5. Familias de bacterias con frecuencia relativa mayor al promedio en los 
metagenomas analizados.........................................................................................................39
Tabla 6. Resumen resultados de funciones y familias diferencialmente abundantes en las 
muestras....................................................................................................................................42
Índice de Figuras
Figura 1. Opciones de análisis en MG-RAST...........................................................................20
Figura 2. Ejemplo de tabla de abundancia agua......................................................................23
Figura 3. Salida del análisis de diferencias significativas.........................................................24
Figura 4. Secuencias anotadas funcionalmente en los metagenomas....................................27
Figura 5. Mapa de calor de la primera jerarquía de SEED.......................................................30
Figura 6. Mapa de calor de los 200 subsistemas más abundantes de la jerarquía de 
anotación del nivel 3 del SEED.................................................................................................32
Figura 7. Análisis de correspondencia funcional......................................................................35
Figura 8. Análisis de correspondencia funcional sin tres muestras atípicas............................36
Figura 9. Análisis de correspondencia de la diversidad taxonómica........................................40
Figura 10. Diferencias significativas en la taxonomía de las muestras de agua y sedimento de
ambos años...............................................................................................................................44
Figura 11. Diferencias significativas a nivel funcional de las muestras de agua en los dos 
años del estudio........................................................................................................................45
Figura 12. Diferencias significativas funcionales entre de las muestras de agua y sedimento 
del 2011.....................................................................................................................................47
Figura 13. Diferencias significativas funcionales entre las muestras de agua y sedimento del 
año 2012...................................................................................................................................48
Figura 14. Diferencias significativas funcinales en muestras de agua y sedimento de ambos 
años...........................................................................................................................................50Resumen
Cuatro Ciénegas (CC) es un ecosistema único en el Desierto de Chihuahua en el estado
de Coahuila, CC contiene diversos cuerpos de agua dominado por tapetes microbianos y
estromatolitos que han evolucionado aislados y bajo restricciones de nutrientes. Este
ecosistema oligotrófico se encuentra limitado por nutrientes como fósforo y nitrógeno. A pesar
de las condiciones extremas en CC, los tapetes microbianos presentan un alto nivel de
diversidad y endemismo.
El presente trabajo, describe a nivel funcional, a las comunidades bacterianas en
sedimentos y agua del sistema hidrológico Churince, a través de la comparación de 22
metagenomas en dos años consecutivos. Inicialmente, se realizó la anotación funcional de
los genes en los metagenomas y posteriormente se realizaron análisis multivariados para
observar la variación espacio-temporal de las funciones.
Se encontró que los sedimentos presentan resiliencia funcional a través del tiempo, siendo
fundamentales para la sostenibilidad de CC. Además, se encontró que los sistemas de agua
son los que presentan mayor fragilidad ante las perturbaciones en el medio. Con este trabajo,
se amplió la información sobre las estrategias que ocupan las comunidades bacterianas para
sobrevivir ante las condiciones extremas en CC (deficiencias nutrimentales, salinidad, pH alto
y radiación solar). 
Finalmente, este trabajo demuestra la utilidad de la metagenómica para el monitoreo
ambiental, ya que se encontraron genes que pueden ser utilizados como marcadores de
estabilidad ambiental. Las funciones descritas en este trabajo también tienen implicaciones
en estrategias de mitigación de daño ambiental y biorremediación de CC gracias a la
resiliencia espacio-temporal que muestran. 
1
Introducción
Sustentabilidad y metagenómica
Los microorganismos son esenciales para la vida ya que son la fuente primaria de
nutrientes, además de ser los recicladores primarios de materia inerte haciéndola disponible
como materia orgánica (Wooley, Godzik, & Friedberg, 2010). Los microorganismos que
realizan sus funciones metabólicas básicas de manera independiente son considerados
como bacterias de vida libre (Alberts et al., 2002). 
Las bacterias de vida libre se pueden encontrar en tapetes microbianos, una matriz
orgánica que contiene diversas concentraciones de minerales (silicatos y carbonatos) y
diferentes grupos de microorganismos estratificados verticalmente. Los tapetes microbianos
son comunidades bénticas (que se encuentran en el nivel menos profundo en sistemas
marinos o de agua dulce) que crecen en un sustrato sólido y la mayoría son considerados
como autotróficos. Debido a la estratificación vertical, los diversos grupos de
microorganismos originan gradientes fisicoquímicos que permiten identificar diversas
funciones específicas en ellos (Bolhuis, Cretoiu, & Stal, 2014). La estratificación vertical en
las comunidades bacterianas no sólo se observa en el sedimento, también se presenta en el
agua de diversos ambientes marinos como en el mar Báltico (Thureborn et al., 2013).
La estabilidad de cualquier comunidad depende del ambiente en el que existe, así como
las densidades y las características de las especies que la forman. Una manera de medir la
estabilidad en un ecosistema (comunidad con su ambiente físico) es a través de su
resiliencia, es decir, la velocidad con la que una comunidad regresa a su estado de equilibrio
después de que sufrió perturbación y desplazamiento de dicho estado (Begon Michael,
Townsend Colin, 2006). Existen tres aspectos de la resiliencia que deben tomarse en cuenta,
lo máximo que puede cambiar un sistema antes de perder su habilidad de recuperación
2
(latitud), la facilidad o dificultad con la que se puede cambiar el sistema (resistencia) y que
tan cercano se encuentra el sistema de su límite (precariedad) (Walker, Holling, Carpenter, &
Kinzig, 2004). 
Las condiciones en un ecosistema (temperatura, humedad, salinidad, compuestos tóxicos)
nunca son constantes y el cambio en las condiciones pueden causar pérdidas ecológicas y/o
recursos económicos (Scheffer, Carpenter, Foley, Folke, & Walker, 2001). En general, se
tienen tres estrategias para mantener la resiliencia en un sistema: mitigar variaciones no
deseadas para disminuir el tiempo en el que el sistema regresa al equilibrio deseado, manejo
de procesos a multiples escalas y tener fuentes de renovación (Gunderson, 2000). Las
perturbaciones son componentes naturales de los ecosistemas que promueven la diversidad
y renovación de procesos, la manera para mantener la estabilidad en un ecosistema es a
partir de construir y mantener su resiliencia en lugar de controlar las fluctuaciones o
perturbaciones (Scheffer et al., 2001). 
En los diversos ecosistemas, la mayoría de las bacterias no son cultivables, por esta razón
los métodos de estudio independientes de cultivo son esenciales para entender la diversidad
genética, estructura poblacional y roles ecológicos de la mayoría de los microorganismos
(Riesenfeld, Schloss, & Handelsman, 2004).
La metagenómica es la disciplina que permite el estudio genómico de microorganismos de
una manera independiente de técnicas de cultivo. Esto significa que, estudia a los
microorganismos que se encuentran en un ambiente determinado, mediante el DNA de la
comunidad, su metagenoma (Wooley et al., 2010). Para estudiar a los microorganismos
ambientales se obtiene su DNA, y posteriormente se emplean técnicas de secuenciación
masiva donde el DNA se fragmenta por medio de la técnica conocida como WGS (whole
genome shotgun) para obtener las secuencias genómicas que reflejen la estructura de las
comunidades microbianas, de esta manera se tiene conocimiento de su presencia y
abundancia en el ambiente seleccionado (Xia, Cram, Chen, Fuhrman, & Sun, 2011). La
abundancia de un microorganismo en una muestra, se calcula a partir de la frecuencia en las
secuencias de DNA (Morgan, Darling, & Eisen, 2010). Así mismo, a partir de los
3
metagenomas, se puede observar la abundancia de genes que reflejan las funciones
presentes en diversos ambientes (Lever, 2013; Martín-Cuadrado et al., 2007). 
La metagenómica utiliza herramientas bioinformáticas para responder preguntas como
¿Qué especies habitan en un ambiente determinado? ¿Qué funciones realizan los
microorganimos que ahí se encuentran? ¿Cómo las llevan a cabo?. El análisis funcional a
través de la metagenómica tiene dos objetivos generales: el primero consiste en obtener un
panorama general de las funciones y procesos metabólicos de los diferentes miembros de la
comunidad bacteriana y el segundo, es identificar si existen variaciones en la composición
funcional de las diferentes comunidades (Prakash & Taylor, 2012). Para la realización de los
análisis comparativos, se requiere la tabla de contingencia de observaciones o la matriz de
abundancia de observaciones por muestra, que comprende la cuenta de grupos de genes
ortólogos, taxa o actividades enzimáticas por cada metagenoma (McDonald et al., 2012). 
Secuenciación de próxima generación
En 1975, Sanger introdujo el concepto de método de secuenciación de DNA, a través de la
técnica enzimática dideoxi, basada en la terminación de la elongación de cadenas de DNA
por análogos de dideoxinucleótidos (Pareek, Smoczynski, & Tretyn, 2011); esta técnica
obtiene secuencias de una longitud de hasta 1,000 pb aproximadamente (Shendure & Ji,
2008). Los métodos de secuenciación de segunda generación tienen técnicas que se basan
en la generación de “colonias de polimerasa” o polonies, que son amplicones de PCR que
provienen de una sola molécula de ácido nucléico (Wooley et al., 2010). Las plataformas de
segunda generaciónpueden originar alrededor de 500 millones de bases hasta miles de
millones de bases en una sola corrida (Pareek et al., 2011). 
La diferencia entre las plataformas comerciales de secuenciación de segunda generación,
se encuentra en la preparación del molde (secuencia de DNA compuesta por una región
conocida, vector o adaptador y una región desconocida, que es la región de interés) y los
métodos empleados para la secuenciación de DNA. Para la preparación de los moldes se
4
pueden utilizar dos técnicas: clonación amplificada de moldes a partir de una molécula de
DNA (libre de células y requiere PCR) y moldes de una molécula de DNA (independiente de
PCR). Los métodos de secuenciación se clasifican en: terminación cíclica reversible
(Illumina/Solexa, Helicos BioSciences), pirosecuenciación (Roche/454), secuenciación por
ligación (Life/APG's SOLiD3, Polonator G.007) y secuenciación en tiempo real (Pacific
Biosciences) (Metzker, 2010). 
La plataforma de Illumina HiSeq 2500 adopta la tecnología de secuenciación por síntesis.
Al DNA molde de doble cadena, se le agregan adaptadores, posteriormente se desnaturaliza
el DNA y cada una de las cadenas se fijan en una celda, enseguida se forman clusters que
contienen fragmentos de DNA clonales. Para obtener las secuencias, se adicionan los
nucleótidos con etiquetas fluorescentes y se detecta la señal de cada uno de ellos en el
momento que se van incorporando. Esta tecnología permite secuenciar 160 GB por día o 1
Tb por corrida (Liu et al., 2012).
Bioinformática: herramientas para un análisis comparativo de 
metagenomas
La bioinformática es la aplicación de la información tecnológica al campo de la biología
molecular. Implica la creación y actualización de bases de datos, algoritmos, técnicas
computacionales y estadísticas con la finalidad de resolver, de forma práctica, problemas que
se presentan con el manejo y análisis de datos biológicos, aumentando así el entendimiento
de los procesos biológicos. Las técnicas computacionales incluyen alineación de secuencias,
asignación de genes, ensamble de genomas, alineamientos estructurales de proteínas,
predicción de estructuras de proteínas, predicción de genes e interacciones entre proteínas,
entre otros (Miner, et al., 2009).
Independientemente de la tecnología de secuenciación empleada para generar los datos
(secuencias de DNA), los primeros pasos en el análisis de cualquier metagenoma, involucran
la comparación de esas secuencias con bases de datos de secuencias conocidas. De esta
5
manera, se obtiene información básica para realizar análisis subsecuentes que incluyen
comparación filogenética, anotaciones funcionales (asignación de funciones a
proteínas/genes específicos) y reconstrucciones metabólicas (F. Meyer, Paarmann, D’Souza,
& Etal., 2008).
La predicción de genes que codifican para proteínas se puede realizar a través del marco
abierto de lectura (ORF por sus siglas en inglés), que consiste en una serie de codones que
especifican la secuencia de aminoácidos de la proteína predicha codificada por el gen. Los
ORF inician con un codon inicial (usualmente es ATG) y terminan con un codón terminal
(TAA, TAG o TGA). En la secuencia de DNA, los genes se asignan a través de los ORF, es
decir, se buscan los ORF a través de su codón de incio y su codón de término (Brown, 2002).
El servidor MG-RAST (metagenomics Rapid Annotation using Subsystem Technology)
realiza dos clases de predicciones de funciones de genes: la predicción basada en
subsistemas (se apoya en el reconocimiento de variaciones funcionales de los subsistemas)
y predicciones no basadas en subsistemas (usa acercamientos comunes basados en la
identificación de homología mediante herramientas bioinformáticas) (Aziz et al., 2008). Un
subsistema se define como un grupo de roles funcionales que en conjunto participan en un
proceso biológico determinado o un complejo estructural. Los genes asignados dentro de un
subsistema (población del subsistema) pueden estar conectados con más de un rol funcional,
lo que induce conexiones con subsistemas específicos (conexión entre subsistemas). Uno de
los objetivos de organizar la información en subsistemas es definir y poder actualizar, de una
manera sencilla, la población de los subsistemas permitiendo el intercambio, archivo y
actualización en Internet (Overbeek et al., 2005). 
El servidor MG-RAST está diseñado para producir anotaciones funcionales, comparables
en calidad, con aquellos realizados por curadores humanos y extender esas anotaciones a
todas las proteínas codificadas por genes en todos los genomas posibles. Esta función la
realiza a través de la base de datos SEED (http://www.theseed.org), que integra la anotación
de diversas fuentes (genomas anotados en RAST, datos de modelados metabólicos,
literatura de referencia verificando anotaciones, otras bases de datos) y los usa para
6
http://www.theseed.org/wiki/Main_Page
aumentar el conocimiento de los genomas microbianos. Los subsistemas de SEED son útiles
para determinar, de una manera rápida, las proteínas que estan involucradas en alguna
función, así como conocer las variaciones funcionales entre organismos (Overbeek et al.,
2014). 
SEED organiza los subsistemas a través de cuatro jerarquías principales (Nivel 1, Nivel 2,
Nivel 3 y Función) y cada una está dividida en diferentes subsistemas
(http://www.nmpdr.org/FIG/subsys.cgi). Por ejemplo, el Nivel 1 tiene 28 categorías
principales, dentro de las cuales se encuentra la categoría llamada metabolismo de azufre,
ésta se divide en dos categorías: asimilación de azufre orgánico y asimilación de azufre
inorgánico (Nivel 2). La subcategoría de asimilación de azufre orgánico contiene 7
subsistemas (Nivel 3); dentro de esta subcategoría se encuentra el subsistema de
asimilación de sulfato que contiene 11 funciones (Función). 
Otra herramienta bioinformática útil para el análisis de metagenomas es QIIME
(quantitative insights into microbial ecology), que permite tomar la información de la
secuenciación para interpretarla y compararla con otras bases de datos. Apoya en la
visualización dinámica del análisis de las comunidades microbianas. Permite realizar análisis
a partir de las unidades taxonómicas operacionales (OTUs), alineamientos de secuencias,
inferir árboles filogenéticos o análisis de diversidad entre muestras basados en taxones y
filogenias (Caporaso et al., 2010). QIIME es una de las herramientas empleadas para la
caracterización ecológica de la diversidad microbiana a partir de OTUs. Un OTU se define
como los clusters de genes que tienen similitud con la subunidad pequeña (SSU) del gen
16S/18S rRNA (Schmidt, Matias Rodrigues, & von Mering, 2014).
Un problema que se puede presentar durante el análisis comparativo de metagenomas, es
tener una cantidad insuficiente de muestras, por lo que se han desarrollado técnicas de
normalización y modelos estadísticos para aminorar el efecto de “bajo muestreo” para
determinar las diferencias o variaciones entre las muestras. El software Metastats emplea
métodos de normalización que incluyen cumulative sum scaling (CSS) que corrige los errores
en la asignación de la abundancia diferencial, introducidos por total-sum normalization (TSS).
7
http://www.nmpdr.org/FIG/subsys.cgi
Este último normaliza los conteos de los datos al dividir los conteos de las lecturas por el total
de lecturas en cada muestra. Por otra parte, el modelo de distribución Gaussiana inflado por
ceros permite corregir los errores de las abundancias diferenciales por las deficiencias de
muestreo en las comunidades microbianas (Paulson, Stine, Bravo, 2012).
Una manera en la que se analiza la información obtenida a partir de los metagenomas, es
a través de análisis multivariados pormétodos que involucran el arreglo u ordenamiento de
las especies o unidades de muestra a través de gradientes, llamados métodos de
ordenamiento (http://ordination.okstate.edu/overview.htm). 
El análisis de datos genómicos requiere de un acercamiento que se enfoque en el
ordenamiento de todo el grupo de observaciones y obtener una representación gráfica, a
partir de la organización estadística, que posibilite asimilar y explorar los datos de una
manera natural e intuitiva (Eisen, Spellman, Brown, 1999). Los mapas de calor presentan, de
una manera compacta, una gran cantidad de información asociada a dos variables, por
ejemplo entre genes y muestras (Rajaram & Oono, 2010). En él se generan patrones
coherentes de colores, a partir del agrupamiento jerárquico en los ejes horizontales y
verticales, de manera que agrupa aquellos que son similares. Las relaciones en los
agrupamientos se indican a través de estructuras en formas de árboles (dendrogramas)
contiguos al mapa de calor; los patrones de colores son indicadores de relaciones
funcionales entre los genes y las muestras. Cabe recalcar, que el mapa de calor solamente
proporciona un panorama general de toda la información contenida en los datos introducidos
(Weinstein, 2008). 
La elaboración de un mapa de calor incluye: (i) el algoritmo de procesamiento
(normalización de datos) para minimizar el ruido en el sistema, (ii) el algoritmo de
agrupamiento o clustering, que determina como se agruparan los datos, (iii) la distancia
métrica, que define lo que es similitud entre los genes o muestras y (iv) el esquema de
colores, que determina la manera en que se resaltarán visualmente los patrones encontrados
(Weinstein, 2008). 
8
http://ordination.okstate.edu/overview.htm
En estadística, existen tres tipos de variables (McDonald, 2014), las variables cuantitativas
(expresadas en números), variables nominales (expresadas en nombres) y las variables
ordinales (expresadas como posiciones). Los algoritmos de clustering a emplear dependen
del tipo de variable que se tenga. Dos algoritmos que se utilizan son el coeficiente de
correlación de Pearson y el coeficiente de correlación de Spearman. El coeficiente de
correlación de Pearson es una medida de la relación linear entre dos variables
(http://onlinestatbook.com/2/describing_bivariate_data/pearson.html). Mientras que el
coeficiente de correlación de Spearman, se aplica cuando se quiere observar la asociación
entre dos variables ordinales, una variable cuantitativa y una variable ordinal o como una
alternativa no paramétrica cuando se tienen dos variables cuantitativas y una o ambas
variables no tienen una distribución normal. En general, en el coeficiente de correlación de
Spearman, se desea observar si al aumentar una variable, la otra tiende a aumentar o
disminuir, convirtiendo las variables cuantitativas a variables ordinales (McDonald, 2014). 
La distancia métrica es el parámetro que se utiliza para cuantificar la similitud de los
agrupamientos y se representa a través del dendrograma, donde se visualizan los patrones
de agrupamiento y su similitud a distintos niveles. La mayoría de los algoritmos son variantes
de los algoritmos single-link (la distancia entre dos clusters es la distancia entre los puntos
más cercanos de ambos) y complete-link (la distancia entre dos clusters es la distancia entre
los puntos más lejanos) (Jain, Murty, & Flynn, 1999).
El análisis de correspondencia (CA) o promedio recíproco es una técnica multivariada que
se desarrolló para analizar la información contenida en una matriz de incidencia o
abundancia. En ecología, estas matrices contienen la presencia/ausencia o abundancia de
las especies en una muestra (ter Braak, 1985). Esta técnica representa especies y muestras
en un espacio ambiental o espacio de ordenamiento, además asume que las especies
presentan una curva de respuesta unimodal, esto quiere decir que las especies tienen una
condición ambiental óptima, si esta condición no se cumple (es menor al óptimo) entonces
las especies tendrán una menor abundancia, por consiguiente cada especie se localiza en un
espacio donde es más abundante (http://ordination.okstate.edu/glossary.htm#unimodal). El
algoritmo empleado para el CA da como resultado un puntaje para las especies, un puntaje
9
http://ordination.okstate.edu/glossary.htm#unimodal
http://onlinestatbook.com/2/describing_bivariate_data/pearson.html
para las muestras y la relación que guardan entre sí a través de un eigen valor que es
considerado como un coeficiente de correlación. Estos valores se visualizan a través de ejes,
siendo el primer eje el que está relacionado con gradientes ambientales importantes
(http://ordination.okstate.edu/CA.htm). 
10
http://ordination.okstate.edu/CA.htm
Antedecentes
Cuatro Ciénegas (CC) se localiza en el centro del Desierto de Chihuaha en el estado de
Coahuila, aproximadamente a 27° N y 104° W en un valle a 740 m sobre el nivel del mar y
está rodeado por montañas que alcanzan una altura mayor a 2,500 m. Se estima que este
valle tienen una antigüedad entre 30,000 – 40,000 años (E. R. Meyer, 1973). CC tiene un
clima árido y tiene una temporada de lluvias de Mayo a Octubre. Las aguas superficiales en
CC pueden ser desde efímeras inundaciones después de la lluvia, hasta largos y
permanentes lagos y ríos (W. Minckley, 1969). La formación de depósitos de sal o suelos
salinos se da por la evaporación del agua superficial, debido a las temperaturas extremas y
temporadas de sequía (T. A. Minckley & Jackson, 2007).
La diversidad de flora y fauna en CC comprende un total de 1,248 especies de mamíferos,
aves, reptiles, anfibios, peces, moluscos, crustáceos, escorpiones y plantas vasculares. Del
total de especies mencionadas, más de 70 especies son endémicas. Debido a la cantidad de
especies endémicas de CC, se considera similar a las Islas Galápagos, en términos de
ecosistemas únicos (http://www.desertfishes.org/cuatroc/organisms/organisms.php). CC es
considerada “Área de Protección de Flora y Fauna” por el Gobierno Federal Mexicano y está
administrada por la SEMARNAT (Secretaría del Medio Ambiente y Recurso Naturales),
también se considera un área de alta prioridad para su conservación por otras
organizaciones internacionales como la UNESCO (Souza, Siefert, Escalante, Elser, &
Eguiarte, 2012).
En sistemas áridos, la biota endémica es susceptible a las perturbaciones que causan una
disminución en el flujo y la calidad del agua. Se tenían registrados modelos de flujo de agua
subterránea en CC (Minckley and Cole, 1968; Rodriguez-Almaraz et al., 1997; Contreras-
Arquieta, 1998), aunque faltaba la caracterización química del agua. Johannesson y
colaboradores, realizaron la caracterización química de diversos sistemas hidrológicos,
encontrando una riqueza en sulfatos, presencia de iones de Ca2+, Mg2+, Na+, K+ y Cl- y una
alta alcalinidad (medida por la presencia de iones HCO3-), pero la composición química en los
11
http://www.desertfishes.org/cuatroc/organisms/organisms.php
diversos cuerpos de agua difería entre ellos. Además, se obtuvo un indicio de que el agua
subterránea en todo CC podría estar hidrogeológicamente conectada (Johannesson, Cortés,
& Kilroy, 2004). 
La biodiversidad de CC se ha centrado históricamente en la descripción de
macroorganismos (plantas, vertebrados e invertebrados). En el año 2002, se inició la
descripción de la biodiversidad de microorganismos en CC. En este año, a partir de
secuencias de genes 16S rRNA, se describió la estructura poblacional de cianobacterias en
estromatolitos (Garcia-Pichel, Wade, & Farmer, 2002).
En el año2005, se realizaron diversos estudios que tuvieron que ver con la estequiometría
de C:N:P en las comunidades bénticas (estromatolitos) y en la especie de caracol endémica
M. quadripaludium (Elser, Schampel, Garcia-Pichel, et al., 2005; Elser, Schampel, Kyle, et al.,
2005). Al realizar mediciones de C, N y P se confirmó que el fósforo es un nutriente limitado
en CC. Simultáneamente, se realizaron experimentos de enriquicimiento con fósforo en los
estromatolitos. Se concluyó que la limitación de fósforo se debe en parte por la co-
precipitación de fosfatos durante la deposición de calcio. Además, los microorganismos que
presentan una mayor respuesta dentro de los estromatolitos son las diatomeas y las
cianobacterias. Las comunidades bénticas pueden sufrir cambios en su estructura
(composición de especies), biomasa y productividad debido a que especies de gasterópodos
(entre otras) se alimentan de dichas comunidades, pero en este caso se observó lo contrario.
M. quadripaludium no afecta a estas comunidades bénticas a pesar de que se alimenta de
ellas; sin embargo, una alta concentración de fósforo puede ser perjudicial e incluso
aumentar la mortalidad de los caracoles, debido a que son organismos adaptados a bajos
requerimientos de fósforo. Se define un ambiente oligotrófico como aquél que presenta
deficiencias en la disponibilidad de nutrientes (Burgess, 1997). En océanos, se encuentra
deficiencia en fósforo, nitrógeno y hierro (Mills, Ridame, Davey, La Roche, & Geider, 2004).
En el 2006, Souza y colaboradores, a partir de muestras de columna de agua en sitios
dentro de CC y de áreas aledañas, descubrieron que en la microbiota de CC predominaban
taxa similares a los microorganismos marinos a pesar de que la composición química del
12
agua de CC no es semejante al del agua marina y de que existe una distancia a 800 km del
Golfo de México. Esta evidencia, junto con la baja probabilidad del transporte atmosférico de
las bacterias y el bajo número de taxa de microorganismos típicos de ambientes de agua
dulce (de las áreas aledañas), condujo a la hipótesis de que los microorganismos y el agua
que se encuentra en CC quedaron atrapados en estratos Mesozoicos que posteriormente
fueron liberados durante los procesos de karstificación de la superficie caliza. También se
descubrió, a partir de análisis de T-RFLPs del gen 16S rRNA, una conexión hidrológica entre
CC y los valles cercanos (Souza et al., 2006). 
En el 2008, se realizaron otros análisis con T-RFLPs de genes 16S rRNA en muestras de
columnas de agua en sitios dentro de CC. Los filotipos más abundantes que se encontraron
fueron Gamma- y Proteobacteria y halófilos extremos. Estos microorganismos pueden existir
en los diferentes sitios y cada comunidad es única, sin embargo, no se observó un patrón
geográfico que determine la composición de cada comunidad (Escalante et al., 2008).
 
En este mismo año (2008) se realizaron estudios en los diversos sistemas hidrológicos en
CC a nivel funcional. Se secuenció el genoma de Bacillus coahuilensis, bacteria formadora
de esporas, que reside en el sistema hidrológico Churince. Este genoma aportó información
sobre los mecanismos de adaptación genómica ante un ambiente oligotrófico extremo en CC.
El genoma de B. coahuilensis tiene genes que codifican para enzimas claves para la síntesis
de sulfolípidos (sqd1 y sqdX) y para receptores sensores de luz (bsr), que a diferencia de sus
ortólogos en otras bacterias, estos genes se expresan constitutivamente. El genoma de B.
coahuilensis carece de genes para llevar a cabo el ciclo del nitrógeno de manera
independiente, así como el ciclo de la urea y rutas de degradación de la urea. También
presenta el operón que codifica para transportadores de hierro y tiene especialización para
adquirir aminoácidos en lugar de oligopétidos. Así mismo, se observó que B. coahuilensis
perdió la capacidad de producir ácido teicoico y otros compuestos de fósforo, presentes
como reserva en la pared celular (Alcaraz et al., 2008). Además, se comprobó que B.
coahuilensis está filogenéticamente relacionado con otros Bacillus spp. marinos (R. Cerritos
et al., 2008).
13
También del sistema hidrológico El Churince, se aisló y secuenció el genoma de otro
bacilo: Bacillus sp. m3-13. A pesar de que B. coahuilensis y Bacillus sp. m3-13 viven en el
mismo ambiente oligotrófico, tienen diferentes estrategias para sobrevivir en este sistema.
Mientras B. coahuilensis reemplaza las membranas de fosfolípidos por membranas de
sulfolípidos, Bacillus sp. m3-13 tiene genes phn que codifican para transportadores ABC de
fosfonatos, permeasas y fosfonato-liasas para tomar y asimilar fosfonatos. Ambas estrategias
son similares a las encontradas en otras bacterias acuáticas y marinas (Alcaraz et al., 2010). 
También se han estudiado interacciones entre bacterias cultivables de Bacillus sp. aisladas
del sedimento y columna de agua del Churince. Para el establecimiento de las comunidades
de bacilli en el sedimiento, se descubrió que existen interacciones antagonistas entre los
sitios, que ayudan a seleccionar genotipos resistentes y por consiguiente afectan a la
estructura taxonómica de la comunidad. Las interacciones dentro de las comunidades son
del tipo de una cadena trófica, es decir, presentan jerarquías y direccionalidad, por lo que los
miembros de los diferentes niveles tienden a pertenecer a diferentes grupos taxonómicos
(Pérez-Gutiérrez et al., 2013). 
Esta diversidad de estrategias de supervivencia en Churince, también se observó en los
metagenomas de otros sistemas hidrológicos en CC, Poza Roja (en el ejido Los Venados, es
un estanque rojo con limitación de P) y Pozas Azules (estanque con limitación de N). A pesar
de que ambos estanques tienen diferentes condiciones fisicoquímicas, presentan similitudes
en cuanto a diversidad de funciones metabólicas y ambos tienen genes asociados con la
asimilación de fósforo a partir de fuentes inorgánicas, la utilización de fosfatos como fuentes
de reserva de fósforo y el reciclaje de fosfatos. Sin embargo, las funciones particulares que
se presentan en cada sistema, están asociadas tanto a las condiciones particulares y a las
especies que predominan en cada uno de ellos. En Poza Roja, el género más abundante es
Pseudomonas (considerada una bacteria generalista), en este estanque se tiene una sobre-
representación en genes relacionados con energía dependiente de sistemas de transporte,
movilidad de la célula, regulación transcripcional y señales de transducción. Todos los genes
antes mencionados son característicos de aquellos organismos que no dependen de la
fijación de carbono y nitrógeno y son heterótrofos. Por otra parte, en Pozas Azules, la
14
limitación de N tiene como resultado una disminución en el tamaño de los genomas, el
género más abundante es Cyanothece, y el estanque verde tiene una sobre-representación
en genes relacionados con rutas metabólicas fijadoras de nitrógeno y carbono, así como
genes involucrados en la reparación de DNA. En Pozas Azules, se sugiere que es importante
la fotosíntesis y la fijación de N por lo tanto se tiene la presencia de bacterias especialistas,
como las cianobacterias (Peimbert et al., 2012).
Se realizó a detalle la composición estructural en ambos estanques, comparando los
genes 16S rRNA y metagenomas. Se confirmó el predominio del género Pseudomonas
(bacterias heterotróficas) en Poza roja y la presencia de las phyla Cyanobacteria, Clostridia,
Gammaproteobacteria, Epsilonproteobacteria y Deltaproteobacteria (bacterias heterotróficas
y fotosintéticas) en Pozas Azules. Además, al comparar la diversidad taxonómica de los
sistemas de CC con otros sistemas oligotróficos como Guerrero Negro, se sugiere que las
perturbaciones al sistema pueden tener un mayor impactoen la diversidad de la comunidad,
que la disponibilidad de nutrientes (Bonilla-Rosso et al., 2012).
El sistema hidrológico Churince está rodeado por dunas de yeso, presenta un alto
gradiente de salinidad, temperatura, pH y oxígeno disuelto. Es extremadamente pobre en
fosfatos pero rico en sulfatos y magnesio, aunque no se encuentran carbonatos de calcio. A
pesar de las deficiencias de diversos nutrientes, se ha observado una alta diversidad de
microorganismos de las phyla Firmicutes y Actinobacteria (René Cerritos et al., 2011).
El trabajo de esta tesis es parte de un proyecto de secuenciación metagenómica
coordinado por la Dra. Valeria Souza y su estudiante de doctorado Valerie de Anda (Instituto
de Ecología, UNAM), en colaboración con Jim Elser de la Universidad de Arizona. Este
trabajo pretende describir, exclusivamente, la diversidad funcional de las comunidades
bacterianas de la condición control (en sedimento y agua) de un experimento (en proceso)
que pretende caracterizar los efectos de enriquecimiento de nutrientes, en específico de
fósforo, en el sistema hidrológico Churince. Por lo tanto, las secuencias de los 22
metagenomas (Tabla 1) que aquí se ocupan, estarán disponibles públicamente después de la
publicación de los resultados. 
15
Justificación 
Cuatro Ciénegas es un ecosistema que presenta altos niveles de endemismos biológicos.
Aunque es un área protegida, ha sufrido perturbaciones por la actividad antropogénica que
han disminuido el flujo de los sistemas hidrológicos superficiales. Una manera de conservar
este sistema, es estudiar a nivel funcional, como es que las comunidades bacterianas
sobreviven en un sistema con condiciones oligotróficas, analizar las funciones
representativas de la comunidad y de esta forma tratar de entender su resiliencia. 
Objetivos
Analizar la composición funcional de 22 metagenomas secuenciados de sedimento y
columna de agua en El Churince, Cuatro Ciénegas, en dos años consecutivos y determinar la
variación temporal y espacial de las funciones. Los objetivos particulares son:
1. Anotación funcional de los 22 metagenomas.
2. Análisis multivariados de las funciones asignadas a cada metagenoma.
3. Analizar la relación entre las funciones y los taxa (a nivel de familia) en los metagenomas.
4. Determinar las funciones que cambian significativamente de acuerdo al sitio y año de
muestreo.
Hipótesis 
Los distintos grupos taxonómicos presentes en las comunidades bacterianas tienen
interacciones entre ellos, donde cada grupo puede llegar a realizar funciones específicas
dentro de la comunidad. Debido a que las condiciones para establecer comunidades son
distintas entre el agua y el sedimento, se esperan funciones distintas entre ellos. Además se
esperan diferencias funcionales causadas por efectos temporales.
16
Metodología
Conjunto de datos utilizados
Se utilizaron los 22 metagenomas de los años 2011 y 2012 del sistema Churince, los
datos identificadores del MG-RAST (usados como identificadores dentro de este trabajo), su
sitio de aislamiento y año de muestreo se presentan en la Tabla 1. Los metagenomas fueron
secuenciados mediante la plataforma de Illumina HiSeq 2000. La cantidad de lecturas o
reads que se obtienen dependen de la calidad del DNA de la muestra. 
Como se mencionó con anterioridad, los 22 metagenomas corresponden a un experimento
de enriquecimiento de nutrientes que está siendo evaluado en estos momentos por el grupo
de la Dra. Valeria Souza, en partícular por su estudiante de doctorado Valerie de Anda. Los
datos serán liberados eventualmente, en el momento de la aceptación de la publicación del
trabajo del grupo de la Dra. Souza. 
 
17
Tabla 1. Información de los 22 metagenomas analizados. Se muestra el identificador en el
servidor MG-RAST, el sitio al que pertenece cada metagenoma (agua o sedimento) y el año
en que se realizó la toma de muestra.
18
Archivo Identificador MG-RAST (ID) Sitio Año
JP4B120525WATERRESIZEAMP 4557996.3 Agua 2012
JP4B120525WATER 4557995.3 Agua 2012
JP3CWATER120525AMPED 4557990.3 Agua 2012
JP2C120525WATERRESIZEAMP 4557989.3 Agua 2012
JP2C120525WATER 4557988.3 Agua 2012
JP1CWATER120525 4557981.3 Agua 2012
JP1C120525WATERRESIZEDAMD 4557980.3 Agua 2012
JP4A120525SEDIMENT 4557994.3 Sedimento 2012
JP2C120525SEDRESIZEAMP 4557987.3 Sedimento 2012
JP2C120525SEDIMENT 4557986.3 Sedimento 2012
JP1ASEDIMENT120525 4557979.3 Sedimento 2012
JP2110514WATERAMP 4559109.3 Agua 2011
JP5WATER110514AMP 4557998.3 Agua 2011
JP4110514WATERRESIZE 4557993.3 Agua 2011
JP4110514WATERAMP 4557992.3 Agua 2011
JP2110514WATERRESIZE 4557985.3 Agua 2011
JP1WATER110514 4557983.3 Agua 2011
JP1110514WATERRESIZED 4557978.3 Agua 2011
JP5SED110513AMP 4557997.3 Sedimento 2011
JP4110513SEDIMENT 4557991.3 Sedimento 2011
JP2110513SEDIMENT 4557984.3 Sedimento 2011
Cada metagenoma analizado mediante el servidor MG-RAST, pasa un control de calidad.
Existen tres tipos de formatos de secuencias aceptados por el servidor: FASTA, FASTQ y
SFF. El control de calidad aplicado sobre las secuencias incluye 9 pasos (F. Meyer et al.,
2008; Wilke et al., 2014), a continuación se describe cada uno a detalle. 
1. Preprocesamiento: inicialmente se pueden filtrar las secuencias de DNA de acuerdo a su
longitud, número de bases ambiguas o valores de calidad (disponibles en los formatos
FASTQ y SFF).
2. Desreplicación: como resultado de las plataformas de secuenciación de segunda
generación, existen secuencias de DNA que son idénticas entre sí debido a procesos de
amplificación (se consideran idénticas cuando sus primeras 50 pb son iguales), por lo que
se tienen que eliminar (Gomez-Alvarez, Teal, & Schmidt, 2009). 
3. Screening: a partir de las secuencias de DNA del paso anterior (2), en esta etapa se
eliminan todas las secuencias que coinciden con secuencias de organismos modelo, por
ejemplo: mosca, ratón, humano, etc. (Langmead, Trapnell, Pop, & Salzberg, 2009).
4. Predicción de genes: una vez eliminadas las secuencias de DNA de organimos modelo
(3), con las secuencias restantes, se predicen regiones codificantes con el algoritmo
FragGeneScan (Rho, Tang, & Ye, 2010), éste permite la identificación de marcos abiertos
de lectura (ORF) dentro de las secuencias. Para reportar genes, éstos deben de cumplir
tres condiciones: la longitud del gen mayor a 60 pb, los genes presentan un codón de inicio
y un codón de término. Aunque también se pueden predecir genes fragmentados (sin codón
de inicio o codón de término).
5. Anotación de RNAs: una vez identificados los genes codificantes (4), se predicen los
RNAs principalmente rRNA y se agrupan usando un mínimo un 70% de identidad con
secuencias ribosomales en las bases de datos Greengenes, Large Subunit (LSU), Small
subunit (SSU) y Ribosomal Database Project (RDP). En este caso se utiliza la herramienta
18
QIIME-UCLUST (Edgar, 2010).
6. Agrupamiento fino del rRNA al 97% de identidad: considerando las secuencias anteriores
(5), se hace un nuevo agrupamiento con el programa cd-hit (Li & Godzik, 2006) con las
secuencias de RNA con un 97% de identidad.
7. Alineamiento de los rRNA con la base de datos M5RNA (Wilke et al., 2012): utilizando los
dos agrupamientos anteriores (70% y 97% de identidad), la herramienta BLAT (Kent,
2002) realiza alineamientos de las secuencias de DNA contra secuencias en las bases de
datos ribosomales (Greengenes, LSU, SSU y RDP). BLAT puede realizar dos clases de
alineamientos, aquellos que tienen arriba del 95% de identidad o los que tienen como
mínimo un 80% de identidad, en ambos casos se pueden tener insertos largos.
8. Clustering de proteínas al 90% de identidad: las secuencias de genes codificantes
identificadas en el paso (4) se agrupan usando 90% de identidad. En este paso se predice
la secuencia de aminoácidos en formato FASTA.
9. Anotación deproteínas: se utilizan las secuencias de aminoácidos que se obtuvieron en
el paso anterior (8). Se utiliza la base de datos M5NR para la identificación de las proteínas.
Anotación funcional por clasificación jerárquica en MG-RAST
En el servidor MG-RAST, se seleccionó la opción de análisis en la que se presentan tres
secciones para elegir diversos parámetros (Figura 1). Se seleccionaron los 22 metagenomas
(Tabla 1), se eligió el análisis de clasificación jerárquica con la fuente de anotación por
subsistemas (Aziz et al., 2008; Overbeek et al., 2005), el valor e mínimo de 1e-5, el
porcentaje mínimo de identidad del 60% y la longitud mínima de alineamiento de 15 pb.
Además, se generó una tabla con formato .tsv (valores separados por tabuladores).
Posteriormente, se generó un reporte QIIME (Caporaso et al., 2010) y éste nos permite
descargar un archivo con formato .biom que contiene las abundancias y anotaciones
19
taxonómicas y funcionales.
Figura 1. Opciones de análisis en MG-RAST. Se muestran las opciones de análisis funcional
y taxonómico posibles, además de las herramientas de visualización y descarga de los datos
para el procesamiento a posteriori. 
Procesamiento de las tablas de abundancias funcionales por nivel 
jerárquico
De los archivos de anotación en formato .tsv y mediante el uso de los comandos de Linux
cut, sort, uniq y sed se seleccionaron las columnas de las cuatro jerarquías con sus
respectivos subsistemas, identificadores y abundancias funcionales. Posteriormente, en R (R
Core Team, 2015) con la biblioteca reshape2 (Wickham, 2014), se realizó la transformación
de dicha tabla a una tabla de abundancias funcionales. 
Por motivos de facilitar la visualización en los mapas de calor funcionales (del nivel 3) se
eligieron los doscientos subsistemas más abundantes para obtener un panorama general de
las funciones más representativas en las comunidades. Los comandos utilizados están
disponibles en el Anexo I (http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61). 
20
http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61
En resumen se construyeron 4 tipos de tablas: 
1. Tabla de abundancias funcionales completa: contiene el número de subsistemas,
nombre del subsistema y los identificadores de los metagenomas.
2. Tabla de abundancias funcionales (sin nombres de subsistemas): presenta el
número de subsistema y los identificadores de los metagenomas.
3. Tabla de frecuencias relativas de funciones: presenta el número de subsistema,
identificadores de los metagenomas y sus abundancias funcionales en frecuencias
relativas (abundancia de cada metagenoma por función, dividida entre el total de
abundancias funcionales por cada columna, es decir, por cada metagenoma).
4. Tabla índice: tiene el número de subsistemas y el nombre de éstos.
De la misma forma se generaron dichas tablas para los análisis taxonómicos exploratorios.
Análisis de ordenamiento: Mapas de calor y análisis de 
correspondencia.
Los mapas de calor se generaron a partir de las tablas de abundancias funcionales, se
calcularon las frecuencias relativas en LibreOffice Calc. Los mapas de calor fueron hechos
por medio de las bibliotecas RColorBrewer (Neuwirth, 2014) y gplots (Warnes et al., 2015) en
R. Los análisis de correspondencia (CA) fueron hechos mediante las bibliotecas phyloseq
(McMurdie & Holmes, 2013) y ggplot2 (Warnes et al., 2015) en R. Los comandos para cada
uno de los análisis de ordenamiento, funcional y taxonómico, se encuentran en el Anexo I
(http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61).
Diferencias significativas en las abundancias de los 
metagenomas.
21
http://figshare.com/s/c23df6c278dc11e5839f06ec4b8d1f61
Metastats (Paulson, et al., 2013) es un software que permite determinar diferencias
significativas entre dos o más grupos de diversas muestras. Dentro de los parámetros a
elegir para calcular las diferencias significativas, se encuentran los valores p y los valores q.
Los valores p miden que tan probable es obtener un punto de los datos si no existiera una
diferencia real (falsos positivos). Mientras que los valores q, establecen cuántos valores
significativos en realidad fueron falsos positivos, es decir, cuantos fueron falsos
descubrimientos (por medio de los valores de p ajustados). En este caso, los datos
diferenciales entre los grupos se obtuvieron a partir de los valores p. Se compararon agua-
sedimento y cada sistema en dos años (agua-agua; sedimento-sedimento). Las
comparaciones pueden ser consultadas en la Tabla 2 y Figura 2. 
Los resultados derivados de metastats son archivos que contienen el reporte de: número
de subsistema (o familia, si se trata de taxonomía), media del grupo 1 (dada en
proporciones), varianza del grupo 1, error estándar del grupo 1, media del grupo 2, varianza
del grupo 2, error estándar del grupo 2, valores p y q (Figura 3).
Tabla 2. Detalle de los análisis estadísticos realizados. Se describen las características de
cada tabla para el análisis estadístico en Metastats (archivo de entrada, año, muestra y total
de población), así como los parámetros que se solicitaron en el programa (sujetos primera
población, valores de significancia, nivel de significancia, número de permutaciones y tipo de
archivo de salida). Los archivos de entrada que presentan _b corresponden a las tablas de
abundancia taxonómica del dominio bacteria.
22
Archivo 
Año Muestra
Total Sujetos Valores de Nivel Número Tipo de 
de de primera de de de archivo de
entrada población población significancia significancia permutaciones salida
agua 2011 y 2012 Agua 14 7 p 0.001 1000 tmp
as11 2011 Agua y sedimento 11 7 p 0.001 1000 tmp
as12 2012 Agua y sedimento 11 7 p 0.001 1000 tmp
as 2011 y 2012 Agua y sedimento 22 14 p 0.001 1000 tmp
sedimento 2011 y 2012 Sedimento 8 4 p 0.001 1000 tmp
agua_b 2011 y 2012 Agua 14 7 p 0.001 1000 tmp
as11_b 2011 Agua y sedimento 11 7 p 0.001 1000 tmp
as12_b 2012 Agua y sedimento 11 7 p 0.001 1000 tmp
as_b 2011 y 2012 Agua y sedimento 22 14 p 0.001 1000 tmp
sed_b 2011 y 2012 Sedimento 8 4 p 0.001 1000 tmp
Figura 2. Ejemplo de tabla de abundancia agua. Se muestra la tabla de abundancia funcional
de las muestras de agua, F se refiere a funciones y MG a metagenomas. En color verde
están los números de las funciones, en color naranja se encuentran los metagenomas y las
abundancias funcionales de las muestras de agua pertenecientes al año 2011 y en color
morado estan los metagenomas y las abundancias funcionales de las muestras de agua del
año 2012. El archivo está delimitado por tabuladores.
23
Figura 3. Salida del análisis de diferencias significativas. Cada renglón corresponde a una
función y se muestra su identificador númerico. En esta tabla solamente aparecen los
números de las funciones diferenciales significativas por grupo (p=0.001), así como sus
valores distribución central como media, varianza, error estándar y los valores de p y q. 
24
Resultados
Estadísticas de anotación funcional de los metagenomas 
analizados.
Los 22 metagenomas analizados de Cuatro Ciénegas, cuentan con un total de 4,241,330
secuencias de DNA (Tabla 3), de las cuales 4,201,995 secuencias (99.1%) pasaron hasta el
cuarto filtro (screening) de control de calidad del servidor MG-RAST. En promedio, cada
metagenoma cuenta con 191,000 secuencias (con una desviación estándar de ±147,808
secuencias) donde los metagenomas 4557979.3, 4557982.3, 4557991.3 y 4557994.3 tienen
el menor número de secuencias (por debajo de 43,192 secuencias), es decir, son
metagenomas con una cobertura menor que los demás. Por otra parte, los metagenomas
4557996.3, 4557997.3 y 4557109.3 tienen la mayor cantidad de secuencias (mas de 338,807
secuencias). Del total de secuencias que pasaron el filtrado, el 3.9% son rRNA, el 90.3%
tienenregiones codificantes (para proteínas con función conocida y desconocida) y para el
5.7% de las secuencias no se encontraron homólogos en las bases de datos.
En el suplemento Asignación_MGRAST
(http:// figshare.com/s /7b8f7ad4710211e5969906ec4b8d1f61) se muestra la asignación de
108,557 funciones en los 22 metagenomas. Fue posible anotar funcionalmente un total de
9,979 funciones, agrupados en 1,105 subsistemas (nivel 3); 198 subsistemas (nivel 2) y 28
categorías en el nivel 1 (suplemento Niveles_Generales;
http://figshare.com/s/78f0376270ff11e5a36a06ec4b8d1f61). Para la anotación, el promedio
del e-value es de 1e-23 por alineamiento, con una identidad promedio de 76%, una longitud
de alineamiento promedio de 68 pb y 11 aciertos por gen en promedio. 
De las funciones del nivel 1, las muestras 4557979.3, 4557982.3, 4557991.3 y 4557994.3
se encuentran por debajo del límite inferior del número de secuencias con anotación
funcional (menos de 24,082). También se aprecia que las muestras 4557980.3 y 4557981.3
25
http://figshare.com/s/78f0376270ff11e5a36a06ec4b8d1f61
http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61
http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61
http://figshare.com/s/7b8f7ad4710211e5969906ec4b8d1f61
están cerca del límite inferior del número de secuencias anotadas funcionalmente (Figura 4). 
Tabla 3. Características generales de las secuencias de cada metagenoma. Se describen los
datos particulares de las secuencias de cada metagenoma: total de secuencias que se
ingresaron a MG-RAST (No. de secuencias), secuencias que pasaron los primeros cuatro
filtros del control de calidad (secuencias que pasaron screening), secuencias asignadas a
rRNA (secuencias de rRNA), secuencias que codifican para proteínas con función conocida y
desconocida (secuencias con regiones codificantes) y las secuencias sin homólogos en las
bases de datos (secuencias sin asignación).
26
Metagenoma
466,666 464,273 20,697 436,644 6,932
184,972 183,292 3,745 175,269 4,278
223,054 219,662 1,002 212,536 6,124
107,395 106,380 3,924 97,445 5,011
214,354 211,934 11,748 189,588 10,598
33,949 29,676 763 25,226 3,687
197,561 196,500 6,530 186,496 3,474
336,549 334,901 14,143 316,503 4,255
4,511 4,456 185 3,686 585
204,050 202,225 4,711 186,971 10,543
110,811 109,831 3,319 100,594 5,918
151,533 149,948 7,565 134,457 7,926
441,477 437,577 6,120 375,331 56,126
561,317 555,571 28,244 469,407 57,920
223,838 222,551 6,990 210,333 5,228
68,088 65,060 4,101 51,194 765
224,863 223,973 4,890 212,066 7,017
6,154 6,115 321 5,520 274
153,210 152,774 14,687 121,464 16,623
189,790 188,961 18,595 155,527 20,579
4,202 4,174 208 3,553 413
132,986 132,161 1,893 125,360 4,908
Total 4,241,330 4,201,995 164,381 3,795,170 239,184
No. 
secuencias
Secuencias 
que pasaron 
screening
Secuencias 
de rRNA
Secuencias 
con regiones 
codificantes
Secuencias 
sin 
asignación 
4557109.3
4557998.3
4557997.3
4557996.3
4557995.3
4557994.3
4557993.3
4557992.3
4557991.3
4557990.3
4557989.3
4557988.3
4557987.3
4557986.3
4557985.3
4557984.3
4557983.3
4557982.3
4557981.3
4557980.3
4557979.3
4557978.3
Figura 4. Secuencias anotadas funcionalmente en los metagenomas. En el gráfico se
identifican aquellos metagenomas con el menor número de secuencias con anotación
funcional (por debajo del límite inferior). Se presenta el límite superior de 164,628 secuencias
con anotación funcional (color amarillo), el límite inferior de 24,082 secuencias con anotación
funcional (color verde), el promedio de las sencuencias anotadas funcionalmente es de
94,355 (color rojo) y el total de secuencias con anotación funcional por cada metagenoma
(color azul). La desviación estándar es de ±70,273 secuencias anotadas funcionalmente.
Análisis funcional de los metagenomas.
En los mapas de calor jerárquicos (Figura 5), cada columna corresponde a los
identificadores de cada metagenoma y cada renglón es un subsistema. Las muestras están
divididas por tipo de sitio (sedimento o agua), también se indica el año que corresponde a la
toma de la muestra (2011 o 2012). La escala de colores que aparece corresponde a los
valores de frecuencia relativa (FR), el gradiente va de menor a mayor, es decir, al menor
valor de FR se le asigna el primer color de la izquierda de la escala, mientras que al valor
27
más alto de FR le corresponde el último color de la derecha de la escala. En la parte superior
de las columnas, se encuentra un dendrograma que nos indica el agrupamiento entre las
muestras, así como la similitud o diferencias entre las mismas. En todos los mapas de calor,
los dendrogramas señalan que existen agrupamientos entre si de las muestras de agua y
entre las muestras de sedimento, algunos de éstos coinciden con el año en que se recolectó
la muestra y en otros no.
En el mapa de calor jerárquico del nivel 1 (Figura 5), se muestran un total de 28 categorías
funcionales. Las categorías con la mayor frecuencia relativa son: agrupamiento basado en
subsistemas (id=5; 0.13 – 0.15), esta categoría contiene múltiples funciones biológicas, se
puede basar en el agrupamiento de familias de proteínas por identidad de secuencia o
también por procesos generales que no han sido reubicados a otros subsistemas, las
funciones pueden ser tan variadas en esta categoría que se pueden incluir desde proteínas
totalmente hipotéticas conservadas, hasta genes de metabolismo central, esta categoría
tiene que revisarse en cada caso particular de anotación
(http://www.nmpdr.org/FIG/subsys.cgi); carbohidratos (id=2; 0.09 – 0.14), involucra funciones
que tienen que ver en el metabolismo central de carbohidratos, fijación de CO2, fermentación,
ácidos orgánicos; y aminoácidos y derivados (id=1; 0.07 – 0.14), agrupa proteínas que
participan en la biosíntesis o degradación de cada aminoácido y sus derivados. 
Las categorías dormancía y esporulación (id=8), fotosíntesis (id=19), metabolismo de
potasio (id=20) y metabolismo secundario (id=25) tienen una muy baja representación en
todas las muestras, el valor máximo de FR (Frecuencia Relativa) que alcanzan es de 0.006.
El bloque de categorías que comprende desde metabolismo de DNA (id=7) hasta
metabolismo de compuestos aromáticos (id=12) tienen frecuencias relativas por debajo de
0.06, sin embargo, la muestra de agua 4557990.3 (año 2012) tiene una frecuencia relativa
igual a 0.09 en la categoría de fagos, pro-fagos, elementos transponibles, plásmidos (id=17).
Las categorías funcionales misceláneas (id=13), metabolismo de proteínas (id=21) y
cofactores, vitaminas, grupos prostéticos y pigmentos (id=6) tienen frecuencias relativas
entre 0.04 y 0.09. Las funciones clasificadas como misceláneas incluyen funciones
relacionas con bioluminiscencia, biomineralización de carbonatos, luciferasas y quorum
28
http://www.nmpdr.org/FIG/subsys.cgi
sensing. La categoría de metabolismo de proteínas incluye funciones en biosíntesis,
degradación, plegado, procesamiento, modificación y secreción de proteínas. En la categoría
de cofactores, vitaminas, grupos prostéticos y pigmentos se tienen funciones asociadas a
biotina, coenzimas (A, B, F420, M), clusters de Fe-S, pterinas y folato, ácido lipoico,
cofactores de quinona, riboflavinas, tetrapirroles, tiamina y pirofosfatos de tiamina, entre
otras.
En el dendrograma (Figura 5), se aprecia que la muestra de sedimento 4557991.3 (año
2011) tiene una mayor distancia del resto de las muestras. De la misma forma se observa la
muestra de agua 4557990.3 (año 2012) y mientras el resto de las muestras analizadas se
agrupan de forma más cercana que las tres muestras del grupo externo (4557991.3,
4557990.3 y 4557982.3). Enseguida, vemos que la muestra de sedimento 4557979.3 es
similar a las muestras de agua 4557980.3y 4557981.3 (todas pertenecen al año 2012).
Después vemos la agrupación de todas las muestras de agua del año 2011, en donde las
muestras 4557978.3 y 4557983.3 son diferentes al resto de las muestras (4557998.3,
4557992.3, 4557993.3, 4557109.3 y 4557985.3). A continuación, podemos apreciar que las
muestras de sedimento restantes del año 2011 (4557997.3 y 4557984.3) se agrupan con
muestras de sedimento del año 2012 en dos diferentes grupos, el primero abarca las
muestras 4557997.3, 4557987.3 y 4557986.3 y el segundo incluye las muestras 4557984.3 y
4557994.3. Por último, se observa el grupo de las muestras de agua restantes, del año 2012
(4557995.3, 4557996.3, 4557988.3 y 4557989.3). 
29
Figura 5. Mapa de calor de la primera jerarquía de SEED. Se muestran las frecuencias
relativas del primer nivel de la jerarquía de anotación del SEED (28 categorías) de los
metagenomas analizados. En la parte inferior del mapa se observan 3 categorías con
frecuencia relativa arriba del promedio, en la parte media, se observan 23 categorías con
frecuencia relativa menor que el promedio y en la parte superior se observan 2 categorías
con frecuencia relativa promedio.
30
De los 1,105 subsistemas funcionales del tercer nivel, considerando solamente los 200
más abundantes (por fines de visualización) (Figura 6), se observa que la proteína YgfZ
(id=1095) y ciclo serina-glioxilato (id=887) presentan frecuencias relativas por arriba del
promedio en la mayoría las muestras (0.01 – 0.04). YgfZ se encuentra dentro de la categoría
de cofactores, vitaminas, grupos prostéticos y pigmentos y engloba 52 diferentes proteínas
relacionadas con los cofactores folato y pterinas, que tienen que ver con el metabolismo de
compuestos de un carbono. Por otra parte, el ciclo serina-glioxilato está dentro de la
categoría de carbohidratos y contiene 73 proteínas involucradas en el metabolismo de
compuestos con un solo carbono. La muestra de sedimento 4557979.3 (año 2012) presenta
frecuencias relativas altas en los subsistemas utilización de carbohidratos en Thermotogales
(id=943), operón de síntesis macromolecular (id=588) y síntesis de novo de pirimidina
(id=362), con una frecuencia relativa igual a 0.03 en todos los casos. La muestra de
sedimento 4557991.3 (año 2011) también tiene una frecuencia relativa igual a 0.03 en el
subsistema resistencia cobalto-zinc-cadmio (id=298). La muestra de agua 4557990.3 (año
2012) tiene una mayor representación en los subsistemas proteínas de cápside en fagos
(id=701; FR = 0.04) y fagos de Streptococcus tipo r1t (id=819; FR = 0.06). También, la
muestra de agua 4557980.3 (año 2012) tiene una alta frecuencia relativa (0.03) en el
subsistema beta-lactamasas (id=122). De los subsistemas restantes, el máximo valor de
frecuencia relativa que se observa es menor o igual a 0.02. 
31
Figura 6. Mapa de calor de los 200 subsistemas más abundantes de la jerarquía de
anotación del nivel 3 del SEED. Se muestran las frecuencias relativas de los 200
subsistemas más abundantes en el nivel 3. La mayor parte de los subsistemas presentan
una frecuencia relativa abajo del promedio. En la parte inferior se observan los subsistemas
que tienen frecuencias relativas por arriba del promedio.
32
En el nivel más profundo de la jerarquía de anotación funcional (nivel 4; función) algunas
de las 200 funciones más abundantes son la cisteína desulfurasa, EC 2.8.1.7 (id=1448)
presenta una frecuencia relativa arriba del promedio en la mayoría de las muestras (0.01 –
0.04). La acetil-CoA acetiltransferasa, EC 2.3.1.9 (id=369) y Enoil-CoA hidratasa, EC 4.2.1.17
(id=1885) tienen mayor frecuencia relativa (0.01 – 0.06) en la mayoría de las muestras
excepto en las muestras de agua 4557980.3, 4557981.3, 4557990.3 (año 2012) y las
muestras de sedimento 4557991.3, 4557982.3 (año 2011) y 4557979.3 (año 2012). Las
fumarilacetoacetato hidrolasa (id=2349) y beta-galactosidasa, EC 3.2.1.23 (id=847) sólo se
encuentran con alta frecuencia relativa (0.06) en las muestras de agua 4557980.3 y
4557981.3 (año 2012). La muestra de sedimento 4557979.3 (año 2012) tiene una alta
frecuencia relativa (0.04 – 0.10) en la ligasa de ácidos grasos de larga cadena-CoA ligasa,
EC 6.2.1.3 (id=3280), alanil-tRNA sintetasa, EC 6.1.1.7 (id=473), carbamoil-fosfato sintasa,
EC 6.3.5.5 (id=993), proteína de cápside de fagos (id=4232) y la proteína de partición de
cromosoma (plásmido) ParA (id=1151). Además, en la muestra de sedimento 4557991.3 (año
2011) tenemos mayor representación (0.02 – 0.07) en las proteínas ClpB (id=1170), acetil-
coenzima A sintetasa, EC 6.2.1.1 (id=381), serina hidroximetiltransferasa, EC 2.1.2.1
(id=5549), subunidad B de DNA girasa, EC 5.99.1.3 (id=1739), arilsulfatasa, EC 3.1.6.1
(id=673), fosfato acetiltrasferasa, EC 2.3.1.8 (id=4315) y la proteína de cápside de fagos
(id=4232). La muestra de agua 4557990.3 (año 2012) también tiene altas frecuencias
relativas de proteínas de cápside en fagos (id=4232; FR = 0.09) y ensamble de fagos
(id=4208; FR = 0.04). 
En el suplemento 200_abundantes (http://figshare.com/s/de70649e710011e59d3106ec4bbcf141) se 
pueden consultar las categorías correspondientes a las 200 funciones más abundantes.
33
http://figshare.com/s/de70649e710011e59d3106ec4bbcf141
Análisis de correspondencia de funciones en los metagenomas.
En los análisis de correspondencia (CA) funcionales se presentan los llamados bi-plots
donde se gráfica la distribución de las muestras basándonos en sus abundancias funcionales
en el panel izquierdo y en el panel derecho la distribución de las funciones coloreada por la
jerarquía funcional de nivel 1 (Figuras 7 y 8). Se puede identificar en el bi-plot de la
distribución de las muestras por su tipo de ambiente (agua o sedimento) y por el año de la
toma de la muestra (2011 o 2012). En todos los CA se observa la agrupación que separa las
muestras de agua y las muestras de sedimento. Adicionalmente, en algunos casos las
muestras también se asocian de acuerdo al año de muestreo. 
En el CA (Figura 7), se observa que la muestra de sedimento 4557979.3 y las muestras de
agua 4557980.3 y 4557981.3 (todas del año 2012) se separan drásticamente de las 19
muestras restantes, mostrando un patrón de distribución diferente. Al cotejar el número total
de secuencias presentes en esas muestras, se contabilizan menos secuencias que el
promedio de todas las muestras (menos de 192,788 secuencias) y se decide eliminar estos
metagenomas para observar la distribución dentro del agrupamiento de los 19 metagenomas
restantes. 
Cuando se remueven las muestras atípicas (de valores bajos de cobertura) 4557979.3,
4557980.3 y 4557981.3 del CA (Figura 8) se puede discriminar a detalle la dispersión y
agrupamiento de los demás puntos de muestreo. En este mismo CA, las muestras de agua
se separan en dos grupos de acuerdo al año de muestreo, aunque la muestra 4557990.3
(año 2012) se aleja de ambos grupos; en el caso del sedimento no hay una agrupación entre
las muestras dependiente del año, pero están más cercanas entre las muestras de
sedimento que con las de agua. La muestra de sedimento 4557994.3 (año 2012), se agrupa
con las muestras de sedimento 4557997.3, 4557984.3 y 4557991.3 (año 2011). 
34
Figura 7. Análisis de correspondencia funcional. En el recuadro de lado izquierdo se muestra
la distribución de los 22 metagenomas de acuerdo al tipo de muestra y año de muestreo. Se
observa la separación entre sí de las muestras de agua y sedimento. En el recuadro de lado
derecho, los puntos de colores representan la distribución de las funciones, coloreadas de
acuerdo al primer nivel de la jerarquía de anotación a laque pertenecen.
35
Figura 8. Análisis de correspondencia funcional sin tres muestras atípicas. En el recuadro de
lado izquierdo se muestra la distribución de 19 metagenomas (sin las muestras 4557979.3,
4557980.3 y 4557981.3) de acuerdo al tipo de muestra y año de muestreo. Se observa la
separación entre sí de las muestras de agua (lado izquierdo) y sedimento (lado derecho). En
el recuadro de lado derecho, los puntos de colores representan la distribución de las
funciones, coloreadas de acuerdo a la primer nivel de la jerarquía de anotación a la que
pertenecen.
36
Análisis de la diversidad taxonómica en los metagenomas analizados. 
La familia de bacterias presente en todas las muestras y con mayor frecuencia relativa es
Rhodobacteraceae (0.01 – 0.30). Otras familias con mayor frecuencia relativa (0.04 – 0.45)
presentes en algunas muestras son: Desulfovibrionaceae, Enterobacteriaceae,
Streptococcaceae, Cytophagaceae, Flavobacteriaceae, Bradyrhizobiaceae y
Staphylococcaceae (Tabla 4). Del total de metagenomas, solamente 15 presentan al menos
una familia con mayor frecuencia relativa; el número máximo de familias es de 3
(Desulfovibrionaceae, Enterobacteriaceae, Streptococcaceae) y se encuentran en el
metagenoma 4557979.3 (Tabla 5).
El análisis de correspondencia (CA) de la taxonomía de los metagenomas se presenta
como un bi-plot en la Figura 9, de lado izquierdo se encuentra la distribución de las muestras,
del lado derecho cada uno de los OTUs identificados, coloreado por su pertenencia al nivel
de phylum. Cada muestra a su vez se identifica por el tipo de sitio (agua o sedimento) y por
el año de muestreo (2011 o 2012). 
En panel izquierdo (Figura 9), observamos que las muestras se agrupan de forma
independientemente del sitio y año de muestreo. Las muestras de sedimento 4557979.3,
4557994.3 y 4557984.3 están agrupadas con las muestras de agua 4557978.3, 4557985.3,
4557992.3 y 4557109.3 (años 2011 y 2012). Por otra parte la muestra de sedimento
4557982.3 (año 2011) se asocia con las muestras de agua 4557980.3, 4557988.3 y
4557989.3 (año 2012). Las muestras que se alejan del agrupamiento mayoritario en la
esquina superior derecha son 4557996.3 (agua, año 2012) y 4557997.3 (sedimento, año
2011), así como las muestras 4557990.3 (agua, año 2012) y 4557991.3 (sedimento, año
2012) en la parte inferior central. Las muestras de agua 4557983.3, 4557993.3 y 4557981.3
forman un grupo (asignado cualitativamente), mientras que las muestras 4557987.3,
4557986.3 (sedimento), 4557995.3 y 4557998.3 (agua) no se observan como parte de los
demás agrupamientos, aunque cabe mencionar que las muestras de agua son más cercanas
entre si. Cabe señalar que algunas muestras de sedimento y agua están sobrepuestas en los
CA, como son los casos de las muestras 4557984.3, 4557994.3, 4557982.3 (sedimento),
37
4557985.3, 4557109.3 y 4557980.3 (agua). 
 
Tabla 4. Familias con mayor frecuencia relativa. Se resumen las familias con mayor
frecuencia relativa en el análisis taxonómico general (primeros 8 renglones) y en el análisis
taxonómico de bacterias (últimos 7 renglones). En ambos casos se describen las muestras
en las que están presentes dichas familias y el intervalo de frecuencia relativa (arriba del
promedio). 
38
Clave Dominio Familia Muestras Frecuencia Relativa
65 Bacteria Cytophagaceae 0.05 – 0.11
13 Bacteria Flavobacteriaceae 0.03 – 0.12
10 Bacteria Streptococcaceae
0.04 – 0.19
72 Bacteria Desulfovibrionaceae 0.16 – 0.39
53 Bacteria Enterobacteriaceae
0.06 – 0.19
36 Bacteria Alcaligenaceae 0.12
43 Bacteria Bradyrhizobiaceae
0.06 – 0.11
9 Bacteria Comamonadaceae 0.04 – 0.07
204 Bacteria Desulfovibrionaceae 0.19 – 0.45
239 Bacteria Enterobacteriaceae 0.14 – 0.32
117 Bacteria Streptococcaceae 0.13 - 0.24
57 Bacteria Cytophagaceae 0.11 – 0.12
60 Bacteria Flavobacteriaceae 0.09 – 0.14
157 Bacteria Bradyrhizobiaceae 0.13 – 0.13
109 Bacteria Staphylococcaceae 0.17
4557983.3, 4557978.3, 4557998.3, 
4557993.3, 4557992.3, 4557985.3, 
4557109.3
4557997.3, 4557995.3, 4557988.3, 
4557989.3, 4557983.3, 4557978.3, 
4557998.3, 4557993.3, 4557992.3, 
4557985.3, 4557109.3
4557979.3, 4557982.3, 4557990.3, 
4557991.3, 4557986.3, 4557987.3
4557979.3 y 4557982.3
4557979.3, 4557982.3, 4557981.3, 
4557980.3, 4557990.3
4557979.3
4557997.3, 4557995.3, 4557988.3, 
4557989.3
4557981.3, 4557980.3, 4557997.3, 
4557995.3, 4557988.3, 4557989.3
4557979.3 y 4557982.3
4557979.3, 4557982.3, 4557980.3, 
4557981.3
4557979.3, 4557990.3, 4557991.3, 
4557987.3, 4557986.3
4557993.3, 4557992.3, 4557109.3, 
4557985.3
4557998.3, 4557993.3, 4557992.3, 
4557109.3, 4557985.3
4557995.3 y 4557997.3
4557990.3
Tabla 5. Familias de bacterias con frecuencia relativa mayor al promedio en los
metagenomas analizados. Se marcaron (x) los metagenomas que tienen alguna de las 7
familias con frecuencia relativa mayor al promedio. También se muestra el total de familias
por cada metagenoma. 
39
Figura 9. Análisis de correspondencia de la diversidad taxonómica. En el recuadro de lado
izquierdo se muestra la distribución de los 22 metagenomas, los agrupamientos existentes
son independientes al tipo de muestra y año de muestreo. En el recuadro de lado derecho,
los puntos de colores muestran la distribución de las familias dependiendo al phyla al que
corresponden.
40
Funciones y familias diferenciales significativamente, entre las 
muestras de agua y sedimento en los dos años.
Se calcularon un total de 1,503 funciones cuyas abundancias son diferentes
significativamente (p=0.001) en las siguientes comparaciones: entre las muestras de agua de
los años 2011-2012 (comparación=agua); agua del año 2011 y el sedimento del 2011
(comparación=as11); agua del año 2012 contra el sedimento del año 2012
(comparación=as12); agua y sedimento del año 2011 vs agua y sedimento del 2012
(comparación=as); y finalmente sedimento de ambos años 2011-2012 (comparación=sed).
Las mismas comparaciones por grupos se hicieron para las diferencias taxonómicas y
existen un total de 97 familias diferenciales entre todas las comparaciones. La información de
las diferencias significativas funcionales puede consultarse en la tabla suplementaria
Comparaciones_funcionales en la siguiente dirección:
http://figshare.com/s/1c9acb16710011e5878206ec4b8d1f61
Un resultado central de este trabajo, es que tanto a nivel funcional y taxonómico, no
existen diferencias significativas en el tiempo para las muestras de sedimento años 2011 y
2012. Sólo en taxonomía (familias), no existieron diferencias significativas en la comparación
de las muestras de agua y sedimento del año 2012. En la Tabla 6, se muestra un resumen de
la cantidad de funciones y familias diferenciales entre las comparaciones. 
41
http://figshare.com/s/1c9acb16710011e5878206ec4b8d1f61
Tabla 6. Resumen resultados de funciones y familias diferencialmente abundantes en las
muestras. En la primera columna, los primeros 5 archivos corresponden al análisis funcional
y los últimos cinco archivos son parte del análisis taxonómico a nivel de familia del dominio
Bacteria (_b). Se define el grupo 1 y grupo 2 en cada uno de los archivos, el análisis detectó
las características diferencialmente abundantes que se encontraron en el grupo 2. Se
muestra el rango del valor p en cada una de las características, descartando las familias
Pseudomonadaceae (250) y Bdellovibrionaceae (196) que obtuvieron un valor p igual a cero.
En las últimas dos columnas se muestran las funciones y familias diferencialmente
abundantes en cada uno de los archivos (total).
42
Archivo 
Grupo 1 Grupo 2
valor p
Funciones Taxonomía
de diferencialmente (Familia)
entrada min max abundantes Dif. Abundantes
agua Agua 2011 Agua 2012 1.67E-07 1.00E-03 695
as11 Agua

Continuar navegando