Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO POSGRADO EN CIENCIAS BIOLÓGICAS FACULTAD DE CIENCIAS ORIGEN Y EVOLUCIÓN TEMPRANA DE LOS VIRUS Y SU RELACIÓN CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN CIENCIAS PRESENTA: JOSÉ ALBERTO CAMPILLO BALDERAS TUTOR PRINCIPAL DE TESIS: DR. ARTURO CARLOS II BECERRA BRACHO FACULTAD DE CIENCIAS COMITÉ TUTOR: DR. JOSÉ LUIS DELAYE ARREDONDO CINVESTAV UNIDAD IRAPUATO COMITÉ TUTOR: DR. LEÓN PATRICIO MARTÍNEZ CASTILLA FACULTAD DE QUÍMICA, UNAM MÉXICO, CD. MX. JUNIO 2018 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO POSGRADO EN CIENCIAS BIOLÓGICAS FACULTAD DE CIENCIAS ORIGEN Y EVOLUCIÓN TEMPRANA DE LOS VIRUS Y SU RELACIÓN CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN CIENCIAS PRESENTA: JOSÉ ALBERTO CAMPILLO BALDERAS TUTOR PRINCIPAL DE TESIS: DR. ARTURO CARLOS II BECERRA BRACHO FACULTAD DE CIENCIAS COMITÉ TUTOR: DR. JOSÉ LUIS DELAYE ARREDONDO CINVESTAV UNIDAD IRAPUATO COMITÉ TUTOR: DR. LEÓN PATRICIO MARTÍNEZ CASTILLA FACULTAD DE QUÍMICA, UNAM MÉXICO, CD. MX. JUNIO 2018 2 3 Ciencias POSGRADO EN CIENCIAS BIOLÓGICAS FACULTAD DE CIENCIAS DIVISION ACADÉMICA DE INVESTIGACiÓN Y POSGRADO COORDINACIÓN OFICIO FCIElDAIP/470t2018 ASUNTO: Oficio de Jurado Lic . Ivonne Ramirez Wence Directora General de Administración Escolar, UNAM Presente Me permito informar a usted que en la reunión ordinaria del Comité Académico del Posgrado en Ciencias Biológicas . celebrada el día 12 de marzo de 2018. se aprobó el siguiente jurado para el examen de grado de DOCTOR EN CIENCIAS del (la) alumno (a) CAMPILLO BALOERAS JaSE ALBERTO con número de cuenta 505017473 con la tesis titulada: "ORIGEN Y EVOLUCiÓN TEMPRANA DE LOS VIRUS Y SU RELACiÓN CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS", real[zada bajo la dirección del (la) DR. ARTURO CARLOS 11 BECERRA BRACHO: Presldenle Vocal: Secretario Suplenle Suplente: DR. ANTONIO EUSEBIO LAZCANO·ARAUJO RE YES DR. LUIS DAVID ALCARAZ PERAZA DRA. BEATRIZ GÓMEZ GARCiA DR. lUIS JOSÉ DELAYE ARREDONOO DR. CARLOS CABELLO GUTIÉRREZ Sin otro particular. me es gralo enviarle un cordial saludo AGNSNMVAlASRJipp ATENTAMENTE " POR MI RAZA HABLARA EL ESPIRITU" Ciudad Universitaria, Cd Mx., a 08 de mayo de 2018 ,- DR. ADOLFO GERAR O NAVARRO SIGÜENZA COORDINAD R DEL PROGRAMA COOROINACION Lllluad di.' Posgrado ' COOrdlTlaCIÓn del Posgrado en CienCias BiOlógicas Edificio D. ler. PISO, Circu ito de Po~~mldos Cd Lniversit:ltia Delegación Coyoacáll c.P. 04510 ed. M.l!; . Te!. 5623 7002 hup: pcbiol.po"grauo,unam.I;t., AGRADECIMIENTOS INSTITUCIONALES Al Posgrado en Ciencias Biológicas (PCB) de la Universidad Nacional Autónoma de México (UNAM) por todo el apoyo académico otorgado para mi formación científica. Al Consejo Nacional de Ciencia y Tecnología (Conacyt) por concederme la beca de manutención para realizar mis estudios de doctorado (CVU 165264). Al Programa de Apoyo para Estudios de Posgrado (PAEP) del PCB por otorgarme el apoyo financiero para asistir a dos congresos internacionales y a través de la Convocatoria de Mejoras a la Tasa de Graduación del Doctorado en Ciencias Biológicas. Al Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) por apoyarnos económicamente a través del proyecto de investigación IN223916. A mi Tutor Principal, el Dr. Arturo Carlos II Becerra Bracho, y a los miembros de mi Comité Tutor, el Dr. José Luis Delaye Arredondo y el Dr. León Patricio Martínez Castilla, por aceptar la dirección de esta tesis y por su apoyo académico en la elaboración de la misma. 4 AGRADECIMIENTOS A TÍTULO PERSONAL A mis padres y demás familia por su amor incondicional y por su paciencia sobre mi ausencia en muchos momentos familiares importantes debido a la realización de esta tesis. Al Dr. Arturo Becerra y al Al Dr. Antonio Lazcano por su sabiduría, amistad, apoyo, consejos, paciencia, sentido del humor mexicano e inglés y por su interminable deseo de tratar de conquistar al mundo con rotíferos gigantes. A mi Comité Tutor por sus comentarios, llamadas de atención, sugerencias y amistad. A mis queridos Macacos por su amistad, apoyo, afecto y acoso psicológico. A mi amada UNAM por su cobijo académico. A mis profesores que impartieron cátedra en el PCB por sus enseñanzas. Y, por supuesto… 5 ÍNDICE RESUMEN 8 ABSTRACT 9 I. INTRODUCCIÓN 10 1.1 Características generales de los virus 10 1.2 Características genómicas y genéticas de los virus 11 1.3 Características moleculares y ecológicas de los virus en relación con sus hospederos 12 1.4 Características evolutivas 13 1.4.1 Origen de los virus 14 1.4.1.1 Hipótesis del virocentrismo (origen precelular) 14 1.4.1.2 Hipótesis de la regresión celular (origen post-celular temprano) 15 1.4.1.3 Hipótesis del escape (origen post-celular tardío) 15 1.4.1.4 Hipótesis de la coevolutiva a largo plazo (origen simultáneo o precelular) 16 1.4.1.5 Hipótesis de las vesículas (origen simultáneo y posterior) 16 1.4.2 Estrategias metodológicas para abordar el problema sobre su origen 17 1.4.2.1 Estrategia basada en secuencia primaria de proteínas 17 1.4.2.2 Estrategia basada en organización del genoma 18 1.4.2.3 Estrategia basada en estructura terciaria 18 1.4.3 Estudios pangenómicos 19 1.5 El último ancestro común de los seres vivos y los virus 20 1.6 Los megavirus y el LCA 20 II. MATERIALES Y MÉTODOS 22 2.1 Construcción de la base de datos con información biológica y ecológica de los virus 22 2.2 Análisis de los datos biológicos y ecológicos de los virus 22 2.3 Construcción de la base de datos pangenómica de los virus 23 2.4 Análisis pangenómicos de los megavirus 24 2.5 Clasificación funcional de los grupos de homólogos del pangenoma de megavirus 25 2.6 Búsqueda de homólogos en bases de datos celulares y virales 28 2.7 Análisis filogenéticos basados en estructura primaria del repertorio del pangenoma de megavirus 28 2.8 Construcción de la base de datos de estructuras terciarias 29 2.9 Análisis filogenéticos basados en estructuras terciarias 29 III. RESULTADOS 31 3.1 Bases de datos biológicos y ecológicos 31 3.2 Bases de datos de proteomas virales 31 3.3 Pagenoma viral de los megavirus 31 6 3.4 Composición funcional del pangenoma de los megavirus 37 3.5 Análisis filogenéticos basados en la estructura primaria 41 3.6 Análisis filogenéticos basados en la estructura terciaria 52 IV. DISCUSIÓN 53 V. CONCLUSIONES 60 VI. PERSPECTIVAS 61 VII. REFERENCIAS 62 7 RESUMEN La genómica comparada ha permitido trazar la historia evolutiva de todos los seres vivos y ha proporcionado evidencia indirecta de la existencia del último ancestro común a todosellos llamado LCA (Last Common Ancestor). Sin embargo, la descripción de las relaciones evolutivas entre los virus a través del análisis de datos genómicos no ha permitido determinar con claridad su origen. Por otro lado, la reciente disponibilidad de más datos biológicos, genómicos, estructurales y ecológicos de los virus de DNA y RNA en las bases de datos públicas proporciona la oportunidad de inferir y analizar, con más detalle, las relaciones evolutivas que guardan entre ellos mismos y con sus hospederos. En la presente tesis, nosotros hemos comparado y analizado los datos biológicos y ecológicos recientes, la composición pangenómica y la filogenómica de varias familias virales para determinar su posible origen y evolución temprana con respecto a sus hospederos Bacteria, Archaea y Eukarya. Algunos virólogos sostienen que debido al tamaño y a la composición química de los virus de RNA, éstos surgieron en el Mundo del RNA. Sin embargo, nuestros resultados han revelado que dichas características no muestran una correlación con la distribución de estos virus y la filogenia de los hospederos correspondientes. Nuestros resultados han mostrado que la mayoría de los virus de RNA infectan solo a Eukarya, con excepción de los Cystoviridae y los Leviviridae que sólo infectan a proteobacterias que forman parte de la microbiota de algunos animales. Aún no se han encontrado virus de RNA en Archaea. Por otra parte, los virus de DNA de doble cadena (dsDNA), como los fagos, sólo infectan a Bacteria y a Archaea, pero no a Eukarya. Otros virus de genomas grandes de dsDNA, como los virus citoplásmicos gigantes (megavirus), solo infectan amibas (protistas) y no a otros linajes eucariontes evolutivamente más recientes. Por otro lado, nuestros análisis pangenómicos y la construcción de filogenias han mostrado que las proteínas que se encuentran altamente conservadas en los megavirus (“núcleo pangenómico”) intervienen en procesos de replicación y reparación del DNA, transcripción y señalización. La mayoría de estas proteínas tienen un origen celular (protistas, plantas, hongos y animales) y, por lo tanto, son probablemente las más antiguas al resto del pangenoma. Estos mismos resultados han revelado que aquellas proteínas virales que no están muy conservadas (“cubierta y nube pangenómica”) intervienen en algunos procesos genéticos, celulares y metabólicos, pero mayoritariamente tienen funciones desconocidas. La mayoría de las filogenias del resto del pangenoma ha revelado un posible origen celular reciente y otras proteínas virales podrían ser homólogos distantes de células de acuerdo a estudios preliminares de comparación de estructuras terciarias. Estos resultados podrían indicar que los virus están relacionados con la historia evolutiva de sus hospederos celulares, es decir, los virus de RNA tienen un origen más reciente que debe ser visto como una coevolución con los eucariontes lo cual indicaría que no tuvieron un origen en el Mundo del RNA. Por otro lado, los virus de DNA podrían tener un origen más antiguo que se remonta posiblemente al origen mismo del LCA. 8 ABSTRACT The comparative genomics has allowed to trace the evolutionary history of all organisms and it has also given some indirect evidence on the traits of the last common ancestor (LCA) of Bacteria, Archaea, and Eukarya. However, the phylogenetic analysis based on sequence data to determine the origin and early evolution of viruses has been severely compromised by their highly divergent nature. On the other hand, the recent availability of more biological, genomic, structural, and ecological data of DNA and RNA viruses has provided the opportunity to infer and analyze, in detail, their evolutionary relationships among them and their hosts. In a first approach to understand the origin of viruses, we compared and analyzed recent biological and ecological data, determined and characterized the pangenomic composition, and made a phylogenomic exploration of several viral families. While some researchers argue that viruses are the missing link between the non-living, the RNA world, and the first cells due to their morphological and genomic “simplicity”, our results reveal that the size distribution and chemical nature of the viral genome do not exhibit a correlation with the phylogeny of their hosts. We found that the supposedly “more complex” and longest viral genomes are found in phages, which infect only ancient domains of life (Bacteria and Archaea) and in giant viruses, as megaviruses, which infect ancient lineages of eukaryotes (protists). A rather significant majority of the RNA viruses infect only the Eukarya domain. No RNA viruses have been found in Archaea yet. There are only two RNA viral families in prokaryotes, but they infect Proteobacteria of animal microbiota. Our pangenomic analysis and phylogenetic trees have shown that the highly-conserved proteins (core genes) in megaviruses intervene in the most of DNA replication and repair processes, probably have either a bacteria, protist, fungi, plant, and/or an animal origin, and therefore, could be the most antique proteins than the rest of the pangenome. These same results have indicated that less-conserved proteins (shell genes) and unique proteins specific to single viral strains (cloud genes) intervene in some genetic, cellular, metabolic, and unknown functions, have mainly a viral and eukaryotic origin, and therefore, they could be the most recent proteins of the viral pangenome. These preliminary results might suggest that the evolutionary history of viruses is related to the phylogeny of their host cells, that is to say, DNA viruses could have a more antique origin that goes back to the LCA stage, while the origin of RNA viruses may be explained by a coevolutionary process with their eukaryotic hosts. These asseverations could confirm the hypothesis that viruses are escaping genes from cell genomes; and hence, viruses can be antique, but not primitive. 9 I. INTRODUCCIÓN 1.1 Características generales de los virus De acuerdo a los análisis metagenómicos, los virus son las entidades biológicas universales más abundantes de la biósfera con un estimado de 1031 virus (Breitbart & Rohwer, 2005). La virósfera (Abroi & Gough, 2011) muy probablemente infecta a todos los tipos celulares de los tres dominios del árbol de la vida (Bacteria, Archaea y Eukarya) y tiene una influencia extraordinaria en procesos biogeoquímicos y geológicos (Edwards & Rohwer, 2005). Los virus presentan propiedades peculiares que los definen como agentes infecciosos intracelulares que dependen de la maquinaria enzimática para replicarse. Se caracterizan por tener una arquitectura muy simple que puede resguardar a un genoma de DNA o de RNA en una cubierta llamada cápside (icosaédrica, helicoidal o compleja) y que, en algunos casos, adicionalmente presenta una membrana lipídica. Las partículas virales de la progenie infecciosa, llamadas viriones, se forman por el autoensamblajede novo a partir de los componentes recién sintetizados en la célula durante su ciclo infeccioso (Flint, Rall, Racaniello, & Skalka, 2015). Algunas características son equivalentes a las de las células como la posesión de genes, la capacidad de crear múltiples copias de sí mismos y la habilidad de evolucionar por selección natural (Gibbs & Calisher, 2005). Sin embargo, ellos no realizan autopoiesis (por sí mismos no pueden autoreplicarse porque no tienen ribosomas ni tienen un metabolismo propio) y no comparten un ancestro común. Esto ha dado pie a que a que haya una discusión sobre si los virus pueden incluirse en la definición de vida o simplemente son estructuras orgánicas que pueden interactuar con los seres vivos (Koonin & Starokadomskyy, 2016; Moreira & López-García, 2009). Hasta febrero de 2018, se cuenta con casi 7,500 genomas de referencia en el GenBank, un poco más de 2,600 proteomas y más de 16,700 proteínas virales de referencia en el ViralZone y se tiene la descripción de 121 familias, 142 géneros y 9 especies sin clasificar en el Comité Internacional de Taxonomía de Virus (ICTV, por sus siglas en inglés). 1.2 Características genómicas y genéticas de los virus El sistema de clasificación que maneja el ICTV se basa en la naturaleza química de ácido nucleico del genoma viral (DNA o RNA, circular o lineal, de una o dos cadenas, 10 https://paperpile.com/c/01gtJq/r2hZ https://paperpile.com/c/01gtJq/r2hZ https://paperpile.com/c/01gtJq/nxoe https://paperpile.com/c/01gtJq/y2PR https://paperpile.com/c/01gtJq/SeCH https://paperpile.com/c/01gtJq/SeCH https://paperpile.com/c/01gtJq/IcSY https://paperpile.com/c/01gtJq/GvmP+b3wU https://paperpile.com/c/01gtJq/GvmP+b3wU segmentado o no), en la arquitectura y dimensión de la cápside y en la presencia o ausencia de una membrana lipídica (Flint et al., 2015). El ICTV también hace uso de la clasificación de Baltimore (1971) que se basa en la manera en que los virus producen su RNA mensajero que será traducido por los ribosomas de sus hospederos. Así, existen siete tipos de genomas para todas las familias virales: de DNA de doble cadena (dsDNA) y de cadena sencilla (ssDNA); de RNA de doble cadena (dsRNA), de cadena sencilla positiva [(+)ssRNA] y de cadena sencilla negativa [(-)ssRNA] y retrovirus de RNA (ssRNA-RT) y de DNA (dsDNA-RT) (Baltimore, 1971). El tamaño del genoma varía enormemente entre los grupos virales. El genoma de mayor longitud es el de los Pandoravirus (dsDNA) con 2,500 kilopares de bases (kbp) (Philippe et al., 2013), y el de menor longitud es el de los circovirus de ssDNA con apenas 1 kbp (Belyi, Levine, & Skalka, 2010). Los genomas de los virus de RNA en promedio son más pequeños que los de DNA con límite de 35 kpb (Campillo-Balderas, Lazcano, & Becerra, 2015). A diferencia de los virus de dsDNA, los virus de RNA y de ssDNA se caracterizan por tener una tasa alta de mutación debido a que carecen de mecanismos de corrección, generar un gran número de individuos por progenie, presentar una duplicación génica y una transferencia horizontal de genes muy bajas, mantener niveles de recombinación genética relativamente poco frecuentes, tener un sobrelapamiento de genes muy común y poseer genomas segmentados (Brandes & Linial, 2016; Duffy & Holmes, 2009; Holmes, 2009; Sanjuán, Nebot, Chirico, Mansky, & Belshaw, 2010). La replicación del genoma de algunos virus de DNA generalmente tiene lugar en el núcleo de la célula y dependen de los mecanismos de procesamiento de DNA y de RNA de la célula, mientras que la replicación de los megavirus se lleva a cabo en el citoplasma y generalmente codifican algunas proteínas que intervienen en la maquinaria de replicación, transcripción y síntesis de proteínas. La replicación del genoma de los virus de RNA se presenta en el citoplasma con diferentes modos de replicación (RNA con polaridad positiva, negativa o ambas) y en la presencia de una polimerasa de RNA dependiente de RNA (RdRp). Finalmente, la replicación del genoma de los retrovirus se da con la presencia de una transcriptasa reversa (RT) para producir un RNA intermediario (virus de dsDNA-RT) o un DNA intermediario (virus de ssRNA-RT) que después es integrado al genoma celular recibiendo el nombre de provirus. 11 https://paperpile.com/c/01gtJq/SeCH https://paperpile.com/c/01gtJq/wh0r https://paperpile.com/c/01gtJq/mwBh https://paperpile.com/c/01gtJq/mwBh https://paperpile.com/c/01gtJq/bwP5 https://paperpile.com/c/01gtJq/bwP5 https://paperpile.com/c/01gtJq/IWw6 https://paperpile.com/c/01gtJq/DQ4h+MT4D+dTD2+z8OT https://paperpile.com/c/01gtJq/DQ4h+MT4D+dTD2+z8OT 1.3 Características moleculares y ecológicas de los virus en relación con sus hospederos Los virus tienen distintos tipos de interacción con sus respectivos hospederos desde un nivel bioquímico y celular hasta un nivel ecológico para poder infectar, replicarse y diseminarse. A nivel molecular y celular, existen determinantes específicos que permiten una exitosa infección viral como puede ser la unión a la célula hospedera mediada por proteínas virales unidas a receptores celulares tales como proteínas membranales, lípidos, carbohidratos, glicoproteínas, polisacáridos, glicoesfingolípidos y lipopolisacáridos, entre otros (Grove & Marsh, 2011; Rakhuba, Kolomiets, Dey, & Novik, 2010). Dicha unión determina la entrada del genoma viral a la célula a través de su captación y tráfico intracelular y, en última instancia, la penetración al citosol. Esto ocasionará que, en algunos casos, como los virus que infectan vertebrados, puedan tener efectos citopáticos (habilidad para matar células a través de proteínas virales citotóxicas, inhibición de la síntesis de proteínas celulares, alteración del metabolismo celular o apoptosis y lisis celular) (Grove & Marsh, 2011; Wagner, 1984). En otros casos, como algunos virus que infectan vertebrados y algunos que infectan procariontes, pueden recurrir a un estado de latencia ya sea a través de la integración de su genoma al de la célula o de la formación de un episoma (Fortier & Sekulovic, 2013; Grinde, 2013; McDonnel, Sparger, & Murphy, 2013). Sin embargo, los hospederos celulares también responderán antagónicamente ante una infección viral a través de las vías de señalización de su sistema de defensa. Desde el sistema CRISPR-Cas y restricción-modificación en procariontes (Barrangou, 2015; Murray, 2002), mecanismos del silenciamiento del RNA en plantas e invertebrados (Csorba, Pantaleo, & Burgyán, 2009), hasta la modulación del sistema inmunológico innato y adaptativo en vertebrados (Flint et al., 2015). A nivel ecológico se puede apreciar la gran diversidad de ecosistemas en los cuales los virus pueden subsistir, pero sin dejar de considerar su especificidad a ciertos hospederos. Desde la atmósfera (Reche, D’Orta, Mladenov, Winget, & Suttle, 2018), los desiertos (Zablocki, Adriaenssens, & Cowan, 2015), los océanos (Suttle, 2005) y los suelos (Williamson, Radosevich, & Wommack, 2005), donde abundan los virusde dsDNA que infectan a cepas únicas de bacterias y arqueas; pasando por los ecosistemas vegetales (Roossinck, 2012), donde están presentes principalmente virus de RNA y de ssDNA que infectan a plantas e insectos; hasta la microbiota y diversos tejidos de animales donde se encuentran virus de DNA 12 https://paperpile.com/c/01gtJq/HWZp+stZE https://paperpile.com/c/01gtJq/HWZp+stZE https://paperpile.com/c/01gtJq/HWZp+WWFd https://paperpile.com/c/01gtJq/yHzT+bm6W+Zg6b https://paperpile.com/c/01gtJq/yHzT+bm6W+Zg6b https://paperpile.com/c/01gtJq/AYgx+s274 https://paperpile.com/c/01gtJq/AYgx+s274 https://paperpile.com/c/01gtJq/YgAp https://paperpile.com/c/01gtJq/SeCH https://paperpile.com/c/01gtJq/MYPh https://paperpile.com/c/01gtJq/oVVN https://paperpile.com/c/01gtJq/oVVN https://paperpile.com/c/01gtJq/OH0V https://paperpile.com/c/01gtJq/4KP7 https://paperpile.com/c/01gtJq/4KP7 https://paperpile.com/c/01gtJq/Z0Hw y RNA (Andrewes, 1963; Cadwell, 2015; Ryabov, 2017). Las relaciones simbióticas entre estos holobiontes abarcan diversos estilos de vida en los que se incluye una relación parasítica (el virus se beneficia a expensas del hospedero), comensal (el virus se beneficia sin afectar al hospedero) o mutualista (ambos se benefician uno del otro) (Roossinck & Bazán, 2017). La interacción íntima entre los virus y sus hospederos son las que han puesto a los virus entre las ramas del árbol de la vida como participantes activos en la evolución de los seres vivos. 1.4 Características evolutivas Como se dijo anteriormente, los virus pueden ser considerados oportunistas, pero también son agentes indispensables en la evolución de sus hospederos a través de la transferencia horizontal de genes. Una elevada tasa de mutación [de 1.5 x 10-3 mutaciones por nucleótido por replicación (m/n/r) en virus de (+)ssRNA (J. W. Drake, 1993) a 1.8 x 10-8 m/n/r en virus de dsDNA (John W. Drake & Hwang, 2005)] combinada con procesos de selección natural, deriva génica, epistasis, recombinación y rearreglo genético han permitido que los virus puedan adaptarse a los cambios que naturalmente sufre el hospedero (Flint et al., 2015; Gibbs & Calisher, 2005; Holmes, 2009). Desde un enfoque evolutivo, los virus en realidad son poblaciones que están en un equilibrio dinámico de replicones similares entre sí llamados cuasiespecies (Eigen, McCaskill, & Schuster, 1988). Éstas se caracterizan por presentar una gama diversa de genotipos y fenotipos que les permiten sobrevivir a eventos de selección y heredar las mutaciones seleccionadas a la progenie. Sin embargo, a pesar de la alta tasa de mutación entre dichas variantes, existen elementos genéticos de tipo cis y trans que se conservan y que intervienen en procesos de replicación y empaquetamiento del genoma y síntesis del RNA mensajero (Flint et al., 2015). Estas secuencias son bastante estables para ser utilizadas como marcadores filogenéticos. Se ha reportado que estos fósiles moleculares conservados, como la DNA y la RNA polimerasa viral, pueden trazar las relaciones filogenéticas profundas sobre su propio origen (Černý, Černá Bolfíková, de A Zanotto, Grubhoffer, & Růžek, 2015; Jácome, Becerra, Ponce de León, & Lazcano, 2015), aunque también pueden servir como marcadores filogenéticos para explicar el origen mismo y la evolución temprana de cada una de las familias virales. 13 https://paperpile.com/c/01gtJq/tuH0+5QGt+9TzL https://paperpile.com/c/01gtJq/K9Z5 https://paperpile.com/c/01gtJq/mHcP https://paperpile.com/c/01gtJq/SXNK https://paperpile.com/c/01gtJq/SeCH+z8OT+IcSY https://paperpile.com/c/01gtJq/SeCH+z8OT+IcSY https://paperpile.com/c/01gtJq/zPwx https://paperpile.com/c/01gtJq/SeCH https://paperpile.com/c/01gtJq/0L2f+R1w7 https://paperpile.com/c/01gtJq/0L2f+R1w7 1.4.1 Origen de los virus La genómica comparada ha permitido trazar la historia evolutiva de todos los organismos e inferir la existencia hipotética del LCA a través de marcadores filogenéticos como los genes ribosomales y proteínas que intervienen en el procesamiento del RNA, transcripción y traducción (Becerra, Delaye, Islas, & Lazcano, 2007; Doolittle, 2000). En contraste, aún existe una fuerte discusión y un claro desconocimiento sobre el origen y evolución temprana de los virus debido a la dificultad para inferir sus relaciones filogenéticas dada su naturaleza divergente (origen polifilético) y la inexistencia de su registro fósil (Holmes, 2009). A pesar de estos problemas, se tienen cinco hipótesis sobre el origen de los virus que no necesariamente son independientes o mutuamente excluyentes. La mayoría de estas hipótesis se basa en el tamaño y naturaleza química del genoma y la conservación de algunos marcadores filogenéticos de familias virales. Con base en la bibliografía examinada, podemos clasificar a las hipótesis sobre el origen de los virus de acuerdo a si éstos aparecieron antes, durante o después de las primeras entidades celulares. 1.4.1.1 Hipótesis del virocentrismo (origen precelular) De acuerdo a algunos autores, los virus son entidades biológicas que se originaron en un periodo pre-celular y, subsecuentemente, proporcionaron la materia prima para el origen de las primeras células. Los virus de RNA son los descendientes directos del Mundo del RNA. Para 1917, Felix D’Herelle y Frederick Twort ya habían descubierto a los virus a los que designaron como “formas de vida primordiales en el origen de la vida” (d’Herrelle & Smith, 1926). Ellos partían del siguiente silogismo: los virus son pequeños y si son pequeños son simples y si todo indica que los primeros organismos debieron ser simples, por lo tanto los virus debieron haber surgido primero (Beutner, 1938; Podolsky, 1996). Actualmente, esta hipótesis no tan solo se basa en la naturaleza y el tamaño de los genomas virales, sino también, en la supuesta existencia de genes distintivos (hallmark genes) de origen viral, es decir, no tienen homólogos celulares como son las proteínas de cápside con dominio jelly-roll , la helicasa de la superfamilia 3, la DNA primasa, la ATPasa, la transcriptasa reversa, la RNA polimerasa dependiente de RNA, entre otras (Koonin & Dolja, 2006; Koonin, Senkevich, & Dolja, 2006). Koonin y otros investigadores han reformado esta hipótesis y han propuesto que el origen de los virus se llevó a cabo en diferentes etapas primordiales de la vida: Mundo del RNA [viroides 14 https://paperpile.com/c/01gtJq/Bkuw+YJ9l https://paperpile.com/c/01gtJq/z8OT https://paperpile.com/c/01gtJq/zlk0 https://paperpile.com/c/01gtJq/zlk0 https://paperpile.com/c/01gtJq/Mk6I+pbFA https://paperpile.com/c/01gtJq/lokt+dY0L (Flores, Gago-Zachert, Serra, Sanjuán, & Elena, 2014)], Mundo del RNA/proteínas [virus de (+)RNA y de dsRNA)], Mundo de RNA-DNA (virus parecidos a los retrovirus), Mundo del DNA (virus de dsDNA) y, finalmente, una etapa post-celular temprana (fagos) y tardía (virus que infectan a eucariontes) (Koonin et al., 2006). 1.4.1.2 Hipótesis de la regresión celular (origen post-celular temprano) Otros autores sostienen que los virus se originaron por evolución regresiva de microorganismosa través de la pérdida de genes y, por lo tanto, se han convertido en parásitos intracelulares obligados en la actualidad. En 1935, los virólogos Robert Green y Sir Patrick Laidlaw sostuvieron que los virus se originaron a partir de células pequeñas que fueron perdiendo genes y, por lo tanto, algunas funciones a través del tiempo. Ellos consideraban como evidencia a las Rickettsia y las Chlamydia que son parásitos intracelulares obligados de eucariontes (Podolsky, 1996). Actualmente, existen varios científicos que apoyan esta versión sobre el origen de los virus. Uno de ellos, Patrick Forterre (2006) menciona que los virus se originaron en un mundo de RNA-proteínas cuando las ribocélulas, con ribosomas primitivos, ya habían emergido. Estas células primordiales perdieron su maquinaria de traducción hasta convertirse en parásitos obligados. Otros científicos, como los grupos de Didier Raoult y de Jean Claverie, sostienen que los megavirus son el resultado de la pérdida de genes de un cuarto dominio de la vida (Boyer et al., 2009; Colson, de Lamballerie, Fournous, & Raoult, 2012; Colson, Gimenez, Boyer, Fournous, & Raoult, 2011). Esto s virus pueden ser tan grandes como los de las bacterias más pequeñas y codificar genes para DNA polimerasas, helicasas y ribonucleótido reductasas, factor de transcripción eIF4E, aminoácido-tRNA ligasas, tRNA-aminoacil transferasas, y enzimas modificadores de tRNAs, todas ellas importantes en la replicación, transcripción y traducción del genoma (Philippe et al., 2013). Por otro lado, Nasir & Caetano-Anollés (2015) y Philippe et al (2013) también proponen que los virus modernos redujeron su genoma a partir de múltiples linajes celulares ancestrales que tenían RNA genómico y que coexistían con las células modernas. 1.4.1.3 Hipótesis del escape (origen post-celular tardío) Algunos autores aseveran que los virus son partes de genomas escapados a partir de entidades celulares de RNA o de DNA para convertirse en entidades replicativas autónomas. 15 https://paperpile.com/c/01gtJq/lLyN https://paperpile.com/c/01gtJq/lokt https://paperpile.com/c/01gtJq/Mk6I https://paperpile.com/c/01gtJq/ouBV https://paperpile.com/c/01gtJq/o2XA+pPHf+jmll https://paperpile.com/c/01gtJq/o2XA+pPHf+jmll https://paperpile.com/c/01gtJq/mwBh https://paperpile.com/c/01gtJq/mwBh+odCQ https://paperpile.com/c/01gtJq/mwBh+odCQ Para 1944, Frank MacFarlane Burnet propuso que los virus son “fragmentos errantes de material genético de origen celular” (Antonio Lazcano, 2010). Actualmente esta hipótesis ha sido retomada por algunos virólogos como Patrick Forterre (2006) (el mismo que apoya la hipótesis de la regresión celular) quien propone que algunas moléculas de RNA se escaparon de ribocélulas. Estos virus de RNA tuvieron un origen anterior al LCA y la prueba, según él, es que no se han encontrado proteínas homólogas entre los virus y los descendientes de este ancestro de los seres vivos. Además, Forterre subraya que dada la naturaleza simple de los mecanismos de transcripción/traducción de las ribocélulas, era más fácil que algunos elementos genéticos se volvieran autónomos. Aparentemente, los RNA mensajeros de las células pudieron ser independientes gracias a su capacidad de autoreplicación y de protección por una cápside. Esta misma hipótesis sostiene que tanto los virus de RNA como los de DNA surgieron después del origen celular (Holmes, 2009). 1.4.1.4 Hipótesis de la coevolutiva a largo plazo (origen simultáneo o precelular) Otros autores mencionan que los virus tienen un origen inmediatamente anterior o simultáneo al de las células y que ambas entidades comparten módulos funcionales. De acuerdo al virólogo Esteban Domingo (2015); a principios de este siglo, los estudios independientes de Bushman (2002), Mount (2004) y Hacker & Dobrindt (2006) sostienen dicha hipótesis gracias a la información genómica masiva con la cual se han identificado secuencias regulatorias y codificantes exclusivas de los virus (sin homólogos celulares). Existen dos módulos de proteínas exclusivamente virales: las propias (self) de la especie viral que son innatas y conservadas como las de la cápside y ATPasas de empaquetamiento del genoma y las no propias (non-self ) que provienen de otros virus por transferencia horizontal como las de la replicación del genoma y las de lisis celular (Krupovič & Bamford, 2007). Ambos módulos son funcionalmente esenciales y se comparten entre todos los virus. Es el segundo módulo el que ha contribuido a la coevolución de células y de estos replicones autónomos a través de transferencias horizontales (Domingo, 2015). 1.4.1.5 Hipótesis de las vesículas (origen simultáneo y posterior) Unos autores comparten la idea de que los ancestros virales, “protovirus”, se originaron en vesículas primitivas en coevolución con “protocélulas” del Mundo del RNA. Jalasvuori & Bamford (2008) mencionan que la mayoría de las vesículas formadas abióticamente y que contenían moléculas autoreplicativas pudieron haber sido seleccionadas 16 https://paperpile.com/c/01gtJq/VnF9 https://paperpile.com/c/01gtJq/z8OT https://paperpile.com/c/01gtJq/rf6P https://paperpile.com/c/01gtJq/XJ8S https://paperpile.com/c/01gtJq/ik58 https://paperpile.com/c/01gtJq/AhGz https://paperpile.com/c/01gtJq/m7Y5 https://paperpile.com/c/01gtJq/rf6P https://paperpile.com/c/01gtJq/nC9O positivamente. Estos protovirus coexistían y dispersaban genes horizontalmente a vesículas mayores llamadas protocélulas. Las protocélulas sobrevivieron al Mundo del RNA gracias a la retroalimentación contínua con estos protovirus y comenzaron a ser más independientes. En una etapa posterior, estos protovirus continuaron coevolucionando con protocélulas favoreciendo su selección a través de la expresión de peptidoglicano de la pared celular y de receptores membranales para la formación de “células verdaderas”. Las células se volvieron completamente autónomas mientras que los virus solo aprovechaban los recursos enzimáticos de éstas. Así, cuando emergió la población que hoy denominamos LCA, éstas células originaron mecanismos de defensa promoviendo la emergencia de los virus modernos. 1.4.2 Estrategias metodológicas para abordar el problema sobre su origen Un árbol filogenético es una representación gráfica sobre las relaciones evolutivas entre los taxa y se construye a partir de secuencias homólogas (ortólogos) (Fitch, 2000). El estudio del origen de la virósfera, como un todo, se complica porque no parece existir un marcador filogenético universal entre los linajes virales lo que demuestra, en principio, su origen polifilético. Sin embargo, existen algunos genes que se comparten en cada una de las familias virales y que podrían trazar las relaciones evolutivas monofiléticas en cada linaje. Es por ello que es importante identificar la estrategia metodológica correcta para la construcción de árboles filogenéticos de secuencias virales. En general, existen dos métodos para su construcción, uno basado en secuencias primarias de proteínas y, el otro, en estructuras virales. 1.4.2.1 Estrategia basadaen secuencia primaria de proteínas Estos métodos se basan en la información que puede otorgar un alineamiento de secuencias primarias de proteínas homólogas para la construcción de árboles filogenéticos. Las regiones alineadas son de interés porque reflejan su importancia evolutiva y estructural, mientras que los espacios (gaps) en el alineamiento representan eventos de inserción o deleción (Lam, Hon, & Tang, 2010; McCormack & Clewley, 2002; Romero, 2004). A través de estas estrategias se analizaron la DNA polimerasa y la replicasa viral como marcadores filogenéticos. Se demostró que la historia evolutiva de la DNA polimerasa es muy compleja porque existe una clara evidencia sobre la transferencia horizontal y el desplazamiento de 17 https://paperpile.com/c/01gtJq/vJTx https://paperpile.com/c/01gtJq/1irE+pvbW+jQkK genes no ortólogos entre virus, células y plásmidos (Filée, Forterre, Sen-Lin, & Laurent, 2002; Le Gall et al., 2008). También se evidenció que la RNA polimerasa dependiente de RNA presenta regiones muy conservadas entre los virus de RNA como el motivo C (Gly-Asp-Asp) (Gorbalenya et al., 2002) localizado en el subdominio palma y que, al mismo tiempo, con este análisis filogenético y el de otros marcadores, se pudieron clasificar varias familias virales de (+)ssRNA en un orden más alto: los picornavirales (Le Gall et al., 2008). 1.4.2.2 Estrategia basada en organización del genoma Para incrementar la robustez de la reconstrucción filogenética se pueden utilizar estrategias basadas en el análisis de múltiples genes o, si es el caso, en el de genomas completos de manera simultánea (Rokas, Williams, King, & Carroll, 2003). Estos estudios son útiles en mayor medida para el análisis filogenético de virus de dsDNA, ya que se cuenta con suficientes patrones genómicos como los Poxviridae (McLysaght, Baldi, & Gaut, 2003). Por otro lado, los virus de RNA tienen genomas pequeños con no más de 10 a 12 genes por lo que presentan un número menor de caracteres genéticamente informativos y, además, tienen poca resolución filogenética debido a la organización genómica variable (Holmes, 2009). 1.4.2.3 Estrategia basada en estructura terciaria Estos métodos se basan en la comparación de las estructuras tridimensionales de las proteínas, debido a que éstas presentan un grado más alto de conservación y, por lo tanto, proporcionan más información sobre su historia evolutiva que la variabilidad y dinámica de una secuencia primaria de aminoácidos (Chothia, 2003; Gerstein & Hegyi, 1998). Es debido a ello que los dominios de proteínas son considerados como unidades evolutivas (Murzin, Brenner, Hubbard, & Chothia, 1995; Riley & Labedan, 1997; Wang, Yafremava, Caetano-Anollés, Mittenthal, & Caetano-Anollés, 2007) y útiles como caracteres filogenéticos para analizar relaciones evolutivas profundas (Abroi & Gough, 2011) como es el caso de la RNA polimerasa dependiente de RNA (RdRp), cuyo subdominio palma es estructuralmente homólogo al de las DNA polimerasas celulares lo que ha apoyado a la idea de que es una de las regiones más antiguas presentes en células y en virus (Jácome et al., 2015). 18 https://paperpile.com/c/01gtJq/ta5X+0ZKw https://paperpile.com/c/01gtJq/ta5X+0ZKw https://paperpile.com/c/01gtJq/WpAR https://paperpile.com/c/01gtJq/ta5X https://paperpile.com/c/01gtJq/aLWg https://paperpile.com/c/01gtJq/in2a https://paperpile.com/c/01gtJq/z8OT https://paperpile.com/c/01gtJq/BjwB+SIbI https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O https://paperpile.com/c/01gtJq/nxoe https://paperpile.com/c/01gtJq/R1w7 1.4.3 Estudios pangenómicos Hasta esta parte introductoria de la tesis, se ha mostrado que para determinar la historia evolutiva de los virus se apela al análisis filogenético de marcadores altamente conservados con las diferentes estrategias anteriormente mencionadas tales como la DNA y RNA pol, ATPasa, ribonucleótido reductasa, timidilato sintasa, helicasas, tRNA sintetasa; RdRp, RT; proteínas de cápside, entre otras. Sin embargo, es una imagen parcial evolutiva, ya que existen otras proteínas que, si bien no están compartidas entre todos los individuos de un grupo viral, forman parte de la filogenia completa y permiten comprender los procesos que generan la diversidad genética y la variación fenotípica de un clado. ¿Cuántos genomas se necesitan para definir filogenéticamente a una familia viral y de esta manera complementar el estudio de su origen y evolución temprana? Para ello es importante considerar los estudios pangenómicos que se han hecho en microorganismos y en plantas y que han ayudado a determinar en parte su dinámica evolutiva (Contreras-Moreira et al., 2017; Kaas, Friis, Ussery, & Aarestrup, 2012). Un pangenoma se define como el repertorio genético de todos los individuos de un clado (Vernikos, Medini, Riley, & Hervé, 2015). Es decir, un pangenoma incluye 1) a todos los genes altamente conservados y que se encuentran distribuidos en todas las especies del clado (core, núcleo pangenómico), 2) a los genes que se conservan en algunas especies de ese clado, pero que son funcionalmente indispensables (shell , cubierta pangenómica) y 3) a aquellos genes que son únicos y específicos de una sola especie (cloud , nube pangenómica) (Medini, Donati, Tettelin, Masignani, & Rappuoli, 2005). Han sido solo tres estudios realizados sobre pangenómica viral desde el 2013 y sólo se han hecho en virus de dsDNA. En un trabajo sobre pangenómica de fagos se determinó que su grupo de genes ortólogos continúa creciendo y que existen muchos genes únicos sin homólogos procariontes (Kristensen et al., 2013). En un estudio sobre pangenómica de un baculovirus (que infecta a insectos) se reportó que el 90% de los genes del núcleo genómico son hipotéticos y que existen muchas alteraciones fenotípicas por pérdida o ganancia de genes y sustituciones de nucleótidos (Brito et al., 2015). En otra investigación sobre pangenómica de un clado de mimivirus de Brasil (que infecta a amebas) se encontró que estos virus son pangenómicamente similares, muy probablemente debido a que se distribuyen en la misma zona geográfica (Assis et al., 2015). 19 https://paperpile.com/c/01gtJq/lXnf+eMmG https://paperpile.com/c/01gtJq/uf7U https://paperpile.com/c/01gtJq/YeHj https://paperpile.com/c/01gtJq/3HC8 https://paperpile.com/c/01gtJq/EpJc https://paperpile.com/c/01gtJq/cqZz 1.5 El último ancestro común de los seres vivos y los virus El último ancestro común (LCA) de todos los seres vivos es una población de organismos hipotética reciente de la cual todos los seres vivos (Bacteria, Archaea y Eukarya) descendieron. Su existencia se infiere a partir de análisis filogenéticos basados en secuencias de RNA ribosomal (Woese & Fox, 1977). La consiliencia de los análisis filogenéticos ha caracterizado al LCA como un conjunto de organismos unicelulares parecidos a las bacterias y con un código genético basado en DNA como el actual (Becerra et al., 2007). Además, el LCAtambién se caracteriza por tener un repertorio genético de secuencias universalmente conservadas que intervienen en procesos de replicación y reparación del DNA; traducción y transcripción; procesamiento del RNA; síntesis de nucleótidos, aminoácidos y azúcares, y producción de energía mediada por ATPasas membranales (Becerra et al., 2007). Estas características describen al LCA como un conjunto de individuos totalmente autónomos con la capacidad de replicarse, automantenerse y evolucionar. Sin embargo, éstas son las mismas características que excluyen a los virus de las ramas del árbol de la vida. Por un lado, a los virus no se les considera organismos vivos debido a que dependen totalmente de la maquinaria enzimática celular para replicarse y evolucionar. Además, tienen un origen polifilético, no tienen linajes ancestrales y todo indica que la mayoría de sus genes informacionales y metabólicos se originaron en genomas celulares (Moreira & López-García, 2009). 1.6 Los megavirus y el LCA Existe un grupo de virus que se caracteriza por su gran tamaño genómico (hasta 2.5 millones de pares de bases) (Philippe et al., 2013) y morfológico (una cápside de hasta 1500 x 500 nm) (Legendre et al., 2014). A este hipotético clado supuestamente monofilético se le ha conocido como virus nucleocitoplásmicos de DNA de gran tamaño (NCLDV o megavirus) e incluye a siete familias: Ascoviridae, Asfarviridae, Iridoviridae, Marseilleviridae, Mimiviridae, Phycodnaviridae y Poxviridae (Lakshminarayan M. Iyer, Balaji, Koonin, & Aravind, 2006). Una de las características peculiares de los megavirus que los distingue del resto de la virósfera es que tienen genes involucrados en la replicación y reparación del DNA, transcripción y traducción como lo son la DNA polimerasa de la familia B, la topoisomerasa II A, la 20 https://paperpile.com/c/01gtJq/uD6P https://paperpile.com/c/01gtJq/Bkuw https://paperpile.com/c/01gtJq/Bkuw https://paperpile.com/c/01gtJq/b3wU https://paperpile.com/c/01gtJq/b3wU https://paperpile.com/c/01gtJq/mwBh https://paperpile.com/c/01gtJq/OTeO https://paperpile.com/c/01gtJq/3HQo endonucleasa FLAP, el antígeno nuclear de células en proliferación (PCNA), RNA polimerasa dependiente de DNA tipo II, y el factor de transcripción II B y varias tRNA sintetasas (L. M. Iyer, Aravind, & Koonin, 2001; Yutin, Wolf, Raoult, & Koonin, 2009). Aparentemente estos genes conservados indican que los megavirus tienen un ancestro común con dicho repertorio complejo (Koonin & Yutin, 2010). La conclusión, a partir de las premisas anteriores, por parte de algunos grupos de Virología, es que este grupo viral desafió a la definición de vida y que, por lo tanto, debería ser considerado como una rama más, un cuarto dominio, derivado del LCA (Boyer, Madoui, Gimenez, La Scola, & Raoult, 2010; Nasir, Kim, & Caetano-Anolles, 2012; Didier Raoult & Forterre, 2008; Wu et al., 2011). Sin embargo, otros han reportado que exclusivamente esas secuencias altamente conservadas tienen un origen eucarionte y que, por lo tanto, no hay evidencia que sostenga la idea de otro dominio de la vida (Schulz et al., 2017; Yutin, Wolf, & Koonin, 2014). Aparentemente, el origen de los megavirus, de acuerdo a algunos autores, los ancestros de los megavirus provienen de los “polintovirus” (transposones de DNA de eucariontes capaces de formar viriones) que, a su vez, éstos evolucionaron de fagos (Koonin, Krupovic, & Yutin, 2015). Es por ello que en la presente tesis, se pretende dilucidar el origen y evolución temprana de los virus a través de 1) un análisis general sobre el tamaño de su genoma y la distribución taxonómica en sus hospederos procariontes y eucariontes; 2) un estudio pangenómico y filogenético del repertorio proteico del núcleo, cubierta y nube de los megavirus y su relación con el último ancestro común de los seres vivos; y 3) un análisis evolutivo muy preliminar a través de la comparación de las estructuras cristalográficas de las polimerasas de RNA de virus de RNA. Cabe destacar que la idea global de esta línea de investigación es realizar un análisis pangenómico y filogenético de secuencias y estructuras terciarias para cada una de las más de 100 familias de virus de RNA y de DNA. A través de la consiliencia y discordancia de todos los análisis de datos biológicos, ecológicos, pangenómicos y filogenéticos generados para cada una de las familias virales, se espera apoyar a alguna o algunas de las hipótesis sobre el origen y evolución temprana de los virus, es decir, si éstos tienen un origen primordial, si tienen un ancestro común celular, o si son fragmentos escapados de genomas celulares. 21 https://paperpile.com/c/01gtJq/oYHh+dso7 https://paperpile.com/c/01gtJq/oYHh+dso7 https://paperpile.com/c/01gtJq/5EzI https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak https://paperpile.com/c/01gtJq/7YID+3u1G https://paperpile.com/c/01gtJq/7YID+3u1G https://paperpile.com/c/01gtJq/9mic https://paperpile.com/c/01gtJq/9mic II. MATERIALES Y MÉTODOS 2.1 Construcción de la base de datos con información biológica y ecológica de los virus Para agrupar toda la información biológica y ecológica de los virus se construyó una base de datos a partir de los registros del GenBank (https://www.ncbi.nlm.nih.gov/genome/viruses/), del 9o Reporte del Comité Internacional de Taxonomía de Virus (ICTV, por sus siglas en inglés) (King, Adams, & Lefkowitz, 2011), del ViralZone (http://viralzone.expasy.org/) y de publicaciones relevantes al mes de diciembre de 2014. Dicha información se clasificó de acuerdo al tipo de especies, tipo y tamaño del genoma, segmentación y tipo de hospedero de las más de 100 familias de virus de RNA y de DNA. Se recopilaron datos biológicos y ecológicos de 4183 especies virales de referencia, así como de 215 virus satélite y 44 viroides. De acuerdo a la clasificación de Baltimore, se obtuvieron registros de 1926 virus de dsDNA; 701, de ssDNA; 205, de dsRNA; 966, de ssRNA(+); 253, de ssRNA(−); 70, de dsDNA-RT; y 62, de ssRNA-RT. De acuerdo a la clasificación por hospedero, se obtuvieron registros de 1438 virus que infectan a Bacteria; 69, a Archaea; 74, a protistas; 1273, a plantas; 82, a hongos; 58, a plantas e invertebrados; 260, a invertebrados; 123, a invertebrados y vertebrados; y, finalmente, 1064 virus que infectan exclusivamente a vertebrados. De acuerdo a su tipo de genoma, se encontró que existen registros de 1485 virus que se clasifican en las 55 familias virales de RNA y 2697 virus, en 43 familias de DNA. De acuerdo a su nivel de segmentación, se obtuvieron registros de 3682 virus que tienen un solo segmento y solo 501 que tienen más de dos o más segmentos. Aquellos virus que no tenían un hospedero identificado en el GenBank (n=31) se excluyeron. La base de datos se puede verificar en este link: https://www.frontiersin.org/articles/10.3389/fevo.2015.00143/full#h8. 2.2 Análisis de losdatos biológicos y ecológicos de los virus Para determinar la distribución de los virus de acuerdo a la antigüedad de los dominios en que se encuentran clasificados los hospederos, se agruparon de manera distinta las diferentes características biológicas de éstos tal como su composición química, tamaño y segmentación del genoma. Por un lado, el promedio del tamaño del genoma de los virus 22 https://www.ncbi.nlm.nih.gov/genome/viruses/ https://paperpile.com/c/01gtJq/LnWd http://viralzone.expasy.org/ https://www.frontiersin.org/articles/10.3389/fevo.2015.00143/full#h8 agrupados de acuerdo a la Clasificación de Baltimore, al tipo de hospedero y a la segmentación fue calculado. Para esto, las gráficas sobre el tamaño del genoma viral fueron hechas logarítmicamente con base 10. Asimismo, el porcentaje de las familias de virus de RNA y de DNA por cada hospedero fue estimado. Para ello, cada familia viral fue contada doble si ella infecta a más de un hospedero por lo cual se estimó que el 15 familias virales infectan al Dominio Bacteria [Proteobacteria (n = 8 familias), otras phyla (n = 7)], 13 familias infectan al Dominio Archaea [Crenarchaeota (n = 9) y Euryarchaeota (n = 4)], y 83 familias infectan al Dominio Eukarya [protistas y algas (n = 7), plantas (n = 21), hongos (n = 15), y animales (n = 50)]. Dicha distribución de las familias virales en los tres dominios fue utilizada para adornar la filogenia preestablecida (con algunas modificaciones para este estudio) en la plataforma interactiva del árbol de la vida (IToL, por sus siglas en inglés) (Letunic & Bork, 2016). 2.3 Construcción de la base de datos pangenómica de los virus Para agrupar las proteínas virales de cada familia de acuerdo a su pangenoma, se construyeron dos bases de datos: primero una proteómica y, después, una pangenómica. La base de datos proteómica viral fue construida a partir de los proteomas de referencia (sin redundancia, completos, con secuencias codificantes descritas y validadas) por cada una de las 98 familias virales en el GenBank (https://www.ncbi.nlm.nih.gov/genome/viruses/ en junio de 2016). Nosotros consideramos que la familia representa una unidad evolutiva puesto que contiene un conjunto de especies virales que comparten un ancestro común de acuerdo al ICTV. Para descargar los archivos de dichos proteomas (en formato GenBank que contiene toda la información de la anotación y la secuencia), se utilizó la siguiente fórmula booleana (utilizando como ejemplo a la familia Mimiviridae) en el buscador de la base de datos de nucleótidos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en inglés): Mimiviridae[Organism] AND srcdb_refseq[PROP] NOT wgs[prop] NOT cellular organisms[ORGN] NOT AC_000001:AC_999999[pacc] Una vez descargados, los archivos de los proteomas de las especies virales se agruparon manualmente por carpetas, las cuales, repŕesentaban a cada una de las 98 familias. Con la ayuda de un script en Perl, cada proteoma viral de una sola carpeta (familia) se extrajo en formato FASTA y se guardó en un archivo de texto independiente. Se contaron todas las 23 https://paperpile.com/c/01gtJq/bDD8 https://www.ncbi.nlm.nih.gov/genome/viruses/ proteínas de cada proteoma viral y si un proteoma se alejaba del promedio del número de proteínas (± 35%), se descartaba de la muestra para los siguientes análisis. Si bien se tienen todos los proteomas de referencia de cada una de las 121 familias actualmente (mayo de 2018), sólo se utilizaron las siete familias de megavirus (Asfarviridae, Iridoviridae, Ascoviridae, Poxviridae, Phycodnaviridae, Marseilleviridae y Mimiviridae) para este estudio debido a su implicación actual sobre el origen de los virus y el último ancestro común de los seres vivos. La base de datos pangenómica de los megavirus fue construida usando el software GET_HOMOLOGUES (Contreras-Moreira & Vinuesa, 2013). Para este estudio nosotros adecuamos los conceptos pangenómicos (Medini et al., 2005) en función de la naturaleza divergente de los virus, es decir, al núcleo lo definimos empíricamente como un repertorio de proteínas homólogas presentes en al menos un 95% de todas las especies de una misma familia viral (core + softcore); a la cubierta (shell), como un conjunto de proteínas homólogas accesorias presentes en más de dos especies de una misma familia viral; y a la nube (cloud ), como un grupo de proteínas específicas presentes en al menos dos especies o menos de una familia viral. Para la agrupación (clustering) de todas las proteínas ortólogas de todos los proteomas de cada familia viral, se utilizó al proteoma más pequeño como de referencia (query) y se realizó una búsqueda pareada con la combinación de los algoritmos BLASTP (Altschul, Gish, Miller, Myers, & Lipman, 1990), Hmmer3 (Sean R. Eddy, 2009) y COGtriangles (Kristensen et al., 2010) con una cobertura (C) del alineamiento del 75% y un valor esperado (E) <10E-05. Dichos ortólogos virales se buscaron en Pfam (Finn et al., 2008) (actualización del 2015) para poder identificar sus correspondientes dominios conservados. 2.4 Análisis pangenómicos de los megavirus Para estimar el tamaño de la composición pangenómica (núcleo, cubierta y nube), los datos se ajustaron al modelo de crecimiento exponencial de Tettelin (Tettelin et al., 2005). Una vez generada la matriz con las presencias y ausencias de las proteínas en el pangenoma de cada familia viral (y siempre y cuando la muestra sea mayor a tres proteomas), se estiman, se extraen y se grafican los diferentes compartimentos de dicho pangenoma a través del lenguaje R (https://www.r-project.org) con la función Circle que el mismo programa GET_HOMOLOGUES tiene. Para visualizar mejor los datos de presencia y ausencia de la matriz, el archivo se transformó a un formato de tabla (.csv). 24 https://paperpile.com/c/01gtJq/afpz https://paperpile.com/c/01gtJq/YeHj https://paperpile.com/c/01gtJq/9xlx https://paperpile.com/c/01gtJq/9xlx https://paperpile.com/c/01gtJq/Qrzv https://paperpile.com/c/01gtJq/MsoO https://paperpile.com/c/01gtJq/DIa6 https://paperpile.com/c/01gtJq/uykP https://www.r-project.org/ Cabe aclarar que los proteomas de las otras 91 familias virales están en una fase preliminar de su análisis pangenómico. Hasta ahora (mayo de 2018), ya se cuenta con la matriz de los compartimentos pangenómicos para todas las familias virales. 2.5 Clasificación funcional de los grupos de homólogos del pangenoma de megavirus Para complementar la información de la matriz con los grupos de ortólogos virales de cada núcleo, cubierta y nube, se utilizó no tan solo el reporte generado de cada uno de los dominios Pfam, sino también la información que se encuentra en el GenBank, Uniprot, Gene Ontology, KEGG, SMART, PDB y PROSITE. Para esto, se utilizaron los identificadores del GenBank y del Pfam, una vez determinados por GET_HOMOLOGUES y se pegaron en forma de columna cada uno por separado en las plataformas de la Red de Base de Datos Biológicas(bioDBnet, https://biodbnet-abcc.ncifcrf.gov/) y de Uniprot (http://www.uniprot.org/uploadlists/). En estas plataformas se puede seleccionar la base de datos deseada para completar la información biológica como la función genética, celular y metabólica; la estructura terciaria, si es el caso; entre otras. Esta información complementaria se anexó a la tabla .csv. Asimismo, para organizar cada una de las funciones de cada grupo de ortólogos en los compartimentos pangenómicos, se recurrió a la clasificación de los grupos de ortólogos (COG, https://ftp.ncbi.nih.gov/pub/wolf/COGs/COG0303/fun.txt) del NCBI (Tatusov, 1997). Se identificaron las funciones a mano (a través de la plataforma de Pfam y de la literatura científica) de cada uno de los grupos de ortólogos que tenían un identificador Pfam o GenBank. Aquellos grupos de ortólogos sin identificadores se clasificaron como grupos con función desconocida. De la misma plataforma de Pfam (https://pfam.xfam.org/search#tabview=tab1), se extrajo la información de la distribución de cada uno de los dominios en la sección de especies (Species) y también se anexó a la tabla .csv. Para determinar las funciones específicas o generales de cada uno de los grupos de ortólogos, se realizaron distintas combinaciones entre los tres compartimentos (núcleo, cubierta y nube), su distribución entre los dominios (B, Bacteria; A, Archaea; E, Eukarya) y otros grupos virales (V), su función específica o general de los COG (Tabla 1). Debido a que los valores generados por estas combinaciones son diferentes entre sí en varios órdenes de magnitud, se normalizaron logarítmicamente en el lenguaje R a través de la fórmula: 25 https://biodbnet-abcc.ncifcrf.gov/ http://www.uniprot.org/uploadlists/ https://ftp.ncbi.nih.gov/pub/wolf/COGs/COG0303/fun.txt https://paperpile.com/c/01gtJq/PF2t https://pfam.xfam.org/search#tabview=tab1 yi=log(xi) Donde yi es la variable que representa a la versión de xi transformada en el logaritmo de base 10 y xi representa a los valores de la cuantificación de cada COG por compartimento pangenómico. Una vez hechas las transformaciones logarítmicas, se utilizó la función de pheatmap en R (después de instalar las bibliotecas gplots, DT y RColorBrewer) para visualizar la matriz. Asimismo se utilizaron valores absolutos para resaltar los grupos de ortólogos de la nube que tienen una función desconocida. Dichos valores se visualizaron con Circos (Krzywinski et al., 2009) en la terminal usando solo los parámetros para ordenar los datos por columnas y filas y con sus respectivos colores (col with row order, row with col order, col with row color, row with col color, hide relative tick marks). 26 https://paperpile.com/c/01gtJq/dy0H Tabla 1. Código de letras y funciones de los Grupos de Ortólogos (COGs) A Procesamiento y modificación del RNA B Estructura y dinámica de la cromatina J Traducción, estructura y síntesis del ribosoma K Transcripción L Replicación, recombinación y reparación del DNA D Control del ciclo celular, división celular y división cromosómica M Biogénesis de la pared celular y de la membrana O Modificación postraduccional, balance entre síntesis y degradación de proteínas, chaperonas T Mecanismos de transducción de señales U Tráfico intracelular, secreción y transporte vesicular V Mecanismos de defensa W Estructuras extracelulares Y Estructura nuclear Z Citoesqueleto C Producción y conversión energética E Transporte y metabolismo de aminoácidos F Transporte y metabolismo de nucleótidos G Transporte y metabolismo de carbohidratos H Transporte y metabolismo de coenzimas I Transporte y metabolismo de lípidos P Transporte y metabolismo de iones inorgánicos Q Transporte y metabolismo de metabolitos secundarios R Función hipotética S Función desconocida Vc* Cápside/envoltura X* Varias funciones *Categorías nuevas asignadas para este estudio 27 2.6 Búsqueda de homólogos en bases de datos celulares y virales Se seleccionaron todos aquellos grupos de ortólogos de los megavirus con las secuencias que tenían un identificador Pfam. Aquéllos que no tenían este identificador se clasificaron en los COGs R y S (funciones pobremente caracterizadas). Para identificar a los homólogos remotos de Bacteria, Archaea, Eukarya y otros virus en la base de datos KEGG (actualización del 2011) se utilizaron los programas de Hmmer (S. R. Eddy, 1998) con un valor E<10E-3 y Psi-Blast (Altschul et al., 1997) con un valor E<10E-3 y un valor C=75%. Una vez obtenidas las secuencias homólogas celulares y de otros virus para cada grupo de ortólogos de megavirus, se eliminaron aquellas redundantes con el mismo umbral de similitud mayor al 80% con CD-HIT (Fu, Niu, Zhu, Wu, & Li, 2012). Los títulos (headers ) de cada secuencia FASTA fueron editados con Bash para que fuesen más cortos. Las secuencias ortólogas celulares y virales obtenidas se contabilizaron para cada uno de los grupos taxonómicos (desde familias virales hasta los phyla y dominios celulares) usando Bash y Awk. 2.7 Análisis filogenéticos basados en estructura primaria del repertorio del pangenoma de megavirus Para alinear todas las secuencias homólogas celulares y virales obtenidas por perfiles HMM y PSSM de cada grupo de ortólogos de los megavirus se usó el programa de alineamiento múltiple MAFFT (parámetros por default) (Katoh, Misawa, Kuma, & Miyata, 2002). Para remover las secuencias espurias y las regiones pobremente alineadas del alineamiento múltiple se utilizó Trimal (parámetros por default) (Capella-Gutiérrez, Silla-Martínez, & Gabaldón, 2009). Para construir el árbol filogenético con máxima parsimonia para cada uno de los grupos con las secuencias homólogas celulares y virales se empleó IQ-TREE (parámetros: ProTest y modelos de selección WAG, LG, JTT; Ultrafast Bootstrap con 1000 replicaciones) (Nguyen, Schmidt, von Haeseler, & Minh, 2015). Para visualizar y manipular a los árboles evolutivos generados se utilizó la plataforma de iToL (Letunic & Bork, 2016) en el que el archivo de entrada estaba en formato Newick. Al mismo tiempo se editó en Bash un archivo de texto con los nombres de cada unidad taxonómica operativa (OTU, por sus siglas en inglés) para darle un formato de colores cuyos códigos se encuentran en https://htmlcolorcodes.com/es/ [Bacteria, morado (#c9a1f4); Archaea, verde (#97eda0); Eukarya, azul (#8ce2f2) y Virus, rojo 28 https://paperpile.com/c/01gtJq/FU7Td https://paperpile.com/c/01gtJq/pw0Z https://paperpile.com/c/01gtJq/zGfW https://paperpile.com/c/01gtJq/3ztgj https://paperpile.com/c/01gtJq/cEfF https://paperpile.com/c/01gtJq/cEfF https://paperpile.com/c/01gtJq/ABCQ https://paperpile.com/c/01gtJq/bDD8 https://htmlcolorcodes.com/es/ (#f8a593)]. Este archivo de texto con los códigos de colores se anexó a cada árbol filogenético en iToL. Cada árbol filogenético de cada grupo de ortólogos de megavirus fue circular, sin mostrar la longitud de sus ramas y eliminando aquellas ramas con un valor de Ultrabootstrap <85%.Las imágenes de cada árbol se exportaron en formato .svg o .png. 2.8 Construcción de la base de datos de estructuras terciarias En el Laboratorio de Origen de la Vida de la Facultad de Ciencias, se ha implementado una nueva estrategia metodológica para la construcción de árboles filogenéticos y para la reconstrucción de estados ancestrales de proteínas a partir de las arquitecturas de las estructuras terciarias disponibles (Alvarez-Carreño, Alva, Becerra, & Lazcano, 2018; Jácome et al., 2015). Dicho procedimiento se utilizó para el análisis filogenético de los dominios estructurales y catalítico de la polimerasa de RNA (NS5B) del virus de la hepatitis C (VHC) y la transcriptasa reversa (RT) del virus de la inmunodeficiencia humana (VIH). Para la construcción de la base de datos de las estructuras cristalográficas de NS5B de VHC y de RT de VIH, se buscaron los términos “Hepatitis C virus AND polymerase” y “Human immunodeficiency virus AND reverse transcriptase” en el Banco de Datos de Proteínas de la Investigación Colaborativa para la Bioinformática Estructural (RCSB PDB, por sus siglas en inglés) y el de Europa (PDBe ). Se seleccionaron y descargaron aquellas estructuras de referencia para ciertos genotipos y subtipos virales. Asimismo, se descartaron aquellas estructuras redundantes >90% de similitud. Dichas estructuras seleccionadas se agruparon de acuerdo a la presencia o ausencia de ligandos acoplados, a la similitud de dichos ligandos (naturaleza química del ácido nucleico, antivirales y moléculas unidas a sitios alostéricos) y a la resolución de las mismas. Además, también se descargó una tabla personalizada con toda la información biológica de dichas estructuras para un análisis posterior. 2.9 Análisis filogenéticos basados en estructuras terciarias Para la comparación de las estructuras cristalográficas seleccionadas de NS5B y RT se utilizó el programa PDBeFold que se basa en el alineamiento pareado de las estructuras secundarias (SSM, por sus siglas en inglés) a través de la plataforma en línea del PDBe (http://www.ebi.ac.uk/msd-srv/ssm/) con parámetros por default (Krissinel & Henrick, 2004). Para cada una de las comparaciones se calculó el siguiente valor de alineamiento estructural (SAS): 29 https://paperpile.com/c/01gtJq/R1w7+VWxV https://paperpile.com/c/01gtJq/R1w7+VWxV http://www.ebi.ac.uk/msd-srv/ssm/ https://paperpile.com/c/01gtJq/uNdr SAS = RMSD x 100/nal Este valor representa a la desviación de la media cuadrática mínima (RMSD) que existe entre las distancias de los carbonos alfa por el número de residuos alineados (nal) de las dos proteínas superpuestas (Subbiah, Laurents, & Levitt, 1993). Se elaboró una matriz de distancia con todos los valores SAS para cada uno de los grupos de estructuras cristalográficas con o sin ligandos y/o sustratos. Se construyeron los dendogramas basados en matrices cuyas distancias se esperan igualar a la suma de la longitud de las ramas entre los OTUs con el algoritmo FITCH (paquetería de PHYLIP versión 3.695). Se visualizaron y se editaron los dendogramas con FigTree. Para la visualización interactiva y representación de las estructuras cristalográficas se utilizó el software Chimera versión 1.11 (Pettersen et al., 2004; Subbiah et al., 1993), el cual, a la vez, contiene programas para hacer la superposición pareada de estructuras de proteínas con su respectivo alineamiento pareado de sus secuencias (MatchMaker ) o una superposición y alineamiento múltiple de las mismas (Match/Align). 30 https://paperpile.com/c/01gtJq/9EaT https://paperpile.com/c/01gtJq/9EaT+WBmV III. RESULTADOS 3.1 Bases de datos biológicos y ecológicos [Véase la sección ANEXO I (artículo publicado) para verificar los resultados]. 3.2 Bases de datos de proteomas virales Se obtuvieron registros proteómicos de 79 especies de las siete familias (Ascoviridae, Asfarviridae, Iridoviridae, Marseilleviridae, Mimiviridae, Poxviridae, Phycodnaviridae) y dos especies virales (Pithovirus y Pandoravirus). En la Figura 1 se aprecia que los Iridoviridae, Poxviridae y Phycodnaviridae tienen el mayor registro de proteomas en el GenBank. Los virus que infectan a invertebrados y vertebrados tienen los proteomas más pequeños (~200 proteínas), mientras que aquéllos que infectan a protistas, poseen los proteomas de hasta más de 2,000 proteínas. El tipo de genoma no depende del tamaño del proteoma. Las cápsides son complejas y tienen un membrana lipídica interna. 3.3 Pagenoma viral de los megavirus Para el análisis proteómico posterior se descartaron tres proteomas de virus que no pertenecían a una familia y al único virus de la familia Asfarviridae. También se excluyeron aquéllos proteomas que resultaron alejarse de la media de la suma del número de proteínas por cada familia viral. Finalmente se utilizaron 64 proteomas de referencia para dicho análisis con un total de más de 18 mil proteínas (Tabla 1). La granularidad fina de los grupos de homólogos se definió a través de la combinación de Blastp y Hmmer para la búsqueda robusta de ortólogos y parálogos basada en secuencias a través de Pfam (2015) gracias a la paquetería de software GET_HOMOLOGUES (Contreras-Moreira & Vinuesa, 2013). Para estimar el número de genes conservados en la familia viral (núcleo genómico), el número de genes compartidos encontrado en la adición secuencial de cada nuevo genoma viral fue extrapolado por el ajuste de una función de decaimiento exponencial de los datos con el modelo de Tettelin (Fig. 2). 31 https://paperpile.com/c/01gtJq/afpz Fig. 1 Número de proteínas por genoma de cada una de las familias de los megavirus. Los virus con proteomas más pequeños se encuentran distribuidos, principalmente, en virus que infectan invertebrados y vertebrados (entre 100 a 300 proteínas). Los proteomas virales más grandes se encuentran distribuidos en familias que infectan protistas (entre 200 a 2,500 proteínas). 32 El resultado de todas las permutaciones muestra que el número de genes compartidos en el núcleo pangenómico disminuye con la adición de un nuevo genoma en cada familia viral (Fig. 2a). No obstante, la extrapolación de cada una de las curvas indica que el número de proteínas del núcleo puede llegar a mantenerse relativamente constante a pesar de la adición de nuevos genomas. El caso anterior es más evidente con Poxviridae: el núcleo genómico mínimo de sus 35 genomas alcanza una curva asintótica de cuatro grupos de homólogos (Fig. 2a y Tabla 1). Para estimar el número de genes esenciales (cubierta) y únicos (nube) se ajustaron también por el modelo de decaimiento exponencial (Fig. 2b). Se observó que en todos los genomas de los megavirus son abiertos y su tamaño puede incrementarse con el número de nuevos genomas virales agregados. Además, los genes parálogos son una evidencia de que la cubierta y, principalmente, la nube, están en constante crecimiento debido al origen de nuevos genes para el
Compartir