Logo Studenta

Origen-y-evolucion-temprana-de-los-virus-y-su-relacion-con-el-ultimo-ancestro-comun-de-los-seres-vivos

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO 
POSGRADO EN CIENCIAS BIOLÓGICAS 
FACULTAD DE CIENCIAS 
 
ORIGEN Y EVOLUCIÓN TEMPRANA DE LOS VIRUS Y SU RELACIÓN 
CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS 
 
TESIS 
QUE PARA OPTAR POR EL GRADO DE: 
DOCTOR EN CIENCIAS 
 
PRESENTA: 
JOSÉ ALBERTO CAMPILLO BALDERAS 
 
TUTOR PRINCIPAL DE TESIS: ​DR. ARTURO CARLOS II BECERRA BRACHO 
FACULTAD DE CIENCIAS 
COMITÉ TUTOR: ​DR. JOSÉ LUIS DELAYE ARREDONDO 
CINVESTAV UNIDAD IRAPUATO 
COMITÉ TUTOR: ​DR. LEÓN PATRICIO MARTÍNEZ CASTILLA 
FACULTAD DE QUÍMICA, UNAM 
 
MÉXICO, CD. MX. JUNIO 2018 
 
 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1 
 
 
 
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO 
POSGRADO EN CIENCIAS BIOLÓGICAS 
FACULTAD DE CIENCIAS 
 
ORIGEN Y EVOLUCIÓN TEMPRANA DE LOS VIRUS Y SU RELACIÓN 
CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS 
TESIS 
QUE PARA OPTAR POR EL GRADO DE: 
DOCTOR EN CIENCIAS 
 
PRESENTA: 
JOSÉ ALBERTO CAMPILLO BALDERAS 
 
TUTOR PRINCIPAL DE TESIS: ​DR. ARTURO CARLOS II BECERRA BRACHO 
FACULTAD DE CIENCIAS 
COMITÉ TUTOR: ​DR. JOSÉ LUIS DELAYE ARREDONDO 
CINVESTAV UNIDAD IRAPUATO 
COMITÉ TUTOR: ​DR. LEÓN PATRICIO MARTÍNEZ CASTILLA 
FACULTAD DE QUÍMICA, UNAM 
 
MÉXICO, CD. MX. JUNIO 2018 
2 
 
 
3 
Ciencias POSGRADO EN CIENCIAS BIOLÓGICAS 
FACULTAD DE CIENCIAS 
DIVISION ACADÉMICA DE INVESTIGACiÓN Y POSGRADO 
COORDINACIÓN 
OFICIO FCIElDAIP/470t2018 
ASUNTO: Oficio de Jurado 
Lic . Ivonne Ramirez Wence 
Directora General de Administración Escolar, UNAM 
Presente 
Me permito informar a usted que en la reunión ordinaria del Comité Académico del Posgrado en Ciencias 
Biológicas . celebrada el día 12 de marzo de 2018. se aprobó el siguiente jurado para el examen de 
grado de DOCTOR EN CIENCIAS del (la) alumno (a) CAMPILLO BALOERAS JaSE ALBERTO con número de 
cuenta 505017473 con la tesis titulada: "ORIGEN Y EVOLUCiÓN TEMPRANA DE LOS VIRUS Y SU 
RELACiÓN CON EL ÚLTIMO ANCESTRO COMÚN DE LOS SERES VIVOS", real[zada bajo la dirección del (la) 
DR. ARTURO CARLOS 11 BECERRA BRACHO: 
Presldenle 
Vocal: 
Secretario 
Suplenle 
Suplente: 
DR. ANTONIO EUSEBIO LAZCANO·ARAUJO RE YES 
DR. LUIS DAVID ALCARAZ PERAZA 
DRA. BEATRIZ GÓMEZ GARCiA 
DR. lUIS JOSÉ DELAYE ARREDONOO 
DR. CARLOS CABELLO GUTIÉRREZ 
Sin otro particular. me es gralo enviarle un cordial saludo 
AGNSNMVAlASRJipp 
ATENTAMENTE 
" POR MI RAZA HABLARA EL ESPIRITU" 
Ciudad Universitaria, Cd Mx., a 08 de mayo de 2018 
,-
DR. ADOLFO GERAR O NAVARRO SIGÜENZA 
COORDINAD R DEL PROGRAMA COOROINACION 
Lllluad di.' Posgrado ' COOrdlTlaCIÓn del Posgrado en CienCias BiOlógicas Edificio D. ler. PISO, Circu ito de Po~~mldos Cd Lniversit:ltia 
Delegación Coyoacáll c.P. 04510 ed. M.l!; . Te!. 5623 7002 hup: pcbiol.po"grauo,unam.I;t., 
 
 
AGRADECIMIENTOS INSTITUCIONALES 
 
Al Posgrado en Ciencias Biológicas (PCB) de la Universidad Nacional Autónoma de 
México (UNAM) por todo el apoyo académico otorgado para mi formación científica. 
 
Al Consejo Nacional de Ciencia y Tecnología (Conacyt) por concederme la beca de 
manutención para realizar mis estudios de doctorado (CVU 165264). 
 
Al Programa de Apoyo para Estudios de Posgrado (PAEP) del PCB por otorgarme el 
apoyo financiero para asistir a dos congresos internacionales y a través de la 
Convocatoria de Mejoras a la Tasa de Graduación del Doctorado en Ciencias 
Biológicas. 
 
Al Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) 
por apoyarnos económicamente a través del proyecto de investigación IN223916. 
 
A mi Tutor Principal, el Dr. Arturo Carlos II Becerra Bracho, y a los miembros de mi 
Comité Tutor, el Dr. José Luis Delaye Arredondo y el Dr. León Patricio Martínez 
Castilla, por aceptar la dirección de esta tesis y por su apoyo académico en la 
elaboración de la misma. 
 
 
 
 
 
 
 
 
 
 
4 
 
 
 
AGRADECIMIENTOS A TÍTULO PERSONAL 
 
 
A mis padres y demás familia por su amor incondicional y por su paciencia sobre mi 
ausencia en muchos momentos familiares importantes debido a la realización de esta 
tesis. 
 
Al Dr. Arturo Becerra y al Al Dr. Antonio Lazcano por su sabiduría, amistad, apoyo, 
consejos, paciencia, sentido del humor mexicano e inglés y por su interminable deseo 
de tratar de conquistar al mundo con rotíferos gigantes. 
 
A mi Comité Tutor por sus comentarios, llamadas de atención, sugerencias y amistad. 
 
A mis queridos Macacos por su amistad, apoyo, afecto y acoso psicológico. 
 
A mi amada UNAM por su cobijo académico. 
 
A mis profesores que impartieron cátedra en el PCB por sus enseñanzas. 
 
Y, por supuesto… 
 
 
 
5 
 
 
ÍNDICE 
 
RESUMEN 8 
ABSTRACT 9 
I. INTRODUCCIÓN 10 
1.1 Características generales de los virus 10 
1.2 Características genómicas y genéticas de los virus 11 
1.3 Características moleculares y ecológicas de los virus en relación con sus hospederos 12 
1.4 Características evolutivas 13 
1.4.1 Origen de los virus 14 
1.4.1.1 Hipótesis del virocentrismo (origen precelular) 14 
1.4.1.2 Hipótesis de la regresión celular (origen post-celular temprano) 15 
1.4.1.3 Hipótesis del escape (origen post-celular tardío) 15 
1.4.1.4 Hipótesis de la coevolutiva a largo plazo (origen simultáneo o precelular) 16 
1.4.1.5 Hipótesis de las vesículas (origen simultáneo y posterior) 16 
1.4.2 Estrategias metodológicas para abordar el problema sobre su origen 17 
1.4.2.1 Estrategia basada en secuencia primaria de proteínas 17 
1.4.2.2 Estrategia basada en organización del genoma 18 
1.4.2.3 Estrategia basada en estructura terciaria 18 
1.4.3 Estudios pangenómicos 19 
1.5 El último ancestro común de los seres vivos y los virus 20 
1.6 Los megavirus y el LCA 20 
II. MATERIALES Y MÉTODOS 22 
2.1 Construcción de la base de datos con información biológica y ecológica de los virus 22 
2.2 Análisis de los datos biológicos y ecológicos de los virus 22 
2.3 Construcción de la base de datos pangenómica de los virus 23 
2.4 Análisis pangenómicos de los megavirus 24 
2.5 Clasificación funcional de los grupos de homólogos del pangenoma de megavirus 25 
2.6 Búsqueda de homólogos en bases de datos celulares y virales 28 
2.7 Análisis filogenéticos basados en estructura primaria del repertorio del pangenoma de 
megavirus 28 
2.8 Construcción de la base de datos de estructuras terciarias 29 
2.9 Análisis filogenéticos basados en estructuras terciarias 29 
III. RESULTADOS 31 
3.1 Bases de datos biológicos y ecológicos 31 
3.2 Bases de datos de proteomas virales 31 
3.3 Pagenoma viral de los megavirus 31 
6 
 
 
3.4 Composición funcional del pangenoma de los megavirus 37 
3.5 Análisis filogenéticos basados en la estructura primaria 41 
3.6 Análisis filogenéticos basados en la estructura terciaria 52 
IV. DISCUSIÓN 53 
V. CONCLUSIONES 60 
VI. PERSPECTIVAS 61 
VII. REFERENCIAS 62 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7 
 
 
RESUMEN 
 
La genómica comparada ha permitido trazar la historia evolutiva de todos los seres 
vivos y ha proporcionado evidencia indirecta de la existencia del último ancestro común a todosellos llamado LCA (​Last Common Ancestor​). Sin embargo, la descripción de las relaciones 
evolutivas entre los virus a través del análisis de datos genómicos no ha permitido determinar 
con claridad su origen. Por otro lado, la reciente disponibilidad de más datos biológicos, 
genómicos, estructurales y ecológicos de los virus de DNA y RNA en las bases de datos 
públicas proporciona la oportunidad de inferir y analizar, con más detalle, las relaciones 
evolutivas que guardan entre ellos mismos y con sus hospederos. 
En la presente tesis, nosotros hemos comparado y analizado los datos biológicos y 
ecológicos recientes, la composición pangenómica y la filogenómica de varias familias virales 
para determinar su posible origen y evolución temprana con respecto a sus hospederos 
Bacteria, Archaea y Eukarya. Algunos virólogos sostienen que debido al tamaño y a la 
composición química de los virus de RNA, éstos surgieron en el Mundo del RNA. ​Sin embargo, 
nuestros resultados han revelado que dichas características no muestran una correlación con la 
distribución de estos virus y la filogenia de los hospederos correspondientes. Nuestros 
resultados han mostrado que la mayoría de los virus de RNA infectan solo a Eukarya, con 
excepción de los Cystoviridae y los Leviviridae que sólo infectan a proteobacterias que forman 
parte de la microbiota de algunos animales. Aún no se han encontrado virus de RNA en 
Archaea. Por otra parte, los virus de DNA de doble cadena (dsDNA), como los fagos, sólo 
infectan a Bacteria y a Archaea, pero no a Eukarya. Otros virus de genomas grandes de 
dsDNA, como los virus citoplásmicos gigantes (megavirus), solo infectan amibas (protistas) y no 
a otros linajes eucariontes evolutivamente más recientes. 
Por otro lado, nuestros análisis pangenómicos y la construcción de filogenias han 
mostrado que las proteínas que se encuentran altamente conservadas en los megavirus 
(“núcleo pangenómico”) intervienen en procesos de replicación y reparación del DNA, 
transcripción y señalización. La mayoría de estas proteínas tienen un origen celular (protistas, 
plantas, hongos y animales) y, por lo tanto, son probablemente las más antiguas al resto del 
pangenoma. Estos mismos resultados han revelado que aquellas proteínas virales que no 
están muy conservadas (“cubierta y nube pangenómica”) intervienen en algunos procesos 
genéticos, celulares y metabólicos, pero mayoritariamente tienen funciones desconocidas. La 
mayoría de las filogenias del resto del pangenoma ha revelado un posible origen celular 
reciente y otras proteínas virales podrían ser homólogos distantes de células de acuerdo a 
estudios preliminares de comparación de estructuras terciarias. Estos resultados podrían 
indicar que los virus están relacionados con la historia evolutiva de sus hospederos celulares, 
es decir, los virus de RNA tienen un origen más reciente que debe ser visto como una 
coevolución con los eucariontes lo cual indicaría que no tuvieron un origen en el Mundo del 
RNA. Por otro lado, los virus de DNA podrían tener un origen más antiguo que se remonta 
posiblemente al origen mismo del LCA. 
8 
 
 
ABSTRACT 
 
The comparative genomics has allowed to trace the evolutionary history of all organisms 
and it has also given some indirect evidence on the traits of the last common ancestor (LCA) of 
Bacteria, Archaea, and Eukarya. However, the phylogenetic analysis based on sequence data 
to determine the origin and early evolution of viruses has been severely compromised by their 
highly divergent nature. On the other hand, the recent availability of more biological, genomic, 
structural, and ecological data of DNA and RNA viruses has provided the opportunity to infer 
and analyze, in detail, their evolutionary relationships among them and their hosts. 
In a first approach to understand the origin of viruses, we compared and analyzed recent 
biological and ecological data, determined and characterized the pangenomic composition, and 
made a phylogenomic exploration of several viral families. While some researchers argue that 
viruses are the missing link between the non-living, the RNA world, and the first cells due to 
their morphological and genomic “simplicity”, our results reveal that the size distribution and 
chemical nature of the viral genome do not exhibit a correlation with the phylogeny of their 
hosts. We found that the supposedly “more complex” and longest viral genomes are found in 
phages, which infect only ancient domains of life (Bacteria and Archaea) and in giant viruses, as 
megaviruses, which infect ancient lineages of eukaryotes (protists). A rather significant majority 
of the RNA viruses infect only the Eukarya domain. No RNA viruses have been found in 
Archaea yet. There are only two RNA viral families in prokaryotes, but they infect Proteobacteria 
of animal microbiota. Our pangenomic analysis and phylogenetic trees have shown that the 
highly-conserved proteins (core genes) in megaviruses intervene in the most of DNA replication 
and repair processes, probably have either a bacteria, protist, fungi, plant, and/or an animal 
origin, and therefore, could be the most antique proteins than the rest of the pangenome. These 
same results have indicated that less-conserved proteins (shell genes) and unique proteins 
specific to single viral strains (cloud genes) intervene in some genetic, cellular, metabolic, and 
unknown functions, have mainly a viral and eukaryotic origin, and therefore, they could be the 
most recent proteins of the viral pangenome. These preliminary results might suggest that the 
evolutionary history of viruses is related to the phylogeny of their host cells, that is to say, DNA 
viruses could have a more antique origin that goes back to the LCA stage, while the origin of 
RNA viruses may be explained by a coevolutionary process with their eukaryotic hosts. These 
asseverations could confirm the hypothesis that viruses are escaping genes from cell genomes; 
and hence, viruses can be antique, but not primitive. 
 
 
 
 
9 
 
 
I. INTRODUCCIÓN 
1.1 Características generales de los virus 
De acuerdo a los análisis metagenómicos, los virus son las entidades biológicas 
universales más abundantes de la biósfera con un estimado de 10​31 virus ​(Breitbart & Rohwer, 
2005)​. La virósfera ​(Abroi & Gough, 2011) muy probablemente infecta a todos los tipos 
celulares de los tres dominios del árbol de la vida (Bacteria, Archaea y Eukarya) y tiene una 
influencia extraordinaria en procesos biogeoquímicos y geológicos ​(Edwards & Rohwer, 2005)​. 
Los virus presentan propiedades peculiares que los definen como agentes infecciosos 
intracelulares que dependen de la maquinaria enzimática para replicarse. Se caracterizan por 
tener una arquitectura muy simple que puede resguardar a un genoma de DNA o de RNA en 
una cubierta llamada cápside (icosaédrica, helicoidal o compleja) y que, en algunos casos, 
adicionalmente presenta una membrana lipídica. Las partículas virales de la progenie 
infecciosa, llamadas viriones, se forman por el autoensamblaje​de novo a partir de los 
componentes recién sintetizados en la célula durante su ciclo infeccioso ​(Flint, Rall, Racaniello, 
& Skalka, 2015)​. Algunas características son equivalentes a las de las células como la posesión 
de genes, la capacidad de crear múltiples copias de sí mismos y la habilidad de evolucionar por 
selección natural ​(Gibbs & Calisher, 2005)​. Sin embargo, ellos no realizan autopoiesis (por sí 
mismos no pueden autoreplicarse porque no tienen ribosomas ni tienen un metabolismo propio) 
y no comparten un ancestro común. Esto ha dado pie a que a que haya una discusión sobre si 
los virus pueden incluirse en la definición de vida o simplemente son estructuras orgánicas que 
pueden interactuar con los seres vivos ​(Koonin & Starokadomskyy, 2016; Moreira & 
López-García, 2009)​. Hasta febrero de 2018, se cuenta con casi 7,500 genomas de referencia 
en el ​GenBank​, un poco más de 2,600 proteomas y más de 16,700 proteínas virales de 
referencia en el ViralZone y se tiene la descripción de 121 familias, 142 géneros y 9 especies 
sin clasificar en el Comité Internacional de Taxonomía de Virus (ICTV, por sus siglas en inglés). 
1.2 Características genómicas y genéticas de los virus 
El sistema de clasificación que maneja el ICTV se basa en la naturaleza química de 
ácido nucleico del genoma viral (DNA o RNA, circular o lineal, de una o dos cadenas, 
10 
https://paperpile.com/c/01gtJq/r2hZ
https://paperpile.com/c/01gtJq/r2hZ
https://paperpile.com/c/01gtJq/nxoe
https://paperpile.com/c/01gtJq/y2PR
https://paperpile.com/c/01gtJq/SeCH
https://paperpile.com/c/01gtJq/SeCH
https://paperpile.com/c/01gtJq/IcSY
https://paperpile.com/c/01gtJq/GvmP+b3wU
https://paperpile.com/c/01gtJq/GvmP+b3wU
 
 
segmentado o no), en la arquitectura y dimensión de la cápside y en la presencia o ausencia de 
una membrana lipídica ​(Flint et al., 2015)​. El ICTV también hace uso de la clasificación de 
Baltimore (1971) que se basa en la manera en que los virus producen su RNA mensajero que 
será traducido por los ribosomas de sus hospederos. Así, existen siete tipos de genomas para 
todas las familias virales: de DNA de doble cadena (dsDNA) y de cadena sencilla (ssDNA); de 
RNA de doble cadena (dsRNA), de cadena sencilla positiva [(+)ssRNA] y de cadena sencilla 
negativa [(-)ssRNA] y retrovirus de RNA (ssRNA-RT) y de DNA (dsDNA-RT) ​(Baltimore, 1971)​. 
El tamaño del genoma varía enormemente entre los grupos virales. El genoma de 
mayor longitud es el de los Pandoravirus (dsDNA) con 2,500 kilopares de bases (kbp) ​(Philippe 
et al., 2013)​, y el de menor longitud es el de los circovirus de ssDNA con apenas 1 kbp ​(Belyi, 
Levine, & Skalka, 2010)​. Los genomas de los virus de RNA en promedio son más pequeños 
que los de DNA con límite de 35 kpb ​(Campillo-Balderas, Lazcano, & Becerra, 2015)​. A 
diferencia de los virus de dsDNA, los virus de RNA y de ssDNA se caracterizan por tener una 
tasa alta de mutación debido a que carecen de mecanismos de corrección, generar un gran 
número de individuos por progenie, presentar una duplicación génica y una transferencia 
horizontal de genes muy bajas, mantener niveles de recombinación genética relativamente 
poco frecuentes, tener un sobrelapamiento de genes muy común y poseer genomas 
segmentados ​(Brandes & Linial, 2016; Duffy & Holmes, 2009; Holmes, 2009; Sanjuán, Nebot, 
Chirico, Mansky, & Belshaw, 2010)​. 
La replicación del genoma de algunos virus de DNA generalmente tiene lugar en el 
núcleo de la célula y dependen de los mecanismos de procesamiento de DNA y de RNA de la 
célula, mientras que la replicación de los megavirus se lleva a cabo en el citoplasma y 
generalmente codifican algunas proteínas que intervienen en la maquinaria de replicación, 
transcripción y síntesis de proteínas. La replicación del genoma de los virus de RNA se 
presenta en el citoplasma con diferentes modos de replicación (RNA con polaridad positiva, 
negativa o ambas) y en la presencia de una polimerasa de RNA dependiente de RNA (RdRp). 
Finalmente, la replicación del genoma de los retrovirus se da con la presencia de una 
transcriptasa reversa (RT) para producir un RNA intermediario (virus de dsDNA-RT) o un DNA 
intermediario (virus de ssRNA-RT) que después es integrado al genoma celular recibiendo el 
nombre de provirus. 
11 
https://paperpile.com/c/01gtJq/SeCH
https://paperpile.com/c/01gtJq/wh0r
https://paperpile.com/c/01gtJq/mwBh
https://paperpile.com/c/01gtJq/mwBh
https://paperpile.com/c/01gtJq/bwP5
https://paperpile.com/c/01gtJq/bwP5
https://paperpile.com/c/01gtJq/IWw6
https://paperpile.com/c/01gtJq/DQ4h+MT4D+dTD2+z8OT
https://paperpile.com/c/01gtJq/DQ4h+MT4D+dTD2+z8OT
 
 
1.3 Características moleculares y ecológicas de los virus en relación 
con sus hospederos 
Los virus tienen distintos tipos de interacción con sus respectivos hospederos desde un 
nivel bioquímico y celular hasta un nivel ecológico para poder infectar, replicarse y diseminarse. 
A nivel molecular y celular, existen determinantes específicos que permiten una exitosa 
infección viral como puede ser la unión a la célula hospedera mediada por proteínas virales 
unidas a receptores celulares tales como proteínas membranales, lípidos, carbohidratos, 
glicoproteínas, polisacáridos, glicoesfingolípidos y lipopolisacáridos, entre otros ​(Grove & 
Marsh, 2011; Rakhuba, Kolomiets, Dey, & Novik, 2010)​. Dicha unión determina la entrada del 
genoma viral a la célula a través de su captación y tráfico intracelular y, en última instancia, la 
penetración al citosol. Esto ocasionará que, en algunos casos, como los virus que infectan 
vertebrados, puedan tener efectos citopáticos (habilidad para matar células a través de 
proteínas virales citotóxicas, inhibición de la síntesis de proteínas celulares, alteración del 
metabolismo celular o apoptosis y lisis celular) ​(Grove & Marsh, 2011; Wagner, 1984)​. En otros 
casos, como algunos virus que infectan vertebrados y algunos que infectan procariontes, 
pueden recurrir a un estado de latencia ya sea a través de la integración de su genoma al de la 
célula o de la formación de un episoma ​(Fortier & Sekulovic, 2013; Grinde, 2013; McDonnel, 
Sparger, & Murphy, 2013)​. Sin embargo, los hospederos celulares también responderán 
antagónicamente ante una infección viral a través de las vías de señalización de su sistema de 
defensa. Desde el sistema CRISPR-Cas y restricción-modificación en procariontes ​(Barrangou, 
2015; Murray, 2002)​, mecanismos del silenciamiento del RNA en plantas e invertebrados 
(Csorba, Pantaleo, & Burgyán, 2009)​, hasta la modulación del sistema inmunológico innato y 
adaptativo en vertebrados ​(Flint et al., 2015)​. 
A nivel ecológico se puede apreciar la gran diversidad de ecosistemas en los cuales los 
virus pueden subsistir, pero sin dejar de considerar su especificidad a ciertos hospederos. 
Desde la atmósfera ​(Reche, D’Orta, Mladenov, Winget, & Suttle, 2018)​, los desiertos ​(Zablocki, 
Adriaenssens, & Cowan, 2015)​, los océanos ​(Suttle, 2005) y los suelos ​(Williamson, 
Radosevich, & Wommack, 2005)​, donde abundan los virusde dsDNA que infectan a cepas 
únicas de bacterias y arqueas; pasando por los ecosistemas vegetales ​(Roossinck, 2012)​, 
donde están presentes principalmente virus de RNA y de ssDNA que infectan a plantas e 
insectos; hasta la microbiota y diversos tejidos de animales donde se encuentran virus de DNA 
12 
https://paperpile.com/c/01gtJq/HWZp+stZE
https://paperpile.com/c/01gtJq/HWZp+stZE
https://paperpile.com/c/01gtJq/HWZp+WWFd
https://paperpile.com/c/01gtJq/yHzT+bm6W+Zg6b
https://paperpile.com/c/01gtJq/yHzT+bm6W+Zg6b
https://paperpile.com/c/01gtJq/AYgx+s274
https://paperpile.com/c/01gtJq/AYgx+s274
https://paperpile.com/c/01gtJq/YgAp
https://paperpile.com/c/01gtJq/SeCH
https://paperpile.com/c/01gtJq/MYPh
https://paperpile.com/c/01gtJq/oVVN
https://paperpile.com/c/01gtJq/oVVN
https://paperpile.com/c/01gtJq/OH0V
https://paperpile.com/c/01gtJq/4KP7
https://paperpile.com/c/01gtJq/4KP7
https://paperpile.com/c/01gtJq/Z0Hw
 
 
y RNA ​(Andrewes, 1963; Cadwell, 2015; Ryabov, 2017)​. Las relaciones simbióticas entre estos 
holobiontes abarcan diversos estilos de vida en los que se incluye una relación parasítica (el 
virus se beneficia a expensas del hospedero), comensal (el virus se beneficia sin afectar al 
hospedero) o mutualista (ambos se benefician uno del otro) ​(Roossinck & Bazán, 2017)​. La 
interacción íntima entre los virus y sus hospederos son las que han puesto a los virus entre las 
ramas del árbol de la vida como participantes activos en la evolución de los seres vivos. 
1.4 Características evolutivas 
Como se dijo anteriormente, los virus pueden ser considerados oportunistas, pero 
también son agentes indispensables en la evolución de sus hospederos a través de la 
transferencia horizontal de genes. Una elevada tasa de mutación [de 1.5 x 10​-3 mutaciones por 
nucleótido por replicación (m/n/r) en virus de (+)ssRNA ​(J. W. Drake, 1993) a 1.8 x 10​-8 m/n/r en 
virus de dsDNA ​(John W. Drake & Hwang, 2005)​] combinada con procesos de selección 
natural, deriva génica, epistasis, recombinación y rearreglo genético han permitido que los virus 
puedan adaptarse a los cambios que naturalmente sufre el hospedero ​(Flint et al., 2015; Gibbs 
& Calisher, 2005; Holmes, 2009)​. Desde un enfoque evolutivo, los virus en realidad son 
poblaciones que están en un equilibrio dinámico de replicones similares entre sí llamados 
cuasiespecies ​(Eigen, McCaskill, & Schuster, 1988)​. Éstas se caracterizan por presentar una 
gama diversa de genotipos y fenotipos que les permiten sobrevivir a eventos de selección y 
heredar las mutaciones seleccionadas a la progenie. Sin embargo, a pesar de la alta tasa de 
mutación entre dichas variantes, existen elementos genéticos de tipo cis y trans que se 
conservan y que intervienen en procesos de replicación y empaquetamiento del genoma y 
síntesis del RNA mensajero ​(Flint et al., 2015)​. Estas secuencias son bastante estables para 
ser utilizadas como marcadores filogenéticos. Se ha reportado que estos fósiles moleculares 
conservados, como la DNA y la RNA polimerasa viral, pueden trazar las relaciones filogenéticas 
profundas sobre su propio origen ​(Černý, Černá Bolfíková, de A Zanotto, Grubhoffer, & Růžek, 
2015; Jácome, Becerra, Ponce de León, & Lazcano, 2015)​, aunque también pueden servir 
como marcadores filogenéticos para explicar el origen mismo y la evolución temprana de cada 
una de las familias virales. 
13 
https://paperpile.com/c/01gtJq/tuH0+5QGt+9TzL
https://paperpile.com/c/01gtJq/K9Z5
https://paperpile.com/c/01gtJq/mHcP
https://paperpile.com/c/01gtJq/SXNK
https://paperpile.com/c/01gtJq/SeCH+z8OT+IcSY
https://paperpile.com/c/01gtJq/SeCH+z8OT+IcSY
https://paperpile.com/c/01gtJq/zPwx
https://paperpile.com/c/01gtJq/SeCH
https://paperpile.com/c/01gtJq/0L2f+R1w7
https://paperpile.com/c/01gtJq/0L2f+R1w7
 
 
1.4.1 Origen de los virus 
La genómica comparada ha permitido trazar la historia evolutiva de todos los 
organismos e inferir la existencia hipotética del LCA a través de marcadores filogenéticos como 
los genes ribosomales y proteínas que intervienen en el procesamiento del RNA, transcripción 
y traducción ​(Becerra, Delaye, Islas, & Lazcano, 2007; Doolittle, 2000)​. En contraste, aún existe 
una fuerte discusión y un claro desconocimiento sobre el origen y evolución temprana de los 
virus debido a la dificultad para inferir sus relaciones filogenéticas dada su naturaleza 
divergente (origen polifilético) y la inexistencia de su registro fósil ​(Holmes, 2009)​. A pesar de 
estos problemas, se tienen cinco hipótesis sobre el origen de los virus que no necesariamente 
son independientes o mutuamente excluyentes. La mayoría de estas hipótesis se basa en el 
tamaño y naturaleza química del genoma y la conservación de algunos marcadores 
filogenéticos de familias virales. Con base en la bibliografía examinada, podemos clasificar a 
las hipótesis sobre el origen de los virus de acuerdo a si éstos aparecieron antes, durante o 
después de las primeras entidades celulares. 
1.4.1.1 Hipótesis del virocentrismo (origen precelular) 
De acuerdo a algunos autores, los virus son entidades biológicas que se originaron en 
un periodo pre-celular y, subsecuentemente, proporcionaron la materia prima para el origen de 
las primeras células. Los virus de RNA son los descendientes directos del Mundo del RNA. 
Para 1917, Felix D’Herelle y Frederick Twort ya habían descubierto a los virus a los que 
designaron como “formas de vida primordiales en el origen de la vida” ​(d’Herrelle & Smith, 
1926)​. Ellos partían del siguiente silogismo: los virus son pequeños y si son pequeños son 
simples y si todo indica que los primeros organismos debieron ser simples, por lo tanto los virus 
debieron haber surgido primero ​(Beutner, 1938; Podolsky, 1996)​. Actualmente, esta hipótesis 
no tan solo se basa en la naturaleza y el tamaño de los genomas virales, sino también, en la 
supuesta existencia de genes distintivos (​hallmark genes​) de origen viral, es decir, no tienen 
homólogos celulares como son las proteínas de cápside con dominio ​jelly-roll ​, la helicasa de la 
superfamilia 3, la DNA primasa, la ATPasa, la transcriptasa reversa, la RNA polimerasa 
dependiente de RNA, entre otras ​(Koonin & Dolja, 2006; Koonin, Senkevich, & Dolja, 2006)​. 
Koonin y otros investigadores han reformado esta hipótesis y han propuesto que el origen de 
los virus se llevó a cabo en diferentes etapas primordiales de la vida: Mundo del RNA [viroides 
14 
https://paperpile.com/c/01gtJq/Bkuw+YJ9l
https://paperpile.com/c/01gtJq/z8OT
https://paperpile.com/c/01gtJq/zlk0
https://paperpile.com/c/01gtJq/zlk0
https://paperpile.com/c/01gtJq/Mk6I+pbFA
https://paperpile.com/c/01gtJq/lokt+dY0L
 
 
(Flores, Gago-Zachert, Serra, Sanjuán, & Elena, 2014)​], Mundo del RNA/proteínas [virus de 
(+)RNA y de dsRNA)], Mundo de RNA-DNA (virus parecidos a los retrovirus), Mundo del DNA 
(virus de dsDNA) y, finalmente, una etapa post-celular temprana (fagos) y tardía (virus que 
infectan a eucariontes) ​(Koonin et al., 2006)​. 
1.4.1.2 Hipótesis de la regresión celular (origen post-celular temprano) 
Otros autores sostienen que los virus se originaron por evolución regresiva de 
microorganismosa través de la pérdida de genes y, por lo tanto, se han convertido en parásitos 
intracelulares obligados en la actualidad. 
En 1935, los virólogos Robert Green y Sir Patrick Laidlaw sostuvieron que los virus se 
originaron a partir de células pequeñas que fueron perdiendo genes y, por lo tanto, algunas 
funciones a través del tiempo. Ellos consideraban como evidencia a las ​Rickettsia y las 
Chlamydia que son parásitos intracelulares obligados de eucariontes ​(Podolsky, 1996)​. 
Actualmente, existen varios científicos que apoyan esta versión sobre el origen de los virus. 
Uno de ellos, ​Patrick Forterre (2006) menciona que los virus se originaron en un mundo de 
RNA-proteínas cuando las ribocélulas, con ribosomas primitivos, ya habían emergido. Estas 
células primordiales perdieron su maquinaria de traducción hasta convertirse en parásitos 
obligados. Otros científicos, como los grupos de Didier Raoult y de Jean Claverie, sostienen 
que los megavirus son el resultado de la pérdida de genes de un cuarto dominio de la vida 
(Boyer et al., 2009; Colson, de Lamballerie, Fournous, & Raoult, 2012; Colson, Gimenez, 
Boyer, Fournous, & Raoult, 2011)​. Esto s virus pueden ser tan grandes como los de las 
bacterias más pequeñas y codificar genes para DNA polimerasas, helicasas y ribonucleótido 
reductasas, factor de transcripción eIF4E, aminoácido-tRNA ligasas, tRNA-aminoacil 
transferasas, y enzimas modificadores de tRNAs, todas ellas importantes en la replicación, 
transcripción y traducción del genoma ​(Philippe et al., 2013)​. Por otro lado, ​Nasir & 
Caetano-Anollés (2015) y Philippe et al (2013) también proponen que los virus modernos 
redujeron su genoma a partir de múltiples linajes celulares ancestrales que tenían RNA 
genómico y que coexistían con las células modernas. 
1.4.1.3 Hipótesis del escape (origen post-celular tardío) 
Algunos autores aseveran que los virus son partes de genomas escapados a partir de 
entidades celulares de RNA o de DNA para convertirse en entidades replicativas autónomas. 
15 
https://paperpile.com/c/01gtJq/lLyN
https://paperpile.com/c/01gtJq/lokt
https://paperpile.com/c/01gtJq/Mk6I
https://paperpile.com/c/01gtJq/ouBV
https://paperpile.com/c/01gtJq/o2XA+pPHf+jmll
https://paperpile.com/c/01gtJq/o2XA+pPHf+jmll
https://paperpile.com/c/01gtJq/mwBh
https://paperpile.com/c/01gtJq/mwBh+odCQ
https://paperpile.com/c/01gtJq/mwBh+odCQ
 
 
Para 1944, Frank MacFarlane Burnet propuso que los virus son “fragmentos errantes de 
material genético de origen celular” ​(Antonio Lazcano, 2010)​. Actualmente esta hipótesis ha 
sido retomada por algunos virólogos como Patrick Forterre (2006) (el mismo que apoya la 
hipótesis de la regresión celular) quien propone que algunas moléculas de RNA se escaparon 
de ribocélulas. Estos virus de RNA tuvieron un origen anterior al LCA y la prueba, según él, es 
que no se han encontrado proteínas homólogas entre los virus y los descendientes de este 
ancestro de los seres vivos. Además, Forterre subraya que dada la naturaleza simple de los 
mecanismos de transcripción/traducción de las ribocélulas, era más fácil que algunos 
elementos genéticos se volvieran autónomos. Aparentemente, los RNA mensajeros de las 
células pudieron ser independientes gracias a su capacidad de autoreplicación y de protección 
por una cápside. Esta misma hipótesis sostiene que tanto los virus de RNA como los de DNA 
surgieron después del origen celular ​(Holmes, 2009)​. 
1.4.1.4 Hipótesis de la coevolutiva a largo plazo (origen simultáneo o precelular) 
Otros autores mencionan que los virus tienen un origen inmediatamente anterior o 
simultáneo al de las células y que ambas entidades comparten módulos funcionales. 
De acuerdo al virólogo Esteban ​Domingo (2015​); a principios de este siglo, los estudios 
independientes de ​Bushman (2002)​, ​Mount (2004) y ​Hacker & Dobrindt (2006​) sostienen dicha 
hipótesis gracias a la información genómica masiva con la cual se han identificado secuencias 
regulatorias y codificantes exclusivas de los virus (sin homólogos celulares). Existen dos 
módulos de proteínas exclusivamente virales: las propias (​self​) de la especie viral que son 
innatas y conservadas como las de la cápside y ATPasas de empaquetamiento del genoma y 
las no propias (​non-self ​) que provienen de otros virus por transferencia horizontal como las de 
la replicación del genoma y las de lisis celular ​(Krupovič & Bamford, 2007)​. Ambos módulos son 
funcionalmente esenciales y se comparten entre todos los virus. Es el segundo módulo el que 
ha contribuido a la coevolución de células y de estos replicones autónomos a través de 
transferencias horizontales ​(Domingo, 2015)​. 
1.4.1.5 Hipótesis de las vesículas (origen simultáneo y posterior) 
Unos autores comparten la idea de que los ancestros virales, “protovirus”, se originaron 
en vesículas primitivas en coevolución con “protocélulas” del Mundo del RNA. 
Jalasvuori & Bamford (2008) mencionan que la mayoría de las vesículas formadas 
abióticamente y que contenían moléculas autoreplicativas pudieron haber sido seleccionadas 
16 
https://paperpile.com/c/01gtJq/VnF9
https://paperpile.com/c/01gtJq/z8OT
https://paperpile.com/c/01gtJq/rf6P
https://paperpile.com/c/01gtJq/XJ8S
https://paperpile.com/c/01gtJq/ik58
https://paperpile.com/c/01gtJq/AhGz
https://paperpile.com/c/01gtJq/m7Y5
https://paperpile.com/c/01gtJq/rf6P
https://paperpile.com/c/01gtJq/nC9O
 
 
positivamente. Estos protovirus coexistían y dispersaban genes horizontalmente a vesículas 
mayores llamadas protocélulas. Las protocélulas sobrevivieron al Mundo del RNA gracias a la 
retroalimentación contínua con estos protovirus y comenzaron a ser más independientes. En 
una etapa posterior, estos protovirus continuaron coevolucionando con protocélulas 
favoreciendo su selección a través de la expresión de peptidoglicano de la pared celular y de 
receptores membranales para la formación de “células verdaderas”. Las células se volvieron 
completamente autónomas mientras que los virus solo aprovechaban los recursos enzimáticos 
de éstas. Así, cuando emergió la población que hoy denominamos LCA, éstas células 
originaron mecanismos de defensa promoviendo la emergencia de los virus modernos. 
1.4.2 Estrategias metodológicas para abordar el problema sobre su 
origen 
Un árbol filogenético es una representación gráfica sobre las relaciones evolutivas entre 
los taxa y se construye a partir de secuencias homólogas (ortólogos) ​(Fitch, 2000)​. El estudio 
del origen de la virósfera, como un todo, se complica porque no parece existir un marcador 
filogenético universal entre los linajes virales lo que demuestra, en principio, su origen 
polifilético. Sin embargo, existen algunos genes que se comparten en cada una de las familias 
virales y que podrían trazar las relaciones evolutivas monofiléticas en cada linaje. Es por ello 
que es importante identificar la estrategia metodológica correcta para la construcción de 
árboles filogenéticos de secuencias virales. En general, existen dos métodos para su 
construcción, uno basado en secuencias primarias de proteínas y, el otro, en estructuras 
virales. 
1.4.2.1 Estrategia basadaen secuencia primaria de proteínas 
Estos métodos se basan en la información que puede otorgar un alineamiento de 
secuencias primarias de proteínas homólogas para la construcción de árboles filogenéticos. 
Las regiones alineadas son de interés porque reflejan su importancia evolutiva y estructural, 
mientras que los espacios (​gaps​) en el alineamiento representan eventos de inserción o 
deleción ​(Lam, Hon, & Tang, 2010; McCormack & Clewley, 2002; Romero, 2004)​. A través de 
estas estrategias se analizaron la DNA polimerasa y la replicasa viral como marcadores 
filogenéticos. Se demostró que la historia evolutiva de la DNA polimerasa es muy compleja 
porque existe una clara evidencia sobre la transferencia horizontal y el desplazamiento de 
17 
https://paperpile.com/c/01gtJq/vJTx
https://paperpile.com/c/01gtJq/1irE+pvbW+jQkK
 
 
genes no ortólogos entre virus, células y plásmidos ​(Filée, Forterre, Sen-Lin, & Laurent, 2002; 
Le Gall et al., 2008)​. También se evidenció que la RNA polimerasa dependiente de RNA 
presenta regiones muy conservadas entre los virus de RNA como el motivo C (Gly-Asp-Asp) 
(Gorbalenya et al., 2002) localizado en el subdominio palma y que, al mismo tiempo, con este 
análisis filogenético y el de otros marcadores, se pudieron clasificar varias familias virales de 
(+)ssRNA en un orden más alto: los picornavirales ​(Le Gall et al., 2008)​. 
1.4.2.2 Estrategia basada en organización del genoma 
Para incrementar la robustez de la reconstrucción filogenética se pueden utilizar 
estrategias basadas en el análisis de múltiples genes o, si es el caso, en el de genomas 
completos de manera simultánea ​(Rokas, Williams, King, & Carroll, 2003)​. Estos estudios son 
útiles en mayor medida para el análisis filogenético de virus de dsDNA, ya que se cuenta con 
suficientes patrones genómicos como los Poxviridae ​(McLysaght, Baldi, & Gaut, 2003)​. Por otro 
lado, los virus de RNA tienen genomas pequeños con no más de 10 a 12 genes por lo que 
presentan un número menor de caracteres genéticamente informativos y, además, tienen poca 
resolución filogenética debido a la organización genómica variable ​(Holmes, 2009)​. 
1.4.2.3 Estrategia basada en estructura terciaria 
Estos métodos se basan en la comparación de las estructuras tridimensionales de las 
proteínas, debido a que éstas presentan un grado más alto de conservación y, por lo tanto, 
proporcionan más información sobre su historia evolutiva que la variabilidad y dinámica de una 
secuencia primaria de aminoácidos ​(Chothia, 2003; Gerstein & Hegyi, 1998)​. Es debido a ello 
que los dominios de proteínas son considerados como unidades evolutivas ​(Murzin, Brenner, 
Hubbard, & Chothia, 1995; Riley & Labedan, 1997; Wang, Yafremava, Caetano-Anollés, 
Mittenthal, & Caetano-Anollés, 2007) y útiles como caracteres filogenéticos para analizar 
relaciones evolutivas profundas ​(Abroi & Gough, 2011) como es el caso de la RNA polimerasa 
dependiente de RNA (RdRp), cuyo subdominio palma es estructuralmente homólogo al de las 
DNA polimerasas celulares lo que ha apoyado a la idea de que es una de las regiones más 
antiguas presentes en células y en virus ​(Jácome et al., 2015)​. 
 
18 
https://paperpile.com/c/01gtJq/ta5X+0ZKw
https://paperpile.com/c/01gtJq/ta5X+0ZKw
https://paperpile.com/c/01gtJq/WpAR
https://paperpile.com/c/01gtJq/ta5X
https://paperpile.com/c/01gtJq/aLWg
https://paperpile.com/c/01gtJq/in2a
https://paperpile.com/c/01gtJq/z8OT
https://paperpile.com/c/01gtJq/BjwB+SIbI
https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O
https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O
https://paperpile.com/c/01gtJq/BILF+zvNg+TC6O
https://paperpile.com/c/01gtJq/nxoe
https://paperpile.com/c/01gtJq/R1w7
 
 
1.4.3 Estudios pangenómicos 
Hasta esta parte introductoria de la tesis, se ha mostrado que para determinar la historia 
evolutiva de los virus se apela al análisis filogenético de marcadores altamente conservados 
con las diferentes estrategias anteriormente mencionadas tales como la DNA y RNA pol, 
ATPasa, ribonucleótido reductasa, timidilato sintasa, helicasas, tRNA sintetasa; RdRp, RT; 
proteínas de cápside, entre otras. Sin embargo, es una imagen parcial evolutiva, ya que existen 
otras proteínas que, si bien no están compartidas entre todos los individuos de un grupo viral, 
forman parte de la filogenia completa y permiten comprender los procesos que generan la 
diversidad genética y la variación fenotípica de un clado. ¿Cuántos genomas se necesitan para 
definir filogenéticamente a una familia viral y de esta manera complementar el estudio de su 
origen y evolución temprana? Para ello es importante considerar los estudios pangenómicos 
que se han hecho en microorganismos y en plantas y que han ayudado a determinar en parte 
su dinámica evolutiva ​(Contreras-Moreira et al., 2017; Kaas, Friis, Ussery, & Aarestrup, 2012)​. 
Un pangenoma se define como el repertorio genético de todos los individuos de un 
clado ​(Vernikos, Medini, Riley, & Hervé, 2015)​. Es decir, un pangenoma incluye 1) a todos los 
genes altamente conservados y que se encuentran distribuidos en todas las especies del clado 
(​core​, núcleo pangenómico), 2) a los genes que se conservan en algunas especies de ese 
clado, pero que son funcionalmente indispensables (​shell ​, cubierta pangenómica) y 3) a 
aquellos genes que son únicos y específicos de una sola especie (​cloud ​, nube pangenómica) 
(Medini, Donati, Tettelin, Masignani, & Rappuoli, 2005)​. 
Han sido solo tres estudios realizados sobre pangenómica viral desde el 2013 y sólo se 
han hecho en virus de dsDNA. En un trabajo sobre pangenómica de fagos se determinó que su 
grupo de genes ortólogos continúa creciendo y que existen muchos genes únicos sin 
homólogos procariontes ​(Kristensen et al., 2013)​. En un estudio sobre pangenómica de un 
baculovirus (que infecta a insectos) se reportó que el 90% de los genes del núcleo genómico 
son hipotéticos y que existen muchas alteraciones fenotípicas por pérdida o ganancia de genes 
y sustituciones de nucleótidos ​(Brito et al., 2015)​. En otra investigación sobre pangenómica de 
un clado de mimivirus de Brasil (que infecta a amebas) se encontró que estos virus son 
pangenómicamente similares, muy probablemente debido a que se distribuyen en la misma 
zona geográfica ​(Assis et al., 2015)​. 
19 
https://paperpile.com/c/01gtJq/lXnf+eMmG
https://paperpile.com/c/01gtJq/uf7U
https://paperpile.com/c/01gtJq/YeHj
https://paperpile.com/c/01gtJq/3HC8
https://paperpile.com/c/01gtJq/EpJc
https://paperpile.com/c/01gtJq/cqZz
 
 
1.5 ​El último ancestro común de los seres vivos y los virus 
El último ancestro común (LCA) de todos los seres vivos es una población de 
organismos hipotética reciente de la cual todos los seres vivos (Bacteria, Archaea y Eukarya) 
descendieron. Su existencia se infiere a partir de análisis filogenéticos basados en secuencias 
de RNA ribosomal ​(Woese & Fox, 1977)​. La consiliencia de los análisis filogenéticos ha 
caracterizado al LCA como un conjunto de organismos unicelulares parecidos a las bacterias y 
con un código genético basado en DNA como el actual ​(Becerra et al., 2007)​. Además, el LCAtambién se caracteriza por tener un repertorio genético de secuencias universalmente 
conservadas que intervienen en procesos de replicación y reparación del DNA; traducción y 
transcripción; procesamiento del RNA; síntesis de nucleótidos, aminoácidos y azúcares, y 
producción de energía mediada por ATPasas membranales ​(Becerra et al., 2007)​. 
Estas características describen al LCA como un conjunto de individuos totalmente 
autónomos con la capacidad de replicarse, automantenerse y evolucionar. Sin embargo, éstas 
son las mismas características que excluyen a los virus de las ramas del árbol de la vida. Por 
un lado, a los virus no se les considera organismos vivos debido a que dependen totalmente de 
la maquinaria enzimática celular para replicarse y evolucionar. Además, tienen un origen 
polifilético, no tienen linajes ancestrales y todo indica que la mayoría de sus genes 
informacionales y metabólicos se originaron en genomas celulares ​(Moreira & López-García, 
2009)​. 
1.6 ​Los megavirus y el LCA 
Existe un grupo de virus que se caracteriza por su gran tamaño genómico (hasta 2.5 
millones de pares de bases) ​(Philippe et al., 2013) y morfológico (una cápside de hasta 1500 x 
500 nm) ​(Legendre et al., 2014)​. A este hipotético clado supuestamente monofilético se le ha 
conocido como virus nucleocitoplásmicos de DNA de gran tamaño (NCLDV o megavirus) e 
incluye a siete familias: Ascoviridae, Asfarviridae, Iridoviridae, Marseilleviridae, Mimiviridae, 
Phycodnaviridae y Poxviridae ​(Lakshminarayan M. Iyer, Balaji, Koonin, & Aravind, 2006)​. Una 
de las características peculiares de los megavirus que los distingue del resto de la virósfera es 
que tienen genes involucrados en la replicación y reparación del DNA, transcripción y 
traducción como lo son la DNA polimerasa de la familia B, la topoisomerasa II A, la 
20 
https://paperpile.com/c/01gtJq/uD6P
https://paperpile.com/c/01gtJq/Bkuw
https://paperpile.com/c/01gtJq/Bkuw
https://paperpile.com/c/01gtJq/b3wU
https://paperpile.com/c/01gtJq/b3wU
https://paperpile.com/c/01gtJq/mwBh
https://paperpile.com/c/01gtJq/OTeO
https://paperpile.com/c/01gtJq/3HQo
 
 
endonucleasa FLAP, el ​antígeno nuclear de células en proliferación (PCNA), RNA polimerasa 
dependiente de DNA tipo II, y el factor de transcripción II B y varias tRNA sintetasas ​(L. M. Iyer, 
Aravind, & Koonin, 2001; Yutin, Wolf, Raoult, & Koonin, 2009)​. Aparentemente estos genes 
conservados indican que los megavirus tienen un ancestro común con dicho repertorio 
complejo ​(Koonin & Yutin, 2010)​. 
La conclusión, a partir de las premisas anteriores, por parte de algunos grupos de 
Virología, es que este grupo viral desafió a la definición de vida y que, por lo tanto, debería ser 
considerado como una rama más, un cuarto dominio, derivado del LCA ​(Boyer, Madoui, 
Gimenez, La Scola, & Raoult, 2010; Nasir, Kim, & Caetano-Anolles, 2012; Didier Raoult & 
Forterre, 2008; Wu et al., 2011)​. Sin embargo, otros han reportado que exclusivamente esas 
secuencias altamente conservadas tienen un origen eucarionte y que, por lo tanto, no hay 
evidencia que sostenga la idea de otro dominio de la vida ​(Schulz et al., 2017; Yutin, Wolf, & 
Koonin, 2014)​. Aparentemente, el origen de los megavirus, de acuerdo a algunos autores, los 
ancestros de los megavirus provienen de los “polintovirus” (transposones de DNA de 
eucariontes capaces de formar viriones) que, a su vez, éstos evolucionaron de fagos ​(Koonin, 
Krupovic, & Yutin, 2015)​. 
Es por ello que en la presente tesis, se pretende dilucidar el origen y evolución 
temprana de los virus a través de 1) un análisis general sobre el tamaño de su genoma y la 
distribución taxonómica en sus hospederos procariontes y eucariontes; 2) un estudio 
pangenómico y filogenético del repertorio proteico del núcleo, cubierta y nube de los megavirus 
y su relación con el último ancestro común de los seres vivos; y 3) un análisis evolutivo muy 
preliminar a través de la comparación de las estructuras cristalográficas de las polimerasas de 
RNA de virus de RNA. Cabe destacar que la idea global de esta línea de investigación es 
realizar un análisis pangenómico y filogenético de secuencias y estructuras terciarias para cada 
una de las más de 100 familias de virus de RNA y de DNA. A través de la consiliencia y 
discordancia de todos los análisis de datos biológicos, ecológicos, pangenómicos y 
filogenéticos generados para cada una de las familias virales, se espera apoyar a alguna o 
algunas de las hipótesis sobre el origen y evolución temprana de los virus, es decir, si éstos 
tienen un origen primordial, si tienen un ancestro común celular, o si son fragmentos escapados 
de genomas celulares. 
21 
https://paperpile.com/c/01gtJq/oYHh+dso7
https://paperpile.com/c/01gtJq/oYHh+dso7
https://paperpile.com/c/01gtJq/5EzI
https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak
https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak
https://paperpile.com/c/01gtJq/saSs+ixqX+1tLQ+Z5ak
https://paperpile.com/c/01gtJq/7YID+3u1G
https://paperpile.com/c/01gtJq/7YID+3u1G
https://paperpile.com/c/01gtJq/9mic
https://paperpile.com/c/01gtJq/9mic
 
 
II. MATERIALES Y MÉTODOS 
2.1 Construcción de la base de datos con información biológica y 
ecológica de los virus 
Para agrupar toda la información biológica y ecológica de los virus se construyó una 
base de datos a partir de los registros del GenBank 
(​https://www.ncbi.nlm.nih.gov/genome/viruses/​), del 9o Reporte del Comité Internacional de 
Taxonomía de Virus (ICTV, por sus siglas en inglés) ​(King, Adams, & Lefkowitz, 2011)​, del 
ViralZone (​http://viralzone.expasy.org/​) y de publicaciones relevantes al mes de diciembre de 
2014. Dicha información se clasificó de acuerdo al tipo de especies, tipo y tamaño del genoma, 
segmentación y tipo de hospedero de las más de 100 familias de virus de RNA y de DNA. Se 
recopilaron datos biológicos y ecológicos de 4183 especies virales de referencia, así como de 
215 virus satélite y 44 viroides. De acuerdo a la clasificación de Baltimore, se obtuvieron 
registros de 1926 virus de dsDNA; 701, de ssDNA; 205, de dsRNA; 966, de ssRNA(+); 253, de 
ssRNA(−); 70, de dsDNA-RT; y 62, de ssRNA-RT. De acuerdo a la clasificación por hospedero, 
se obtuvieron registros de 1438 virus que infectan a Bacteria; 69, a Archaea; 74, a protistas; 
1273, a plantas; 82, a hongos; 58, a plantas e invertebrados; 260, a invertebrados; 123, a 
invertebrados y vertebrados; y, finalmente, 1064 virus que infectan exclusivamente a 
vertebrados. De acuerdo a su tipo de genoma, se encontró que existen registros de 1485 virus 
que se clasifican en las 55 familias virales de RNA y 2697 virus, en 43 familias de DNA. De 
acuerdo a su nivel de segmentación, se obtuvieron registros de 3682 virus que tienen un solo 
segmento y solo 501 que tienen más de dos o más segmentos. Aquellos virus que no tenían un 
hospedero identificado en el ​GenBank (n=31) se excluyeron. La base de datos se puede 
verificar en este link: ​https://www.frontiersin.org/articles/10.3389/fevo.2015.00143/full#h8​. 
2.2 Análisis de losdatos biológicos y ecológicos de los virus 
Para determinar la distribución de los virus de acuerdo a la antigüedad de los dominios 
en que se encuentran clasificados los hospederos, se agruparon de manera distinta las 
diferentes características biológicas de éstos tal como su composición química, tamaño y 
segmentación del genoma. Por un lado, el promedio del tamaño del genoma de los virus 
22 
https://www.ncbi.nlm.nih.gov/genome/viruses/
https://paperpile.com/c/01gtJq/LnWd
http://viralzone.expasy.org/
https://www.frontiersin.org/articles/10.3389/fevo.2015.00143/full#h8
 
 
agrupados de acuerdo a la Clasificación de Baltimore, al tipo de hospedero y a la segmentación 
fue calculado. Para esto, las gráficas sobre el tamaño del genoma viral fueron hechas 
logarítmicamente con base 10. Asimismo, el porcentaje de las familias de virus de RNA y de 
DNA por cada hospedero fue estimado. Para ello, cada familia viral fue contada doble si ella 
infecta a más de un hospedero por lo cual se estimó que el 15 familias virales infectan al 
Dominio Bacteria [Proteobacteria (​n = 8 familias), otras phyla (​n = 7)], 13 familias infectan al 
Dominio Archaea [Crenarchaeota (​n = 9) y Euryarchaeota (​n = 4)], y 83 familias infectan al 
Dominio Eukarya [protistas y algas (​n = 7), plantas (​n = 21), hongos (​n = 15), y animales (​n = 
50)]. Dicha distribución de las familias virales en los tres dominios fue utilizada para adornar la 
filogenia preestablecida (con algunas modificaciones para este estudio) en la plataforma 
interactiva del árbol de la vida (IToL, por sus siglas en inglés) ​(Letunic & Bork, 2016)​. 
2.3 Construcción de la base de datos pangenómica de los virus 
Para agrupar las proteínas virales de cada familia de acuerdo a su pangenoma, se 
construyeron dos bases de datos: primero una proteómica y, después, una pangenómica. 
La base de datos proteómica viral fue construida a partir de los proteomas de referencia 
(sin redundancia, completos, con secuencias codificantes descritas y validadas) por cada una 
de las 98 familias virales en el ​GenBank (​https://www.ncbi.nlm.nih.gov/genome/viruses/ en junio 
de 2016). Nosotros consideramos que la familia representa una unidad evolutiva puesto que 
contiene un conjunto de especies virales que comparten un ancestro común de acuerdo al 
ICTV. Para descargar los archivos de dichos proteomas (en formato ​GenBank que contiene 
toda la información de la anotación y la secuencia), se utilizó la siguiente fórmula booleana 
(utilizando como ejemplo a la familia Mimiviridae) en el buscador de la base de datos de 
nucleótidos del Centro Nacional para la Información Biotecnológica (NCBI, por sus siglas en 
inglés): 
 
Mimiviridae[Organism] AND srcdb_refseq[PROP] NOT wgs[prop] NOT cellular 
organisms[ORGN] NOT AC_000001:AC_999999[pacc] 
 
Una vez descargados, los archivos de los proteomas de las especies virales se 
agruparon manualmente por carpetas, las cuales, repŕesentaban a cada una de las 98 familias. 
Con la ayuda de un ​script en ​Perl​, cada proteoma viral de una sola carpeta (familia) se extrajo 
en formato FASTA y se guardó en un archivo de texto independiente. Se contaron todas las 
23 
https://paperpile.com/c/01gtJq/bDD8
https://www.ncbi.nlm.nih.gov/genome/viruses/
 
 
proteínas de cada proteoma viral y si un proteoma se alejaba del promedio del número de 
proteínas (± 35%), se descartaba de la muestra para los siguientes análisis. Si bien se tienen 
todos los proteomas de referencia de cada una de las 121 familias actualmente (mayo de 
2018), sólo se utilizaron las siete familias de megavirus (Asfarviridae, Iridoviridae, Ascoviridae, 
Poxviridae, Phycodnaviridae, Marseilleviridae y Mimiviridae) para este estudio debido a su 
implicación actual sobre el origen de los virus y el último ancestro común de los seres vivos. 
La base de datos pangenómica de los megavirus fue construida usando el ​software 
GET_HOMOLOGUES ​(Contreras-Moreira & Vinuesa, 2013)​. Para este estudio nosotros 
adecuamos los conceptos pangenómicos ​(Medini et al., 2005) en función de la naturaleza 
divergente de los virus, es decir, al núcleo lo definimos empíricamente como un repertorio de 
proteínas homólogas presentes en al menos un 95% de todas las especies de una misma 
familia viral (​core + ​softcore​); a la cubierta (​shell​), como un conjunto de proteínas homólogas 
accesorias presentes en más de dos especies de una misma familia viral; y a la nube (​cloud ​), 
como un grupo de proteínas específicas presentes en al menos dos especies o menos de una 
familia viral. Para la agrupación (​clustering​) de todas las proteínas ortólogas de todos los 
proteomas de cada familia viral, se utilizó al proteoma más pequeño como de referencia (​query​) 
y se realizó una búsqueda pareada con la combinación de los algoritmos ​BLASTP ​(Altschul, 
Gish, Miller, Myers, & Lipman, 1990)​, ​Hmmer3 ​(Sean R. Eddy, 2009) y ​COGtriangles 
(Kristensen et al., 2010) con una cobertura (C) del alineamiento del 75% y un valor esperado 
(E) <10E-05. Dichos ortólogos virales se buscaron en Pfam ​(Finn et al., 2008) (actualización del 
2015) para poder identificar sus correspondientes dominios conservados. 
2.4 Análisis pangenómicos de los megavirus 
Para estimar el tamaño de la composición pangenómica (núcleo, cubierta y nube), los 
datos se ajustaron al modelo de crecimiento exponencial de Tettelin ​(Tettelin et al., 2005)​. Una 
vez generada la matriz con las presencias y ausencias de las proteínas en el pangenoma de 
cada familia viral (y siempre y cuando la muestra sea mayor a tres proteomas), se estiman, se 
extraen y se grafican los diferentes compartimentos de dicho pangenoma a través del lenguaje 
R (​https://www.r-project.org​) con la función ​Circle que el mismo programa 
GET_HOMOLOGUES tiene. Para visualizar mejor los datos de presencia y ausencia de la 
matriz, el archivo se transformó a un formato de tabla (​.csv​). 
24 
https://paperpile.com/c/01gtJq/afpz
https://paperpile.com/c/01gtJq/YeHj
https://paperpile.com/c/01gtJq/9xlx
https://paperpile.com/c/01gtJq/9xlx
https://paperpile.com/c/01gtJq/Qrzv
https://paperpile.com/c/01gtJq/MsoO
https://paperpile.com/c/01gtJq/DIa6
https://paperpile.com/c/01gtJq/uykP
https://www.r-project.org/
 
 
Cabe aclarar que los proteomas de las otras 91 familias virales están en una fase 
preliminar de su análisis pangenómico. Hasta ahora (mayo de 2018), ya se cuenta con la matriz 
de los compartimentos pangenómicos para todas las familias virales. 
2.5 Clasificación funcional de los grupos de homólogos del 
pangenoma de megavirus 
Para complementar la información de la matriz con los grupos de ortólogos virales de 
cada núcleo, cubierta y nube, se utilizó no tan solo el reporte generado de cada uno de los 
dominios ​Pfam​, sino también la información que se encuentra en el ​GenBank, Uniprot, Gene 
Ontology, KEGG, SMART, PDB y PROSITE​. Para esto, se utilizaron los identificadores del 
GenBank y del ​Pfam​, una vez determinados por GET_HOMOLOGUES y se pegaron en forma 
de columna cada uno por separado en las plataformas de la Red de Base de Datos Biológicas(​bioDBnet​, ​https://biodbnet-abcc.ncifcrf.gov/​) y de ​Uniprot (​http://www.uniprot.org/uploadlists/​). 
En estas plataformas se puede seleccionar la base de datos deseada para completar la 
información biológica como la función genética, celular y metabólica; la estructura terciaria, si 
es el caso; entre otras. Esta información complementaria se anexó a la tabla ​.csv​. Asimismo, 
para organizar cada una de las funciones de cada grupo de ortólogos en los compartimentos 
pangenómicos, se recurrió a la clasificación de los grupos de ortólogos (COG, 
https://ftp.ncbi.nih.gov/pub/wolf/COGs/COG0303/fun.txt​) del NCBI ​(Tatusov, 1997)​. Se 
identificaron las funciones a mano (a través de la plataforma de ​Pfam y de la literatura 
científica) de cada uno de los grupos de ortólogos que tenían un identificador ​Pfam o ​GenBank​. 
Aquellos grupos de ortólogos sin identificadores se clasificaron como grupos con función 
desconocida. De la misma plataforma de Pfam (​https://pfam.xfam.org/search#tabview=tab1​), se 
extrajo la información de la distribución de cada uno de los dominios en la sección de especies 
(​Species​) y también se anexó a la tabla .csv​. Para determinar las funciones específicas o 
generales de cada uno de los grupos de ortólogos, se realizaron distintas combinaciones entre 
los tres compartimentos (núcleo, cubierta y nube), su distribución entre los dominios (B, 
Bacteria; A, Archaea; E, Eukarya) y otros grupos virales (V), su función específica o general de 
los COG (Tabla 1). 
Debido a que los valores generados por estas combinaciones son diferentes entre sí en 
varios órdenes de magnitud, se normalizaron logarítmicamente en el lenguaje R a través de la 
fórmula: 
25 
https://biodbnet-abcc.ncifcrf.gov/
http://www.uniprot.org/uploadlists/
https://ftp.ncbi.nih.gov/pub/wolf/COGs/COG0303/fun.txt
https://paperpile.com/c/01gtJq/PF2t
https://pfam.xfam.org/search#tabview=tab1
 
 
yi=log(xi) 
Donde ​yi es la variable que representa a la versión de ​xi transformada en el logaritmo de 
base 10 y ​xi representa a los valores de la cuantificación de cada COG por compartimento 
pangenómico. Una vez hechas las transformaciones logarítmicas, se utilizó la función de 
pheatmap en ​R (después de instalar las bibliotecas ​gplots, DT y ​RColorBrewer​) para visualizar 
la matriz. 
Asimismo se utilizaron valores absolutos para resaltar los grupos de ortólogos de la 
nube que tienen una función desconocida. Dichos valores se visualizaron con Circos 
(Krzywinski et al., 2009) en la terminal usando solo los parámetros para ordenar los datos por 
columnas y filas y con sus respectivos colores (​col with row order, row with col order, col with 
row color, row with col color, hide relative tick marks​). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26 
https://paperpile.com/c/01gtJq/dy0H
 
 
Tabla 1. Código de letras y funciones de los Grupos de Ortólogos (COGs) 
 
A Procesamiento y modificación del RNA 
B Estructura y dinámica de la cromatina 
J Traducción, estructura y síntesis del ribosoma 
K Transcripción 
L Replicación, recombinación y reparación del DNA 
 
 
 
 
D Control del ciclo celular, división celular y división cromosómica 
M Biogénesis de la pared celular y de la membrana 
O Modificación postraduccional, balance entre síntesis y degradación de proteínas, chaperonas 
T Mecanismos de transducción de señales 
U Tráfico intracelular, secreción y transporte vesicular 
V Mecanismos de defensa 
W Estructuras extracelulares 
Y Estructura nuclear 
Z Citoesqueleto 
 
 
 
 
C Producción y conversión energética 
E Transporte y metabolismo de aminoácidos 
F Transporte y metabolismo de nucleótidos 
G Transporte y metabolismo de carbohidratos 
H Transporte y metabolismo de coenzimas 
I Transporte y metabolismo de lípidos 
P Transporte y metabolismo de iones inorgánicos 
Q Transporte y metabolismo de metabolitos secundarios 
 R Función hipotética 
 S Función desconocida 
 Vc* Cápside/envoltura 
 X* Varias funciones 
*Categorías nuevas asignadas para este estudio 
 
 
 
27 
 
 
2.6 Búsqueda de homólogos en bases de datos celulares y virales 
Se seleccionaron todos aquellos grupos de ortólogos de los megavirus con las 
secuencias que tenían un identificador Pfam. Aquéllos que no tenían este identificador se 
clasificaron en los COGs R y S (funciones pobremente caracterizadas). Para identificar a los 
homólogos remotos de Bacteria, Archaea, Eukarya y otros virus en la base de datos ​KEGG 
(actualización del 2011) se utilizaron los programas de ​Hmmer ​(S. R. Eddy, 1998) con un valor 
E<10E-3 y ​Psi-Blast ​(Altschul et al., 1997) con un valor E<10E-3 y un valor C=75%. Una vez 
obtenidas las secuencias homólogas celulares y de otros virus para cada grupo de ortólogos de 
megavirus, se eliminaron aquellas redundantes con el mismo umbral de similitud mayor al 80% 
con ​CD-HIT ​(Fu, Niu, Zhu, Wu, & Li, 2012)​. Los títulos (​headers ​) de cada secuencia ​FASTA 
fueron editados con ​Bash para que fuesen más cortos. Las secuencias ortólogas celulares y 
virales obtenidas se contabilizaron para cada uno de los grupos taxonómicos (desde familias 
virales hasta los phyla y dominios celulares) usando ​Bash​ y ​Awk​. 
2.7 Análisis filogenéticos basados en estructura primaria del 
repertorio del pangenoma de megavirus 
Para alinear todas las secuencias homólogas celulares y virales obtenidas por perfiles 
HMM y ​PSSM de cada grupo de ortólogos de los megavirus se usó el programa de 
alineamiento múltiple ​MAFFT (parámetros por ​default​) ​(Katoh, Misawa, Kuma, & Miyata, 2002)​. 
Para remover las secuencias espurias y las regiones pobremente alineadas del alineamiento 
múltiple se utilizó ​Trimal (parámetros por ​default​) ​(Capella-Gutiérrez, Silla-Martínez, & 
Gabaldón, 2009)​. Para construir el árbol filogenético con máxima parsimonia para cada uno de 
los grupos con las secuencias homólogas celulares y virales se empleó ​IQ-TREE (parámetros: 
ProTest y modelos de selección ​WAG, LG, JTT​; ​Ultrafast Bootstrap con 1000 replicaciones) 
(Nguyen, Schmidt, von Haeseler, & Minh, 2015)​. Para visualizar y manipular a los árboles 
evolutivos generados se utilizó la plataforma de ​iToL ​(Letunic & Bork, 2016) en el que el archivo 
de entrada estaba en formato ​Newick​. Al mismo tiempo se editó en ​Bash un archivo de texto 
con los nombres de cada unidad taxonómica operativa (OTU, por sus siglas en inglés) para 
darle un formato de colores cuyos códigos se encuentran en ​https://htmlcolorcodes.com/es/ 
[Bacteria, morado (#c9a1f4); Archaea, verde (#97eda0); Eukarya, azul (#8ce2f2) y Virus, rojo 
28 
https://paperpile.com/c/01gtJq/FU7Td
https://paperpile.com/c/01gtJq/pw0Z
https://paperpile.com/c/01gtJq/zGfW
https://paperpile.com/c/01gtJq/3ztgj
https://paperpile.com/c/01gtJq/cEfF
https://paperpile.com/c/01gtJq/cEfF
https://paperpile.com/c/01gtJq/ABCQ
https://paperpile.com/c/01gtJq/bDD8
https://htmlcolorcodes.com/es/
 
 
(#f8a593)]. Este archivo de texto con los códigos de colores se anexó a cada árbol filogenético 
en ​iToL​. Cada árbol filogenético de cada grupo de ortólogos de megavirus fue circular, sin 
mostrar la longitud de sus ramas y eliminando aquellas ramas con un valor de ​Ultrabootstrap 
<85%.Las imágenes de cada árbol se exportaron en formato ​.svg​ o ​.png​. 
2.8 Construcción de la base de datos de estructuras terciarias 
En el Laboratorio de Origen de la Vida de la Facultad de Ciencias, se ha implementado 
una nueva estrategia metodológica para la construcción de árboles filogenéticos y para la 
reconstrucción de estados ancestrales de proteínas a partir de las arquitecturas de las 
estructuras terciarias disponibles ​(Alvarez-Carreño, Alva, Becerra, & Lazcano, 2018; Jácome et 
al., 2015)​. Dicho procedimiento se utilizó para el análisis filogenético de los dominios 
estructurales y catalítico de la polimerasa de RNA (NS5B) del virus de la hepatitis C (VHC) y la 
transcriptasa reversa (RT) del virus de la inmunodeficiencia humana (VIH). 
Para la construcción de la base de datos de las estructuras cristalográficas de NS5B de 
VHC y de RT de VIH, se buscaron los términos “Hepatitis C virus AND polymerase” y “Human 
immunodeficiency virus AND reverse transcriptase” en el Banco de Datos de Proteínas de la 
Investigación Colaborativa para la Bioinformática Estructural ​(​RCSB ​PDB​, por sus siglas en 
inglés) y el de Europa (​PDBe ​). Se seleccionaron y descargaron aquellas estructuras de 
referencia para ciertos genotipos y subtipos virales. Asimismo, se descartaron aquellas 
estructuras redundantes >90% de similitud. Dichas estructuras seleccionadas se agruparon de 
acuerdo a la presencia o ausencia de ligandos acoplados, a la similitud de dichos ligandos 
(naturaleza química del ácido nucleico, antivirales y moléculas unidas a sitios alostéricos) y a la 
resolución de las mismas. Además, también se descargó una tabla personalizada con toda la 
información biológica de dichas estructuras para un análisis posterior. 
2.9 Análisis filogenéticos basados en estructuras terciarias 
Para la comparación de las estructuras cristalográficas seleccionadas de NS5B y RT se 
utilizó el programa ​PDBeFold que se basa en el alineamiento pareado de las estructuras 
secundarias (SSM, por sus siglas en inglés) a través de la plataforma en línea del PDBe 
(​http://www.ebi.ac.uk/msd-srv/ssm/​) con parámetros por ​default ​(Krissinel & Henrick, 2004)​. 
Para cada una de las comparaciones se calculó el siguiente valor de alineamiento estructural 
(SAS): 
29 
https://paperpile.com/c/01gtJq/R1w7+VWxV
https://paperpile.com/c/01gtJq/R1w7+VWxV
http://www.ebi.ac.uk/msd-srv/ssm/
https://paperpile.com/c/01gtJq/uNdr
 
 
SAS = RMSD x 100/n​al 
 
Este valor representa a la desviación de la media cuadrática mínima (RMSD) que existe 
entre las distancias de los carbonos alfa por el número de residuos alineados (n​al​) de las dos 
proteínas superpuestas ​(Subbiah, Laurents, & Levitt, 1993)​. Se elaboró una matriz de distancia 
con todos los valores SAS para cada uno de los grupos de estructuras cristalográficas con o sin 
ligandos y/o sustratos. Se construyeron los dendogramas basados en matrices cuyas 
distancias se esperan igualar a la suma de la longitud de las ramas entre los OTUs con el 
algoritmo ​FITCH (paquetería de ​PHYLIP versión 3.695). Se visualizaron y se editaron los 
dendogramas con FigTree. 
Para la visualización interactiva y representación de las estructuras cristalográficas se 
utilizó el ​software Chimera versión 1.11 ​(Pettersen et al., 2004; Subbiah et al., 1993)​, el cual, a 
la vez, contiene programas para hacer la superposición pareada de estructuras de proteínas 
con su respectivo alineamiento pareado de sus secuencias (​MatchMaker ​) o una superposición 
y alineamiento múltiple de las mismas (​Match/Align​). 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
30 
https://paperpile.com/c/01gtJq/9EaT
https://paperpile.com/c/01gtJq/9EaT+WBmV
 
 
III. RESULTADOS 
3.1 Bases de datos biológicos y ecológicos 
[Véase la sección ANEXO I (artículo publicado) para verificar los resultados]. 
3.2 Bases de datos de proteomas virales 
Se obtuvieron registros proteómicos de 79 especies de las siete familias (Ascoviridae, 
Asfarviridae, Iridoviridae, Marseilleviridae, Mimiviridae, Poxviridae, Phycodnaviridae) y dos 
especies virales (​Pithovirus y ​Pandoravirus​). En la Figura 1 se aprecia que los Iridoviridae, 
Poxviridae y Phycodnaviridae tienen el mayor registro de proteomas en el ​GenBank​. Los virus 
que infectan a invertebrados y vertebrados tienen los proteomas más pequeños (~200 
proteínas), mientras que aquéllos que infectan a protistas, poseen los proteomas de hasta más 
de 2,000 proteínas. El tipo de genoma no depende del tamaño del proteoma. Las cápsides son 
complejas y tienen un membrana lipídica interna. 
3.3 Pagenoma viral de los megavirus 
Para el análisis proteómico posterior se descartaron tres proteomas de virus que no 
pertenecían a una familia y al único virus de la familia Asfarviridae. También se excluyeron 
aquéllos proteomas que resultaron alejarse de la media de la suma del número de proteínas 
por cada familia viral. Finalmente se utilizaron 64 proteomas de referencia para dicho análisis 
con un total de más de 18 mil proteínas (Tabla 1). La granularidad fina de los grupos de 
homólogos se definió a través de la combinación de ​Blastp y ​Hmmer para la búsqueda robusta 
de ortólogos y parálogos basada en secuencias a través de Pfam (2015) gracias a la 
paquetería de software ​GET_HOMOLOGUES ​(Contreras-Moreira & Vinuesa, 2013)​. Para 
estimar el número de genes conservados en la familia viral (núcleo genómico), el número de 
genes compartidos encontrado en la adición secuencial de cada nuevo genoma viral fue 
extrapolado por el ajuste de una función de decaimiento exponencial de los datos con el 
modelo de Tettelin (Fig. 2). 
31 
https://paperpile.com/c/01gtJq/afpz
 
 
 
 
 
Fig. 1 ​Número de proteínas por genoma de cada una de las familias de los megavirus. Los virus con 
proteomas más pequeños se encuentran distribuidos, principalmente, en virus que infectan invertebrados 
y vertebrados (entre 100 a 300 proteínas). Los proteomas virales más grandes se encuentran distribuidos 
en familias que infectan protistas​ (​entre 200 a 2,500 proteínas). 
 
 
 
 
 
 
 
 
 
32 
 
 
El resultado de todas las permutaciones muestra que el número de genes compartidos 
en el núcleo pangenómico disminuye con la adición de un nuevo genoma en cada familia viral 
(Fig. 2a). No obstante, la extrapolación de cada una de las curvas indica que el número de 
proteínas del núcleo puede llegar a mantenerse relativamente constante a pesar de la adición 
de nuevos genomas. El caso anterior es más evidente con Poxviridae: el núcleo genómico 
mínimo de sus 35 genomas alcanza una curva asintótica de cuatro grupos de homólogos (Fig. 
2a y Tabla 1). Para estimar el número de genes esenciales (cubierta) y únicos (nube) se 
ajustaron también por el modelo de decaimiento exponencial (Fig. 2b). Se observó que en 
todos los genomas de los megavirus son abiertos y su tamaño puede incrementarse con el 
número de nuevos genomas virales agregados. Además, los genes parálogos son una 
evidencia de que la cubierta y, principalmente, la nube, están en constante crecimiento debido 
al origen de nuevos genes para el

Continuar navegando