Logo Studenta

Uso-de-codones-traducibilidad-niveles-de-expresion-y-transferencia-horizontal--hemos-sobreinterpretado-nuestros-organismos-modelo

¡Este material tiene más páginas!

Vista previa del material en texto

} (,,<_t? 1 
UNIVERSIDAD NACIONAL AUTONOMA 
DE MEXICO 
CENTRO DE CIENCIAS GENOMICAS 
PROGRAMA DE GENOMICA COMPUTACIONAL 
Uso de Codones, Traducibilidad, 
Niveles de Expresión y Transferencia 
Horizontal: ¿Hemos Sobreinterpretado 
Nuestros Organismos Modelo? 
Cuernavaca, Morelos 
T E s s 
QUE PARA OBTENER EL GRADO DE 
DOCTOR EN CIENCIAS BIOMEDICAS 
P R E S E N T A: 
Luis Arturo Medrano Soto 
DIRECTOR DE TESIS: 
Dr. Pedro Julio Collado Vides 
Junio de 2005 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
Tutor Principal: 
Dr. Pedro Julio Collado Vides 
Ce111ro de Ciencias Genómicas (CCG), UNAM. 
Cotutor: 
Dr. Gabriel Moreno Hagelsieb 
Wi(/i-id laurier University. Canada. 
Cotutor: 
Dr. Andrés Christen Gracia 
ASESORES ACADEM ICOS 
Ce111ro de Investigación en Matemáticas (CIMAT). Guam1j11a10. 
Comité tutora!: 
Dr. Pedro Julio Collado Vides 
CCG- UNAM 
Dr. Lorenzo Segovia Forcella 
lns1i11110 de Bioiecnologia (IB7). UNAM. 
Dr. Jaime Mora Celis 
CCG- UNAM 
Miembros del Jurado: 
Dr. Pedro Julio Collado Vides 
CCG- UNAM 
Dr. Enrique Merino Pérez 
IBT- UN, . '4 
Dr. Luis Eguiarte Fruns 
Instituto de Ecología. UNA M. 
Dr. José Andrés Christen Gracia 
C!MAT 
CCG-UNAM 
Autori&o a 11 Dlfa6a Gttml de B1b11otacaa de la 
UHAM a dlhmdi t11 fonnlto ~ t ~so tf 
C<mtenido dt mi kbejo ~pclontl . 
NOMBRE: L v 1s A,- ro bk 
S o:\ e 
Dr. José Guillermo Dávila Ramos 
CCG- UNAM 
Dr. Alejandro Garcianubio Granados 
!BT-UNAM 
Dr. Marco Antonio José Valenzuela 
Instituto de Investigaciones Biomédicas, UNAM. 
JUN 102005 
RECONOCI M IENTOS 
Reconocimientos 
No hubiera sido posible realizar esta tesis doctoral sin el apoyo siempre generoso de mi 
tutor, el Dr. Julio Collado Vides, quien mediante su comprensión, motivación, orientación, 
paciencia y amistad siempre me instó a perseverar hasta alcanzar mis metas demostrándome que 
podía llegar más allá de mis propias expectativas. 
Especialmente debo reconocer la contribución del Dr. Gabriel Moreno Hagelsieb, pues su 
cotutoría e infatigable disponibilidad a discutir el proyecto fue fundamental para su maduración y 
exitosa culminación. La asesoría del Dr. Andrés Christen Gracia permitió definir la metodología 
Bayesiana de modelación estadística en esta tesis y también realizar aportaciones en el área de 
minado de datos. Sin lugar a dudas, mi interacción con ambos doctores influyó mucho en mi 
fonnación. Agradezco la colaboración del Dr. Pablo Vinuesa, pues su apoyo permitió depurar las 
técnicas de análisis filogenético empleadas en la validación de los resultados. 
Durante las etapas iniciales del doctorado fue esencial la orientación y retroalimentación 
que recibí por parte de mi comité tutora!, los doctores Julio Collado, Jaime Mora y Lorenzo 
Segovia. Sus sugerencias, siempre muy oportunas, canalizaron mi energía e interés sembrando la 
semilla que permitió la gestación de este proyecto. 
Agradezco los valiosos comentarios a las distintas versiones del artículo, donde se reportan 
los resultados de este proyecto, por parte del Dr. Enrique Morett, Dr. Alejandro Garciarrubio, Dr. 
Enrique Merino, Dr. Warren F. Lamboy y el Dr. León P. Marínez- Castilla. Todos ellos 
enriquecieron la calidad científica de este trabajo. Doy un reconocimiento especial a todos mis 
compañeros de laboratorio, fue gracias a su apoyo, amistad, confianza, y carisma que el ambiente 
de trabajo siempre fue el ideal para desempeñar cualquier labor por ardua que fuera. 
Mi gratitud es total para el Centro de Ciencias Genómicas, la UNAM y CONACYT, por 
abrirme sus puertas, dándome todo lo necesario para culminar mis estudios de la mejor manera. 
CCG-UNAM 11 JUNIO 2005 
DEDICATORIA 
'Dedico esta tesis dóctorafe-!)Jeciafmente a tí madre, .í.uz 'María Soto Cemceros,yor tu 
amor íncondiCiona(for toáos fos sacr!fícios que reafízasteyara edúcarme sín ín'!}Jortarte fas 
consecuencías, y yor enseilarme, nutÍúnite ef ~íen!Pfo· a no renáírme Jamás. :Es nzucfí.a fa 
yacíencía que lías tenidó yara ver ffegar este momento, yero jínafínente aquI está, con rodó mí 
corazón ... 
?'l mú fíermanas, ?'l[icia y .íucero,yorque sfeny;re están conmígo. ?'l mú cmiaáos 'Ramón 
y 1PfJJe yor amar ynfuntÍamente a mis hermanas. ?'l todos mis sobrinos que quiero tanto: 
'JÍcmán, JoSlté, Joe( ?'lfé1~y y a[ recién ffegadi1 ?'farón. 
?'l tí 1Patty yor toáos fos momentos que fiemos vivícfojuntos ... 
?'l tocft.z nufamífía con sus áos reinas, mis aGuefítas 1Pf!Pa y .íolá,yor su c01fianza en mí 
yyor tocfo efcarMo que síen'!Pre me fi.anyrotÍ{gaáo. 
CCG-U AM 111 JUNIO 2005 
TABLA DE CONTENIDO 
Contenido 
Resumen ......... .......................................................................................................... ...... 1 
Abstract .......................................................................................................................... 2 
Presentación .................................................................................................................. 3 
Capítulo l. Los genes importados exitosamente muestran un uso de codones 
típico en el genoma receptor al momento de ser adquiridos .................................... 6 
1.1 Resurnen del capítulo ................................................................................ ......................... 6 
1.2 Objetivo ............................................................................................................................. 9 
1.3 Antecedentes .......... .. ............................................ ... ................................. ... ....................... 9 
1.3.1 Métodos de detección de transferencia horizontal. ........................................................................ 14 
1.3. / . I El método de incongruenciafilogenética .......... .......................................................... .......... , .................. 14 
1.3. 1. l . l PROBLEMAS DEBIDO A rARAL.OGiA .............................................................................. .......................................... 15 
J .3.1 . 1.2 PROBLEMAS GENERADOS POR TASAS DESIGUALES DE MUTACJÓN ......................................................................... 15 
1.3.1.1.3 PROBLEMAS o emoo A CONVERGENCIA EVOLUTIVA ........................ ..... ..................... ......................... ........ .......... 15 
1.3.1 .1.4 PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA .................................................................................. .. .. ......... .. ... ......... 16 
1.3.1 .1.5 ELEMENTOS MÓVILES ...... ...................................................................... ......... .. ........................ , ........... ... .. .. .......... 17 
1.3. l. l .6 LA ESTRUC1'URA MOSAICO EN CROMOSOMAS ........................................................................................................ 17 
1.3. 1.2 Métodos Composicionales ......... ............................................................................................................... 18 
1.3.1.2. I EL C'RffERIO DE USO DE CODONES .................................................................... .... ........................................ ......... 20 
1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el momento de la 
transferencia ... ....... ... ..... .. ...................................................................................................... 21 
1.5 Una medida adecuada del uso de codones que refleje traducibilidad ................................. 23 
1.5.1 El índice de riqueza de codones (CRl) ................................................................................... ......... 25 
1.5.2 Definición de los niveles pobre, típico y rico de UC ........................................................................ 28 
1 .6 El potencial de Transferencia Horizontal .. ........................................................................ 31 
1. 7 Identificación de Probables Ortólogos (P0) .......... ........... ............ .............................. ..... .. 37 
1.8 Genes xenólogos recientes muestran un UC similar. ......................................................... 39 
1.9 Predicción de xenólogos ... ... ........................... ..... .......... .... .. .............. ..... .................. ....... .42 
1.9.1 Filtros adicionales aplicados ............................................................................. ............................... 43 
/. 9.1. I Máximo parecido global entre GCXY.. ................................................. ............................. ....................... 43 
1.9.1.2 Validación.filogenética ...... ....................................... ........... .......... ........................................................... 44 
1.1 O Discusión .......... .. ........................................................................................................... 50 
1.11 Deducción Matemática del modelo Bayesiano empleado para identificar GCXs ............. 54 
1.1 1.1 Introducción al teorema de Bayes ................................................................................................. 54 
1.11.2 Selección de POs con UC similar .................................................................................................. 55 
Capítulo 11. Uso de codones típico: una zona de tolerancia para alcanzar niveles 
adecuados de expresión .... .. .... .............. ..................................................................... 60 
2.1 Resu1nen del capítulo ... ............. .. .... .... ....................................................................... .... .. 60 
2.2 Antecedentes ..... ... ............................................................ ..... ..... ... ... .. .... ..... .... ........... ...... 61 
2.3 Objetivo .. .... .... ..... ..... ... .... ... .............. .. ......................................................... ....... .. .. ......... 64 
2.4 Hipótesis ........................................... .. ............ ... ........... ... ............................ .................... 65 
CCG- UNAM iv JUNI0200S 
TABLA DE CONTENIDO 
2.5 El UC genómico correlaciona mejor con la concentración de tRNA que el UC en proteínas 
ribosoinales .................. ... ............................ ........................................................................... 66 
2.6 Los genes con alto CRI correlacionan mejor con las abundancias de tRNAs que los GAEs 
...................... ... ......... .... ........ ....... .. ... ... ..... .. ...... .. ... ..... ... .. . : .... .. ... ............. ..... ... ..................... 74 
2.6.1 Obtención de las proteínas ribosomales (PRs ) ......... ...................................................................... 7 4 
2.6.2 Obtención de genes con alto CAi ............................. ............... ............... ........... .............................. 75 
2.6.3 Genes con alto CRI muestran la más alta correlación con la concentración de tRNA ................. 78 
2.7 El uso de aminoácidos está relacionado con la traducibilidad pero no es el factor de mayor 
impacto en las frecuencias de codones ............... .... ... .... .. ....................................................... 79 
2.7.1 El índice de riqueza de aminoácidos (MRl) ........... ........ ................................. .......... ................. .... 83 
2.7.2 Índice de similitud con las proteinas ribosomales (RLI) ................................................................. 83 
2.8 Genes altamente expresados con un uso de codones óptimo en un genoma no tienen las 
mismas propiedades composicionales en otros genomas .................. .. .................................... 85 
2.9 Con los datos actuales no parece existir un conjunto de genes con UC óptimo que sea 
común a todos los genornas ................... ..................... ................................................... ......... 88 
2. 1 O Discusión ............ .................. .... .. .... ....... ........................................................... ........ ... .. 90 
2.11 Perspectivas ............................................... .... ................................................................ 92 
Anexo 1 ........................................................................................................ .. ................ 93 
Anexo 11 ... ..................................................................... ............................................. .. 105 
Bibliografía ............................................. ............................. ... .................................... 124 
CCG- UNAM V JUN!02005 
LUIS ARTURO MEDRANO SOTO RESUMEN 
Resumen 
Esta tesis presenta una evaluación al paradigma composicional para la predicción de genes 
transferidos horizontalmente, el cual postula que los genes foráneos muestran una composición 
atípica de codones en el genoma receptor al momento de ser adquiridos. Primero, se aplicaron 
varios criterios, incluyendo una validación filogenética, para identificar pares de genes 
exportado- importado donde aún se conserva la huella composicional del DNA donador. 
Posteriormente, se determinó cuantos de los genes detectados muestran un uso de codones (UC) 
pobre, típico o rico. En contraste con el paradigma composicional, los resultados muestran que la 
mayoría de los genes extranjeros, al ser adquiridos, exhiben predominantemente un UC típico en 
el genoma hospedero. Tal compatibiUdad entre el UC de genes foráneos y el genoma receptor 
puede ser un prerrequisito para que la selección natural pueda evaluar las ventajas selectivas de 
funciones importadas por la célula. De ser así, un UC atípico actuaría como una barrera 
importante contra Ja adquisición y posterior utilización de genes extranjeros. Además, si el UC de 
genes foráneos es compatible con el nuevo contexto genómico del organismos que los recibe, 
entonces, se ha sobreenfatizado el papel del mejoramiento (amelioration) del UC en la 
transferencia horizontal, pues dicho fenómeno afectaría sólo a una minoría de los genes. 
Otra implicación importante de los resultados es que el nivel típico de UC define una zona 
de seguridad o tolerancia, donde los genes extranjeros pueden ser traducidos eficientemente 
- presumjblemente debido a su compatibilidad con Ja maquinaria de traducción del genoma 
receptor. En apoyo a esta hipótesis, se muestra que en Escherichia coli KI 2 el UC promedio del 
genoma (representativo del nivel típico de UC) correlaciona significativamente con las 
concentraciones disponibles de tRNA. Además, los genes que uti lizan preferentemente los 
codones más abundantes en la célula correlacionan mejor con las abundancias de tRNA que el 
UC de los genes altamente expresados, indicando así que los supuestos actuales para predecir 
niveles de expresión, partiendo únicamente del uso de codones, no están bien fundamentados. Si 
bien los genes altamente expresados tienen generalmente un UC por encima del promedio y 
correlacionan bien con la disponibilidad de tRNA, son tantos los factores que afectan el nivel de 
expresión que no es posible afirmar que todos los genes que muestran estos atributos son también 
altamente expresados. 
CCG- UNAM JUNIO 2005 
LUIS ARTURO MEDRANO SOTO ABSTRACT 
Abstract 
This thesis presents an evaluation to tbe compositional paradigmfor horizontal gene 
transfer (HGT) prediction, which posits that foreign genes display atypical codon usage (CU) 
within the recipient genome immediately upon introgression. First, we applied severa! criteria, 
including phylogenetic validation, to identify pairs of imported- exported genes that still preserve 
the compositional footprint of the donor DNA. Then, we estimated tbe number of detected genes 
showing poor, typical or rich CU. Contrasting with the compositional paradigm, our results 
indicate that most alíen genes exhibit predominantly typical CU in the host genome at the 
moment of acquisition, suggesting that such CU compatibility between foreign genes and 
acceptor genomes is a prerequisite to assess the selective advantage of imported functions. Thus. 
atypical (poor) CU may representa strong barrier against successful integration and uti lization of 
acquired genes. Furthem1ore, if the CU of ali en genes is compatible with the genomic context of 
the new host, then, the role of amelioration in HGT has been overemphasized since it would 
happen only in a small fraction of genes. 
Another important implication of the results is that typical CU defines a safety or tolerance 
zone, wherein foreign genes can be efficiently translated - presumably dueto their compatibility 
with the translational machinery of the recipient organism. We found additional evidence 
supporting this hypothesis. In Escherichia coli K 12, the genomic codon frequencies 
(representative of typical CU) correlate significantly with tRNA concentrations. Furthermore, 
genes preferentially using the most abuodant codons in the genome correlate better with the 
tRNA pool than the CU of highly expressed genes. This result entails that the underlying 
assumptions of current methodologies to predict expression levels, based on CU alone, are not 
well founded. Even though highly expressed genes often show higher than average CU and 
correlate well with tRNA availability, there are so many other factors affecting gene expression 
that genes exbibiting tbese attributes are not necessari ly higbly expressed. 
CCG- UNAM 2 JUNIO 2005 
LUIS ARTURO MEO RANO SOTO PRESENTACION 
Presentación 
El proyecto doctoral fue motivado por el gran caudal de infonnación que se genera como 
producto de los diversos proyectos genómicos en el mundo. Ahora es factible mirar hacia atrás y 
verificar si, bajo la luz de muchos más datos, continúan siendo vigentes los supuestos 
fundamentales o hipótesis de trabajo que surgieron cuando todavía no se había completado la 
secuencia del primer genoma, es decir, durante la era pre- genómica. En pai1icular, se examina la 
capacidad de predicción de los supuestos que relacionan al uso de codones (UC) con la 
transferencia horizontal de genes (THG) y los niveles de expresión. 
El Capítulo 1 describe el análisis que se realizó para evaluar el "paradigma composicional", 
el cual postula que los genes foráneos muestran principalmente una composición atípica de 
codones en el momento de ser adquiridos por el genoma receptor. Los resultados aquí reportados 
no sustentan a este paradigma. Se observa que la gran mayoría de las THGs, donde todavía se 
conserva la huella composicional del DNA donador, involucran genes foráneos que al momento 
de ser importados despliegan directamente un UC típico -aún cuando ciertamente existe una 
elevada probabilidad de que los genes foráneos lleguen al genoma receptor exhibiendo un UC 
pobre (como consecuencia de la gran variabilidad del UC entre diferentes organismos). De este 
hallazgo se desprenden al menos cuatro conclusiones. Primero, aún antes de realizarse el 
intercambio horizontal ya existía una compatibilidad entre la composición de codones de los 
genes foráneos y del organjsmo aceptor. Segundo, el nivel típico de UC constituye una zona de 
tolerancia o seguridad donde los genes foráneos pueden ser expresados adecuadamente por ser 
compatibles con la maquinaria de traducción del genoma destinatario. Presumiblemente, tal 
compatibilidad es un prerrequisito para que la selección natural pueda evaluar la ventaja selectiva 
de funciones importadas por la célula. Tercero, si los genes transferidos exitosamente llegan 
directamente con un UC típico o rico, entonces no es necesario someter su secuencia a un proceso 
de "mejoramiento" (amelioraNon) para que refleje las tendencias en UC del genoma receptor. De 
ser así, tal proceso de "mejoramiento" del UC ha sido sobreenfatizado en la literatura, pues sólo 
sucedería en una minoría de los casos. Cuarto, un UC pobre representa una barrera considerable 
contra la adquisición y utilización de genes foráneos pues la célula no podría traducirlos 
adecuadamente. Debido al conflicto entre los resultados aquí reportados y los supuestos 
CCG- UNAM 3 JUNIO 2005 
LUIS ARTURO MEDRANO SOTO PRESENTACION 
esenciales de las metodologías de predicción de genes foráneos basadas en el paradigma 
composicional, resultó extremadamente dificil publicar los hallazgos. Sin embargo, después de 
una historia de 6 meses que involucró 4 rechazos, sin argumentación convincente por pa11e de 4 
revistas internacionales, y de tres ciclos de revisión en la revista Molecular Biology and 
Evolution (que duraron otros 12 meses), finalmente el trabajo fue aceptado. El a11ículo publicado 
(1] se adjunta en el Anexo l al final de la tesis. En la discusión, al final del Capítulo l, se describe 
una serie de evidencias teóricas y experimentales, publicadas recientemente, que soportan 
fuertemente las conclusiones obtenidas. 
En el capítulo l se propone que un nivel típico de uso de codones representa una zona de 
seguridad o tolerancia, donde genes foráneos pueden ser traducidos adecuadamente por el 
genoma receptor. La hipótesis subyacente es que dicha zona refleja la compatibilidad del UC de 
genes foráneos con la maquinaria de traducción del organismo hospedero. Esta hipótesis no es 
trivial y requiere de evidencias más sólidas que la sustenten. Por consiguiente, en el Capítulo 11 se 
explora la compatibilidad tRNA- UC, para determinar si genes con un UC típico muestran una 
con-espondencia notable con la concentración de tRNA. Efectivamente, como se esperaba, el UC 
genómico (UCc) coITelaciona muy bien con la concentración de tRNA, apoyando así la noción de 
una zona de tolerancia. Sin embargo, la correlación UCc vs tRNA resulto ser también más alta 
que la mostrada por el UC de las proteínas ribosomales (PRs) vs tRNA. Esto es inesperado, 
porque las PRs son el modelo estándar actual del tipo de genes cuyo UC correlaciona 
óptimamente con la disponibilidad de tRNA para maximjzar la eficiencia de la traducción y los 
niveles de expresión. Por este motivo, se decidió estudiar si el UCc constituye una mejor 
referencia para medir la compatibilidad de los genes con la maquinaria de traducción de la célula. 
Los genes que utilizan preferentemente los codones más abundantes en el genoma muestran una 
correlación más elevada con la concentración de tRNA que los genes conocidos o predichos 
como altamente expresados - aquellos que utilizan preferentemente los mismos codones que las 
PRs- sugiriendo así que el UCG es mejor referencia para medir que tan eficientemente se puede 
traducir un gene (traducibilidad). Aquí hay un conflicto, las metodologías actuales de predicción 
de niveles de expresión parten del supuesto de que el UC en genes altamente expresados (e.g. las 
PRs) es óptimo para la traducción, implicando mayor correspondencia con la concentración de 
tRNA en comparación con genes de menor expresión, entonces ¿a qué se debe que existan genes 
no considerados como de alta expresión que muestran correlaciones más elevadas con la 
CCG- UNAM 4 JUNIO 2005 
LUIS ARTURO MEDRANO SOTO PRESENTACION 
abundancia de tRNA? El conjunto de análisis presentado en el Capítulo Il representa una 
evaluación a los supuestos de trabajo actualmente empleados para predecir niveles de expresión.Lo resultados sugieren que tales supuestos no están bien fundamentados e involucran argumentos 
circulares. Se concluye que el UC está más relacionado con la eficiencia de la traducción que con 
el nivel de expresión. Por lo tanto, no es posible predecir confiablemente el nivel de expresión 
partiendo únicamente del UC. Los genes predichos como altamente expresados son sólo un 
subconjunto del total de genes traducibles eficientemente, pero no se puede afim1ar que sean los 
más "óptimos" para la traducción. Se está trabajando en el manuscrito para publicar la 
contribución del Cápitulo U. 
Durante el desarrollo del doctorado se trabajó de manera paralela en otro proyecto 
independiente al tema de tesis: el desarrollo de un método de clasificación Bayesiana (BClass por 
sus siglas en ingles .fl_ayesian Classijier) que permite analizar datos biológicos de naturaleza 
heterogénea. Normalmente se uti lizan métodos de agrupamiento (clustering) para realizar 
filogenias moleculares o estudiar patrones de expresión en microarreglos, porque los datos 
involucrados son matemáticamente homogéneos (tienen las mismas unidades) y el concepto de 
distancia entre los datos es fácilmente interpretable -las filogenias involucran distancias 
genéticas y los microarreglos diferencias en intensidades de expresión. Por otro lado, si se desea 
relacionar genes mediante un análisis que integre el nivel de expresión, vecindad en el 
cromosoma, la función molecular, el modo de regulación y la fuerza de los promotores, por citar 
un ejemplo, es común realizar varios análisis por separado, porque el concepto de distancia entre 
datos tan heterogéneos no tiene una interpretación útil. BClass permite realizar un análisis 
simultáneo de todas estas variables, mediante la transformación del conjunto de atributos 
biológicos heterogéneos en probabilidades de pertenencia a diferentes grupos. La transfonnación 
se logra al modelar cada variable biológica con una distribución estadística (i .e. Normal, Poisson, 
Multinomial, etc.) y después aplicar la teoría de modelos mezcla para calcular la probabilidad a 
posteriori de que cada entidad biológica (en este ejemplo genes) pertenezca a cada uno de los 
grupos en la mezcla. Este procedimiento elimina la necesidad indeseable de definir medidas de 
distancia o similitud para relacionar los genes. Al fina l, todos aquellos genes que muestren 
probabilidades similares de pertenencia a todos los grupos estarán relacionados. El artículo 
detallando esta metodología y su uso potencial [2] se encuentra adjunto en el Anexo 11. 
CCG- UNAM 5 JUNIO 2005 
LUIS ART URO MEDRANO SOTO CAPITULO 1 
Capítulo 1 
Los genes importados exitosamente muestran un uso de 
codones típico en el genoma receptor al momento de ser 
adquiridos 
Déjame decirte el secreto que me ha Llevado a alcanzar mi meta. Mi ji1erza reside 
exclusivamente en mi tenacidad. 
LOUIS PASTEUR 
1.1 Resumen del capítulo 
El estudio de la transferencia horizontal de genes' (THG) ha despertado un gran interés por 
entender los mecanismos biológicos involucrados, sus implicaciones en la adaptación a un medio 
ambiente cambiante y su impacto en la evolución de las especies. Naturalmente, un problema 
esencial para alcanzar estas metas es la identificación confiable de genes que han participado en 
eventos de THG. Actualmente las metodologías teóricas para detectar genes que se han movido 
lateralmente pueden clasificarse en dos tipos: filogenéticas y composicionales. Los métodos 
filogenéticos, aunque no siempre es posible aplicarlos, cuentan con fundamentos más robustos y 
gozan de mayor aceptación. Sin embargo, si no se aplican con las debidas precauciones pueden 
arrojar resultados incorrectos; por ejemplo, al confundir genes parálogos2 por ortófogo:l, o bien 
1 El intercambio de material genético (i.e. genes) entre especies diferentes. 
2 Genes que divergen después de un evento de duplicación genética dentro de un genoma. Tienden a adquirir nuevas 
funciones durante el curso de la evolución y suelen estar sujetos a diferentes presiones selectivas (ver Figura 1.1 ). 
CCG-UNAM 6 JUN IO 2005 
CAPITULO 1 RESUMEN 
al analizar genes con tasas muy desiguales de mutación. Por otro lado, los métodos 
composicionales se pueden aplicar con mayor facilidad por no requerir la comparación de genes 
entre múltiples organismos, pero sus fundamentos teóricos e implicaciones respectivas son más 
debatibles. Los métodos composicionales consideran que los genes recientemente adquiridos por 
transferencia horizontal exhiben características atípicas en su secuencia de DNA, como el 
contenido de G+C, frecuencias de dinucleótios y uso de codones (UC); donde por atipicidad se 
quiere decir frecuencias significativamente diferentes al promedio genómico. 
Con el propósito de evaluar los supuestos subyacentes y la capacidad de predicción de los 
métodos composicionales, este capítulo se concentra en determinar cuál es el nivel de UC (pobre, 
típico o rico) de los genes foráneos en el momento mismo de la transferencia. La teoría actual 
dicta que los genes in1portados exhiben predominantemente un UC "pobre", implicando que 
deben ser ineficientemente traducidos por la maquinaria del organismo receptor. La premisa 
fundamental en la estrategia para atacar esta incógnita plantea que en el instante en que se da el 
intercambio lateral, dos genes xenólogos4 (ver Figura l. l) son idénticos y por lo tanto guardan las 
mismas características composicionales, independientemente de si el UC es típico o atípico con 
respecto al genoma receptor. Como consecuencia, se asume que los genes extranjeros que aún 
conservan la huella composicional del DNA donador deben exhibir: ( 1) un UC muy similar; (2) 
aproximadamente la misma longitud ; (3) la más alta similitud global a nivel de proteína, 
satisfaciendo por ende los criterios operativos actuales para reconocer ortología; y (4) su relación 
filogenética es irreconciliable con el árbol canónico de las especies. Los pares de genes que 
satisfacen las 4 condiciones son denominados Genes Candidatos a ser Xenólogos (GCXs). 
Una vez identificados todos los pares de GCXs entre 103 genomas procariotes no 
redundantes, se comparó su nivel de UC con los niveles esperados por los métodos 
composicionales. Los resultados indican que la abrumadora mayoría de los GCXs despliegan un 
UC preferentemente típico en el genoma receptor al momento de la transferencia, derivándose así 
las siguientes conclusiones. Primero, un nivel típico de UC es un prerrequisito importante para 
que la selección natural pueda evaluar la ventaja selectiva de funciones importadas por la célula; 
segundo, el nivel típico de UC constituye una zona de seguridad o tolerancia donde los genes 
3 Genes en diferentes especies que evolucionaron del mismo gene ancestral a partir de un evento de especiación. 
Normalmente los genes ortólogos retienen la misma función en el curso de la evolución {Figura 1.1 ). 
4 Relación que surge cuando se intercambia material genético (e.g. genes) entre diferentes especies. El gene 
exportado (donado) y el gene importado (adquirido) están vinculados por una relación de xenología. (Figura 1.1) 
CCG-UNAM 7 JUNIO 2005 
CAPITULOI RESUMEN 
extranjeros pueden ser expresados adecuadamente -presumiblemente debido a su 
compatibilidad con la maquinaria de traducción del genoma receptor; tercero, un UC pobre 
representa una barrera importante contra la adquisición y utilización de genes foráneos; cuarto, el 
papel del mejoramiento del UC, o "amelioration", en la transferencia horizontal ha sido 
sobreenfatizado, pues solo sucedería en una minoría de los genes. Aunque en aparente 
contradicción con los supuestos actuales, esta interpretación encuentra soporte en diversas 
evidencias teóricas y experimentales publicadas recientemente. 
Dp1 
Esp2 
Op2 
r -
A1 AB1 81 82 C1 C2 C3 
Ortologfa Paralogía 
X&nologiG 
Figura 1.1. Tres tipos de Homología: Ortología, paralogíay xenología. Se muestra la evolución idealizada de un 
gene (líneas negras) a partir de un ancestro común, descendiendo hacia 3 poblaciones A, B y C (fondo amarillo 
claro). Hay dos eventos de especiación (Espl y Esp2) en los puntos donde se fonnan las "Y" invertidas. También 
hay dos eventos de duplicación genética (Dp 1 y Dp2) ilustrados como líneas horizontales. Dos genes cuyo ancestro 
común reside en la unión de una "Y" invertida son ortólogos (e.g Bl y Cl). Dos genes cuyo ancestro común reside 
en una línea horizontal son parálogos (e.g. C2 y C3). La flecha roja denota la transferencia del gene Bl de la especie 
B hacia la especie A. Aunque estrictamente hablando AB 1 es xenólogo de los otros 6 genes, en este capítulo se 
relacionará con el tenninó xenólogos, como definición de trabajo, al par de genes donado-adquirido (en este caso 
AB 1 y B 1 ). Los 7 genes son homólogos entre sí porque proceden de un mismo ancestro común en la raíz del árbol. 
Estas definiciones y el diagrama fueron tomadas del trabajo publicado por Walter M. Fitcb [3). 
CCG- UNAM 8 JUNIO 2005 
CAPITULOI OBJETIVO 
1.2 Objetivo 
Determinar cual es nivel de uso de codones (pobre, típico o rico) de los genes foráneos 
inmediatamente después de ser importados. Aclarar esta incógnita permitirá evaluar la 
generalidad del paradigma composicional para la detección de adquisiciones laterales recientes 
-genes transferidos horizontalmente muestran predominantemente una composición atípica de 
codones en el genoma receptor. 
1.3 Antecedentes 
La era de la secuenciación a gran escala y de los sistemas automatizados de anotación de 
genomas han generado bases de datos enormes a partir de las cuales se han realizado muchos 
descubrimientos. Análisis comparativos a nivel de DNA y de aminoácidos han revelado regiones 
aisladas o mosaicos de secuencia "atípica" altamente conservados, inspirando como resultado las 
preguntas de si estas secuencias fueron introducidas por transferencia horizontal o si son en 
realidad ocurrencias fortuitas que fueron exitosas y preservadas por selección natural. 
El concepto de transferencia horizontal de genes (THG) involucrando orgánulos de 
eucariotes tiene una larga historia. A principios del siglo XX se propuso que los cloroplastos y las 
mitocondrias eran endosimbiontes bacterianos [4, 5]. Concepto que fue retomado y desarrollado 
cerca de 50 años más tarde [ 6]. Hoy en día ésta es una de las formas más aceptadas de 
movimiento horizontal a través de grandes barreras filogenéticas. El trabajo de Woese [7] 
demostrando que el rRNA mitocondrial y de cloroplastos está más relacionado con las bacterias 
que con eucariotes, ha representado la evidencia más convincente para la teoría de la 
endosimbiosis. 
La era del DNA recombinante proporcionó información valiosa sobre el grado de 
conservación de los mecanismos genéticos y permitió demostrar experimentalmente que los 
genes pueden moverse a través de fronteras entre especies. Un muy buen ejemplo de THG que 
ocurre continuamente en la naturaleza es la transferencia natural de DNA plasmídico de la 
bacteria Agrobacterium tumefaciens a células de plantas, que resulta en la integración del DNA 
foráneo en el cromosoma de la planta, seguido por su expresión para generar cambios 
fenotípicos. Ciertamente, se sabía bien que los virus eran capaces de mediar la transferencia 
CCG- UNAM 9 JUNI02005 
CAPITULO 1 ANTECEDENTES 
horizontal mucho antes que el caso de A. tumefaciens. Aunque este fue un gran descubrimiento 
real izado mucho antes de Jos años l960s (ver referencias en [8- 10]), la transferencia horizontal 
entre microbios no tuvo el impacto que tuvo la transferencia entre microbios y eucariotes. La 
actual era genómica brinda oportunidades para explorar sistemas de THG que puedan existir 
entre diversos organismos. 
El primer experimento que ilustró la habilidad del flujo de información genética entre 
especies pasó en gran medida desapercibido. En 1959 se descubrieron los plásmidos que 
transmiten resistencia a antibióticos, cuyo atributo era que contenían genes capaces de transmitir 
resistencia a múltiples antibióticos y que se transferían a través de diferentes especies bacterianas, 
demostrándose así que la información genética puede fluir de una especie a otra [ 11, 12]. Las 
imp.licaciones de este descubrimiento tuvieron un impacto profundo tanto en el campo de la 
ingeniería genética como en la teoría de evolución. Los primeros artículos que exploraron las 
implicaciones teóricas más profundas de la THG comenzaron a aparecer en los años 70s, aunque 
no fueron ampliamente reconocidos o aceptados. Por ejemplo, se observó que existen rasgos 
similares en plantas no relacionadas, pero que comparten el mismo ecosistema [13, 14], bajo este 
contexto se propuso que las plantas estaban intercambiando genes y se citó a la transferencia de 
genes plasmídicos como precedente de este tipo de eventos. También se planteó que la THG 
podría afectar la evolución en el reino animal [ LS , 16], e inclusive jugar un papel importante en la 
especiación [ 17]. 
Mientras tanto, los experimentos en ingen iería genética comenzaban a producir resultados 
sorprendentes. Por ejemplo, se introdujo un gene de levadura en una mutante de Escherichia coli 
deficiente en histidina, que resultó en el restablecimiento de la biosíntesis de histidina [ 18]. Lo 
que hoy en día es práctica rutinaria, era dificil de comprender a mediados de los 70s - genes de 
organismos eucarióticos artificialmente introducidos en bacterias podían en efecto funcionar. En 
1980 se demostró que genes bacterianos podían expresarse exitosamente en levadura [ 19]. En 
1983 se produjo el primer ratón transgénico que expresó un gene foráneo. el gene que codifica la 
hormona del crecimiento humano [20]. Diferentes experimentos demostraron, resultado tras 
resultado, que en el laboratorio se podían transferir genes entre especies y observar sus fenotipos. 
Las preguntas fundamentales que pennanecieron fueron sí estos eventos ocurrían efectivamente 
en la natural eza y si sucedían en frecuencias suficientemente elevadas corno para tener un 
impacto significativo en la evolución. En 1985 se propusieron dos explicaciones en apoyo a la 
CCG- UNAM 10 JUN102005 
CAPITULO 1 ANTECEDENTES 
importancia de la THG [2 1 ]. Primero, si existían mecanismos tan potencialmente útiles de THGs 
a nivel molecular, la naturaleza debía encontrar una manera de utilizarlos. Segundo, una teoría 
evolutiva general que incorporara la idea del flujo de información genética a través de fronteras 
taxonómicas parecía proporcionar una respuesta simple y satisfactoria a la pregunta: ¿Por qué la 
biología molecular de todos los organismos vivos está tan unificada? Aun cuando los organismos 
pueden divergir independientemente después de la especiación, la biología ha retenido una 
unidad tan profunda que animales transgénicos pueden ser creados en el laboratorio. 
Un factor adicional en favor de la relevancia de Ja THG surgió como producto del 
crecimiento de las bases de datos de ácidos nucleicos. A principios de los 80s ya se había 
acumulado para algunos organismos mode/o5 (i.e. E. coli y levadura) una muestra representativa 
de genes, lo cual permitió estudiar características composicionales del genoma y correlacionarlas 
con propiedades fisiológicas. Como resultado, se descubrió la relación que existe entre el uso de 
codones (UC), la concentración de tRNA y el nivel de expresión. En breve, las frecuencias de 
codones en un organismo no son azarosas, la mayoría de los genes siguen en mayor o menor 
grado las tendencias genómicas de UC (22]; además, los genes altamente expresados muestran un 
mayor sesgo de Ué que correlaciona significativamente con las especies de tRNA más 
abundantes [23, 24]. Estos hallazgos, junto con Ja demostración posterior de que un UC pobre 
puede afectar la eficiencia de la traducción [25-27], motivaron la proposiciónde dos ideas clave. 
Primero, genes con una composición atípica tanto de codones como de G+C podrían ser 
adquisiciones horizontales recientes (28]. Segundo, el nivel de expresión de genes heterólogos 
puede ser afectado por el grado de correspondencia entre el patrón de UC del gene introducido y 
el perfil preferido por el genoma receptor, por lo tanto se enfatizó la importancia biotecnológica 
de determinar un patrón de UC que promueva una expresión óptima (29]. En apoyo a estas ideas, 
se observó que genes de plásmidos y fagos no se apegan al UC genómico tan bien corno genes 
cromosomales, llevando como consecuencia a la sugerencia de métodos generales de predicción 
de genes foráneos basados únicamente en la secuencia [30]. El razonamiento subyacente se basa 
en la hipótesis de que el UC refleja la adaptación de los genes nativos a Ja maquinaria de 
traducción de su genoma [23], y como los genes foráneos no han estado expuestos a las mismas 
5 Especies que son extensivamente estudiadas para comprender fenómenos biológicos particulares, esperando que los 
descubrimientos hechos en un organismo modelo podrán explicar como funcionan otros organismos. Esto funciona 
porque la evolución reutiliza principios biológicos fundamentales y conserva vías metabólicas, estrategias de 
regulación y mecanismos del desarrollo. 
1
' Tendencia en los genes a usar un solo codón sinónimo por aminoácido. 
CCG- UNAM 11 JUNIO 2005 
CAPITULO! ANTECEDENTES 
presiones mutacionales y selectivas que los genes nativos, no es descabellado asumir que los 
genes foráneos deben exhibir una composición de codones pobremente adaptada al genoma 
receptor [30]. Este hecho señaló el nacimiento del paradigma composicional para la detección de 
THG cuando todavía faltaba casi una década para que se obtuviera la secuencia completa del 
primer genoma. Sin embargo, evaluaciones recientes de los métodos que se basan en este 
paradigma concluyen que son poco confiables si la composición atípica de secuencia se toma 
como única evidencia de la ocurrencia de THG (31-33]. 
En el terreno experimental , a mediados de los 80s ya se habían establecido varios 
mecanismos que mediaban el intercambio de genes, no sólo entre organismos unicelulares sino 
también entre metazoarios, promoviendo que mucbos fenómenos biológicos dificiles de explicar 
se manejaran fácilmente haciendo alusión a la transferencia horizontal. Sin embargo, hubo una 
pausa en las observaciones que proporcionaban soporte directo a tales especulaciones. Con la 
secuenciación de genomas la situación ha cambiado. Actualmente, investigadores de áreas muy 
diversas están haciendo observaciones relacionadas con la THG. Como resultado, tal 
acumulación de evidencias hace factible buscar respuestas a preguntas como: (1) ¿Qué tan 
universales son los mecanismos de THG? y ¿Operan estos mecanismos en ambientes naturales? 
(2) ¿Cuál es la evidencia a favor de que la THG contribuye a los genotipos actuales de las 
especies? La evidencia principal a favor de que la THG es substancialmente común involucra un 
razonamiento filogenético. Sin embargo, hay dos problemas muy recurrentes en este tópico 
- detem1inar la topología real de un árbol de genes y la estimación de tiempos de divergencia. 
(3) Si los mecanismos existen y los eventos pueden documentarse, ¿juega la transferencia 
horizontal un papel significativo en la evolución? O bien, ¿Puede una teoría que incorpora DNA 
migratorio explicar fenómenos biológicos más generales? 
A la fecha se han reportado numerosos casos de THG evidenciando que, en efecto, se trata 
de un fenómeno común [34-40]. Sin embargo, la propuesta de que la THG ha sido tan exhaustiva 
que elimina la posibilidad de describir la historia evolutiva de las especies mediante un árbol 
[ 41 ], ha sido impugnada de manera convincente por análisis colectivos de genes que soportan la 
existencia de tres dominios monofiléticos separados [39, 42, 43]. De hecho, se han acumulado 
evidencias sólidas indicando que el flujo horizontal de genes es mucho mayor al interior de 
linajes que entre linajes (39, 44-46]; por consiguiente, continua siendo razonable la idea de la 
existencia de una señal filogenética y de que un modelo jerárquico es adecuado para describir la 
CCG- UNAM 12 JUNIO 2005 
CAPITULO 1 ANTECEDENTES 
historia de las especies - pero es necesario recordar que la ausencia de filogenias discordantes no 
excluye la posibilidad de THG y que algunas especies pueden ser más susceptibles a la THG que 
otras [47]. Además, no todos los genes tienen la misma posibilidad de ser transferidos. La 
hipótesis de complejidad postula que es poco probable que los genes informacionales (aquellos 
involucrados en la transcripción, traducción y procesos relacionados) se transfieran en 
comparación a los genes operacionales (aquellos involucrados en el mantenimiento de la célula), 
debido a que típicamente requieren establecer más interacciones físicas con otros genes [ 48]. 
En resumen, se pueden distinguir dos tendencias en el estudio de la transferencia 
horizontal. Por un lado, se considera que la THG es un factor esencial en la evolución, capaz de 
dirigir la veloz adaptación a nuevos nichos y de inducir eventos de especiación [34, 41 , 49-5 1]. 
Esto se debe a que en principio es mucho más rápido importar genes ya fabricados y listos para 
responder a retos ambientales que experimentar con secuencias nativas. Por otro lado, se 
argumenta que tal interpretación es una exageración propiciada, en parte, por confiar en métodos 
i11adecuados para la identificación de eventos de THG. Aunque la THG puede ser frecuente, la 
fijación de secuencias foráneas en poblaciones es poco probable, porque la gran mayoría de las 
secuencias adquiridas lateralmente no le otorgan al genoma receptor una ventaja selectiva. Por lo 
tanto, el impacto de la THG en la evolución de los genomas bien puede ser marginal [52-54]. Hay 
una gran cantidad de ejemplos donde mutaciones simples afectan la traducción y disminuyen la 
velocidad de crecimiento en ausencia de una condición de selección que las compense [55]; es 
natural esperar que algo similar suceda con secuencias foráneas. En una situación estable, es muy 
probable que las mutaciones sean destructivas o neutrales y la probabilidad a priori de fijación de 
una secuencia neutral es inversamente proporcional al tamaüo de la población [56]. Es decir, una 
vez que un linaje celular 11a evolucionado componentes bien integrados, es muy poco probable 
que componentes mutantes o foráneos incrementen la viabilidad del linaje. Las adquisiciones 
neutrales se difundirán en la población, pero también serán blanco de mutaciones aleatorias y 
erradicadas por deriva genética. 
A continuación se presenta una discusión sobre las cualidades, defectos y sesgos de los 
métodos actuales para identificar transferencias horizontales. Esto es fundamental porque 
dilucidar si el nivel de UC de los genes foráneos es típico o atípico con respecto el genoma 
receptor, en el momento de la transferencia, requiere de la detección confiable de pares de genes 
donador/receptor involucrados en eventos de THG. 
CCG- UNAM 13 JUNIO 2005 
CAPITULO 1 ANTECEDENTES 
1.3.1 Métodos de detección de transferencia horizontal. 
Detenninar si la THG es o no un fenómeno frecuente en la naturaleza, plantea el problema 
teórico de identificar cuando un gene o región de DNA se ha originado a partir de un movimiento 
horizontal. Los métodos que han surgido pueden clasificarse en dos grandes categorías: aquellos 
basados en criterios filogenéticos y aquellos basados en propiedades composicionales de la 
secuencia. 
1.3.1.1 El método de incongruencia filogenética 
Este método es e.1 más confiable para detectar la ocurrencia de transferencias horizontales 
de genes. Consiste en tomar un grupo de genes ortólogos (ver figura 1.1) pertenecientes a un 
conjunto de especies razonablemente lejanas, para luego construir unárbol filogenético y 
compararlo con la filogenia conocida de esas especies. Si se observa una incongruencia entre el 
"árbol de genes" y el "árbol de las especies", entonces se puede plantear un posible caso de 
transferencia horizontal. Esta prueba se ha aplicado con varios grados de rigor desde las primeras 
afim1aciones de transferencia horizontal y ha sido descrita con mucho detalle en la literatura [57]. 
Entre las primeras aplicaciones de este criterio se encuentra la presentada por Woese y Fox en 
1977 [58]. 
Idea lmente la apl icación del método de incongruencia filogenética requiere que se 
satisfagan varias condiciones. Primero, los genes bajo análisis deben contener información 
filogenética. Segundo, Jos genes comparados deben ser ortólogos y no parálogos (ver Figura 1. 1). 
Finalmente, el ejemplo de incongruencia debe involucrar un gene cuya tasa de sustitución no sea 
radica lmente diferente a Ja de los otros genes que se están comparando. Para que estas 3 
condiciones puedan garantizarse, el número de genes a analizar debe ser razonablemente grande, 
i.e. más de 5 y posiblemente más de 10 [59), minimizando así errores debido al muestreo. Es 
difícil dilucidar la dirección de las transferencias a partir de incongruencias filogenéticas, 
especialmente para transferencias ancestrales que involucran linajes que dieron origen a muchas 
especies actuales. Por ejemplo, Ooolittle y colegas [60) concluyeron que la enzima gliceraldeido 
3-fosfato deshidrogenasa (gapdhA) en E. coli fue adquirida horizontalmente desde un eucariote. 
dado que era el único procariote presente en un ciado de eucariotes. Sin embargo, con el hallazgo 
posterior de un ortólogo de gapdhA en Anabaena parece ahora más probable que una bacteria 
ancestral donó este gene a los eucariotes [ 61]. 
CCG- UNAM 14 JUNIO 2005 
CAPITULO 1 ANTECEDENTES 
1.3.1.1.1 Problemas debido a paralogía 
Muchos de los reportes prematuros de posibles THG fueron producto de la comparación de 
genes parálogos al ser tratados como genes ortólogos. Los árboles construidos a partir de genes 
parálogos pueden ser incongruentes como consecuencia de divergencia funcional, involucrando 
así diferentes presiones selectivas y por lo tanto distintas tasas de sustitución. Este escenario 
puede darse también como producto de un simple error de muestreo; cuando se analizan muy 
pocos genes y/o sus productos no han sido totalmente caracterizados. El problema de paralogía 
fue responsable de que se infiriera que la enzima Cu-Zn superóxido dismutasa de la bacteria 
Photobacterium leiognathi proviniera de una fuente eucariótica y de que la leghemoglobina de 
plantas viniera de vertebrados. Conforme se analizaron más secuencias y se identificaron 
correctamente los genes ortólogos, se encontró que los árboles de los genes respectivos son en 
realidad razonablemente congruentes con el árbol de las especies [62, 63]. 
1.3.1.1.2 Problemas generados por tasas desiguales de mutación 
Diferencias en tasas de substitución pueden no ser evidentes en conjuntos con pocos datos. 
Como lo notó Felsenstein [64], la comparación de genes que están sometidos a tasas muy 
desiguales de sustitución puede resultar en "afinidades" aberrantes durante la reconstrucción 
filogenética. Este problema se encontró en la calmodulina de músculo estriado de pollo. Gruskin 
y colaboradores [65] mostraron que el gene designado como tipo calmodulina (el), era muy 
divergente del otro gene de calmodulina en el pollo (cam), así como de cualquier otro gene en 
vertebrados. Partiendo de este hecho, se sugirió que el entró en el pollo por transferencia 
horizontal, posiblemente a partir de una retrotransposición mediada por virus (porque el gene no 
tiene intrones). Sin embargo, análisis posteriores (59] pusieron de manifiesto que el gene el del 
pollo varía mucho más rápido que sus contrapartes en vertebrados, y además puede no ser 
ortólogo de los genes con los que originalmente se comparó. Por lo tanto, el gene no puede ser 
considerado como adquirido horizontalmente. 
1.3.1.1.3 Problemas debido a convergencia evolutiva 
Algunos científicos no aceptan la THG como única explicación para una incongruencia 
filogenética; en su lugar se propone la posibilidad convergencia evolutiva. Por ejemplo, 
Kemmerer y colaboradores [66] mostraron que el citocromo c en Arabidopsis es s imilar al 
citocromo de hongos, pero no ofrecieron una explicación mecanística. Posteriormente, en 1994, 
CCG- UNAM .15 JUNIO 2005 
CAPITULO 1 ANTECEDENTES 
Doolittle al hacer una revisión de este problema concluyó que, aunque la convergencia 
mecanística- funcional es común y la convergencia estructural enzimática probablemente ha 
ocurrido, no se había establecido a la fecha un caso genuino suficientemente convincente de 
convergencia de secuencia [67]. En un caso ampliamente citado de convergencia evolutiva, el de 
la lisozima de langur convergiendo hacia la de rumiantes [68], Doolittle mostró que el árbol de Ja 
lisozima es congruente con el árbol de las especies. Esto es. las substituciones convergentes de 
aminoácidos que pudieron ocurrir en el linaje que lleva a los rumiantes y al langur fueron pocas 
en el trasfondo de cambios neutrales como para ocultar Ja afinidad de la lisozima del langur con 
la de los primates. 
1.3.1.1 .4 Pruebas de significación estadística 
Toda conclusión que involucre el hallazgo de una relación "inesperada" a partir del método 
de incongruencia filogenética, requiere que se estime la confianza estadística del resultado. 
permitiendo así evaluar si la observación "inesperada" es significativa. Desafo11unadamente. en 
general no hay pruebas estadísticas suficientemente rigurosas para determinar la confiabilidad de 
árboles filogenéticos. Los problemas computacionales son inmensos [69]. Por ejemplo. para 
conjuntos de datos que involucren una gran cantidad de especies, puede ser extremadamente 
dificil encontrar inclusive el árbol más corto, sin mencionar la prueba de confianza de ese árbol 
contra algún otro. Este problema ha atraído mucha atención y se han propuesto métodos para 
calcular la confiabilídad de árboles para varias especies. Entre ellos están el método de máxima 
verosimilitud [70, 71] y el de máxima parsimonia (72]. El problema con el procedimiento de 
máxima verosimilitud es que antes de calcular la confiabilidad, debe asu mirse un modelo 
evolutivo. Este modelo usualmente asume que los reemplazos a través de linajes y los eventos de 
ramificación siguen un proceso markoviano. Empero, una cosa es preguntar si un árbol particular 
es consistente con un modelo específico, y otra cosa muy diferente es preguntar si puede 
discriminar entre dos posibles modelos. 
Construir un árbol filogenético a partir de un conjunto de datos que contiene "homoplasia" 
puede hacer la prueba de incongruencia filogenética aún más dificil. La homoplasia surge cuando 
especies evolutivamente lejanas comparten rasgos únicos. La dificultad yace en distinguir si los 
rasgos compartidos reflejan la herencia a partir de un ancestro en común, o si surgieron 
independientemente. Tradicionalmente se considera que la homoplasia es el resultado de 
CCG- UNAM 16 JUN IO 2005 
CAPITULO ! ANTECEDENTES 
procesos tales como la convergencia y reversión a estados ancestrales; obviamente la THG 
también contribuiría a Ja homoplasia. 
1.3.1.1.5 Elementos móviles 
Si el método de incongruencia filogenética es aplicado en la ausencia de otra evidencia 
puede ser demasiado restrictivo -impediría que se consideren genes que están frecuentemente 
involucrados en THG. Este es probablemente el caso de muchos elementos transponibles porque 
su transferencia es tan frecuente que la filogenia de las especies que alojan estos elementos se 
pierde totalmente. Este problema ya se ha revisado con detalle en la literatura. Un ejemplo 
famoso de transferencias de genes eucarióticos, y a su vez uno de los casos mas convincentes, es 
el factorP de Drosophila me/anogaster [73]. Este caso es persuasivo porque Ja transferencia 
ocurrió en años recientes y por lo tanto se observó cuando sucedió. Monitorear el evento en 
tiempo real en poblaciones naturales es muy convincente, tanto como observar la diseminación 
de genes resistentes a antibióticos por medio de plásmidos entre bacterias patogénicas. Además, 
en este caso, el método de congruencia filogenética apoya fuertemente la transferencia horizontal 
[74]. La historia filogenética de muchos elementos móviles se parece mucho a la filogenia de 
virus (puesto que algunos están mezclados con virus) en que su historia es relativamente 
independiente de la filogenia de sus respectivos hospederos [75]. 
1.3.1 .1.6 La estructura mosaico en cromosomas 
Hasta hace relativamente poco todavía se cuestionaba si la información genética podía fluir 
entre diferentes cepas de E. coli. En un inicio se argumentaba que eljlujo génico1 no podía ser 
significativo en E. coli, porque de ser así las diferencias entre cepas hubieran desaparecido. Sin 
embargo, el proceso que se siguió para contestar a esta pregunta ha conducido al desarrollo de 
nuevos criterios para detectar tanto flujo génico como transferencias horizontales entre especies 
filogenéticamente cercanas. 
El grupo de Selander se enfocó en el análisis de poblaciones naturales de E. coli y 
concluyeron que la estructura de su población era "clona!", proponiendo por lo tanto que el flujo 
de genes y recombinación entre cepas naturales de E. coli no debe ser importante [76, 77]. Esta 
conclusión estaba basada en el hallazgo de que las poblaciones naturales de E. coli podían ser 
divididas, usando una distancia genética derivada de polimorfismos de enzimas, en al menos tres 
1 Transferencia de genes al interior de una especie. 
CCG-UNAM 17 JUNL02005 
CAPITULO 1 ANTECEDENTES 
grupos donde los miembros de un grupo estaban más estrechamente relacionados entre sí que con 
los miembros de otros grupos. 
La noción de que no hay flujo génico entre cepas de E. coli, debido a la estructura clona! de 
su población, fue descartada después de que se realizaron comparaciones entre secuencias de 
mayor tamaño obtenidas de diversas cepas de E. coli [78-80]. Para hacer las comparaciones, se 
secuenció una región de 4400 pb del operon trp de 36 cepas de E. coli, seleccionadas del mismo 
conjunto de cepas que utilizó el grupo de Selander para determinar la estructura clona! de la 
población. Estos análisis confirmaron el hallazgo de que las 36 cepas podían ser divididas 
esencialmente en los mismos grupos obtenidos por los polimorfismos de enzimas. Sin embargo, 
también se encontró que cuando se comparaban cepas dentro de un grupo, uno de los miembros 
puede tener una sección corta que difiere de los otros miembros. Esto es, dentro de las regiones 
individuales de similitud se encuentran esparcidas regiones de disimilitud. Además, la región de 
disimilitud podía encontrarse a menudo en alguno de los otros grupos, como si esta región 
hubiera sido transferida de un grupo a otro. A partir del tamaño promedio de las regiones de 
disimilitud, se ha estimado que un evento promedio de recombinación resulta en la transferencia 
de algunos cientos o hasta miles de pares de bases. Se dice que los pares de cromosomas que 
siguen este patrón tienen una estructura mosaico. Este análisis demostró la presencia de 
subpoblaciones en E. coli que son genéticamente distintas, pero que ocasionalmente intercambian 
material genético sin destruir su identidad. En general, dos secuencias homólogas (ver Figura 1.1) 
de DNA que muestren un cambio abrupto de similitud, en una región bien delimitada, presentan 
la posibilidad de una estructura mosaico. 
1.3.1 .2 Métodos Composicionales 
El progreso en la caracterización de diferentes cepas patogénicas de Salmonella ha llevado 
a numerosas propuestas de flujo génico. Hay muy buenos ejemplos involucrando factores virales. 
Por ejemplo, se ha mostrado que los antígenos de superficie utilizados para clasificar serotipos de 
Salmonella están distribuidos de forma discontinua a través de cepas lejanamente relacionadas 
(81 ), lo cual sugiere que los genes de estos serotipos se han movido dentro de esta especie. 
Groisman y colegas (82) han visto al cromosoma de S. typhimurium como mosaicos de partes 
distantemente relacionadas. Esta conclusión se basa, en parte, en la comparación de genes entre 
enterobacterias. Aún cuando E. coli y S. typhimurium comparten genomas de tamaño similar, 
CCG- UNAM 18 JUNI02005 
CAPITULO 1 ANTECEDENTES 
con el 90% de sus genes mostrando altos niveles de sintenia e identidad, cerca del 10% de los 
genes en S. typhimurium codifica funciones totalmente ausentes en E. coli. Además, el contenido 
de G+C en estos genes únicos con frecuencia es significativamente menor al promedio de todo el 
genoma; un hallazgo que aparentemente apoya la idea de un origen remoto de estos genes, 
aunque también se han propuesto hipótesis que rechazan tal posibilidad, argumentando que estas 
secuencias pueden ser nativas y estar sujetas a diversas presiones selectivas producto de su 
participación, directa o indirecta, en distintos procesos biológicos [59, 83]. De hecho, el 
planteamiento de posibles donadores remotos para algunos de estos genes - como phoN (84] y 
un regulador transcripcional [85]- es problemático porque la única evidencia del origen remoto 
es la desviación del contenido de G+C. 
Debido a que diferentes factores pueden influir en el contenido de G+C, Syvanen examinó 
en 1994 la hipótesis de origen remoto con mayor detalle [59]. Al estimar la distribución del 
contenido de G+C a partir de 757 fragmentos de DNA de E. coli y 131 de S. typhimurium, 
Syvanen observó que la distribución puede dividirse en dos grupos. La mayoría de los fragmentos 
se agruparon alrededor de 0.509 de G+C (cerca del promedio genómico) con una distribución 
aproximadamente normal. La segunda clase mostró una desviación significativa hacia bajo G+C. 
Por el criterio de contenido de G+C, estos fragmentos son candidatos a transferencias 
horizontales. Sin embargo, hay un problema con este argwnento, la desviación es únicamente 
hacia bajo contenido de G+c. La variación hacia alto contenido de G+C es consistente con la 
varianza predicha para fluctuaciones aleatorias de G+C dada una media de 0.509. ¿Por qué no se 
ven genes con alto contenido de G+C que vengan de fuentes remotas? 
El caso de S. typhimurium no fue muy diferente. El principal agrupamiento cerca a la 
mediana de 0.516 es sólo aproximadamente normal (posiblemente debido al tamaño más pequeño 
de la muestra), pero la mayoría de la desviación es, como en el caso de E. coli, hacia un 
contenido de G+C bajo. Syvanen concluyó que debido a que la desviación se da principalmente 
hacia bajo G+C, es poco probable que esta sea una evidencia de origen remoto, argumentando 
que la selección funcional por bajo G+C es más viable. Obviamente estas regiones tendrían una 
temperatura de desnaturalización baja, y sería fácil imaginar escenarios donde mecanismos de 
replicación o recombinación permitieran seleccionar estas regiones. Por ejemplo, Syvanen 
propone que una explicación más simple para el bajo nivel de G+C es que se trata de DNA que 
CCG- UNAM 19 JUNI02005 
CAPITULO ! ANTECEDENTES 
participa frecuentemente en rearreglos genómicos. El nivel más bajo de G+C pudo ser entonces 
seleccionado en el paso de recombinación al facilitar la desnaturalización del DNA. 
1.3.1.2.1 El criterio de uso de codones 
A mediados de los 80s empezaron a surgir métodos formales , no basados en análisis 
filogenéticos, con la intención de detectar genes de origen foráneo. Tales métodos se sustentan en 
la observación de que al interior de un organismo los genes tienden a seguir el patrón de UC del 
genoma [22], y por lo tanto aquellos genes que claramente se salían de este patrón fueron 
interpretados como adquisiciones horizontalesrecientes de origen remoto - el paradigma 
composicional. Este es un criterio dificil de aplicar porque el UC de proteínas pequeñas o poco 
abundantes se desvía del sesgo genómico. Médigue y colaboradores [86] examinaron el UC de 
740 genes de E. coli, y encontraron tres clases de genes: ( l) las proteínas altamente expresadas 
que definen el sesgo genómico; (2) las proteínas de expresión moderada que utilizan algunos 
codones raros; y (3) un grupo residual que muestra una marcada preferencia por codones raros. 
Este tercer grupo contiene la mayoría de los genes que serían predichos como nómadas, tales 
como secuencias de inserción y otros elementos móviles. 
En organismos modelo los genes altamente expresados (e.g. proteínas ribosomales) 
muestran una composición de codones bien adaptada al genoma, y sus preferencias de codones 
sinónimos son consideradas como óptimas para maximizar la eficiencia de la traducción pues 
correlacionan bien con la concentración de tRNA [23, 24). Dado que el sesgo en UC en genes de 
alta expresión es mayor al sesgo promedio del genoma, las metodologías que se desarrollaron a 
partir de entonces asumieron que todo gene con UC atípico (diferente tanto al promedio 
genómico como al UC de las proteínas ribosomales) fuera predicho como foráneo [30, 34, 36, 86-
92]. Es importante mencionar, sin embargo, que hace una década ya se había recomendado 
precaución en el uso de estos criterios; si bien la exploración del UC es un ejercicio interesante en 
el análisis de secuencias, las explicaciones alternativas para cualquier desviación de la tendencia 
promedio de un organismo son suficientemente numerosas (e.g. rearreglos genómicos , 
mantenimiento de estructura secundaria, estabilidad, propiedades del DNA reflejadas en el 
mRNA como la susceptibilidad al daño mutagénico, señales relacionadas con la replicación, etc.) 
para impedir su uso como criterio único en la predicción de THG [59]. Además, evaluaciones 
CCG-UNAM 20 JUNIO 2005 
CAPITULO 1 ESTRATEGIA 
más recientes a estás metodologías indican que son poco confiables [3 1, 32]. En el mejor de los 
casos, el UC puede ser usado como apoyo a otras evidencias más sólidas. 
1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el 
momento de la transferencia 
Dilucidar si la atipicidad del UC puede seguir siendo considerada como un detector 
confiable de THG, requiere del diseño de una metodología que en principio no favorezca genes 
con tendencias composicionales particulares. La premisa fundamental de trabajo en este capítulo 
plantea que inmediatamente después de una transferencia horizontal, el DNA donador es idéntico 
en secuencia y tamaño al DNA aceptor, independientemente de si los genes transferidos mue~tran 
un UC típico o atípico en el genoma receptor. El empleo del UC como parámetro en el estudio de 
Ja THG es relevante porque además de transmitir información valiosa sobre Ja composición de 
nucleótidos, también es un indicador del grado de compatibilidad entre genes individuales y la 
maquinaria de traducción de la célula. Entonces, es necesario identificar, primero, pares de genes 
xenólogos donde la huella composicional del DNA donador esté bien conservada y 
posteriormente preguntar si el UC es típico o atípico. Siguiendo este principio, se proponen 
cuatro condiciones básicas para identificar pares de genes candidatos a ser xenólogos (GCXs). 
Todo par de GCXs debe: ( J) tener un UC muy similar; (2) mostrar aproximadamente el mismo 
tamaño; (3) sus secuencias de aminoácidos deben exhibir los niveles más altos de identidad 
global, cuando se comparan con las secuencias de sus probables ortólogos (POs) en otros 
organismos; y ( 4) la relación filogenética entre ellos debe ser irreconciliable con el árbol 
canónico de las especies. Sólo hasta después de haber obtenjdo un conjunto de GCXs que 
satisfagan las cuatro condiciones, se debe preguntar cuáles son las tendencias que exhiben en su 
nivel de UC y contrastarlas con los niveles que se esperarían tanto por los criterios de otras 
metodologías como por azar. La Figura 1.2 muestra la estrategia general que se siguió para 
predecir pares de genes xenólogos que tuvieran una composición similar de codones y 
posteriormente comparar su distribución de UC con el potencial de THG, es decir con los niveles 
de UC que se esperarían al azar dados los genomas analizados. 
Una descripción científica detallada del trabajo se publicó recientemente [1] y se encuentra 
incluida en el Anexo l al final de la tesis. Para minimizar redundancias, aquí sólo se mencionarán 
las partes relevantes pero se profundizará en aquellos detalles que no se trataron en el artículo. 
CCG- UNAM 21 JUNIO 2005 
CAPITULO 1 
Obtener POS Obtener el potencial de 
THG 
Seleccionar POs con 
diferencias pequeñas de 
UCcomoGCXs 
Obtener difereoc1as de 
UC entre POs 
Filtros 
Tamaño similar de POs (:t10%) 
Identidad e: 40% 
Mayor parecido global 
Incongruencia lilogenétlca 
Predicción final 
Comparar el perfil de 
UC en los GCXs 
predichos contra el 
potencial de THG 
ESTRATEGIA 
F igura 1.2. Estrategia para determinar el nivel de uso de codones (UC) de los genes foráneos en el genoma receptor 
en el momento de la transferencia. Primero, se estima el potencial de transferencia horizontal de genes (THG) entre 
todos los genomas (Sección 1.6), es decir, el nivel de UC que un gene cualquiera mostraría en otro genoma de ser 
transferido en este instante. Segundo. se obtienen todos los pares de posibles ortólogos (PO) entre los genomas 
analizados (ver Sección 1.7). Tercero, tomando un gene como referencia se calcula su diferencia de UC con todos los 
POs respectivos (Sección 1.8). Cuarto. se seleccionan aquellos casos donde el gene referencia muestra una diferencia 
muy pequeña de UC con algún PO y posteriormente son sometidos a varios filtros para predecir genes candidatos a 
ser xenólogos (GCXs): ver Sección 1.9. Quinto, fina lmente se compara el nivel de UC de genes xenólogos con el 
potencial de THG (Sección 1.1 O). 
Tomando en cuenta el cuerpo de evidencias que relaciona al UC con la eficiencia de la 
traducción, se diseño el índice de riqueza de codones (CRI por sus siglas en ingles Codon 
Richness Jndex), que cuantifica el grado en que los genes utilizan los codones más abundantes de 
un genoma referencia (ver Sección 1.5). El potencial de transferencia horizontal de genes (THG), 
o probabilidad al azar de que un gene foráneo despliegue un UC pobre, típico o rico en el genoma 
receptor si ocurriera una transferencia en este instante, se calcula como se describe en la Sección 
l.6. Inmediatamente después de una THG los genes intercambiados son idénticos y cumplen, por 
CCG-UNAM 22 JUN102005 
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD 
lo tanto, todos los criterios impuestos por los métodos actuales para detectar ortología con base 
en la secuencia de aminoácidos. Por este motivo, los GCXs se buscaron entre el conjunto de 
probables ortólogos (POs) que fueron identificados como se describe en la Sección 1.7. Otro 
punto fundamental es el método a utilizar para medir y comparar el UC. Se utilizó un enfoque 
Bayesiano para discriminar pares de GCXs que tienen un UC significativamente más similar 
entre sí que con otros POs relacionados, el método se detalla en la Secciones 1.8 y 1.11. Como un 
UC similar entre GCXs no es evidencia contundente de THG, se aplicaron otros criterios que 
incrementan sustancialmente la confianza en las predicciones, esto es, el tamaño similar de Püs, 
máximo parecido global a nivel de aminoácidos y la incongruencia filogenética con el árbol 
universal de las especies (ver Sección 1.9). La comparación entre el potencial de THG más la 
discusión de las implicaciones biológicas y evolutivas de los resultados se presentan en la 
Sección 1.1 O y en el artículo incluido al final de la tesis (Anexo l). 
1.5 Una medida adecuada del uso de codones que refleje traducibilidadEvaluar el nivel de UC no es trivial porque existe más de una alternativa para hacerlo, en 
todos los casos se requiere de un modelo para cuantific.ar, comparar e interpretar preferencias de 
codones sinónimos. Los supuestos que conforman la columna vertebral de las metodologías 
actuales surgieron durante la era pre- genómica y, aunque evidentemente razonables en su 
momento, datos recientes sugieren que fueron producto tanto de la escasez de datos como de una 
sobreinterpretación del conjunto limitado de evidencias experimentales disponibles en ese 
tiempo; el Capítulo II hace una revisión detallada de este problema, justificando Ja necesidad de 
desarrollar una nueva medida de UC que refleje de manera más adecuada la relación entre la 
composición de codones y la eficiencia de la traducción. 
Los métodos más populares para estudiar el UC, no toman en cuenta la composición de 
aminoácidos, ni los codones que codifican para señales de paro, metionina y triptófano, debido a 
que se asume implí.citamente, primero, que la composición de aminoácidos está más 
comprometida con la función que con el proceso traducción y por lo tanto su contribución es 
poca o nula a Ja eficiencia de la traducción8 (traducibilidad) en comparación al UC. Segundo, que 
estos codones no son informativos en cuanto al proceso de traducción --o bien no codifican para 
~ La rapidez con la que el ribosoma traduce un RNA mensajero una vez que se ha tomado en cuenta la estabi lidad del 
mRNA. Normalmente se mide como el número de proteínas traducidas a partir de un mRNA. 
CCG- UNAM 23 JUNI02005 
CAPITULO 1 UNA M EDIDA DE UC Y TRADUCIBILIDA D 
aminoácidos o no tienen codones sinónimos que compitan por una especie particular de tRNA. 
Sin embargo, se han reportado evidencias apoyando la noción de que el uso de aminoácidos sí 
tiene un impacto considerable en la traducibilidad de los genes. Por ejemplo, se ha observado que 
la composición de aminoácidos esta relacionada significativamente con el nivel de expresión 
[93] , y que existe una tendencia a utilizar aminoácidos cuya biosíntesis es menos costosa, en 
términos energéticos, en genes que exhiben correlaciones UC-tRNA elevadas [94]. Es necesario 
aclarar que los codones para metionina y triptófano son traducidos por tRNAs que pueden estar 
en concentraciones mayores, o menores, que otros tRNAs traduciendo aminoácidos con varios 
codones sinónimos, y por lo tanto su contribución a la traducibilidad no es despreciable (ver 
Capítulo Ll , Secciones 2.5 , 2.6 y 2.7). Además, todos los genomas muestran una marcada 
preferencia por alb'Uno de los codones de paro; es posible que se deba a una estrategia para 
minimizar los costos de errores en la terminación de la traducción (95], incrementando corno 
consecuencia las tasas de traducción porgue la tasa de producción de proteína, a partir de mRNAs 
de un cierto tipo, es igual a la tasa de terminación de la traducción de esos mensajeros [96]. El 
sesgo en uso de codones de paro correlaciona bien con el hecho de que, en procariotes, los 
factores de terminación de la traducción reconocen estos codones con distintas afinidades [97). 
También se ha propuesto que, tanto en procariotes como eucariotes, hay señales conservadas al 
final de los genes que pueden promover una terminación eficiente de la traducción, ya sea en la 
forma de tetra- núcleotidos [98, 99] o bien como interacciones directas entre el factor de 
terminación y el último peptidil-tRNA SertPhe [ 100]. Inclusive, en genes contiguos el sesgo en 
codones de paro también podría estar relacionado con presiones selectivas por evitar estructuras 
secundarias en los puntos donde termina un gene y empieza el otro [ l O l]. Se deja para el 
Capítulo 11 la comparación y discusión completa de los problemas asociados a las metodologías 
actuales que evalúan el UC. Por el momento es suficiente decir que una medida más adecuada de 
traducibilidad debe tomar en cuenta las abundancias de todos los codones, sean degenerados o 
no, y la contribución de la composición de aminoácidos; entre más un gene utilice los codones 
más abundantes, mayor será su correlación con la disponibilidad de tRNAs, indicando que será 
traducido con mayor eficiencia. 
Debido al conjunto de evidencias, expuestas en el párrafo anterior, indicando que el uso de 
aminoácidos más los codones que codifican para sefiales de paro, metionina y triptofano están 
relacionados con la traducibilidad de los genes, se dise1io el Índice de Riqueza de Codones (CRI 
CCG-UNAM 24 JUNIO 2005 
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD 
por sus siglas en inglés Codon Richness lndex) donde se toman en cuenta las frecuencias de los 
64 codones para cuantificar el grado en que genes individuales utilizan los codones más 
abundantes en un genoma referencia (ver Sección 1.5.1). Si en general el UC es homogéneo 
como lo dicta la hipótesis del genoma (22], el sesgo de UC correlaciona con las abundancias de 
tRNA (23], las abundancias de aminoácidos influyen en la eficiencia de la traducción [93, 94] y 
la célula debe expresar todos sus genes a niveles adecuados para sobrevivir, entonces es posible 
interpretar al CRI como una medida de traducibilidad dado que toma en cuenta todos estos 
factores. El Capítulo 11, Sección 2.6, presenta la comparación del CRI con otros índices y muestra 
como genes con alto CRl correlacionan mejor con las concentraciones de tRNA que los genes 
conocidos o predichos (por otros índices de UC) como altamente expresados; también se analizan 
otras evidencias que respaldan esta interpretación. 
1.5.1 El índice de riqueza de codones (CRI) 
En la sección l .5 se dieron argumentos biológicos para exponer algw10s problemas con las 
metodologías actuales que evalúan el uso de codones, y en el Capítulo JI, Sección 2.6.2, se 
exponen las razones técnicas para no utilizar el índice estándar de uso de codones CAi (por sus 
siglas en ingles Codon Adapta/ion lndex [30]). 
Sea Ga.i el gene i en el genoma a, n0 .1(c) el número de veces que el codon e aparece en el 
gene Ga.i, y La.i la longitud en codones (incluyendo el codón de término) del gene G0 J, esto es 
64 
La.i = 2: n11,¡(c) . La frecuencia relativa, qa,;(c), del codón e en el gene G0 ,; normalizada por La.i es ... , 
d fi 'd ( n .(e) . ~ ) entonces e m1 a corno q1,.1 e)= -r:-- (se tiene que LJ q,,,1(c = 1 ). 
tt .i c-• I 
Ante el evento potencial de una transferencia horizontal del gene Ga.i al genoma b, es 
posible estimar si el UC de Ga.i es compatible a priori con el UC (o nuevo contexto genómico) del 
genoma receptor b. En términos más precisos, se trata de cuantificar el grado en que el gene G0 ,; 
usa los codones más abundantes de b. La frecuencia o abundancia genómica de cada codón e en 
el genoma b se puede interpretar como la probabilidad de encontrar ese codón en el conjunto total 
CCG- UNAM 25 JUNI02005 
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD 
de genes del genoma b,pb(c), y se calcula como pb(c) = :b(c) , donde Nb(c) es el número total 
"'¿ Nb(j) 
j - 1 
64 
de veces que el codón e aparece en el genoma b (se cumple la condición "'¿p11 (c) = 1). 
c- 1 
Considerando a Pb(c) como el peso o contribución del codon e a la distribución genómica 
de b, se puede ponderar en qué medida un gene extranjero Ga.i cualquiera utiliza cada uno de los 
64 codones del genoma receptor b. Definimos entonces el CRI del gene Ga.i estimado con base en 
las frecuencias de codones del genoma b como: 
64 
CRI¡,(Gª) = "'¿ p¡,(C)*qa,;(c). (1.1) 
c• I 
El indice puede interpretarse como la utilidad esperada de una distribución particular de 
codones y constituye una función de ponderación local [ l 02], donde valores más grandes se 
obtienen cuando los codones más abundantes en el genoma b son utilizados por el gene G a.i· El 
indice refleja, entonces, como "ve" el genoma b la composición particular de codones de G a,i· 
Esto lo definimos como el "Potencial de Transferencia'' del gene

Continuar navegando

Otros materiales