Uso-de-codones-traducibilidad-niveles-de-expresion-y-transferencia-horizontal--hemos-sobreinterpretado-nuestros-organismos-modelo

•

Biológicas / Saúde

Aprendiendo Medicina

7/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Medicina

251.572 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

} (,,<_t? 1
UNIVERSIDAD NACIONAL AUTONOMA
DE MEXICO
CENTRO DE CIENCIAS GENOMICAS
PROGRAMA DE GENOMICA COMPUTACIONAL
Uso de Codones, Traducibilidad,
Niveles de Expresión y Transferencia
Horizontal: ¿Hemos Sobreinterpretado
Nuestros Organismos Modelo?
Cuernavaca, Morelos
T E s s
QUE PARA OBTENER EL GRADO DE
DOCTOR EN CIENCIAS BIOMEDICAS
P R E S E N T A:
Luis Arturo Medrano Soto
DIRECTOR DE TESIS:
Dr. Pedro Julio Collado Vides
Junio de 2005

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

Tutor Principal:
Dr. Pedro Julio Collado Vides
Ce111ro de Ciencias Genómicas (CCG), UNAM.
Cotutor:
Dr. Gabriel Moreno Hagelsieb
Wi(/i-id laurier University. Canada.
Cotutor:
Dr. Andrés Christen Gracia
ASESORES ACADEM ICOS
Ce111ro de Investigación en Matemáticas (CIMAT). Guam1j11a10.
Comité tutora!:
Dr. Pedro Julio Collado Vides
CCG- UNAM
Dr. Lorenzo Segovia Forcella
lns1i11110 de Bioiecnologia (IB7). UNAM.
Dr. Jaime Mora Celis
CCG- UNAM
Miembros del Jurado:
Dr. Pedro Julio Collado Vides
CCG- UNAM
Dr. Enrique Merino Pérez
IBT- UN, . '4
Dr. Luis Eguiarte Fruns
Instituto de Ecología. UNA M.
Dr. José Andrés Christen Gracia
C!MAT
CCG-UNAM
Autori&o a 11 Dlfa6a Gttml de B1b11otacaa de la
UHAM a dlhmdi t11 fonnlto ~ t ~so tf
C<mtenido dt mi kbejo ~pclontl .
NOMBRE: L v 1s A,- ro bk
S o:\ e
Dr. José Guillermo Dávila Ramos
CCG- UNAM
Dr. Alejandro Garcianubio Granados
!BT-UNAM
Dr. Marco Antonio José Valenzuela
Instituto de Investigaciones Biomédicas, UNAM.
JUN 102005
RECONOCI M IENTOS
Reconocimientos
No hubiera sido posible realizar esta tesis doctoral sin el apoyo siempre generoso de mi
tutor, el Dr. Julio Collado Vides, quien mediante su comprensión, motivación, orientación,
paciencia y amistad siempre me instó a perseverar hasta alcanzar mis metas demostrándome que
podía llegar más allá de mis propias expectativas.
Especialmente debo reconocer la contribución del Dr. Gabriel Moreno Hagelsieb, pues su
cotutoría e infatigable disponibilidad a discutir el proyecto fue fundamental para su maduración y
exitosa culminación. La asesoría del Dr. Andrés Christen Gracia permitió definir la metodología
Bayesiana de modelación estadística en esta tesis y también realizar aportaciones en el área de
minado de datos. Sin lugar a dudas, mi interacción con ambos doctores influyó mucho en mi
fonnación. Agradezco la colaboración del Dr. Pablo Vinuesa, pues su apoyo permitió depurar las
técnicas de análisis filogenético empleadas en la validación de los resultados.
Durante las etapas iniciales del doctorado fue esencial la orientación y retroalimentación
que recibí por parte de mi comité tutora!, los doctores Julio Collado, Jaime Mora y Lorenzo
Segovia. Sus sugerencias, siempre muy oportunas, canalizaron mi energía e interés sembrando la
semilla que permitió la gestación de este proyecto.
Agradezco los valiosos comentarios a las distintas versiones del artículo, donde se reportan
los resultados de este proyecto, por parte del Dr. Enrique Morett, Dr. Alejandro Garciarrubio, Dr.
Enrique Merino, Dr. Warren F. Lamboy y el Dr. León P. Marínez- Castilla. Todos ellos
enriquecieron la calidad científica de este trabajo. Doy un reconocimiento especial a todos mis
compañeros de laboratorio, fue gracias a su apoyo, amistad, confianza, y carisma que el ambiente
de trabajo siempre fue el ideal para desempeñar cualquier labor por ardua que fuera.
Mi gratitud es total para el Centro de Ciencias Genómicas, la UNAM y CONACYT, por
abrirme sus puertas, dándome todo lo necesario para culminar mis estudios de la mejor manera.
CCG-UNAM 11 JUNIO 2005
DEDICATORIA
'Dedico esta tesis dóctorafe-!)Jeciafmente a tí madre, .í.uz 'María Soto Cemceros,yor tu
amor íncondiCiona(for toáos fos sacr!fícios que reafízasteyara edúcarme sín ín'!}Jortarte fas
consecuencías, y yor enseilarme, nutÍúnite ef ~íen!Pfo· a no renáírme Jamás. :Es nzucfí.a fa
yacíencía que lías tenidó yara ver ffegar este momento, yero jínafínente aquI está, con rodó mí
corazón ...
?'l mú fíermanas, ?'l[icia y .íucero,yorque sfeny;re están conmígo. ?'l mú cmiaáos 'Ramón
y 1PfJJe yor amar ynfuntÍamente a mis hermanas. ?'l todos mis sobrinos que quiero tanto:
'JÍcmán, JoSlté, Joe( ?'lfé1~y y a[ recién ffegadi1 ?'farón.
?'l tí 1Patty yor toáos fos momentos que fiemos vivícfojuntos ...
?'l tocft.z nufamífía con sus áos reinas, mis aGuefítas 1Pf!Pa y .íolá,yor su c01fianza en mí
yyor tocfo efcarMo que síen'!Pre me fi.anyrotÍ{gaáo.
CCG-U AM 111 JUNIO 2005
TABLA DE CONTENIDO
Contenido
Resumen ......... .......................................................................................................... ...... 1
Abstract .......................................................................................................................... 2
Presentación .................................................................................................................. 3
Capítulo l. Los genes importados exitosamente muestran un uso de codones
típico en el genoma receptor al momento de ser adquiridos .................................... 6
1.1 Resurnen del capítulo ................................................................................ ......................... 6
1.2 Objetivo ............................................................................................................................. 9
1.3 Antecedentes .......... .. ............................................ ... ................................. ... ....................... 9
1.3.1 Métodos de detección de transferencia horizontal. ........................................................................ 14
1.3. / . I El método de incongruenciafilogenética .......... .......................................................... .......... , .................. 14
1.3. 1. l . l PROBLEMAS DEBIDO A rARAL.OGiA .............................................................................. .......................................... 15
J .3.1 . 1.2 PROBLEMAS GENERADOS POR TASAS DESIGUALES DE MUTACJÓN ......................................................................... 15
1.3.1.1.3 PROBLEMAS o emoo A CONVERGENCIA EVOLUTIVA ........................ ..... ..................... ......................... ........ .......... 15
1.3.1 .1.4 PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA .................................................................................. .. .. ......... .. ... ......... 16
1.3.1 .1.5 ELEMENTOS MÓVILES ...... ...................................................................... ......... .. ........................ , ........... ... .. .. .......... 17
1.3. l. l .6 LA ESTRUC1'URA MOSAICO EN CROMOSOMAS ........................................................................................................ 17
1.3. 1.2 Métodos Composicionales ......... ............................................................................................................... 18
1.3.1.2. I EL C'RffERIO DE USO DE CODONES .................................................................... .... ........................................ ......... 20
1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el momento de la
transferencia ... ....... ... ..... .. ...................................................................................................... 21
1.5 Una medida adecuada del uso de codones que refleje traducibilidad ................................. 23
1.5.1 El índice de riqueza de codones (CRl) ................................................................................... ......... 25
1.5.2 Definición de los niveles pobre, típico y rico de UC ........................................................................ 28
1 .6 El potencial de Transferencia Horizontal .. ........................................................................ 31
1. 7 Identificación de Probables Ortólogos (P0) .......... ........... ............ .............................. ..... .. 37
1.8 Genes xenólogos recientes muestran un UC similar. ......................................................... 39
1.9 Predicción de xenólogos ... ... ........................... ..... .......... .... .. .............. ..... .................. ....... .42
1.9.1 Filtros adicionales aplicados ............................................................................. ............................... 43
/. 9.1. I Máximo parecido global entre GCXY.. ................................................. ............................. ....................... 43
1.9.1.2 Validación.filogenética ...... ....................................... ........... .......... ........................................................... 44
1.1 O Discusión .......... .. ........................................................................................................... 50
1.11 Deducción Matemática del modelo Bayesiano empleado para identificar GCXs ............. 54
1.1 1.1 Introducción al teorema de Bayes ................................................................................................. 54
1.11.2 Selección de POs con UC similar .................................................................................................. 55
Capítulo 11. Uso de codones típico: una zona de tolerancia para alcanzar niveles
adecuados de expresión .... .. .... .............. ..................................................................... 60
2.1 Resu1nen del capítulo ... ............. .. .... .... ....................................................................... .... .. 60
2.2 Antecedentes ..... ... ............................................................ ..... ..... ... ... .. .... ..... .... ........... ...... 61
2.3 Objetivo .. .... .... ..... ..... ... .... ... .............. .. ......................................................... ....... .. .. ......... 64
2.4 Hipótesis ........................................... .. ............ ... ........... ... ............................ .................... 65
CCG- UNAM iv JUNI0200S
TABLA DE CONTENIDO
2.5 El UC genómico correlaciona mejor con la concentración de tRNA que el UC en proteínas
ribosoinales .................. ... ............................ ........................................................................... 66
2.6 Los genes con alto CRI correlacionan mejor con las abundancias de tRNAs que los GAEs
...................... ... ......... .... ........ ....... .. ... ... ..... .. ...... .. ... ..... ... .. . : .... .. ... ............. ..... ... ..................... 74
2.6.1 Obtención de las proteínas ribosomales (PRs ) ......... ...................................................................... 7 4
2.6.2 Obtención de genes con alto CAi ............................. ............... ............... ........... .............................. 75
2.6.3 Genes con alto CRI muestran la más alta correlación con la concentración de tRNA ................. 78
2.7 El uso de aminoácidos está relacionado con la traducibilidad pero no es el factor de mayor
impacto en las frecuencias de codones ............... .... ... .... .. ....................................................... 79
2.7.1 El índice de riqueza de aminoácidos (MRl) ........... ........ ................................. .......... ................. .... 83
2.7.2 Índice de similitud con las proteinas ribosomales (RLI) ................................................................. 83
2.8 Genes altamente expresados con un uso de codones óptimo en un genoma no tienen las
mismas propiedades composicionales en otros genomas .................. .. .................................... 85
2.9 Con los datos actuales no parece existir un conjunto de genes con UC óptimo que sea
común a todos los genornas ................... ..................... ................................................... ......... 88
2. 1 O Discusión ............ .................. .... .. .... ....... ........................................................... ........ ... .. 90
2.11 Perspectivas ............................................... .... ................................................................ 92
Anexo 1 ........................................................................................................ .. ................ 93
Anexo 11 ... ..................................................................... ............................................. .. 105
Bibliografía ............................................. ............................. ... .................................... 124
CCG- UNAM V JUN!02005
LUIS ARTURO MEDRANO SOTO RESUMEN
Resumen
Esta tesis presenta una evaluación al paradigma composicional para la predicción de genes
transferidos horizontalmente, el cual postula que los genes foráneos muestran una composición
atípica de codones en el genoma receptor al momento de ser adquiridos. Primero, se aplicaron
varios criterios, incluyendo una validación filogenética, para identificar pares de genes
exportado- importado donde aún se conserva la huella composicional del DNA donador.
Posteriormente, se determinó cuantos de los genes detectados muestran un uso de codones (UC)
pobre, típico o rico. En contraste con el paradigma composicional, los resultados muestran que la
mayoría de los genes extranjeros, al ser adquiridos, exhiben predominantemente un UC típico en
el genoma hospedero. Tal compatibiUdad entre el UC de genes foráneos y el genoma receptor
puede ser un prerrequisito para que la selección natural pueda evaluar las ventajas selectivas de
funciones importadas por la célula. De ser así, un UC atípico actuaría como una barrera
importante contra Ja adquisición y posterior utilización de genes extranjeros. Además, si el UC de
genes foráneos es compatible con el nuevo contexto genómico del organismos que los recibe,
entonces, se ha sobreenfatizado el papel del mejoramiento (amelioration) del UC en la
transferencia horizontal, pues dicho fenómeno afectaría sólo a una minoría de los genes.
Otra implicación importante de los resultados es que el nivel típico de UC define una zona
de seguridad o tolerancia, donde los genes extranjeros pueden ser traducidos eficientemente
- presumjblemente debido a su compatibilidad con Ja maquinaria de traducción del genoma
receptor. En apoyo a esta hipótesis, se muestra que en Escherichia coli KI 2 el UC promedio del
genoma (representativo del nivel típico de UC) correlaciona significativamente con las
concentraciones disponibles de tRNA. Además, los genes que uti lizan preferentemente los
codones más abundantes en la célula correlacionan mejor con las abundancias de tRNA que el
UC de los genes altamente expresados, indicando así que los supuestos actuales para predecir
niveles de expresión, partiendo únicamente del uso de codones, no están bien fundamentados. Si
bien los genes altamente expresados tienen generalmente un UC por encima del promedio y
correlacionan bien con la disponibilidad de tRNA, son tantos los factores que afectan el nivel de
expresión que no es posible afirmar que todos los genes que muestran estos atributos son también
altamente expresados.
CCG- UNAM JUNIO 2005
LUIS ARTURO MEDRANO SOTO ABSTRACT
Abstract
This thesis presents an evaluation to tbe compositional paradigmfor horizontal gene
transfer (HGT) prediction, which posits that foreign genes display atypical codon usage (CU)
within the recipient genome immediately upon introgression. First, we applied severa! criteria,
including phylogenetic validation, to identify pairs of imported- exported genes that still preserve
the compositional footprint of the donor DNA. Then, we estimated tbe number of detected genes
showing poor, typical or rich CU. Contrasting with the compositional paradigm, our results
indicate that most alíen genes exhibit predominantly typical CU in the host genome at the
moment of acquisition, suggesting that such CU compatibility between foreign genes and
acceptor genomes is a prerequisite to assess the selective advantage of imported functions. Thus.
atypical (poor) CU may representa strong barrier against successful integration and uti lization of
acquired genes. Furthem1ore, if the CU of ali en genes is compatible with the genomic context of
the new host, then, the role of amelioration in HGT has been overemphasized since it would
happen only in a small fraction of genes.
Another important implication of the results is that typical CU defines a safety or tolerance
zone, wherein foreign genes can be efficiently translated - presumably dueto their compatibility
with the translational machinery of the recipient organism. We found additional evidence
supporting this hypothesis. In Escherichia coli K 12, the genomic codon frequencies
(representative of typical CU) correlate significantly with tRNA concentrations. Furthermore,
genes preferentially using the most abuodant codons in the genome correlate better with the
tRNA pool than the CU of highly expressed genes. This result entails that the underlying
assumptions of current methodologies to predict expression levels, based on CU alone, are not
well founded. Even though highly expressed genes often show higher than average CU and
correlate well with tRNA availability, there are so many other factors affecting gene expression
that genes exbibiting tbese attributes are not necessari ly higbly expressed.
CCG- UNAM 2 JUNIO 2005
LUIS ARTURO MEO RANO SOTO PRESENTACION
Presentación
El proyecto doctoral fue motivado por el gran caudal de infonnación que se genera como
producto de los diversos proyectos genómicos en el mundo. Ahora es factible mirar hacia atrás y
verificar si, bajo la luz de muchos más datos, continúan siendo vigentes los supuestos
fundamentales o hipótesis de trabajo que surgieron cuando todavía no se había completado la
secuencia del primer genoma, es decir, durante la era pre- genómica. En pai1icular, se examina la
capacidad de predicción de los supuestos que relacionan al uso de codones (UC) con la
transferencia horizontal de genes (THG) y los niveles de expresión.
El Capítulo 1 describe el análisis que se realizó para evaluar el "paradigma composicional",
el cual postula que los genes foráneos muestran principalmente una composición atípica de
codones en el momento de ser adquiridos por el genoma receptor. Los resultados aquí reportados
no sustentan a este paradigma. Se observa que la gran mayoría de las THGs, donde todavía se
conserva la huella composicional del DNA donador, involucran genes foráneos que al momento
de ser importados despliegan directamente un UC típico -aún cuando ciertamente existe una
elevada probabilidad de que los genes foráneos lleguen al genoma receptor exhibiendo un UC
pobre (como consecuencia de la gran variabilidad del UC entre diferentes organismos). De este
hallazgo se desprenden al menos cuatro conclusiones. Primero, aún antes de realizarse el
intercambio horizontal ya existía una compatibilidad entre la composición de codones de los
genes foráneos y del organjsmo aceptor. Segundo, el nivel típico de UC constituye una zona de
tolerancia o seguridad donde los genes foráneos pueden ser expresados adecuadamente por ser
compatibles con la maquinaria de traducción del genoma destinatario. Presumiblemente, tal
compatibilidad es un prerrequisito para que la selección natural pueda evaluar la ventaja selectiva
de funciones importadas por la célula. Tercero, si los genes transferidos exitosamente llegan
directamente con un UC típico o rico, entonces no es necesario someter su secuencia a un proceso
de "mejoramiento" (amelioraNon) para que refleje las tendencias en UC del genoma receptor. De
ser así, tal proceso de "mejoramiento" del UC ha sido sobreenfatizado en la literatura, pues sólo
sucedería en una minoría de los casos. Cuarto, un UC pobre representa una barrera considerable
contra la adquisición y utilización de genes foráneos pues la célula no podría traducirlos
adecuadamente. Debido al conflicto entre los resultados aquí reportados y los supuestos
CCG- UNAM 3 JUNIO 2005
LUIS ARTURO MEDRANO SOTO PRESENTACION
esenciales de las metodologías de predicción de genes foráneos basadas en el paradigma
composicional, resultó extremadamente dificil publicar los hallazgos. Sin embargo, después de
una historia de 6 meses que involucró 4 rechazos, sin argumentación convincente por pa11e de 4
revistas internacionales, y de tres ciclos de revisión en la revista Molecular Biology and
Evolution (que duraron otros 12 meses), finalmente el trabajo fue aceptado. El a11ículo publicado
(1] se adjunta en el Anexo l al final de la tesis. En la discusión, al final del Capítulo l, se describe
una serie de evidencias teóricas y experimentales, publicadas recientemente, que soportan
fuertemente las conclusiones obtenidas.
En el capítulo l se propone que un nivel típico de uso de codones representa una zona de
seguridad o tolerancia, donde genes foráneos pueden ser traducidos adecuadamente por el
genoma receptor. La hipótesis subyacente es que dicha zona refleja la compatibilidad del UC de
genes foráneos con la maquinaria de traducción del organismo hospedero. Esta hipótesis no es
trivial y requiere de evidencias más sólidas que la sustenten. Por consiguiente, en el Capítulo 11 se
explora la compatibilidad tRNA- UC, para determinar si genes con un UC típico muestran una
con-espondencia notable con la concentración de tRNA. Efectivamente, como se esperaba, el UC
genómico (UCc) coITelaciona muy bien con la concentración de tRNA, apoyando así la noción de
una zona de tolerancia. Sin embargo, la correlación UCc vs tRNA resulto ser también más alta
que la mostrada por el UC de las proteínas ribosomales (PRs) vs tRNA. Esto es inesperado,
porque las PRs son el modelo estándar actual del tipo de genes cuyo UC correlaciona
óptimamente con la disponibilidad de tRNA para maximjzar la eficiencia de la traducción y los
niveles de expresión. Por este motivo, se decidió estudiar si el UCc constituye una mejor
referencia para medir la compatibilidad de los genes con la maquinaria de traducción de la célula.
Los genes que utilizan preferentemente los codones más abundantes en el genoma muestran una
correlación más elevada con la concentración de tRNA que los genes conocidos o predichos
como altamente expresados - aquellos que utilizan preferentemente los mismos codones que las
PRs- sugiriendo así que el UCG es mejor referencia para medir que tan eficientemente se puede
traducir un gene (traducibilidad). Aquí hay un conflicto, las metodologías actuales de predicción
de niveles de expresión parten del supuesto de que el UC en genes altamente expresados (e.g. las
PRs) es óptimo para la traducción, implicando mayor correspondencia con la concentración de
tRNA en comparación con genes de menor expresión, entonces ¿a qué se debe que existan genes
no considerados como de alta expresión que muestran correlaciones más elevadas con la
CCG- UNAM 4 JUNIO 2005
LUIS ARTURO MEDRANO SOTO PRESENTACION
abundancia de tRNA? El conjunto de análisis presentado en el Capítulo Il representa una
evaluación a los supuestos de trabajo actualmente empleados para predecir niveles de expresión.Lo resultados sugieren que tales supuestos no están bien fundamentados e involucran argumentos
circulares. Se concluye que el UC está más relacionado con la eficiencia de la traducción que con
el nivel de expresión. Por lo tanto, no es posible predecir confiablemente el nivel de expresión
partiendo únicamente del UC. Los genes predichos como altamente expresados son sólo un
subconjunto del total de genes traducibles eficientemente, pero no se puede afim1ar que sean los
más "óptimos" para la traducción. Se está trabajando en el manuscrito para publicar la
contribución del Cápitulo U.
Durante el desarrollo del doctorado se trabajó de manera paralela en otro proyecto
independiente al tema de tesis: el desarrollo de un método de clasificación Bayesiana (BClass por
sus siglas en ingles .fl_ayesian Classijier) que permite analizar datos biológicos de naturaleza
heterogénea. Normalmente se uti lizan métodos de agrupamiento (clustering) para realizar
filogenias moleculares o estudiar patrones de expresión en microarreglos, porque los datos
involucrados son matemáticamente homogéneos (tienen las mismas unidades) y el concepto de
distancia entre los datos es fácilmente interpretable -las filogenias involucran distancias
genéticas y los microarreglos diferencias en intensidades de expresión. Por otro lado, si se desea
relacionar genes mediante un análisis que integre el nivel de expresión, vecindad en el
cromosoma, la función molecular, el modo de regulación y la fuerza de los promotores, por citar
un ejemplo, es común realizar varios análisis por separado, porque el concepto de distancia entre
datos tan heterogéneos no tiene una interpretación útil. BClass permite realizar un análisis
simultáneo de todas estas variables, mediante la transformación del conjunto de atributos
biológicos heterogéneos en probabilidades de pertenencia a diferentes grupos. La transfonnación
se logra al modelar cada variable biológica con una distribución estadística (i .e. Normal, Poisson,
Multinomial, etc.) y después aplicar la teoría de modelos mezcla para calcular la probabilidad a
posteriori de que cada entidad biológica (en este ejemplo genes) pertenezca a cada uno de los
grupos en la mezcla. Este procedimiento elimina la necesidad indeseable de definir medidas de
distancia o similitud para relacionar los genes. Al fina l, todos aquellos genes que muestren
probabilidades similares de pertenencia a todos los grupos estarán relacionados. El artículo
detallando esta metodología y su uso potencial [2] se encuentra adjunto en el Anexo 11.
CCG- UNAM 5 JUNIO 2005
LUIS ART URO MEDRANO SOTO CAPITULO 1
Capítulo 1
Los genes importados exitosamente muestran un uso de
codones típico en el genoma receptor al momento de ser
adquiridos
Déjame decirte el secreto que me ha Llevado a alcanzar mi meta. Mi ji1erza reside
exclusivamente en mi tenacidad.
LOUIS PASTEUR
1.1 Resumen del capítulo
El estudio de la transferencia horizontal de genes' (THG) ha despertado un gran interés por
entender los mecanismos biológicos involucrados, sus implicaciones en la adaptación a un medio
ambiente cambiante y su impacto en la evolución de las especies. Naturalmente, un problema
esencial para alcanzar estas metas es la identificación confiable de genes que han participado en
eventos de THG. Actualmente las metodologías teóricas para detectar genes que se han movido
lateralmente pueden clasificarse en dos tipos: filogenéticas y composicionales. Los métodos
filogenéticos, aunque no siempre es posible aplicarlos, cuentan con fundamentos más robustos y
gozan de mayor aceptación. Sin embargo, si no se aplican con las debidas precauciones pueden
arrojar resultados incorrectos; por ejemplo, al confundir genes parálogos2 por ortófogo:l, o bien
1 El intercambio de material genético (i.e. genes) entre especies diferentes.
2 Genes que divergen después de un evento de duplicación genética dentro de un genoma. Tienden a adquirir nuevas
funciones durante el curso de la evolución y suelen estar sujetos a diferentes presiones selectivas (ver Figura 1.1 ).
CCG-UNAM 6 JUN IO 2005
CAPITULO 1 RESUMEN
al analizar genes con tasas muy desiguales de mutación. Por otro lado, los métodos
composicionales se pueden aplicar con mayor facilidad por no requerir la comparación de genes
entre múltiples organismos, pero sus fundamentos teóricos e implicaciones respectivas son más
debatibles. Los métodos composicionales consideran que los genes recientemente adquiridos por
transferencia horizontal exhiben características atípicas en su secuencia de DNA, como el
contenido de G+C, frecuencias de dinucleótios y uso de codones (UC); donde por atipicidad se
quiere decir frecuencias significativamente diferentes al promedio genómico.
Con el propósito de evaluar los supuestos subyacentes y la capacidad de predicción de los
métodos composicionales, este capítulo se concentra en determinar cuál es el nivel de UC (pobre,
típico o rico) de los genes foráneos en el momento mismo de la transferencia. La teoría actual
dicta que los genes in1portados exhiben predominantemente un UC "pobre", implicando que
deben ser ineficientemente traducidos por la maquinaria del organismo receptor. La premisa
fundamental en la estrategia para atacar esta incógnita plantea que en el instante en que se da el
intercambio lateral, dos genes xenólogos4 (ver Figura l. l) son idénticos y por lo tanto guardan las
mismas características composicionales, independientemente de si el UC es típico o atípico con
respecto al genoma receptor. Como consecuencia, se asume que los genes extranjeros que aún
conservan la huella composicional del DNA donador deben exhibir: ( 1) un UC muy similar; (2)
aproximadamente la misma longitud ; (3) la más alta similitud global a nivel de proteína,
satisfaciendo por ende los criterios operativos actuales para reconocer ortología; y (4) su relación
filogenética es irreconciliable con el árbol canónico de las especies. Los pares de genes que
satisfacen las 4 condiciones son denominados Genes Candidatos a ser Xenólogos (GCXs).
Una vez identificados todos los pares de GCXs entre 103 genomas procariotes no
redundantes, se comparó su nivel de UC con los niveles esperados por los métodos
composicionales. Los resultados indican que la abrumadora mayoría de los GCXs despliegan un
UC preferentemente típico en el genoma receptor al momento de la transferencia, derivándose así
las siguientes conclusiones. Primero, un nivel típico de UC es un prerrequisito importante para
que la selección natural pueda evaluar la ventaja selectiva de funciones importadas por la célula;
segundo, el nivel típico de UC constituye una zona de seguridad o tolerancia donde los genes
3 Genes en diferentes especies que evolucionaron del mismo gene ancestral a partir de un evento de especiación.
Normalmente los genes ortólogos retienen la misma función en el curso de la evolución {Figura 1.1 ).
4 Relación que surge cuando se intercambia material genético (e.g. genes) entre diferentes especies. El gene
exportado (donado) y el gene importado (adquirido) están vinculados por una relación de xenología. (Figura 1.1)
CCG-UNAM 7 JUNIO 2005
CAPITULOI RESUMEN
extranjeros pueden ser expresados adecuadamente -presumiblemente debido a su
compatibilidad con la maquinaria de traducción del genoma receptor; tercero, un UC pobre
representa una barrera importante contra la adquisición y utilización de genes foráneos; cuarto, el
papel del mejoramiento del UC, o "amelioration", en la transferencia horizontal ha sido
sobreenfatizado, pues solo sucedería en una minoría de los genes. Aunque en aparente
contradicción con los supuestos actuales, esta interpretación encuentra soporte en diversas
evidencias teóricas y experimentales publicadas recientemente.
Dp1
Esp2
Op2
r -
A1 AB1 81 82 C1 C2 C3
Ortologfa Paralogía
X&nologiG
Figura 1.1. Tres tipos de Homología: Ortología, paralogíay xenología. Se muestra la evolución idealizada de un
gene (líneas negras) a partir de un ancestro común, descendiendo hacia 3 poblaciones A, B y C (fondo amarillo
claro). Hay dos eventos de especiación (Espl y Esp2) en los puntos donde se fonnan las "Y" invertidas. También
hay dos eventos de duplicación genética (Dp 1 y Dp2) ilustrados como líneas horizontales. Dos genes cuyo ancestro
común reside en la unión de una "Y" invertida son ortólogos (e.g Bl y Cl). Dos genes cuyo ancestro común reside
en una línea horizontal son parálogos (e.g. C2 y C3). La flecha roja denota la transferencia del gene Bl de la especie
B hacia la especie A. Aunque estrictamente hablando AB 1 es xenólogo de los otros 6 genes, en este capítulo se
relacionará con el tenninó xenólogos, como definición de trabajo, al par de genes donado-adquirido (en este caso
AB 1 y B 1 ). Los 7 genes son homólogos entre sí porque proceden de un mismo ancestro común en la raíz del árbol.
Estas definiciones y el diagrama fueron tomadas del trabajo publicado por Walter M. Fitcb [3).
CCG- UNAM 8 JUNIO 2005
CAPITULOI OBJETIVO
1.2 Objetivo
Determinar cual es nivel de uso de codones (pobre, típico o rico) de los genes foráneos
inmediatamente después de ser importados. Aclarar esta incógnita permitirá evaluar la
generalidad del paradigma composicional para la detección de adquisiciones laterales recientes
-genes transferidos horizontalmente muestran predominantemente una composición atípica de
codones en el genoma receptor.
1.3 Antecedentes
La era de la secuenciación a gran escala y de los sistemas automatizados de anotación de
genomas han generado bases de datos enormes a partir de las cuales se han realizado muchos
descubrimientos. Análisis comparativos a nivel de DNA y de aminoácidos han revelado regiones
aisladas o mosaicos de secuencia "atípica" altamente conservados, inspirando como resultado las
preguntas de si estas secuencias fueron introducidas por transferencia horizontal o si son en
realidad ocurrencias fortuitas que fueron exitosas y preservadas por selección natural.
El concepto de transferencia horizontal de genes (THG) involucrando orgánulos de
eucariotes tiene una larga historia. A principios del siglo XX se propuso que los cloroplastos y las
mitocondrias eran endosimbiontes bacterianos [4, 5]. Concepto que fue retomado y desarrollado
cerca de 50 años más tarde [ 6]. Hoy en día ésta es una de las formas más aceptadas de
movimiento horizontal a través de grandes barreras filogenéticas. El trabajo de Woese [7]
demostrando que el rRNA mitocondrial y de cloroplastos está más relacionado con las bacterias
que con eucariotes, ha representado la evidencia más convincente para la teoría de la
endosimbiosis.
La era del DNA recombinante proporcionó información valiosa sobre el grado de
conservación de los mecanismos genéticos y permitió demostrar experimentalmente que los
genes pueden moverse a través de fronteras entre especies. Un muy buen ejemplo de THG que
ocurre continuamente en la naturaleza es la transferencia natural de DNA plasmídico de la
bacteria Agrobacterium tumefaciens a células de plantas, que resulta en la integración del DNA
foráneo en el cromosoma de la planta, seguido por su expresión para generar cambios
fenotípicos. Ciertamente, se sabía bien que los virus eran capaces de mediar la transferencia
CCG- UNAM 9 JUNI02005
CAPITULO 1 ANTECEDENTES
horizontal mucho antes que el caso de A. tumefaciens. Aunque este fue un gran descubrimiento
real izado mucho antes de Jos años l960s (ver referencias en [8- 10]), la transferencia horizontal
entre microbios no tuvo el impacto que tuvo la transferencia entre microbios y eucariotes. La
actual era genómica brinda oportunidades para explorar sistemas de THG que puedan existir
entre diversos organismos.
El primer experimento que ilustró la habilidad del flujo de información genética entre
especies pasó en gran medida desapercibido. En 1959 se descubrieron los plásmidos que
transmiten resistencia a antibióticos, cuyo atributo era que contenían genes capaces de transmitir
resistencia a múltiples antibióticos y que se transferían a través de diferentes especies bacterianas,
demostrándose así que la información genética puede fluir de una especie a otra [ 11, 12]. Las
imp.licaciones de este descubrimiento tuvieron un impacto profundo tanto en el campo de la
ingeniería genética como en la teoría de evolución. Los primeros artículos que exploraron las
implicaciones teóricas más profundas de la THG comenzaron a aparecer en los años 70s, aunque
no fueron ampliamente reconocidos o aceptados. Por ejemplo, se observó que existen rasgos
similares en plantas no relacionadas, pero que comparten el mismo ecosistema [13, 14], bajo este
contexto se propuso que las plantas estaban intercambiando genes y se citó a la transferencia de
genes plasmídicos como precedente de este tipo de eventos. También se planteó que la THG
podría afectar la evolución en el reino animal [ LS , 16], e inclusive jugar un papel importante en la
especiación [ 17].
Mientras tanto, los experimentos en ingen iería genética comenzaban a producir resultados
sorprendentes. Por ejemplo, se introdujo un gene de levadura en una mutante de Escherichia coli
deficiente en histidina, que resultó en el restablecimiento de la biosíntesis de histidina [ 18]. Lo
que hoy en día es práctica rutinaria, era dificil de comprender a mediados de los 70s - genes de
organismos eucarióticos artificialmente introducidos en bacterias podían en efecto funcionar. En
1980 se demostró que genes bacterianos podían expresarse exitosamente en levadura [ 19]. En
1983 se produjo el primer ratón transgénico que expresó un gene foráneo. el gene que codifica la
hormona del crecimiento humano [20]. Diferentes experimentos demostraron, resultado tras
resultado, que en el laboratorio se podían transferir genes entre especies y observar sus fenotipos.
Las preguntas fundamentales que pennanecieron fueron sí estos eventos ocurrían efectivamente
en la natural eza y si sucedían en frecuencias suficientemente elevadas corno para tener un
impacto significativo en la evolución. En 1985 se propusieron dos explicaciones en apoyo a la
CCG- UNAM 10 JUN102005
CAPITULO 1 ANTECEDENTES
importancia de la THG [2 1 ]. Primero, si existían mecanismos tan potencialmente útiles de THGs
a nivel molecular, la naturaleza debía encontrar una manera de utilizarlos. Segundo, una teoría
evolutiva general que incorporara la idea del flujo de información genética a través de fronteras
taxonómicas parecía proporcionar una respuesta simple y satisfactoria a la pregunta: ¿Por qué la
biología molecular de todos los organismos vivos está tan unificada? Aun cuando los organismos
pueden divergir independientemente después de la especiación, la biología ha retenido una
unidad tan profunda que animales transgénicos pueden ser creados en el laboratorio.
Un factor adicional en favor de la relevancia de Ja THG surgió como producto del
crecimiento de las bases de datos de ácidos nucleicos. A principios de los 80s ya se había
acumulado para algunos organismos mode/o5 (i.e. E. coli y levadura) una muestra representativa
de genes, lo cual permitió estudiar características composicionales del genoma y correlacionarlas
con propiedades fisiológicas. Como resultado, se descubrió la relación que existe entre el uso de
codones (UC), la concentración de tRNA y el nivel de expresión. En breve, las frecuencias de
codones en un organismo no son azarosas, la mayoría de los genes siguen en mayor o menor
grado las tendencias genómicas de UC (22]; además, los genes altamente expresados muestran un
mayor sesgo de Ué que correlaciona significativamente con las especies de tRNA más
abundantes [23, 24]. Estos hallazgos, junto con Ja demostración posterior de que un UC pobre
puede afectar la eficiencia de la traducción [25-27], motivaron la proposiciónde dos ideas clave.
Primero, genes con una composición atípica tanto de codones como de G+C podrían ser
adquisiciones horizontales recientes (28]. Segundo, el nivel de expresión de genes heterólogos
puede ser afectado por el grado de correspondencia entre el patrón de UC del gene introducido y
el perfil preferido por el genoma receptor, por lo tanto se enfatizó la importancia biotecnológica
de determinar un patrón de UC que promueva una expresión óptima (29]. En apoyo a estas ideas,
se observó que genes de plásmidos y fagos no se apegan al UC genómico tan bien corno genes
cromosomales, llevando como consecuencia a la sugerencia de métodos generales de predicción
de genes foráneos basados únicamente en la secuencia [30]. El razonamiento subyacente se basa
en la hipótesis de que el UC refleja la adaptación de los genes nativos a Ja maquinaria de
traducción de su genoma [23], y como los genes foráneos no han estado expuestos a las mismas
5 Especies que son extensivamente estudiadas para comprender fenómenos biológicos particulares, esperando que los
descubrimientos hechos en un organismo modelo podrán explicar como funcionan otros organismos. Esto funciona
porque la evolución reutiliza principios biológicos fundamentales y conserva vías metabólicas, estrategias de
regulación y mecanismos del desarrollo.
1
' Tendencia en los genes a usar un solo codón sinónimo por aminoácido.
CCG- UNAM 11 JUNIO 2005
CAPITULO! ANTECEDENTES
presiones mutacionales y selectivas que los genes nativos, no es descabellado asumir que los
genes foráneos deben exhibir una composición de codones pobremente adaptada al genoma
receptor [30]. Este hecho señaló el nacimiento del paradigma composicional para la detección de
THG cuando todavía faltaba casi una década para que se obtuviera la secuencia completa del
primer genoma. Sin embargo, evaluaciones recientes de los métodos que se basan en este
paradigma concluyen que son poco confiables si la composición atípica de secuencia se toma
como única evidencia de la ocurrencia de THG (31-33].
En el terreno experimental , a mediados de los 80s ya se habían establecido varios
mecanismos que mediaban el intercambio de genes, no sólo entre organismos unicelulares sino
también entre metazoarios, promoviendo que mucbos fenómenos biológicos dificiles de explicar
se manejaran fácilmente haciendo alusión a la transferencia horizontal. Sin embargo, hubo una
pausa en las observaciones que proporcionaban soporte directo a tales especulaciones. Con la
secuenciación de genomas la situación ha cambiado. Actualmente, investigadores de áreas muy
diversas están haciendo observaciones relacionadas con la THG. Como resultado, tal
acumulación de evidencias hace factible buscar respuestas a preguntas como: (1) ¿Qué tan
universales son los mecanismos de THG? y ¿Operan estos mecanismos en ambientes naturales?
(2) ¿Cuál es la evidencia a favor de que la THG contribuye a los genotipos actuales de las
especies? La evidencia principal a favor de que la THG es substancialmente común involucra un
razonamiento filogenético. Sin embargo, hay dos problemas muy recurrentes en este tópico
- detem1inar la topología real de un árbol de genes y la estimación de tiempos de divergencia.
(3) Si los mecanismos existen y los eventos pueden documentarse, ¿juega la transferencia
horizontal un papel significativo en la evolución? O bien, ¿Puede una teoría que incorpora DNA
migratorio explicar fenómenos biológicos más generales?
A la fecha se han reportado numerosos casos de THG evidenciando que, en efecto, se trata
de un fenómeno común [34-40]. Sin embargo, la propuesta de que la THG ha sido tan exhaustiva
que elimina la posibilidad de describir la historia evolutiva de las especies mediante un árbol
[ 41 ], ha sido impugnada de manera convincente por análisis colectivos de genes que soportan la
existencia de tres dominios monofiléticos separados [39, 42, 43]. De hecho, se han acumulado
evidencias sólidas indicando que el flujo horizontal de genes es mucho mayor al interior de
linajes que entre linajes (39, 44-46]; por consiguiente, continua siendo razonable la idea de la
existencia de una señal filogenética y de que un modelo jerárquico es adecuado para describir la
CCG- UNAM 12 JUNIO 2005
CAPITULO 1 ANTECEDENTES
historia de las especies - pero es necesario recordar que la ausencia de filogenias discordantes no
excluye la posibilidad de THG y que algunas especies pueden ser más susceptibles a la THG que
otras [47]. Además, no todos los genes tienen la misma posibilidad de ser transferidos. La
hipótesis de complejidad postula que es poco probable que los genes informacionales (aquellos
involucrados en la transcripción, traducción y procesos relacionados) se transfieran en
comparación a los genes operacionales (aquellos involucrados en el mantenimiento de la célula),
debido a que típicamente requieren establecer más interacciones físicas con otros genes [ 48].
En resumen, se pueden distinguir dos tendencias en el estudio de la transferencia
horizontal. Por un lado, se considera que la THG es un factor esencial en la evolución, capaz de
dirigir la veloz adaptación a nuevos nichos y de inducir eventos de especiación [34, 41 , 49-5 1].
Esto se debe a que en principio es mucho más rápido importar genes ya fabricados y listos para
responder a retos ambientales que experimentar con secuencias nativas. Por otro lado, se
argumenta que tal interpretación es una exageración propiciada, en parte, por confiar en métodos
i11adecuados para la identificación de eventos de THG. Aunque la THG puede ser frecuente, la
fijación de secuencias foráneas en poblaciones es poco probable, porque la gran mayoría de las
secuencias adquiridas lateralmente no le otorgan al genoma receptor una ventaja selectiva. Por lo
tanto, el impacto de la THG en la evolución de los genomas bien puede ser marginal [52-54]. Hay
una gran cantidad de ejemplos donde mutaciones simples afectan la traducción y disminuyen la
velocidad de crecimiento en ausencia de una condición de selección que las compense [55]; es
natural esperar que algo similar suceda con secuencias foráneas. En una situación estable, es muy
probable que las mutaciones sean destructivas o neutrales y la probabilidad a priori de fijación de
una secuencia neutral es inversamente proporcional al tamaüo de la población [56]. Es decir, una
vez que un linaje celular 11a evolucionado componentes bien integrados, es muy poco probable
que componentes mutantes o foráneos incrementen la viabilidad del linaje. Las adquisiciones
neutrales se difundirán en la población, pero también serán blanco de mutaciones aleatorias y
erradicadas por deriva genética.
A continuación se presenta una discusión sobre las cualidades, defectos y sesgos de los
métodos actuales para identificar transferencias horizontales. Esto es fundamental porque
dilucidar si el nivel de UC de los genes foráneos es típico o atípico con respecto el genoma
receptor, en el momento de la transferencia, requiere de la detección confiable de pares de genes
donador/receptor involucrados en eventos de THG.
CCG- UNAM 13 JUNIO 2005
CAPITULO 1 ANTECEDENTES
1.3.1 Métodos de detección de transferencia horizontal.
Detenninar si la THG es o no un fenómeno frecuente en la naturaleza, plantea el problema
teórico de identificar cuando un gene o región de DNA se ha originado a partir de un movimiento
horizontal. Los métodos que han surgido pueden clasificarse en dos grandes categorías: aquellos
basados en criterios filogenéticos y aquellos basados en propiedades composicionales de la
secuencia.
1.3.1.1 El método de incongruencia filogenética
Este método es e.1 más confiable para detectar la ocurrencia de transferencias horizontales
de genes. Consiste en tomar un grupo de genes ortólogos (ver figura 1.1) pertenecientes a un
conjunto de especies razonablemente lejanas, para luego construir unárbol filogenético y
compararlo con la filogenia conocida de esas especies. Si se observa una incongruencia entre el
"árbol de genes" y el "árbol de las especies", entonces se puede plantear un posible caso de
transferencia horizontal. Esta prueba se ha aplicado con varios grados de rigor desde las primeras
afim1aciones de transferencia horizontal y ha sido descrita con mucho detalle en la literatura [57].
Entre las primeras aplicaciones de este criterio se encuentra la presentada por Woese y Fox en
1977 [58].
Idea lmente la apl icación del método de incongruencia filogenética requiere que se
satisfagan varias condiciones. Primero, los genes bajo análisis deben contener información
filogenética. Segundo, Jos genes comparados deben ser ortólogos y no parálogos (ver Figura 1. 1).
Finalmente, el ejemplo de incongruencia debe involucrar un gene cuya tasa de sustitución no sea
radica lmente diferente a Ja de los otros genes que se están comparando. Para que estas 3
condiciones puedan garantizarse, el número de genes a analizar debe ser razonablemente grande,
i.e. más de 5 y posiblemente más de 10 [59), minimizando así errores debido al muestreo. Es
difícil dilucidar la dirección de las transferencias a partir de incongruencias filogenéticas,
especialmente para transferencias ancestrales que involucran linajes que dieron origen a muchas
especies actuales. Por ejemplo, Ooolittle y colegas [60) concluyeron que la enzima gliceraldeido
3-fosfato deshidrogenasa (gapdhA) en E. coli fue adquirida horizontalmente desde un eucariote.
dado que era el único procariote presente en un ciado de eucariotes. Sin embargo, con el hallazgo
posterior de un ortólogo de gapdhA en Anabaena parece ahora más probable que una bacteria
ancestral donó este gene a los eucariotes [ 61].
CCG- UNAM 14 JUNIO 2005
CAPITULO 1 ANTECEDENTES
1.3.1.1.1 Problemas debido a paralogía
Muchos de los reportes prematuros de posibles THG fueron producto de la comparación de
genes parálogos al ser tratados como genes ortólogos. Los árboles construidos a partir de genes
parálogos pueden ser incongruentes como consecuencia de divergencia funcional, involucrando
así diferentes presiones selectivas y por lo tanto distintas tasas de sustitución. Este escenario
puede darse también como producto de un simple error de muestreo; cuando se analizan muy
pocos genes y/o sus productos no han sido totalmente caracterizados. El problema de paralogía
fue responsable de que se infiriera que la enzima Cu-Zn superóxido dismutasa de la bacteria
Photobacterium leiognathi proviniera de una fuente eucariótica y de que la leghemoglobina de
plantas viniera de vertebrados. Conforme se analizaron más secuencias y se identificaron
correctamente los genes ortólogos, se encontró que los árboles de los genes respectivos son en
realidad razonablemente congruentes con el árbol de las especies [62, 63].
1.3.1.1.2 Problemas generados por tasas desiguales de mutación
Diferencias en tasas de substitución pueden no ser evidentes en conjuntos con pocos datos.
Como lo notó Felsenstein [64], la comparación de genes que están sometidos a tasas muy
desiguales de sustitución puede resultar en "afinidades" aberrantes durante la reconstrucción
filogenética. Este problema se encontró en la calmodulina de músculo estriado de pollo. Gruskin
y colaboradores [65] mostraron que el gene designado como tipo calmodulina (el), era muy
divergente del otro gene de calmodulina en el pollo (cam), así como de cualquier otro gene en
vertebrados. Partiendo de este hecho, se sugirió que el entró en el pollo por transferencia
horizontal, posiblemente a partir de una retrotransposición mediada por virus (porque el gene no
tiene intrones). Sin embargo, análisis posteriores (59] pusieron de manifiesto que el gene el del
pollo varía mucho más rápido que sus contrapartes en vertebrados, y además puede no ser
ortólogo de los genes con los que originalmente se comparó. Por lo tanto, el gene no puede ser
considerado como adquirido horizontalmente.
1.3.1.1.3 Problemas debido a convergencia evolutiva
Algunos científicos no aceptan la THG como única explicación para una incongruencia
filogenética; en su lugar se propone la posibilidad convergencia evolutiva. Por ejemplo,
Kemmerer y colaboradores [66] mostraron que el citocromo c en Arabidopsis es s imilar al
citocromo de hongos, pero no ofrecieron una explicación mecanística. Posteriormente, en 1994,
CCG- UNAM .15 JUNIO 2005
CAPITULO 1 ANTECEDENTES
Doolittle al hacer una revisión de este problema concluyó que, aunque la convergencia
mecanística- funcional es común y la convergencia estructural enzimática probablemente ha
ocurrido, no se había establecido a la fecha un caso genuino suficientemente convincente de
convergencia de secuencia [67]. En un caso ampliamente citado de convergencia evolutiva, el de
la lisozima de langur convergiendo hacia la de rumiantes [68], Doolittle mostró que el árbol de Ja
lisozima es congruente con el árbol de las especies. Esto es. las substituciones convergentes de
aminoácidos que pudieron ocurrir en el linaje que lleva a los rumiantes y al langur fueron pocas
en el trasfondo de cambios neutrales como para ocultar Ja afinidad de la lisozima del langur con
la de los primates.
1.3.1.1 .4 Pruebas de significación estadística
Toda conclusión que involucre el hallazgo de una relación "inesperada" a partir del método
de incongruencia filogenética, requiere que se estime la confianza estadística del resultado.
permitiendo así evaluar si la observación "inesperada" es significativa. Desafo11unadamente. en
general no hay pruebas estadísticas suficientemente rigurosas para determinar la confiabilidad de
árboles filogenéticos. Los problemas computacionales son inmensos [69]. Por ejemplo. para
conjuntos de datos que involucren una gran cantidad de especies, puede ser extremadamente
dificil encontrar inclusive el árbol más corto, sin mencionar la prueba de confianza de ese árbol
contra algún otro. Este problema ha atraído mucha atención y se han propuesto métodos para
calcular la confiabilídad de árboles para varias especies. Entre ellos están el método de máxima
verosimilitud [70, 71] y el de máxima parsimonia (72]. El problema con el procedimiento de
máxima verosimilitud es que antes de calcular la confiabilidad, debe asu mirse un modelo
evolutivo. Este modelo usualmente asume que los reemplazos a través de linajes y los eventos de
ramificación siguen un proceso markoviano. Empero, una cosa es preguntar si un árbol particular
es consistente con un modelo específico, y otra cosa muy diferente es preguntar si puede
discriminar entre dos posibles modelos.
Construir un árbol filogenético a partir de un conjunto de datos que contiene "homoplasia"
puede hacer la prueba de incongruencia filogenética aún más dificil. La homoplasia surge cuando
especies evolutivamente lejanas comparten rasgos únicos. La dificultad yace en distinguir si los
rasgos compartidos reflejan la herencia a partir de un ancestro en común, o si surgieron
independientemente. Tradicionalmente se considera que la homoplasia es el resultado de
CCG- UNAM 16 JUN IO 2005
CAPITULO ! ANTECEDENTES
procesos tales como la convergencia y reversión a estados ancestrales; obviamente la THG
también contribuiría a Ja homoplasia.
1.3.1.1.5 Elementos móviles
Si el método de incongruencia filogenética es aplicado en la ausencia de otra evidencia
puede ser demasiado restrictivo -impediría que se consideren genes que están frecuentemente
involucrados en THG. Este es probablemente el caso de muchos elementos transponibles porque
su transferencia es tan frecuente que la filogenia de las especies que alojan estos elementos se
pierde totalmente. Este problema ya se ha revisado con detalle en la literatura. Un ejemplo
famoso de transferencias de genes eucarióticos, y a su vez uno de los casos mas convincentes, es
el factorP de Drosophila me/anogaster [73]. Este caso es persuasivo porque Ja transferencia
ocurrió en años recientes y por lo tanto se observó cuando sucedió. Monitorear el evento en
tiempo real en poblaciones naturales es muy convincente, tanto como observar la diseminación
de genes resistentes a antibióticos por medio de plásmidos entre bacterias patogénicas. Además,
en este caso, el método de congruencia filogenética apoya fuertemente la transferencia horizontal
[74]. La historia filogenética de muchos elementos móviles se parece mucho a la filogenia de
virus (puesto que algunos están mezclados con virus) en que su historia es relativamente
independiente de la filogenia de sus respectivos hospederos [75].
1.3.1 .1.6 La estructura mosaico en cromosomas
Hasta hace relativamente poco todavía se cuestionaba si la información genética podía fluir
entre diferentes cepas de E. coli. En un inicio se argumentaba que eljlujo génico1 no podía ser
significativo en E. coli, porque de ser así las diferencias entre cepas hubieran desaparecido. Sin
embargo, el proceso que se siguió para contestar a esta pregunta ha conducido al desarrollo de
nuevos criterios para detectar tanto flujo génico como transferencias horizontales entre especies
filogenéticamente cercanas.
El grupo de Selander se enfocó en el análisis de poblaciones naturales de E. coli y
concluyeron que la estructura de su población era "clona!", proponiendo por lo tanto que el flujo
de genes y recombinación entre cepas naturales de E. coli no debe ser importante [76, 77]. Esta
conclusión estaba basada en el hallazgo de que las poblaciones naturales de E. coli podían ser
divididas, usando una distancia genética derivada de polimorfismos de enzimas, en al menos tres
1 Transferencia de genes al interior de una especie.
CCG-UNAM 17 JUNL02005
CAPITULO 1 ANTECEDENTES
grupos donde los miembros de un grupo estaban más estrechamente relacionados entre sí que con
los miembros de otros grupos.
La noción de que no hay flujo génico entre cepas de E. coli, debido a la estructura clona! de
su población, fue descartada después de que se realizaron comparaciones entre secuencias de
mayor tamaño obtenidas de diversas cepas de E. coli [78-80]. Para hacer las comparaciones, se
secuenció una región de 4400 pb del operon trp de 36 cepas de E. coli, seleccionadas del mismo
conjunto de cepas que utilizó el grupo de Selander para determinar la estructura clona! de la
población. Estos análisis confirmaron el hallazgo de que las 36 cepas podían ser divididas
esencialmente en los mismos grupos obtenidos por los polimorfismos de enzimas. Sin embargo,
también se encontró que cuando se comparaban cepas dentro de un grupo, uno de los miembros
puede tener una sección corta que difiere de los otros miembros. Esto es, dentro de las regiones
individuales de similitud se encuentran esparcidas regiones de disimilitud. Además, la región de
disimilitud podía encontrarse a menudo en alguno de los otros grupos, como si esta región
hubiera sido transferida de un grupo a otro. A partir del tamaño promedio de las regiones de
disimilitud, se ha estimado que un evento promedio de recombinación resulta en la transferencia
de algunos cientos o hasta miles de pares de bases. Se dice que los pares de cromosomas que
siguen este patrón tienen una estructura mosaico. Este análisis demostró la presencia de
subpoblaciones en E. coli que son genéticamente distintas, pero que ocasionalmente intercambian
material genético sin destruir su identidad. En general, dos secuencias homólogas (ver Figura 1.1)
de DNA que muestren un cambio abrupto de similitud, en una región bien delimitada, presentan
la posibilidad de una estructura mosaico.
1.3.1 .2 Métodos Composicionales
El progreso en la caracterización de diferentes cepas patogénicas de Salmonella ha llevado
a numerosas propuestas de flujo génico. Hay muy buenos ejemplos involucrando factores virales.
Por ejemplo, se ha mostrado que los antígenos de superficie utilizados para clasificar serotipos de
Salmonella están distribuidos de forma discontinua a través de cepas lejanamente relacionadas
(81 ), lo cual sugiere que los genes de estos serotipos se han movido dentro de esta especie.
Groisman y colegas (82) han visto al cromosoma de S. typhimurium como mosaicos de partes
distantemente relacionadas. Esta conclusión se basa, en parte, en la comparación de genes entre
enterobacterias. Aún cuando E. coli y S. typhimurium comparten genomas de tamaño similar,
CCG- UNAM 18 JUNI02005
CAPITULO 1 ANTECEDENTES
con el 90% de sus genes mostrando altos niveles de sintenia e identidad, cerca del 10% de los
genes en S. typhimurium codifica funciones totalmente ausentes en E. coli. Además, el contenido
de G+C en estos genes únicos con frecuencia es significativamente menor al promedio de todo el
genoma; un hallazgo que aparentemente apoya la idea de un origen remoto de estos genes,
aunque también se han propuesto hipótesis que rechazan tal posibilidad, argumentando que estas
secuencias pueden ser nativas y estar sujetas a diversas presiones selectivas producto de su
participación, directa o indirecta, en distintos procesos biológicos [59, 83]. De hecho, el
planteamiento de posibles donadores remotos para algunos de estos genes - como phoN (84] y
un regulador transcripcional [85]- es problemático porque la única evidencia del origen remoto
es la desviación del contenido de G+C.
Debido a que diferentes factores pueden influir en el contenido de G+C, Syvanen examinó
en 1994 la hipótesis de origen remoto con mayor detalle [59]. Al estimar la distribución del
contenido de G+C a partir de 757 fragmentos de DNA de E. coli y 131 de S. typhimurium,
Syvanen observó que la distribución puede dividirse en dos grupos. La mayoría de los fragmentos
se agruparon alrededor de 0.509 de G+C (cerca del promedio genómico) con una distribución
aproximadamente normal. La segunda clase mostró una desviación significativa hacia bajo G+C.
Por el criterio de contenido de G+C, estos fragmentos son candidatos a transferencias
horizontales. Sin embargo, hay un problema con este argwnento, la desviación es únicamente
hacia bajo contenido de G+c. La variación hacia alto contenido de G+C es consistente con la
varianza predicha para fluctuaciones aleatorias de G+C dada una media de 0.509. ¿Por qué no se
ven genes con alto contenido de G+C que vengan de fuentes remotas?
El caso de S. typhimurium no fue muy diferente. El principal agrupamiento cerca a la
mediana de 0.516 es sólo aproximadamente normal (posiblemente debido al tamaño más pequeño
de la muestra), pero la mayoría de la desviación es, como en el caso de E. coli, hacia un
contenido de G+C bajo. Syvanen concluyó que debido a que la desviación se da principalmente
hacia bajo G+C, es poco probable que esta sea una evidencia de origen remoto, argumentando
que la selección funcional por bajo G+C es más viable. Obviamente estas regiones tendrían una
temperatura de desnaturalización baja, y sería fácil imaginar escenarios donde mecanismos de
replicación o recombinación permitieran seleccionar estas regiones. Por ejemplo, Syvanen
propone que una explicación más simple para el bajo nivel de G+C es que se trata de DNA que
CCG- UNAM 19 JUNI02005
CAPITULO ! ANTECEDENTES
participa frecuentemente en rearreglos genómicos. El nivel más bajo de G+C pudo ser entonces
seleccionado en el paso de recombinación al facilitar la desnaturalización del DNA.
1.3.1.2.1 El criterio de uso de codones
A mediados de los 80s empezaron a surgir métodos formales , no basados en análisis
filogenéticos, con la intención de detectar genes de origen foráneo. Tales métodos se sustentan en
la observación de que al interior de un organismo los genes tienden a seguir el patrón de UC del
genoma [22], y por lo tanto aquellos genes que claramente se salían de este patrón fueron
interpretados como adquisiciones horizontalesrecientes de origen remoto - el paradigma
composicional. Este es un criterio dificil de aplicar porque el UC de proteínas pequeñas o poco
abundantes se desvía del sesgo genómico. Médigue y colaboradores [86] examinaron el UC de
740 genes de E. coli, y encontraron tres clases de genes: ( l) las proteínas altamente expresadas
que definen el sesgo genómico; (2) las proteínas de expresión moderada que utilizan algunos
codones raros; y (3) un grupo residual que muestra una marcada preferencia por codones raros.
Este tercer grupo contiene la mayoría de los genes que serían predichos como nómadas, tales
como secuencias de inserción y otros elementos móviles.
En organismos modelo los genes altamente expresados (e.g. proteínas ribosomales)
muestran una composición de codones bien adaptada al genoma, y sus preferencias de codones
sinónimos son consideradas como óptimas para maximizar la eficiencia de la traducción pues
correlacionan bien con la concentración de tRNA [23, 24). Dado que el sesgo en UC en genes de
alta expresión es mayor al sesgo promedio del genoma, las metodologías que se desarrollaron a
partir de entonces asumieron que todo gene con UC atípico (diferente tanto al promedio
genómico como al UC de las proteínas ribosomales) fuera predicho como foráneo [30, 34, 36, 86-
92]. Es importante mencionar, sin embargo, que hace una década ya se había recomendado
precaución en el uso de estos criterios; si bien la exploración del UC es un ejercicio interesante en
el análisis de secuencias, las explicaciones alternativas para cualquier desviación de la tendencia
promedio de un organismo son suficientemente numerosas (e.g. rearreglos genómicos ,
mantenimiento de estructura secundaria, estabilidad, propiedades del DNA reflejadas en el
mRNA como la susceptibilidad al daño mutagénico, señales relacionadas con la replicación, etc.)
para impedir su uso como criterio único en la predicción de THG [59]. Además, evaluaciones
CCG-UNAM 20 JUNIO 2005
CAPITULO 1 ESTRATEGIA
más recientes a estás metodologías indican que son poco confiables [3 1, 32]. En el mejor de los
casos, el UC puede ser usado como apoyo a otras evidencias más sólidas.
1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el
momento de la transferencia
Dilucidar si la atipicidad del UC puede seguir siendo considerada como un detector
confiable de THG, requiere del diseño de una metodología que en principio no favorezca genes
con tendencias composicionales particulares. La premisa fundamental de trabajo en este capítulo
plantea que inmediatamente después de una transferencia horizontal, el DNA donador es idéntico
en secuencia y tamaño al DNA aceptor, independientemente de si los genes transferidos mue~tran
un UC típico o atípico en el genoma receptor. El empleo del UC como parámetro en el estudio de
Ja THG es relevante porque además de transmitir información valiosa sobre Ja composición de
nucleótidos, también es un indicador del grado de compatibilidad entre genes individuales y la
maquinaria de traducción de la célula. Entonces, es necesario identificar, primero, pares de genes
xenólogos donde la huella composicional del DNA donador esté bien conservada y
posteriormente preguntar si el UC es típico o atípico. Siguiendo este principio, se proponen
cuatro condiciones básicas para identificar pares de genes candidatos a ser xenólogos (GCXs).
Todo par de GCXs debe: ( J) tener un UC muy similar; (2) mostrar aproximadamente el mismo
tamaño; (3) sus secuencias de aminoácidos deben exhibir los niveles más altos de identidad
global, cuando se comparan con las secuencias de sus probables ortólogos (POs) en otros
organismos; y ( 4) la relación filogenética entre ellos debe ser irreconciliable con el árbol
canónico de las especies. Sólo hasta después de haber obtenjdo un conjunto de GCXs que
satisfagan las cuatro condiciones, se debe preguntar cuáles son las tendencias que exhiben en su
nivel de UC y contrastarlas con los niveles que se esperarían tanto por los criterios de otras
metodologías como por azar. La Figura 1.2 muestra la estrategia general que se siguió para
predecir pares de genes xenólogos que tuvieran una composición similar de codones y
posteriormente comparar su distribución de UC con el potencial de THG, es decir con los niveles
de UC que se esperarían al azar dados los genomas analizados.
Una descripción científica detallada del trabajo se publicó recientemente [1] y se encuentra
incluida en el Anexo l al final de la tesis. Para minimizar redundancias, aquí sólo se mencionarán
las partes relevantes pero se profundizará en aquellos detalles que no se trataron en el artículo.
CCG- UNAM 21 JUNIO 2005
CAPITULO 1
Obtener POS Obtener el potencial de
THG
Seleccionar POs con
diferencias pequeñas de
UCcomoGCXs
Obtener difereoc1as de
UC entre POs
Filtros
Tamaño similar de POs (:t10%)
Identidad e: 40%
Mayor parecido global
Incongruencia lilogenétlca
Predicción final
Comparar el perfil de
UC en los GCXs
predichos contra el
potencial de THG
ESTRATEGIA
F igura 1.2. Estrategia para determinar el nivel de uso de codones (UC) de los genes foráneos en el genoma receptor
en el momento de la transferencia. Primero, se estima el potencial de transferencia horizontal de genes (THG) entre
todos los genomas (Sección 1.6), es decir, el nivel de UC que un gene cualquiera mostraría en otro genoma de ser
transferido en este instante. Segundo. se obtienen todos los pares de posibles ortólogos (PO) entre los genomas
analizados (ver Sección 1.7). Tercero, tomando un gene como referencia se calcula su diferencia de UC con todos los
POs respectivos (Sección 1.8). Cuarto. se seleccionan aquellos casos donde el gene referencia muestra una diferencia
muy pequeña de UC con algún PO y posteriormente son sometidos a varios filtros para predecir genes candidatos a
ser xenólogos (GCXs): ver Sección 1.9. Quinto, fina lmente se compara el nivel de UC de genes xenólogos con el
potencial de THG (Sección 1.1 O).
Tomando en cuenta el cuerpo de evidencias que relaciona al UC con la eficiencia de la
traducción, se diseño el índice de riqueza de codones (CRI por sus siglas en ingles Codon
Richness Jndex), que cuantifica el grado en que los genes utilizan los codones más abundantes de
un genoma referencia (ver Sección 1.5). El potencial de transferencia horizontal de genes (THG),
o probabilidad al azar de que un gene foráneo despliegue un UC pobre, típico o rico en el genoma
receptor si ocurriera una transferencia en este instante, se calcula como se describe en la Sección
l.6. Inmediatamente después de una THG los genes intercambiados son idénticos y cumplen, por
CCG-UNAM 22 JUN102005
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD
lo tanto, todos los criterios impuestos por los métodos actuales para detectar ortología con base
en la secuencia de aminoácidos. Por este motivo, los GCXs se buscaron entre el conjunto de
probables ortólogos (POs) que fueron identificados como se describe en la Sección 1.7. Otro
punto fundamental es el método a utilizar para medir y comparar el UC. Se utilizó un enfoque
Bayesiano para discriminar pares de GCXs que tienen un UC significativamente más similar
entre sí que con otros POs relacionados, el método se detalla en la Secciones 1.8 y 1.11. Como un
UC similar entre GCXs no es evidencia contundente de THG, se aplicaron otros criterios que
incrementan sustancialmente la confianza en las predicciones, esto es, el tamaño similar de Püs,
máximo parecido global a nivel de aminoácidos y la incongruencia filogenética con el árbol
universal de las especies (ver Sección 1.9). La comparación entre el potencial de THG más la
discusión de las implicaciones biológicas y evolutivas de los resultados se presentan en la
Sección 1.1 O y en el artículo incluido al final de la tesis (Anexo l).
1.5 Una medida adecuada del uso de codones que refleje traducibilidadEvaluar el nivel de UC no es trivial porque existe más de una alternativa para hacerlo, en
todos los casos se requiere de un modelo para cuantific.ar, comparar e interpretar preferencias de
codones sinónimos. Los supuestos que conforman la columna vertebral de las metodologías
actuales surgieron durante la era pre- genómica y, aunque evidentemente razonables en su
momento, datos recientes sugieren que fueron producto tanto de la escasez de datos como de una
sobreinterpretación del conjunto limitado de evidencias experimentales disponibles en ese
tiempo; el Capítulo II hace una revisión detallada de este problema, justificando Ja necesidad de
desarrollar una nueva medida de UC que refleje de manera más adecuada la relación entre la
composición de codones y la eficiencia de la traducción.
Los métodos más populares para estudiar el UC, no toman en cuenta la composición de
aminoácidos, ni los codones que codifican para señales de paro, metionina y triptófano, debido a
que se asume implí.citamente, primero, que la composición de aminoácidos está más
comprometida con la función que con el proceso traducción y por lo tanto su contribución es
poca o nula a Ja eficiencia de la traducción8 (traducibilidad) en comparación al UC. Segundo, que
estos codones no son informativos en cuanto al proceso de traducción --o bien no codifican para
~ La rapidez con la que el ribosoma traduce un RNA mensajero una vez que se ha tomado en cuenta la estabi lidad del
mRNA. Normalmente se mide como el número de proteínas traducidas a partir de un mRNA.
CCG- UNAM 23 JUNI02005
CAPITULO 1 UNA M EDIDA DE UC Y TRADUCIBILIDA D
aminoácidos o no tienen codones sinónimos que compitan por una especie particular de tRNA.
Sin embargo, se han reportado evidencias apoyando la noción de que el uso de aminoácidos sí
tiene un impacto considerable en la traducibilidad de los genes. Por ejemplo, se ha observado que
la composición de aminoácidos esta relacionada significativamente con el nivel de expresión
[93] , y que existe una tendencia a utilizar aminoácidos cuya biosíntesis es menos costosa, en
términos energéticos, en genes que exhiben correlaciones UC-tRNA elevadas [94]. Es necesario
aclarar que los codones para metionina y triptófano son traducidos por tRNAs que pueden estar
en concentraciones mayores, o menores, que otros tRNAs traduciendo aminoácidos con varios
codones sinónimos, y por lo tanto su contribución a la traducibilidad no es despreciable (ver
Capítulo Ll , Secciones 2.5 , 2.6 y 2.7). Además, todos los genomas muestran una marcada
preferencia por alb'Uno de los codones de paro; es posible que se deba a una estrategia para
minimizar los costos de errores en la terminación de la traducción (95], incrementando corno
consecuencia las tasas de traducción porgue la tasa de producción de proteína, a partir de mRNAs
de un cierto tipo, es igual a la tasa de terminación de la traducción de esos mensajeros [96]. El
sesgo en uso de codones de paro correlaciona bien con el hecho de que, en procariotes, los
factores de terminación de la traducción reconocen estos codones con distintas afinidades [97).
También se ha propuesto que, tanto en procariotes como eucariotes, hay señales conservadas al
final de los genes que pueden promover una terminación eficiente de la traducción, ya sea en la
forma de tetra- núcleotidos [98, 99] o bien como interacciones directas entre el factor de
terminación y el último peptidil-tRNA SertPhe [ 100]. Inclusive, en genes contiguos el sesgo en
codones de paro también podría estar relacionado con presiones selectivas por evitar estructuras
secundarias en los puntos donde termina un gene y empieza el otro [ l O l]. Se deja para el
Capítulo 11 la comparación y discusión completa de los problemas asociados a las metodologías
actuales que evalúan el UC. Por el momento es suficiente decir que una medida más adecuada de
traducibilidad debe tomar en cuenta las abundancias de todos los codones, sean degenerados o
no, y la contribución de la composición de aminoácidos; entre más un gene utilice los codones
más abundantes, mayor será su correlación con la disponibilidad de tRNAs, indicando que será
traducido con mayor eficiencia.
Debido al conjunto de evidencias, expuestas en el párrafo anterior, indicando que el uso de
aminoácidos más los codones que codifican para sefiales de paro, metionina y triptofano están
relacionados con la traducibilidad de los genes, se dise1io el Índice de Riqueza de Codones (CRI
CCG-UNAM 24 JUNIO 2005
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD
por sus siglas en inglés Codon Richness lndex) donde se toman en cuenta las frecuencias de los
64 codones para cuantificar el grado en que genes individuales utilizan los codones más
abundantes en un genoma referencia (ver Sección 1.5.1). Si en general el UC es homogéneo
como lo dicta la hipótesis del genoma (22], el sesgo de UC correlaciona con las abundancias de
tRNA (23], las abundancias de aminoácidos influyen en la eficiencia de la traducción [93, 94] y
la célula debe expresar todos sus genes a niveles adecuados para sobrevivir, entonces es posible
interpretar al CRI como una medida de traducibilidad dado que toma en cuenta todos estos
factores. El Capítulo 11, Sección 2.6, presenta la comparación del CRI con otros índices y muestra
como genes con alto CRl correlacionan mejor con las concentraciones de tRNA que los genes
conocidos o predichos (por otros índices de UC) como altamente expresados; también se analizan
otras evidencias que respaldan esta interpretación.
1.5.1 El índice de riqueza de codones (CRI)
En la sección l .5 se dieron argumentos biológicos para exponer algw10s problemas con las
metodologías actuales que evalúan el uso de codones, y en el Capítulo JI, Sección 2.6.2, se
exponen las razones técnicas para no utilizar el índice estándar de uso de codones CAi (por sus
siglas en ingles Codon Adapta/ion lndex [30]).
Sea Ga.i el gene i en el genoma a, n0 .1(c) el número de veces que el codon e aparece en el
gene Ga.i, y La.i la longitud en codones (incluyendo el codón de término) del gene G0 J, esto es
64
La.i = 2: n11,¡(c) . La frecuencia relativa, qa,;(c), del codón e en el gene G0 ,; normalizada por La.i es ... ,
d fi 'd ( n .(e) . ~ ) entonces e m1 a corno q1,.1 e)= -r:-- (se tiene que LJ q,,,1(c = 1 ).
tt .i c-• I
Ante el evento potencial de una transferencia horizontal del gene Ga.i al genoma b, es
posible estimar si el UC de Ga.i es compatible a priori con el UC (o nuevo contexto genómico) del
genoma receptor b. En términos más precisos, se trata de cuantificar el grado en que el gene G0 ,;
usa los codones más abundantes de b. La frecuencia o abundancia genómica de cada codón e en
el genoma b se puede interpretar como la probabilidad de encontrar ese codón en el conjunto total
CCG- UNAM 25 JUNI02005
CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD
de genes del genoma b,pb(c), y se calcula como pb(c) = :b(c) , donde Nb(c) es el número total
"'¿ Nb(j)
j - 1
64
de veces que el codón e aparece en el genoma b (se cumple la condición "'¿p11 (c) = 1).
c- 1
Considerando a Pb(c) como el peso o contribución del codon e a la distribución genómica
de b, se puede ponderar en qué medida un gene extranjero Ga.i cualquiera utiliza cada uno de los
64 codones del genoma receptor b. Definimos entonces el CRI del gene Ga.i estimado con base en
las frecuencias de codones del genoma b como:
64
CRI¡,(Gª) = "'¿ p¡,(C)*qa,;(c). (1.1)
c• I
El indice puede interpretarse como la utilidad esperada de una distribución particular de
codones y constituye una función de ponderación local [ l 02], donde valores más grandes se
obtienen cuando los codones más abundantes en el genoma b son utilizados por el gene G a.i· El
indice refleja, entonces, como "ve" el genoma b la composición particular de codones de G a,i·
Esto lo definimos como el "Potencial de Transferencia'' del gene