Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
} (,,<_t? 1 UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO CENTRO DE CIENCIAS GENOMICAS PROGRAMA DE GENOMICA COMPUTACIONAL Uso de Codones, Traducibilidad, Niveles de Expresión y Transferencia Horizontal: ¿Hemos Sobreinterpretado Nuestros Organismos Modelo? Cuernavaca, Morelos T E s s QUE PARA OBTENER EL GRADO DE DOCTOR EN CIENCIAS BIOMEDICAS P R E S E N T A: Luis Arturo Medrano Soto DIRECTOR DE TESIS: Dr. Pedro Julio Collado Vides Junio de 2005 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Tutor Principal: Dr. Pedro Julio Collado Vides Ce111ro de Ciencias Genómicas (CCG), UNAM. Cotutor: Dr. Gabriel Moreno Hagelsieb Wi(/i-id laurier University. Canada. Cotutor: Dr. Andrés Christen Gracia ASESORES ACADEM ICOS Ce111ro de Investigación en Matemáticas (CIMAT). Guam1j11a10. Comité tutora!: Dr. Pedro Julio Collado Vides CCG- UNAM Dr. Lorenzo Segovia Forcella lns1i11110 de Bioiecnologia (IB7). UNAM. Dr. Jaime Mora Celis CCG- UNAM Miembros del Jurado: Dr. Pedro Julio Collado Vides CCG- UNAM Dr. Enrique Merino Pérez IBT- UN, . '4 Dr. Luis Eguiarte Fruns Instituto de Ecología. UNA M. Dr. José Andrés Christen Gracia C!MAT CCG-UNAM Autori&o a 11 Dlfa6a Gttml de B1b11otacaa de la UHAM a dlhmdi t11 fonnlto ~ t ~so tf C<mtenido dt mi kbejo ~pclontl . NOMBRE: L v 1s A,- ro bk S o:\ e Dr. José Guillermo Dávila Ramos CCG- UNAM Dr. Alejandro Garcianubio Granados !BT-UNAM Dr. Marco Antonio José Valenzuela Instituto de Investigaciones Biomédicas, UNAM. JUN 102005 RECONOCI M IENTOS Reconocimientos No hubiera sido posible realizar esta tesis doctoral sin el apoyo siempre generoso de mi tutor, el Dr. Julio Collado Vides, quien mediante su comprensión, motivación, orientación, paciencia y amistad siempre me instó a perseverar hasta alcanzar mis metas demostrándome que podía llegar más allá de mis propias expectativas. Especialmente debo reconocer la contribución del Dr. Gabriel Moreno Hagelsieb, pues su cotutoría e infatigable disponibilidad a discutir el proyecto fue fundamental para su maduración y exitosa culminación. La asesoría del Dr. Andrés Christen Gracia permitió definir la metodología Bayesiana de modelación estadística en esta tesis y también realizar aportaciones en el área de minado de datos. Sin lugar a dudas, mi interacción con ambos doctores influyó mucho en mi fonnación. Agradezco la colaboración del Dr. Pablo Vinuesa, pues su apoyo permitió depurar las técnicas de análisis filogenético empleadas en la validación de los resultados. Durante las etapas iniciales del doctorado fue esencial la orientación y retroalimentación que recibí por parte de mi comité tutora!, los doctores Julio Collado, Jaime Mora y Lorenzo Segovia. Sus sugerencias, siempre muy oportunas, canalizaron mi energía e interés sembrando la semilla que permitió la gestación de este proyecto. Agradezco los valiosos comentarios a las distintas versiones del artículo, donde se reportan los resultados de este proyecto, por parte del Dr. Enrique Morett, Dr. Alejandro Garciarrubio, Dr. Enrique Merino, Dr. Warren F. Lamboy y el Dr. León P. Marínez- Castilla. Todos ellos enriquecieron la calidad científica de este trabajo. Doy un reconocimiento especial a todos mis compañeros de laboratorio, fue gracias a su apoyo, amistad, confianza, y carisma que el ambiente de trabajo siempre fue el ideal para desempeñar cualquier labor por ardua que fuera. Mi gratitud es total para el Centro de Ciencias Genómicas, la UNAM y CONACYT, por abrirme sus puertas, dándome todo lo necesario para culminar mis estudios de la mejor manera. CCG-UNAM 11 JUNIO 2005 DEDICATORIA 'Dedico esta tesis dóctorafe-!)Jeciafmente a tí madre, .í.uz 'María Soto Cemceros,yor tu amor íncondiCiona(for toáos fos sacr!fícios que reafízasteyara edúcarme sín ín'!}Jortarte fas consecuencías, y yor enseilarme, nutÍúnite ef ~íen!Pfo· a no renáírme Jamás. :Es nzucfí.a fa yacíencía que lías tenidó yara ver ffegar este momento, yero jínafínente aquI está, con rodó mí corazón ... ?'l mú fíermanas, ?'l[icia y .íucero,yorque sfeny;re están conmígo. ?'l mú cmiaáos 'Ramón y 1PfJJe yor amar ynfuntÍamente a mis hermanas. ?'l todos mis sobrinos que quiero tanto: 'JÍcmán, JoSlté, Joe( ?'lfé1~y y a[ recién ffegadi1 ?'farón. ?'l tí 1Patty yor toáos fos momentos que fiemos vivícfojuntos ... ?'l tocft.z nufamífía con sus áos reinas, mis aGuefítas 1Pf!Pa y .íolá,yor su c01fianza en mí yyor tocfo efcarMo que síen'!Pre me fi.anyrotÍ{gaáo. CCG-U AM 111 JUNIO 2005 TABLA DE CONTENIDO Contenido Resumen ......... .......................................................................................................... ...... 1 Abstract .......................................................................................................................... 2 Presentación .................................................................................................................. 3 Capítulo l. Los genes importados exitosamente muestran un uso de codones típico en el genoma receptor al momento de ser adquiridos .................................... 6 1.1 Resurnen del capítulo ................................................................................ ......................... 6 1.2 Objetivo ............................................................................................................................. 9 1.3 Antecedentes .......... .. ............................................ ... ................................. ... ....................... 9 1.3.1 Métodos de detección de transferencia horizontal. ........................................................................ 14 1.3. / . I El método de incongruenciafilogenética .......... .......................................................... .......... , .................. 14 1.3. 1. l . l PROBLEMAS DEBIDO A rARAL.OGiA .............................................................................. .......................................... 15 J .3.1 . 1.2 PROBLEMAS GENERADOS POR TASAS DESIGUALES DE MUTACJÓN ......................................................................... 15 1.3.1.1.3 PROBLEMAS o emoo A CONVERGENCIA EVOLUTIVA ........................ ..... ..................... ......................... ........ .......... 15 1.3.1 .1.4 PRUEBAS DE SIGNIFICACIÓN ESTADÍSTICA .................................................................................. .. .. ......... .. ... ......... 16 1.3.1 .1.5 ELEMENTOS MÓVILES ...... ...................................................................... ......... .. ........................ , ........... ... .. .. .......... 17 1.3. l. l .6 LA ESTRUC1'URA MOSAICO EN CROMOSOMAS ........................................................................................................ 17 1.3. 1.2 Métodos Composicionales ......... ............................................................................................................... 18 1.3.1.2. I EL C'RffERIO DE USO DE CODONES .................................................................... .... ........................................ ......... 20 1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el momento de la transferencia ... ....... ... ..... .. ...................................................................................................... 21 1.5 Una medida adecuada del uso de codones que refleje traducibilidad ................................. 23 1.5.1 El índice de riqueza de codones (CRl) ................................................................................... ......... 25 1.5.2 Definición de los niveles pobre, típico y rico de UC ........................................................................ 28 1 .6 El potencial de Transferencia Horizontal .. ........................................................................ 31 1. 7 Identificación de Probables Ortólogos (P0) .......... ........... ............ .............................. ..... .. 37 1.8 Genes xenólogos recientes muestran un UC similar. ......................................................... 39 1.9 Predicción de xenólogos ... ... ........................... ..... .......... .... .. .............. ..... .................. ....... .42 1.9.1 Filtros adicionales aplicados ............................................................................. ............................... 43 /. 9.1. I Máximo parecido global entre GCXY.. ................................................. ............................. ....................... 43 1.9.1.2 Validación.filogenética ...... ....................................... ........... .......... ........................................................... 44 1.1 O Discusión .......... .. ........................................................................................................... 50 1.11 Deducción Matemática del modelo Bayesiano empleado para identificar GCXs ............. 54 1.1 1.1 Introducción al teorema de Bayes ................................................................................................. 54 1.11.2 Selección de POs con UC similar .................................................................................................. 55 Capítulo 11. Uso de codones típico: una zona de tolerancia para alcanzar niveles adecuados de expresión .... .. .... .............. ..................................................................... 60 2.1 Resu1nen del capítulo ... ............. .. .... .... ....................................................................... .... .. 60 2.2 Antecedentes ..... ... ............................................................ ..... ..... ... ... .. .... ..... .... ........... ...... 61 2.3 Objetivo .. .... .... ..... ..... ... .... ... .............. .. ......................................................... ....... .. .. ......... 64 2.4 Hipótesis ........................................... .. ............ ... ........... ... ............................ .................... 65 CCG- UNAM iv JUNI0200S TABLA DE CONTENIDO 2.5 El UC genómico correlaciona mejor con la concentración de tRNA que el UC en proteínas ribosoinales .................. ... ............................ ........................................................................... 66 2.6 Los genes con alto CRI correlacionan mejor con las abundancias de tRNAs que los GAEs ...................... ... ......... .... ........ ....... .. ... ... ..... .. ...... .. ... ..... ... .. . : .... .. ... ............. ..... ... ..................... 74 2.6.1 Obtención de las proteínas ribosomales (PRs ) ......... ...................................................................... 7 4 2.6.2 Obtención de genes con alto CAi ............................. ............... ............... ........... .............................. 75 2.6.3 Genes con alto CRI muestran la más alta correlación con la concentración de tRNA ................. 78 2.7 El uso de aminoácidos está relacionado con la traducibilidad pero no es el factor de mayor impacto en las frecuencias de codones ............... .... ... .... .. ....................................................... 79 2.7.1 El índice de riqueza de aminoácidos (MRl) ........... ........ ................................. .......... ................. .... 83 2.7.2 Índice de similitud con las proteinas ribosomales (RLI) ................................................................. 83 2.8 Genes altamente expresados con un uso de codones óptimo en un genoma no tienen las mismas propiedades composicionales en otros genomas .................. .. .................................... 85 2.9 Con los datos actuales no parece existir un conjunto de genes con UC óptimo que sea común a todos los genornas ................... ..................... ................................................... ......... 88 2. 1 O Discusión ............ .................. .... .. .... ....... ........................................................... ........ ... .. 90 2.11 Perspectivas ............................................... .... ................................................................ 92 Anexo 1 ........................................................................................................ .. ................ 93 Anexo 11 ... ..................................................................... ............................................. .. 105 Bibliografía ............................................. ............................. ... .................................... 124 CCG- UNAM V JUN!02005 LUIS ARTURO MEDRANO SOTO RESUMEN Resumen Esta tesis presenta una evaluación al paradigma composicional para la predicción de genes transferidos horizontalmente, el cual postula que los genes foráneos muestran una composición atípica de codones en el genoma receptor al momento de ser adquiridos. Primero, se aplicaron varios criterios, incluyendo una validación filogenética, para identificar pares de genes exportado- importado donde aún se conserva la huella composicional del DNA donador. Posteriormente, se determinó cuantos de los genes detectados muestran un uso de codones (UC) pobre, típico o rico. En contraste con el paradigma composicional, los resultados muestran que la mayoría de los genes extranjeros, al ser adquiridos, exhiben predominantemente un UC típico en el genoma hospedero. Tal compatibiUdad entre el UC de genes foráneos y el genoma receptor puede ser un prerrequisito para que la selección natural pueda evaluar las ventajas selectivas de funciones importadas por la célula. De ser así, un UC atípico actuaría como una barrera importante contra Ja adquisición y posterior utilización de genes extranjeros. Además, si el UC de genes foráneos es compatible con el nuevo contexto genómico del organismos que los recibe, entonces, se ha sobreenfatizado el papel del mejoramiento (amelioration) del UC en la transferencia horizontal, pues dicho fenómeno afectaría sólo a una minoría de los genes. Otra implicación importante de los resultados es que el nivel típico de UC define una zona de seguridad o tolerancia, donde los genes extranjeros pueden ser traducidos eficientemente - presumjblemente debido a su compatibilidad con Ja maquinaria de traducción del genoma receptor. En apoyo a esta hipótesis, se muestra que en Escherichia coli KI 2 el UC promedio del genoma (representativo del nivel típico de UC) correlaciona significativamente con las concentraciones disponibles de tRNA. Además, los genes que uti lizan preferentemente los codones más abundantes en la célula correlacionan mejor con las abundancias de tRNA que el UC de los genes altamente expresados, indicando así que los supuestos actuales para predecir niveles de expresión, partiendo únicamente del uso de codones, no están bien fundamentados. Si bien los genes altamente expresados tienen generalmente un UC por encima del promedio y correlacionan bien con la disponibilidad de tRNA, son tantos los factores que afectan el nivel de expresión que no es posible afirmar que todos los genes que muestran estos atributos son también altamente expresados. CCG- UNAM JUNIO 2005 LUIS ARTURO MEDRANO SOTO ABSTRACT Abstract This thesis presents an evaluation to tbe compositional paradigmfor horizontal gene transfer (HGT) prediction, which posits that foreign genes display atypical codon usage (CU) within the recipient genome immediately upon introgression. First, we applied severa! criteria, including phylogenetic validation, to identify pairs of imported- exported genes that still preserve the compositional footprint of the donor DNA. Then, we estimated tbe number of detected genes showing poor, typical or rich CU. Contrasting with the compositional paradigm, our results indicate that most alíen genes exhibit predominantly typical CU in the host genome at the moment of acquisition, suggesting that such CU compatibility between foreign genes and acceptor genomes is a prerequisite to assess the selective advantage of imported functions. Thus. atypical (poor) CU may representa strong barrier against successful integration and uti lization of acquired genes. Furthem1ore, if the CU of ali en genes is compatible with the genomic context of the new host, then, the role of amelioration in HGT has been overemphasized since it would happen only in a small fraction of genes. Another important implication of the results is that typical CU defines a safety or tolerance zone, wherein foreign genes can be efficiently translated - presumably dueto their compatibility with the translational machinery of the recipient organism. We found additional evidence supporting this hypothesis. In Escherichia coli K 12, the genomic codon frequencies (representative of typical CU) correlate significantly with tRNA concentrations. Furthermore, genes preferentially using the most abuodant codons in the genome correlate better with the tRNA pool than the CU of highly expressed genes. This result entails that the underlying assumptions of current methodologies to predict expression levels, based on CU alone, are not well founded. Even though highly expressed genes often show higher than average CU and correlate well with tRNA availability, there are so many other factors affecting gene expression that genes exbibiting tbese attributes are not necessari ly higbly expressed. CCG- UNAM 2 JUNIO 2005 LUIS ARTURO MEO RANO SOTO PRESENTACION Presentación El proyecto doctoral fue motivado por el gran caudal de infonnación que se genera como producto de los diversos proyectos genómicos en el mundo. Ahora es factible mirar hacia atrás y verificar si, bajo la luz de muchos más datos, continúan siendo vigentes los supuestos fundamentales o hipótesis de trabajo que surgieron cuando todavía no se había completado la secuencia del primer genoma, es decir, durante la era pre- genómica. En pai1icular, se examina la capacidad de predicción de los supuestos que relacionan al uso de codones (UC) con la transferencia horizontal de genes (THG) y los niveles de expresión. El Capítulo 1 describe el análisis que se realizó para evaluar el "paradigma composicional", el cual postula que los genes foráneos muestran principalmente una composición atípica de codones en el momento de ser adquiridos por el genoma receptor. Los resultados aquí reportados no sustentan a este paradigma. Se observa que la gran mayoría de las THGs, donde todavía se conserva la huella composicional del DNA donador, involucran genes foráneos que al momento de ser importados despliegan directamente un UC típico -aún cuando ciertamente existe una elevada probabilidad de que los genes foráneos lleguen al genoma receptor exhibiendo un UC pobre (como consecuencia de la gran variabilidad del UC entre diferentes organismos). De este hallazgo se desprenden al menos cuatro conclusiones. Primero, aún antes de realizarse el intercambio horizontal ya existía una compatibilidad entre la composición de codones de los genes foráneos y del organjsmo aceptor. Segundo, el nivel típico de UC constituye una zona de tolerancia o seguridad donde los genes foráneos pueden ser expresados adecuadamente por ser compatibles con la maquinaria de traducción del genoma destinatario. Presumiblemente, tal compatibilidad es un prerrequisito para que la selección natural pueda evaluar la ventaja selectiva de funciones importadas por la célula. Tercero, si los genes transferidos exitosamente llegan directamente con un UC típico o rico, entonces no es necesario someter su secuencia a un proceso de "mejoramiento" (amelioraNon) para que refleje las tendencias en UC del genoma receptor. De ser así, tal proceso de "mejoramiento" del UC ha sido sobreenfatizado en la literatura, pues sólo sucedería en una minoría de los casos. Cuarto, un UC pobre representa una barrera considerable contra la adquisición y utilización de genes foráneos pues la célula no podría traducirlos adecuadamente. Debido al conflicto entre los resultados aquí reportados y los supuestos CCG- UNAM 3 JUNIO 2005 LUIS ARTURO MEDRANO SOTO PRESENTACION esenciales de las metodologías de predicción de genes foráneos basadas en el paradigma composicional, resultó extremadamente dificil publicar los hallazgos. Sin embargo, después de una historia de 6 meses que involucró 4 rechazos, sin argumentación convincente por pa11e de 4 revistas internacionales, y de tres ciclos de revisión en la revista Molecular Biology and Evolution (que duraron otros 12 meses), finalmente el trabajo fue aceptado. El a11ículo publicado (1] se adjunta en el Anexo l al final de la tesis. En la discusión, al final del Capítulo l, se describe una serie de evidencias teóricas y experimentales, publicadas recientemente, que soportan fuertemente las conclusiones obtenidas. En el capítulo l se propone que un nivel típico de uso de codones representa una zona de seguridad o tolerancia, donde genes foráneos pueden ser traducidos adecuadamente por el genoma receptor. La hipótesis subyacente es que dicha zona refleja la compatibilidad del UC de genes foráneos con la maquinaria de traducción del organismo hospedero. Esta hipótesis no es trivial y requiere de evidencias más sólidas que la sustenten. Por consiguiente, en el Capítulo 11 se explora la compatibilidad tRNA- UC, para determinar si genes con un UC típico muestran una con-espondencia notable con la concentración de tRNA. Efectivamente, como se esperaba, el UC genómico (UCc) coITelaciona muy bien con la concentración de tRNA, apoyando así la noción de una zona de tolerancia. Sin embargo, la correlación UCc vs tRNA resulto ser también más alta que la mostrada por el UC de las proteínas ribosomales (PRs) vs tRNA. Esto es inesperado, porque las PRs son el modelo estándar actual del tipo de genes cuyo UC correlaciona óptimamente con la disponibilidad de tRNA para maximjzar la eficiencia de la traducción y los niveles de expresión. Por este motivo, se decidió estudiar si el UCc constituye una mejor referencia para medir la compatibilidad de los genes con la maquinaria de traducción de la célula. Los genes que utilizan preferentemente los codones más abundantes en el genoma muestran una correlación más elevada con la concentración de tRNA que los genes conocidos o predichos como altamente expresados - aquellos que utilizan preferentemente los mismos codones que las PRs- sugiriendo así que el UCG es mejor referencia para medir que tan eficientemente se puede traducir un gene (traducibilidad). Aquí hay un conflicto, las metodologías actuales de predicción de niveles de expresión parten del supuesto de que el UC en genes altamente expresados (e.g. las PRs) es óptimo para la traducción, implicando mayor correspondencia con la concentración de tRNA en comparación con genes de menor expresión, entonces ¿a qué se debe que existan genes no considerados como de alta expresión que muestran correlaciones más elevadas con la CCG- UNAM 4 JUNIO 2005 LUIS ARTURO MEDRANO SOTO PRESENTACION abundancia de tRNA? El conjunto de análisis presentado en el Capítulo Il representa una evaluación a los supuestos de trabajo actualmente empleados para predecir niveles de expresión.Lo resultados sugieren que tales supuestos no están bien fundamentados e involucran argumentos circulares. Se concluye que el UC está más relacionado con la eficiencia de la traducción que con el nivel de expresión. Por lo tanto, no es posible predecir confiablemente el nivel de expresión partiendo únicamente del UC. Los genes predichos como altamente expresados son sólo un subconjunto del total de genes traducibles eficientemente, pero no se puede afim1ar que sean los más "óptimos" para la traducción. Se está trabajando en el manuscrito para publicar la contribución del Cápitulo U. Durante el desarrollo del doctorado se trabajó de manera paralela en otro proyecto independiente al tema de tesis: el desarrollo de un método de clasificación Bayesiana (BClass por sus siglas en ingles .fl_ayesian Classijier) que permite analizar datos biológicos de naturaleza heterogénea. Normalmente se uti lizan métodos de agrupamiento (clustering) para realizar filogenias moleculares o estudiar patrones de expresión en microarreglos, porque los datos involucrados son matemáticamente homogéneos (tienen las mismas unidades) y el concepto de distancia entre los datos es fácilmente interpretable -las filogenias involucran distancias genéticas y los microarreglos diferencias en intensidades de expresión. Por otro lado, si se desea relacionar genes mediante un análisis que integre el nivel de expresión, vecindad en el cromosoma, la función molecular, el modo de regulación y la fuerza de los promotores, por citar un ejemplo, es común realizar varios análisis por separado, porque el concepto de distancia entre datos tan heterogéneos no tiene una interpretación útil. BClass permite realizar un análisis simultáneo de todas estas variables, mediante la transformación del conjunto de atributos biológicos heterogéneos en probabilidades de pertenencia a diferentes grupos. La transfonnación se logra al modelar cada variable biológica con una distribución estadística (i .e. Normal, Poisson, Multinomial, etc.) y después aplicar la teoría de modelos mezcla para calcular la probabilidad a posteriori de que cada entidad biológica (en este ejemplo genes) pertenezca a cada uno de los grupos en la mezcla. Este procedimiento elimina la necesidad indeseable de definir medidas de distancia o similitud para relacionar los genes. Al fina l, todos aquellos genes que muestren probabilidades similares de pertenencia a todos los grupos estarán relacionados. El artículo detallando esta metodología y su uso potencial [2] se encuentra adjunto en el Anexo 11. CCG- UNAM 5 JUNIO 2005 LUIS ART URO MEDRANO SOTO CAPITULO 1 Capítulo 1 Los genes importados exitosamente muestran un uso de codones típico en el genoma receptor al momento de ser adquiridos Déjame decirte el secreto que me ha Llevado a alcanzar mi meta. Mi ji1erza reside exclusivamente en mi tenacidad. LOUIS PASTEUR 1.1 Resumen del capítulo El estudio de la transferencia horizontal de genes' (THG) ha despertado un gran interés por entender los mecanismos biológicos involucrados, sus implicaciones en la adaptación a un medio ambiente cambiante y su impacto en la evolución de las especies. Naturalmente, un problema esencial para alcanzar estas metas es la identificación confiable de genes que han participado en eventos de THG. Actualmente las metodologías teóricas para detectar genes que se han movido lateralmente pueden clasificarse en dos tipos: filogenéticas y composicionales. Los métodos filogenéticos, aunque no siempre es posible aplicarlos, cuentan con fundamentos más robustos y gozan de mayor aceptación. Sin embargo, si no se aplican con las debidas precauciones pueden arrojar resultados incorrectos; por ejemplo, al confundir genes parálogos2 por ortófogo:l, o bien 1 El intercambio de material genético (i.e. genes) entre especies diferentes. 2 Genes que divergen después de un evento de duplicación genética dentro de un genoma. Tienden a adquirir nuevas funciones durante el curso de la evolución y suelen estar sujetos a diferentes presiones selectivas (ver Figura 1.1 ). CCG-UNAM 6 JUN IO 2005 CAPITULO 1 RESUMEN al analizar genes con tasas muy desiguales de mutación. Por otro lado, los métodos composicionales se pueden aplicar con mayor facilidad por no requerir la comparación de genes entre múltiples organismos, pero sus fundamentos teóricos e implicaciones respectivas son más debatibles. Los métodos composicionales consideran que los genes recientemente adquiridos por transferencia horizontal exhiben características atípicas en su secuencia de DNA, como el contenido de G+C, frecuencias de dinucleótios y uso de codones (UC); donde por atipicidad se quiere decir frecuencias significativamente diferentes al promedio genómico. Con el propósito de evaluar los supuestos subyacentes y la capacidad de predicción de los métodos composicionales, este capítulo se concentra en determinar cuál es el nivel de UC (pobre, típico o rico) de los genes foráneos en el momento mismo de la transferencia. La teoría actual dicta que los genes in1portados exhiben predominantemente un UC "pobre", implicando que deben ser ineficientemente traducidos por la maquinaria del organismo receptor. La premisa fundamental en la estrategia para atacar esta incógnita plantea que en el instante en que se da el intercambio lateral, dos genes xenólogos4 (ver Figura l. l) son idénticos y por lo tanto guardan las mismas características composicionales, independientemente de si el UC es típico o atípico con respecto al genoma receptor. Como consecuencia, se asume que los genes extranjeros que aún conservan la huella composicional del DNA donador deben exhibir: ( 1) un UC muy similar; (2) aproximadamente la misma longitud ; (3) la más alta similitud global a nivel de proteína, satisfaciendo por ende los criterios operativos actuales para reconocer ortología; y (4) su relación filogenética es irreconciliable con el árbol canónico de las especies. Los pares de genes que satisfacen las 4 condiciones son denominados Genes Candidatos a ser Xenólogos (GCXs). Una vez identificados todos los pares de GCXs entre 103 genomas procariotes no redundantes, se comparó su nivel de UC con los niveles esperados por los métodos composicionales. Los resultados indican que la abrumadora mayoría de los GCXs despliegan un UC preferentemente típico en el genoma receptor al momento de la transferencia, derivándose así las siguientes conclusiones. Primero, un nivel típico de UC es un prerrequisito importante para que la selección natural pueda evaluar la ventaja selectiva de funciones importadas por la célula; segundo, el nivel típico de UC constituye una zona de seguridad o tolerancia donde los genes 3 Genes en diferentes especies que evolucionaron del mismo gene ancestral a partir de un evento de especiación. Normalmente los genes ortólogos retienen la misma función en el curso de la evolución {Figura 1.1 ). 4 Relación que surge cuando se intercambia material genético (e.g. genes) entre diferentes especies. El gene exportado (donado) y el gene importado (adquirido) están vinculados por una relación de xenología. (Figura 1.1) CCG-UNAM 7 JUNIO 2005 CAPITULOI RESUMEN extranjeros pueden ser expresados adecuadamente -presumiblemente debido a su compatibilidad con la maquinaria de traducción del genoma receptor; tercero, un UC pobre representa una barrera importante contra la adquisición y utilización de genes foráneos; cuarto, el papel del mejoramiento del UC, o "amelioration", en la transferencia horizontal ha sido sobreenfatizado, pues solo sucedería en una minoría de los genes. Aunque en aparente contradicción con los supuestos actuales, esta interpretación encuentra soporte en diversas evidencias teóricas y experimentales publicadas recientemente. Dp1 Esp2 Op2 r - A1 AB1 81 82 C1 C2 C3 Ortologfa Paralogía X&nologiG Figura 1.1. Tres tipos de Homología: Ortología, paralogíay xenología. Se muestra la evolución idealizada de un gene (líneas negras) a partir de un ancestro común, descendiendo hacia 3 poblaciones A, B y C (fondo amarillo claro). Hay dos eventos de especiación (Espl y Esp2) en los puntos donde se fonnan las "Y" invertidas. También hay dos eventos de duplicación genética (Dp 1 y Dp2) ilustrados como líneas horizontales. Dos genes cuyo ancestro común reside en la unión de una "Y" invertida son ortólogos (e.g Bl y Cl). Dos genes cuyo ancestro común reside en una línea horizontal son parálogos (e.g. C2 y C3). La flecha roja denota la transferencia del gene Bl de la especie B hacia la especie A. Aunque estrictamente hablando AB 1 es xenólogo de los otros 6 genes, en este capítulo se relacionará con el tenninó xenólogos, como definición de trabajo, al par de genes donado-adquirido (en este caso AB 1 y B 1 ). Los 7 genes son homólogos entre sí porque proceden de un mismo ancestro común en la raíz del árbol. Estas definiciones y el diagrama fueron tomadas del trabajo publicado por Walter M. Fitcb [3). CCG- UNAM 8 JUNIO 2005 CAPITULOI OBJETIVO 1.2 Objetivo Determinar cual es nivel de uso de codones (pobre, típico o rico) de los genes foráneos inmediatamente después de ser importados. Aclarar esta incógnita permitirá evaluar la generalidad del paradigma composicional para la detección de adquisiciones laterales recientes -genes transferidos horizontalmente muestran predominantemente una composición atípica de codones en el genoma receptor. 1.3 Antecedentes La era de la secuenciación a gran escala y de los sistemas automatizados de anotación de genomas han generado bases de datos enormes a partir de las cuales se han realizado muchos descubrimientos. Análisis comparativos a nivel de DNA y de aminoácidos han revelado regiones aisladas o mosaicos de secuencia "atípica" altamente conservados, inspirando como resultado las preguntas de si estas secuencias fueron introducidas por transferencia horizontal o si son en realidad ocurrencias fortuitas que fueron exitosas y preservadas por selección natural. El concepto de transferencia horizontal de genes (THG) involucrando orgánulos de eucariotes tiene una larga historia. A principios del siglo XX se propuso que los cloroplastos y las mitocondrias eran endosimbiontes bacterianos [4, 5]. Concepto que fue retomado y desarrollado cerca de 50 años más tarde [ 6]. Hoy en día ésta es una de las formas más aceptadas de movimiento horizontal a través de grandes barreras filogenéticas. El trabajo de Woese [7] demostrando que el rRNA mitocondrial y de cloroplastos está más relacionado con las bacterias que con eucariotes, ha representado la evidencia más convincente para la teoría de la endosimbiosis. La era del DNA recombinante proporcionó información valiosa sobre el grado de conservación de los mecanismos genéticos y permitió demostrar experimentalmente que los genes pueden moverse a través de fronteras entre especies. Un muy buen ejemplo de THG que ocurre continuamente en la naturaleza es la transferencia natural de DNA plasmídico de la bacteria Agrobacterium tumefaciens a células de plantas, que resulta en la integración del DNA foráneo en el cromosoma de la planta, seguido por su expresión para generar cambios fenotípicos. Ciertamente, se sabía bien que los virus eran capaces de mediar la transferencia CCG- UNAM 9 JUNI02005 CAPITULO 1 ANTECEDENTES horizontal mucho antes que el caso de A. tumefaciens. Aunque este fue un gran descubrimiento real izado mucho antes de Jos años l960s (ver referencias en [8- 10]), la transferencia horizontal entre microbios no tuvo el impacto que tuvo la transferencia entre microbios y eucariotes. La actual era genómica brinda oportunidades para explorar sistemas de THG que puedan existir entre diversos organismos. El primer experimento que ilustró la habilidad del flujo de información genética entre especies pasó en gran medida desapercibido. En 1959 se descubrieron los plásmidos que transmiten resistencia a antibióticos, cuyo atributo era que contenían genes capaces de transmitir resistencia a múltiples antibióticos y que se transferían a través de diferentes especies bacterianas, demostrándose así que la información genética puede fluir de una especie a otra [ 11, 12]. Las imp.licaciones de este descubrimiento tuvieron un impacto profundo tanto en el campo de la ingeniería genética como en la teoría de evolución. Los primeros artículos que exploraron las implicaciones teóricas más profundas de la THG comenzaron a aparecer en los años 70s, aunque no fueron ampliamente reconocidos o aceptados. Por ejemplo, se observó que existen rasgos similares en plantas no relacionadas, pero que comparten el mismo ecosistema [13, 14], bajo este contexto se propuso que las plantas estaban intercambiando genes y se citó a la transferencia de genes plasmídicos como precedente de este tipo de eventos. También se planteó que la THG podría afectar la evolución en el reino animal [ LS , 16], e inclusive jugar un papel importante en la especiación [ 17]. Mientras tanto, los experimentos en ingen iería genética comenzaban a producir resultados sorprendentes. Por ejemplo, se introdujo un gene de levadura en una mutante de Escherichia coli deficiente en histidina, que resultó en el restablecimiento de la biosíntesis de histidina [ 18]. Lo que hoy en día es práctica rutinaria, era dificil de comprender a mediados de los 70s - genes de organismos eucarióticos artificialmente introducidos en bacterias podían en efecto funcionar. En 1980 se demostró que genes bacterianos podían expresarse exitosamente en levadura [ 19]. En 1983 se produjo el primer ratón transgénico que expresó un gene foráneo. el gene que codifica la hormona del crecimiento humano [20]. Diferentes experimentos demostraron, resultado tras resultado, que en el laboratorio se podían transferir genes entre especies y observar sus fenotipos. Las preguntas fundamentales que pennanecieron fueron sí estos eventos ocurrían efectivamente en la natural eza y si sucedían en frecuencias suficientemente elevadas corno para tener un impacto significativo en la evolución. En 1985 se propusieron dos explicaciones en apoyo a la CCG- UNAM 10 JUN102005 CAPITULO 1 ANTECEDENTES importancia de la THG [2 1 ]. Primero, si existían mecanismos tan potencialmente útiles de THGs a nivel molecular, la naturaleza debía encontrar una manera de utilizarlos. Segundo, una teoría evolutiva general que incorporara la idea del flujo de información genética a través de fronteras taxonómicas parecía proporcionar una respuesta simple y satisfactoria a la pregunta: ¿Por qué la biología molecular de todos los organismos vivos está tan unificada? Aun cuando los organismos pueden divergir independientemente después de la especiación, la biología ha retenido una unidad tan profunda que animales transgénicos pueden ser creados en el laboratorio. Un factor adicional en favor de la relevancia de Ja THG surgió como producto del crecimiento de las bases de datos de ácidos nucleicos. A principios de los 80s ya se había acumulado para algunos organismos mode/o5 (i.e. E. coli y levadura) una muestra representativa de genes, lo cual permitió estudiar características composicionales del genoma y correlacionarlas con propiedades fisiológicas. Como resultado, se descubrió la relación que existe entre el uso de codones (UC), la concentración de tRNA y el nivel de expresión. En breve, las frecuencias de codones en un organismo no son azarosas, la mayoría de los genes siguen en mayor o menor grado las tendencias genómicas de UC (22]; además, los genes altamente expresados muestran un mayor sesgo de Ué que correlaciona significativamente con las especies de tRNA más abundantes [23, 24]. Estos hallazgos, junto con Ja demostración posterior de que un UC pobre puede afectar la eficiencia de la traducción [25-27], motivaron la proposiciónde dos ideas clave. Primero, genes con una composición atípica tanto de codones como de G+C podrían ser adquisiciones horizontales recientes (28]. Segundo, el nivel de expresión de genes heterólogos puede ser afectado por el grado de correspondencia entre el patrón de UC del gene introducido y el perfil preferido por el genoma receptor, por lo tanto se enfatizó la importancia biotecnológica de determinar un patrón de UC que promueva una expresión óptima (29]. En apoyo a estas ideas, se observó que genes de plásmidos y fagos no se apegan al UC genómico tan bien corno genes cromosomales, llevando como consecuencia a la sugerencia de métodos generales de predicción de genes foráneos basados únicamente en la secuencia [30]. El razonamiento subyacente se basa en la hipótesis de que el UC refleja la adaptación de los genes nativos a Ja maquinaria de traducción de su genoma [23], y como los genes foráneos no han estado expuestos a las mismas 5 Especies que son extensivamente estudiadas para comprender fenómenos biológicos particulares, esperando que los descubrimientos hechos en un organismo modelo podrán explicar como funcionan otros organismos. Esto funciona porque la evolución reutiliza principios biológicos fundamentales y conserva vías metabólicas, estrategias de regulación y mecanismos del desarrollo. 1 ' Tendencia en los genes a usar un solo codón sinónimo por aminoácido. CCG- UNAM 11 JUNIO 2005 CAPITULO! ANTECEDENTES presiones mutacionales y selectivas que los genes nativos, no es descabellado asumir que los genes foráneos deben exhibir una composición de codones pobremente adaptada al genoma receptor [30]. Este hecho señaló el nacimiento del paradigma composicional para la detección de THG cuando todavía faltaba casi una década para que se obtuviera la secuencia completa del primer genoma. Sin embargo, evaluaciones recientes de los métodos que se basan en este paradigma concluyen que son poco confiables si la composición atípica de secuencia se toma como única evidencia de la ocurrencia de THG (31-33]. En el terreno experimental , a mediados de los 80s ya se habían establecido varios mecanismos que mediaban el intercambio de genes, no sólo entre organismos unicelulares sino también entre metazoarios, promoviendo que mucbos fenómenos biológicos dificiles de explicar se manejaran fácilmente haciendo alusión a la transferencia horizontal. Sin embargo, hubo una pausa en las observaciones que proporcionaban soporte directo a tales especulaciones. Con la secuenciación de genomas la situación ha cambiado. Actualmente, investigadores de áreas muy diversas están haciendo observaciones relacionadas con la THG. Como resultado, tal acumulación de evidencias hace factible buscar respuestas a preguntas como: (1) ¿Qué tan universales son los mecanismos de THG? y ¿Operan estos mecanismos en ambientes naturales? (2) ¿Cuál es la evidencia a favor de que la THG contribuye a los genotipos actuales de las especies? La evidencia principal a favor de que la THG es substancialmente común involucra un razonamiento filogenético. Sin embargo, hay dos problemas muy recurrentes en este tópico - detem1inar la topología real de un árbol de genes y la estimación de tiempos de divergencia. (3) Si los mecanismos existen y los eventos pueden documentarse, ¿juega la transferencia horizontal un papel significativo en la evolución? O bien, ¿Puede una teoría que incorpora DNA migratorio explicar fenómenos biológicos más generales? A la fecha se han reportado numerosos casos de THG evidenciando que, en efecto, se trata de un fenómeno común [34-40]. Sin embargo, la propuesta de que la THG ha sido tan exhaustiva que elimina la posibilidad de describir la historia evolutiva de las especies mediante un árbol [ 41 ], ha sido impugnada de manera convincente por análisis colectivos de genes que soportan la existencia de tres dominios monofiléticos separados [39, 42, 43]. De hecho, se han acumulado evidencias sólidas indicando que el flujo horizontal de genes es mucho mayor al interior de linajes que entre linajes (39, 44-46]; por consiguiente, continua siendo razonable la idea de la existencia de una señal filogenética y de que un modelo jerárquico es adecuado para describir la CCG- UNAM 12 JUNIO 2005 CAPITULO 1 ANTECEDENTES historia de las especies - pero es necesario recordar que la ausencia de filogenias discordantes no excluye la posibilidad de THG y que algunas especies pueden ser más susceptibles a la THG que otras [47]. Además, no todos los genes tienen la misma posibilidad de ser transferidos. La hipótesis de complejidad postula que es poco probable que los genes informacionales (aquellos involucrados en la transcripción, traducción y procesos relacionados) se transfieran en comparación a los genes operacionales (aquellos involucrados en el mantenimiento de la célula), debido a que típicamente requieren establecer más interacciones físicas con otros genes [ 48]. En resumen, se pueden distinguir dos tendencias en el estudio de la transferencia horizontal. Por un lado, se considera que la THG es un factor esencial en la evolución, capaz de dirigir la veloz adaptación a nuevos nichos y de inducir eventos de especiación [34, 41 , 49-5 1]. Esto se debe a que en principio es mucho más rápido importar genes ya fabricados y listos para responder a retos ambientales que experimentar con secuencias nativas. Por otro lado, se argumenta que tal interpretación es una exageración propiciada, en parte, por confiar en métodos i11adecuados para la identificación de eventos de THG. Aunque la THG puede ser frecuente, la fijación de secuencias foráneas en poblaciones es poco probable, porque la gran mayoría de las secuencias adquiridas lateralmente no le otorgan al genoma receptor una ventaja selectiva. Por lo tanto, el impacto de la THG en la evolución de los genomas bien puede ser marginal [52-54]. Hay una gran cantidad de ejemplos donde mutaciones simples afectan la traducción y disminuyen la velocidad de crecimiento en ausencia de una condición de selección que las compense [55]; es natural esperar que algo similar suceda con secuencias foráneas. En una situación estable, es muy probable que las mutaciones sean destructivas o neutrales y la probabilidad a priori de fijación de una secuencia neutral es inversamente proporcional al tamaüo de la población [56]. Es decir, una vez que un linaje celular 11a evolucionado componentes bien integrados, es muy poco probable que componentes mutantes o foráneos incrementen la viabilidad del linaje. Las adquisiciones neutrales se difundirán en la población, pero también serán blanco de mutaciones aleatorias y erradicadas por deriva genética. A continuación se presenta una discusión sobre las cualidades, defectos y sesgos de los métodos actuales para identificar transferencias horizontales. Esto es fundamental porque dilucidar si el nivel de UC de los genes foráneos es típico o atípico con respecto el genoma receptor, en el momento de la transferencia, requiere de la detección confiable de pares de genes donador/receptor involucrados en eventos de THG. CCG- UNAM 13 JUNIO 2005 CAPITULO 1 ANTECEDENTES 1.3.1 Métodos de detección de transferencia horizontal. Detenninar si la THG es o no un fenómeno frecuente en la naturaleza, plantea el problema teórico de identificar cuando un gene o región de DNA se ha originado a partir de un movimiento horizontal. Los métodos que han surgido pueden clasificarse en dos grandes categorías: aquellos basados en criterios filogenéticos y aquellos basados en propiedades composicionales de la secuencia. 1.3.1.1 El método de incongruencia filogenética Este método es e.1 más confiable para detectar la ocurrencia de transferencias horizontales de genes. Consiste en tomar un grupo de genes ortólogos (ver figura 1.1) pertenecientes a un conjunto de especies razonablemente lejanas, para luego construir unárbol filogenético y compararlo con la filogenia conocida de esas especies. Si se observa una incongruencia entre el "árbol de genes" y el "árbol de las especies", entonces se puede plantear un posible caso de transferencia horizontal. Esta prueba se ha aplicado con varios grados de rigor desde las primeras afim1aciones de transferencia horizontal y ha sido descrita con mucho detalle en la literatura [57]. Entre las primeras aplicaciones de este criterio se encuentra la presentada por Woese y Fox en 1977 [58]. Idea lmente la apl icación del método de incongruencia filogenética requiere que se satisfagan varias condiciones. Primero, los genes bajo análisis deben contener información filogenética. Segundo, Jos genes comparados deben ser ortólogos y no parálogos (ver Figura 1. 1). Finalmente, el ejemplo de incongruencia debe involucrar un gene cuya tasa de sustitución no sea radica lmente diferente a Ja de los otros genes que se están comparando. Para que estas 3 condiciones puedan garantizarse, el número de genes a analizar debe ser razonablemente grande, i.e. más de 5 y posiblemente más de 10 [59), minimizando así errores debido al muestreo. Es difícil dilucidar la dirección de las transferencias a partir de incongruencias filogenéticas, especialmente para transferencias ancestrales que involucran linajes que dieron origen a muchas especies actuales. Por ejemplo, Ooolittle y colegas [60) concluyeron que la enzima gliceraldeido 3-fosfato deshidrogenasa (gapdhA) en E. coli fue adquirida horizontalmente desde un eucariote. dado que era el único procariote presente en un ciado de eucariotes. Sin embargo, con el hallazgo posterior de un ortólogo de gapdhA en Anabaena parece ahora más probable que una bacteria ancestral donó este gene a los eucariotes [ 61]. CCG- UNAM 14 JUNIO 2005 CAPITULO 1 ANTECEDENTES 1.3.1.1.1 Problemas debido a paralogía Muchos de los reportes prematuros de posibles THG fueron producto de la comparación de genes parálogos al ser tratados como genes ortólogos. Los árboles construidos a partir de genes parálogos pueden ser incongruentes como consecuencia de divergencia funcional, involucrando así diferentes presiones selectivas y por lo tanto distintas tasas de sustitución. Este escenario puede darse también como producto de un simple error de muestreo; cuando se analizan muy pocos genes y/o sus productos no han sido totalmente caracterizados. El problema de paralogía fue responsable de que se infiriera que la enzima Cu-Zn superóxido dismutasa de la bacteria Photobacterium leiognathi proviniera de una fuente eucariótica y de que la leghemoglobina de plantas viniera de vertebrados. Conforme se analizaron más secuencias y se identificaron correctamente los genes ortólogos, se encontró que los árboles de los genes respectivos son en realidad razonablemente congruentes con el árbol de las especies [62, 63]. 1.3.1.1.2 Problemas generados por tasas desiguales de mutación Diferencias en tasas de substitución pueden no ser evidentes en conjuntos con pocos datos. Como lo notó Felsenstein [64], la comparación de genes que están sometidos a tasas muy desiguales de sustitución puede resultar en "afinidades" aberrantes durante la reconstrucción filogenética. Este problema se encontró en la calmodulina de músculo estriado de pollo. Gruskin y colaboradores [65] mostraron que el gene designado como tipo calmodulina (el), era muy divergente del otro gene de calmodulina en el pollo (cam), así como de cualquier otro gene en vertebrados. Partiendo de este hecho, se sugirió que el entró en el pollo por transferencia horizontal, posiblemente a partir de una retrotransposición mediada por virus (porque el gene no tiene intrones). Sin embargo, análisis posteriores (59] pusieron de manifiesto que el gene el del pollo varía mucho más rápido que sus contrapartes en vertebrados, y además puede no ser ortólogo de los genes con los que originalmente se comparó. Por lo tanto, el gene no puede ser considerado como adquirido horizontalmente. 1.3.1.1.3 Problemas debido a convergencia evolutiva Algunos científicos no aceptan la THG como única explicación para una incongruencia filogenética; en su lugar se propone la posibilidad convergencia evolutiva. Por ejemplo, Kemmerer y colaboradores [66] mostraron que el citocromo c en Arabidopsis es s imilar al citocromo de hongos, pero no ofrecieron una explicación mecanística. Posteriormente, en 1994, CCG- UNAM .15 JUNIO 2005 CAPITULO 1 ANTECEDENTES Doolittle al hacer una revisión de este problema concluyó que, aunque la convergencia mecanística- funcional es común y la convergencia estructural enzimática probablemente ha ocurrido, no se había establecido a la fecha un caso genuino suficientemente convincente de convergencia de secuencia [67]. En un caso ampliamente citado de convergencia evolutiva, el de la lisozima de langur convergiendo hacia la de rumiantes [68], Doolittle mostró que el árbol de Ja lisozima es congruente con el árbol de las especies. Esto es. las substituciones convergentes de aminoácidos que pudieron ocurrir en el linaje que lleva a los rumiantes y al langur fueron pocas en el trasfondo de cambios neutrales como para ocultar Ja afinidad de la lisozima del langur con la de los primates. 1.3.1.1 .4 Pruebas de significación estadística Toda conclusión que involucre el hallazgo de una relación "inesperada" a partir del método de incongruencia filogenética, requiere que se estime la confianza estadística del resultado. permitiendo así evaluar si la observación "inesperada" es significativa. Desafo11unadamente. en general no hay pruebas estadísticas suficientemente rigurosas para determinar la confiabilidad de árboles filogenéticos. Los problemas computacionales son inmensos [69]. Por ejemplo. para conjuntos de datos que involucren una gran cantidad de especies, puede ser extremadamente dificil encontrar inclusive el árbol más corto, sin mencionar la prueba de confianza de ese árbol contra algún otro. Este problema ha atraído mucha atención y se han propuesto métodos para calcular la confiabilídad de árboles para varias especies. Entre ellos están el método de máxima verosimilitud [70, 71] y el de máxima parsimonia (72]. El problema con el procedimiento de máxima verosimilitud es que antes de calcular la confiabilidad, debe asu mirse un modelo evolutivo. Este modelo usualmente asume que los reemplazos a través de linajes y los eventos de ramificación siguen un proceso markoviano. Empero, una cosa es preguntar si un árbol particular es consistente con un modelo específico, y otra cosa muy diferente es preguntar si puede discriminar entre dos posibles modelos. Construir un árbol filogenético a partir de un conjunto de datos que contiene "homoplasia" puede hacer la prueba de incongruencia filogenética aún más dificil. La homoplasia surge cuando especies evolutivamente lejanas comparten rasgos únicos. La dificultad yace en distinguir si los rasgos compartidos reflejan la herencia a partir de un ancestro en común, o si surgieron independientemente. Tradicionalmente se considera que la homoplasia es el resultado de CCG- UNAM 16 JUN IO 2005 CAPITULO ! ANTECEDENTES procesos tales como la convergencia y reversión a estados ancestrales; obviamente la THG también contribuiría a Ja homoplasia. 1.3.1.1.5 Elementos móviles Si el método de incongruencia filogenética es aplicado en la ausencia de otra evidencia puede ser demasiado restrictivo -impediría que se consideren genes que están frecuentemente involucrados en THG. Este es probablemente el caso de muchos elementos transponibles porque su transferencia es tan frecuente que la filogenia de las especies que alojan estos elementos se pierde totalmente. Este problema ya se ha revisado con detalle en la literatura. Un ejemplo famoso de transferencias de genes eucarióticos, y a su vez uno de los casos mas convincentes, es el factorP de Drosophila me/anogaster [73]. Este caso es persuasivo porque Ja transferencia ocurrió en años recientes y por lo tanto se observó cuando sucedió. Monitorear el evento en tiempo real en poblaciones naturales es muy convincente, tanto como observar la diseminación de genes resistentes a antibióticos por medio de plásmidos entre bacterias patogénicas. Además, en este caso, el método de congruencia filogenética apoya fuertemente la transferencia horizontal [74]. La historia filogenética de muchos elementos móviles se parece mucho a la filogenia de virus (puesto que algunos están mezclados con virus) en que su historia es relativamente independiente de la filogenia de sus respectivos hospederos [75]. 1.3.1 .1.6 La estructura mosaico en cromosomas Hasta hace relativamente poco todavía se cuestionaba si la información genética podía fluir entre diferentes cepas de E. coli. En un inicio se argumentaba que eljlujo génico1 no podía ser significativo en E. coli, porque de ser así las diferencias entre cepas hubieran desaparecido. Sin embargo, el proceso que se siguió para contestar a esta pregunta ha conducido al desarrollo de nuevos criterios para detectar tanto flujo génico como transferencias horizontales entre especies filogenéticamente cercanas. El grupo de Selander se enfocó en el análisis de poblaciones naturales de E. coli y concluyeron que la estructura de su población era "clona!", proponiendo por lo tanto que el flujo de genes y recombinación entre cepas naturales de E. coli no debe ser importante [76, 77]. Esta conclusión estaba basada en el hallazgo de que las poblaciones naturales de E. coli podían ser divididas, usando una distancia genética derivada de polimorfismos de enzimas, en al menos tres 1 Transferencia de genes al interior de una especie. CCG-UNAM 17 JUNL02005 CAPITULO 1 ANTECEDENTES grupos donde los miembros de un grupo estaban más estrechamente relacionados entre sí que con los miembros de otros grupos. La noción de que no hay flujo génico entre cepas de E. coli, debido a la estructura clona! de su población, fue descartada después de que se realizaron comparaciones entre secuencias de mayor tamaño obtenidas de diversas cepas de E. coli [78-80]. Para hacer las comparaciones, se secuenció una región de 4400 pb del operon trp de 36 cepas de E. coli, seleccionadas del mismo conjunto de cepas que utilizó el grupo de Selander para determinar la estructura clona! de la población. Estos análisis confirmaron el hallazgo de que las 36 cepas podían ser divididas esencialmente en los mismos grupos obtenidos por los polimorfismos de enzimas. Sin embargo, también se encontró que cuando se comparaban cepas dentro de un grupo, uno de los miembros puede tener una sección corta que difiere de los otros miembros. Esto es, dentro de las regiones individuales de similitud se encuentran esparcidas regiones de disimilitud. Además, la región de disimilitud podía encontrarse a menudo en alguno de los otros grupos, como si esta región hubiera sido transferida de un grupo a otro. A partir del tamaño promedio de las regiones de disimilitud, se ha estimado que un evento promedio de recombinación resulta en la transferencia de algunos cientos o hasta miles de pares de bases. Se dice que los pares de cromosomas que siguen este patrón tienen una estructura mosaico. Este análisis demostró la presencia de subpoblaciones en E. coli que son genéticamente distintas, pero que ocasionalmente intercambian material genético sin destruir su identidad. En general, dos secuencias homólogas (ver Figura 1.1) de DNA que muestren un cambio abrupto de similitud, en una región bien delimitada, presentan la posibilidad de una estructura mosaico. 1.3.1 .2 Métodos Composicionales El progreso en la caracterización de diferentes cepas patogénicas de Salmonella ha llevado a numerosas propuestas de flujo génico. Hay muy buenos ejemplos involucrando factores virales. Por ejemplo, se ha mostrado que los antígenos de superficie utilizados para clasificar serotipos de Salmonella están distribuidos de forma discontinua a través de cepas lejanamente relacionadas (81 ), lo cual sugiere que los genes de estos serotipos se han movido dentro de esta especie. Groisman y colegas (82) han visto al cromosoma de S. typhimurium como mosaicos de partes distantemente relacionadas. Esta conclusión se basa, en parte, en la comparación de genes entre enterobacterias. Aún cuando E. coli y S. typhimurium comparten genomas de tamaño similar, CCG- UNAM 18 JUNI02005 CAPITULO 1 ANTECEDENTES con el 90% de sus genes mostrando altos niveles de sintenia e identidad, cerca del 10% de los genes en S. typhimurium codifica funciones totalmente ausentes en E. coli. Además, el contenido de G+C en estos genes únicos con frecuencia es significativamente menor al promedio de todo el genoma; un hallazgo que aparentemente apoya la idea de un origen remoto de estos genes, aunque también se han propuesto hipótesis que rechazan tal posibilidad, argumentando que estas secuencias pueden ser nativas y estar sujetas a diversas presiones selectivas producto de su participación, directa o indirecta, en distintos procesos biológicos [59, 83]. De hecho, el planteamiento de posibles donadores remotos para algunos de estos genes - como phoN (84] y un regulador transcripcional [85]- es problemático porque la única evidencia del origen remoto es la desviación del contenido de G+C. Debido a que diferentes factores pueden influir en el contenido de G+C, Syvanen examinó en 1994 la hipótesis de origen remoto con mayor detalle [59]. Al estimar la distribución del contenido de G+C a partir de 757 fragmentos de DNA de E. coli y 131 de S. typhimurium, Syvanen observó que la distribución puede dividirse en dos grupos. La mayoría de los fragmentos se agruparon alrededor de 0.509 de G+C (cerca del promedio genómico) con una distribución aproximadamente normal. La segunda clase mostró una desviación significativa hacia bajo G+C. Por el criterio de contenido de G+C, estos fragmentos son candidatos a transferencias horizontales. Sin embargo, hay un problema con este argwnento, la desviación es únicamente hacia bajo contenido de G+c. La variación hacia alto contenido de G+C es consistente con la varianza predicha para fluctuaciones aleatorias de G+C dada una media de 0.509. ¿Por qué no se ven genes con alto contenido de G+C que vengan de fuentes remotas? El caso de S. typhimurium no fue muy diferente. El principal agrupamiento cerca a la mediana de 0.516 es sólo aproximadamente normal (posiblemente debido al tamaño más pequeño de la muestra), pero la mayoría de la desviación es, como en el caso de E. coli, hacia un contenido de G+C bajo. Syvanen concluyó que debido a que la desviación se da principalmente hacia bajo G+C, es poco probable que esta sea una evidencia de origen remoto, argumentando que la selección funcional por bajo G+C es más viable. Obviamente estas regiones tendrían una temperatura de desnaturalización baja, y sería fácil imaginar escenarios donde mecanismos de replicación o recombinación permitieran seleccionar estas regiones. Por ejemplo, Syvanen propone que una explicación más simple para el bajo nivel de G+C es que se trata de DNA que CCG- UNAM 19 JUNI02005 CAPITULO ! ANTECEDENTES participa frecuentemente en rearreglos genómicos. El nivel más bajo de G+C pudo ser entonces seleccionado en el paso de recombinación al facilitar la desnaturalización del DNA. 1.3.1.2.1 El criterio de uso de codones A mediados de los 80s empezaron a surgir métodos formales , no basados en análisis filogenéticos, con la intención de detectar genes de origen foráneo. Tales métodos se sustentan en la observación de que al interior de un organismo los genes tienden a seguir el patrón de UC del genoma [22], y por lo tanto aquellos genes que claramente se salían de este patrón fueron interpretados como adquisiciones horizontalesrecientes de origen remoto - el paradigma composicional. Este es un criterio dificil de aplicar porque el UC de proteínas pequeñas o poco abundantes se desvía del sesgo genómico. Médigue y colaboradores [86] examinaron el UC de 740 genes de E. coli, y encontraron tres clases de genes: ( l) las proteínas altamente expresadas que definen el sesgo genómico; (2) las proteínas de expresión moderada que utilizan algunos codones raros; y (3) un grupo residual que muestra una marcada preferencia por codones raros. Este tercer grupo contiene la mayoría de los genes que serían predichos como nómadas, tales como secuencias de inserción y otros elementos móviles. En organismos modelo los genes altamente expresados (e.g. proteínas ribosomales) muestran una composición de codones bien adaptada al genoma, y sus preferencias de codones sinónimos son consideradas como óptimas para maximizar la eficiencia de la traducción pues correlacionan bien con la concentración de tRNA [23, 24). Dado que el sesgo en UC en genes de alta expresión es mayor al sesgo promedio del genoma, las metodologías que se desarrollaron a partir de entonces asumieron que todo gene con UC atípico (diferente tanto al promedio genómico como al UC de las proteínas ribosomales) fuera predicho como foráneo [30, 34, 36, 86- 92]. Es importante mencionar, sin embargo, que hace una década ya se había recomendado precaución en el uso de estos criterios; si bien la exploración del UC es un ejercicio interesante en el análisis de secuencias, las explicaciones alternativas para cualquier desviación de la tendencia promedio de un organismo son suficientemente numerosas (e.g. rearreglos genómicos , mantenimiento de estructura secundaria, estabilidad, propiedades del DNA reflejadas en el mRNA como la susceptibilidad al daño mutagénico, señales relacionadas con la replicación, etc.) para impedir su uso como criterio único en la predicción de THG [59]. Además, evaluaciones CCG-UNAM 20 JUNIO 2005 CAPITULO 1 ESTRATEGIA más recientes a estás metodologías indican que son poco confiables [3 1, 32]. En el mejor de los casos, el UC puede ser usado como apoyo a otras evidencias más sólidas. 1.4 Estrategia para determinar el nivel de UC de los genes foráneos en el momento de la transferencia Dilucidar si la atipicidad del UC puede seguir siendo considerada como un detector confiable de THG, requiere del diseño de una metodología que en principio no favorezca genes con tendencias composicionales particulares. La premisa fundamental de trabajo en este capítulo plantea que inmediatamente después de una transferencia horizontal, el DNA donador es idéntico en secuencia y tamaño al DNA aceptor, independientemente de si los genes transferidos mue~tran un UC típico o atípico en el genoma receptor. El empleo del UC como parámetro en el estudio de Ja THG es relevante porque además de transmitir información valiosa sobre Ja composición de nucleótidos, también es un indicador del grado de compatibilidad entre genes individuales y la maquinaria de traducción de la célula. Entonces, es necesario identificar, primero, pares de genes xenólogos donde la huella composicional del DNA donador esté bien conservada y posteriormente preguntar si el UC es típico o atípico. Siguiendo este principio, se proponen cuatro condiciones básicas para identificar pares de genes candidatos a ser xenólogos (GCXs). Todo par de GCXs debe: ( J) tener un UC muy similar; (2) mostrar aproximadamente el mismo tamaño; (3) sus secuencias de aminoácidos deben exhibir los niveles más altos de identidad global, cuando se comparan con las secuencias de sus probables ortólogos (POs) en otros organismos; y ( 4) la relación filogenética entre ellos debe ser irreconciliable con el árbol canónico de las especies. Sólo hasta después de haber obtenjdo un conjunto de GCXs que satisfagan las cuatro condiciones, se debe preguntar cuáles son las tendencias que exhiben en su nivel de UC y contrastarlas con los niveles que se esperarían tanto por los criterios de otras metodologías como por azar. La Figura 1.2 muestra la estrategia general que se siguió para predecir pares de genes xenólogos que tuvieran una composición similar de codones y posteriormente comparar su distribución de UC con el potencial de THG, es decir con los niveles de UC que se esperarían al azar dados los genomas analizados. Una descripción científica detallada del trabajo se publicó recientemente [1] y se encuentra incluida en el Anexo l al final de la tesis. Para minimizar redundancias, aquí sólo se mencionarán las partes relevantes pero se profundizará en aquellos detalles que no se trataron en el artículo. CCG- UNAM 21 JUNIO 2005 CAPITULO 1 Obtener POS Obtener el potencial de THG Seleccionar POs con diferencias pequeñas de UCcomoGCXs Obtener difereoc1as de UC entre POs Filtros Tamaño similar de POs (:t10%) Identidad e: 40% Mayor parecido global Incongruencia lilogenétlca Predicción final Comparar el perfil de UC en los GCXs predichos contra el potencial de THG ESTRATEGIA F igura 1.2. Estrategia para determinar el nivel de uso de codones (UC) de los genes foráneos en el genoma receptor en el momento de la transferencia. Primero, se estima el potencial de transferencia horizontal de genes (THG) entre todos los genomas (Sección 1.6), es decir, el nivel de UC que un gene cualquiera mostraría en otro genoma de ser transferido en este instante. Segundo. se obtienen todos los pares de posibles ortólogos (PO) entre los genomas analizados (ver Sección 1.7). Tercero, tomando un gene como referencia se calcula su diferencia de UC con todos los POs respectivos (Sección 1.8). Cuarto. se seleccionan aquellos casos donde el gene referencia muestra una diferencia muy pequeña de UC con algún PO y posteriormente son sometidos a varios filtros para predecir genes candidatos a ser xenólogos (GCXs): ver Sección 1.9. Quinto, fina lmente se compara el nivel de UC de genes xenólogos con el potencial de THG (Sección 1.1 O). Tomando en cuenta el cuerpo de evidencias que relaciona al UC con la eficiencia de la traducción, se diseño el índice de riqueza de codones (CRI por sus siglas en ingles Codon Richness Jndex), que cuantifica el grado en que los genes utilizan los codones más abundantes de un genoma referencia (ver Sección 1.5). El potencial de transferencia horizontal de genes (THG), o probabilidad al azar de que un gene foráneo despliegue un UC pobre, típico o rico en el genoma receptor si ocurriera una transferencia en este instante, se calcula como se describe en la Sección l.6. Inmediatamente después de una THG los genes intercambiados son idénticos y cumplen, por CCG-UNAM 22 JUN102005 CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD lo tanto, todos los criterios impuestos por los métodos actuales para detectar ortología con base en la secuencia de aminoácidos. Por este motivo, los GCXs se buscaron entre el conjunto de probables ortólogos (POs) que fueron identificados como se describe en la Sección 1.7. Otro punto fundamental es el método a utilizar para medir y comparar el UC. Se utilizó un enfoque Bayesiano para discriminar pares de GCXs que tienen un UC significativamente más similar entre sí que con otros POs relacionados, el método se detalla en la Secciones 1.8 y 1.11. Como un UC similar entre GCXs no es evidencia contundente de THG, se aplicaron otros criterios que incrementan sustancialmente la confianza en las predicciones, esto es, el tamaño similar de Püs, máximo parecido global a nivel de aminoácidos y la incongruencia filogenética con el árbol universal de las especies (ver Sección 1.9). La comparación entre el potencial de THG más la discusión de las implicaciones biológicas y evolutivas de los resultados se presentan en la Sección 1.1 O y en el artículo incluido al final de la tesis (Anexo l). 1.5 Una medida adecuada del uso de codones que refleje traducibilidadEvaluar el nivel de UC no es trivial porque existe más de una alternativa para hacerlo, en todos los casos se requiere de un modelo para cuantific.ar, comparar e interpretar preferencias de codones sinónimos. Los supuestos que conforman la columna vertebral de las metodologías actuales surgieron durante la era pre- genómica y, aunque evidentemente razonables en su momento, datos recientes sugieren que fueron producto tanto de la escasez de datos como de una sobreinterpretación del conjunto limitado de evidencias experimentales disponibles en ese tiempo; el Capítulo II hace una revisión detallada de este problema, justificando Ja necesidad de desarrollar una nueva medida de UC que refleje de manera más adecuada la relación entre la composición de codones y la eficiencia de la traducción. Los métodos más populares para estudiar el UC, no toman en cuenta la composición de aminoácidos, ni los codones que codifican para señales de paro, metionina y triptófano, debido a que se asume implí.citamente, primero, que la composición de aminoácidos está más comprometida con la función que con el proceso traducción y por lo tanto su contribución es poca o nula a Ja eficiencia de la traducción8 (traducibilidad) en comparación al UC. Segundo, que estos codones no son informativos en cuanto al proceso de traducción --o bien no codifican para ~ La rapidez con la que el ribosoma traduce un RNA mensajero una vez que se ha tomado en cuenta la estabi lidad del mRNA. Normalmente se mide como el número de proteínas traducidas a partir de un mRNA. CCG- UNAM 23 JUNI02005 CAPITULO 1 UNA M EDIDA DE UC Y TRADUCIBILIDA D aminoácidos o no tienen codones sinónimos que compitan por una especie particular de tRNA. Sin embargo, se han reportado evidencias apoyando la noción de que el uso de aminoácidos sí tiene un impacto considerable en la traducibilidad de los genes. Por ejemplo, se ha observado que la composición de aminoácidos esta relacionada significativamente con el nivel de expresión [93] , y que existe una tendencia a utilizar aminoácidos cuya biosíntesis es menos costosa, en términos energéticos, en genes que exhiben correlaciones UC-tRNA elevadas [94]. Es necesario aclarar que los codones para metionina y triptófano son traducidos por tRNAs que pueden estar en concentraciones mayores, o menores, que otros tRNAs traduciendo aminoácidos con varios codones sinónimos, y por lo tanto su contribución a la traducibilidad no es despreciable (ver Capítulo Ll , Secciones 2.5 , 2.6 y 2.7). Además, todos los genomas muestran una marcada preferencia por alb'Uno de los codones de paro; es posible que se deba a una estrategia para minimizar los costos de errores en la terminación de la traducción (95], incrementando corno consecuencia las tasas de traducción porgue la tasa de producción de proteína, a partir de mRNAs de un cierto tipo, es igual a la tasa de terminación de la traducción de esos mensajeros [96]. El sesgo en uso de codones de paro correlaciona bien con el hecho de que, en procariotes, los factores de terminación de la traducción reconocen estos codones con distintas afinidades [97). También se ha propuesto que, tanto en procariotes como eucariotes, hay señales conservadas al final de los genes que pueden promover una terminación eficiente de la traducción, ya sea en la forma de tetra- núcleotidos [98, 99] o bien como interacciones directas entre el factor de terminación y el último peptidil-tRNA SertPhe [ 100]. Inclusive, en genes contiguos el sesgo en codones de paro también podría estar relacionado con presiones selectivas por evitar estructuras secundarias en los puntos donde termina un gene y empieza el otro [ l O l]. Se deja para el Capítulo 11 la comparación y discusión completa de los problemas asociados a las metodologías actuales que evalúan el UC. Por el momento es suficiente decir que una medida más adecuada de traducibilidad debe tomar en cuenta las abundancias de todos los codones, sean degenerados o no, y la contribución de la composición de aminoácidos; entre más un gene utilice los codones más abundantes, mayor será su correlación con la disponibilidad de tRNAs, indicando que será traducido con mayor eficiencia. Debido al conjunto de evidencias, expuestas en el párrafo anterior, indicando que el uso de aminoácidos más los codones que codifican para sefiales de paro, metionina y triptofano están relacionados con la traducibilidad de los genes, se dise1io el Índice de Riqueza de Codones (CRI CCG-UNAM 24 JUNIO 2005 CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD por sus siglas en inglés Codon Richness lndex) donde se toman en cuenta las frecuencias de los 64 codones para cuantificar el grado en que genes individuales utilizan los codones más abundantes en un genoma referencia (ver Sección 1.5.1). Si en general el UC es homogéneo como lo dicta la hipótesis del genoma (22], el sesgo de UC correlaciona con las abundancias de tRNA (23], las abundancias de aminoácidos influyen en la eficiencia de la traducción [93, 94] y la célula debe expresar todos sus genes a niveles adecuados para sobrevivir, entonces es posible interpretar al CRI como una medida de traducibilidad dado que toma en cuenta todos estos factores. El Capítulo 11, Sección 2.6, presenta la comparación del CRI con otros índices y muestra como genes con alto CRl correlacionan mejor con las concentraciones de tRNA que los genes conocidos o predichos (por otros índices de UC) como altamente expresados; también se analizan otras evidencias que respaldan esta interpretación. 1.5.1 El índice de riqueza de codones (CRI) En la sección l .5 se dieron argumentos biológicos para exponer algw10s problemas con las metodologías actuales que evalúan el uso de codones, y en el Capítulo JI, Sección 2.6.2, se exponen las razones técnicas para no utilizar el índice estándar de uso de codones CAi (por sus siglas en ingles Codon Adapta/ion lndex [30]). Sea Ga.i el gene i en el genoma a, n0 .1(c) el número de veces que el codon e aparece en el gene Ga.i, y La.i la longitud en codones (incluyendo el codón de término) del gene G0 J, esto es 64 La.i = 2: n11,¡(c) . La frecuencia relativa, qa,;(c), del codón e en el gene G0 ,; normalizada por La.i es ... , d fi 'd ( n .(e) . ~ ) entonces e m1 a corno q1,.1 e)= -r:-- (se tiene que LJ q,,,1(c = 1 ). tt .i c-• I Ante el evento potencial de una transferencia horizontal del gene Ga.i al genoma b, es posible estimar si el UC de Ga.i es compatible a priori con el UC (o nuevo contexto genómico) del genoma receptor b. En términos más precisos, se trata de cuantificar el grado en que el gene G0 ,; usa los codones más abundantes de b. La frecuencia o abundancia genómica de cada codón e en el genoma b se puede interpretar como la probabilidad de encontrar ese codón en el conjunto total CCG- UNAM 25 JUNI02005 CAPITULO 1 UNA MEDIDA DE UC Y TRADUCIBILIDAD de genes del genoma b,pb(c), y se calcula como pb(c) = :b(c) , donde Nb(c) es el número total "'¿ Nb(j) j - 1 64 de veces que el codón e aparece en el genoma b (se cumple la condición "'¿p11 (c) = 1). c- 1 Considerando a Pb(c) como el peso o contribución del codon e a la distribución genómica de b, se puede ponderar en qué medida un gene extranjero Ga.i cualquiera utiliza cada uno de los 64 codones del genoma receptor b. Definimos entonces el CRI del gene Ga.i estimado con base en las frecuencias de codones del genoma b como: 64 CRI¡,(Gª) = "'¿ p¡,(C)*qa,;(c). (1.1) c• I El indice puede interpretarse como la utilidad esperada de una distribución particular de codones y constituye una función de ponderación local [ l 02], donde valores más grandes se obtienen cuando los codones más abundantes en el genoma b son utilizados por el gene G a.i· El indice refleja, entonces, como "ve" el genoma b la composición particular de codones de G a,i· Esto lo definimos como el "Potencial de Transferencia'' del gene
Compartir