Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
POSGRADO EN CIENCIAS BIOLÓGICAS FACULTAD DE CIENCIAS "Análisis evolutivo de retropseudogenes de las familias de proteínas de choque térmico HSP1 O y HSP60 en el genoma humano" T E s I s QUE PARA OBTENER EL GRADO ACADÉMICO DE MAESTRO EN CIENCIAS BIOLÓGICAS (B I O L O G í A E X P E R I M E N TAL) p R E s E N T A : ALFONSO JOSÉ VILCHIS PELUYERA FEBRERO. 2006 COORDINACiÓN UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. AGRADECIMIENTOS Quiero agradecer a la Coordinación del Posgrado en Ciencias Biológicas el apoyo económico recibido para asistir al V Taller Internacional de Bioinformática, realizado en el Centro de Ingeniería Genética y Bíotecnofogía de la Habana, Cuba, durante el mes de noviembre de 2003. Muy especialmente deseo agradecer a los integrantes de mi Comité Tutoral su apoyo académico y su amistad a lo largo de mis estudios de Maestría: al Dr. Víctor M. Valdés López, director de esta Tesis, por todo su apoyo, consejo y amistad a lo largo de tantos años. Al Dr. Luis Medrana González por sus múltiples consejos, enseñanzas y revisiones críticas a lo largo de este trabajo. También quiero agradecer al Dr. Félix Recillas Targa sus orientaciones y consejos recibidos durante el desarrollo de esta Tesis. Una larga amistad nos une. Es también un placer agradecer profundamente al Dr. Roberto Caria Ortega la revisión crítica de este trabajo así como sus consejos y amistad a lo largo de varios años. También quiero agradecer ampliamente al Dr. Pedro Miramontes Vidal sus observaciones y orientación respecto al contenido matemático y estadístico de esta Tesis. Todos ellos son también integrantes del jurado de mi examen de grado. Finalmente, expreso mi más profundo agradecimiento a la Institución que nos honra a todos los mexicanos y de la cual formo parte hace muchos años: la Universidad Nacional Autónoma de México. DEDICATORIA Deseo dedicar esta Tesis a muchas personas a las cuales quiero mucho y que dan significado a mi vida: A mi abuela Pastora, mi madre Julia, ya mi hermano Julio, a los que llevo siempre en mi pensamiento, aunque ya no los pueda tener a mi lado. A mi esposa Luz Domínguez y a nuestros hijos, Montserrat y Rodrigo, las tres razones más importantes de mi vida. A mi hermana Pastora y mi hermano Jesús, con todo mi cariño por toda una vida compartida. A mi cuñado, el Dr. Douglas Frankel , con todo mi agradecimiento por tantas cosas vívidas. A mi cuñada Luz, por tantos recuerdos. A mis sobrinos Alonso, Ana, Pablo, Víctor, Ximena y Julita, por orden de aparición en este planeta. A la familia de mi esposa, que es mi familia. Los lazos afectivos son, para mí, tan importantes como los lazos biológicos. A los Coordinadores del Laboratorio de Biología Molecular y Genómica de la Facultad de Ciencias de la UNAM, Dra. Luisa Alba Lois y Dr. Víctor Valdés López. Gracias por tantos años de amistad y de enseñanzas. A los integrantes del Laboratorio de Biología Molecular y Genómica de la Facultad de Ciencias de la UNAM, por su compañerismo y amistad: M. en C. Beatriz Rodarte, M. en 1. B. B. Claudia Segal y a la bióloga en ciemes Bibiana Rodríguez. Ellas saben que entre el Power Point, Excell y yo hay algo personal. Por último, quiero finalizar esta página de afectos, haciendo mías las últimas palabras que, en su lecho de muerte, pronunció el gran biólogo francés Jacques Monod: "Je cherche á comprendreD • Indice Introducción Una estrategia para observar el pasado Metodología Resultados y discusión Conclusiones y perspectivas Referencias Apéndice RelUMEN En el geooma humano, el 2% de su extensión conesponde a secuencias codiflcantes (genes), mientras que el 98% restante lo constituyen secuencias de diversa índole, principalmente de tipo repetitivo. Entre estas secuencias eoconItamos a los llamados reIropseu:Jogeoes, copias no funcionales de genes que se generan a partir de RNA mensajeros, y mediante ta acción de la enzima transaiptasa reversa, dan origen a cDNAs; éstos se insertan en el genoma a ITavés de la acción de una enzima de tipo endonudeasa. La transctiptasa reversa y la endonudeasa son codifocadas por elementos genéticos repetitivos denominados UNE (Long Interspersed Repetitive Elements). Estas retrocopias de cONA carecen de promotores y de intrones, razón por la cual desde su inserción en el genoma pierden su capacidad funcional. Una condición básica es que los genes que den Ofigeo a retropseudogenes se expresen en células de la línea germinal. Como resuttado de lo anterior, estas sea.Jeflcias evolucionan de un modo neutral, siendo su tasa de sustitución de nudeótidos de las más altas registradas. La probabilidad de retroinseftión es función de la concentración diferencial de RNA mensajeros, por lo que genes con alto nivel de expresión tendrán mayor probabilidad de generar un número mayor de retropseuclogenes. T amando esta última condición corno punto de partida, el objetivo de esta tesis consistió en estudiar el pallón evolutivo de expresión de dos dases de genes codiflCames de proteínas de choque térmico, HSPl0 Y HSP60, a partir de la correlación entre las edades de sus retropseudogenes y su frecuencia de fonnación. Utilizando la base de datos GeoBank correspondiente al genoma htn\aOO y empleando como sonda bioinformática a los cONA de los genes de HSP10 Y HSP60 y el programa de búsqueda BLASTn, se localizaron e identifICaron 26 retropseudogenes de HSPl0 Y 14 de HSP6O. También se recuperaron las regiones genómicas que enman::an a cada uno de Jos retropseudogenes. analizándose los contextos genómicos en los cuales se ubican. Cerca del 50% de retropseudogenes se localizaron anidados en intrones, mientras que los restantes se localizaron en regiones intergénicas abundantes en e~ntos repetitivos SINE (Short Imerspersed Repetitiva Elernents) y UNE. Las retroinserciooes muestran ubicaciones al azar entre los diferentes cromosomas, aunque se obsewaron distintos tipos de restricciones. Las distancias genéticas se obtuvieron a partir de los alineamientos pareados de cada retropseudoge<1 con el RNA mensajero del homólogo funcionai, aJalltificándose su grado de divergencia. Posterionnente se llevó a cabo una daladón, utilizando el reloj molecular propuesto para estas secuencias no codificantes. Los resultados obtenidos muestran que para el caso de los retropseudogenes de HSP6O, su formación es cercanamente homogénea a través del tiempo. mostrando, por parte del gen de HSP60, un patrón de expresión genético aproximadamente constante en lérminos evolutivos. Por el con/rario, la formación de los retropseudogenes de HSPIO mostró una distribución temporal birnodal, indicando dos momentos evolutivos en los cuaJes aumeo!ó la expresión del gen de HSP10. Uno de estos momentos coincide oon un aumento en la formación de muchos otros retropseudogenes en el geooma humano así como de otras secuencias transponibles, tales como las secuencias repetitivas ALU. Por otra parte, ambos momentos en la formación de retropseudogeoes de HSP10 coinciden con eventos de diferenciación fllogenética en el linaje de los primates. La discordancia entre los tiempos Y freaJencias de gene<ación de retropseudogenes de HSPIO Y HSP60 puede atribuirse al papel funcional dual propuesto para lapro/eína HSP10. La principal CO<1CkJs;ón de esta Iesis es que los retropse' odogeoes pueden selVÍr como eleme<>tos para visualizar los cambios en el patrón de expresión de genes a lo largo del tiempo, ayudando, posiblemente, a descifrar los eventos genéticos involucrados en la diferenciación filogenética entre homínidos. ANALISIS EVOLUTIVO DE RETROPSEUDOGENES DE LAS FAMILIAS DE PROTEÍNAS DE CHOQUE TÉRMICO HSP10 Y HSP60 EN EL GENOMA HUMANO. I - INTRODUCCIÓN 1) La paradoja del valor “C”.- Hacia la década de 1970 , se acumuló evidencia experimental de ue en los eucariontes, la cantidad de DNA propia de una especie (tamaño del genoma o valor C) y el grado de complejidad morfológica y fisiológica no mostraban algún tipo de correspondencia. Este hecho fue denominado “la paradoja del valor C” (Thomas,1971) y constituyó uno de los enigmas que impulsó el estudio del DNA desde el punto de vista evolutivo. Como un ejemplo de esta paradoja se puede señalar que Homo sapiens – con 3 x 109 de pares de bases (pb), tiene un tamaño de genoma 200 veces más pequeño que el de un protozoario, Ameba dubia, cuyo genoma contiene 6 x 1011 de pb (Li,1997). El grado de complejidad morfológica o fisiológica de un organismo es en realidad un término relativo y sujeto a sesgos interpretativos – de hecho, especies del mismo género pueden mostrar enormes variaciones en el valor de C, tal como el caso de Paramecium aurelia con 1.9 x 108 Kb (kilobases) y Paramecium caudata con 8.6 x 106 Kb (Sparrow,1972, Cavalier-Smith,1985, citados en: Graur y Li, 2000) mientras que, por otro lado, existen grupos como las aves en los que la variación en el tamaño de sus genomas es mínima (Primmer,1997) -, por lo que es más apropiado referir la paradoja del valor C a la carencia de relación entre la cantidad de DNA y la cantidad estimada de información genética (número de genes) presentes en una especie dada. Dicho en otras palabras, ¿porqué la cantidad de DNA en una especie es mucho mayor que el número estimado de genes? En 1968 Roy Britten y Dave Kohne, estudiando la cinética de reasociación del DNA obtenido de diferentes especies observaron que, en el caso de mamíferos, el perfil de reasociación mostraba tres fracciones: una fracción altamente repetitiva, una moderadamente repetitiva y una fracción de DNA no repetitivo; después se observó que esta última fracción estaba asociada, en parte, a la porción de eucromatina, es decir, la fracción transcripcionalmente activa del genoma, mientras que las fracciones repetitivas aparecían en las preparaciones cariológicas como bandas oscuras, correspondientes a la heterocromatina, es decir, la fracción transcripcionalmente inactiva (Graur y Li, 2000). A los datos anteriores se sumó el descubrimiento, a finales de la década de 1970, de segmentos intragénicos no codificantes en eucariontes – intrones –, los cuales, por su longitud y cantidad, harían una contribución significativa al contenido de DNA celular (Berget et al., 1977).Todo lo anterior señalaba que las fracciones no génicas eran las responsables de las variaciones en el tamaño de los genomas, sugiriéndose diferentes hipótesis para explicar la presencia de este DNA no codificante y tratar de ofrecer una posible solución a la paradoja del valor C. Entre estas hipótesis cabe mencionar tres principales: la hipótesis seleccionista, propuesta por Emile Zuckerkandl y, de manera independiente por Allan Wilson (King y Wilson,1975; Zuckerkandl,1976), sostiene que el DNA no génico tiene funciones regulatorias esenciales y es, por lo tanto, funcional y sujeto a selección. Por su parte, la hipótesis neutralista, defendida por Susumo Ohno (Ohno,1972), propone que la fracción no génica es genética y fisiológicamente inerte, sin valor adaptativo ni selectivo, es decir, se considera un producto evolutivo neutral. Fue precisamente Ohno quien acuñó el término de “DNA basura” para explicar, desde un punto de vista neutralista, la presencia de DNA en exceso en organismos eucariontes. La tercer hipótesis, propuesta por Leslie Orgel y Francis Crick (Orgel y Crick, 1980), y en forma independiente por Rusell Doolittle y Carmen Sapienza (Doolittle y Sapienza, 1980) , plantea que el DNA no codificante está sujeto a selección intragenómica, debido a su alta tasa de reproducción en relación con el resto de regiones codificantes. Este DNA es denominado “DNA egoísta” y la diferencia con el “DNA basura” consiste en que el primero se perpetúa por un proceso dinámico de transposición duplicativa, mientras que el concepto de “DNA basura” involucra una carga mantenida en forma pasiva, siendo perpetuado por deriva génica, es decir, mantenido por evolución neutral. 2) Secuencias repetitivas.- Independientemente de la validez de una u otra hipótesis, en los pasados 25 años se fueron acumulando observaciones sobre las características de las secuencias no codificantes de los genomas eucariontes, perfilándose un panorama global involucrando a los dos siguientes tipos de secuencias: 1) Secuencias repetitivas de diversas longitudes y composición de nucleótidos, ubicadas como repeticiones en tandem (consecutivas) o de forma dispersa; estas secuencias pueden estar repetidas cientos, miles o millones de veces en el genoma eucarionte, dependiendo del tipo de secuencia; 2) Segmentos intergénicos de DNA no repetitivo. Estos dos tipos de secuencias conforman la gran extensión del genoma no codificante en eucariontes, el cual puede llegar a tener una extensión de hasta el 60% del genoma en mamíferos y hasta el 80% en plantas (Flavell, 1986). Una conclusión empezó a emerger de los datos anteriores: la paradoja del valor C se debe al aumento o disminución de elementos repetidos en los genomas, aunque la causa o causas de estos cambios del valor C en los diferentes linajes aún no han sido resueltas (Hartl, 2000). Lo anterior significa que, a pesar del impresionante incremento en la información que en un nivel descriptivo tenemos de los contenidos de diversos genomas, aun permanece sin ser resuelta, de manera explicativa, la paradoja del valor C. De hecho, esta paradoja es el motor de todo un programa de investigación más amplio en biología: la evolución del tamaño del genoma. Actualmente se reconoce que la mayor parte de las secuencias repetitivas en el genoma humano se derivan de elementos móviles transponibles, estimándose que el 45% del genoma pertenece a esta clase (Figura 1) (International Human Genome Sequencing Consortium, 2001). En términos generales, las repeticiones se pueden agrupar en cinco clases: 1) repeticiones derivadas de transposones, también referidas como secuencias interdispersas, 2) retrocopias inactivas de genes, denominadas retropseudogenes o pseudogenes procesados (ver abajo), 3) repeticiones directas simples (A)n, (CA)n o (CGG)n, 4) duplicaciones de segmentos del genoma de 10 Kb a 300 kb y 5) secuencias repetidas en tandem, presentes en centrómeros, telómeros, brazos cortos de cromosomas acrocéntricos y grupos de genes ribosomales (International Human Genome Sequencing Consortium, 2001). En la siguiente sección centraremos nuestra atención en los procesos de retrotransposición de RNA mensajeros en el genoma, los cuales generan, entre otros retrotransposones, a los llamados retropseudogenes, esto es, copias no funcionales de genes. FIGURA 1.- En este esquema se indican los distintos tipos de secuencias que comprenden el genoma humano. Las secuencias repetitivas abarcan aproximadamente el 45% del genoma. Los genes (regiones codificantes e intrones) ocupan aproximadamente el 22% del contenido total de DNA. NO REPETITIV 33% REPETITIV 45% INTRONE 20% EXONE 2% PORCENTAJE DE DNA EN EL GENOMA - 3) Retrotransposición y la Dinámica del Genoma.- Aunque el descubrimiento de los elementos genéticos móvilesen el maíz por Bárbara McClintock data de la década de 1940 (Confort, 2001), su confirmación en bacterias no se realizó sino hasta 1967 por Robert Shapiro y Sankar Adhya al descubrir elementos genéticos de DNA – secuencias de inserción - que causaban mutaciones polares en operones al movilizarse de un lugar a otro en el genoma bacteriano (Confort, 2001). A partir de estos datos se comenzó a visualizar a los genomas como entidades dinámicas, en las cuales ciertas secuencias podían desplazarse e integrarse en diferentes sitios cromosómicos. En 1970, en el contexto de la investigación con virus tumorales de RNA, Howard Temin y Satoshi Mizutani, descubren, junto con David Baltimore, de manera independiente, una DNA polimerasa dependiente de RNA, la cual fue bautizada como transcriptasa reversa. Esta enzima utiliza como sustrato RNA de cadena sencilla y lo transcribe a DNA de doble cadena, generando una copia que puede insertarse en el genoma y permanecer en él de manera indefinida (Temin y Baltimore,1972). El estudio de la actividad de esta enzima y su papel biológico dio inicio a la expansión del conocimiento sobre la interacción, a nivel molecular, de virus y células eucariontes y, en paralelo, a la investigación de los procesos de retrotranscripción (flujo de RNA a DNA) y de retrotransposición (inserción de DNA, derivado de RNA, en el genoma) (Coffin, Hughes y Varmus,1997). El descubrimiento de secuencias de tipo no viral generadas por mecanismos de retrotransposición, en los primeros años de la década de 1980 (Weiner, 2002), abrió un nuevo campo en el estudio de la dinámica de los genomas y los rearreglos que sufren a lo largo de su historia evolutiva. En los mamíferos, la mayoría de los elementos transponibles se pueden dividir en cuatro tipos o familias: los elementos LINE (long interspersed nuclear elements), los cuales ocupan el 21% del genoma humano, los elementos SINE (short interspersed elements), presentes en el 13% de nuestro genoma, los retrotransposones LTR (long terminal repeats), que ocupan el 8% y los transposones de DNA, los cuales abarcan el 3% del genoma humano, representando, en conjunto, cerca de la mitad (45%) de la extensión del genoma humano (International Human Genome Sequencing Consortium, 2001). Los tres primeros se transponen a través de intermediarios de RNA y el último se transpone vía DNA. 4) Retropseudogenes.- Como un caso particular de retroelementos encontramos a los retropseudogenes, copias no funcionales de genes que se originan por un mecanismo de retrotranscripción a partir de RNA mensajero - dando lugar a cDNA de doble cadena - y a su posterior retransposición enzimática al genoma mediante el empleo de la maquinaria enzimática codificada por secuencias LINE. Estos elementos, por derivarse de RNA mensajeros procesados, no contienen intrones ni promotores ni secuencias reguladoras, por lo que desde el momento de su inserción genómica se consideran copias no funcionales del gen (Figura 2) (Gonςalves et al., 2000). El otro tipo de copias no funcionales en el genoma lo representan los pseudogenes, los cuales surgen como consecuencia de los procesos de duplicación génica y posterior disfuncionalización (Mighell et al., 2000). La maquinaria enzimática responsable de la inserción de retropseudogenes en el genoma es codificada por los elementos LINE, y consta de un péptido con dominios de transcriptasa reversa y de endonucleasa; se ha evidenciado experimentalmente que es necesaria la actividad de una tercera proteína que se une a RNA – también codificada por elementos LINE – de la cual no se conoce su función CUADRO 1 GENES CON MAYOR NUMERO DE RETROPSEUDOGENES PROTEINAS RIBOSOMALES PROTEINAS DE UNION A DNA PROTEINAS DE UNION A RNA OXIDO – REDUCTASAS FACTORES DE TRANSCRIPCION PROTEINAS RECEPTORAS DE MEMBRANA TRANSFERASAS HIDROLASAS PROTEINAS DE CHOQUE TERMICO (Malik et al.,1999; Esnault et al., 2000; Weiner, 2002). Extrapolando los datos del análisis genómico del cromosoma humano 22, se ha calculado que los retropseudogenes representan el 0.5% del genoma humano, es decir, 15 millones de pares de bases (Dunham et al., 2000). Por su parte, los elementos LINE son los retrotransposones que ocupan mayor extensión en el genoma humano, representando el 21% del genoma. Se postula que estos elementos son los responsables de la mayor parte de los procesos de transcripción reversa en el genoma humano y, por lo tanto, de la creación de retropseudogenes (International Human Genome Sequencing Consortium, 2001). Para estudiar la aparición y posterior evolución de los retropseudogenes en el genoma humano, es necesario, como punto de partida, analizar la dinámica de formación de estos elementos en el contexto de los procesos de a) expresión génica (transcripción), b) retrotranscripción y c) inserción genómica (retrotransposición). La concentración de RNA mensajero de un gen dado está en función del nivel de transcripción así como del tiempo de permanencia del mensajero en la célula. De esta manera, genes con un alto nivel de expresión estarán representados con una mayor abundancia de RNA mensajeros. Por otra parte, solamente los genes que se expresen en las células de la línea germinal (células que darán origen a óvulos y espermatozoides) podrán dar lugar a copias que se transmitan hereditariamente; de esta manera, sólo los RNA mensajeros presentes en células germinales pueden servir como sustrato para que la enzima transcriptasa reversa genere copias de DNA a partir de estos mensajeros. Los genes con mayor representación de retropseudogenes en las bases de datos se enlistan en el Cuadro 1. En esta lista se observa que los genes denominados de expresión constitutiva (housekeeping, en inglés) – entre ellos, los ADN Gen funcional Promotor ARNm Transcripción y procesamiento poliA Transcriptasa reversa cdna poliA Retroinserción en el genoma Retropseudogen poliA FORMACION DE RETROPSEUDOGENES -- genes codificantes de enzimas - tienden a dejar un número mayor de copias como retropseudogenes, explicándose esto por el nivel de expresión contínua de este tipo de genes y, por lo tanto, por la mayor abundancia de sus RNA mensajeros (Figura 3). Una vez sintetizados los RNA mensajeros, éstos se someten al mecanismo de procesamiento o edición (splicing), mediante el cual los intrones se remueven, quedando empalmados los exones y las secuencias 5´ y 3´ no traducidas en el mensajero maduro. Entre estos RNA mensajeros, ocasionalmente alguno se toma como sustrato por la reverso transcriptasa, la cual hará una copia de DNA de doble cadena susceptible de insertarse en el genoma (Mighell et al., 2000). ¿De donde proviene ésta reverso transcriptasa? Desde la década de 1970, con el descubrimiento de la transcriptasa reversa en viriones retrovirales, se inició la búsqueda de esta enzima en células no infectadas por virus, siendo hasta 1986 cuando el grupo de Hattori et al, identificaron, en elementos repetitivos de tipo LINE , una secuencia muy parecida a la que codifica para la transcriptasa reversa presente en retrovirus y en la telomerasa (Hattori et al.,1986; Greider y Blackburn, 1987; Greider, 1989; Lingner et al., 1997). A partir de este descubrimiento, el mecanismo replicativo y de retrotransposición de los elementos LINE en los genomas de mamíferos comenzó a ser aclarado, y actualmente se tiene evidencia experimental de que la maquinaria enzimática mediada por los elementos repetitivos LINE 1 está codificada por dos ORFs, ORF1 y ORF 2, el primero de los cuales genera una proteína de unión a DNA, mientras que el segundo Orf muestra una función dual, codificando para la reverso transcriptasa y una endonucleasa (Kajikawa y Okada, 2002). Estas enzimas son las responsablesde la movilización, por retrotransposición, de elementos transponibles en el genoma humano, tales como las secuencias SINE (Alu, Mir y Mir3), LINE (1, 2 y 3) y, ocasionalmente, también retrotranscribiendo e insertando RNA mensajeros de otros genes en el genoma, los cuales originarán retrogenes y retropseudogenes (Esnault et al., 2000; International Human Genome Sequencing Consortium, 2001). En el siguiente apartado se formula una estrategia para estudiar la formación de retropseudogenes a través del tiempo en el genoma humano. GEN C GEN B Gen A INSERCIÓN DE COPIAS EN EL GENOMA RETROTRANSCRIPCION TRANSCRIPCION FIGURA 3.- Dinámica de retrotransposición de RNA mensajeros en el genoma humano. Se ejemplifican 3 genes, A, B y C, cada uno con distintos niveles de expresión. En este ejemplo, el gen A (naranja) tiene mayor nivel de expresión que los otros 2 genes y por lo tanto, mayor concentración de RNA j l b bilid d d l II.- UNA ESTRATEGIA PARA OBSERVAR EL PASADO La dinámica de retrotranscripción y retroinserción de RNA mensajeros a lo largo del tiempo da por resultado la aparición de múltiples copias no funcionales de genes, las cuales se pueden definir como familias de parálogos no funcionales de genes activos. El número de copias que constituyen a estas familias de pseudogenes procesados varía de un gen a otro habiéndose observado que genes con un nivel elevado de expresión y de extensión reducida tienen una mayor representación de retropseudogenes (Gonςalves et al., 2000; Zhang et al., 2003). Las múltiples retroinserciones a lo largo del tiempo - a partir de un mismo tipo de RNA mensajero – darán origen a secuencias con distintos grados de divergencia respecto al gen funcional del cual derivan, conformando una familia de retropseudogenes cuyo porcentaje de divergencia puede ser convertido en una datación - expresada en millones de años -, y utilizando como estimador temporal el reloj molecular (Kimura,1981; Li et al. ,1981; Friedberg y Rhoads, 2000; Graur y Li, 2000). Una pregunta surge de lo anterior: ¿Se puede correlacionar la divergencia de secuencias con la estimación temporal o datación utilizando el reloj molecular? Para contestar a esta pregunta lo primero que debemos hacer es analizar la manera en que las copias cambian sus secuencias respecto a la original, y cómo estos cambios pueden considerarse proporcionales al tiempo transcurrido desde su formación. Desde los estudios pioneros de E. Zuckerkandl y Linus Pauling (Zuckerkandl,1976) comparando las diferencias en aminoácidos entre proteínas del mismo tipo en diferentes linajes comenzó a surgir la idea de que la tasa de cambio – sustituciones de aminoácidos – para una proteína dada en diferentes linajes era aproximadamente constante a lo largo del tiempo. De manera más específica, ellos propusieron que existe una proporcionalidad estadística entre el tiempo transcurrido a partir de la existencia de un ancestro común de dos proteínas homólogas contemporáneas y el número de diferencias de aminoácidos entre sus secuencias (Morgan,1998). Los autores denominaron a esta propuesta la hipótesis del “reloj molecular evolutivo”, denotando con esto la constancia aproximada en la tasa de cambio en una proteína. Este reloj no es metronómico sino estocástico, significando esto que la probabilidad de cambio en una secuencia es constante a lo largo del tiempo. Este marco conceptual incluso se ha aplicado a la comparación entre genomas, midiendo la distancia evolutiva entre ellos a través de la cuantificación del número de sustituciones de aminoácidos por sitio entre genes ortólogos – homólogos por especiación - que son compartidos entre los genomas comparados (Huynen y Bork, 1998). Cada gen o proteína tendrá una probabilidad de cambio propia, es decir, diferentes proteínas o genes cambiarán a tasas distintas, pero todas las proteínas o genes marcarán los mismos eventos evolutivos (Ayala, 1982; 1997). Esta propuesta fue la base conceptual para la fundamentación de la teoría neutral de la evolución molecular propuesta en 1968 por Motoo Kimura (Kimura y Ohta, 1973) y de manera independiente por Jack Lester King y Thomas Jukes (1969). Esta teoría propone que, a nivel molecular, la mayoría de los cambios no están relacionados con selección positiva sino por deriva génica al azar de alelos mutantes que son selectivamente neutros. La teoría no excluye el papel de la selección natural, la cual incidiría sobre las mutaciones deletéreas – por ejemplo aquéllas que inciden sobre regiones funcionales de una proteína como los sitios activos o los sitios de unión a otras moléculas - pero mantiene que la mayoría de mutaciones no deletéreas son neutras, explicando de esta manera la existencia de polimorfismos, a nivel molecular, en una población (Graur y Li, 2000). Un ejemplo numérico ilustrará lo anterior : En la gran mayoría de genes estudiados, la tasa de sustitución en sitios sinónimos (cambios en los codones que no alteran el aminoácido) y en secuencias no codificantes es del orden de 1.5x10−9 a 3.51x10−9 sustituciones sinónimas por sitio por año, según el tipo de secuencia no codificante analizada, mientras que la tasa de sustituciones no sinónimas (cambios en los codones que sustituyen un aminoácido por otro) es del orden de 0.74x10−9 sustituciones no sinónimas por sitio por año, es decir, de dos a cinco veces menor que las sustituciones sinónimas. Esto refleja las restricciones que la selección purificadora (negativa) impone sobre los cambios en la secuencia – cambios que posiblemente afectan regiones funcionales de la molécula - y, al mismo tiempo, la tolerancia en la acumulación de mutaciones neutras en codones sinónimos (en una proporción de 5:1), los cuales, por definición, no tienen efectos funcionales en la proteína (Graur y Li, 2000). Ahora bien, ¿qué ocurre con las secuencias no codificantes y sin función reguladora? Estas secuencias, de las cuales los intrones, pseudogenes y retropseudogenes son un ejemplo, al no estar sujetas a restricciones funcionales, se espera que muestren tasas de cambio similares a las de las sustituciones sinónimas en regiones codificantes; sin embargo, la comparación de las tasas promedio de cambio entre sustituciones sinónimas y sustituciones en pseudogenes muestra que éstos tienen una mayor tasa de sustitución que las observadas en sitios sinónimos, indicando que incluso las mutaciones sinónimas están sujetas a algún tipo de selección, posiblemente en relación con la utilización preferencial de codones; de esta manera, aunque las mutaciones sinónimas no generen un cambio de aminoácido a nivel de la proteína, un cambio de un codón preferencialmente utilizado por otro menos utilizado podría alterar la velocidad de traducción y, por lo tanto, la concentración de la proteína (Li et al., 1981; Li,1997). Desde el estudio pionero de Li y colaboradores en 1981, tomando a los pseudogenes de globinas de humano, ratón y conejo como paradigmas de evolución neutral y calculando sus tiempos de aparición (Li et al. ,1981), pocos han sido los estudios dedicados al análisis evolutivo de estos elementos, destacando el trabajo de Li y Tanimura (1987) demostrando, mediante el análisis de pseudogenes, que el reloj molecular corre más lento en humanos que en simios así como el estudio de Roy Ophir et al., (1999) utilizando retropseudogenes humanos y de ratón para estimar la intensidad de la selección purificadora (negativa) en genes codificantes de proteínas. En esta dirección destaca también el estudio de Felix Friedberg y Allen Rhoads (2000) en el que verifican la existencia de retropseudogenes en diferentes primates correlacionándolos con la edad estimada de la divergencia evolutiva de diferentes linajes de primates. Por otra parte, la secuenciacióndel genoma humano y el establecimiento de diferentes bases de datos derivadas de la información obtenida (http://www.ncbi.nlm.nih.gov) ha permitido la búsqueda y el análisis de las secuencias de retropseudogenes presentes en el genoma, habiéndose formado una base de datos exclusiva de pseudogenes y retropseudogenes integrada por más de 8,000 secuencias de retropseudogenes y 3,000 de pseudogenes (Zhang et al., 2003). Esta base de datos es de libre acceso a través de Internet y es operada por el grupo de Mark Gerstein, de la Universidad de Yale (http://www.pseudogenes.org). Utilizando esta base de datos y las que contienen secuencias expresadas, Refseq mRNAs, Unigenes Consensus y dbEST (http://www.ncbi.nlm.nih.gov), el grupo de Yale demostró la presencia de más de 200 retropseudogenes humanos con capacidad de transcripción,, es decir, se identificaron RNA mensajeros correspondientes a estos retrogenes; de éstos, aproximadamente la mitad se reinsertaron en posiciones cercanas a regiones promotoras en ubicación 5´ contiguas a genes (regiones reguladoras), mientras que los restantes se ubicaron en regiones intergénicas, captando presuntas secuencias de promotores crípticos no identificados pero con capacidad transcripcional. La posible función de estos transcritos se desconoce, aunque se ha propuesto que pudieran estar involucrados en el silenciamiento de sus genes parálogos funcionales mediante interacciones RNA - DNA (Harrison et al., 2005). Como se desprende de lo mencionado anteriormente, los pseudogenes y retropseudogenes se han tomado como modelos de evolución neutral por parte de varios autores. Además, tomando en consideración el evento inicial por el cual se generan los retropseudogenes – genes con mayor nivel de expresión tenderán a generar mayor número de retropseudogenes -, éstos pueden también ser utilizados como indicadores del patrón de expresión de genes a lo largo del tiempo, siendo esta característica el marco conceptual básico del presente estudio. Los genes HSP10 y HSP60, pertenecientes a la familia de genes codificantes de proteínas de choque térmico (heat shock protein o HSP por sus siglas en inglés) fueron escogidos para nuestro análisis por las siguientes razones: a) Son genes de expresión constitutiva, por lo que la abundancia de sus RNA mensajeros favorece la probabilidad de retroinserción. b) Se expresan en la línea germinal, condición necesaria para la fijación de los retropseudogenes en el genoma. c) Son genes muy conservados evolutivamente, lo que favorece su comparación en diferentes linajes y d) Son genes de copia única. Las características anteriores son compartidas por la mayoría de genes que dan lugar a retropseudogenes, incluyéndose también la pequeña longitud de los cDNAs y el bajo contenido en GC como características de los genes que generan retropseudogenes (Gonςalves et al., 2000). Con excepción del bajo contenido de GC, todas las otras características parecen favorecer la probabilidad de retrotransposición a partir de RNA mensajeros; respecto al bajo contenido en GC que muestran la mayoría de los genes que generan retropseudogenes, se ha propuesto que esto es debido a la mayor eficiencia de la reverso transcriptasa codificada por elementos LINE 1 – los cuales muestran un bajo contenido en GC – al retrotranscribir RNA mensajeros también con un contenido bajo en GC (Gonςalves et al., 2000 ). Las proteínas de choque térmico, también denominadas chaperonas moleculares o asistentes de plegamiento, son moléculas implicadas en el plegamiento correcto de polipéptidos. Actualmente se conocen diversas familias de chaperonas, siendo la familia de las chaperoninas HSP10 y HSP60 de las mejor caracterizadas (Twyman, 1998). HSP10, con peso molecular de 10kd, conforma un oligómero de 7 subunidades idénticas mientras que HSP60 forma un complejo de dos estructuras anulares invertidas, cada una con 7 subunidades idénticas. La asociación entre HSP10 y HSP60 genera un complejo proteico en forma de cilindro dentro del cual se lleva a cabo el plegamiento correcto de polipéptidos con la participación de ATP (Twyman,1998). Además de su papel como cochaperona de HSP60, se ha demostrado que la proteína HSP10 también está involucrada en funciones inmunoreguladoras en las etapas tempranas del embarazo y en los procesos de regulación de la proliferación celular (Cavanagh,1996; Morton,1998). En el genoma humano, los genes de HSP10 y HSP60 son de copia única y de expresión constitutiva y se localizan contiguos en la región 2q33.1 del brazo largo del cromosoma humano 2. El gen HSP10 tiene una longitud de 3060 pb y consta de cuatro exones, dando lugar a una proteína de 102 aminoácidos; por su parte, el gen HSP60 tiene una longitud de 13,690 pb con doce exones y codifica para una proteína de 573 aminoácidos (http://www.ncbi.nlm.nih.gov). Estos dos genes comparten un promotor bidireccional de 656 pb con un contenido de GC de 68%. Una característica interesante de este promotor es el hecho de que no contiene la caja TATA (caja de Hogness). Este tipo de promotores - carentes de secuencias consenso TATA – frecuentemente dirigen la expresión de genes constitutivos. Asimismo, se ha demostrado que este promotor bidireccional contiene una secuencia TGCAATC reconocida por el factor de transcripción CHOP e involucrado en la regulación positiva de genes de estrés, así como elementos HSE y SP1 de respuesta a choque térmico (Hansen et al., 2003). La actividad de este promotor se ha evaluado en ausencia y en presencia de condiciones de choque térmico en cultivo de células humanas: En ausencia de estrés térmico, la expresión del gen HSP60 es aproximadamente dos veces mayor que el de HSP10, mientras que en condiciones de estrés (430 C por 3hrs), el nivel de expresión de ambos genes aumenta aproximadamente 12 veces, conservándose la diferencia del doble de expresión de HSP60 respecto a HSP10 (Hansen et al., 2003). III.- METODOLOGÍA Para realizar la búsqueda de las secuencias parálogas no funcionales (retropseudogenes) de los genes de HSP10 y HSP60 genes en el genoma humano, se utilizó la base de datos pública del GenBank correspondiente al Genoma Humano (Human Genome Resources, actualización 31.35d) y administrada por el National Centre for Biotechnology Information – NCBI – de los Institutos Nacionales de Salud en Bethesda, Maryland, USA (http://www.ncbi.nlm.nih.gov), así como la base de datos pública ENSEMBL correspondiente al Proyecto de Secuenciación del Genoma Humano (Human Genome Browser, actualización 31.35d), administrada por el Centro de Secuenciación Sanger, en Inglaterra (http://www.ensembl.org/Homo_sapiens/). Estas dos bases de datos públicas del genoma humano, junto con la reciente base de datos, también de acceso público, administrada por la Universidad de California en Santa Cruz (http://genome.ucsc.edu), representan las plataformas bioinformáticas de secuencias del genoma humano más completas en la actualidad. Para la identificación y recuperación de retropseudogenes en las bases de datos públicas se utilizó como sonda bioinformática el cDNA de los genes de HSP10 y HSP60 recuperados de la base de datos del GenBank – Human Genome Resources versión 31.35d – empleándose el algoritmo de búsqueda BLAST (Basic Local Alignment Search Tool) en su modalidad BLASTn (secuencias de nucleótidos). Este algoritmo utiliza un programa heurístico, lo cual significa que la búsqueda se realiza mediante aproximaciones sucesivas basadas en la comparación de secuencias y posteriores alineamientos locales a partir de un número mínimo de nucleótidos – word size o longitud de palabra - entre la secuencia que el usuario introduce y las secuencias de la base de datos GenBank correspondientes al genoma humano (http://www.ncbi.nlm.nih.gov). Al comparar dos secuencias,el algoritmo puede hacer distintos alineamientos locales de diferente longitud. El número mínimo de nucleótidos que BLASTn compara entre dos secuencias de n longitud es de 7, y si al alinear las dos secuencias encuentra al menos 7 identidades, el programa extiende la búsqueda a ambos lados de esta región local para ampliar el alineamiento; estos nuevos alineamientos por extensión no necesariamente deben tener 100% de identidad o puntuación óptima. El usuario debe determinar el valor umbral mínimo de puntuación – score threshold – con el fin de hacer más o menos rigurosa la búsqueda. La significancia estadística de los alineamientos producidos, esto es, el valor de confiabilidad en las secuencias recuperadas de la base de datos está dado por el valor de expectativa e – expect -, el cual por default es de 10 en BLASTn. Esto significa que 10 secuencias se alinearán por simple azar al realizar la búsqueda. En realidad, este valor de significancia está en función de los siguientes parámetros: a) Longitud de la palabra y de la secuencia de búsqueda. A mayor tamaño de la palabra y de la secuencia, menor probabilidad de recuperar secuencias espurias o por azar. b) Complejidad de la secuencia. Secuencias de baja complejidad en sí mismas o con regiones de baja complejidad, es decir, con un alto número de nucleótidos repetidos, tenderán a generar alineamientos altamente similares o idénticos con otras secuencias homopoliméricas de baja complejidad, sin que esto signifique que las secuencias alineadas guarden relación entre ellas. El algoritmo BLASTn tiene un filtro para la detección y ocultamiento de regiones de baja complejidad. c) Tamaño de la base de datos. Mientras más grande sea la base de datos, mayor será la probabilidad de recuperar secuencias por azar. Todo lo anterior indica que para llevar a cabo una búsqueda rigurosa con alta significancia estadística, los valores empíricos de e deberán situarse por debajo de 10-4, garantizando una mayor confiabilidad en las secuencias recuperadas. Empíricamente se ha observado que con valores menores de 10-5 prácticamente no aumenta el nivel de sensibilidad de la búsqueda, por lo que un valor de e de 10-5 produce resultados estadísticamente significativos (http://www.ncbi.nlm.nih.gov). Como una consecuencia de lo anterior, es necesario señalar que entre mayor sea el tiempo de divergencia, la similitud entre la secuencia de búsqueda o “query” y las presuntas secuencias homólogas será menor, por lo que el algoritmo BLASTn comenzará a recuperar mayor número de secuencias pero con menor índice de identidad y, en general, de menor extensión. Esto conlleva a la recuperación de secuencias sin verdadera relación biológica con la sonda de búsqueda. La confiabilidad estadística en estas secuencias será, por lo tanto, muy baja, razón por la cual el valor empírico de expectativa (expect) no puede aumentarse. Una vez identificadas y recuperadas las secuencias parálogas no funcionales de HSP10 y HSP60 por cromosoma, el siguiente paso consistió en analizar los contextos genómicos en los cuales se ubican los retropseudogenes; esto se realizó mediante la inspección de transectos genómicos de 1,000, 5,000, 10,000 y 50,000 pb flanqueando los extremos 5´y 3´de los retropseudogenes recuperados, utilizando la base de datos y los algoritmos de búsqueda contenidos en UCSC Genome Browser de la Universidad de California en Santa Cruz (http://genome.ucsc.edu). Este análisis contempló los siguientes puntos: a) Localización cromosómica. b) Coordenadas cromosómicas. c) Longitud de los retropseudogenes. d) Porcentaje de GC observado en el sitio de retroinserción. e) Contexto genómico (presencia de elementos Alu, SINE, LINE, secuencias de baja complejidad o ubicación en intrones). f) Distancia al gen más cercano. g) Distancia al exón más cercano (cuando la inserción del retropseudogen se ubicó en el interior de un intrón). Una vez obtenidas las secuencias de los retropseudogenes de HSP10 y HSP60 se procedió a compararlas con las secuencias de los genes funcionales mediante alineamientos pareados utilizando el programa bioinformático CLUSTAL W. En este estudio se utilizó el programa CLUSTAL W del Instituto Europeo de Bioinformática a través de la dirección electrónica (http://www.ebi.ac.uk/clustal/w/). Para cada alineamiento se cuantificó el número de sustituciones presentes en cada retropseudogen respecto al gen funcional, sin considerar las inserciones y deleciones – indels – presentes; la justificación para esto es el desconocimiento de si las longitudes de las inserciones o deleciones se deben a uno o a varios eventos mutacionales, esto es, no se puede decidir si, por ejemplo, una inserción de tres nucleótidos fue producto de un solo evento mutacional o si fue consecuencia de dos o de tres eventos de inserción independientes. A partir del número de sustituciones presentes en cada retropseudogen se calculó la distancia entre las dos secuencias utilizando la corrección de Jukes - Cantor para múltiples sustituciones en un solo sitio (Graur y Li, 2000). Este modelo se basa en la suposición de que la probabilidad de sustitución entre los cuatro nucleótidos es la misma, es decir, pondera por igual las transiciones – purinas por purinas o pirimidinas por pirimidinas – que las transversiones – purinas por pirimidinas o viceversa -. Como este modelo se basa en un solo tipo de sustitución se le ha denominado modelo de un parámetro, a diferencia del modelo de Kimura en el cual se pondera de manera diferente a las transiciones que a las transversiones, y por esta razón denominado modelo de dos parámetros. En la práctica se ha observado que cuando las secuencias comparadas no muestran un alto valor de divergencia – tal como ocurre entre secuencias muy relacionadas como son los retropseudogenes y su gen funcional – los dos modelos dan esencialmente las mismas estimaciones de distancia, prefiriéndose utilizar el modelo de Jukes – Cantor por ser matemáticamente más sencillo (Kimura,1980; Graur y Li, 2000). Después de que dos secuencias de nucleótidos comienzan a divergir una de otra, cada una de ellas comenzará a acumular sustituciones de manera independiente, siendo ésta la variable básica más utilizada en estudios de evolución molecular. La estimación primaria de divergencia deriva de la cuantificación de diferencias, n, dividida entre la longitud de las secuencias comparadas, N ; el cociente n/N se denomina grado de divergencia o distancia de Hamming, el cual comúnmente se expresa como porcentaje, n/N x 100%. En este trabajo al cociente n/N se le dará el valor de p, el cual representa la proporción de nucleótidos diferentes (sustituciones por sitio) entre las dos secuencias comparadas. Utilizando el modelo de Jukes – Cantor, el valor de p obtenido para cada alineamiento queda integrado en el algoritmo J-C de la siguiente manera: K= - 3/4ln (1- 4/3p) donde K es el número de sustituciones por sitio a partir del tiempo de divergencia de las dos secuencias (Graur y Li, 2000). (Nótese que en el algoritmo de Jukes – Cantor la única variable es el valor p, siendo K una función directa de éste; todos los demás valores son estimadores constantes). Habiendo obtenido el valor de K, esto es, la tasa de sustitución de nucleótidos por sitio, nuestro siguiente propósito es la estimación de los tiempos de divergencia de cada una de las secuencias de retropseudogenes de HSP10 y HSP60, es decir, ubicar en una escala temporal los eventos de retroinserción que les dieron origen. Para obtener esta datación necesitamos hacer uso de la teoría del reloj molecular e introducir un estimador temporal del número de cambios – sustituciones – observados en los alineamientos; esto se logra mediante la introducción de la tasa de sustitución de nucleótidos por sitio por año, r, observadapara un número considerable de pseudogenes y retropseudogenes y la cual está relacionada con K mediante la ecuación: r = K/2T donde T es el tiempo de divergencia de las dos secuencias(Li, 1997; Graur y Li, 2000). El factor 2T en la ecuación anterior denota que a partir del evento de retroinserción – y por lo tanto de la formación del retropseudogen – cada secuencia evolucionó por separado (el gen funcional y su copia no funcional), por lo que cada secuencia se tiene que considerar como una línea evolutiva y temporal independiente. Ahora bien, los destinos evolutivos de ambas secuencias van a ser muy diferentes: mientras que la secuencia del gen funcional va a estar sujeta a restricciones selectivas impuestas sobre la función de la proteína codificada, la secuencia del retropseudogen va a estar liberada de estas restricciones, pues al no codificar para un producto proteico, no va a estar sujeta ni a selección purificadora (negativa) ni a selección direccional (positiva).Como consecuencia de lo antes mencionado, se puede asumir que la secuencia del retropseudogen solamente exhibirá sustituciones neutras en su secuencia, acumulándose a una tasa constante a lo largo del tiempo. Bajo la suposición de la existencia de un reloj molecular, su distancia evolutiva - medida como tiempo de divergencia respecto al parálogo funcional - será función, tanto de su tasa de mutación intrínseca por sitio por año, como del número de sustituciones respecto al gen funcional (Kimura, 1980; Li et al., 1981; Ophir et al., 1999. Las tasas de sustitución – mutación – propuestas para los diferentes pseudogenes y retropseudogenes analizados en la literatura ha sido estimada desde 1.5 x 10-9 sustituciones por sitio por año (Ohshima et al., 2003), 3.5 – 3.9 x 10-9 sustituciones por sitio por año (Graur y Li, 2000) hasta 5x10-9 sustituciones por sitio por año (Kimura,1983), lo cual refleja la carencia de uniformidad en los criterios sobre el ritmo de evolución de las secuencias no codificantes. Este punto ha sido muy controvertido pues los tiempos de divergencia de las secuencias dependerán de la tasa de sustitución que se adopte, siendo esta tasa el “tic-tac” del reloj molecular empleado. La tasa obtenida por Graur y Li de 3.5 – 3.9 x 10-9 sustituciones por sitio por año está basada en la cuantificación de sustituciones en múltiples pseudogenes y retropseudogenes de diversos linajes, entre ellos los de roedores, primates y otros mamíferos, por lo que constituye un promedio de muy diversas velocidades en los reemplazos de nucleótidos – por ejemplo mayor en roedores que en primates -, haciendo esta estimación poco adecuada para aplicarla al caso específico de retropseudogenes en el linaje humano. En el caso de secuencias no codificantes en primates, la tasa propuesta por Kimura en 1983 de 5x10-9 sustituciones por sitio por año (Kimura, 1983) fue calibrada respecto al tiempo de divergencia de los linajes de primates y roedores, el cual, según el registro fósil, tuvo lugar hace 80 millones de años. Utilizando esta tasa de sustitución - para la cual una divergencia de 1% entre secuencias corresponde a 1 millón de años - y aplicándola al estudio de pseudogenes de globina en primates, Charles Bailey et al. (1991) calcularon que la separación del linaje del chimpancé – Pan troglodytes - y del humano – Homo – ocurrió hace 1.6 millones de años, lo cual es un fechaje incorrecto, ya que actualmente se estima que esta separación de linajes tuvo lugar hace aproximadamente de 6 a 7 millones de años. Refinamientos posteriores en los métodos de calibración han demostrado que una tasa de 1.5 x 10-9 sustituciones por sitio por año, la cual corresponde a una divergencia de 1% por cada 3.3 millones de años, es mucho más realista, pues al aplicarla a la datación de la divergencia Pan - Homo nos da una edad de 5.7 a 6 millones de años para este evento evolutivo (Li,1997;Ohshima et al., 2003; Devor y Moffat- Wilson, 2005). Esta misma datación de 6 millones de años la obtuvieron por vez primera Vincente Sarich y Allan Wilson (1967) utilizando distancias inmunológicas y calibrando su reloj molecular respecto al tiempo de divergencia de los cercopitecoides y los hominoideos, hace 30 millones de años, según datos del registro fósil (Goodman et al. ,1998). Tomando en cuenta lo anterior, en este trabajo de tesis se utilizó la tasa de 1.5 x 10-9 sustituciones por sitio por año - la cual corresponde a una tasa de 0.15 sustituciones por 100 sitios por 106 años, correspondiente a una divergencia de 1% por cada 3.3 millones de años - para la estimación del tiempo de divergencia de los retropseudogenes de HSP10 y HSP60. La expresión matemática para la estimación del tiempo de divergencia del retropseudogen respecto al gen funcional está representada por la ecuación T= K/2r siendo el tiempo de divergencia T estimado en millones de años. En este punto es necesario señalar que la calibración del reloj molecular para la estimación de la tasa de sustituciones por sitio por año, r, está basada en los datos paleontológicos del registro fósil. A continuación se muestra un ejemplo de la utilización del reloj molecular para el cálculo del tiempo de divergencia entre dos linajes, el cual también puede ser utilizado para estimar el tiempo de divergencia entre dos secuencias : asumamos que la tasa de sustitución, r, para la cadena alfa de la hemoglobina es de 0.56 x 10-9 sustituciones por sitio por año y que las alfa globinas de rata y humano difieren por 0.093 sustituciones por sitio ( por lo tanto K = 0.093); suponiendo una tasa de mutación constante – implicación básica de la teoría del reloj molecular -, el tiempo de divergencia T estimado entre los linajes de primates y roedores es T = K/2r o sea T = 0.093/2(0.56 x 10-9) = 80 millones de años (Graur y Li, 2000). Para el caso específico de pseudogenes y retropseudogenes, entre las tasas de sustitución por sitio por año la más elevada que se conoce es de 3.9 x10-9 – tasa promedio en retropseudogenes de diversos linajes -; por ser secuencias sin restricciones selectivas, esta tasa de sustitución es igual a la tasa de mutación espontánea, lo cual no sucede en el caso de genes o de secuencias sujetas a presiones selectivas. Ya que el homólogo funcional del retropseudogen está sujeto a restricciones selectivas, se asume que las diferencias en las secuencias de nucleótidos son debidas a sustituciones que han ocurrido en el retropseudogen desde su aparición por retrotransposición y por lo tanto, el número de sustituciones será directamente proporcional al tiempo transcurrido desde el evento de inserción. IV.- RESULTADOS Y DISCUSION a) Secuencias homólogas identificadas. Las secuencias de los RNA mensajeros procesados de HSP10 y HSP60 se obtuvieron de la base de datos de GENBANK correspondiente al genoma humano y fueron utilizadas como secuencias “query” (sondas bioinformáticas de búsqueda) para la recuperación e identificación de las secuencias parálogas no funcionales – retropseudogenes – presentes en la base de datos de GenBank correspondiente al genoma de Homo sapiens. Para iniciar la búsqueda de secuencias se utilizaron los RNA mensajeros procesados (en su modalidad de cDNA) y no las secuencias de los genes completos con intrones, con el fin de incrementar la sensibilidad de la búsqueda, descartando el que se recuperen secuencias de baja complejidad presentes en intrones. Los números de acceso en GENBANK para las secuencias de los genes de HSP10 y HSP60 son los siguientes: HSP10 NM_002157 GI: 4504522 / HSP60 NM_002156 GI: 41399283. El RNA mensajero de HSP10 consta de 538 nucleótidos y el de HSP60 de 2339 nucleótidos, incluyendo regiones 5´y 3´no traducidas. El número de secuencias recuperadas (hits) con un valor de expectativa estadística e menor de 10-4 fueron de62 para el RNA mensajero de HSP10 y de 72 para el RNA mensajero de HSP60 (ver Figuras 4 y 5); estos “hits” (secuencias recuperadas de longitud variable) fueron analizados con el fin de determinar, por su extensión y valor de expectativa, las que pudieran ser consideradas como retropseudogenes. Dada la estrategia de búsqueda del algoritmo BLAST, el número de secuencias recuperadas o FIGURA 4 FIGURA 4 .- En esta figura se muestran las localizaciones de las diferentes secuencias homólogas del RNA mensajero de HSP10 que el programa BLASTn identifica en el genoma humano. Obsérvese que los “hits” se ubican tanto en cromosomas pequeños como en los de mayor longitud. , 1: i- ~, t I I I I I 1: • • I 1: 4, 1" J I , , , • , • , • , W II II II " " CI .. , , • , • • • , , , , " .... " " • • " " " • , • • + J. I ~: I I I ~: • • I • I I I • II II " U II II • " " , , • " ;t el .. , , • • "; .. , • , " • FIGURA 5.- LOCALIZACIÓN DE SECUENCIAS HOMÓLOGAS DEL RNA MENSAJERO DE HSP60 HUMANO EN EL GENOMA DEL CHIMPANCÉ (VERSIÓN EN BORRADOR) MEDIANTE EL ALGORITMO DE BÚSQUEDA BLASTn 1 • • ~ It CI" 1 1 ~ It" ~ 12 ~: I • I -1 ti " U Hit Gill 2 , H,u: 7 , • I I I 1> ti , , " I I 10 li~Ull1-' 2 1 1 2 ~ 1 6 4 I I I I I I I i -J- I • I n • • ~ , , !!! rort pl.:td , , , I 10 I “hits” siempre es mayor que el número real de secuencias similares presentes en el genoma, pues el algoritmo inicia su búsqueda detectando secuencias cortas y extendiendo la búsqueda sucesivamente. De esta manera, una secuencia de longitud similar al RNA mensajero que se utiliza como sonda o “query” es recuperada junto con cuatro o cinco subsecuencias de menor tamaño que se ubican en las mismas coordenadas - y por lo tanto pertenecen a la misma secuencia - pero que el algoritmo utilizado por BLAST las reconoce como secuencias independientes o “hits” independientes derivados de los alineamientos locales (http://www.ncbi.nlm.nih.gov ). Después de ensamblar los fragmentos (”hits”) de retrosecuencias recuperadas y de eliminar secuencias repetidas, el número de retropseudogenes identificados para HSP10 fue de 26 mientras que, para HSP60 se identificaron 14 retropseudogenes – con una duplicación en el cromosoma 8 - (ver Cuadro 2). b) Ubicación cromosómica de los retrospeudogenes de HSP10 y HSP60. Respecto a las localizaciones cromosómicas de los retropseudogenes de HSP10, se observó que los cromosomas 1, 6, 12 y 16 fueron los que mayor número de retrosecuencias de HSP10 incorporaron, observándose un total de12 (46%) de los 26 retropseudogenes identificados en el genoma humano (ver Figura 4). En estos cromosomas la densidad génica media es de 8 genes por Mb, siendo la densidad génica media del genoma humano de 7.1 ± 4.1 genes por Mb o 1 gen por cada 141, 000 pb, lo cual es un indicio de que estas retroinserciones no se ubican preferencialmente en regiones despobladas de genes. No se observaron CUADRO 2 NUMERO DE RETROPSEUDOGENES DE HSP10 Y HSP60 POR CROMOSOMA En este cuadro se muestran las localizaciones de los retropseudogenes de HSP10 y HSP60 por cromosoma, así como las longitudes y densidades génicas por cromosoma. Se identificaron 26 retropseudogenes de HSP10 y 14 de HSP60 en el genoma humano. Cromosoma Tamaño (Mb) Densidad Génica (Genes por Mb) Número de retropseudogenes de HSP10 Número de retropseudogenes de HSP60 Número total de retropseudogenes por Cromosoma 1 246 8 3 1 4 2 243 5 2 - 2 3 199 5 1 1 2 4 191 4 1 1 2 5 181 5 1 2 3 6 170 6 3 1 4 7 158 6 - - 0 8 146 5 2 2 4 9 136 6 1 - 1 10 135 6 1 1 2 11 134 10 1 1 2 12 132 8 3 1 4 13 113 3 - 1 1 14 105 6 2 - 2 15 100 6 1 - 1 16 90 10 3 - 3 17 81 15 - - 0 18 76 4 - - 0 19 63 22 - - 0 20 63 10 1 1 2 21 47 5 - 1 1 22 49 10 - - 0 X 153 5 - - 0 Y 50 2 - - 0 TOTAL 26 14 40 retropseudogenes de HSP10 en los cromosomas 7,17,18,19,21 y 22 ni en cromosomas sexuales. Respecto a las ubicaciones de las retrosecuencias de HSP60 tampoco se observa una tendencia hacia inserciones en un cromosoma específico, excepto en lo señalado más arriba respecto a la carencia de retroinserciones en los cromosomas 17 y 19 (ver Figura 5), los cuales presentan la mayor densidad génica en el genoma humano – 15 genes por Mb o 1 gen por cada 67,000 pb en el cromosoma 17 y 22 genes por Mb o 1 gen por cada 45,000 pb en el cromosoma 19. Una posible explicación del hecho de no observar retropseudogenes en los autosomas 17 y 19 sería que los eventos de retroinserción en cromosomas con alta densidad génica tenderían a ser sujetos a selección negativa, dada la mayor probabilidad de que las inserciones se localizaran en la vecindad de genes, ocasionando posibles interferencias con su función. Sin embargo, en estos cromosomas se han localizado una gran cantidad de otros retropseudogenes, lo cual señala que el hecho de no encontrar retropseudogenes de HSP10 y HSP60 en estos cromosomas posiblemente es resultado de procesos aleatorios. Para analizar si las ubicaciones de los retropseudogenes se deben en realidad a procesos aleatorios, se realizó una evaluación con el estadístico χ2, incluyendo los 40 retropseudogenes de HSP10 y HSP60 y su frecuencia por cromosoma. Para un nivel de significación de 99% (P=0.01), el análisis mostró que la distribución de los retropseudogenes presenta un carácter aleatorio respecto a los sitios de inserción, χ2= 62.61 < 63.7 siendo χ20.99 = 63.7 con 40 grados de libertad. No obstante lo anterior y como se observa en la Gráfica 1, existe una tendencia a evitar las inserciones de los retropseudogenes de HSP10 y HSP60 en regiones de elevada densidad génica. Como confirmación de lo anterior, en la Gráfica 2 se muestra la distribución de retropseudogenes de HSP10 y HSP60 respecto a la longitud de los cromosomas, observándose, en general, una correlación positiva entre el número de retropseudogenes de HSP10 y HSP60 y el tamaño cromosómico. Tampoco se observaron inserciones de retropseudogenes en los cromosomas sexuales, aunque en éstos la densidad génica por megabase es baja, 5 genes por Mb en el cromosoma X y 2 genes por Mb en el cromosoma Y. Esta carencia de retroinserciones de los cDNA de HSP10 y HSP60 en los cromosomas sexuales también puede deberse a procesos aleatorios, puesto que se ha observado que, para diversos retropseudogenes, el cromosoma X tiene una tasa de incorporación dos veces mayor que la estimada por un modelo aleatorio, indicando una intensa movilización de retrosecuencias entre cromosomas autosómicos y el cromosoma X. Estas retroinserciones han sido datadas, correspondiendo la mayoría de estas retroinserciones a eventos ocurridos antes de la separación de los linajes de primates y roedores, hace aproximadamente 100 millones de años (Emerson et al., 2004). También se han identificado retropseudogenes propios del linaje de primates en este cromosoma, aunque no se ha resuelto si su localización cromosómica pertenece a regiones de eucromatina o heterocromatina, es decir, si estos retropseudogenes se ubican en regiones transcripcionalmente activas del cromosoma X (Betrán et al., 2004). De esta manera, las localizaciones genómicas de los retropseudogenes de HSP10 y HSP60 parecen deberse, principalmente, a eventos aleatorios no direccionales, lo cual es una evidencia importante a favor de la tesis de que los retropseudogenes no obedecen a selección positiva sino que su permanencia evolutiva en el genoma humano es consecuencia de procesos de fijación por deriva génica, es decir, de carácter neutro (Graur y Li, 2000). Como consecuencia de este proceso, sólo cuando las retroinserciones generen efectos deletéreos en la función de 0 1 2 3 4 5 1 3 5 7 9 11 13 15 17 19 21 23 DENSIDAD GENICA(GENES POR Mb)R E TR O P S E U D O G E N E S D E H S P 10 Y H S P 60 GRAFICA 1.- Aquí se muestra la distribución del número de retropseudogenes de HSP10 y HSP60 respecto a la densidad génica en los diferentes cromosomas humanos. Se observa que el número de retropseudogenes tiende a disminuir conforme aumenta la densidad de genes en los cromosomas. Este comportamiento de los retropseudogenes de HSP10 y HSP60 no es típico de otros retropseudogenes en el genoma humano, en los que se ha observado la tendencia a insertarse en cromosomas con alta densidad génica. Se indica la línea de tendencia. 0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 CROMOSOMA N Ú M ER O D E R ET R O PS EU D O G EN ES D E H SP 10 Y H SP 60 1- 1- 1- - 1- GRÁFICA 2- Se muestra la distribución del número de retropseudogenes de HSP10 y HSP60 respecto a su ubicación cromosómica. Se observa la carencia de retroinserciones en los cromosomas con mayor densidad génica (17,19 y 22). Tampoco se observaron retroinserciones en los cromosomas sexuales. un gen o de una región regulatoria la selección negativa – purificadora - actuará, eliminando al genoma portador de la retroinserción dañina. c) Contextos genómicos de las retroinserciones. En los Cuadros 3 y 4 se muestran los contextos genómicos en los cuales se ubican los retropseudogenes de HSP10 y HSP60 identificados en el genoma humano. Aunque los retropseudogenes de HSP10 y HSP60 se encuentran en muy distintas localizaciones a lo largo de los cromosomas, en promedio los retropseudogenes de HSP10 se ubican a una distancia de 31,291 pb del gen más cercano, con una desviación estándar de 31,762 pb, indicando la gran dispersión en las distancias a regiones génicas. En el caso de los retropseudogenes de HSP60, se observa una distancia promedio de 8,000 pb del gen más cercano con una desviación estándar de 9,634 pb, lo cual nos indica, nuevamente, la gran variabilidad en las distancias respecto a los genes más cercanos. Si tomamos en consideración que en el genoma humano la densidad promedio de genes es del orden de 1 gen por cada 141,000 pb, se observa que ningún retropseudogen de HSP10 y HSP60 se localiza en regiones cromosómicas desiertas o pobres en genes – definiéndose los desiertos genómicos como aquéllas zonas de más de 500 Kb sin presencia de genes - (Venter et al, 2001). Con respecto a lo anterior es necesario señalar que en el genoma humano existen 606 Mb distribuídas en desiertos genómicos de 500 Kb a 1 Mb de longitud así como 208 Mb distribuídas en desiertos mayores de 1Mb, lo cual equivale al 25% del genoma, ubicándose los desiertos genómicos principalmente en los cromosomas de menor densidad génica – cromosomas 4, 13,18 y Y. En estos cromosomas, el 27% de su longitud total CUADRO 4 CONTEXTO GENOMICO DE LOS RETROPSEUDOGENES DE HSP60 Aquí se muestran las localizaciones de los retropseudogenes de HSP60 con su ubicación en brazos cortos (p) o largos (q) de cromosomas, sus coordenadas cromosómicas, la longitud de los retropseudogenes en nucleótidos, el porcentaje de GC observado en el sitio de inserción y el contexto genómico local que enmarca a cada retropseudogen. RETROPSEUDOGEN Ψ LOCALIZACION EN CROMOSOMA COORDENADAS CROMOSÓMICAS LONGITUD DE LOS Ψ (PB) PORCENTAJE DE GC EN EL SITIO DE RETROINSERCION CONTEXTO GENÓMICO 1 1p35.1 34219056-34220672 1616 39% Este Ψ está inserto en un intrón del gen C2MD2 3 3p22.3 36768786-36770983 2197 42% 25,000 pb al gen más cercano, flanqueado por secuencias SINE, LINE y LTR. 4 4q31.21 146344359- 146346572 2213 37% 5,000 pb al gen más cercano, flanqueado por secuencias SINE y LINE. 5 5p15 19343539-19345257 1718 35% Este Ψ está inserto en un intrón del gen de RHOBTB3 5A 5q14.3 92258377-92260062 1685 35% Este Ψ está inserto en un intrón del gen de la CADHERINA 12 6 6q15 92783539-92785211 1672 35% Este Ψ está inserto en un intrón del gen GJB7. 8 8p23.1 6420153-6421848 1695 42% 2,500 pb al gen más cercano, flanqueado por secuencias SINE y LINE. 8A 8p23.1 8117534-8119229 1695 41% 1,700 pb al gen más cercano, flanqueado por secuencias SINE yLINE. 10 10Q11.2 1453342-1453812 470 40% 17,500 pb al gen más cercano, SINE. 11 11q22.3 110421038- 110422673 1725 35% Este Ψ está inserto en un intrón del gen GRIA4 CUADRO 4 (CONTINUACI0N) RETROPSEUDOGEN Ψ LOCALIZACION EN CROMOSOMA COORDENADAS CROMOSÓMICAS LONGITUD DE LOS Ψ (pb) PORCENTAJE DE GC EN EL SITIO DE RETROINSERCION CONTEXTO GENÓMICO 12 12q13.3 55191006-55193212 2206 39% 10,000 pb al gen más cercano, flanqueado por secuencias SINE. 13 13q13.3 34114754-34116427 1673 39% Este Ψ está inserto en un intrón del gen Trasposasa 22.187. 20 20q.12 43602133-43602300 167 38% 690 pb al gen más cercano 21 21q21.3 29181168-29182452 1284 40% 1,500 pb al gen más cercano, flanqueado por secuencias SINE. CUADRO 3 CONTEXTOS GENOMICOS DE LOS RETROPSEUDOGENES DE HSP10 Aquí se muestran las localizaciones de los retropseudogenes de HSP10 con su ubicación en brazos cortos (p) o largos (q) de cromosomas, sus coordenadas cromosómicas, la longitud de los retropseudogenes en nucleótidos, el porcentaje de GC observado en el sitio de inserción y el contexto genómico local que enmarca a cada retropseudogen. RETROPSEUDOGEN Ψ LOCALIZACION EN CROMOSOMA COORDENADAS CROMOSÓMICAS LONGITUD DE LOS Ψ (PB) PORCENTAJE DE GC EN EL SITIO DE RETROINSERCION CONTEXTO GENÓMICO 1 1q32.1 201050290 - 201050574 284 45% 55,000 pb al gen más cercano, flanqueado por secuencias SINE. 1A 1p34.3 39183224 - 39183516 292 42% Ubicado en el intrón del gen MACF1. 1B 1p36.12 20957949 - 20958197 248 49% 50,000 pb al gen más cercano, flanqueado por secuencias LINE. 2 22p22.1 39299633 - 39300032 399 42% Este Ψ está Ubicado en el intrón del gen SOS1. 2A 22q37.1 235650888- 235651268 380 44% 110,000 pb al gen más cercano, flanqueado por secuencias LTR y LINE. 3 3p11.1 90131251-90131599 348 43% Este Ψ está Ubicado en el intrón del gen PROS1 4 4q13.3 76301385-76301861 476 39% 15,000 pb al gen más cercano, flanqueado por secuencias LTR, SINE y LINE. 5 5q23.2 126149674- 126149980 306 43% Este Ψ está ubicado en el intrón del gen UBE2D2. 6 6p21.31 35038126-35038570 444 51% Este Ψ está insertado en un intrón del gen ANKS1. 6A 6q23.2 133811915- 133812434 519 37% Este Ψ está ubicado en un intrón del gen EYA4. 6B 6q25.3 165274947- 165275221 274 38% Este Ψ está ubicado en un intrón del gen SNX9. 8 8q22.3 103421238- 103421474 236 49% 40,000 pb al gen más cercano, flanqueado por secuencias SINE,LINE, LTR y repeticiones A-T. CUADRO 3 (CONTINUACION) RETROPSEUDOGEN Ψ LOCALIZACION EN CROMOSOMA COORDENADAS CROMOSÓMICAS LONGITUD DE LOS Ψ (PB) PORCENTAJE DE GC EN EL SITIO DE RETROINSERCION CONTEXTO GENÓMICO 9 9q22.31 90131251-90131599 348 43% 3,000 pb al gen más cercano, flanqueado por secuencias SINE. 11 11q23.3 117617105- 117617596 491 49% Este Ψ está insertado en un intrón del gen AMICA 1. 12 12p13.2 10814141-10814598 457 40% Este Ψ está insertado en un intrón del gen LOC441629 12A 12q23.2 100769435- 100769908 473 39% 4,000 pb al gen más cercano, flanqueado por secuencias SINE y LTR. 12B 12q24.32 125749638- 125750090 452 43% 3,000 pb al gen más cercano, flanqueado por secuencias SINE, LINE y repeticiones A-T. 14 14q23.2 62058230-62058695 465 41% Este Ψ está insertado en un intrón del gen C14orf32 (proteína hipotética). 14A 14q23.3 63574342-63574514 172 44% 14,000 pb al gen más cercano, flanqueado por scuencias SINE y LINE. CUADRO 3 (CONTINUACION)RETROPSEUDOGEN Ψ LOCALIZACION EN CROMOSOMA COORDENADAS CROMOSÓMICAS LONGITUD DE LOS Ψ (PB) PORCENTAJE DE GC EN EL SITIO DE RETROINSERCION CONTEXTO GENÓMICO 15 15q26.1 8890321-8890768 447 40% Este Ψ se encuentra insertado en un intrón del gen TORC3 16 16q22.1 68496429-68496900 471 48% Este Ψ se encuentra insertado en un intrón del gen de Cadherina 3. 16A 16p12.1 26040648-26041014 366 42% Este Ψ se encuentra insertado en un intrón del gen HS3ST4. 16B 16q22.3 74425984-74426344 360 44% 6,500 pb al gen más cercano, flanqueado por secuencias SINE. 20 20q12 39246844-39247333 489 39% 50kb al gen más cercano, SINE. . corresponde a zonas desprovistas de genes (Venter et al., 2001). Habiendo tal cantidad de espacio no génico en el genoma para poder acomodar las retroinserciones, ¿porqué, entonces, los retropseudogenes de HSP10 y HSP60 no se ubican, preferencialmente, en estas regiones desérticas? Desde un punto de vista seleccionista, las retrotransposiciones deberían ubicarse, en su mayoría, en regiones genómicas libres de genes o con una densidad génica muy baja, evitando las posibles mutaciones insercionales en zonas regulatorias como promotores y otras secuencias involucradas en la expresión genética así como en regiones codificantes. Sin embargo, los datos derivados de diversos estudios sobre identificación de retropseudogenes en el genoma humano han evidenciado que: a) el número de retropseudogenes en cada cromosoma es, en lo general, proporcional a la longitud del cromosoma (Zhang et al., 2003); lo anterior es un reflejo del carácter aleatorio del proceso de retroinserción y b) la densidad de retropseudogenes por Megabase muestra una relativa correspondencia con la densidad génica (Ohshima et al., 2003). De esta manera, los cromosomas con alta densidad génica, 11,17,19, tienden a tener mayor número de retropseudogenes por Mb, mientras que los cromosomas con baja densidad génica, 4, 13, 18, 21 y Y, muestran un menor número de retropseudogenes por Mb. Es de interés señalar que para el caso específico de los retropseudogenes de HSP10 y HSP60 esta última condición no se cumple. Los incisos a y b pueden a primera vista parecer contradictorios entre sí, pero si tenemos en cuenta que el número absoluto de retropseudogenes por cromosoma se relaciona, en general, con la longitud del cromosoma, veremos que al distribuirse aleatoriamente en todos los cromosomas, los cromosomas de menor tamaño mostrarán, en general, un enriquecimiento en retropseudogenes por Mb. En términos cuantitativos, la densidad promedio de retropseudogenes en los cromosomas 4 y 8 – bajos en genes pero de gran extensión – es de 2 retropseudogenes por Mb, mientras que en el cromosoma 19 – rico en genes aunque de tamaño pequeño – la densidad es de 3.7 retropseudogenes por Mb (Ohshima et al., 2003; Zhang et al., 2003). Otra forma de resolver el aparente conflicto sobre la distribución de espacio cromosómico que surge del hecho de que los cromosomas con mayor densidad de genes atraigan el mayor número de retropseudogenes por Mb, se resuelve al considerar que, aún tomando al cromosoma con mayor densidad génica, el 19, con 23 genes por Mb y un tamaño promedio por gen de 27 Kb, el espacio cromosómico desprovisto de genes es de18 Mb, suficiente para acomodar los 123 retropseudogenes reportados para este cromosoma (Ohshima et al., 2003; Venter et al., 2001). De lo anterior se desprende que los eventos de retroinserción están relacionados, tanto con la longitud cromosómica como con los contextos genómicos que los enmarcan (densidad de zonas génicas, intrones de gran longitud), es decir, con las características intracromosómicas particulares condicionantes de los eventos de inserción. Es debido solamente a estas particularidades de contexto que las retroinserciones están sujetas a selección negativa – ya que por su carácter neutral desprovisto de función, una retroinserción sólo puede originar efectos deletéreos cuando se ubica en una región codificante o bien reguladora – y no a procesos de selección positiva, lo cual implicaría un rasgo funcional asociado a los retropseudogenes (el cual sabemos que no poseen). Todo lo anterior nos lleva a plantear una nueva interrogante: ¿Porqué los retropseudogenes se ubican con mayor frecuencia en regiones pobladas de genes? La explicación que se ha ofrecido para contestar esta pregunta está basada en una argumentación de tipo estructural: Aquéllas regiones cromosómicas con mayor densidad de genes – y por lo tanto con un nivel de expresión mayor que otras regiones pobres en genes - muestran una estructura más abierta de la cromatina que aquéllas regiones con menor densidad génica, lo cual favorecería una mayor tasa de retroinserciones de cDNA mediada por elementos LINE 1 en estas regiones (Ohshima et al., 2003). Esta hipótesis tiene apoyo en el hecho de que los cromosomas con la mayor cantidad de desiertos génicos (los cuales están desprovistos en su mayor parte de secuencias LINE y SINE), como son los cromosomas 4, 13 y 18 son los que muestran las menores densidades de retropseudogenes, 1.8 retropseudogenes por Mb en promedio, mientras que aquéllos cromosomas con las mayores densidades génicas, 17,19 y 22, son los que poseen las mayores densidades de retropseudogenes: 3, 3.7 y 2.7 retropseudogenes por Mb, respectivamente (Venter et al., 2001;Ohshima et al., 2003; Zhang et al., 2003). Otra característica importante que se observa respecto a los contextos de ubicación de los retropseudogenes de HSP10 y HSP60 es el hecho de que aproximadamente la mitad de todas las retroinserciones de los RNA mensajeros de HSP10 y HSP60 se localizaron en intrones (ver Cuadros 5 y 6). Este es un dato relevante en relación con las secuencias que señalizan los sitios de inserción de los diferentes retrotransposones movilizados por secuencias LINE 1 (Alu, MIR, MIR 3, LINE 2, LINE 3 y retropseudogenes). Diversos estudios han mostrado que las regiones blanco para la inserción de retrotransposones dirigida por la maquinaria enzimática de LINE1 contiene una de las siguientes secuencias: 5´TTTTAA 3´, 5´TTTCAA 3´, 5´TTCTAA 3´, 5´TCTTAA 3´ y 5´CTTTAA 3´; cuando se llevó a cabo una búsqueda bioinformática de estas secuencias en el genoma humano se observó que su frecuencia fue tres veces CUADRO 5 RETROPSEUDOGENES DE HSP10 ANIDADOS EN INTRONES Retropseudogenes anidados de HSP10. Se enlistan los retropseudogenes que fueron localizados en intrones junto con las longitudes de los retropseudogenes, de los genes y de los intrones. Obsérvese que en el cromosoma 6 se ubican 3 retroinserciones anidadas, no obstante que este cromosoma muestra baja densidad génica. Este hecho subraya el carácter aleatorio de los eventos de retroinserción, pues a pesar de que el cromosoma 6 es de baja densidad en genes – y por lo tanto existe gran espacio intergénico – los 3 retropseudogenes de HSP10 se localizan en zonas intragénicas. La única restricción probable para eventos de anidación molecular es el tamaño del intrón respecto a la longitud del retropseudogen. Retropseudogen Ψ Gen Longitud del gen (pb) Longitud aprox. del intrón (pb) Distancia aprox. del retropseudogen al exón más cercano (pb) Ψ2 SOS1 184, 921 50,000 22, 000 Ψ3 PROS1 101,029 50,000 20,000 Ψ5 UBE2D2 67,265 7,000 3,000 Ψ6 ANK2 202,153 27,000 4,000 Ψ6A EYA4 86,550 9,000 2,000 Ψ6B SNX9 56,263 5,000 2,500 Ψ8 COPS5 19,252 6,000 1,500 Ψ11 AMICA 19,397 5,000 1,500 Ψ14 C14orf150 45,000 28,000 2,000 Ψ15 TORC3 115,264 8,000 3,000 Ψ16 CADH3 34,245 2,000 800 Ψ16A HS3ST4 445,664 400,000 75,000 LONGITUD PROMEDIO DE LOS GENES = 114,750 pb (d.e.= 119,956 pb) LONGITUD PROMEDIO DE LOS INTRONES = 49,750 pb (d.e.= 110,985 pb) CUADRO 6
Compartir