Analisis-evolutivo-de-retropseudogenes-de-las-familias-de-proteinas-de-choque-termico-HSP10-y-HSP60-en-el-genoma-humano

•
Outros

Apuntes Biologia
6.10.2022
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Biología

316.097 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
POSGRADO EN CIENCIAS BIOLÓGICAS 
FACULTAD DE CIENCIAS 
"Análisis evolutivo de retropseudogenes de las 
familias de proteínas de choque térmico HSP1 O y 
HSP60 en el genoma humano" 
T E s I s 
QUE PARA OBTENER EL GRADO ACADÉMICO DE 
MAESTRO EN CIENCIAS BIOLÓGICAS 
(B I O L O G í A E X P E R I M E N TAL) 
p R E s E N T A : 
ALFONSO JOSÉ VILCHIS PELUYERA 
FEBRERO. 2006 
COORDINACiÓN 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
AGRADECIMIENTOS 
Quiero agradecer a la Coordinación del Posgrado en Ciencias 
Biológicas el apoyo económico recibido para asistir al V Taller 
Internacional de Bioinformática, realizado en el Centro de Ingeniería 
Genética y Bíotecnofogía de la Habana, Cuba, durante el mes de 
noviembre de 2003. 
Muy especialmente deseo agradecer a los integrantes de mi Comité 
Tutoral su apoyo académico y su amistad a lo largo de mis estudios 
de Maestría: al Dr. Víctor M. Valdés López, director de esta Tesis, 
por todo su apoyo, consejo y amistad a lo largo de tantos años. Al 
Dr. Luis Medrana González por sus múltiples consejos, enseñanzas 
y revisiones críticas a lo largo de este trabajo. También quiero 
agradecer al Dr. Félix Recillas Targa sus orientaciones y consejos 
recibidos durante el desarrollo de esta Tesis. Una larga amistad nos 
une. 
Es también un placer agradecer profundamente al Dr. Roberto Caria 
Ortega la revisión crítica de este trabajo así como sus consejos y 
amistad a lo largo de varios años. También quiero agradecer 
ampliamente al Dr. Pedro Miramontes Vidal sus observaciones y 
orientación respecto al contenido matemático y estadístico de esta 
Tesis. 
Todos ellos son también integrantes del jurado de mi examen de 
grado. 
Finalmente, expreso mi más profundo agradecimiento a la 
Institución que nos honra a todos los mexicanos y de la cual formo 
parte hace muchos años: la Universidad Nacional Autónoma de 
México. 
DEDICATORIA 
Deseo dedicar esta Tesis a muchas personas a las cuales quiero 
mucho y que dan significado a mi vida: 
A mi abuela Pastora, mi madre Julia, ya mi hermano Julio, a los que 
llevo siempre en mi pensamiento, aunque ya no los pueda tener a mi 
lado. 
A mi esposa Luz Domínguez y a nuestros hijos, Montserrat y 
Rodrigo, las tres razones más importantes de mi vida. 
A mi hermana Pastora y mi hermano Jesús, con todo mi cariño por 
toda una vida compartida. 
A mi cuñado, el Dr. Douglas Frankel , con todo mi agradecimiento 
por tantas cosas vívidas. 
A mi cuñada Luz, por tantos recuerdos. 
A mis sobrinos Alonso, Ana, Pablo, Víctor, Ximena y Julita, por 
orden de aparición en este planeta. 
A la familia de mi esposa, que es mi familia. Los lazos afectivos son, 
para mí, tan importantes como los lazos biológicos. 
A los Coordinadores del Laboratorio de Biología Molecular y 
Genómica de la Facultad de Ciencias de la UNAM, Dra. Luisa Alba 
Lois y Dr. Víctor Valdés López. Gracias por tantos años de amistad 
y de enseñanzas. 
A los integrantes del Laboratorio de Biología Molecular y Genómica 
de la Facultad de Ciencias de la UNAM, por su compañerismo y 
amistad: M. en C. Beatriz Rodarte, M. en 1. B. B. Claudia Segal y a 
la bióloga en ciemes Bibiana Rodríguez. Ellas saben que entre el 
Power Point, Excell y yo hay algo personal. 
Por último, quiero finalizar esta página de afectos, haciendo mías 
las últimas palabras que, en su lecho de muerte, pronunció el gran 
biólogo francés Jacques Monod: "Je cherche á comprendreD • 
Indice 
Introducción 
Una estrategia para observar el pasado 
Metodología 
Resultados y discusión 
Conclusiones y perspectivas 
Referencias 
Apéndice 
 
RelUMEN 
En el geooma humano, el 2% de su extensión conesponde a secuencias codiflcantes (genes), mientras que 
el 98% restante lo constituyen secuencias de diversa índole, principalmente de tipo repetitivo. Entre estas 
secuencias eoconItamos a los llamados reIropseu:Jogeoes, copias no funcionales de genes que se generan a 
partir de RNA mensajeros, y mediante ta acción de la enzima transaiptasa reversa, dan origen a cDNAs; 
éstos se insertan en el genoma a ITavés de la acción de una enzima de tipo endonudeasa. La transctiptasa 
reversa y la endonudeasa son codifocadas por elementos genéticos repetitivos denominados UNE (Long 
Interspersed Repetitive Elements). Estas retrocopias de cONA carecen de promotores y de intrones, razón 
por la cual desde su inserción en el genoma pierden su capacidad funcional. Una condición básica es que los 
genes que den Ofigeo a retropseudogenes se expresen en células de la línea germinal. Como resuttado de lo 
anterior, estas sea.Jeflcias evolucionan de un modo neutral, siendo su tasa de sustitución de nudeótidos de 
las más altas registradas. La probabilidad de retroinseftión es función de la concentración diferencial de RNA 
mensajeros, por lo que genes con alto nivel de expresión tendrán mayor probabilidad de generar un número 
mayor de retropseuclogenes. T amando esta última condición corno punto de partida, el objetivo de esta tesis 
consistió en estudiar el pallón evolutivo de expresión de dos dases de genes codiflCames de proteínas de 
choque térmico, HSPl0 Y HSP60, a partir de la correlación entre las edades de sus retropseudogenes y su 
frecuencia de fonnación. 
Utilizando la base de datos GeoBank correspondiente al genoma htn\aOO y empleando como sonda 
bioinformática a los cONA de los genes de HSP10 Y HSP60 y el programa de búsqueda BLASTn, se 
localizaron e identifICaron 26 retropseudogenes de HSPl0 Y 14 de HSP6O. También se recuperaron las 
regiones genómicas que enman::an a cada uno de Jos retropseudogenes. analizándose los contextos 
genómicos en los cuales se ubican. Cerca del 50% de retropseudogenes se localizaron anidados en intrones, 
mientras que los restantes se localizaron en regiones intergénicas abundantes en e~ntos repetitivos SINE 
(Short Imerspersed Repetitiva Elernents) y UNE. Las retroinserciooes muestran ubicaciones al azar entre los 
diferentes cromosomas, aunque se obsewaron distintos tipos de restricciones. Las distancias genéticas se 
obtuvieron a partir de los alineamientos pareados de cada retropseudoge<1 con el RNA mensajero del 
homólogo funcionai, aJalltificándose su grado de divergencia. Posterionnente se llevó a cabo una daladón, 
utilizando el reloj molecular propuesto para estas secuencias no codificantes. 
Los resultados obtenidos muestran que para el caso de los retropseudogenes de HSP6O, su formación es 
cercanamente homogénea a través del tiempo. mostrando, por parte del gen de HSP60, un patrón de 
expresión genético aproximadamente constante en lérminos evolutivos. Por el con/rario, la formación de los 
retropseudogenes de HSPIO mostró una distribución temporal birnodal, indicando dos momentos evolutivos 
en los cuaJes aumeo!ó la expresión del gen de HSP10. Uno de estos momentos coincide oon un aumento en 
la formación de muchos otros retropseudogenes en el geooma humano así como de otras secuencias 
transponibles, tales como las secuencias repetitivas ALU. Por otra parte, ambos momentos en la formación 
de retropseudogeoes de HSP10 coinciden con eventos de diferenciación fllogenética en el linaje de los 
primates. La discordancia entre los tiempos Y freaJencias de gene<ación de retropseudogenes de HSPIO Y 
HSP60 puede atribuirse al papel funcional dual propuesto para lapro/eína HSP10. 
La principal CO<1CkJs;ón de esta Iesis es que los retropse' odogeoes pueden selVÍr como eleme<>tos para 
visualizar los cambios en el patrón de expresión de genes a lo largo del tiempo, ayudando, posiblemente, a 
descifrar los eventos genéticos involucrados en la diferenciación filogenética entre homínidos. 
ANALISIS EVOLUTIVO DE RETROPSEUDOGENES DE 
LAS FAMILIAS DE PROTEÍNAS DE CHOQUE TÉRMICO 
HSP10 Y HSP60 EN EL GENOMA HUMANO. 
 
I - INTRODUCCIÓN 
 
1) La paradoja del valor “C”.- Hacia la década de 1970 , se acumuló evidencia 
experimental de ue en los eucariontes, la cantidad de DNA propia de una especie 
(tamaño del genoma o valor C) y el grado de complejidad morfológica y fisiológica 
no mostraban algún tipo de correspondencia. Este hecho fue denominado “la 
paradoja del valor C” (Thomas,1971) y constituyó uno de los enigmas que impulsó 
el estudio del DNA desde el punto de vista evolutivo. Como un ejemplo de esta 
paradoja se puede señalar que Homo sapiens – con 3 x 109 de pares de bases 
(pb), tiene un tamaño de genoma 200 veces más pequeño que el de un 
protozoario, Ameba dubia, cuyo genoma contiene 6 x 1011 de pb (Li,1997). 
El grado de complejidad morfológica o fisiológica de un organismo es en realidad 
un término relativo y sujeto a sesgos interpretativos – de hecho, especies del 
mismo género pueden mostrar enormes variaciones en el valor de C, tal como el 
caso de Paramecium aurelia con 1.9 x 108 Kb (kilobases) y Paramecium caudata 
con 8.6 x 106 Kb (Sparrow,1972, Cavalier-Smith,1985, citados en: Graur y Li, 
2000) mientras que, por 
 otro lado, existen grupos como las aves en los que la variación en el tamaño de 
sus genomas es mínima (Primmer,1997) -, por lo que es más apropiado referir la 
paradoja del valor C a la carencia de relación entre la cantidad de DNA y la 
cantidad estimada de información genética (número de genes) presentes en una 
especie dada. Dicho en otras palabras, ¿porqué la cantidad de DNA en una 
especie es mucho mayor que el número estimado de genes? 
En 1968 Roy Britten y Dave Kohne, estudiando la cinética de reasociación del 
DNA obtenido de diferentes especies observaron que, en el caso de mamíferos, el 
perfil de reasociación mostraba tres fracciones: una fracción altamente repetitiva, 
una moderadamente repetitiva y una fracción de DNA no repetitivo; después se 
observó que esta última fracción estaba asociada, en parte, a la porción de 
eucromatina, es decir, la fracción transcripcionalmente activa del genoma, 
mientras que las fracciones repetitivas aparecían en las preparaciones 
cariológicas como bandas oscuras, correspondientes a la heterocromatina, es 
decir, la fracción transcripcionalmente inactiva (Graur y Li, 2000). A los datos 
anteriores se sumó el descubrimiento, a finales de la década de 1970, de 
segmentos intragénicos no codificantes en eucariontes – intrones –, los cuales, 
por su longitud y cantidad, harían una contribución significativa al contenido de 
DNA celular (Berget et al., 1977).Todo lo anterior señalaba que las fracciones no 
génicas eran las responsables de las variaciones en el tamaño de los genomas, 
sugiriéndose diferentes hipótesis para explicar la presencia de este DNA no 
codificante y tratar de ofrecer una posible solución a la paradoja del valor C. Entre 
estas hipótesis cabe mencionar tres principales: la hipótesis seleccionista, 
propuesta por Emile Zuckerkandl y, de manera independiente por Allan Wilson 
(King y Wilson,1975; Zuckerkandl,1976), sostiene que el DNA no génico tiene 
funciones regulatorias esenciales y es, por lo tanto, funcional y
sujeto a selección. Por su parte, la hipótesis neutralista, defendida por Susumo 
Ohno (Ohno,1972), propone que la fracción no génica es genética y 
fisiológicamente inerte, sin valor adaptativo ni selectivo, es decir, se considera un 
producto evolutivo neutral. Fue precisamente Ohno quien acuñó el término de 
“DNA basura” para explicar, desde un punto de vista neutralista, la presencia de 
DNA en exceso en organismos eucariontes. La tercer hipótesis, propuesta por 
Leslie Orgel y Francis Crick (Orgel y Crick, 1980), y en forma independiente por 
Rusell Doolittle y Carmen Sapienza (Doolittle y Sapienza, 1980) , plantea que el 
DNA no codificante está sujeto a selección intragenómica, debido a su alta tasa de 
reproducción en relación con el resto de regiones codificantes. Este DNA es 
denominado “DNA egoísta” y la diferencia con el “DNA basura” consiste en que el 
primero se perpetúa por un proceso dinámico de transposición duplicativa, 
mientras que el concepto de “DNA basura” involucra una carga mantenida en 
forma pasiva, siendo perpetuado por deriva génica, es decir, mantenido por 
evolución neutral. 
2) Secuencias repetitivas.- Independientemente de la validez de una u otra 
hipótesis, en los pasados 25 años se fueron acumulando observaciones sobre las 
características de las secuencias no codificantes de los genomas eucariontes, 
perfilándose un panorama global involucrando a los dos siguientes tipos de 
secuencias: 1) Secuencias repetitivas de diversas longitudes y composición de 
nucleótidos, ubicadas como repeticiones en tandem (consecutivas) o de forma 
dispersa; estas secuencias pueden estar repetidas cientos, miles o millones de 
veces en el genoma eucarionte, dependiendo del tipo de secuencia; 2) Segmentos 
intergénicos de DNA no repetitivo. Estos dos tipos de secuencias conforman la 
gran extensión del genoma no codificante en eucariontes, el cual puede llegar a 
tener una extensión de hasta el 60% del genoma en mamíferos y hasta el 80% en 
plantas (Flavell, 1986). Una conclusión empezó a emerger de los datos 
anteriores: la paradoja del valor C se debe al aumento o disminución de elementos 
repetidos en los genomas, aunque la causa o causas de estos cambios del valor C 
en los diferentes linajes aún no han sido resueltas (Hartl, 2000). Lo anterior 
significa que, a pesar del impresionante incremento en la información que en un 
nivel descriptivo tenemos de los contenidos de diversos genomas, aun permanece 
sin ser resuelta, de manera explicativa, la paradoja del valor C. De hecho, esta 
paradoja es el motor de todo un programa de investigación más amplio en 
biología: la evolución del tamaño del genoma. Actualmente se reconoce que la 
mayor parte de las secuencias repetitivas en el genoma humano se derivan de 
elementos móviles transponibles, estimándose que el 45% del genoma pertenece 
a esta clase (Figura 1) (International Human Genome Sequencing Consortium, 
2001). En términos generales, las repeticiones se pueden agrupar en cinco clases: 
1) repeticiones derivadas de transposones, también referidas como secuencias 
interdispersas, 2) retrocopias inactivas de genes, denominadas retropseudogenes 
o pseudogenes procesados (ver abajo), 3) repeticiones directas simples (A)n, 
(CA)n o (CGG)n, 4) duplicaciones de segmentos del genoma de 10 Kb a 300 kb y 
5) secuencias repetidas en tandem, presentes en centrómeros, telómeros, brazos 
cortos de cromosomas acrocéntricos y grupos de genes ribosomales (International 
Human Genome Sequencing Consortium, 2001). En la siguiente sección 
centraremos nuestra atención en los procesos de retrotransposición de RNA 
mensajeros en el genoma, los cuales generan, entre otros retrotransposones, a los 
llamados retropseudogenes, esto es, copias no funcionales de genes. 
 
 
 
 
 
 
 
 
 
 
FIGURA 1.- En este esquema se indican 
los distintos tipos de secuencias que
comprenden el genoma humano. Las
secuencias repetitivas abarcan
aproximadamente el 45% del genoma. Los 
genes (regiones codificantes e intrones)
ocupan aproximadamente el 22% del 
contenido total de DNA. 
NO 
REPETITIV
33% 
REPETITIV
45%
INTRONE
20%
EXONE
2%
PORCENTAJE DE DNA EN EL GENOMA 
 
 
 
 
 
 
-
3) Retrotransposición y la Dinámica del Genoma.- Aunque el descubrimiento 
de los elementos genéticos móvilesen el maíz por Bárbara McClintock data de la 
década de 1940 (Confort, 2001), su confirmación en bacterias no se realizó sino 
hasta 1967 por Robert Shapiro y Sankar Adhya al descubrir elementos genéticos 
de DNA – secuencias de inserción - que causaban mutaciones polares en 
operones al movilizarse de un lugar a otro en el genoma bacteriano (Confort, 
2001). A partir de estos datos se comenzó a visualizar a los genomas como 
entidades dinámicas, en las cuales ciertas secuencias podían desplazarse e 
integrarse en diferentes sitios cromosómicos. En 1970, en el contexto de la 
investigación con virus tumorales de RNA, Howard Temin y Satoshi Mizutani, 
descubren, junto con David Baltimore, de manera independiente, una DNA 
polimerasa dependiente de RNA, la cual fue bautizada como transcriptasa reversa. 
Esta enzima utiliza como sustrato RNA de cadena sencilla y lo transcribe a DNA 
de doble cadena, generando una copia que puede insertarse en el genoma y 
permanecer en él de manera indefinida (Temin y Baltimore,1972). El estudio de la 
actividad de esta enzima y su papel biológico dio inicio a la expansión del 
conocimiento sobre la interacción, a nivel molecular, de virus y células eucariontes 
y, en paralelo, a la investigación de los procesos de retrotranscripción (flujo de 
RNA a DNA) y de retrotransposición (inserción de DNA, derivado de RNA, en el 
genoma) (Coffin, Hughes y Varmus,1997). 
El descubrimiento de secuencias de tipo no viral generadas por mecanismos de 
retrotransposición, en los primeros años de la década de 1980 (Weiner, 2002), 
abrió un nuevo campo en el estudio de la dinámica de los genomas y los 
rearreglos que sufren a lo largo de su historia evolutiva. En los mamíferos, la 
mayoría de los elementos transponibles se pueden dividir en cuatro tipos o 
familias: los elementos LINE (long interspersed nuclear elements), los cuales 
ocupan el 21% del genoma humano, los elementos SINE (short interspersed 
elements), presentes en el 13% de nuestro genoma, los retrotransposones LTR 
(long terminal repeats), que ocupan el 8% y los transposones de DNA, los cuales 
abarcan el 3% del genoma humano, representando, en conjunto, cerca de la mitad 
(45%) de la extensión del genoma humano (International Human Genome 
Sequencing Consortium, 2001). Los tres primeros se transponen a través de 
intermediarios de RNA y el último se transpone vía DNA. 
4) Retropseudogenes.- Como un caso particular de retroelementos encontramos 
a los retropseudogenes, copias no funcionales de genes que se originan por un 
mecanismo de retrotranscripción a partir de RNA mensajero - dando lugar a cDNA 
de doble cadena - y a su posterior retransposición enzimática al genoma 
mediante el empleo de la maquinaria enzimática codificada por secuencias LINE. 
Estos elementos, por derivarse de RNA mensajeros procesados, no contienen 
intrones ni promotores ni secuencias reguladoras, por lo que desde el momento de 
su inserción genómica se consideran copias no funcionales del gen (Figura 2) 
(Gonςalves et al., 2000). El otro tipo de copias no funcionales en el genoma lo 
representan los pseudogenes, los cuales surgen como consecuencia de los 
procesos de duplicación génica y posterior disfuncionalización (Mighell et al., 
2000). La maquinaria enzimática responsable de la inserción de retropseudogenes 
en el genoma es codificada por los elementos LINE, y consta de un péptido con 
dominios de transcriptasa reversa y de endonucleasa; se ha evidenciado 
experimentalmente que es necesaria la actividad de una tercera proteína que se 
une a RNA – también codificada por elementos LINE – de la cual no se conoce su 
función 
CUADRO 1 
 
 
 
GENES CON MAYOR NUMERO DE RETROPSEUDOGENES 
 
 
 
 PROTEINAS RIBOSOMALES 
 
 
 PROTEINAS DE UNION A DNA 
 
 
 PROTEINAS DE UNION A RNA 
 
 
 OXIDO – REDUCTASAS 
 
 
 FACTORES DE TRANSCRIPCION 
 
 
 PROTEINAS RECEPTORAS DE MEMBRANA 
 
 
 TRANSFERASAS 
 
 
 HIDROLASAS 
 
 
 PROTEINAS DE CHOQUE TERMICO 
(Malik et al.,1999; Esnault et al., 2000; Weiner, 2002). Extrapolando los datos del 
análisis genómico del cromosoma humano 22, se ha calculado que los 
retropseudogenes representan el 0.5% del genoma humano, es decir, 15 millones 
de pares de bases (Dunham et al., 2000). Por su parte, los elementos LINE son 
los retrotransposones que ocupan mayor extensión en el genoma humano, 
representando el 21% del genoma. Se postula que estos elementos son los 
responsables de la mayor parte de los procesos de transcripción reversa en el 
genoma humano y, por lo tanto, de la creación de retropseudogenes (International 
Human Genome Sequencing Consortium, 2001). 
Para estudiar la aparición y posterior evolución de los retropseudogenes en el 
genoma humano, es necesario, como punto de partida, analizar la dinámica de 
formación de estos elementos en el contexto de los procesos de a) expresión 
génica (transcripción), b) retrotranscripción y c) inserción genómica 
(retrotransposición). 
La concentración de RNA mensajero de un gen dado está en función del nivel de 
transcripción así como del tiempo de permanencia del mensajero en la célula. De 
esta manera, genes con un alto nivel de expresión estarán representados con una 
mayor abundancia de RNA mensajeros. Por otra parte, solamente los genes que 
se expresen en las células de la línea germinal (células que darán origen a óvulos 
y espermatozoides) podrán dar lugar a copias que se transmitan hereditariamente; 
de esta manera, sólo los RNA mensajeros presentes en células germinales 
pueden servir como sustrato para que la enzima transcriptasa reversa genere 
copias de DNA a partir de estos mensajeros. Los genes con mayor 
representación de retropseudogenes en las bases de datos se enlistan en el 
Cuadro 1. En esta lista se observa que los genes denominados de expresión 
constitutiva (housekeeping, en inglés) – entre ellos, los 
 
 
 
 
 
ADN
Gen funcional
Promotor
ARNm
Transcripción y 
procesamiento
poliA
Transcriptasa
reversa
cdna poliA
Retroinserción
en el genoma
Retropseudogen
poliA
FORMACION DE RETROPSEUDOGENES
 
 
 
 
 
--
genes codificantes de enzimas - tienden a dejar un número mayor de copias 
como retropseudogenes, explicándose esto por el nivel de expresión contínua de 
este tipo de genes y, por lo tanto, por la mayor abundancia de sus RNA 
mensajeros (Figura 3). 
Una vez sintetizados los RNA mensajeros, éstos se someten al mecanismo de 
procesamiento o edición (splicing), mediante el cual los intrones se remueven, 
quedando empalmados los exones y las secuencias 5´ y 3´ no traducidas en el 
mensajero maduro. Entre estos RNA mensajeros, ocasionalmente alguno se toma 
como sustrato por la reverso transcriptasa, la cual hará una copia de DNA de 
doble cadena susceptible de insertarse en el genoma (Mighell et al., 2000). ¿De 
donde proviene ésta reverso transcriptasa? Desde la década de 1970, con el 
descubrimiento de la transcriptasa reversa en viriones retrovirales, se inició la 
búsqueda de esta enzima en células no infectadas por virus, siendo hasta 1986 
cuando el grupo de Hattori et al, identificaron, en elementos repetitivos de tipo 
LINE , una secuencia muy parecida a la que codifica para la transcriptasa reversa 
presente en retrovirus y en la telomerasa (Hattori et al.,1986; Greider y Blackburn, 
1987; Greider, 1989; Lingner et al., 1997). 
A partir de este descubrimiento, el mecanismo replicativo y de retrotransposición 
de los elementos LINE en los genomas de mamíferos comenzó a ser aclarado, y 
actualmente se tiene evidencia experimental de que la maquinaria enzimática 
mediada por los elementos repetitivos LINE 1 está codificada por dos ORFs, 
ORF1 y ORF 2, el primero de los cuales genera una proteína de unión a DNA, 
mientras que el segundo Orf muestra una función dual, codificando para la reverso 
transcriptasa y una endonucleasa (Kajikawa y Okada, 2002). Estas enzimas son 
las responsablesde la movilización, por retrotransposición, de elementos 
transponibles en el genoma humano, tales como las secuencias SINE (Alu, Mir y 
Mir3), LINE (1, 2 y 3) y, ocasionalmente, también retrotranscribiendo e insertando 
RNA mensajeros de otros genes en el genoma, los cuales originarán retrogenes y 
retropseudogenes (Esnault et al., 2000; International Human Genome Sequencing 
Consortium, 2001). En el siguiente apartado se formula una estrategia para 
estudiar la formación de retropseudogenes a través del tiempo en el genoma 
humano. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 GEN C GEN B Gen A 
 
INSERCIÓN DE 
COPIAS EN EL 
GENOMA 
 
RETROTRANSCRIPCION 
TRANSCRIPCION 
 
 
 
 
FIGURA 3.- Dinámica de retrotransposición de RNA 
mensajeros en el genoma humano. Se ejemplifican 3 genes, A, 
B y C, cada uno con distintos niveles de expresión. En este 
ejemplo, el gen A (naranja) tiene mayor nivel de expresión que 
los otros 2 genes y por lo tanto, mayor concentración de RNA 
j l b bilid d d l
 
II.- UNA ESTRATEGIA PARA OBSERVAR EL PASADO 
La dinámica de retrotranscripción y retroinserción de RNA mensajeros a lo largo 
del tiempo da por resultado la aparición de múltiples copias no funcionales de 
genes, las cuales se pueden definir como familias de parálogos no funcionales de 
genes activos. El número de copias que constituyen a estas familias de 
pseudogenes procesados varía de un gen a otro habiéndose observado que 
genes con un nivel elevado de expresión y de extensión reducida tienen una 
mayor representación de retropseudogenes (Gonςalves et al., 2000; Zhang et al., 
2003). Las múltiples retroinserciones a lo largo del tiempo - a partir de un mismo 
tipo de RNA mensajero – darán origen a secuencias con distintos grados de 
divergencia respecto al gen funcional del cual derivan, conformando una familia de 
retropseudogenes cuyo porcentaje de divergencia puede ser convertido en una 
datación - expresada en millones de años -, y utilizando como estimador temporal 
el reloj molecular (Kimura,1981; Li et al. ,1981; Friedberg y Rhoads, 2000; Graur y 
Li, 2000). Una pregunta surge de lo anterior: ¿Se puede correlacionar la 
divergencia de secuencias con la estimación temporal o datación utilizando el reloj 
molecular? Para contestar a esta pregunta lo primero que debemos hacer es 
analizar la manera en que las copias cambian sus secuencias respecto a la 
original, y cómo estos cambios pueden considerarse proporcionales al tiempo 
transcurrido desde su formación. Desde los estudios pioneros de E. Zuckerkandl y 
Linus Pauling (Zuckerkandl,1976) comparando las diferencias en aminoácidos 
entre proteínas del mismo tipo en diferentes linajes comenzó a surgir la idea de 
que la tasa de cambio – sustituciones de aminoácidos – para una proteína dada 
en diferentes linajes era aproximadamente constante a lo largo del tiempo. De 
manera más específica, ellos propusieron que existe una proporcionalidad 
estadística entre el tiempo transcurrido a partir de la existencia de un ancestro 
común de dos proteínas homólogas contemporáneas y el número de diferencias 
de aminoácidos entre sus secuencias (Morgan,1998). Los autores denominaron a 
esta propuesta la hipótesis del “reloj molecular evolutivo”, denotando con esto la 
constancia aproximada en la tasa de cambio en una proteína. Este reloj no es 
metronómico sino estocástico, significando esto que la probabilidad de cambio en 
una secuencia es constante a lo largo del tiempo. Este marco conceptual incluso 
se ha aplicado a la comparación entre genomas, midiendo la distancia evolutiva 
entre ellos a través de la cuantificación del número de sustituciones de 
aminoácidos por sitio entre genes ortólogos – homólogos por especiación - que 
son compartidos entre los genomas comparados (Huynen y Bork, 1998). Cada gen 
o proteína tendrá una probabilidad de cambio propia, es decir, diferentes proteínas 
o genes cambiarán a tasas distintas, pero todas las proteínas o genes marcarán 
los mismos eventos evolutivos (Ayala, 1982; 1997). Esta propuesta fue la base 
conceptual para la fundamentación de la teoría neutral de la evolución molecular 
propuesta en 1968 por Motoo Kimura (Kimura y Ohta, 1973) y de manera 
independiente por Jack Lester King y Thomas Jukes (1969). Esta teoría propone 
que, a nivel molecular, la mayoría de los cambios no están relacionados con 
selección positiva sino por deriva génica al azar de alelos mutantes que son 
selectivamente neutros. La teoría no excluye el papel de la selección natural, la 
cual incidiría sobre las mutaciones deletéreas – por ejemplo aquéllas que inciden 
sobre regiones funcionales de una proteína como los sitios activos o los sitios de 
unión a otras moléculas - pero mantiene que la mayoría de mutaciones no 
deletéreas son neutras, explicando de esta manera la existencia de polimorfismos, 
a nivel molecular, en una población (Graur y Li, 2000). Un ejemplo numérico 
ilustrará lo anterior : En la gran mayoría de genes estudiados, la tasa de 
sustitución en sitios sinónimos (cambios en los codones que no alteran el 
aminoácido) y en secuencias no codificantes es del orden de 1.5x10−9 a 3.51x10−9 
sustituciones sinónimas por sitio por año, según el tipo de secuencia no 
codificante analizada, mientras que la tasa de sustituciones no sinónimas 
(cambios en los codones que sustituyen un aminoácido por otro) es del orden de 
0.74x10−9 sustituciones no sinónimas por sitio por año, es decir, de dos a cinco 
veces menor que las sustituciones sinónimas. Esto refleja las restricciones que la 
selección purificadora (negativa) impone sobre los cambios en la secuencia – 
cambios que posiblemente afectan regiones funcionales de la molécula - y, al 
mismo tiempo, la tolerancia en la acumulación de mutaciones neutras en codones 
sinónimos (en una proporción de 5:1), los cuales, por definición, no tienen efectos 
funcionales en la proteína (Graur y Li, 2000). 
Ahora bien, ¿qué ocurre con las secuencias no codificantes y sin función 
reguladora? Estas secuencias, de las cuales los intrones, pseudogenes y 
retropseudogenes son un ejemplo, al no estar sujetas a restricciones funcionales, 
se espera que muestren tasas de cambio similares a las de las sustituciones 
sinónimas en regiones codificantes; sin embargo, la comparación de las tasas 
promedio de cambio entre sustituciones sinónimas y sustituciones en 
pseudogenes muestra que éstos tienen una mayor tasa de sustitución que las 
observadas en sitios sinónimos, indicando que incluso las mutaciones sinónimas 
están sujetas a algún tipo de selección, posiblemente en relación con la utilización 
preferencial de codones; de esta manera, aunque las mutaciones sinónimas no 
generen un cambio de aminoácido a nivel de la proteína, un cambio de un codón 
preferencialmente utilizado por otro menos utilizado podría alterar la velocidad de 
traducción y, por lo tanto, la concentración de la proteína (Li et al., 1981; Li,1997). 
Desde el estudio pionero de Li y colaboradores en 1981, tomando a los 
pseudogenes de globinas de humano, ratón y conejo como paradigmas de 
evolución neutral y calculando sus tiempos de aparición (Li et al. ,1981), pocos 
han sido los estudios dedicados al análisis evolutivo de estos elementos, 
destacando el trabajo de Li y Tanimura (1987) demostrando, mediante el análisis 
de pseudogenes, que el reloj molecular corre más lento en humanos que en 
simios así como el estudio de Roy Ophir et al., (1999) utilizando retropseudogenes 
humanos y de ratón para estimar la intensidad de la selección purificadora 
(negativa) en genes codificantes de proteínas. En esta dirección destaca también 
el estudio de Felix Friedberg y Allen Rhoads (2000) en el que verifican la 
existencia de retropseudogenes en diferentes primates correlacionándolos con la 
edad estimada de la divergencia evolutiva de diferentes linajes de primates. Por 
otra parte, la secuenciacióndel genoma humano y el establecimiento de diferentes 
bases de datos derivadas de la información obtenida (http://www.ncbi.nlm.nih.gov) 
ha permitido la búsqueda y el análisis de las secuencias de retropseudogenes 
presentes en el genoma, habiéndose formado una base de datos exclusiva de 
pseudogenes y retropseudogenes integrada por más de 8,000 secuencias de 
retropseudogenes y 3,000 de pseudogenes (Zhang et al., 2003). Esta base de 
datos es de libre acceso a través de Internet y es operada por el grupo de Mark 
Gerstein, de la Universidad de Yale (http://www.pseudogenes.org). 
 
Utilizando esta base de datos y las que contienen secuencias expresadas, Refseq 
mRNAs, Unigenes Consensus y dbEST (http://www.ncbi.nlm.nih.gov), el grupo de 
Yale demostró la presencia de más de 200 retropseudogenes humanos con 
capacidad de transcripción,, es decir, se identificaron RNA mensajeros 
correspondientes a estos retrogenes; de éstos, aproximadamente la mitad se 
reinsertaron en posiciones cercanas a regiones promotoras en ubicación 5´ 
contiguas a genes (regiones reguladoras), mientras que los restantes se ubicaron 
en regiones intergénicas, captando presuntas secuencias de promotores crípticos 
no identificados pero con capacidad transcripcional. La posible función de estos 
transcritos se desconoce, aunque se ha propuesto que pudieran estar 
involucrados en el silenciamiento de sus genes parálogos funcionales mediante 
interacciones RNA - DNA (Harrison et al., 2005). 
Como se desprende de lo mencionado anteriormente, los pseudogenes y 
retropseudogenes se han tomado como modelos de evolución neutral por parte de 
varios autores. Además, tomando en consideración el evento inicial por el cual se 
generan los retropseudogenes – genes con mayor nivel de expresión tenderán a 
generar mayor número de retropseudogenes -, éstos pueden también ser 
utilizados como indicadores del patrón de expresión de genes a lo largo del 
tiempo, siendo esta característica el marco conceptual básico del presente 
estudio. 
Los genes HSP10 y HSP60, pertenecientes a la familia de genes codificantes de 
proteínas de choque térmico (heat shock protein o HSP por sus siglas en inglés) 
fueron escogidos para nuestro análisis por las siguientes razones: a) Son genes 
de expresión constitutiva, por lo que la abundancia de sus RNA mensajeros 
favorece la probabilidad de retroinserción. b) Se expresan en la línea germinal, 
condición necesaria para la fijación de los retropseudogenes en el genoma. c) 
Son genes muy conservados evolutivamente, lo que favorece su comparación en 
diferentes linajes y d) Son genes de copia única. Las características anteriores son 
compartidas por la mayoría de genes que dan lugar a retropseudogenes, 
incluyéndose también la pequeña longitud de los cDNAs y el bajo contenido en GC 
como características de los genes que generan retropseudogenes (Gonςalves et 
al., 2000). Con excepción del bajo contenido de GC, todas las otras características 
parecen favorecer la probabilidad de retrotransposición a partir de RNA 
mensajeros; respecto al bajo contenido en GC que muestran la mayoría de los 
genes que generan retropseudogenes, se ha propuesto que esto es debido a la 
mayor eficiencia de la reverso transcriptasa codificada por elementos LINE 1 – los 
cuales muestran un bajo contenido en GC – al retrotranscribir RNA mensajeros 
también con un contenido bajo en GC (Gonςalves et al., 2000 ). 
Las proteínas de choque térmico, también denominadas chaperonas moleculares 
o asistentes de plegamiento, son moléculas implicadas en el plegamiento correcto 
de polipéptidos. Actualmente se conocen diversas familias de chaperonas, siendo 
la familia 
de las chaperoninas HSP10 y HSP60 de las mejor caracterizadas (Twyman, 
1998). HSP10, con peso molecular de 10kd, conforma un oligómero de 7 
subunidades idénticas mientras que HSP60 forma un complejo de dos estructuras 
anulares invertidas, cada una con 7 subunidades idénticas. La asociación entre 
HSP10 y HSP60 genera un complejo proteico en forma de cilindro dentro del cual 
se lleva a cabo el plegamiento correcto de polipéptidos con la participación de ATP 
(Twyman,1998). Además de su papel como cochaperona de HSP60, se ha 
demostrado que la proteína HSP10 también está involucrada en funciones 
inmunoreguladoras en las etapas tempranas del embarazo y en los procesos de 
regulación de la proliferación celular (Cavanagh,1996; Morton,1998). En el 
genoma humano, los genes de HSP10 y HSP60 son de copia única y de expresión 
constitutiva y se localizan contiguos en la región 2q33.1 del brazo largo del 
cromosoma humano 2. El gen HSP10 tiene una longitud de 3060 pb y consta de 
cuatro exones, dando lugar a una proteína de 102 aminoácidos; por su parte, el 
gen HSP60 tiene una longitud de 13,690 pb con doce exones y codifica para una 
proteína de 573 aminoácidos (http://www.ncbi.nlm.nih.gov). Estos dos genes 
comparten un promotor bidireccional de 656 pb con un contenido de GC de 68%. 
Una característica interesante de este promotor es el hecho de que no contiene la 
caja TATA (caja de Hogness). Este tipo de promotores - carentes de secuencias 
consenso TATA – frecuentemente dirigen la expresión de genes constitutivos. 
Asimismo, se ha demostrado que este promotor bidireccional contiene una 
secuencia TGCAATC reconocida por el factor de transcripción CHOP e 
involucrado en la regulación positiva de genes de estrés, así como elementos HSE 
y SP1 de respuesta a choque térmico (Hansen et al., 2003). La actividad de este 
promotor se ha evaluado en ausencia y en presencia de condiciones de choque 
térmico en cultivo de células humanas: En ausencia de estrés térmico, la 
expresión del gen HSP60 es aproximadamente dos veces mayor que el de 
HSP10, mientras que en condiciones de estrés (430 C por 3hrs), el nivel de 
expresión de ambos genes aumenta aproximadamente 12 veces, conservándose 
la diferencia del doble de expresión de HSP60 respecto a HSP10 (Hansen et al., 
2003). 
 
 
 
 
 
 
III.- METODOLOGÍA 
 
 
 Para realizar la búsqueda de las secuencias parálogas no funcionales 
(retropseudogenes) de los genes de HSP10 y HSP60 genes en el genoma 
humano, se utilizó la base de datos pública del GenBank correspondiente al 
Genoma Humano (Human Genome Resources, actualización 31.35d) y 
administrada por el National Centre for Biotechnology Information – NCBI – de los 
Institutos Nacionales de Salud en Bethesda, Maryland, USA 
(http://www.ncbi.nlm.nih.gov), así como la base de datos pública ENSEMBL 
correspondiente al Proyecto de Secuenciación del Genoma Humano (Human 
Genome Browser, actualización 31.35d), administrada por el Centro de 
Secuenciación Sanger, en Inglaterra (http://www.ensembl.org/Homo_sapiens/). 
Estas dos bases de datos públicas del genoma humano, junto con la reciente base 
de datos, también de acceso público, administrada por la Universidad de California 
en Santa Cruz (http://genome.ucsc.edu), representan las plataformas 
bioinformáticas de secuencias del genoma humano más completas en la 
actualidad. Para la identificación y recuperación de retropseudogenes en las bases 
de datos públicas se utilizó como sonda bioinformática el cDNA de los genes de 
HSP10 y HSP60 recuperados de la base de datos del GenBank – Human 
Genome Resources versión 31.35d – empleándose el algoritmo de búsqueda 
BLAST (Basic Local Alignment Search Tool) en su modalidad BLASTn 
(secuencias de nucleótidos). Este algoritmo utiliza un programa heurístico, lo cual 
significa que la búsqueda se realiza mediante aproximaciones sucesivas basadas 
en la comparación de secuencias y posteriores alineamientos locales a partir de 
un número mínimo de nucleótidos – word size o longitud de palabra - entre la 
secuencia que el usuario introduce y las secuencias de la base de datos GenBank 
correspondientes al genoma humano (http://www.ncbi.nlm.nih.gov). Al comparar 
dos secuencias,el algoritmo puede hacer distintos alineamientos locales de 
diferente longitud. El número mínimo de nucleótidos que BLASTn compara entre 
dos secuencias de n longitud es de 7, y si al alinear las dos secuencias encuentra 
al menos 7 identidades, el programa extiende la búsqueda a ambos lados de esta 
región local para ampliar el alineamiento; estos nuevos alineamientos por 
extensión no necesariamente deben tener 100% de identidad o puntuación óptima. 
El usuario debe determinar el valor umbral mínimo de puntuación – score 
threshold – con el fin de hacer más o menos rigurosa la búsqueda. La significancia 
estadística de los alineamientos producidos, esto es, el valor de confiabilidad en 
las secuencias recuperadas de la base de datos está dado por el valor de 
expectativa e – expect -, el cual por default es de 10 en BLASTn. Esto significa 
que 10 secuencias se alinearán por simple azar al realizar la búsqueda. En 
realidad, este valor de significancia está en función de los siguientes parámetros: 
a) Longitud de la palabra y de la secuencia de búsqueda. A mayor tamaño de la 
palabra y de la secuencia, menor probabilidad de recuperar secuencias espurias o 
por azar. 
b) Complejidad de la secuencia. Secuencias de baja complejidad en sí mismas o 
con regiones de baja complejidad, es decir, con un alto número de nucleótidos 
repetidos, tenderán a generar alineamientos altamente similares o idénticos con 
otras secuencias homopoliméricas de baja complejidad, sin que esto signifique 
que las secuencias alineadas guarden relación entre ellas. El algoritmo BLASTn 
tiene un filtro para la detección y ocultamiento de regiones de baja complejidad. c) 
Tamaño de la base de datos. Mientras más grande sea la base de datos, mayor 
será la probabilidad de recuperar secuencias por azar. Todo lo anterior indica que 
para llevar a cabo una búsqueda rigurosa con alta significancia estadística, los 
valores empíricos de e deberán situarse por debajo de 10-4, garantizando una 
mayor confiabilidad en las secuencias recuperadas. Empíricamente se ha 
observado que con valores menores de 10-5 prácticamente no aumenta el nivel de 
sensibilidad de la búsqueda, por lo que un valor de e de 10-5 produce resultados 
estadísticamente significativos (http://www.ncbi.nlm.nih.gov). Como una 
consecuencia de lo anterior, es necesario señalar que entre mayor sea el tiempo 
de divergencia, la similitud entre la secuencia de búsqueda o “query” y las 
presuntas secuencias homólogas será menor, por lo que el algoritmo BLASTn 
comenzará a recuperar mayor número de secuencias pero con menor índice de 
identidad y, en general, de menor extensión. Esto conlleva a la recuperación de 
secuencias sin verdadera relación biológica con la sonda de búsqueda. La 
confiabilidad estadística en estas secuencias será, por lo tanto, muy baja, razón 
por la cual el valor empírico de expectativa (expect) no puede aumentarse. 
 
Una vez identificadas y recuperadas las secuencias parálogas no funcionales de 
HSP10 y HSP60 por cromosoma, el siguiente paso consistió en analizar los 
contextos genómicos en los cuales se ubican los retropseudogenes; esto se 
realizó mediante la inspección de transectos genómicos de 1,000, 5,000, 10,000 y 
50,000 pb flanqueando los extremos 5´y 3´de los retropseudogenes recuperados, 
utilizando la base de datos y los algoritmos de búsqueda contenidos en UCSC 
Genome Browser de la Universidad de California en Santa Cruz 
(http://genome.ucsc.edu). Este análisis contempló los siguientes puntos: a) 
Localización cromosómica. b) Coordenadas cromosómicas. c) Longitud de 
los retropseudogenes. d) Porcentaje de GC observado en el sitio de 
retroinserción. e) Contexto genómico (presencia de elementos Alu, SINE, LINE, 
secuencias de baja complejidad o ubicación en intrones). f) Distancia al gen más 
cercano. g) Distancia al exón más cercano (cuando la inserción del 
retropseudogen se ubicó en el interior de un intrón). 
 
Una vez obtenidas las secuencias de los retropseudogenes de HSP10 y HSP60 se 
procedió a compararlas con las secuencias de los genes funcionales mediante 
alineamientos pareados utilizando el programa bioinformático CLUSTAL W. En 
este estudio se utilizó el programa CLUSTAL W del Instituto Europeo de 
Bioinformática a través de la dirección electrónica (http://www.ebi.ac.uk/clustal/w/). 
Para cada alineamiento se cuantificó el número de sustituciones presentes en 
cada retropseudogen respecto al gen funcional, sin considerar las inserciones y 
deleciones – indels – presentes; la justificación para esto es el desconocimiento de 
si las longitudes de las inserciones o deleciones se deben a uno o a varios 
eventos mutacionales, esto es, no se puede decidir si, por ejemplo, una inserción 
de tres nucleótidos fue producto de un solo evento mutacional o si fue 
consecuencia de dos o de tres eventos de inserción independientes. A partir del 
número de sustituciones presentes en cada retropseudogen se calculó la distancia 
entre las dos secuencias utilizando la corrección de Jukes - Cantor para múltiples 
sustituciones en un solo sitio (Graur y Li, 2000). Este modelo se basa en la 
suposición de que la probabilidad de sustitución entre los cuatro nucleótidos es la 
misma, es decir, pondera por igual las transiciones – purinas por purinas o 
pirimidinas por pirimidinas – que las transversiones – purinas por pirimidinas o 
viceversa -. Como este modelo se basa en un solo tipo de sustitución se le ha 
denominado modelo de un parámetro, a diferencia del modelo de Kimura en el 
cual se pondera de manera diferente a las transiciones que a las transversiones, y 
por esta razón denominado modelo de dos parámetros. En la práctica se ha 
observado que cuando las secuencias comparadas no muestran un alto valor de 
divergencia – tal como ocurre entre secuencias muy relacionadas como son los 
retropseudogenes y su gen funcional – los dos modelos dan esencialmente las 
mismas estimaciones de distancia, prefiriéndose utilizar el modelo de Jukes – 
Cantor por ser matemáticamente más sencillo (Kimura,1980; Graur y Li, 2000). 
Después de que dos secuencias de nucleótidos comienzan a divergir una de otra, 
cada una de ellas comenzará a acumular sustituciones de manera independiente, 
siendo ésta la variable básica más utilizada en estudios de evolución molecular. La 
estimación primaria de divergencia deriva de la cuantificación de diferencias, n, 
dividida entre la longitud de las secuencias comparadas, N ; el cociente n/N se 
denomina grado de divergencia o distancia de Hamming, el cual comúnmente se 
expresa como porcentaje, n/N x 100%. En este trabajo al cociente n/N se le dará 
el valor de p, el cual representa la proporción de nucleótidos diferentes 
(sustituciones por sitio) entre las dos secuencias comparadas. Utilizando el 
modelo de Jukes – Cantor, el valor de p obtenido para cada alineamiento queda 
integrado en el algoritmo J-C de la siguiente manera: 
K= - 3/4ln (1- 4/3p) 
donde K es el número de sustituciones por sitio a partir del tiempo de divergencia 
de las dos secuencias (Graur y Li, 2000). (Nótese que en el algoritmo de Jukes – 
Cantor la 
única variable es el valor p, siendo K una función directa de éste; todos los demás 
valores son estimadores constantes). 
Habiendo obtenido el valor de K, esto es, la tasa de sustitución de nucleótidos por 
sitio, nuestro siguiente propósito es la estimación de los tiempos de divergencia de 
cada una de las secuencias de retropseudogenes de HSP10 y HSP60, es decir, 
ubicar en una escala temporal los eventos de retroinserción que les dieron origen. 
Para obtener esta datación necesitamos hacer uso de la teoría del reloj molecular 
e introducir un estimador temporal del número de cambios – sustituciones – 
observados en los alineamientos; esto se logra mediante la introducción de la tasa 
de sustitución de nucleótidos por sitio por año, r, observadapara un número 
considerable de pseudogenes y retropseudogenes y la cual está relacionada con 
K mediante la ecuación: 
r = K/2T 
donde T es el tiempo de divergencia de las dos secuencias(Li, 1997; Graur y Li, 
2000). 
 El factor 2T en la ecuación anterior denota que a partir del evento de 
retroinserción – y por lo tanto de la formación del retropseudogen – cada 
secuencia evolucionó por separado (el gen funcional y su copia no funcional), por 
lo que cada secuencia se tiene que considerar como una línea evolutiva y 
temporal independiente. Ahora bien, los destinos evolutivos de ambas secuencias 
van a ser muy diferentes: mientras que la secuencia del gen funcional va a estar 
sujeta a restricciones selectivas impuestas sobre la función de la proteína 
codificada, la secuencia del retropseudogen va a estar liberada de estas 
restricciones, pues al no codificar para un producto proteico, no va a estar sujeta ni 
a selección purificadora (negativa) ni a selección direccional (positiva).Como 
consecuencia de lo antes mencionado, se puede asumir que la secuencia del 
retropseudogen solamente exhibirá sustituciones neutras en su secuencia, 
acumulándose a una tasa constante a lo largo del tiempo. Bajo la suposición de la 
existencia de un reloj molecular, su distancia evolutiva - medida como tiempo de 
divergencia respecto al parálogo funcional - será función, tanto de su tasa de 
mutación intrínseca por sitio por año, como del número de sustituciones respecto 
al gen funcional (Kimura, 1980; Li et al., 1981; Ophir et al., 1999. Las tasas de 
sustitución – mutación – propuestas para los diferentes pseudogenes y 
retropseudogenes analizados en la literatura ha sido estimada desde 1.5 x 10-9 
sustituciones por sitio por año (Ohshima et al., 2003), 3.5 – 3.9 x 10-9 sustituciones 
por sitio por año (Graur y Li, 2000) hasta 5x10-9 sustituciones por sitio por año 
(Kimura,1983), lo cual refleja la carencia de uniformidad en los criterios sobre el 
ritmo de evolución de las secuencias no codificantes. Este punto ha sido muy 
controvertido pues los tiempos de divergencia de las secuencias dependerán de la 
tasa de sustitución que se adopte, siendo esta tasa el “tic-tac” del reloj molecular 
empleado. La tasa obtenida por Graur y Li de 3.5 – 3.9 x 10-9 sustituciones por 
sitio por año está basada en la cuantificación de sustituciones en múltiples 
pseudogenes y retropseudogenes de diversos linajes, entre ellos los de roedores, 
primates y otros mamíferos, por lo que constituye un promedio de muy diversas 
velocidades en los reemplazos de nucleótidos – por ejemplo mayor en roedores 
que en primates -, haciendo esta estimación poco adecuada para aplicarla al caso 
específico de retropseudogenes en el linaje humano. En el caso de secuencias no 
codificantes en primates, la tasa propuesta por Kimura en 1983 de 5x10-9 
sustituciones por sitio por año (Kimura, 1983) fue calibrada respecto al tiempo de 
divergencia de los linajes de primates y roedores, el cual, según el registro fósil, 
tuvo lugar hace 80 millones de años. Utilizando esta tasa de sustitución - para la 
cual una divergencia de 1% entre secuencias corresponde a 1 millón de años - y 
aplicándola al estudio de pseudogenes de globina en primates, Charles Bailey et 
al. (1991) calcularon que la separación del linaje del chimpancé – Pan troglodytes 
- y del humano – Homo – ocurrió hace 1.6 millones de años, lo cual es un fechaje 
incorrecto, ya que actualmente se estima que esta separación de linajes tuvo lugar 
hace aproximadamente de 6 a 7 millones de años. Refinamientos posteriores en 
los métodos de calibración han demostrado que una tasa de 1.5 x 10-9 
sustituciones por sitio por año, la cual corresponde a una divergencia de 1% por 
cada 3.3 millones de años, es mucho más realista, pues al aplicarla a la datación 
de la divergencia Pan - Homo nos da una edad de 5.7 a 6 millones de años para 
este evento evolutivo (Li,1997;Ohshima et al., 2003; Devor y Moffat- Wilson, 
2005). Esta misma datación de 6 millones de años la obtuvieron por vez primera 
Vincente Sarich y Allan Wilson (1967) utilizando distancias inmunológicas y 
calibrando su reloj molecular respecto al tiempo de divergencia de los 
cercopitecoides y los hominoideos, hace 30 millones de años, según datos del 
registro fósil (Goodman et al. ,1998). Tomando en cuenta lo anterior, en este 
trabajo de tesis se utilizó la tasa de 1.5 x 10-9 sustituciones por sitio por año - la 
cual corresponde a una tasa de 0.15 sustituciones por 100 sitios por 106 años, 
correspondiente a una divergencia de 1% por cada 3.3 millones de años - para la 
estimación del tiempo de divergencia de los retropseudogenes de HSP10 y 
HSP60. 
La expresión matemática para la estimación del tiempo de divergencia del 
retropseudogen respecto al gen funcional está representada por la ecuación 
T= K/2r 
siendo el tiempo de divergencia T estimado en millones de años. En este punto es 
necesario señalar que la calibración del reloj molecular para la estimación de la 
tasa de sustituciones por sitio por año, r, está basada en los datos paleontológicos 
del registro fósil. A continuación se muestra un ejemplo de la utilización del reloj 
molecular para el cálculo del tiempo de divergencia entre dos linajes, el cual 
también puede ser utilizado para estimar el tiempo de divergencia entre dos 
secuencias : asumamos que la tasa de sustitución, r, para la cadena alfa de la 
hemoglobina es de 0.56 x 10-9 sustituciones por sitio por año y que las alfa 
globinas de rata y humano difieren por 0.093 sustituciones por sitio ( por lo tanto K 
= 0.093); suponiendo una tasa de mutación constante – implicación básica de la 
teoría del reloj molecular -, el tiempo de divergencia T estimado entre los linajes de 
primates y roedores es T = K/2r o sea T = 0.093/2(0.56 x 10-9) = 80 millones de 
años (Graur y Li, 2000). Para el caso específico de pseudogenes y 
retropseudogenes, entre las tasas de sustitución por sitio por año la más elevada 
que se conoce es de 3.9 x10-9 – tasa promedio en retropseudogenes de diversos 
linajes -; por ser secuencias sin restricciones selectivas, esta tasa de sustitución 
es igual a la tasa de mutación espontánea, lo cual no sucede en el caso de genes 
o de secuencias sujetas a presiones selectivas. Ya que el homólogo funcional del 
retropseudogen está sujeto a restricciones selectivas, se asume que las 
diferencias en las secuencias de nucleótidos son debidas a sustituciones que han 
ocurrido en el retropseudogen desde su aparición por retrotransposición y por lo 
tanto, el número de sustituciones será directamente proporcional al tiempo 
transcurrido desde el evento de inserción. 
 
 
 
 
 
IV.- RESULTADOS Y DISCUSION 
 
a) Secuencias homólogas identificadas. 
Las secuencias de los RNA mensajeros procesados de HSP10 y HSP60 se 
obtuvieron de la base de datos de GENBANK correspondiente al genoma humano 
y fueron utilizadas como secuencias “query” (sondas bioinformáticas de búsqueda) 
para la recuperación e identificación de las secuencias parálogas no funcionales – 
retropseudogenes – presentes en la base de datos de GenBank correspondiente 
al genoma de Homo sapiens. 
Para iniciar la búsqueda de secuencias se utilizaron los RNA mensajeros 
procesados (en su modalidad de cDNA) y no las secuencias de los genes 
completos con intrones, con el fin de incrementar la sensibilidad de la búsqueda, 
descartando el que se recuperen secuencias de baja complejidad presentes en 
intrones. Los números de acceso en GENBANK para las secuencias de los genes 
de HSP10 y HSP60 son los siguientes: HSP10 NM_002157 GI: 4504522 / HSP60 
NM_002156 GI: 41399283. El RNA mensajero de HSP10 consta de 538 
nucleótidos y el de HSP60 de 2339 nucleótidos, incluyendo regiones 5´y 3´no 
traducidas. 
El número de secuencias recuperadas (hits) con un valor de expectativa 
estadística e menor de 10-4 fueron de62 para el RNA mensajero de HSP10 y de 
72 para el RNA mensajero de HSP60 (ver Figuras 4 y 5); estos “hits” (secuencias 
recuperadas de longitud variable) fueron analizados con el fin de determinar, por 
su extensión y valor de expectativa, las que pudieran ser consideradas como 
retropseudogenes. Dada la estrategia de búsqueda del algoritmo BLAST, el 
número de secuencias recuperadas o 
FIGURA 4 
 
 
 
 
 
 
FIGURA 4 .- En esta figura se muestran las localizaciones de las diferentes 
secuencias homólogas del RNA mensajero de HSP10 que el programa 
BLASTn identifica en el genoma humano. Obsérvese que los “hits” se 
ubican tanto en cromosomas pequeños como en los de mayor longitud. 
 
 
 
 
 
 
 
 
, 
1: i- ~, t I I I I I 1: • • I 1: 4, 1" J I , , , • , • , • , W II II II 
" " CI .. 
, , • , • • • , , , , " .... " " • • " " " • , • • 
+ J. 
I 
~: I I I ~: • • I • I I I • 
II II " U II II • " " 
, , • " ;t el .. , , • • "; .. , • , " • 
 
 
 
 
 
 
FIGURA 5.- LOCALIZACIÓN DE SECUENCIAS HOMÓLOGAS DEL RNA 
MENSAJERO DE HSP60 HUMANO EN EL GENOMA DEL CHIMPANCÉ 
(VERSIÓN EN BORRADOR) MEDIANTE EL ALGORITMO DE BÚSQUEDA 
BLASTn 
 
 
 
 
 
 
 
1 • • 
~ It CI" 1 1 
~ It" ~ 12 
~: 
I • 
I -1 
ti " U Hit Gill 2 , H,u: 7 , 
• I I I 
1> ti 
, , 
" 
I 
I 
10 
li~Ull1-' 
2 1 1 2 
~ 1 6 4 
I 
I I I I I I i -J- I • I 
n • • ~ , , !!! rort pl.:td , , , 
I 10 I 
 “hits” siempre es mayor que el número real de secuencias similares presentes en 
el genoma, pues el algoritmo inicia su búsqueda detectando secuencias cortas y 
extendiendo la búsqueda sucesivamente. De esta manera, una secuencia de 
longitud similar al RNA mensajero que se utiliza como sonda o “query” es 
recuperada junto con cuatro o cinco subsecuencias de menor tamaño que se 
ubican en las mismas coordenadas - y por lo tanto pertenecen a la misma 
secuencia - pero que el algoritmo utilizado por BLAST las reconoce como 
secuencias independientes o “hits” independientes derivados de los alineamientos 
locales (http://www.ncbi.nlm.nih.gov ). 
Después de ensamblar los fragmentos (”hits”) de retrosecuencias recuperadas y 
de eliminar secuencias repetidas, el número de retropseudogenes identificados 
para HSP10 fue de 26 mientras que, para HSP60 se identificaron 14 
retropseudogenes – con una duplicación en el cromosoma 8 - (ver Cuadro 2). 
 
b) Ubicación cromosómica de los retrospeudogenes de HSP10 y 
HSP60. 
Respecto a las localizaciones cromosómicas de los retropseudogenes de HSP10, 
se observó que los cromosomas 1, 6, 12 y 16 fueron los que mayor número de 
retrosecuencias de HSP10 incorporaron, observándose un total de12 (46%) de los 
26 retropseudogenes identificados en el genoma humano (ver Figura 4). En estos 
cromosomas la densidad génica media es de 8 genes por Mb, siendo la densidad 
génica media del genoma humano de 7.1 ± 4.1 genes por Mb o 1 gen por cada 
141, 000 pb, lo cual es un indicio de que estas retroinserciones no se ubican 
preferencialmente en regiones despobladas de genes. No se observaron 
 
 
 
 
 
CUADRO 2 
 
 
NUMERO DE RETROPSEUDOGENES DE HSP10 Y HSP60 POR 
CROMOSOMA 
 
En este cuadro se muestran las localizaciones de los retropseudogenes de HSP10 
y HSP60 por cromosoma, así como las longitudes y densidades génicas por 
cromosoma. Se identificaron 26 retropseudogenes de HSP10 y 14 de HSP60 en el 
genoma humano. 
 
 
Cromosoma 
 
Tamaño (Mb) 
 
Densidad Génica 
(Genes por Mb) 
Número de 
retropseudogenes 
de HSP10 
Número de 
retropseudogenes 
de HSP60 
Número total de 
retropseudogenes
por Cromosoma 
1 246 8 3 1 4 
2 243 5 2 - 2 
3 199 5 1 1 2 
4 191 4 1 1 2 
5 181 5 1 2 3 
6 170 6 3 1 4 
7 158 6 - - 0 
8 146 5 2 2 4 
9 136 6 1 - 1 
10 135 6 1 1 2 
11 134 10 1 1 2 
12 132 8 3 1 4 
13 113 3 - 1 1 
14 105 6 2 - 2 
15 100 6 1 - 1 
16 90 10 3 - 3 
17 81 15 - - 0 
18 76 4 - - 0 
19 63 22 - - 0 
20 63 10 1 1 2 
21 47 5 - 1 1 
22 49 10 - - 0 
X 153 5 - - 0 
Y 50 2 - - 0 
 TOTAL 26 14 40 
 
 
retropseudogenes de HSP10 en los cromosomas 7,17,18,19,21 y 22 ni en 
cromosomas sexuales. Respecto a las ubicaciones de las retrosecuencias de 
HSP60 tampoco se observa una tendencia hacia inserciones en un cromosoma 
específico, excepto en lo señalado más arriba respecto a la carencia de 
retroinserciones en los cromosomas 17 y 19 (ver Figura 5), los cuales presentan la 
mayor densidad génica en el genoma humano – 15 genes por Mb o 1 gen por 
cada 67,000 pb en el cromosoma 17 y 22 genes por Mb o 1 gen por cada 45,000 
pb en el cromosoma 19. Una posible explicación del hecho de no observar 
retropseudogenes en los autosomas 17 y 19 sería que los eventos de 
retroinserción en cromosomas con alta densidad génica tenderían a ser sujetos a 
selección negativa, dada la mayor probabilidad de que las inserciones se 
localizaran en la vecindad de genes, ocasionando posibles interferencias con su 
función. Sin embargo, en estos cromosomas se han localizado una gran cantidad 
de otros retropseudogenes, lo cual señala que el hecho de no encontrar 
retropseudogenes de HSP10 y HSP60 en estos cromosomas posiblemente es 
resultado de procesos aleatorios. Para analizar si las ubicaciones de los 
retropseudogenes se deben en realidad a procesos aleatorios, se realizó una 
evaluación con el estadístico χ2, incluyendo los 40 retropseudogenes de HSP10 y 
HSP60 y su frecuencia por cromosoma. Para un nivel de significación de 99% 
(P=0.01), el análisis mostró que la distribución de los retropseudogenes presenta 
un carácter aleatorio respecto a los sitios de inserción, 
χ2= 62.61 < 63.7 siendo χ20.99 = 63.7 con 40 grados de libertad. 
No obstante lo anterior y como se observa en la Gráfica 1, existe una tendencia a 
evitar las inserciones de los retropseudogenes de HSP10 y HSP60 en regiones de 
elevada densidad génica. Como confirmación de lo anterior, en la Gráfica 2 se 
muestra la distribución de retropseudogenes de HSP10 y HSP60 respecto a la 
longitud de los cromosomas, observándose, en general, una correlación positiva 
entre el número de retropseudogenes de HSP10 y HSP60 y el tamaño 
cromosómico. Tampoco se observaron inserciones de retropseudogenes en los 
cromosomas sexuales, aunque en éstos la densidad génica por megabase es 
baja, 5 genes por Mb en el cromosoma X y 2 genes por Mb en el cromosoma Y. 
Esta carencia de retroinserciones de los cDNA de HSP10 y HSP60 en los 
cromosomas sexuales también puede deberse a procesos aleatorios, puesto que 
se ha observado que, para diversos retropseudogenes, el cromosoma X tiene una 
tasa de incorporación dos veces mayor que la estimada por un modelo aleatorio, 
indicando una intensa movilización de retrosecuencias entre cromosomas 
autosómicos y el cromosoma X. Estas retroinserciones han sido datadas, 
correspondiendo la mayoría de estas retroinserciones a eventos ocurridos antes 
de la separación de los linajes de primates y roedores, hace aproximadamente 
100 millones de años (Emerson et al., 2004). También se han identificado 
retropseudogenes propios del linaje de primates en este cromosoma, aunque no 
se ha resuelto si su localización cromosómica pertenece a regiones de 
eucromatina o heterocromatina, es decir, si estos retropseudogenes se ubican en 
regiones transcripcionalmente activas del cromosoma X (Betrán et al., 2004). De 
esta manera, las localizaciones genómicas de los retropseudogenes de HSP10 y 
HSP60 parecen deberse, principalmente, a eventos aleatorios no direccionales, lo 
cual es una evidencia importante a favor de la tesis de que los retropseudogenes 
no obedecen a selección positiva sino que su permanencia evolutiva en el genoma 
humano es consecuencia de procesos de fijación por deriva génica, es decir, de 
carácter neutro (Graur y Li, 2000). Como consecuencia de este proceso, sólo 
cuando las retroinserciones generen efectos deletéreos en la función de 
 
 
 
 
 
 
 
 
0
1
2
3
4
5
1 3 5 7 9 11 13 15 17 19 21 23
DENSIDAD GENICA(GENES POR Mb)R
E
TR
O
P
S
E
U
D
O
G
E
N
E
S
 D
E
 H
S
P
10
 Y
H
S
P
60
 
 
 
 
GRAFICA 1.- Aquí se muestra la distribución del número de retropseudogenes de 
HSP10 y HSP60 respecto a la densidad génica en los diferentes cromosomas 
humanos. Se observa que el número de retropseudogenes tiende a disminuir 
conforme aumenta la densidad de genes en los cromosomas. Este 
comportamiento de los retropseudogenes de HSP10 y HSP60 no es típico de otros 
retropseudogenes en el genoma humano, en los que se ha observado la tendencia 
a insertarse en cromosomas con alta densidad génica. Se indica la línea de 
tendencia. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0
1
2
3
4
5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
CROMOSOMA
N
Ú
M
ER
O
 D
E 
R
ET
R
O
PS
EU
D
O
G
EN
ES
 D
E 
H
SP
10
 Y
 H
SP
60
 
 
1-
1- 1- - 1-
GRÁFICA 2- Se muestra la distribución del número de retropseudogenes de 
HSP10 y HSP60 respecto a su ubicación cromosómica. Se observa la carencia de 
retroinserciones en los cromosomas con mayor densidad génica (17,19 y 22). 
Tampoco se observaron retroinserciones en los cromosomas sexuales. 
un gen o de una región regulatoria la selección negativa – purificadora - actuará, 
eliminando al genoma portador de la retroinserción dañina. 
 
c) Contextos genómicos de las retroinserciones. 
En los Cuadros 3 y 4 se muestran los contextos genómicos en los cuales se 
ubican los retropseudogenes de HSP10 y HSP60 identificados en el genoma 
humano. Aunque los retropseudogenes de HSP10 y HSP60 se encuentran en muy 
distintas localizaciones a lo largo de los cromosomas, en promedio los 
retropseudogenes de HSP10 se ubican a una distancia de 31,291 pb del gen más 
cercano, con una desviación estándar de 31,762 pb, indicando la gran dispersión 
en las distancias a regiones génicas. En el caso de los retropseudogenes de 
HSP60, se observa una distancia promedio de 8,000 pb del gen más cercano con 
una desviación estándar de 9,634 pb, lo cual nos indica, nuevamente, la gran 
variabilidad en las distancias respecto a los genes más cercanos. Si tomamos en 
consideración que en el genoma humano la densidad promedio de genes es del 
orden de 1 gen por cada 141,000 pb, se observa que ningún retropseudogen de 
HSP10 y HSP60 se localiza en regiones cromosómicas desiertas o pobres en 
genes – definiéndose los desiertos genómicos como aquéllas zonas de más de 
500 Kb sin presencia de genes - (Venter et al, 2001). Con respecto a lo anterior 
es necesario señalar que en el genoma humano existen 606 Mb distribuídas en 
desiertos genómicos de 500 Kb a 1 Mb de longitud así como 208 Mb distribuídas 
en desiertos mayores de 1Mb, lo cual equivale al 25% del genoma, ubicándose los 
desiertos genómicos principalmente en los cromosomas de menor densidad 
génica – cromosomas 4, 13,18 y Y. En estos cromosomas, el 27% de su longitud 
total 
 
CUADRO 4 
CONTEXTO GENOMICO DE LOS RETROPSEUDOGENES DE HSP60 
 Aquí se muestran las localizaciones de los retropseudogenes de HSP60 con 
su ubicación en brazos cortos (p) o largos (q) de cromosomas, sus 
coordenadas cromosómicas, la longitud de los retropseudogenes en 
nucleótidos, el porcentaje de GC observado en el sitio de inserción y el 
contexto genómico local que enmarca a cada retropseudogen. 
 
 
RETROPSEUDOGEN
Ψ 
LOCALIZACION EN 
CROMOSOMA 
COORDENADAS 
CROMOSÓMICAS 
LONGITUD DE LOS 
Ψ (PB) 
PORCENTAJE DE 
GC EN EL SITIO DE 
RETROINSERCION 
CONTEXTO 
GENÓMICO 
1 1p35.1 34219056-34220672 1616 
 
39% Este Ψ está inserto en 
un intrón del gen 
C2MD2 
3 3p22.3 36768786-36770983 2197 42% 25,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE, 
LINE y LTR. 
4 4q31.21 146344359-
146346572 
2213 37% 5,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE 
y LINE. 
5 5p15 19343539-19345257 1718 35% Este Ψ está inserto en 
un intrón del gen de 
RHOBTB3 
5A 5q14.3 92258377-92260062 1685 35% Este Ψ está inserto en 
un intrón del gen de la 
CADHERINA 12 
6 6q15 92783539-92785211 1672 35% Este Ψ está inserto en 
un intrón del gen 
GJB7. 
8 8p23.1 6420153-6421848 1695 42% 2,500 pb al gen más 
cercano, flanqueado 
por secuencias SINE 
y LINE. 
8A 8p23.1 8117534-8119229 1695 41% 1,700 pb al gen más 
cercano, flanqueado 
por secuencias SINE 
yLINE. 
10 10Q11.2 1453342-1453812 470 40% 17,500 pb al gen más 
cercano, SINE. 
11 11q22.3 110421038-
110422673 
1725 35% Este Ψ está inserto en 
un intrón del gen 
GRIA4 
 
 
CUADRO 4 (CONTINUACI0N) 
 
 
RETROPSEUDOGEN
Ψ 
LOCALIZACION EN 
CROMOSOMA 
COORDENADAS 
CROMOSÓMICAS 
LONGITUD DE LOS 
Ψ (pb) 
PORCENTAJE DE 
GC EN EL SITIO DE 
RETROINSERCION 
CONTEXTO 
GENÓMICO 
12 12q13.3 55191006-55193212 2206 39% 10,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE. 
 
13 13q13.3 
 
34114754-34116427 1673 39% Este Ψ está inserto en 
un intrón del gen 
Trasposasa 22.187. 
20 20q.12 43602133-43602300 167 38% 690 pb al gen más 
cercano 
21 21q21.3 29181168-29182452 1284 40% 1,500 pb al gen más 
cercano, flanqueado 
por secuencias SINE. 
 
 
CUADRO 3 
CONTEXTOS GENOMICOS DE LOS RETROPSEUDOGENES DE HSP10 
Aquí se muestran las localizaciones de los retropseudogenes de HSP10 con su 
ubicación en brazos cortos (p) o largos (q) de cromosomas, sus coordenadas 
cromosómicas, la longitud de los retropseudogenes en nucleótidos, el porcentaje 
de GC observado en el sitio de inserción y el contexto genómico local que 
enmarca a cada retropseudogen. 
 
RETROPSEUDOGEN
Ψ 
LOCALIZACION EN 
CROMOSOMA 
COORDENADAS 
CROMOSÓMICAS 
LONGITUD DE LOS 
Ψ (PB) 
PORCENTAJE DE 
GC EN EL SITIO DE 
RETROINSERCION 
CONTEXTO 
GENÓMICO 
1 1q32.1 201050290 - 
201050574 
284 45% 55,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE. 
1A 1p34.3 39183224 - 39183516 292 42% Ubicado en el intrón 
del gen MACF1. 
1B 1p36.12 20957949 - 20958197 248 49% 50,000 pb al gen más 
cercano, flanqueado por 
secuencias LINE. 
2 22p22.1 39299633 - 39300032 399 42% Este Ψ está Ubicado 
en el intrón del gen 
SOS1. 
2A 22q37.1 235650888-
235651268 
380 44% 110,000 pb al gen 
más cercano, 
flanqueado por 
secuencias LTR y 
LINE. 
3 3p11.1 90131251-90131599 348 43% Este Ψ está Ubicado 
en el intrón del gen 
PROS1 
4 4q13.3 76301385-76301861 476 39% 15,000 pb al gen más 
cercano, flanqueado 
por secuencias LTR, 
SINE y LINE. 
5 5q23.2 126149674-
126149980 
306 43% Este Ψ está ubicado 
en el intrón del gen 
UBE2D2. 
6 6p21.31 35038126-35038570 444 51% Este Ψ está insertado 
en un intrón del gen 
ANKS1. 
6A 6q23.2 133811915-
133812434 
519 37% Este Ψ está ubicado 
en un intrón del gen 
EYA4. 
6B 6q25.3 165274947-
165275221 
274 38% Este Ψ está ubicado 
en un intrón del gen 
SNX9. 
8 8q22.3 103421238-
103421474 
236 49% 40,000 pb al gen más 
cercano, flanqueado 
por secuencias 
SINE,LINE, LTR y 
repeticiones A-T. 
 
 
 
 
 
 
 
CUADRO 3 (CONTINUACION) 
 
 
RETROPSEUDOGEN
Ψ 
 
LOCALIZACION 
EN CROMOSOMA 
COORDENADAS 
CROMOSÓMICAS 
 
LONGITUD DE LOS 
Ψ (PB) 
 
PORCENTAJE DE 
GC EN EL SITIO DE 
RETROINSERCION 
CONTEXTO 
GENÓMICO 
9 
 
 
9q22.31 90131251-90131599 348 43% 3,000 pb al gen más 
cercano, flanqueado por 
secuencias SINE. 
11 11q23.3 117617105-
117617596 
491 49% Este Ψ está insertado 
en un intrón del gen 
AMICA 1. 
12 12p13.2 10814141-10814598 457 40% Este Ψ está insertado 
en un intrón del gen 
LOC441629 
12A 12q23.2 100769435-
100769908 
473 39% 4,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE 
y LTR. 
12B 12q24.32 125749638-
125750090 
452 43% 3,000 pb al gen más 
cercano, flanqueado 
por secuencias SINE, 
LINE y repeticiones 
A-T. 
14 14q23.2 62058230-62058695 465 41% Este Ψ está insertado 
en un intrón del gen 
C14orf32 (proteína 
hipotética). 
14A 14q23.3 63574342-63574514 172 44% 14,000 pb al gen más 
cercano, flanqueado 
por scuencias SINE y 
LINE. 
 
 
 
 
 
 
 
 
 
 
CUADRO 3 (CONTINUACION)RETROPSEUDOGEN
Ψ 
LOCALIZACION 
EN CROMOSOMA 
COORDENADAS 
CROMOSÓMICAS 
LONGITUD DE LOS 
Ψ (PB) 
PORCENTAJE DE 
GC EN EL SITIO DE 
RETROINSERCION 
CONTEXTO 
GENÓMICO 
15 15q26.1 8890321-8890768 447 
 
40% Este Ψ se encuentra 
insertado en un intrón 
del gen TORC3 
16 16q22.1 68496429-68496900 471 48% Este Ψ se encuentra 
insertado en un intrón 
del gen de Cadherina 
3. 
16A 16p12.1 26040648-26041014 366 42% Este Ψ se encuentra 
insertado en un intrón 
del gen HS3ST4. 
16B 16q22.3 74425984-74426344 
 
 
360 44% 6,500 pb al gen más 
cercano, flanqueado 
por secuencias SINE. 
20 
 
20q12 39246844-39247333 489 39% 50kb al gen más 
cercano, SINE. 
 
. 
 
 
 
corresponde a zonas desprovistas de genes (Venter et al., 2001). Habiendo tal 
cantidad de espacio no génico en el genoma para poder acomodar las 
retroinserciones, ¿porqué, entonces, los retropseudogenes de HSP10 y HSP60 no 
se ubican, preferencialmente, en estas regiones desérticas? Desde un punto de 
vista seleccionista, las retrotransposiciones deberían ubicarse, en su mayoría, en 
regiones genómicas libres de genes o con una densidad génica muy baja, 
evitando las posibles mutaciones insercionales en zonas regulatorias como 
promotores y otras secuencias involucradas en la expresión genética así como en 
regiones codificantes. Sin embargo, los datos derivados de diversos estudios 
sobre identificación de retropseudogenes en el genoma humano han evidenciado 
que: a) el número de retropseudogenes en cada cromosoma es, en lo general, 
proporcional a la longitud del cromosoma (Zhang et al., 2003); lo anterior es un 
reflejo del carácter aleatorio del proceso de retroinserción y b) la densidad de 
retropseudogenes por Megabase muestra una relativa correspondencia con la 
densidad génica (Ohshima et al., 2003). De esta manera, los cromosomas con alta 
densidad génica, 11,17,19, tienden a tener mayor número de retropseudogenes 
por Mb, mientras que los cromosomas con baja densidad génica, 4, 13, 18, 21 y Y, 
muestran un menor número de retropseudogenes por Mb. Es de interés señalar 
que para el caso específico de los retropseudogenes de HSP10 y HSP60 esta 
última condición no se cumple. 
 Los incisos a y b pueden a primera vista parecer contradictorios entre sí, pero si 
tenemos en cuenta que el número absoluto de retropseudogenes por cromosoma 
se relaciona, en general, con la longitud del cromosoma, veremos que al 
distribuirse aleatoriamente en todos los cromosomas, los cromosomas de menor 
tamaño mostrarán, en general, un enriquecimiento en retropseudogenes por Mb. 
En términos cuantitativos, la densidad promedio de retropseudogenes en los 
cromosomas 4 y 8 – bajos en genes pero de gran extensión – es de 2 
retropseudogenes por Mb, mientras que en el cromosoma 19 – rico en genes 
aunque de tamaño pequeño – la densidad es de 3.7 retropseudogenes por Mb 
(Ohshima et al., 2003; Zhang et al., 2003). 
Otra forma de resolver el aparente conflicto sobre la distribución de espacio 
cromosómico que surge del hecho de que los cromosomas con mayor densidad 
de genes atraigan el mayor número de retropseudogenes por Mb, se resuelve al 
considerar que, aún tomando al cromosoma con mayor densidad génica, el 19, 
con 23 genes por Mb y un tamaño promedio por gen de 27 Kb, el espacio 
cromosómico desprovisto de genes es de18 Mb, suficiente para acomodar los 123 
retropseudogenes reportados para este cromosoma (Ohshima et al., 2003; Venter 
et al., 2001). 
De lo anterior se desprende que los eventos de retroinserción están relacionados, 
tanto con la longitud cromosómica como con los contextos genómicos que los 
enmarcan (densidad de zonas génicas, intrones de gran longitud), es decir, con 
las características intracromosómicas particulares condicionantes de los eventos 
de inserción. Es debido solamente a estas particularidades de contexto que las 
retroinserciones están sujetas a selección negativa – ya que por su carácter 
neutral desprovisto de función, una retroinserción sólo puede originar efectos 
deletéreos cuando se ubica en una región codificante o bien reguladora – y no a 
procesos de selección positiva, lo cual implicaría un rasgo funcional asociado a los 
retropseudogenes (el cual sabemos que no poseen). Todo lo anterior nos lleva a 
plantear una nueva interrogante: ¿Porqué los retropseudogenes se ubican con 
mayor frecuencia en regiones pobladas de genes? 
La explicación que se ha ofrecido para contestar esta pregunta está basada en 
una argumentación de tipo estructural: Aquéllas regiones cromosómicas con 
mayor densidad de genes – y por lo tanto con un nivel de expresión mayor que 
otras regiones pobres en genes - muestran una estructura más abierta de la 
cromatina que aquéllas regiones con menor densidad génica, lo cual favorecería 
una mayor tasa de retroinserciones de cDNA mediada por elementos LINE 1 en 
estas regiones (Ohshima et al., 2003). Esta hipótesis tiene apoyo en el hecho de 
que los cromosomas con la mayor cantidad de desiertos génicos (los cuales están 
desprovistos en su mayor parte de secuencias LINE y SINE), como son los 
cromosomas 4, 13 y 18 son los que muestran las menores densidades de 
retropseudogenes, 1.8 retropseudogenes por Mb en promedio, mientras que 
aquéllos cromosomas con las mayores densidades génicas, 17,19 y 22, son los 
que poseen las mayores densidades de retropseudogenes: 3, 3.7 y 2.7 
retropseudogenes por Mb, respectivamente (Venter et al., 2001;Ohshima et al., 
2003; Zhang et al., 2003). 
 
Otra característica importante que se observa respecto a los contextos de 
ubicación de los retropseudogenes de HSP10 y HSP60 es el hecho de que 
aproximadamente la mitad de todas las retroinserciones de los RNA mensajeros 
de HSP10 y HSP60 se localizaron en intrones (ver Cuadros 5 y 6). Este es un 
dato relevante en relación con las secuencias que señalizan los sitios de inserción 
de los diferentes retrotransposones movilizados por secuencias LINE 1 (Alu, MIR, 
MIR 3, LINE 2, LINE 3 y retropseudogenes). Diversos estudios han mostrado que 
las regiones blanco para la inserción de retrotransposones dirigida por la 
maquinaria enzimática de LINE1 contiene una de las siguientes secuencias: 
5´TTTTAA 3´, 5´TTTCAA 3´, 5´TTCTAA 3´, 5´TCTTAA 3´ y 5´CTTTAA 3´; cuando 
se llevó a cabo una búsqueda bioinformática de estas secuencias en el genoma 
humano se observó que su frecuencia fue tres veces 
 
CUADRO 5 
 
RETROPSEUDOGENES DE HSP10 ANIDADOS EN INTRONES 
Retropseudogenes anidados de HSP10. Se enlistan los retropseudogenes que 
fueron localizados en intrones junto con las longitudes de los retropseudogenes, 
de los genes y de los intrones. Obsérvese que en el cromosoma 6 se ubican 3 
retroinserciones anidadas, no obstante que este cromosoma muestra baja 
densidad génica. Este hecho subraya el carácter aleatorio de los eventos de 
retroinserción, pues a pesar de que el cromosoma 6 es de baja densidad en genes 
– y por lo tanto existe gran espacio intergénico – los 3 retropseudogenes de 
HSP10 se localizan en zonas intragénicas. La única restricción probable para 
eventos de anidación molecular es el tamaño del intrón respecto a la longitud del 
retropseudogen. 
 
Retropseudogen 
Ψ 
Gen 
Longitud del 
gen (pb) 
Longitud aprox. 
del intrón (pb) 
Distancia aprox. 
del 
retropseudogen 
al exón más 
cercano (pb) 
Ψ2 SOS1 184, 921 50,000 22, 000 
Ψ3 PROS1 101,029 50,000 20,000 
Ψ5 UBE2D2 67,265 7,000 3,000 
Ψ6 ANK2 202,153 27,000 4,000 
Ψ6A EYA4 86,550 9,000 2,000 
Ψ6B SNX9 56,263 5,000 2,500 
Ψ8 COPS5 19,252 6,000 1,500 
Ψ11 AMICA 19,397 5,000 1,500 
Ψ14 C14orf150 45,000 28,000 2,000 
Ψ15 TORC3 115,264 8,000 3,000 
Ψ16 CADH3 34,245 2,000 800 
Ψ16A HS3ST4 445,664 400,000 75,000 
 
 LONGITUD PROMEDIO DE LOS GENES = 114,750 pb (d.e.= 119,956 pb) 
 LONGITUD PROMEDIO DE LOS INTRONES = 49,750 pb (d.e.= 110,985 pb) 
 
CUADRO 6