Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
ESTRUCTURA Y ORGANIZACIÓN DEL GENOMA HUMANO De todos los genomas existentes, el humano es el que reviste una mayor relevancia e interés en el área de la genética médica. El genoma humano está compuesto por dos elementos: un genoma nuclear complejo que constituye 99.9995% de la información genética total y un genoma mitocondrial simple que aporta el 0.0005% restante (cuadro 2-1). El genoma nuclear haploide está constituido por 3 200 Mb (megabases) y cada una de los 13 millones de células que componen el cuerpo humano contiene en general la misma secuencia de nucleótidos. El mtDNA tiene un tamaño de tan sólo 16.6 kb (kilobases), aunque la cantidad por célula varía de acuerdo con el número de mitocondrias presentes. CUADRO 2–1. Características principales del genoma nuclear y mitocondrial humano Característica Genoma nuclear Genoma mitocondrial Tamaño 3 200 Mb 16.6 kb N° de moléculas de DNA diferentes 23 (células XX) o 24 (células XY) Una molécula DNA circular N° total de moléculas por célula 46 en células diploides, 23 en gametos Varios miles (varía por tipo celular) Proteínas adjuntas Varias clases de proteínas, histonas y no histonas Casi libre de proteínas N° de genes que codifican a proteínas ~20 000 13 Porcentaje de DNA que codifica a proteínas ~1.1% ~66% N° de genes para ncRNA ~26 000 24 Densidad génica ~1/120 kb 1/0.45 kb DNA repetitivo >50% del genoma Muy poco Transcripción Transcripción individual de la mayor parte de los genes Un transcrito multigénico a partir de cada cadena (pesada y ligera) Intrones Presentes en la mayor parte de los genes Ausentes Uso de codones 61 codones para aminoácidos y tres codones de paro, UAG, UAA y UGA 60 codones para aminoácidos y dos codones de paro, UAG y UAA; dos codones AGA y AGG con función indeterminada Recombinación Al menos un suceso entre cada par de homólogos durante la meiosis Sólo para reparación y replicación Herencia Mendeliana para los genes en el X y autosomas; paterna para los genes del Y Exclusivamente materna Mb, 106 pares de bases; kb, 103 pares de bases. GENOMA NUCLEAR El genoma nuclear humano comprende 24 moléculas lineales de DNA de doble cadena diferentes, la más corta de 50 Mb y la más larga de 263 Mb, cada una contenida en un cromosoma. La cromatina es la estructura macromolecular compleja integrada por DNA, RNA y proteínas que forma los cromosomas de las células eucariontes. La eucromatina posee una estructura relativamente descondensada y en ella se encuentran las secuencias transcripcionalmente activas, a diferencia de la heterocromatina que está muy condensada y puede ser constitutiva o facultativa. El contenido de pares GC (G + C) promedio del componente eucromático del genoma nuclear humano es de 41%; sin embargo, existe una variación considerable entre los cromosomas, desde 38% en el cromosoma 4 o 40% en el 13 hasta 48% en el 19 o 49% en el 22. La composición de nucleótidos también varía a lo largo de cada cromosoma, lo cual se manifiesta con propiedades de tinción diferentes (bandas). Cabe señalar que la proporción del dinucleótido CpG, es decir, una citosina adyacente a una guanina en la misma cadena en dirección 5’→3’, se encuentra en el genoma con una frecuencia cinco veces menor a la esperada de acuerdo con el contenido de G + C. En el DNA de los mamíferos, las citosinas de los dinucleótidos CpG están metiladas en el carbono 5 y producen 5-metilcitosina (5mC) en ambas cadenas del DNA. A través de la evolución, la desaminación gradual de los residuos de 5mC llevó al cambio de CpG por TpG, lo que explica su baja frecuencia. Estos dinucleótidos metilados constituyen puntos calientes para mutaciones en el genoma humano. En contraste, ciertas regiones del genoma contienen una densidad mayor de secuencias CpG y reciben el nombre de islas CpG. Éstas se encuentran por lo general en los extremos 5’ (promotor o primer exón) de la mayor parte de los genes de mantenimiento celular, tienen un contenido de GC mayor de 50%, abarcan 1-2 kb y las más de las veces se encuentran desmetiladas para posibilitar la transcripción de los genes adyacentes. En el genoma humano nuclear, la densidad génica varía en las regiones cromosómicas; esto se infirió a partir de los patrones de bandas que se observan en los cromosomas metafásicos mediante diferentes métodos de tinción. Con posterioridad, la hibridación de fracciones purificadas de islas CpG sobre los cromosomas confirmó que la densidad génica mayor se halla en las regiones subteloméricas, con cromosomas ricos en genes como el 19 y el 22, y otros pobres como el 4, 13, 18, 21, X y Y. Estos datos se corroboraron más adelante mediante el análisis de la secuencia del genoma humano. En la actualidad se calcula que la mayor parte del genoma humano nuclear se transcribe (75 a 85%) y que contiene ~60 000 genes, de los cuales ~20 000 codifican para proteínas, al menos 26 000 genes para ncRNA y los restantes 14 000 corresponden a seudogenes (genes sin un producto proteico funcional). De los genes para ncRNA, ~16 000 corresponden a ncRNA largos o lncRNA (long non-coding RNA) y ~10 000 a ncRNA cortos o sncRNA (small non-coding RNA). Sin embargo, este número de genes aún debe tomarse de manera provisional debido a que continúa el análisis de la secuencia del genoma humano y sus productos. Es importante señalar que si bien la porción traducida del genoma, que corresponde a los exones codificantes, es muy pequeña (<1.2%), los transcritos primarios de los mRNA, incluidos los intrones, representan cerca de 26% del genoma. El genoma humano contiene secuencias de nucleótidos que se repiten en grado variable, desde secuencias de copia única hasta secuencias de alta repetición. Las secuencias de copia única y los repetidos de número de copias bajo o LCR (low copy repeats) comprenden cerca de 40% del genoma humano; el resto corresponde a repetidos de número de copias alto. Estas secuencias pueden encontrarse repetidas en tándem, agrupadas en una región particular o dispersas por todo el genoma. Las secuencias repetidas en el genoma humano son de diferentes tipos. Existen secuencias no codificantes cortas cuyo número varía de unas cuantas a millones de copias, incluidos los diferentes tipos de repeticiones en tándem (DNA satélite, minisatélite y microsatélite, que forman parte de las secuencias de repetición alta). Otras secuencias presentes en más de una copia son más largas y comprenden desde unas cuantas kilobases hasta varias megabases y contienen genes y fragmentos génicos. Estas secuencias se originaron por duplicación de ciertas regiones genómicas. La presencia en el genoma humano de secuencias repetidas en tándem o dispersas predispone, por diferentes mecanismos, a que se produzcan cambios en su número. La secuenciación de varios genomas individuales permitió identificar diferencias entre ellos, desde cambios en la secuencia de un sólo nucleótido o SNV (single nucleotide variant) hasta la denominada variación estructural del genoma que incluye a las variantes en el número de copias de regiones genómicas o CNV (copy number variation) y a las modificaciones en su localización dentro del genoma (véase el Anexo I, Variabilidad en el genoma humano). Genes que codifican para polipéptidos El tamaño de los genes con productos proteicos varía de menos de una kilobase (SRY, sex- determining region Y, 0.9 kb; MIM 480000) hasta más de dos megabases (DMD, Duchenne muscular dystrophy, 2.4 Mb; MIM 300377), con un tamaño promedio de 100 kb. Existen pocos genes sin intrones (SRY) y algunos tienen hasta más de 300 (TTN, titin, con 362; MIM 188840); se calcula que en promedio poseen ocho exones y siete intrones. El tamaño de los intrones también presenta una gran variabilidad, desde menos de 30 pb (pares de bases) hasta más de 1 Mb (promedio, 7 563 pb; mediana, 1 964 pb); el de los exones es más constante con un promedio de 320 pb (mediana, 145 pb), desde menos de 10 pb hasta más de 18 kb. Los polipéptidos también muestran variación en su tamaño y los más pequeños tienen menosde 10 aminoácidos (varios neuropéptidos) y la proteína más grande, la titina, posee 34 350 residuos de aminoácidos. La mayor parte de los genes que codifican para cadenas polipeptídicas se encuentra en las secuencias de copia única por genoma haploide. Pocos polipéptidos humanos están codificados por dos o más copias de un gen. Cuando esto ocurre, están codificados por genes que se han duplicado y tienen estructuras y funciones similares por la divergencia evolutiva subsecuente. Algunos se agrupan en regiones cromosómicas específicas (clúster o agrupamiento), mientras que otros están dispersos en el genoma. Ambos constituyen las familias génicas que pueden ser de dos tipos: familias génicas, que muestran un alto grado de similitud en sus secuencias de DNA y las de sus productos proteicos o que tienen escasa homología en sus secuencias pero comparten secuencias específicas que codifican para un dominio proteico particular; y superfamilias génicas, que poseen una homología limitada en sus secuencias pero están relacionadas en su función. Algunos ejemplos de familias génicas son los agrupamientos génicos de la globina α en el cromosoma 16p13.3 y la globina β en 11p15.4, o la familia génica HOX (homeobox) integrada por cuatro agrupamientos de cerca de 10 genes localizados cada uno en un cromosoma diferente. Las superfamilias génicas tienden a situarse de manera dispersa en localizaciones cromosómicas diversas, como la superfamilia de las inmunoglobulinas que incluye a los genes para los diferentes tipos de inmunoglobulinas, receptores de células T, moléculas de clases 1 y 2 del sistema de antígeno leucocitario humano o HLA (human leukocyte antigen) y los receptores para los factores de crecimiento de fibroblastos, entre otros. En el Anexo 2, Nomenclatura de genes humanos y sus variantes, se resumen las reglas internacionales propuestas por el Comité de Nomenclatura de Genes de la Organización del Genoma Humano (HUGO Gene Nomenclature Committee, HGNC) para designar a los genes humanos y las propuestas para el uso de una terminología uniformada para describir las variantes en la secuencia genómica humana en las bases de datos y en las publicaciones científicas por el grupo de trabajo para la descripción de las variantes de secuencia (SVD- WG, Sequence Variant Description Working Group) que opera bajo los auspicios de tres organizaciones internacionales: HGVS (Human Genome Variation Society), HVP (Human Variome Project) y HUGO (Human Genome Organization). Seudogenes y genes procesados En el genoma existen secuencias que tienen una gran similitud con genes conocidos pero carecen de un producto proteico funcional; se conocen como seudogenes. Estas secuencias son producto de duplicación génica y por mutaciones en regiones codificantes o regulatorias se volvieron defectuosas, lo cual resulta en un seudogén convencional o no procesado. Por ejemplo, existen un seudogén para la globina α y tres de la β localizados en sus agrupamientos respectivos. Para otros genes hay varios seudogenes situados en cromosomas diferentes; por ejemplo, para el gen NF1 (neurofibromatosis type 1, MIM 613113) se conocen al menos 11 seudogenes distribuidos en cromosomas diferentes, incluidos algunos de ellos en las regiones pericentroméricas. Otro tipo de seudogenes, los seudogenes procesados, se originaron por la inserción en el genoma de secuencias de DNA complementario o copia (cDNA) producidas por la acción de una transcriptasa reversa sobre un mRNA funcional (retrotransposición). Al provenir de moléculas de cDNA, los seudogenes procesados carecen de intrones y su reinserción ocurre en posiciones al azar, por lo que rara vez se encuentran dentro de los agrupamientos de las familias génicas. En algunos casos, este mecanismo ha generado genes procesados o retrogenes que mantienen un ORF funcional y pueden expresarse por poseer promotores internos o quedar bajo el control de secuencias reguladoras en la zona de inserción. Un ejemplo de retrogén es el gen GK2 (glycerol kinase 2, MIM 600148) localizado en 4q13, cuyo homólogo GK (glycerol kinase, MIM 300474) en Xp21.2 posee 20 intrones. Las copias génicas defectuosas pueden tener sólo algunas porciones de las secuencias génicas, algunas veces un solo exón y se describen como fragmentos génicos. Es importante señalar que una proporción significativa de los seudogenes, convencionales y procesados, se transcribe; no obstante, esto no es suficiente para indicar si tienen una función biológica particular. Los datos actuales muestran que esta transcripción se realiza en un grado bajo y con un patrón específico de tejido o línea celular, lo cual podría generar moléculas funcionales de RNA con lo que se clasificarían como genes para ncRNA. Genes que codifican a moléculas de ncRNA El análisis reciente del genoma y del transcriptoma humano ha revelado la existencia de numerosos ncRNA, definidos como moléculas funcionales de RNA que no codifican para proteínas. En este grupo de genes se incluyen los ncRNA tradicionales como los RNA ribosómicos (rRNA), los RNA de transferencia (tRNA) y los RNA pequeños nucleares (snRNA) que participan en el proceso de la expresión génica. Los transcritos con funciones regulatorias se clasifican de acuerdo a su tamaño en sncRNA, ~20 a 200 nucleótidos (nt), y en lncRNA, >200 nt. Los genes de RNA necesarios para la traducción del mRNA existen en copias múltiples; las moléculas 28S, 18S y 5.8S de los rRNA citoplásmicos están codificadas en una sola unidad transcripcional que se repite en tándem cerca de 250 veces por genoma haploide y se encuentran en cinco grupos de 30 a 50 repeticiones localizadas en las regiones organizadoras nucleolares (NOR) de los brazos cortos de todos los cromosomas acrocéntricos humanos (cromosomas 13, 14, 15, 21 y 22). El rRNA 5S citoplásmico está codificado por varios cientos de copias génicas localizadas en tres regiones del brazo largo del cromosoma 1. Los genes para los tRNA pertenecen a una gran familia génica que comprende 49 subfamilias diferentes, cada una con varios miembros que codifican para las diferentes especies de tRNA (cuadro 2-2). CUADRO 2–2. Tipos de RNA no codificante (ncRNA) humano y sus funciones Clase Ejemplos Funciones ncRNA típicos RNA ribosómico (rRNA) ~120 a 5 000 nt 28S, 5.8S, 18S y 5S rRNA Componentes en ribosomas del citoplasma 12S y 16S rRNA Componentes en ribosomas de mitocondrias RNA de transferencia (tRNA) ~70 a 80 nt 49 tipos tRNA citoplásmicos (588 genes) Unión a los codones del mRNA citoplásmico 22 tipos de tRNA mitocondriales (22 genes) Unión a los codones del mRNA mitocondrial 5 tipos de tRNA mitocondriales codificados en genoma nuclear (27 genes) Unión a codones del mRNA mitocondrial RNA pequeño nuclear (snRNA) ~60 a 360 nt Más de 38 tipos (65 genes) U1, U2, U4, U5 y U6 snRNA Componentes principales del complejo removedor de intrones y empalmador de exones U6atac, U11 y U12 snRNA Componentes menores del complejo removedor de intrones y empalmador de exones ILF3 snRNA (28 genes) Relacionados con el complejo removedor de intrones y empalmador de exones U7 snRNA Terminación de transcripción mRNA de histonas 7SK RNA (un gen) Regulador de factores de transcripción RNA pequeño nucleolar (snoRNA) ~60 a 300 nt Más de 100 tipos diferentes snoRNA con caja C/D (326 genes) Metilación sitio específica en 2’ OH de rRNA snoRNA con caja H/ACA (143 genes) Modificación específica de rRNA por formación de seudouridina RNA pequeños de cuerpos de Cajal (scaRNA), ~28 tipos Localizados en cuerpos de Cajal del núcleo, maduración de ciertas clases de snRNA para formar snRNP RNA no codificantes pequeños reguladores (sncRNA) <200 nt ~8 500 genes Regulación de la expresión génica Micro-RNA (miRNA) ~21 nt ~1 777 genes Regulación de expresión en diferentes aspectos, iRNA Piwi-RNA (piRNA) ~26 a 31 nt >15 000 genes y seudogenes, 114 Silenciamiento de retrotransposones en la línea germinal agrupamientos* Vault-RNA vtRNA ~88 a 100 nt 4 genes y 2 seudogenes Formación de partículas ribonucleicasen citoplasma; intervienen en el transporte intracelular y núcleo-citoplasma Y RNA ~100 a 120 nt 4 genes en un agrupamiento y ~1 000 seudogenes Necesarios para el inicio de la replicación RNA no codificantes largos >200 nt ~16 000 genes identificados Pocos con función conocida; regulación de la expresión génica y otras Ribonucleasas de RNA ~260 a 320 nt RNasa P (un gen), 341 nt Procesamiento de los tRNA nucleares 7SL RNA ~300 nt 3 genes en un agrupamiento y 684 seudogenes Componente de la partícula de reconocimiento (SRP) para el transporte de proteínas de secreción al retículo endoplásmico RNA telomerasa 541 nt Un gen (TERC) Componente de la telomerasa, templado para la síntesis del DNA telomérico RNA no codificantes largos reguladores >1 kb ~16 000 genes identificados Regulación de la expresión génica Relacionados con inactivación del cromosoma X XIST RNA, 19.3 kb (un gen) Inicio de la inactivación del cromosoma X TSIX RNA, 37.0 kb (un gen) Transcrito antisentido, apagado de XIST en X activo Relacionados con el establecimiento de impronta H19 RNA, 2.3 kb (un gen) Improntado, apagado del alelo materno de IGF2 RNA antisentido, 1 kb Desconocido >1 500 genes HOTAIR, 2.2 kb (un gen) Apagado de genes HOX KCNQOT1, 59.5 kb (un gen) Improntado, apagado de varios alelos paternos PEG3, 1.3 kb (un gen) Improntado, expresión del alelo paterno Kb, kilobase; nt, nucleótido; snRNP, complejo de ribonucleoproteína, parte del complejo removedor de intrones y empalmador de exones; RNAi, interferencia por RNA; *número de genes individuales desconocido. Los snRNA recibieron este nombre para diferenciarlos de los transcritos primarios de los mRNA y se les designa como U-RNA por su elevado contenido de uridina. Estos snRNA se relacionan con grupos específicos de proteínas para formar complejos snRNP (small nuclear ribonucleoprotein). Algunos snRNA participan en el proceso de remoción de intrones y empalme de exones. Otros miembros de los snRNA son los RNA pequeños nucleolares o snoRNA (small nucleolar RNA). Algunos funcionan en el procesamiento hidrolítico del transcrito primario de los rRNA, pero la mayor parte guía la 2’ O- metilación en la ribosa y la conversión de uridina en seudouridina en nucleótidos individuales de los rRNA, procesos que se llevan a cabo en el nucleolo. Un subtipo de los snoRNA son los RNA de los cuerpos de Cajal o scaRNA que se encuentran en estas estructuras discretas del núcleo. Participan en el ensamblado de los complejos snRNP al actuar como guías en las reacciones de modificación de los snRNA que son parte del complejo removedor de intrones y empalmador de exones, tal y como actúan los snoRNA en las modificaciones al rRNA en el nucleolo (cuadro 2-2). En forma similar a los snRNA y los snoRNA, los sncRNA reguladores se procesan por lo general por proteínas que se unen a sus transcritos primarios para producir las moléculas funcionales pequeñas, las cuales se ensamblan en complejos de RNP funcionales. El principal representante de este grupo son los microRNA (miRNA) que se transcriben de diferentes loci, agrupados o dispersos, y localizados en regiones génicas o intergénicas o numerosos ncRNA, definidos como moléculas funcionales de RNA que no codifican para proteínas. En este grupo de genes se incluyen los ncRNA tradicionales como los RNA ribosómicos (rRNA), los RNA de transferencia (tRNA) y los RNA pequeños nucleares (snRNA) que participan en el proceso de la expresión génica. Los transcritos con funciones regulatorias se clasifican de acuerdo a su tamaño en sncRNA, ~20 a 200 nucleótidos (nt), y en lncRNA, >200 nt. Los genes de RNA necesarios para la traducción del mRNA existen en copias múltiples; las moléculas 28S, 18S y 5.8S de los rRNA citoplásmicos están codificadas en una sola unidad transcripcional que se repite en tándem cerca de 250 veces por genoma haploide y se encuentran en cinco grupos de 30 a 50 repeticiones localizadas en las regiones organizadoras nucleolares (NOR) de los brazos cortos de todos los cromosomas acrocéntricos humanos (cromosomas 13, 14, 15, 21 y 22). El rRNA 5S citoplásmico está codificado por varios cientos de copias génicas localizadas en tres regiones del brazo largo del cromosoma 1. Los genes para los tRNA pertenecen a una gran familia génica que comprende 49 subfamilias diferentes, cada una con varios miembros que codifican para las diferentes especies de tRNA (cuadro 2-2). CUADRO 2–2. Tipos de RNA no codificante (ncRNA) humano y sus funciones Clase Ejemplos Funciones ncRNA típicos RNA ribosómico (rRNA) ~120 a 5 000 nt 28S, 5.8S, 18S y 5S rRNA Componentes en ribosomas del citoplasma 12S y 16S rRNA Componentes en ribosomas de mitocondrias RNA de transferencia (tRNA) ~70 a 80 nt 49 tipos tRNA citoplásmicos (588 genes) Unión a los codones del mRNA citoplásmico 22 tipos de tRNA mitocondriales (22 genes) Unión a los codones del mRNA mitocondrial 5 tipos de tRNA mitocondriales codificados en genoma nuclear (27 genes) Unión a codones del mRNA mitocondrial RNA pequeño nuclear (snRNA) ~60 a 360 nt Más de 38 tipos (65 genes) U1, U2, U4, U5 y U6 snRNA Componentes principales del complejo removedor de intrones y empalmador de exones U6atac, U11 y U12 snRNA Componentes menores del complejo removedor de intrones y empalmador de exones ILF3 snRNA (28 genes) Relacionados con el complejo removedor de intrones y empalmador de exones U7 snRNA Terminación de transcripción mRNA de histonas 7SK RNA (un gen) Regulador de factores de transcripción RNA pequeño nucleolar (snoRNA) ~60 a 300 nt Más de 100 tipos diferentes snoRNA con caja C/D (326 genes) Metilación sitio específica en 2’ OH de rRNA snoRNA con caja H/ACA (143 genes) Modificación específica de rRNA por formación de seudouridina RNA pequeños de cuerpos de Cajal (scaRNA), ~28 tipos Localizados en cuerpos de Cajal del núcleo, maduración de ciertas clases de snRNA para formar snRNP incluso dentro de los intrones de genes codificantes transcritos. Los miRNA participan en la regulación de la traducción y en las modificaciones a la estructura de la cromatina por el mecanismo de interferencia por RNA (RNAi). Algunos snoRNA y snRNA también pueden servir como precursores para formar miRNA. Por último, los piwiRNA o piRNA interactúan con las proteínas PIWI y son en particular importantes en la represión de los elementos genéticos móviles en las células germinales para mantener la estabilidad del genoma (cuadro 2-2). Los lncRNA constituyen una clase diversa de RNA con miles de transcritos que intervienen en varios procesos biológicos como modificación de la cromatina, transcripción, procesamiento y degradación del mRNA, traducción, ensamblado y transporte de proteínas, entre otros. Poseen patrones complejos de transcritos sentido y antisentido superpuestos, de los que se ignora su función en gran medida. Para algunos genes que codifican lncRNA se han identificado funciones específicas, por ejemplo para el RNA 7SL que forma parte de la partícula de reconocimiento de la señal del péptido requerida para la entrada de las proteínas al retículo endoplásmico y TERC que codifica para componente de RNA de la telomerasa, la transcriptasa reversa necesaria para la síntesis de DNA en los telómeros (cuadro 2-2). Los ncRNA componen una plataforma oculta de señales internas que controla en varios planos la expresión génica a través de la introducción de modificaciones en la configuración de la cromatina, por lo que forman una parte muy importante de la regulación epigenética. DNA no codificante de número de copias alto El genoma humano nuclear contiene una gran cantidad de familias de secuencias de repetición alta. Al igual que las familias multigénicas, el DNA repetido no codificante muestra dos tipos principales de organización: repetido en tándem y repetido disperso. DNA no codificante repetido en tándem. Las secuencias de DNA repetidas en tándem consisten en bloques de DNA no codificante que tienen una localización precisa en el genoma. Este tipo de secuencias se puede subdividiren tres clases de acuerdo con su extensión y el tamaño de la unidad de repetición: DNA satélite, minisatélite y microsatélite (cuadro 2-3). CUADRO 2–3. Principales clases de DNA humano no codificante repetido en tándem Secuencias repetidas en tándem (~7% del genoma nuclear humano) Clase Tamaño Tamaño de la unidad repetida Localización cromosómica DNA satélite Cientos de kb 5 a 171 bp Relacionado con heterocromatina constitutiva α (DNA alfoide) 171 bp Heterocromatina centromérica de todos los cromosomas β (familia Sau3A) 68 bp Heterocromatina centromérica del 1, 9, 13, 14, 15, 21, 22, Y Satélite 1 25 a 48 bp (rico en A-T) Heterocromatina centromérica de la mayor parte de los cromosomas y otras regionesheterocromáticas Satélite 2 Formas divergentes deATTCC/GGAAT La mayoría, tal vez todos los cromosomas Satélite 3 ATTCC/GGAAT Brazos p acrocéntricos y heterocromatina en 1q, 9q y Yq12 DYZ19 125 pb ~400 kb en Yq11 DYZ2 Rico en A-T Yq12, periodicidad >2 470 bp DNA minisatélite 0.1 a 20 kb 6 a 100 bp En o cerca de todos los telómeros Telomérico TTAGGG Todos los telómeros Hipervariable 9 a 64 bp Todos los cromosomas, regiones eucromáticas y, sobre todo, en regionessubteloméricas DNA microsatélite <100 bp 1 a 5 bp Ampliamente distribuido a lo largo de todos los cromosomas Bp, pares de bases; kb, kilopares de bases. Cuando se fracciona el DNA por sedimentación en un gradiente de densidad, bandas satélites con respecto a los picos principales del DNA genómico. Este DNA se conoce como DNA satélite, constituye ~6.5% del genoma humano y está formado por unidades de 5 a 171 pb repetidas en tándem en series largas de cientos de kilobases. La mayor parte del DNA satélite se localiza en los centrómeros de todos los cromosomas (heterocromatina constitutiva pericentromérica), por lo que se ha sugerido que tiene una función estructural. Otras secuencias de DNA satélite se identificaron por la digestión del DNA genómico con una endonucleasa de restricción; un ejemplo son las secuencias alfa satélite o DNA alfoide formadas por una unidad de repetición de 171 pb. Estas secuencias se encuentran en todos los centrómeros humanos y constituyen la mayor parte de la heterocromatina centromérica, pese a lo cual cada cromosoma posee secuencias específicas producto de la divergencia evolutiva. El DNA minisatélite comprende dos familias de secuencias cortas de DNA: la telomérica y la hipervariable. Las secuencias repetidas teloméricas son necesarias para mantener la integridad de los cromosomas durante la replicación, las añade la telomerasa, protegen contra la degradación y la pérdida de material genético en los extremos de los cromosomas. El DNA minisatélite hipervariable se localiza en las regiones subteloméricas, aunque también se halla distribuido en otras regiones del genoma, incluidos los intrones. Estas secuencias de DNA son muy polimórficas por lo que se utilizan para el análisis de ligamiento y la identificación de individuos. Las secuencias de DNA microsatélite se ubican a lo largo de todo el genoma, también son muy polimórficas y se utilizan como marcadores genéticos en estudios de evolución, ligamiento génico y huellas de DNA (véase el Anexo I, Variabilidad en el genoma humano). Algunos microsatélites son intragénicos y sus variaciones se relacionan con la etiopatogenia de un grupo de padecimientos conocidos como enfermedades por amplificación de microsatélites (véase el capítulo 9, Mecanismos no clásicos de la herencia). DNA no codificante repetido disperso. En el genoma humano también se encuentran repetidos de número de copias alto dispersos en todo el genoma. Éstos son el tipo de repeticiones de número alto de copias más abundante y constituye cerca de 45% del genoma humano. La mayor parte se deriva de retrotransposones (transposones de clase I), mientras que los transposones de DNA (transposones de clase II) representan sólo cerca de 3% del genoma (figura 2-3). FIGURA 2-3 Estructura de los elementos genéticos móviles en el genoma humano. A, retrotransposones LINE. La familia LINE-1 (L1) es la única que aún tiene elementos activos. B, retrotransposones SINE. La familia Alu es el retrotransposón con mayor número de copias. C, retrotransposones derivados de retrovirus endógenos humanos HERV. La mayor parte de estas secuencias tiene mutaciones en las secuencias pol y gag y algunas mantienen también las secuencias env. D, retrotransposones SVA, compuestos por un elemento SINE, un VNTR y un Alu invertido. E, transposones de DNA. Casi todos están inactivos y se consideran secuencias fósiles en el genoma. E, endonucleasa; LTR, repeticiones terminales largas (long terminal repeats); ORF, marco de lectura abierto (open reading frame); SVA, SINE/VNTR/Alu; TIR, repeticiones invertidas terminales (terminal inverted repeats); TR, transcriptasa reversa; TSD, duplicaciones de sitios blanco (target site duplications); UTR, región no traducida (untranslated region). Los retrotransposones o retroposones son secuencias de DNA móviles que pueden desplazarse a diferentes regiones del genoma a través de intermediarios de cDNA. Este mecanismo es similar al que genera seudogenes procesados y retrogenes: una transcriptasa reversa convierte al RNA transcrito del retrotransposón en un cDNA que se integra en diferentes posiciones del DNA genómico, lo que produce copias nuevas de él y duplica la secuencia en el sitio blanco de inserción. En el genoma humano existen dos clases principales de retrotransposones que utilizan este mecanismo de copia y pegado: a) los retrotransposones sin repeticiones largas terminales o LTR (long terminal repeats) en sus extremos y b) los retrotransposones con LTR. Estos últimos son derivados de retrovirus humanos endógenos o HERV (human endogenous retrovirus) que han acumulado en sus secuencias mutaciones en los genes gag, pol y env y que representan cerca de 9% del genoma humano. Los retrotransposones sin LTR incluyen a los elementos nucleares interespaciados largos o LINE (long interspersed nuclear elements) que constituyen 20% del genoma humano y a los elementos nucleares interespaciados cortos o SINE (short nuclear interspersed elements) que corresponden a 13%. Los retrotransposones pueden ser autónomos o no autónomos, según sea que codifiquen o no para la maquinaria necesaria para su movilidad. El tipo más común de la familia LINE son las secuencias LINE1 o L1. En los seres humanos, esta familia es la única que aún tiene miembros activos que contienen dos ORF. El ORF1 (1 kb) codifica para una proteína de unión a RNA y el ORF2 (4 kb) codifica para una proteína con un dominio de endonucleasa y otro dominio de transcriptasa reversa; ambos transcritos se producen a partir de un promotor interno en el UTR 5’. La familia Alu es la más abundante de las SINE y su nombre se debe a que se identificó mediante la enzima de restricción AluI. Estas secuencias se originaron por la retrotransposición del gen que codifica al RNA 7SL y que retuvo su promotor interno para la RNA pol III. Estas secuencias se transcriben activamente aun cuando carecen de un ORF (figura 2-3). Tanto las repeticiones Alu como las L1 pueden promover la recombinación homóloga no alélica, lo cual lleva a duplicaciones, deleciones o inversiones de regiones genómicas que conducen a variaciones estructurales del genoma y que pueden ser CNV patogénicas o que provean una ventaja selectiva en la evolución. Estos sucesos de recombinación anormales pueden ocurrir entre un cromosoma y otro y en su interior (véase el Anexo I, Variabilidad en el genoma humano). Los elementos LINE son los únicos retrotransposones autónomos en el genoma humano. La maquinaria de las L1 se encarga de la transcripción inversa observada en el genoma humano, incluida la de sus propias secuencias, las SINE y aun la de numerosos mRNA, lo cual puede producir nuevos eventos de retrotransposición que interrumpan las secuencias codificantes o reguladoras de genes y causen enfermedad (véase el Anexos I, Variabilidad en el genoma humano).Además, existe un tipo de retrotransposón compuesto exclusivo de los homínidos, el elemento SVA (SINE-R/VNTR/Alu) que mide cerca de 2 kb y del cual hay al menos 2 700 copias en el genoma humano. Estos retrotransposones no autónomos activos se conformaron por la fusión de tres elementos genéticos, una secuencia SINE-R que comparte identidad con el gen env y el LTR derecho de un HERV ancestral, una secuencia de número variable de repeticiones en tándem o VNTR (variable number of tandem repeats) y una secuencia Alu en una orientación invertida (figura 2-3). Los transposones de DNA muestran secuencias repetidas invertidas en sus extremos, codifican para una transposasa que regula su transposición (figura 2-3) y se desplazan directamente sin necesidad de generar copias: la secuencia del transposón se escinde y se reinserta en otro sitio del genoma por un mecanismo de corte y pegado o conservativo. En la actualidad se calcula que la mayor parte de estos transposones está inactiva y se consideran fósiles en el genoma humano.
Compartir