Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE CIENCIAS Análisis del perfil de expresión de elementos repetidos en cáncer de próstata T E S I S QUE PARA OBTENER EL TÍTULO DE: Bióloga P R E S E N T A : Fernanda Díaz Espinosa DIRECTOR DE TESIS: Dr. Inti Alberto De la Rosa Velázquez Ciudad de México, 2019 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 2 1. Datos del alumno Díaz Espinosa Fernanda 5541599444 Universidad Nacional Autónoma de México Facultad de Ciencias Biología 312541305 2. Datos del tutor Dr. Inti Alberto De la Rosa Velázquez 3. Datos del sinodal 1 Dr. Rodrigo González Barrios de la Parra 4. Datos del sinodal 2 Dra. Georgina Hernández Montes 5. Datos del sinodal 3 Dr. Abrahan Hernández Hernández 6. Datos del sinodal 4 Dra. María de la Paz Sánchez Jiménez 7. Datos del trabajo escrito. Análisis del perfil de expresión de elementos repetidos en cáncer de próstata 97p 2019 3 Agradecimientos institucionales Este trabajo fue realizado en el Laboratorio de Genómica de la Red de Apoyo a la Investigación, Coordinación de la Investigación Científica, Universidad Nacional Autónoma de México bajo la tutoría del Dr. Inti Alberto De la Rosa Velázquez. Investigación realizada gracias al Programa de Apoyo a Proyectos de Investigación e Innovación Tecnológica (PAPIIT) de la UNAM en el proyecto IA207017. Agradezco a la DGAPA-UNAM la beca recibida. A la Unidad de Bioinformática, Bioestadística y Biología Computacional de la Red de Apoyo a la investigación por su apoyo para el procesamiento de los datos bioinformáticos. A la M. en C. Rosa Rebollar Vega quien coordinó y me enseñó cómo llevar a cabo la preparación de librerías genómicas y la secuenciación de las mismas. Además de realizar las librerías de las muestras de pacientes. 4 Agradecimientos personales A mi madre, Adriana, por apoyarme en cada paso de mi vida y ser la mujer más admirable y fuerte que conozco. A mi padre, Gustavo, por su amor y apoyo incondicional siempre. A Inti, gracias por esta oportunidad de trabajar y aprender tanto. Por enseñarme a ver hacia futuro. Por tu paciencia, mostrarme lo que significa la ciencia y permitirme apasionarme por ella. Por abrir mi mundo e invitarme a soñar. A Rosy, muchas gracias por todo tu apoyo y cariño en este proceso. Por enseñarme tantas cosas y confiar en mí. A Rodrigo, por adentrarme en el mundo de la epigenética, por todos tus consejos, por escucharme y ayudarme a llegar este laboratorio donde fui muy feliz. A todas las personas de la RAI, que hicieron de este tiempo en el laboratorio un lugar lleno de sonrisas. A mis amigos que de lejos me cuidaron y me guiaron con tanto amor: Ana Casanova, Julia, Santiago, Ana Galán, Beto, Jorge, Ana Laura, Vale y Alexis. A Guille por ser mi luz en este mundo. A la Facultad de Ciencias de la UNAM por formarme académicamente y ser mi hogar los últimos años. A la Universidad Nacional Autónoma de México. 5 Índice LISTA DE ABREVIATURAS ................................................................................................................................. 7 RESUMEN ................................................................................................................................................................ 8 INTRODUCCIÓN .................................................................................................................................................... 9 CONFIGURACIÓN DEL GENOMA HUMANO ............................................................................................................ 10 ELEMENTOS REPETIDOS ........................................................................................................................................ 11 Repetidos simples de ADN ............................................................................................................................... 12 Elementos transponibles .................................................................................................................................. 12 Retrotransposones ............................................................................................................................................................................. 13 LTR .............................................................................................................................................................................................. 13 ERV (Retrovirus Endógenos) ................................................................................................................................................. 14 No-LTR ........................................................................................................................................................................................ 14 LINE ....................................................................................................................................................................................... 15 Ciclo de retrotransposición de LINE-1 ............................................................................................................................. 16 SINE ....................................................................................................................................................................................... 17 SVA (SINE – VNTR – ALU) ................................................................................................................................................. 17 Transposones de ADN ....................................................................................................................................................................... 18 EPIGENÉTICA ........................................................................................................................................................ 19 Generalidades de la cromatina ........................................................................................................................ 19 Modificaciones en las histonas ........................................................................................................................ 20 H3K4me3 .......................................................................................................................................................................................... 21 H3K9me3 .......................................................................................................................................................................................... 22 H3K27me3 ........................................................................................................................................................................................ 22 Silenciamiento epigenético de las secuencias repetidas ..................................................................................23 CÁNCER ................................................................................................................................................................ 23 Cambios en el núcleo ....................................................................................................................................... 24 Cambios epigenéticos ...................................................................................................................................... 24 CÁNCER DE PRÓSTATA ......................................................................................................................................... 25 EXPRESIÓN DE ELEMENTOS REPETIDOS EN CÁNCER ............................................................................................ 27 BIOMARCADORES ................................................................................................................................................. 28 PLANTEAMIENTO DEL PROBLEMA ............................................................................................................. 30 HIPÓTESIS ............................................................................................................................................................. 30 OBJETIVO GENERAL ......................................................................................................................................... 30 OBJETIVOS PARTICULARES ........................................................................................................................... 30 MATERIAL Y MÉTODOS ................................................................................................................................... 31 SELECCIÓN DE DATOS PÚBLICOS .......................................................................................................................... 31 6 SELECCIÓN DE MUESTRAS .................................................................................................................................... 31 SECUENCIACIÓN ................................................................................................................................................... 32 ANÁLISIS BIOINFORMÁTICO ................................................................................................................................. 33 CULTIVO CELULAR ............................................................................................................................................... 34 EXTRACCIÓN DE ARN .......................................................................................................................................... 35 DISEÑO DE OLIGONUCLEÓTIDOS .......................................................................................................................... 36 VALIDACIÓN POR RT-QPCR ................................................................................................................................. 36 ANÁLISIS ESTADÍSTICO ......................................................................................................................................... 36 INMUNOPRECIPITACIÓN DE CROMATINA (CHIP) .................................................................................................. 37 ANÁLISIS DE EXPRESIÓN DIFERENCIAL DE GENES. ............................................................................................... 37 RESULTADOS ....................................................................................................................................................... 38 1. RESULTADOS DE LA SECUENCIACIÓN ............................................................................................................... 38 2. ANÁLISIS DE COMPONENTES PRINCIPALES ...................................................................................................... 40 3. ANÁLISIS DE EXPRESIÓN DE ELEMENTOS REPETIDOS EN DE CÁNCER DE PRÓSTATA MEDIANTE HEATMAPS .. 41 4. VALIDACIÓN DE LA EXPRESIÓN DE ELEMENTOS REPETIDOS EN CÁNCER DE PRÓSTATA POR RT- QPCR ........ 50 5. DISTRIBUCIÓN DE TRANSCRITOS POR FRACCIONES CELULARES ...................................................................... 52 6. INMUNOPRECIPITACIÓN DE CROMATINA (CHIP) .............................................................................................. 56 7. ANÁLISIS DE EXPRESIÓN DIFERENCIAL DE GENES REMODELADORES DE LA CROMATINA ............................... 60 DISCUSIÓN ............................................................................................................................................................ 62 PERSPECTIVAS .................................................................................................................................................... 70 ANEXOS .................................................................................................................................................................. 71 ANEXO 1. CLASIFICACIÓN DE ELEMENTOS TRANSPONIBLES ............................................................................. 71 ANEXO 2. CONTROL DE CALIDAD FASTQC ........................................................................................................ 72 ANEXO 3. ARCHIVO BED ................................................................................................................................... 75 ANEXO 4. PROTOCOLO EN EXTENSO: EXTRACCIÓN DE ARN POR FRACCIONES CELULARES ............................ 76 ANEXO 5. OLIGONUCLEÓTIDOS UTILIZADOS. .................................................................................................... 78 ANEXO 6. RESULTADOS RT-QPCR NORMALIZADOS CON Β-ACTINA Y GAPDH ............................................... 80 ANEXO 7. PROTOCOLO EN EXTENSO: INMUNOPRECIPITACIÓN DE CROMATINA (CHIP) .................................... 82 ANEXO 8. RELACIÓN ENTRE LA H3K4ME3 Y LA H3K27ME3 ............................................................................ 84 ANEXO 9. RESULTADOS DE EPI-GENES DESREGULADOS .................................................................................... 85 REFERENCIAS ...................................................................................................................................................... 89 7 Lista de abreviaturas AM.- Alineamientos múltiples ChIP.- Inmunoprecipitación de cromatina cADN.- ADN complementario LINE.- Elemento nuclear intersticial largo LTR.- Repetición terminal larga mARN.- ARN mensajero MLT.- Transposones LTR de mamíferos ERV.- Retrovirus endógeno EZH2.-Histona-lisina metiltransferasa (Enhancer de Zeste homólogo 2 HERV.- Retrovirus endógeno humano H3K4me3.- Tri-metilación de la lisina 4 en la histona 3 H3K27me3.- Tri-metilación de la lisina 27 en la histona 3 H3K9me3.- Tri-metilación de la lisina 9 en la histona 3 ORF.- Marco abierto de lectura PCA.- Análisis de componentes principales pb.- Pares de bases pRb.- Proteína Retinoblastoma SINE.- Elemento nuclear intersticial corto SUV39H1/2.- Histona-lisina metiltransferasa (Supresor homólogo de variegación) SVA.- SINE-R/VNTR,/Alu TA.- Tejido adyacente TIR.- Repetidos terminales invertidos TPRT.- Transcripción inversa preparada para objetivo (Target primed retro transcription) TSS.- Sitio de inicio de la transcripción TU- Tumor UTR.- Región no transcrita VNTR.- Repetidos en tándem de número variable 8 Resumen Actualmente el cáncer de próstata representa el 21.4% de los casos de cáncer en México, siendo así el segundo con mayor incidencia en hombres. Como en otros tipos de cáncer, este presenta alteraciones en la cromatina al mostrar una redistribución de marcas epigenéticas como la metilación de DNA y modificaciones de histonas en particular la H3K4me3, H3K9me3 y la H3K27me3. En este trabajo nos enfocamos en estudiar cómo dichas alteraciones afectan la expresión de elementosrepetidos a partir de datos de secuenciación de ARN, ya que estos elementos representan más del 50% del genoma y se han visto alterados en diferentes patologías incluyendo el cáncer. A partir de los resultados de RNA-seq de muestras de líneas celulares de cáncer de próstata y de pacientes se seleccionó un panel de 6 elementos repetidos desregulados, los cuales fueron validados por RT-qPCR. De los 1381 tipos de repetidos presentes en el genoma humano, el repetido satelital HSAT5 fue la secuencia con mayor sobreexpresión tanto en líneas celulares como en biopsias de tumores de cáncer de próstata. El satélite 2 (SATR2) y el satélite gama dos (GSAT2) fueron otros repetidos satelitales sobre-expresados en las diferentes muestras, además de retrotransposones de la clase LINE, en particular L1HS que se encontró regulado a la alta en la línea celular LNCaP, positiva al receptor de andrógenos, y no en la línea PC3 negativa al receptor de andrógenos en comparación con la línea celular control PrEC. Así mismo, se realizaron ensayos de inmunoprecipitación de cromatina para correlacionar los cambios en la expresión de estos elementos repetidos con el estado de la cromatina, abierta (H3K4me3) o cerrada (H3K9me3 y H3K27me3). Al encontrar disminuida la marca H3K27me3 en los elementos repetidos sobre- expresados, realizamos un análisis de expresión diferencial con los datos de RNA-seq donde no encontramos una desregulación de los genes asociados a esta marca, incluyendo el complejo represivo Polycomb 2, sugiriendo que la pérdida de esta modificación post-traduccional se debe a otro nivel de regulación. Estos resultados en conjunto apuntan a la presencia de un patrón específico de expresión de elementos repetidos en cáncer de próstata y que esta expresión sucede gracias a la perdida de la marca represiva H3K27me3. 9 Introducción En 1952, Alfred Hershey demostró que era la molécula de ADN (y no las proteínas) la que componía los genes (Cairns, 1997). Un año después, James Watson, Francis Crick y Rosalind Franklin elucidaron la estructura tri-dimensional de esta molécula (Franklin & Gosling, 1953; Watson & Crick, 1953). Es a partir de estos hallazgos que surge una gran expectativa de descubrir un mecanismo maestro dentro del código de ADN que permitiera responder todas las preguntas sobre la herencia y las enfermedades. Por lo que, muchos de los esfuerzos que continuaron a partir de eso, se dirigieron en tratar de “decodificar” el ADN. Los descubrimientos que siguieron vislumbraron la complejidad del fenómeno en donde desde diferentes aproximaciones se comenzó a comprender que no todo dependía del código per se sino también de la regulación del mismo. Casi en paralelo, en 1956 Conrad Waddington demostró la herencia de una característica adquirida de una población en respuesta a un estímulo ambiental al describir la existencia de mecanismos hereditarios más allá de la genética tradicional. Sentando así las bases de la epigenética actual (Noble, 2015). De esta manera, el desarrollo de estos conceptos, a la par de la genética que se desarrollaba en la segunda mitad del siglo pasado, llevó a vislumbrar que el ADN posee un nivel adicional de complejidad, al no ser una molécula que se encuentre de forma “desnuda”. Esto tomaría algunos años más para desarrollar estos conceptos con la profundidad con la que hoy día los conocemos. Con el cambio de siglo, llegó la secuenciación del genoma del humano. La masiva cantidad de información generada abrió un panorama diferente, en donde se reveló que la información que contiene este código es más extensa e intricada de lo que hasta en ese momento se sabía. Se trataba más bien de una compilación histórica de sucesos evolutivos que se fueron incorporando al genoma a lo largo de los años, recopilando el código genético que ahora tenemos en cada una de nuestras células. Un nuevo desafío para un nuevo milenio que nos ha retado a comprender este código desde una perspectiva integral tomando todos su atributos genómicos y epigenómicos para eventualmente poder trasladar estos conocimientos al entendimiento de enfermedades como el cáncer. 10 Configuración del genoma humano Al inicio del Proyecto del Genoma Humano existía una gran expectativa alrededor del número de secuencias que conformaban los genes codificantes para las proteínas conocidas hasta ese momento (Schmidt et al., 2018). El resultado de la secuenciación terminó por develar que de los 30,000 genes previstos, Homo sapiens posee alrededor de 20,000 y que estas secuencias corresponden únicamente al 1.5% de todo el genoma (Venter et al., 2015). A pesar de que la idea de secuenciar el genoma humano existía desde 1986, las dificultades prácticas y tecnológicas no lo hicieron posible sino hasta el 2003. Uno de los principales retos de este proyecto era el ensamblar la enorme cantidad de secuencias repetidas que posee este genoma, de hecho, fue el primero con un alto contenido en regiones repetidas en ser secuenciado (Lander et al., 2001). Con esto, se dio a conocer que más del 50% de las ~3 mil millones de pares de bases que lo componen, corresponden a secuencias repetidas, las cuales durante mucho tiempo se consideraron ADN “basura” (Figura 1). Sin embargo, estas secuencias contienen una gran cantidad de información evolutiva (Lander et al., 2001). Figura 1. Más del 50% del genoma humano corresponde a secuencias repetidas. Gráfica que muestra la composición en secuencias del genoma humano. Modificada de (Gregory, 2005). Retrotransposones LTR Transposones ADN Repetidos de secuencias simples Duplicaciones Heterocromatina micelánea Secuencias únicas miceláneas Intrones Genes que codifican proteínas LINEs SINEs 11 Elementos repetidos Los elementos repetidos son secuencias que se pueden encontrar más de 2 veces a lo largo del genoma haploide (Qian & Adhya, 2017) y que corresponde al ~50% del total del genoma. Actualmente existen estudios que por aproximaciones computacionales predicen que este dato puede estar sub-representado y estiman que pueden abarcar hasta dos terceras partes del contenido total de ADN humano (de Koning et al., 2011). Esto debido a los métodos de detección de secuencias repetidas son generados mediante el alineamiento de lecturas de secuenciación masiva a secuencias consenso, utilizado bibliotecas virtuales como Repeat Masker (Chen, 2004). Este enfoque limita la búsqueda de elementos repetidos “nuevos” al encasillarlos en clasificaciones anotadas (de Koning et al., 2011). El análisis inicial de la secuenciación del genoma humano clasificó estas secuencias en 5 grandes grupos. Los primeros cuatro contienen al 10% del genoma e incluyen los repetidos simples de ADN, duplicaciones de segmentos, repetidos en tándem y satélites como el satélite humano 2 que es una secuencia característica de la región periférica del centrómero cromosómico y el satélite alfa, característico del centrómero. La quinta categoría representa el 45% del ADN genómico humano y se refiere a los elementos transponibles los cuales son secuencias parasitarias que a lo largo de la evolución se han ido incluyendo dentro de la línea germinal de los ancestros del Homo sapiens y han prevalecido hasta la actualidad (Lander et al, 2001). Sin embargo, con el paso del tiempo las secuencias de este último grupo, han sufrido inserciones y mutaciones, lo que ha derivado en la inactividad de transposición de la mayoría de estos elementos. Actualmente existen pocos elementos repetidos que mantienen su capacidad de moverse a lo largo del genoma como el retrotransposón de la clase LINE: L1HS (Burns, 2017). El estudio de estas secuencias ha representado un reto a lo largo de los años debido a la dificultad de mapear y localizar con exactitud los resultados de secuenciación para armar el genoma completo. A partir de estos problemas surgió RebBase (https://www.girinst.org/repbase/),una base de datos de secuencias repetidas representativas de especies eucariotas. Repbase se ha convertido en el estándar mundial de referencia para anotar la presencia de ADN repetido en datos genómicos (Kojima, 2018). 12 Repetidos simples de ADN Los satélites son secuencias no codificantes altamente repetitivas de grandes arreglos en tándem en cantidades específicas (n-k), en donde n es el número de pares de bases de la secuencia base y k el número de repeticiones en tándem de esa secuencia específica que puede ir de los cientos a los miles de copias. Suelen clasificarse dependiendo el tamaño de la unidad n, en microsatélites cuando n ~13 pb, minisatélites, si n = 14-500 pb y satélites donde n > 500 bases (Lander et al., 2001). Los satélites se caracterizan por ser el componente principal de la heterocromatina constitutiva y encontrarse principalmente en las regiones del centrómero, pericentrómero, telómeros y sub-telómeros de los cromosomas (Yunis & Yasmineh, 1971). A diferencia de los micro- y mini-satélites que se suelen encontrar en regiones eucromatínicas e intercalados entre los genes (M. Garrido-Ramos, 2017). Se han reportado la presencia de transcritos de estas secuencias en varios organismos, particularmente en momentos específicos del desarrollo o del ciclo celular en algunos tipos celulares, por ejemplo en mamíferos la acumulación de trascritos de satélites del centrómero y pericentrómero del cromosoma ocurre en el curso del ciclo celular en procesos de proliferación, en la diferenciación de mioblastos, entre otros (Terranova et al., 2005). Entre las funciones conocidas de estas secuencias se sabe que tienen un papel importante en el reclutamiento del cinetocoro durante la mitosis permitiendo la correcta segregación cromosomal (Pezer et al., 2012) y sus transcrito poseen un rol esencial en la preservación de la información epigenética para la formación de heterocromatina (Garrido-Ramos, 2017). Elementos transponibles Los elementos transponibles representan la mayor parte de las secuencias repetidas del genoma humano abarcando 45% de la extensión del mismo (Lander et al., 2001). Estas secuencias fueron descubiertas por Barbara McClintock en la década de los 30’s del siglo XX. Gracias a sus estudios realizados en maíz, ella observó que regiones específicas de cromosomas de esa planta que se fragmentaban y se reintegraban en un sitio distinto al original. Ella denominó a estas inserciones que daban como resultado un cambio de color en los granos,: “elementos transponibles” (McClintock, 1951; Ravindran, 2012). Posteriormente, con base en los estudios de genoma completo se le denominó como “moviloma” humano a este conjunto de secuencias por tener la capacidad de moverse a lo largo del genoma. Según su capacidad para realizar este proceso, se categorizan en dos grandes grupos: Tipo 1 o retrotransposones, los cuales utilizan el sistema conocido como “copia y pega”, que generan un 13 intermediario de ARN que por un proceso de retrotranscripción genera una copia de ADNc de sí mismo la cual se integra (pega) en otras regiones del genoma. Y tipo 2 o transposones de ADN, que utilizan un sistema de “cortar y pegar”, es decir el elemento se escinde de un sitio donador y se reintegra en otro lugar del genoma (Burns, 2017). Los elementos transponibles se clasifican de forma jerárquica según la tabla del ANEXO 1. Retrotransposones El tipo I de elementos transponibles incluye a aquellas secuencias que por medio de un intermediario de ARN tienen la capacidad de replicarse a lo largo del genoma. En general, el proceso incluye que una vez transcrita la secuencia, ésta, por un proceso autónomo o no, se retrotranscriba a una secuencia de ADN complementario (ADNc) que posteriormente se reintegre al genoma. La autonomía de este proceso está determinada por la capacidad del transcrito de poseer marcos abiertos de lectura que codifiquen para proteínas capaces de catalizar la reacción de retrotranscripción. Los retrotransposones no autónomos son capaces de utilizar la maquinaria proteica de los autónomos para lograr su retrotransposición (Burns, 2017). En general se clasifican en 2 grupos, aquellos que poseen secuencias LTR (Repetidos Terminales Largos, por sus siglas en inglés) flaqueando el repetido y aquellos que no las poseen (Kojima, 2018). LTR Los retrotransposones LTR son elementos que en sus extremos poseen secuencias repetidas largas terminales, que funcionan como centros de control de expresión génica de los genes virales insertados en el genoma de un hospedero, el proto-virus integrado tiene dos secuencias LTR: una en el extremo 5’ que actúa normalmente como un promotor de ARN pol II y una en el extremo 3’ que es reconocida por la poli-A polimerasa para ser poliadenilada justo después de la secuencia LTR 3’(Bannert & Kurth, 2006). Estos repetidos son estructuralmente similares a retrovirus exógenos infecciosos y a partir de esto son clasificados incluyendo a los retrovirus endógenos (ERV) y transposones LTR de mamíferos (MLT) (Burns, 2017). En conjunto, estas secuencias ocupan ~8% del genoma humano (Lander et al., 2001), con más de 450,000 copias (Craig et al., 2015). A pesar de que este tipo de repetidos se considera autónomo, por poseer macos abiertos de lectura que codifiquen para proteínas que les permitan llevar a cabo de 14 forma exitosa la retrotransposición, no existen repetidos-LTR activos (transponiéndose) en Homo sapiens, aunque algunos aún tienen la capacidad de expresarse (Cordaux & Batzer, 2009). ERV (Retrovirus Endógenos) Los retrovirus endógenos son la clase más abundante de repetidos-LTR en el genoma humano (Lander et al., 2001) y se dividen en las subclases ERV1, ERV2 y ERV3. La subclase ERV1 corresponde a secuencias provenientes de Retrovirus γ y ε, ERV2 del linaje de los Retrovirus β y ERV3 se pensaba que provenían del linaje de los Spumavirus. Actualmente se estima que su origen es heterogéneo (Kojima, 2018). La estructura clásica de los retrovirus endógenos se encuentra flanqueada por los LTR, y tres o cuatro marcos abiertos de lectura: gag el cual codifica para proteínas de matriz y de la cápside, pro enzima proteasa, pol que cataliza reacciones de retrotranscripción y de reintegración al ADN y en algunos casos, env la cual codifica para una proteína de superficie o envoltura (Figura 2). La familia de los HERVs son el linaje que se encuentra específicamente en el genoma humano, la mayoría de estas secuencias derivó de pocos sucesos independientes de infección en la línea germinal humana. De estos sucesos, la inserción de HERV-K es la que ha sucedido de manera más reciente al genoma humano con 550 copias a lo largo del mismo, es el retrovirus mejor conservado (Cordaux & Batzer, 2009). Figura 2. Estructura de la clase ERV. La región se encuentra flanqueada por secuencias LTR, posee tres marcos abiertos de lectura: gag, pol, pro y env. El transcrito puede ser poliadenilado. Modificada de (Bannert & Kurth, 2006). No-LTR Esta categoría de retrotransposones incluye a los elementos que no contienen secuencias LTR en sus extremos. En humanos se piensa que únicamente estos elementos son capaces de retrotransposición (Criscione et al., 2014) Estas secuencias corresponden al grupo más amplio de elementos transponibles en el genoma humano (Lander et al., 2001). Son elementos genéticos antiguos que han persistido en los genomas eucariotas durante cientos de millones de años (Koonin et al., 2015), y quizás son más 15 conocidos por su enorme éxito multiplicándose en el genoma humano (Han, 2010). A continuación hablamos sobre algunos de los retrotransposones no-LTR más comunes en el genoma humano. LINE Los LINE (elementos nucleares intercalados largos por sus siglas en inglés) son los retrotransposones más exitosos en el genoma humano. Con más de 500,000 copias constituyenaproximadamente el 17% del ADN genómico de Homo sapiens (Cordaux & Batzer, 2009). Se encuentran intercalados a lo largo de todo el genoma humano al encontrarse tanto en regiones de heterocromatina facultativa, constitutiva y en menor medida en eucromatina (Ishak et al., 2018). En la actualidad la transposición de elementos a lo largo del genoma humano es dominado por la subfamilia de retrotransposones L1HS (LINE-1, Homo sapiens) la cual es un linaje que se encuentra únicamente en los humanos y por lo tanto es especie- específico (Burns, 2017). La secuencia de LINE-1 tiene una longitud de mínima de 6,000 pb y se compone por una región 5’UTR que contiene un promotor que es reconocido por la ARN polimerasa II, dos marcos abiertos de lectura ORF1 y ORF2 una región 3’ UTR que contiene la señal para ser poliadenilado con un oligonucleótido rico en adeninas en este extremo (Figura 3). ORF1 codifica para una proteína de unión a ARN la cual tiene preferencia en cis lo que provoca que al traducirse se genere una ribonucleoproteína con el mismo mARN que la codificó. Mientras que el ORF2 codifica una enzima que es retrotranscriptasa y nucleasa (Cordaux & Batzer, 2009). Figura 3. Estructura LINE. En la región 5’UTR se encuentra el promotor de este retrotransposón. Posee 2 marcos abiertos de lectura: ORF1 que codifica para una proteína de unión al ARN y ORF 2 que codifica para una enzima con acción de endonucleasa (EN) y retrotranscriptasa (RT). Es poliadenilada al final de la región 3’UTR. Modificada de (Cordaux & Batzer, 2009). 5’ UTR ORF2 3’ UTRORF1 AAAAAAEN RT AAAAAATransposasa TIRTIR LTR LTR AAAAAAgag pol env Monómero de ARN 7SL AAAAAAAA Monómero de ARN 7SL AAAAAA (CCCTCT)n ALU-like VNTR HERVK10-like AAAAAA 16 Ciclo de retrotransposición de LINE-1 Debido a que L1HS es el retrotransposón con mayor actividad en el genoma humano que se conoce es, por lo tanto, el elemento transponible en el que mejor se conoce este proceso. En general éste consiste en la transcripción del elemento L1 gracias al reconocimiento del promotor en la región 5’ UTR por la ARN polimerasa II, dando origen a un mARN el cual viaja al citoplasma donde los marcos abiertos de lectura son traducidos. En un ciclo de retroalimentación positiva, la proteína ORF1 se une al transcrito de L1 que lo codificó. Este complejo riboproteíco se traslada al núcleo por un mecanismo que no se conoce a profundidad, donde la enzima ORF2 genera un corte de una cadena en el ADN genómico y por un proceso denominado TPRT (transcripción inversa objetivo específico) cataliza una reacción de retrotransposición, generando así, una secuencia de cADN, la misma que se reintegra al genoma (Figura 4) (Cordaux & Batzer, 2009). Figura 4. Ciclo de retrotransposición de LINE-1. La secuencia de LINE-1 es transcrita por la ARN polimerasa II, el transcrito viaja al citoplasma y ambos marcos abiertos de lectura son traducidos, se forma una estructura ribonucleoproteíca con las proteínas y el ARNm de LINE-1 que regresa al núcleo. La actividad de endonucleasa de ORFp2 rompe una cadena del ADN genómico dejando un extremo –OH libre y su función de retrotranscriptasa convierte el ARNm en ADNc el cual por el proceso de TPRT se reintegra al genoma utilizando el extremo –OH libre. Modificada de (Burns, 2017) Núcleo Citoplasma 5’ UTR ORF2 3’ UTRORF1 EN RT ADN genómico 1. Transcripción AAAA5’ 3’ Intermediario de ARN ORFp2 5’ 3’ 2. Traducción Ribosoma Trímero de ORFp1 Intermediario de ribonucleoproteína Trímero de ORFp1 ORFp2 ORFp2 OH 3. Inserción TPRT 5’ ARN ADN 17 SINE Los elementos SINE o elementos nucleares intercalados cortos por sus siglas en inglés, son secuencias de entre 100 y 500 pb con más de un millón de copias en el genoma humano (Cordaux & Batzer, 2009). Estos retrotransposones no son autónomos, por lo que no codifican para proteínas que les permitan llevar a cabo la retrotransposición. Sin embargo, se sabe que los transcritos de estos elementos utilizan la maquinaria proteica de LINE-1 para realizar este proceso (Burns, 2017). Las secuencias más representativas de la familia SINE son los repetidos de la familia Alu son con aproximadamente 500,000 copias en el genoma humano, lo que corresponde al 10% del total de éste. Su estructura es dimérica al ser una fusión derivada de dos monómeros del gen de ARN 7SL. Dichos monómeros están separados por una secuencia rica en adeninas, su región 5’ posee un promotor que es reconocido por la ARN polimerasa III y la región 3’ contiene la señal para que el transcrito sea poliadenilado (Figura 5) (Cordaux & Batzer, 2009). Los elementos Alu se encuentran comúnmente en los intrones, las regiones 3' UTR de los genes y las regiones genómicas intergénicas (Batzer & Deininger, 2002). Figura 5. Estructura de Alu. Dos secuencias monoméricas del gen ARN 7SL separados por una región rica en adeninas. El extremo 3’ es poliadenilado al transcribirse. Modificada de (Cordaux & Batzer, 2009). SVA (SINE – VNTR – ALU) Estos retrotransposones adquirieron su nombre gracias a su estructura de aproximadamente 2,000 pb que posee una región similar a los repetidos SINE-R que consiste en una secuencia repetida en hexámero, una región de repetidos tándem en números variables (VNTR), un fragmento similar a Alu, una secuencia similar a HERVK-10 y una región de señal para poliadenilación. Estos elementos transponibles poseen cerca de 3,000 copias en el genoma humano (Cordaux & Batzer, 2009). A pesar de que aparentemente no posean un promotor interno, hay evidencia de que sus transcritos son generados por la ARN polimerasa III y aunque no son autónomos, son movilizados en trans por la maquinaria de retrotransposición de LINE-1 (Figura 6) (Burns, 2017). 5’ UTR ORF2 3’ UTRORF1 AAAAAAEN RT AAAAAATransposasa TIRTIR LTR LTR AAAAAAgag pol env Monómero de ARN 7SL AAAAAAAA Monómero de ARN 7SL AAAAAA (CCCTCT)n ALU-like VNTR HERVK10-like AAAAAA 18 Figura 6. Estructura de SVA. La estructura general de los SVA consiste en un hexámero de repetidos cortos, una secuencia similar a Alu, un repetido en tándem tipo VNTR y una región 3’ similar al retrotransposón HERVK10. El transcrito es poliadenilado. Modificada de (Cordaux & Batzer, 2009) Transposones de ADN El tipo II de elementos transponibles es posible encontrarlo en todos los organismos eucariontes y en menor medida en procariontes. Se caracterizan por poseer secuencias repetidas terminales invertidas (TIR por sus siglas en inglés) de tamaños variables que flanquean la secuencia que codifica para una enzima transposasa, que cataliza los cortes de doble cadena que le permiten al repetido desplazarse a lo largo del genoma (Figura 7). Los transposones de ADN aumentan sus copias en el genoma al transponerse durante la replicación cromosómica de una posición que ya se replicó a otra en donde la horquilla de replicación no ha pasado (Wicker et al., 2007). Actualmente no existen transposones de ADN activos en el genoma humano pero sí lo fueron durante la evolución temprana de los primates (Cordaux & Batzer, 2009). Hoy en día la acumulación de estos fragmentos inactivos dentro del genoma corresponde a ~3% del genoma humano con casi 300 inserciones a lo largo del mismo (Lander et al., 2001). Los cuales se han categorizado en 7 diferentes clases y a su vez, pueden ser subdivididas en diferentes familias según sus diferentes orígenes (Kojima, 2018). Figura 7. Estructura de un transposón de ADN. Estas secuencias se encuentran flanqueadas por secuencias flanqueadas invertidas (TIR) poseen un marco abierto de lectura que codifica para una enzima transposasa. Poseen un señal en el extremo 3’ para que el transcrito sea poliadenilado. Modificada de (Burns, 2017). Los retrotransposones juegan un papel de gran importancia en el genoma humano. Actualmente se sabe queal ser unidades mutagénicas capaces de moverse dentro del genoma pueden tener implicaciones en la salud al generar inestabilidad cromosómica (Faulkner et al., 2009) y enfermedades como hemofilia, talasemia y distrofia muscular al reinsertarse en genes específicos (Deininger & Batzer, 1999). Además, 5’ UTR ORF2 3’ UTRORF1 AAAAAAEN RT AAAAAATransposasa TIRTIR LTR LTR AAAAAAgag pol env Monómero de ARN 7SL AAAAAAAA Monómero de ARN 7SL AAAAAA (CCCTCT)n ALU-like VNTR HERVK10-like AAAAAA 5’ UTR ORF2 3’ UTRORF1 AAAAAAEN RT AAAAAATransposasa TIRTIR LTR LTR AAAAAAgag pol env Monómero de ARN 7SL AAAAAAAA Monómero de ARN 7SL AAAAAA (CCCTCT)n ALU-like VNTR HERVK10-like AAAAAA 19 se ha reportado que la expresión de retrotransposones como LINE-1 participan en el desarrollo de diferentes tipos de cáncer (Burns, 2017). A pesar que la gran mayoría de los repetidos han perdido su capacidad de transposición o retrotransposición, debido a las mutaciones o alteraciones que han sufrido a lo largo del tiempo, las copias intactas que aún están presente en el genoma mantienen la capacidad de expresarse y como se mencionó en el caso de las LINE LIHS, de integrarse en otros sitios. Sin embargo, en una célula normal estas secuencias se encuentras reprimidas por mecanismos epigenéticos, que garantizan su silenciamiento y la protección del genoma. Epigenética El término epigenética se refiere a los cambios hereditarios en la expresión génica que no se deben a ninguna alteración en la secuencia del ADN (Esteller, 2009). Está formada por un conjunto de modificaciones en el ADN o en su entorno que le permiten activarse o silenciarse transcripcionalmente (Allis & Jenuwein, 2016). Los mecanismos epigenéticos pueden ser directamente en la estructura de la doble hélice, como la metilación del ADN en el carbono 5 de las citosinas en di-nucleótido CpG gracias a enzimas metil-transferasas de ADN, o pueden ser modificaciones en las histonas que otorgan la estructura tridimensional del material genético. La regulación de estas modificaciones es crucial para la transcripción génica y el correcto silenciamiento de secuencias que no se deben expresar (Feinberg & Tycko, 2004). Generalidades de la cromatina El núcleo celular presenta el gran reto de almacenar y organizar las 3,234.83 mega pares de bases que conforman el genoma humano dentro de un diámetro de entre 1 y 20 µm de manera que exista una distinción entre secuencias accesibles para la maquinaria transcripcional y secuencias inaccesibles que impidan la libre transcripción. La arquitectura tridimensional al interior del núcleo logra este propósito a través de un complejo y dinámico arreglo de la cromatina. La cromatina es un polímero versátil de proteínas enriquecidas con aminoácidos básicos como histonas (entre otras proteínas) y ADN. Su unidad funcional es el nucleosoma compuesto por un centro canónico que posee un par de histonas: H2A, H2B, 20 H3 y H4, a las cuales se enrollan 147 pares de bases (pb) de ADN, dando 1.7 vueltas y una molécula de la histona H1 la cual se encuentra entre un nucleosoma y otro (MacAlpine & Almouzni, 2013). La mayor parte del ADN se encuentra en cromatina compacta actuando como barrera para los factores de transcripción, a este estado “apagado”, se le conoce como heterocromatina y esta puede ser facultativa si su condición inaccesible es reversible permitiendo la transcripción en algunas etapas del desarrollo o en tejidos específicos; o constitutiva si contiene secuencias que en condiciones normales no se transcriben como repetidos en tándem presentes en el telómero y en el centrómero. La cromatina que se encuentra laxa o abierta, permite el acceso de la maquinaria transcripcional otorgándole un estado “encendido”, se conoce como eucromatina (Jenuwein, 2001) (Figura 8). Figura 8. Las modificaciones en las histonas participan en la conformación de la cromatina. El nucleosoma representado con las histonas centrales donde se enrollan ∼147pb dando 1.7 vuelas, la exposición de las colas de estas proteínas permite su modificación post-traduccional. Izquierda, eucromatina, laxa, “encendida·. Derecha, heterocromatina, compacta, “apagada”. Las marcas en las histonas intervienen en la formación de estas condiciones. Modificada de (Jenuwein, 2001). Modificaciones en las histonas La propiedad dinámica de la cromatina se refiere a su capacidad de exponerse a alteraciones que modifiquen su nivel de compactación remodelando así el estado de eucromatina a heterocromatina y viceversa. El nucleosoma como unidad funcional de la cromatina es una estructura versátil, debido a la capacidad de sufrir modificaciones post-traduccionales en los extremos amino-terminal de las histonas, mediante la unión covalente de grupos funcionales como metilaciones, acetilaciones, SUMOilaciones y ubiquitinaciones en los residuos de lisina y fosforilaciones en los residuos de arginina y trionina Eucromatina Heterocromatina 21 (Jenuwein, 2001), Estas modificaciones actúan de forma sinérgica contribuyendo a la conformación del ambiente cromatínico, permitiendo su condición laxa o compacta. Esto les otorga un papel crucial en la regulación de la expresión y silenciamiento génico por lo que las enzimas modificadoras de las histonas son elementos de control maestro dentro del núcleo, éstas son capaces de transferir los grupos funcionales específicos a los residuos mencionados en las colas de las histonas. En la figura 9 se muestran algunas de las modificaciones en histonas más estudiadas aunque la lista de modificaciones y sus efectos sigue creciendo. Tres de las modificaciones de histonas más estudiadas y que se incluyeron en este estudio, se detallan a continuación. Figura 9. Modificaciones post-traduccionales en las histonas. Todas las histonas están sujetas a modificaciones post-traduccionales que se producen principalmente en las colas de las histonas. Las modificaciones que se muestran en la figura anterior son: acetilación (azul), metilación (rojo), fosforilación (amarillo) y ubiquitinación (verde). El número en gris debajo de cada aminoácido representa su posición en la secuencia (Portela & Esteller, 2010). H3K4me3 La tri-metilación en la lisina 4 de la histona tres (H3K4me3) es una marca ampliamente distribuida en el genoma y se asocia, a la activación transcripcional, es decir la eucromatina. Estudios de inmunoprecipitación de cromatina asociada a secuenciación (ChIP-seq) han demostrado la acumulación de esta marca en regiones reguladoras de activación (Benayoun et al., 2015; Santos-Rosa et al., 2002). NATURE BIOTECHNOLOGY VOLUME 28 NUMBER 10 OCTOBER 2010 1061 Nucleosome positioning. Nucleosomes are a barrier to transcrip- tion that blocks access of activators and transcription factors to their sites on DNA, at the same time they inhibit the elongation of the transcripts by engaged polymerases. The packaging of DNA into nucleosomes appears to affect all stages of transcription, thereby regulating gene expression. In particular, the precise position of nucleosomes around the tran- scription start sites (TSSs) has an important influence on the initia- tion of transcription. A preferential positioning of nucleosomes can be described at any given genomic locus. Nucleosome displacements of as few as 30 bp at TSS have been implicated in changes in the activity of RNA polymerase II. Moreover, the 5 and 3 ends of genes possess nucleosome-free regions needed to provide space for the assembly and disassembly of the transcription machinery. The loss of a nucleosome directly upstream of the TSS is tightly correlated with gene activation, whereas the occlusion of the TSS by a nucleosome is associated with gene repression77,78 (Fig. 4). Nucleosome positioning not only determines accessibility of the tran- scription factors to their target DNA sequence but has also been reported toplay an important role in shaping the methylation landscape79 (Fig. 4). Besides transcription regulation, nucleosome occupancy also participates in directing meiotic recombination events80. The precise function of nucleosomes is influenced by the incorpora- tion of different histone variants. Histone variants are distinguished from core histones by the fact that they are expressed outside of S phase and are incorporated into chromatin independently from DNA replication. They differ from core histones in their tails, in their domain structure and in a few key amino acids57. Histone variants regulate nucleosome positioning and gene expression23. For example, the incorporation of the histone variant H2A.Z protects genes against DNA methylation81. Thus, the interplay among different epigenetic partners becomes evident once and H3K4. DNMT3L specifically interacts with histone H3 tails, inducing de novo DNA methylation by recruitment of DNMT3A; however, this interaction is strongly inhibited by H3K4me43. Furthermore, several histone methyltransferases have also been reported to direct DNA methylation to specific genomic targets by recruiting DNMTs44,45, helping in this way to set the silenced state established by the repressive histone marks. Moreover, histone methyltransferases and demethylases can also modulate the stability of DNMT proteins, thereby regulating DNA methylation levels46,47 (Fig. 2b). On the other hand, DNA methylation can also direct his- tone modifications. For instance, methylated DNA mediates H3K9me through MeCP2 recruitment72. Many enzymes that catalyze covalent post-transcriptional modi- fications have been described52,73. Because the modifications are dynamic, enzymes to remove these post-transcriptional modifications have also been reported52,73,74. However, the list of histone modifi- cations, its writers and erasers, might not yet be completed. Of the enzymes that modify histones, methyltransferases, histone demethy- lases and kinases are the most specific to individual histone subunits and residues52,75. Conversely, most of the histone acetyltransferases (HATs) and histone deacetylases (HDACs) are not highly specific and modify more than one residue. Many transcriptional co-activators (e.g., GCN5, PCAF, CBP, p300, Tip60 and MOF) have been reported to possess intrinsic HAT activity, whereas many transcriptional co-repressor complexes (e.g., mSin3a, NCoR/SMRT and Mi-2/NuRD) contain subunits with HDAC activity66. Surprisingly, it has recently been reported that HDACs and HATs are both targeted to transcribed regions of active genes by phosphorylated RNA polymerase II. Thus, most HDACs in the human genome function to reset chromatin by removing acetylation at active genes, whereas HATs, by contrast, are mainly linked to transcriptional activation76. N-S R G K Q G G K A R A K A K S… …L R K G N… …L G K V T… …L P K K T E S H…-C 9 151 P A 5 A 13 A A 36 A M 99 120119 M U P H2A 14 P N-…P A K S A... …K G S K K A V T K… …V Y K V L… …Y N K R S… …L A K H A… …K A V T K…-C 5 A 12 A 15 20 M 43 A 85 A 108 A 116 120 UAM A UA H2B MMMM N-A R T K Q T A R K S T G G K A P R K Q L A T K A A R K S A P A T G G V K K P H R Y R P G T V… 2 3 P 4 8 9 M A 10 P 11 P 17 A 18 23 M A 2627 M A 28 P 36 M 37 A 14 M A M A 41 P …Y Q K S T… …D F K T D…-C 56 M 79 45 P M AH3.1 N-S G R G K G G K G L G K G G A K R H R K... …R I S G L… …V L K V F… …K R K… …L K R Q…-C 1 P M 3 A 5 A 8 12 M A A 16 20 M A 47 P M 59 A 77 A 79 A 91 M 92 H4 H1.4 N-S E T A P… …A E K T P V… …K S A G A A K R K A S… …K A V A A S K E R… …A L K K A L... 26 M 273 3617 A 3418 46 52 …K S L V S K G T L V Q T K… …S F K L N… …K S A K K T… …K K A K S… …P K S P A… -C P P P A P UA A 64 M 85 A 90 A M A 97 M A 106 M M 149 154 P 63 168 M A 172 P 186 P Figure 3 Histone modifications. All histones are subject to post-transcriptional modifications, which mainly occur in histone tails. The main post- transcriptional modifications are depicted in this figure: acetylation (blue), methylation (red), phosphorylation (yellow) and ubiquitination (green). The number in gray under each amino acid represents its position in the sequence. RE V IE W 22 Se sabe que la mono-metilación (H3K4me1) está asociada a elementos potenciadores de la transcripción (enhancers) (Heintzman et al., 2007; Rada-Iglesias et al., 2011), mientras que la tri-metilación (H3K4me3) a regiones promotoras de los genes por lo que correlaciona con la ubicación de muchos sitios de inicio de la transcripción (TSS) de genes que se encuentran expresados (Guenther et al., 2007). Estos ensayos de ChIP también han reportado su asociación en las mismas regiones que la ARN polimerasa II (Barski et al., 2007a). Actualmente se sabe que el complejo de proteínas Thitorax (TrxG) contiene las enzimas involucradas en depositar esta modificación en humanos (Schuettengruber et al., 2007). H3K9me3 La tri-metilación de la lisina 9 en la histona 3 (H3K9me3) es una modificación que se encuentra preferencialmente en regiones del genoma donde es menos probable encontrar genes. Tanto su di- y tri- metilación de esta lisina son características de la heterocromatina constitutiva en regiones altamente repetidas de varios organismos incluyendo a los mamíferos y, por lo tanto, a los humanos. Se puede encontrar distribuida en grandes bloques cubriendo varias kilobases de ADN (Becker et al., 2016). Existen al menos 4 enzimas capaces de depositar esta marca, Suv39h1 (Johnson et al., 2017), Suv39h2 (Piao et al., 2016), Setdb1 (Keniry et al., 2016) y G9a (Hua et al., 2014). Las H3K9me2/me3 son reconocidas por la proteína HP1 (Proteína de heterocromatina 1) la cual funciona como regulador epigenético para el reclutamiento de modificadores de histonas como las metil-transferasas SUV39H1/2 contribuyendo así a la compactación de la cromatina (Kim & Kim, 2012) H3K27me3 La tri-metilación de la lisina 27 en la histona 3 (H3K27me3) es una marca represiva característica de heterocromatina facultativa. Esta modificación se encuentra distribuida de manera distinta en cada tipo celular, ya que es la principal responsable del silenciamiento de genes que codifican para factores de transcripción linaje-específico como los genes HOX (Ku et al., 2008). Ensayos de ChIP-seq han correlacionado su abundancia en regiones cercanas al TSS y a promotores de genes con su represión, sin embargo, se sabe que puede permitir el acceso a factores de transcripción y a la ARN polimerasa II (Becker et al., 2016). También puede encontrarse en el pericentrómero y en el cromosoma X inactivo en 23 mamíferos (Allis & Jenuwein, 2016). Esta marca es catalizada por el complejo represor Polycomb 2 (PRC2) el cual se compone por la metil-transferasa EZH2, EED, y SUZ12 (Kim & Kim, 2012). Silenciamiento epigenético de las secuencias repetidas Como mencionamos anteriormente, las secuencias repetidas se encuentras silenciadas por varios mecanismos epigenéticos principalmente la metilación de ADN en sus regiones promotoras y secuencias codificantes y por modificaciones represivas en las histonas (H3K9me3, H3K27me3 entre otras), de manera que estas secuencias no son transcritas en condiciones normales (Groh & Schotta, 2017; Ishak et al., 2016; Rodić et al., 2014; Ting et al., 2011). Sin embargo, se ha reportado que la expresión de estas secuencias tiene un efecto negativo al generar inestabilidad cromosómica, causando posibles inserciones en genes codificantes, cortes de doble cadena, ser fuentes para la formación de microsatélites entre otros procesos (Cordaux & Batzer, 2009). Dichas alteraciones se han encontrado en diversas enfermedades, pero principalmente en el cáncer, donde se sabe que hay una alteración global de las marcas epigenéticas lo que contribuye a la perdida de la represión de diversas secuencias repetidas (Solovyov et al., 2018).Una de las consecuencias conocidas de la expresión de elementos repetidos son las inserciones somáticas de LINE-1 que ocurren en muchos tipos de cáncer humano y pueden ser clínicamente significativos. Un ejemplo de esto es la inserción de LINE-1 de 750 pb que interrumpe exones codificantes del gen supresor de tumores APC provocando cáncer de colon (Fodde et al., 2001). Entre otros ejemplos, la desregulación epigenética de elementos repetidos en cáncer es uno de los principales objetivos a nivel mundial para el estudio de estas enfermedades. Cáncer Según estimaciones de la Organización Mundial de la Salud (OMS) en 2015, el cáncer es la primera o la segunda causa de muerte antes de los 90 años de edad en 91 de 172 países incluyendo México (Bray et al., 2018). El cáncer es un conjunto de enfermedades complejas que presentan una sucesión de perturbaciones genéticas y epigenéticas (Lin & He, 2017). El proceso de transformación a una célula maligna implica múltiples procesos como la desregulación de la proliferación celular, evasión de supresores de crecimiento, capacidad de inmortalidad replicativa, inducción de angiogénesis, resistencia a la muerte celular y la activación de metástasis (Hanahan & Weinberg, 2011). El cáncer genera una 24 serie de cambios a nivel molecular y celular que han sido un foco de estudio en los últimos años. Los cambios al interior del núcleo y en la regulación epigenética son las principales razones por las que podrían expresarse los elementos repetidos. Cambios en el núcleo Uno de los cambios más usuales en las células de cáncer se refleja en el núcleo, el cual presenta alteraciones estructurales características. La cromatina se observa con arreglos heterogéneos como la aparición de agregados asimétricos de heterocromatina así como regiones de dispersión de la misma. Además de pérdida de la redondez del perímetro nuclear, alargamiento del nucléolo y la polilobulación de la estructura nuclear general (Zink et al.- 2004). Estos cambios son importantes ya que el cambio en el arreglo de la cromatina genera un ambiente poco condensado que puede modificar los patrones de expresión de distintas secuencias (Zhang et al., 2016) Cambios epigenéticos Está bien documentado que las alteraciones epigenéticas juegan un papel importante en el desarrollo de neoplasias (Wu et al., 2015) y están muy ligadas a los cambios estructurales del núcleo celular. En general, se sabe que en cáncer hay un fenómeno de hipometilación global en el genoma humano (Feinberg & Tycko, 2004; Robertson, 2001). Por otro lado, las modificaciones post-traduccionales en las histonas sufren cambios generalizados en neoplasias que modifican la estructura de la cromatina al alterar el arreglo entre eucromatina y heterocromatina (Wu et al., 2015). Esto permite la expresión de secuencias que de manera normal se encuentran epigenéticamente silenciadas. Como la desregulación de la H3K9me3 en cáncer de mama la cual se encuentra globalmente disminuida en este tipo de neoplasia, elevando la expresión de oncogenes, causando así la inestabilidad de la cromatina a través de la activación de la transcripción de transposones tanto en modelos de células in vitro como en tejidos de pacientes (Li et al., 2017). Otro ejemplo es la pérdida general de la H4K20me3, característica de heterocromatina y silenciamiento, en linfomas en secuencias hipometiladas en el ADN, permitiendo la expresión de secuencias repetidas como retrotransposones. Así como la hiperacetilación de histonas en las lisinas 5, 8 y 12 en células de leucemia, la cual es una marca de activación, en repetidos centroméricos como el satélite 2 y teloméricos (Fraga et al., 2005). Estas alteraciones epigenéticas se 25 han encontrado en diversos tipos de cáncer. En México, el cáncer de próstata es una neoplasia cuya morbilidad y mortalidad ha ido en aumento por lo que es importante explorar nuevas vías que permitan el diagnóstico y seguimiento de los pacientes. Cáncer de próstata El cáncer de próstata es el tipo de cáncer no-cutáneo con más incidencia en hombres al rededor del mundo, con 1,276,106 de casos nuevos al año y matando 358,989 hombres anualmente (Ferlay et al., 2018). En el caso de México se estima que uno de cada seis hombres desarrollará cáncer de próstata a lo largo de su vida, con mayor probabilidad después de los 40 años («Informe sobre la salud de los mexicanos», 2015). Durante el 2000 y el 2013 4,859 hombres murieron por esta causa, aproximadamente 31 al mes durante estos 13 años, lo que posiciona a este tipo de cáncer como un problema de salud pública a nivel nacional y global (Mohar-Betancourt et al., 2017). Esta enfermedad tiene una incidencia del 29.3% de los casos de cáncer en hombres en México, comparado con la media mundial donde la incidencia es del 13.5%, siendo así un grave problema de salud pública en nuestro país (Figura 10) (GLOBOCAN 2018, https://gco.iarc.fr/databases.php). Figura 10. El porcentaje de incidencia de cáncer de próstata es mayor en México que en el mundo Incidencia por número de casos reportados de cáncer en hombres a nivel mundial, 13.5% de los casos totales, Y en México 29.3% de los casos. (GLOBOCAN, 2018) Próstata (29.3%) Otros (38.2%) Próstata (13.5%) Colorectal (9.1%) Colorectal (10.9%) Estómago (7.2%) Hígado (6.3%) Vejiga (4.5%) Esófago (4.2%) Pulmón (14.5%) Pulmón (5.3%) Testículo (5.4%) Leucemia (4.1%) Hígado (4.6%) Otros (38.9%) Total: 9, 456, 418 Total: 85, 616 Mundial México Estómago (4.6%) 26 Como en la mayoría de las células de cáncer, las células prostáticas sufren cambios morfológicos y de arreglo de la cromatina. Estas modificaciones son evidentes como consecuencia de la acumulación de alteraciones genéticas y epigenéticas (Carleton et al., 2018). Un ejemplo de este fenómeno son los resultados presentados por Gann et al. (2013) donde realizaron un análisis morfométrico de los núcleos de muestras de células epiteliales prostáticas benignas y de tumor basado en la tinción directa del ADN donde midieron la dispersión de la cromatina dentro del núcleo. En los histogramas de la figura 11 se muestra el porcentaje de núcleos con respecto a la variación en el arreglo de la cromatina. Los núcleos normales (Próstata sana) tienen el mayor porcentaje de núcleos con valores cercanos a la media, y conforme la muestra se toma más cerca del tumor y la enfermedad avanza el porcentaje de núcleos con distintos arreglos de cromatina aumenta. Los resultados de este trabajo, demuestran una clara relación de los cambios de la organización del ADN dentro del núcleo con la distancia al tumor principal y con la progresión del mismo (Figura 11). Figura 11. Cambios en la morfometría de los núcleos a lo largo del avance de la enfermedad en cáncer de próstata. En los histogramas se mide la frecuencia en la variación de la distribución de la cromatina a partir de análisis morfométricos del núcleo. En el eje de las “y” se grafica la frecuencia expresada en porcentaje y en el eje de la “x” el valor del análisis multivariado que representa la diferencia del arreglo cromatínico entre los núcleos De (Gann et al., 2013). Normal Cáncer Cambios en la morfometría de la cromatina + - 27 De la misma manera, las células en este tipo de neoplasia presentan cambios epigenéticos. Desde 1987 (1987), Mark T. Bedford y Paul D. Van Helden reportaron una correlación entre el aumento de la hipometilación global y el progreso de la enfermedad. También demostraron que las muestras provenientes de tejido metastásico presentaron mayor disminución en el contenido de 5-metilcitosina frente a tumores primarios. En consecuencia a la pérdida generalizada de esta marca, su función represiva de la transcripción se pierde., Incluyendo el silenciamiento de elementos repetidos, los cuales se sabeson las regiones genómicas con mayor número de islas CpG metiladas de forma normal (Robertson, 2001; Yoder, Walsh, & Bestor, 1997). Por otro lado, en próstata existe un gran potencial en la búsqueda de biomarcadores específicos para progresión tumoral y para diagnóstico. El establecimiento de técnicas de secuenciación de nueva generación ha permitido incursionar en estos enfoques revelando un panorama genómico complejo con alteraciones recurrentes de ADN que tienen efectos claros en la desregulación de procesos involucrados con la oncogénesis, ciclo celular y organización de la cromatina (Angeles et al., 2018). Expresión de elementos repetidos en cáncer Como consecuencia de estos cambios estructurales dentro del núcleo y alteraciones en el silenciamiento epigenético, se amplía el transcriptoma de las células de cáncer expresándose ARNs que no se transcribirían en condiciones normales, entre ellos secuencias repetidas, las cuales constituyen más del 50% del genoma humano (Lander et al., 2001). Hasta ahora la mayoría de los esfuerzos para el estudio del de cáncer se han enfocado en la expresión de genes codificantes, especialmente oncogenes y supresores de tumores (Lin & He, 2017). Por lo que estudios recientes han dirigido sus esfuerzos en conocer el transcriptoma de esta vasta fracción del genoma en condiciones de neoplasia utilizando técnicas de secuenciación masiva (Ting et al., 2011; Criscione et al., 2014; Solovyov et al., 2018). Se ha visto que en células de diferentes tipos de adenocarcinomas hay una sobre-expresión de estos elementos repetidos frente a muestras normales. Este fenómeno se ha observado tanto en repetidos de ADN como el satélite 2 en muestras de cáncer de pulmón, riñón, ovario y próstata (Ting et al., 2011). Así como los retrotransposones de tipo LINE y Alu en cáncer de mama, páncreas, colon y rectal (Carreira et al., 2014; Rodić et al., 2014). En cáncer de próstata se han reportado expresadas diferencialmente secuencias LTR de retrovirus endógenos (ERV) y retrotransposones LINE en tumores primarios (Criscione et al., 2014). 28 En general, estos cambios de expresión se han relacionado con los cambios epigenéticos al interior del núcleo, como el caso del satélite 2 el cual se sabe que en condiciones normales el ADN se encuentra altamente metilado y se mantiene en forma de heterocromatina por la marca de H3K9me3 y la desregulación de éstas, se relaciona con el proceso de carcinogénesis permitiendo así su expresión (Ting et al., 2011). De la misma manera, en cáncer de próstata se ha reportado una tendencia a disminuir los niveles de metilación del ADN en los promotores de las secuencias LINE-1 y Alu con la progresión del tumor (Cho et al., 2007). En cuanto a la retrotransposición y la expresión de los retrotransposones LTR se sabe que pueden alterar la estabilidad del genoma, interferir con la transcripción de los loci del gen del huésped y causar disfunción celular y enfermedades, incluido el cáncer (Hu et al., 2017). A pesar del gran esfuerzo que se ha hecho en los últimos años por caracterizar la expresión de elementos repetidos en cáncer aún se desconocen perfiles claros de expresión a nivel global de forma cáncer- específico. El estudio profundo de estos perfiles de expresión podría eventualmente concretarse en el desarrollo de marcadores biológicos de progresión tumoral, caracterización o como posibles blancos terapéuticos. Biomarcadores El término "biomarcador", una referencia de "marcador biológico", se refiere a una característica que se mide y evalúa objetivamente como un indicador de procesos biológicos normales, patógenos o respuestas farmacológicas a una intervención terapéutica. La característica medida puede ser funcional, fisiológica o bioquímica y a nivel celular o una interacción molecular (Strimbu & Tavel, 2010). Una estrategia común para identificar dichos marcadores consiste en analizar el transcriptoma de los tumores mediante secuenciación masiva (Seifert et al., 2015). El patrón singular de expresión de estas secuencias repetidas en patologías como el cáncer ha llevado a la publicación de trabajos en donde se correlaciona la expresión de alguna de estas secuencias con un atributo de la enfermedad. Tal es el caso de la expresión del mensajero del retrovirus endógeno HERV- K en cáncer de próstata el cual se asocia positivamente con la prognosis de la enfermedad (Wallace et al., 2014). Las secuencias LINE en conjunto se han propuesto como marcas distintivas de varios tipos de cáncer debido a la clara expresión de la proteína ORF1p en muestras histológicas de diferentes tipos de tumores incluyendo mama, colon, hepático, próstata y neuroendocrinos (Rodić et al., 2015). De la 29 misma manera se ha propuesto una correlación entre la sobre-expresión del retrotransposón L1HS con la sobrevivencia y la capacidad de respuesta al tratamiento en pacientes de cáncer de colon y rectal (Solovyov et al., 2018). Estos resultados en conjunto, señalan la posibilidad de proponer la expresión anormal de secuencias repetidas como biomarcadores potenciales de distintas características de estas enfermedades. Por otro lado, estudios previos han faltado en profundizar en la caracterización de los cambios epigenéticos que permiten esta desregulación de secuencias repetidas. Este trabajo presenta una perspectiva distinta al correlacionar la expresión anormal de estas secuencias con la pérdida y ganancia de marcas epigenéticas, lo cual permite una comprensión más amplia de este fenómeno. 30 Planteamiento del problema Las células neoplásicas modifican su fenotipo al interior del núcleo presentando alteraciones en regiones de heterocromatina y modificaciones en las marcas epigenéticas generando un ambiente que permite la expresión de secuencias que en condiciones normales se encuentran reprimidas. Con estos antecedentes nos preguntamos si podría haber un patrón en la expresión de elementos repetidos en cáncer de próstata y si la activación transcripcional de éstos, se encuentra determinada por cambios epigenéticos. Hipótesis Las regiones de heterocromatina al interior del núcleo se ven alteradas en un fenotipo de cáncer, produciendo la pérdida de silenciamiento de zonas del genoma normalmente reprimidas. Por lo tanto detectaremos anormalidades en la expresión de secuencias repetidas presentes en las regiones alteradas. Objetivo general Analizar el transcriptoma de líneas celulares de cáncer de próstata, así como biopsias de tumores de próstata para la identificación de secuencias repetidas expresadas de manera anormal y correlacionarlo con la ganancia o pérdida de marcas epigenéticas. Objetivos particulares • Caracterizar el perfil de expresión de todas las secuencias repetidas en líneas celulares de cáncer de próstata (LNCaP y PC3 contra PrEC) a partir de datos previamente publicados y tumores primarios. • Validar estos perfiles de expresión mediante RT-PCR en tiempo real utilizando RNA total. • Analizar el patrón de expresión de estos perfiles en las fracciones celulares de citoplasma, nucleoplasma y RNA asociado a cromatina. • Caracterizar mediante inmunoprecipitación de cromatina las marcas epigenéticas presentes en las secuencias repetidas para correlacionar la expresión anormal con la pérdida o ganancia de marcas epigenéticas. 31 Material y métodos Selección de datos públicos Se seleccionaron datos de RNA-seq publicados previamente y donde no se haya reportado el análisis de expresión de elementos repetidos, disponibles en la base de datos de secuenciación Gene expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) que cumplieran con los siguientes requisitos: • Que la secuenciación haya sido en ambos extremos (Pair-end) y con una longitud mayor a 75 bases en cada extremo o de 100 pares de bases en un solo lado (Singleread). La longitud de la secuencia y el hecho de que sea pareada fue con el propósito de tener una mejor cobertura de las secuencias repetidas y poder alinearlas a puntos específicos del genoma. • Que las librerías se hayan preparado de manera que mantenga la información de la cadena en donde se está expresando (Strand specific). Así la información nos permite diferenciar cuál es la secuencia que se está expresando en caso de estar traslapadas y en dirección opuesta a un gen. Selección de muestras Con base en las condiciones anteriores, seleccionamos los datos de Taberlay et al., (2016) para analizar 2 líneas celulares de próstata: la línea control PrEC (células epiteliales de próstata) y LNCaP la cual es una línea de cáncer de próstata metastásico. Además generamos los datos de RNA-seq para la línea celular PC3 (tumor metastásico) (Tabla 1). Los datos de las muestras de 3 pacientes correspondientes a tejido tumoral y tejido adyacente fueron proporcionados por el INCan y cuentan con la aprobación del comité de ética correspondiente: Prot. No. (019/004/DII) (CEI/1358/18) conducido por el Dr. Cristian Gabriel Oliverio Arriaga. Cabe destacar que las muestras fueron secuenciadas en nuestro laboratorio. Los datos de RNA-seq total de glándula prostática fueron obtenidos de ENCODE Project Consortium (2012) (Tabla 2). 32 Tabla 1. Características de las líneas celulares PrEC LNCaP PC3 Tejido Epitelial prostático Epitelial prostático Epitelial prostático Normal/Cáncer Normal Cáncer Cáncer Sitio de metástasis - Nodo linfático Hueso Receptor de Andrógenos Tejido heterogéneo + - Tipo de librería mARN mARN mARN Acceso GEO GSM1902618 GSM1902619 GSM1902612 GSM1902621 GSM1902622 GSM1902623 Secuenciado en el laboratorio para este proyecto. Tabla 2.- Características muestras de pacientes Tejidos adyacentes(3) Tumores (3) Glándula epitelial próstática sana Tejido Epitelial prostático Epitelial prostático Epitelial prostático Histopatología Sin evidencia de neoplasia Adenocarcinoma Sin evidencia de neoplasia Tumor - Primario - Tipo de librería mARN mARN ARN total Gleason - 7 (4+3) - Acceso GEO Secuenciado en el laboratorio Secuenciado en el laboratorio GSE88479 GSE88311 Secuenciación Se secuenciaron 3 muestras de cADN de ARN mensajero de la línea celular PC3, 3 muestras de tumores primarios de próstata y 3 de muestras de tejido adyacente. Las librerías se prepararon a partir de 1.5µg de ARN total para PC3 y 700ng para las muestras de pacientes de acuerdo al protocolo de Illumina TruSeq Stranded mRNA (cat 20020594). La secuenciación fue realizada en el secuenciador HiSeq2500 de tipo paired-end 2x125, la profundidad de cada muestra fue de al menos 20M de lecturas. Al final de la secuenciación se obtuvieron los datos crudos en archivos FastQ. 33 Análisis bioinformático Los resultados bioinformáticos fueron obtenidos utilizando la plataforma virtual Galaxy (https://usegalaxy.org/) la cual es una aplicación de código abierto que permite realizar análisis bioinformáticos a través de la web con una interfaz gráfica sin la necesidad de programar (Blankenberg et al., 2011). Dentro de esta plataforma se encuentra la herramienta DeepTools la cual permite el análisis de datos provenientes de secuenciación de nueva generación admitiendo tareas comunes como: control de calidad, procesamiento y normalización de datos, integración de datos y visualización (Ramírez et al., 2016). El flujo de trabajo fue el siguiente: • Se cargaron los archivos FastQ a la plataforma virtual Galaxy (https://usegalaxy.org/), donde se realizó lo siguiente. • Se transformaron los datos a un formato FastQ Illumina Sanger 1.8 con la herramienta FastQ groomer. • A estos archivos se les realizó un análisis de control de calidad utilizando FastQC en donde corroboramos la eficiencia de la secuenciación. Los parámetros a considerar fueron: el número de lecturas generadas, la calidad por base, contenido de bases por secuencia, contenido de GC, contenido de bases N (no reconocidas), niveles de duplicación, secuencias de sobre- representadas, presencia de adaptadores y presencia de K-mers. (ANEXO 2) • Las lecturas pareadas se alinearon al genoma humano de referencia (hg38), utilizando el alineador TopHat. (Resultado1) • Dentro de Galaxy, utilizamos las herramientas DeepTools donde se realizó una matriz multiBigWig para calcular los componentes principales de los resultados del mapeo de las lecturas obtenidas. Los resultados de ésta se esquematizaron en una gráfica de dos componentes principales usando plotPCA. (Resultado 2) • Se generó un archivo BED como plantilla de elementos repetidos para realizar el análisis de expresión. (Anexo 3) • Dentro de las herramientas Deep Tools se realizó un análisis de expresión diferencial de los elementos repetidos, realizado un matriz usando computematrix que compara los valores dados (archivo de mapeo .bam) asociados a una región particular del genoma (archivo de repetidos .bed). La herramienta se ejecutó en la modalidad “regiones escaladas” en donde todas las regiones indicadas en el archivo BED quedaron confinadas en 1000pb. Además se agregaron 34 500pb río arriba y debajo de cada elemento repetido. Finalmente se generaron los mapas de calor usando plotHeatMap. (Resultados 3 y 4) A partir de estos resultados se seleccionaron 6 elementos repetidos con expresión desregulada con respecto a la línea celular control PrEC: LINE-1, HSAT5, D20S16, SATR2, GSATII y HERVK para ser validos por RT-qPCR. Cultivo celular Para los experimentos de RNA-seq (PC3), y PCR en tiempo real se cultivaron las 3 líneas celulares bajo las condiciones presentadas en la tabla 3. Tabla 3. Condiciones de cultivo de las líneas celulares Línea celular Condiciones de crecimiento Propagación PrEC (Lonza- CC- 2555) Cultivo en medio Prostate epithelial basal medium (ATCC- PCS-440-030), adicionado con el kit de crecimiento Prostate epithelial cell growth kit (L- Glutamina, apo-Transferrina, rh TGF-!, rh-Insulina, hidrocortisona, epinefrina y extracto-P) (ATCC- PCS- 440-040) y 1% de Estreptomicina/Penicilina. Cambio de medio cada segundo día en obscuridad parcial. Incubación 37°C y 5% de CO2. Al alcanzar el 80-90% de confluencia. Lavado con HEPES Buffered Saline Solution, tratado con 4mL de tripsina 1x, incubado 5min a 37°C, se agregó 4mL de medio completo. Centrifugado 5min a 1500rpm. Propagación 1:6. LNCaP (ATCC- CRL- 1740) Cultivo en medio RPMI-1640 (ATCC-30-2001) adicionado con 10% de suero fetal bovino y 1% de Estreptomicina/Penicilina. Cambio de medio cada tres días. Incubación 37°C y 5% de CO2. Al alcanzar el 80-90% de confluencia. Lavado con PBS 1x, tratado con 2.5mL de tripsina 1x, incubado 5min a 37°C, se agregó 2.5mL de medio completo. Centrifugado 5min a 1500rpm. Propagación 1:3 PC3 (ATCC- CRL- 1435) Cultivo en medio DMEM-F12 adicionado con 10% de suero fetal bovino y 1% de Estreptomicina/Penicilina. Cambio de medio cada tres días. Incubación 37°C y 5% de CO2. Al alcanzar el 80-90% de confluencia. Lavado con PBS 1x, tratado con 2.5mL de tripsina 1x, incubado 5min a 37°C, se agregó 2.5mL de medio completo. Centrifugado 5min a 1500rpm. Propagación 1:3 35 Extracción de ARN • ARN Total Para cada línea celular, se agregó 1mL de Trizol a un plato de cultivo de 100 mm con confluencia de 80- 90%. La extracción se realizó utilizando el kit DirectZol RNA MiniPrep Plus de ZYMO (R2070), eluyendo en 50µL de H2O libre de nucleasas. • ARN por fracciones celulares La extracción de fracciones celulares se realizó según el procedimiento descrito en el Anexo 4. Para cada línea celular se utilizaron 3 platos de cultivo de 100 mm con confluencia de 80-90%. Las células se tripzinizaron y se colectaron mediante centrifugación en tubos Falcon de 15mL. El botón
Compartir