Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO DOCTORADO EN CIENCIAS BIOMÉDICAS CENTRO DE CIENCIAS GENÓMICAS ANÁLISIS GENÓMICO DE LA CONFORMACIÓN FUNCIONAL DE LOS FACTORES TRANSCRIPCIONALES EN Escherichia coli K-12 TESIS QUE PARA OPTAR POR EL GRADO DE: DOCTOR EN CIENCIAS PRESENTA: YALBI ITZEL BALDERAS MARTÍNEZ DIRECTOR DE TESIS DR. JULIO COLLADO VIDES CENTRO DE CIENCIAS GENÓMICAS COMITÉ TUTOR DR. JUAN ENRIQUE MORETT SÁNCHEZ INSTITUTO DE BIOTECNOLOGÍA DR. ERNESTO PÉREZ RUEDA INSTITUTO DE BIOTECNOLOGÍA CUERNAVACA, MORELOS. FEBRERO, 2014 UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. 2 DEDICATORIA Esta tesis está dedicada a mis padres y mi hermano 3 AGRADECIMIENTOS Agradezco a Julio Collado por toda la experiencia, entusiasmo, genialidad y apoyo brindado no sólo para la conclusión de este trabajo sino también para mi formación profesional e inclusive personal ¡¡¡Mil gracias!!! Espero que podamos seguir trabajando juntos. A mis tutores Enrique Morett, Enrique Pérez Rueda y Miguel Ángel Ramírez que con sus consejos y muchos ánimos lograron que mi proyecto tomara forma. A mis revisores, Miguel Ángel Cevallos, Osbaldo Resendis, Agustino Martínez y Guillermo Gosset por los comentarios duante la revisión de esta tesis. A todas las personas que han estado conmigo en el Programa de Genómica Computacional, que me han brindado su amistad, apoyo emocional, económico, técnico, en fin, hay tantas historias que contar que no acabaría de contarlas, son como una gran familia. A Dante, que llegó a mi vida a darme un giro inesperado lleno de felicidad, gracias por todo el apoyo que me estás dando en estos momentos. A CONACYT, al Centro de Ciencias Genómicas de la UNAM y al Dr. David Romero por los apoyos otorgados. 4 Las representaciones que construimos en nuestro cerebro son, objetos físicos, “modelos reducidos” del mundo exterior y de nuestro propio mundo interior. No pueden aspirar a una descripción integral, al agotamiento de la realidad del mundo. Siempre existirá un margen de incertidumbre, un espacio para volver a cuestionar todo avance del conocimiento científico. ¿Es ésta una razón para renunciar a saber más? (Jean-Pierre Changeux – El hombre de verdad) 5 ÍNDICE ÍNDICE ................................................................................................................................................................. 5 ÍNDICE DE FIGURAS ........................................................................................................................................ 6 ÍNDICE DE CUADROS ...................................................................................................................................... 6 RESUMEN ........................................................................................................................................................... 7 ABSTRACT ......................................................................................................................................................... 8 ABREVIATURAS ............................................................................................................................................... 9 CAPÍTULO 1. INTRODUCCIÓN ................................................................................................................... 10 1.1 PLANTEAMIENTO DEL PROBLEMA ................................................................................................................. 13 CAPÍTULO 2. OBJETIVOS ............................................................................................................................ 14 OBJETIVO GENERAL: ............................................................................................................................................. 14 OBJETIVOS ESPECÍFICOS: .................................................................................................................................... 14 CAPÍTULO 3. RELEVANCIA ......................................................................................................................... 15 CAPÍTULO 4. MARCO TEÓRICO ................................................................................................................ 16 4.1 UNA PERSPECTIVA HISTÓRICA EN LOS ESTUDIOS SOBRE LA REGULACIÓN TRANSCRIPCIONAL BACTERIANA .................................................................................................................................................................. 16 4.2 EVOLUCIÓN DEL CONCEPTO DE ALOSTERISMO ............................................................................................ 17 4.3 EVOLUCIÓN DE LAS PROTEÍNAS ..................................................................................................................... 21 4.4 SISTEMAS INDUCIBLES Y REPRIMIBLES ........................................................................................................ 22 CAPÍTULO 5. MÉTODOS .............................................................................................................................. 26 CAPÍTULO 6. RESULTADOS ........................................................................................................................ 27 6.1 DELIMITACIÓN DE LOS TÉRMINOS RELACIONADOS CON LA INVESTIGACIÓN .......................................... 27 6.2 CURACIÓN DE LAS CONFORMACIONES FUNCIONALES DE LOS FACTORES TRANSCRIPCIONALES EN ESCHERICHIA COLI K-12.............................................................................................................................................. 32 6.3 PRIMER ARTÍCULO: REGULONDB V8.0: OMICS DATA SETS, EVOLUTIONARY CONSERVATION, REGULATORY PHRASES, CROSS-VALIDATED GOLD STANDARDS AND MORE. ....................................................... 35 6.4 SEGUNDO ARTÍCULO: TRANSCRIPTION FACTORS IN ESCHERICHIA COLI PREFER THE HOLO CONFORMATION ............................................................................................................................................................ 47 CAPÍTULO 7. DISCUSIÓN ............................................................................................................................. 57 CAPÍTULO 8. CONCLUSIONES .................................................................................................................... 60 CAPÍTULO 9. PERSPECTIVAS .................................................................................................................... 61 ÁPENDICE ........................................................................................................................................................ 62 6 ÍNDICE DE FIGURAS Figura 1. Diferentes tipos de comportamiento alostérico. Figura 2. Sistemas inducibles y reprimibles. Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli K-12. ÍNDICE DE CUADROS Cuadro 1. Conceptos originales. Cuadro 2. Ambigüedad en el uso de los términos. Cuadro 3. Clasificación de las evidencias experimentales de la conformación funcionalde los factores transcripcionales 7 RESUMEN La red regulatoria transcripcional de Escherichia coli K-12 es una de las redes genéticas mejor estudiadas entre cualquier célula viviente. Los factores transcripcionales se unen al ADN ya sea con el efector unido (conformación holo), o como una proteína libre (conformación apo). En este trabajo se realizó una curación manual de las conformaciones funcionales (holo o apo) de los factores transcripcionales y se añadieron a la base de datos de RegulonDB. Una vez hecho esto, se analizó la conformación funcional de los factores transcripcionales de forma exhaustiva, considerando también el modo de regulación de los factores transcripcionales (activador, represor, dual). Nosotros reportamos un descubrimiento inesperado en la arquitectura de la red regulatoria, ya que encontramos una subrepresentación de la conformación apo (sin metabolito alostérico) en los factores transcripcionales cuando se unen a sus sitios en el ADN para activar la transcripción. Esta observación tiene soporte a nivel de las interacciones regulatorias individuales en sus promotores, aún si se excluyen los promotores regulados por los factores transcripcionales globales, donde tres cuartas partes de los promotores conocidos son regulados por un factor transcripcional en conformación holo. Este análisis genómico en gran escala nos permite preguntarnos cuáles son las implicaciones de estas observaciones para la fisiología y para el entendimiento en la ecología de E. coli. Discutimos estas ideas dentro del marco teórico de la teoría de la demanda de la regulación genética. 8 ABSTRACT The transcriptional regulatory network of Escherichia coli K-12 is among the best- studied gene networks of any living cell. Transcription factors bind to DNA either with their effector bound (holo conformation), or as a free protein (apo conformation) regulating transcription initiation. In this work, I performed a manual curation of the functional conformations (holo or apo) of the transcription factors, they were added to RegulonDB and then, they were exhaustively analyzed considering also their mode of regulation (activator, repressor, or dual). We report a striking discovery in the architecture of the regulatory network, finding a strong under-representation of the apo conformation (without allosteric metabolite) of transcription factors when binding to their DNA sites to activate transcription. This observation is supported at the level of individual regulatory interactions on promoters, even if we exclude the promoters regulated by global transcription factors, where three-quarters of the known promoters are regulated by a transcription factor in holo conformation. This genome-scale analysis enables us to ask what are the implications of these observations for the physiology and for our understanding of the ecology of E. coli. We discuss these ideas within the framework of the demand theory of gene regulation. 9 ABREVIATURAS ADN Ácido desoxirribonucleico ARN Ácido ribonucleico AMPc Adenosín monofosfato cíclico FT, FTs Factor de la transcripción, factores de la transcripción UT, UTs Unidades transcripcional, unidades transcripcionales 10 CAPÍTULO 1. INTRODUCCIÓN La regulación transcripcional es un mecanismo que le permite a las bacterias modular la expresión de sus genes para adaptarse a las condiciones ambientales y así mantener a la célula en homeostasis. Esta regulación está dada principalmente por los Factores de la Transcripción (FTs) que son proteínas que regulan el inicio de la transcripción activando o reprimiendo la expresión de los genes (Lewin 2008). Se han hecho contribuciones experimentales importantes se han realizado en Escherichia coli K-12 para entender la regulación mediada por FTs. Este genoma contiene más de 300 genes que codifican para proteínas que se predice se unen a promotores para activar o reprimir la transcripción (Pérez-Rueda and Collado-Vides 2000). Se han verificado experimentalmente, más de la mitad de estas proteínas (Salgado et al. 2013). La mayoría de los FTs se unen al ADN en una secuencia muy específica, y esto asegura que sus acciones sean dirigidas a promotores específicos. Algunas otras proteínas controlan un gran número de genes, por lo tanto la secuencia que reconocen es más variable. Se ha estimado que diez FTs controlan el 50% de todos los genes regulados, mientras que unos 60 FTs controlan un solo promotor (Martínez-Antonio and Collado-Vides 2003; Freyre-González et al. 2008). Los FTs acoplan la expresión de sus genes a señales ambientales, y ellos también deben ser regulados ya sea controlando su actividad o controlando su expresión. Para lograr esto, los FTs han usado diferentes mecanismos. Primero, la afinidad de unión al ADN de los FTs pueden modularse por efectores o ligandos pequeños, las concentraciones de los cuales fluctúan en respuesta a la disponibilidad de nutrientes o a consecuencia de situaciones de estrés. Segundo, la actividad de algunos factores transcripcionales se modula por modificación covalente. Tercero, la actividad de algunos FTs depende de la concentración que éstos tengan y de la fase de crecimiento en la que se encuentra la célula. Finalmente, un mecanismo menos común es a través del secuestro por una proteína que se une al FT (Browning and Busby 2004). El primer y segundo caso son los más frecuentes, los FTs pueden estar en un estado funcional (activo) o no funcional (inactivo), y esta transición se debe a la unión del FT con su efector (que puede ser un metabolito, proteína o una modificación covalente) (Jacob and Monod 1961; Snyder and Champness 2003; Martínez-Antonio et al. 2006; Goodey and Benkovic 2008). Los FTs están en conformación apo funcional cuando unidos a su sitio operador están activando o reprimiendo la transcripción sin estar unidos con un efector. Y por el contrario, cuando están unidos con un efector activando o reprimiendo, los FTs están en una conformación holo 11 funcional. Los efectores determinan la conformación del FT, y son la conexión entre la redes regulatorias y las rutas metabólicas (Martínez-Antonio et al. 2006). Se ha recopilado poca información en bases de datos acerca de los efectores de los FTs en E. coli (Wall et al. 2004; Karp et al. 2007; Gama-Castro et al. 2011); la fuente más importante se encuentra en RegulonDB, que contiene la red regulatoria de E. coli K-12 (Gama-Castro et al. 2011); se hizo una clasificación de los FTs con base en el origen de la señal si es intracelular, externa o ambas (Martínez-Antonio et al. 2006), y por otra parte, existe una publicación que considera los estados activos e inactivos de los factores transcripcionales para realizar predicciones sobre los genes que se expresan o no, para explicar los experimentos hechos en microarreglos (Gutiérrez-Ríos et al. 2003). Esta última publicación es la primera que contiene un acercamiento más puntual relacionado con la conformación funcional de los FTs en E. coli K-12. Al analizar la información relacionada con la conformación funcional, se observa que no existe un estándar en la utilización de los conceptos básicos que pertenecen al tema. Por ejemplo, se han utilizado señal, efector o inductor como sinónimos, pero pueden significar cosas diferentes dependiendo del contexto (Wall et al. 2004; Alberts 2008). Esto genera problemas cuando se requieren hacer interpretaciones biológicas, por ello es fundamental que el curador de artículos científicos, logre una estandarización de conceptos e incorpore la información dentro de las bases de datos de manera adecuada. Parte de lo que se presenta en esta tesis es una estandarización de los conceptos en regulación transcripcional para poder generar un corpus de artículos científicos sobre las conformacionesfuncionales de los FTs, que fueron curadas y añadidas a RegulonDB (Salgado et al. 2013). La compilación de los datos de las conformaciones funcionales de los FTs, nos permite tener una visión más integral de cómo funcionan éstos en la red regulatoria de E. coli K-12. Los análisis sobre otras propiedades en la regulación transcripcional ya se han realizado, y gracias a ello, se ha obtenido una mayor comprensión de cómo funcionan los sistemas biológicos. El ejemplo clásico es el estudio de la caja de Pribnow, o secuencia -10 del promotor bacteriano, donde se une la ARN polimerasa para iniciar la transcripción. Pribnow alineó seis secuencias de promotores y realizó algunos experimentos, que le permitieron concluir que debía existir una secuencia específica en la que se uniera la ARN polimerasa (Pribnow 1975). Actualmente se pueden predecir los promotores de un genoma gracias a que fue posible encontrar ciertos patrones en la regulación transcripcional. 12 El título del capítulo del libro Theoretical Biology; are there rules governing patterns of gene regulation?, cuya traducción en español es: ¿existen reglas que gobiernan los patrones de la regulación genética? La respuesta según el autor, es simple, y depende de quien pregunta, “algunos biólogos dirán que efectivamente hay reglas y que es negocio de la ciencia descubrirlas, y otros biólogos dirán que no hay reglas” (Savageau 1989). Lo que se ha observado es que conforme se estudian los mecanismos biológicos con más detalle y a nivel genómico, cada vez podemos encontrar más patrones en la biología de lo que anteriormente se pensaba. La información contenida en las bases de datos nos permite realizar análisis genómicos y tener una visión integral que pueden resultar en propiedades emergentes que no se pueden obtener analizando únicamente partes individuales del sistema. La presente tesis contiene un estudio global de las conformaciones funcionales de los FTs en E. coli, así como tendencias que hemos tratado de explicar considerando el mecanismo molecular, la evolución y la fisiología en un contexto ecológico. 13 1.1 Planteamiento del problema Aunque E. coli K-12 como modelo de estudio, es la bacteria más estudiada en la regulación transcripcional, sólo se ha estudiado de forma individual la conformación funcional de los FTs. No existe ningún organismo en donde se haya investigado si existe alguna tendencia en los FTs de tener algún tipo de conformación funcional. En un análisis preliminar, se observó la correlación entre la función de los FTs si es activador, represor, dual con la conformación funcional apo, holo y encontramos que existe una tendencia de los activadores y FTs con función dual en tener siempre una conformación funcional holo, y que no existen activadores en conformación funcional apo. De forma contraria, los represores tienden a regular preferentemente en conformación funcional apo. Ahora bien, si analizáramos otros niveles de regulación, por ejemplo, si contaramos unidades transcripcionales reguladas y sitios de unión al ADN regulados por los FTs (activando, reprimiendo o regulando dualmente) en conformación funcional holo o apo, ¿se conservará esta tendencia? ¿Por qué si existe la misma posibilidad de tener dos tipos de conformaciones funcionales, no hay ejemplos de activadores en conformación funcional apo? ¿Tendrá alguna relación con las funciones biológicas de los genes regulados? ¿Los FTs que tienen un mismo tipo de conformación funcional pertenecen a la misma familia evolutiva? 14 CAPÍTULO 2. OBJETIVOS OBJETIVO GENERAL: Establecer si existe una relación entre la conformación funcional de los factores transcripcionales con la fisiología de los genes regulados o con propiedades evolutivas de los sistemas regulatorios. OBJETIVOS ESPECÍFICOS: Caracterizar la conformación funcional de los factores transripcionales en la red regulatoria transcripcional de Escherichia coli. Analizar la distribución de las conformaciones funcionales con respecto a: los distintos tipos de mecanismos de regulación, la evolución de los factores transcripcionales, y la fisiología bacteriana. 15 CAPÍTULO 3. RELEVANCIA Este es el primer estudio genómico en un solo organismo caracterizado (E. coli) en el que se racionaliza la teoría de la demanda. Además, ofrece una visión a nivel global de la red regulatoria transcripcional y nos provee un marco teórico para la comprensión de la regulación genética en otras bacterias. En lo particular, se han identificado patrones en los mecanismos de regulación transcripcional que pueden explicar cómo la unión de efectores específicos asisten en la actividad de la mayoría de los factores transcripcionales. Por ejemplo, se encontró que sistemas inducibles generalmente correlacionan con sistemas catabólicos y que los sistemas reprimibles generalmente correlacionan con sistemas anabólicos (Wall et al. 2004). Entonces, los patrones de regulación en los circuitos genéticos pueden ser entendidos en términos de los requerimientos funcionales para la biosíntesis y el catabolismo (Savageau 1977). Para los sistemas naturales, las características de diseño importantes son aquellas que les confieren una ventaja selectiva en un contexto ecológico. Si los circuitos operan en una gran variedad de ambientes, la función debe ser robusta a los cambios ambientales (Savageau 1974; Savageau 1976). Si encontramos algunos patrones en la regulación, entonces podemos hacer predicciones acerca de cómo los sistemas biológicos se comportarán. El número de experimentos que se están colectando en RegulonDB es cada vez mayor, por lo que la integración de la información anotada se convierte en un recurso valioso para incrementar nuestro entendimiento sobre los fenómenos biológicos. 16 CAPÍTULO 4. MARCO TEÓRICO 4.1 Una perspectiva histórica en los estudios sobre la regulación transcripcional bacteriana La regulación transcripcional del operón de la lactosa (lac) de Escherichia coli fue descrita por primera vez por Jacob y Monod (Jacob and Monod 1959). Ellos propusieron la hipótesis del operón y la función del ARN mensajero dentro del modelo para el control de la expresión genética (Jacob and Monod 1961). Actualmente sabemos que el operón lac se reprime a través de la unión de la proteína LacI al ADN cuando no hay lactosa. Y que por otra parte, cuando hay lactosa presente en el medio, se produce un metabolito efector denominado alolactosa. Este metabolito al unirse a LacI, lo despega del ADN, permitiendo así la transcripción del operón lac a través de la enzima ARN polimerasa. Este modelo fue una pieza fundamental en el actual dogma central de la biología molecular, denominada en 1956 como “la teoría del código genético” por Crick y Watson. Esta teoría explicaba que la secuencia de ADN codifica secuencias de aminoácidos y la información genética fluye en una sola dirección. Con el trabajo de Jacob y Monod, se pudo establecer que el ADN puede transcribirse en una copia a ARN mensajero y que está controlado por proteínas que se unen al ADN. A través de los años, el dogma central sigue completándose. Se han caracterizado nuevos mecanismos de regulación a partir del modelo inicial propuesto por Jacob y Monod. Por ejemplo, inicialmente se pensaba que la represión era el principal tipo de regulación (Kresge et al. 2007), sin embargo más tarde se descubrió que la transcripción también podía ser activada por proteínas. Un ejemplo de activación, lo reportó Ira Pastan, con el control de la expresión genética mediada por AMP cíclico (AMPc) en E. coli. Pastan observó que hay una correlación inversa entre los niveles de glucosa y la concentración intracelular de AMPc en E. coli, regulando así, la síntesis de muchas enzimasinducibles (De Crombrugghe et al. 1969). Este fenómeno se le conoce como represión catabólica por glucosa (Magasanik 1961). Pastan y sus colegas describieron ensayos de hibridación para medir la tasa de síntesis de ARN mensajero de lac y así demostraron que el AMPc y la glucosa alteran las tasas de la producción de mRNA de la β-galactosidasa (Varmus et al. 1970). Eventualmente se descubrió que la estimulación de la síntesis de las enzimas inducibles requiere de la interacción del AMPc con una proteína llamada la Proteína Receptora de AMP cíclico (CRP), y que el AMPc produce un cambio alostérico en CRP, que incrementa la afinidad del receptor para las 17 secuencias de ADN en los promotores de muchos genes. Esto conlleva a la iniciación de la transcripción y un incremento en la actividad del gen (Anderson et al. 1971). Con estos trabajos, se dieron a conocer algunos de los mecanismos por los cuales las proteínas pueden regulan el inicio de la transcripción. Estas proteínas denominadas reguladores o Factores Transcripcionales (FTs), pueden ser represores cuando impiden la transcripción, o activadores cuando promueven la transcripción (Lehninger et al. 2000). El caso del operón lac está sujeto a la regulación por ambos tipos de FTs, cuando la lactosa no está presente en el medio entonces el represor LacI está activo y el activador CRP está inactivo (ambos casos sin la presencia del metabolito efector). Cuando la lactosa está presente en el medio entonces LacI está inactivo y CRP está activo (en ambos casos está unido el metabolito efector al FT). Sin embargo aunque ambos mecanismos permiten la expresión de los genes, la razón fisiológica sigue una lógica diferente. En el primer caso se habla de que el sistema es inducible por la desactivación de LacI por la alolactosa que es un producto de degradación que se acumula cuando la lactosa es metabolizada por la β –galactosidasa. Por otra parte, el segundo caso está relacionado con la represión catabólica, a través de una relación indirecta ya que cuando los niveles de glucosa son bajos se incrementa la concentración de AMPc que conducen a la activación de CRP. Entonces es importante tener en cuenta los mecanismos mecanismos moleculares de la regulación genética y la fisiología, y de qué manera ambos niveles están estrechamente relacionados. A continuación se describirán con más detalle los conceptos que están relacionados con el mecanismo por el cual los FTs tienen cambios conformacionales, así como los diferentes tipos de sistemas fisiológicos en los que operan. 4.2 Evolución del concepto de alosterismo En 1951, Wyman formuló ideas acerca de cómo los cambios conformacionales en las proteínas podrían permitir cambios en las propiedades funcionales (Simoni et al. 2002). De esta manera se explica cómo la proteína LacI puede pasar de un estado funcional a un estado no-funcional, por una modificación alostérica dada por un efector. 18 Wyman junto con Monod y Changeux, propusieron el modelo de las transiciones alostéricas (Monod et al. 1965). Este modelo hizo posible explicar, clasificar y predecir la mayoría de las propiedades cinéticas de muchos sistemas alostéricos (Ver la figura 1 para una mayor explicación). Sin embargo, representa solamente una primera aproximación en la descripción de los sistemas reales (Monod 1966). El “modelo plausible” o “MWC” (Monod, Wyman y Changeux), propone que las proteínas que exhiben cooperatividad pueden existir en dos estados conformacionales, y que el equilibrio entre estos dos estados lo modifica la unión de un efector, e.g., el oxígeno en la hemoglobina. 19 Figura 1. Diferentes modos de comportamiento alostérico. (a) Cooperatividad: una caricatura mostrando el modelo MWC de las transiciones alostéricas. Una proteína multimérica simétrica puede existir en uno de dos diferentes estados conformacionales – las conformaciones funcionales y las no funcionales. Cada subunidad tiene un sitio de unión para un efector alostérico así como un sitio activo o sitio de unión. (b) Una proteína monomérica inhibida alostéricamente. La unión de un inhibidor alostérico altera el sitio activo o la unión de un sitio en una forma no favorable, por lo tanto decrementando la afinidad o la eficiencia catalítica. (c) una proteína monomérica activada alostéricamente. La unión de un activador alostérico resulta en una afinidad incrementada o con actividad en el segundo sitio. (d) La unión de un efector alostérico puede introducir un nuevo sitio de unión a una proteína. La unión de un efector a su nuevo sitio de unión podría permitir cambios en la geometría del sitio activo proveyendo un mecanismo indirecto de control alostérico. Este tipo de efecto es de gran interés en el diseño de drogas alostéricas y puede ser considerado un subconjunto del ejemplo mostrado en c. (e) La fusión de una enzima a una proteína bajo el control alostérico. Este tipo de construcción puede actuar como un interruptor alostérico porque la actividad de la enzima está indirectamente bajo control alostérico vía la proteína unida con un sitio alostérico. Tales construcciones están ambas presentes en la naturaleza y en estudios de ingeniería de proteínas. Tomado de: (Goodey and Benkovic 2008). 20 El modelo MWC, en el que los estados conformacionales de la proteína (funcionales y no funcionales) se estabilizan selectivamente por los ligandos a los cuales ellos se unen de forma preferencial, contrasta con el modelo secuencial que surgió posteriormente, también conocido como Koshland-Nemethy-Filmer (KNF). Este modelo propone que la unión del efector en su sitio causa un cambio subsecuente de conformación que sería “adaptado” a la estructura particular del efector (Changeux and Edelstein 2005). Es decir, que cuando el efector se une a uno de los monómeros de un multímero proteico, se induce el cambio conformacional en éste y se propaga al resto de los componentes del multímero. El modelo secuencial alternativo postula múltiples conformaciones, cada una con diferentes números de moléculas de efector únicas (Koshland et al. 1966). Actualmente el alosterismo puede se define como la regulación de la función de una proteína, estructura y/o flexibilidad inducida por la unión de un efector u otra proteína, en un sitio diferente del sitio activo, también referido como sitio alostérico. El alosterismo es una propiedad intrínseca de la mayoría de las proteínas. Casi todas las superficies proteicas tienen sitios alostéricos potenciales que pudieran tener la capacidad de unirse a un efector, si ocurren las mutaciones simples o múltiples pertinentes. Las excepciones son las proteínas fibrosas, proteínas estructurales con conformaciones uniformes y estables, en la cuales no es muy probable que muestren un comportamiento alostérico debido a su falta de flexibilidad (Goodey and Benkovic 2008). El alosterismo, básicamente se rige por tres características que la definen: (i) el efector no es químicamente idéntico al sustrato, (ii) el efector produce un cambio en una propiedad funcional de la proteína y (iii) el efector se une a un sitio que es topográficamente distinto del sitio funcional de la proteína (Fenton 2008). Por otra parte, una modificación covalente como la fosforilación también genera un cambio conformacional en los FTs, por lo que no todos los efectores tienen que ser necesariamente metabolitos. Actualmente, la definición de alosterismo incluye las modificaciones químicas covalentes ya que sus papeles son similares para las descripciones fisiológicas y topológicas en una red de regulación (Martínez-Antonio et al. 2006). Por definición, el alosterismo involucra la propagación de señales entre sitios en una estructura proteica. Como ya hemos visto, un cambio en la función podría llevarse a cabo por la unión de un efectoro una modificación covalente. Las proteínas son dinámicas y tienen múltiples conformaciones antes de llegar a la conformación 21 funcional estable. El papel del efector es entonces, el de estabilizar una conformación pre-existente, seleccionando esta conformación entre toda una población de confórmeros proteicos. Básicamente, es una red físicamente interconectada y/o termodinámicamente unida por residuos a través del cual se transmiten señales (Daily and Gray 2007; Goodey and Benkovic 2008). Finalmente, un concepto nuevo y atractivo es que las proteínas pueden ser alostéricas y no tener cambios conformacionales (Daily and Gray 2007; Tsai et al. 2008). El alosterismo es fundamentalmente termodinámico por naturaleza, la comunicación a través de la proteína podría mediarse no solamente por cambios en la conformación media, sino también por cambios en las fluctuaciones dinámicas en la conformación media. Es decir, la comunicación podría involucrar no únicamente el componente entálpico, que es el factor clave responsable de la alteración observada en la forma, sino también tendría una contribución entrópica. Las interacciones alostéricas mediadas exclusivamente por cambios en los movimientos de las proteínas causaría un cambio en la energía libre, sin que sea necesario ningún tipo de mecanismo de “ajuste inducido”(Tsai et al. 2008). En la proteína CRP por ejemplo, se encontró que los movimientos de los residuos localizados en algunas regiones distantes de los sitios de unión son afectados en la ausencia de una ruta de conectividad visible (Popovych et al. 2006). En otra proteína FecA, se señaló que el efecto de unión se propaga a través de las interacciones Van der Waals entre los residuos en la red conectada físicamente (Ferguson and Deisenhofer 2004). 4.3 Evolución de las proteínas Los FTs se han clasificado con base en su dominio de unión al ADN en alrededor de 20 familias evolutivas, cuando se considera el motivo HTH (hélice-vuelta-helice, denominado así por sus siglas en inglés: helix-turn-helix) (Pérez-Rueda and Collado- Vides 2000). Inicialmente se había observado que las funciones reguladas por las proteínas que forman parte de una misma familia eran homogéneas (e.g., la familia LysR regula genes para la biosíntesis de aminoácidos)(Henikoff et al. 1988; Weickert and Adhya 1992; Pérez-Rueda and Collado-Vides 2000). Sin embargo conforme se van agregando más especies en las familias, se ha visto que puede existir una variación en las funciones reguladas (e.g., en la familia GalR/LacI existen funciones relacionadas con el catabolismo de carbono, la biosíntesis de nucleótidos y la expresión de toxinas) (Swint-Kruse and Matthews 2009). 22 Por otra parte, dentro de una misma familia de proteínas se puede tener un papel regulador distinto (e.g., en la familia GalR/LacI existen represores (GalR y LacI), y también reguladores duales como CcpA). Además para una misma proteína se puede tener distinta especificidad para distintos efectores (e.g., LacI se puede unir a inductores, anti-inductores y efectores neutrales) (Barkley et al. 1975; Swint-Kruse and Matthews 2009). Esto puede explicarse porque los metabolitos son similares en su estructura y por la coevolución de las proteínas con sus efectores. La coevolución molecular puede deberse a una adaptación específica entre dos elementos que evolucionan, donde los cambios en uno de ellos los compensa los cambios en el otro, o por la pérdida de una fuerza externa afectando las tasas evolutivas de ambos elementos en una magnitud similar (de Juan et al. 2013). La coevolución entre familias de proteínas relacionadas funcionalmente se ha observado en casos esporádicos. Por ejemplo, se ha detectado una gran similitud entre los árboles filogenéticos de los ligandos (tales como las insulinas y las interleucinas) y sus receptores (Fryxell 1996). Actualmente se conocen siete familias de proteínas en procariontes que unen metales, de manera general podríamos decir que están relacionadas en una función biológica, responder a la concentración de metales en la célula. Sin embargo, en cuanto al motivo de unión al ADN podemos encontrar de tipo winged helix (hélice alada), -helical bundle (aguja -hélice), ribbon-helix-helix (cinta-hélice-hélice); en cuanto al tipo de metales que unen están los elementos de transición Mn, Fe, Col, Ni, Cu y Zn, pero también metales de otros grupos; en cuanto al tipo de conformación funcional existen proteínas que se unen en holo o en apo; y en cuanto al modo de regulación hay represores principalmente, pero también activadores (Giedroc and Arunkumar 2007). En resumen, aunque las proteínas estén relacionadas en familias o funcionalmente, generalmente existe una gran diversidad en motivos de unión al ADN, ligandos, y el modo de regulación. 4.4 Sistemas inducibles y reprimibles Las bacterias responden a los cambios ambientales controlando la expresión de sus genes, y como la economía es importante, evitan la síntesis de las enzimas en una ruta cuando el sustrato está ausente, sin embargo están listas para producir las enzimas si el sustrato aparece. 23 La síntesis de enzimas en respuesta a la aparición de un sustrato específico se llama inducción, un ejemplo es el sistema de lactosa de E. coli mencionado anteriormente. La transcripción se estimula tan pronto como el metabolito –la alolactosa, en este caso llamado inductor- se añade al medio, y cuando el inductor se retira, la transcripción cesa (Lewin 2008). La definición inicial de inducción propuesta por Monod, es la “activación por el inductor de la síntesis de proteínas- enzimas” (Jacob and Monod 1961). Una definición más reciente es que un sistema inducible describe a un gen cuya expresión se incrementa en respuesta a una señal ambiental (Wall et al. 2004). También E. coli puede responder de forma contraria, en un efecto llamado represión, que permite apagar la síntesis endógena de ciertos componentes que puedan aparecer repentinamente en el medio. Por ejemplo, E. coli sintetiza triptófano a través de la acción de la enzima triptófano sintetasa. Pero si el triptófano está presente en el medio en donde la bacteria está creciendo, la producción de la enzima se detiene (Lewin 2008). El término represión, se propuso originalmente para designar el efecto inhibitorio de la arginina y en la biosíntesis de este aminoácido, y se utilizó para establecer una diferencia conceptual entre los sistemas “reprimibles” y los “sistemas inducibles”. La inhibición enzimática, como en el caso de la inducción, generalmente involucra no una sola sino todo un conjunto de enzimas activas en pasos metabólicos sucesivos (Jacob and Monod 1961). Otra forma de definir a un sistema reprimible es que describe a un gen, o conjunto de genes, cuya expresión se decrementa en respuesta a una señal específica en un ambiente dado (Wall et al. 2004). Entonces, los metabolitos que regulan la producción de enzimas que los pueden metabolizar, se les llama inductores. Aquellos que previenen la producción de enzimas capaces de sintetizarlos se les conoce como co-represores (Lewin 2008; Murray 2012). Es importante mencionar que el concepto original de sistemas inducibles y reprimibles se definió con respecto a la aparición del metabolito inductor o co-represor, también llamado efector, e involucra la fisiología y el mecanismo molecular. Existe otro concepto de sistemas inducibles y reprimibles que es más actual y se define con respecto a la señal (Wall et al. 2004), sin embargo es importante recalcar que la señal no necesariamente es un sinónimo de inductor, como en el caso de CRP mencionado anteriormente, en el cual la señal es la glucosa y el efector es cAMP. Para ambos sistemas inducibles y reprimibles, existen dos tipos de sistemas de control: negativo donde los genesse expresan a menos de que sean apagados por un 24 represor; y positivo, donde los genes se transcriben sólo cuando un activador está presente (ver la figura 2)(Lewin 2008). 25 Figura 2. Sistemas inducibles y reprimibles. Existen dos tipos de sistemas inducibles (1 y 2) que son generalmente catabólicos, y dos tipos de sistemas reprimibles (3 y 4) que generalmente son anabólicos. 1) Sistema inducible por activador: a) el activador se encuentra en una conformación no-funcional apo, b) cuando aparece el inductor cambia a una conformación funcional holo y entonces activa la transcripción. 2) Sistema inducible por represor: a) el represor está reprimiendo en conformación funcional apo, b) cuando el inductor aparece entonces cambia a una conformación no-funcional holo y entonces se induce la expresión de los genes regulados. 3) Sistema reprimible por activador: a) el activador se encuentra en conformación funcional apo, b) cuando el co-represor aparece, el activador cambia a una conformación no-funcional holo. 4) Sistema reprimible por represor: a) el represor está en conformación no-funcional apo, b) cuando el co-represor aparece, cambia a una conformación funcional holo y reprime la expresión de los genes. Nota: inductor y co-represor pueden ser llamados efectores, cuando se refiera al mecanismo de regulación transcripcional en sí. Símbolos: óvalo verde: activador, óvalo rojo: represor, frijol morado: ARN polimerasa, triángulos amarillos: los efectores (inductor o co-represor según sea el caso), barra de rectángulos azules: genes, línea azul: ARN mensajero, flecha verde: indica transcripción de los genes regulados, línea roja en punta T: indica la represión de los genes regulados. 26 CAPÍTULO 5. MÉTODOS Para contestar los objetivos del trabajo que aquí presento, se utilizó la estrategia que se observa en el diagrama de flujo que se presenta a continuación. Los métodos se detallan en la segunda publicación que se encuentra en el capítulo de resultados. Curación manual Delimitación de los conceptos o información biológica Información en bases de datos Publicaciones específicas Análisis estadísticos y pruebas de hipótesis Resultados Recopilación de las conformaciones funcionales de los FTs en E. coli K-12 27 CAPÍTULO 6. RESULTADOS 6.1 Delimitación de los términos relacionados con la investigación En muchas de las publicaciones científicas se han utilizado los términos de manera ambigua. En este proyecto fue necesario eliminar la ambigüedad en los términos relacionados con la conformación funcional para poder recopilar la información de manera adecuada en la base de datos. Se revisaron los conceptos originales (ver cuadro 1), se compararon y actualizaron con los términos más recientes (ver cuadro 2a y 2b), para finalmente delimitar los conceptos relacionados con la conformación funcional (ver cuadro 2c). Cuadro 1. Conceptos originales Término Definición Inductor Molécula que se requiere para llevar a cabo la síntesis de novo completa de las enzimas (moléculas) que son nuevas por su estructura específica así como por el origen de sus elementos. Inducción Es la activación por el inductor de la síntesis de proteínas- enzimas. Co- represor El metabolito que reprime (opuesto al inductor). Represión Es la inhibición del operón, cuando el represor por si mismo está inactivo y es activado solamente combinándolo con ciertas moléculas específicas. Represión (Inhibición enzimática ) Es un mecanismo de control que complementa la inducción enzimática: en cualquier caso la célula tiene a formar enzimas cuando son necesarias y tiende a no formar enzimas cuando no son necesarias. Fuente: (Jacob and Monod 1961) 28 Cuadro 2. Ambigüedad en el uso de los términos a) Términos que explican el mismo concepto Término Definición Referencias Inductor/Co- represor Molécula pequeña que causa/previene la producción de enzimas capaces de metabolizarlas. Ejemplo: la alolactosa cuando se une a LacI (Jacob and Monod 1961; Lewin 2008) Ligando, molécula pequeña Señal ambiental que se unen al factor transcripcional. (Browning and Busby 2004; Seshasayee et al. 2006) Efector Molécula que se une al factor transcripcional para cambiar su conformación funcional. (Martínez-Antonio et al. 2006; Balderas- Martinez et al. 2013) b) Mismo término para explicar diferentes conceptos Término Definición Referencias Señal Una molécula natural que actúa directamente en el factor transcripcional para llevar a cabo una respuesta fisiológica. (Wall et al. 2004) Señal En transducción de señales, es el estímulo por el cual la célula convierte un tipo de señal en otra. (Alberts 2008) c) Cambios derivados en los conceptos debido a la necesidad de formalizarlos dentro de una base de datos relacional Término Definición Referencia Regulador dual Un factor transcripcional o proteína regulatoria que activa y/o reprime la transcripción de los genes cuando se une en sitios de unión al ADN. La dualidad es una propiedad de la interacción entre el FT y su sitio de unión al ADN. Este es un concepto que fue actualizado. RegulonDB (http://regulondb.ccg.unam. mx/) 29 Como resultado, se seleccionó el término efector como el más apropiado para hablar de la molécula que se une al FT y realizar el cambio conformacional. El efector puede ser un metabolito alostérico, una modificación covalente (e.g., fosforilación), o incluso una proteína que se una al FT. Señal se definió como el estímulo que recibe la célula que iniciará una respuesta fisiológica, y como ya se ha mencionado en el capítulo anterior, en ocasiones un mismo metabolito puede ser señal y efector (e.g., alta concentración de zinc es la señal y efector), pero en otras veces puede diferir del efector (e.g., glucosa es la señal y cAMP es el efector). Se utilizó el término apo para definir a la conformación que tiene el FT cuando no se une con el metabolito efector, y holo para la conformación que tiene el FT cuando el efector sí se une con su metabolito efector. Por otra parte, se analizó el término de regulador dual. Los FTs generalmente se han clasificado como activadores, represores o reguladores duales (aquellos FTs que pueden activar o reprimir). La definición actual toma en cuenta las interacciones en las que participa el FT. Para ello, se analizaron los diferentes modos de regulación dual a los que están sujetos los FT que se encuentran en la base de datos de RegulonDB (Gama-Castro et al. 2011) y se clasificaron según el modo en como regulan sus genes (ver figura 3). 30 Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli K-12. 1) FTs en la misma conformación tienen diferentes efectos en diferentes UTs. a) En este caso, CysB es un activador para la unidad transcripcional (UT) del gen cysK y por otra parte, b) es un represor para la UT del gen cysB (se autoregula negativamente). En ambos casos tiene una conformación funcional holo cuando se une con el efector O- acetil-L-serina. 2) Diferentes conformaciones en el mismo FT tienen diferentes efectos en la misma UT. a) Este es un caso particular, en el que AraC puede reprimir en conformación apo la UT de araBAD doblando el ADN, b) cuando la arabinosa aparece, AraC cambia a su conformación funcional holo activando araBAD. También podemos observar que el FT Crp cambia a una conformación funcional holo y coactiva los genes de araBAD. 3) El mismo FT tiene diferente modo de regulación en los mismos sitios de unión al ADN. a) ChbR es un FT que reprime la transcripción del operón ChbBCARFG en conformación apo en cooperación con NagC, b) cuando la quitobiosa aparece, se produce el efector monoacetilquitobiosa6-fosfato que se une a ChbR cambiándolo a su conformación 31 holo activa pero manteniéndolo en su mismo sitio de unión al ADN, además NagC cambia a su conformación holo no-funcional cuando se une con N-acetil-glucosamina. En este último caso, la cooperación con otro FT juega un papel importante en el modo de regulación dual de ChbR. Símbolos: activador: óvalo verde; represor: óvalo rojo, ARN polimerasa: frijol morado; efectores (triángulos, círculos pequeños, rombos y gotas con varios colores); genes: barra de rectángulos (varios colores); ARN mensajero: línea debajo de los genes (varios colores); transcripción de los genes regulados: flecha verde; represión de los genes regulados: flecha roja con punta en T. 32 6.2 Curación de las conformaciones funcionales de los factores transcripcionales en Escherichia coli K-12 Se utilizaron como base algunas publicaciones previas relacionadas (Gutiérrez-Ríos et al. 2003; Wall et al. 2004; Martínez-Antonio et al. 2006). Sin embargo para ampliar la información acerca de la conformación funcional y el efector específico que se une al FT, fue necesario realizar una curación manual. Para ello se utilizaron palabras clave en el buscador de PubMed. Las palabras clave empleadas fueron en todos los casos: el nombre del FT y Escherichia coli; y junto con esas palabras se realizó una combinación utilizando variaciones como son: effector, conformation, inducible system, repressible system, ligand & metabolite. Se revisaron los artículos en orden cronológico, se anotaron las evidencias experimentales y las referencias para cada una de las conformaciones funcionales correspondientes con cada efector. En colaboración con el equipo de curadores de RegulonDB, se realizó una clasificación de las evidencias experimentales las cuales se incorporaron a la base de datos (ver cuadro 1), de esta manera, para el proyecto se consideraron únicamente aquellas evidencias que se catalogaron como “fuertes” (strong evidence). 33 Cuadro 3. Clasificación de las evidencias experimentales de la conformación funcional de los factores transcripcionales 3. Transcription factor functional conformation Most dedicated TFs have usually two conformations, one with a non- covalent bound allosteric metabolite, or a covalent phosphorylation (holo conformation), and one as a free protein or multimer (the apo conformation). There are exceptions to this statement. We call functional conformation the one that is capable of binding to its specific binding sites and perform its activation or repression activity. For the sake of functional conformation evidence the experiments below have to be considered with and without effector. Evidence Code Evidence Category Strong Evidence 3.1 Assay of protein purified to homogeneity APPH Classical experiment 3.2 Assay of protein purified to homogeneity from its native host APPHINH Classical experiment 3.3 Binding of purified proteins Example: mobility shift assays, PAGE, filter binding assays BPP Classical experiment 3.4 Inferred from direct assay Example: Microscopy, sedimentation, ultracentrifugation (molecular weight determination of a protein complex), mmunoblotting experiments IDA Classical experiment 3.5 Site mutation Example: Expression analysis when putative regulator binding sites are mutated. SM Classical experiment 3.6 Inferred by functional complementation IFC nd Weak Evidence 3.7 Author statement AS Author statement 3.8 Non-traceable author statement NTAS Author statement 3.9 Traceable author statement TAS Author statement 3.10 Traceable author statement to experimental support TASES Author statement 3.11 Assay of partially-purified protein APPP Classical experiment 3.12 Assay of protein partially-purified from a heterologous host APPPHH Classical experiment 3.13 Assay of protein partially-purified from its native host APPPINH Classical experiment 3.14 Assay of unpurified protein AUP Classical experiment 3.15 Assay of unpurified protein expressed in its native host AUPEINH Classical experiment 3.16 Binding of cellular extracts Example: Gel shift analysis. BCE Classical experiment 3.17 Gene expression analysis Example: Transcriptional fusions GEA Classical experiment 3.18 Inferred from experiment IE Classical experiment 3.19 Inferred from expression pattern Example: Northern blots, western blots, assay for enzyme activity in cell extracts IEP Classical experiment 3.20 Inferred from genetic interaction IGI Classical experiment 3.21 Inferred from mutant phenotype Example: Any gene mutation/knockout, overexpression/ectopic expression of wild-type genes or IMP Classical experiment http://regulondb.ccg.unam.mx/evidenceclasification 34 3. Transcription factor functional conformation genes carrying mutations in the effector binding domain of the transcription factor. 3.22 Inferred from physical interaction Example: Two-hybrid assays, co-immunoprecipitation, co- purification IPI Classical experiment 3.23 Automated inference based on similarity to consensus sequences AIBSCS Computational prediction or inference 3.24 Automated inference of function from sequence Example: Sequence similarity between effector domains of orthologous transcription factors. AIFS Computational prediction or inference 3.25 Inferred by computational analysis ICA Computational prediction or inference 3.26 Inferred computationally without human oversight ICWHO Computational prediction or inference 3.27 Author hypothesis AH Human inference 3.28 Human inference based on similarity to consensus sequences HIBSCS Human inference 3.29 Human inference of function from sequence HIFS Human inference 3.30 Inferred from Biological aspect from Ancestor IBAA Human inference 3.31 Inferred by curator IC Human inference 3.32 Inferred by a human based on computational evidence IHBCE Human inference 35 6.3 Primer artículo: RegulonDB v8.0: omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more. La contribución en este artículo fue la curación de las conformaciones funcionales de los factores transcripcionales en Escherichia coli K-12, los cuales aparecen en línea en la base de datos de RegulonDB (http://regulondb.ccg.unam.mx/) y también en el apéndice de la presente tesis. Salgado H, Peralta-Gil M, Gama-Castro S, Santos-Zavaleta A, Muñiz-Rascado L, García-Sotelo JS, Weiss V, Solano-Lira H, Martínez-Flores I, Medina-Rivera A, Salgado-Osorio G, Alquicira-Hernández S, Alquicira-Hernández K, López-Fuentes A, Porrón-Sotelo L, Huerta AM, Bonavides-Martínez C, Balderas-Martínez YI, Pannier L, Olvera M, Labastida A, Jiménez-Jacinto V, Vega-Alvarado L, Del Moral- Chávez V, Hernández-Alvarez A, Morett E, Collado-Vides J. RegulonDB v8.0: omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more. Nucleic Acids Res. 2013 Jan;41(Database issue):D203-13. doi: 10.1093/nar/gks1201. Epub 2012 Nov 29. http://regulondb.ccg.unam.mx/ http://www.ncbi.nlm.nih.gov/pubmed/23203884 http://www.ncbi.nlm.nih.gov/pubmed/23203884 http://www.ncbi.nlm.nih.gov/pubmed/23203884 36 Published online 29 November 2012 Nucleic Acids Research, 2013, Vo/' 41, Database issue D203-D213 doi.·10.1093jnarjgks1201 RegulonDB v8.0: omics data sets, evolutionary conservation, regulatory phrases, cross-validated gold standards and more Heladia Salgado 1 , Martin Peralta-GiI1 , Socorro Gama-Castro 1 , Alberto Santos-Zavaleta 1 , Luis Muñiz-Rascado1, Jair S. García-Sotelo1, Verena Weiss1, Hilda Solano-Lira1, Irma Martínez-Flores 1 , Alejandra Medina-Rivera 1 , Gerardo Salgado-Osorio 1 , Shirley Alquicira-Hernández 1 , Kevin Alquicira-Hernández 1 , Alejandra López-Fuentes 1 ,Liliana Porrón-Sotelo 1 , Araceli M. Huerta 1, César Bonavides-Martínez 1 , Yalbi l. Balderas-Martínez1, Lucia Pannier1, Maricela Olvera2, Aurora Labastida2, Verónica Jiménez-Jacinto3 , Leticia Vega-Alvarado4 , Victor del Moral-Chávez 1 , Alfredo Hernández-Alvarez \ Enrique Morete and Julio Collado-Vides 1,* 1 Programa de Genómica Computacional, Centro de Ciencias Genómicas, Universidad Nacional Autónoma de México, AP. 565-A, Cuernavaca, Morelos 62100, 2Departamento de Ingeniería Celular y Biocatálisis, Instituto de Biotecnología, Universidad Nacional Autónoma de México, AP. 510-3, Cuernavaca, Morelos 62100, 3Unidad Universitaria de Secuenciación Masiva de ADN, Instituto de Biotecnología, Universidad Nacional Autónoma de México, AP. 510-3, Cuernavaca, Morelos 62100 and 4Grupo de Visión Artificial y Bioinformática, Centro de Ciencias Aplicadas y Desarrollo Tecnológico, Universidad Nacional Autónoma de México, D.F., México 04510 Received October 1, 2012; Revised October 26,2012; Accepted October 30,2012 ABSTRACT This article summarizes our progress with RegulonDB (http://regulondb.ccg.unam.mx!) during the past 2 years. We have kept up-to-date the know- ledge from the published literature regarding tran- scriptional regulation in Escherichia coli K-12. We have maintained and expanded our curation efforts to improve the breadth and qua lit y of the encoded experimental knowledge, and we have implemented criteria for the quality of our computational pred ic- tions. Regulatory phrases now provide high-Ievel descriptions of regulatory regions. We expanded the assignment of quality to various sources of evidence, particularly for knowledge generated through high-throughput (Hn technology. Based on our analysis of most relevant methods, we defined rules for determining the quality of evidence when multiple independent sources support an entry. With this latest release of RegulonDB, we present a new highly reliable larger collection of transcription start sites, a result of our experimental HT genome-wide efforts. These improvements, together with several novel en- hancements (the tracks display, uploading format and curational guidelines), address the challenges of incorporating HT -generated knowledge into RegulonDB. Information on the evolutionary conser- vation of regulatory elements is also available now. Altogether, RegulonDB version 8.0 is a much better home for integrating knowledge on gene regulation from the sources of information currently available. INTRODUCTION Escherichia coli K -12 is one of the best-characterized microorganisms. RegulonDB is a relational database that serves the scientific cornmunity involved in the study of bacteria, offering in an organized and comput- able form, knowledge on transcriptional regnlation that has been manually curated from original scientific publi- cations. This includes curated infonnation on known mechanisms of regulation of transcription initiation through the activation and repression of transcription factors (TFs), which bind to individual sites around pro- moters; the organization of operons and their various "'To whom correspondence should be addressed. Tel: +52 777 313 2063; Fax: +527773175581; Email: regulondb@ccg.unam.mx and collado@ccg.unam.mx © The Author(s) 2012. Published by Oxford University Press. Tms is an Open Access article distributed under the terms of the Creative Conunons Attribution License (http://creativeconunons.org/licenses/by-nc/3.0¡), which permits non-conunercial reuse, distribution, and reproduction in any meruum, provided the original work is properly cited . For commercial re-use, please contact journals.permissions@oup.com. 37 D204 Nucleic Acids Research, 2013, VolA] , Database issue transeription units (TUs) and the integration of regulons as gensor units (GUs), The RegulonDB team also con- tinues to perform high-throughput (HT) experimental identification of promoters in the E. coli genome. Our mission has been to be the compilers and editors of the knowledge generated by the international scientific COffi- munity regarding the regulatory elements of transcrip- tianal regulation of gene expression in E. coN K-12. Our work maintains up-to-date infonnation in both the RegulonDB and EcoCyc databases [(1,2) and an update by Keseler et al, in this issue], We should emphasize that any piece of knowledge is curated with its associated reference(s) and the corres- ponding evidence cade on which unified criteria have been defined, enabling distinctions between strong versus weakly supported objects, As detailed later, this classification has been enriched, initiating the process to integrate multiple sourees of evidenee to define gold standarels, High-quality expauded eucoded mechauistic kuowledge from different sources In the main menu 'About RegulonDB', we show the his- torical increase of al! objects through the years, During the past 2 years, the number of publications supporting the corpus of knowledge encoded in RegulonDB has increased to 4667, We have increased the number of known functional and non-functional conformations of TFs from 232 to 298, corresponding to a total of 103 TFs (see historical increase in RegulonDB web site), By 'functional' we mean the conformations that bind to DNA and exert their regulatory effec!' The analysis of the repertoire of regulatory mechanisms focusing on the arehiteeture of signal reeognition, speeifically, the fune- tional conformation (hola or apo) of a TF, its function or mode of regulation (activator, repressor or dual) and the anabolic or catabolic nature of its regulated genes, enables searches at a genomic level for design principIes under the framework of the demand theory of gene regu- lation, which we discuss elsewhere (Balderas-Martínez el al" submitted for publication), Al! confonnations are supported by experimental methods that have been classi- fied into strong or weak evidence types (see the new Evidence page in RegulonDB), A constant effort focused on detailed correction of TF-binding site (TFBS) properties, such as the length, symmetry, precise position, strand and orientation, is now reflected in new improved alignments for ,......, 130 TFs. This has been a demanding and time-consuming effort of continuous curation that has strongly enhanced the quality of the evidenee for the DNA-binding sites of the TF collection, a core element of the mechanistic and genomic imprint of transcriptional regulation. See the OxyR example in Figure L This effort started in 2009, and it is already providing fruits in terms of improved computational TF-DNA models, The number of TFs that possess at least four binding sites has increased from 71 to 86 in the past 2 years, enabling the construction of position weight matrix (PWM) bioinformatics models, Since 2011, we have proposed the use of four independent criteria to assess the quality of matrices: (i) infonnation content conserva- tion of at least 1.5 bits in at least six positions in the matrix; (ii) a low false-positive rate « le- ) for recovering 70% of the annotated sites; (iii) an observed distribution of scores in the upstream regions on E. coli K-12 that shows overrepresentation of high scores compared with Figure L Analysis of TFBSs to improve the quality of PWMs in the RegulonDB database. OxyR binds in tandem, covering regions of ~40 bp (a). We identified within these regions, two inverted-repeat motifs of 17 bp, separated by 5 bp (b). Therefore, we now propose a new consensus sequence, GATAGGTTnAACCTATC, for the binding sites of OxyR. This new annotation has improved the quality of the matrices (b) and, therefore, also the predictions of binding sites for OxyR. 38 the theoretical distribution and (iv) not overfitting the matrix to the sequences that were used to build it (3). For details of these four criteria, see the documentation on PWMs in RegulonDB. Based on thesecriteria, the current col!ection of 86 TFs contains 50% high-quality models. The low-quality models are mostly those for TFs with a reduced number of sites. For instance, when counting only matrices with eight or more sites, 58% are of high quality. In 2008, only 33% of the 60 TFs with a PWM had a high-quality matrix, whereas currently 56% of these 60 TFs have a high-quality matnx, reflectmg the Importance of our curation and COf- rectian efforts. The increased quality of the PWM col!ection is reflected in the number of false-positives that might be generated fram a whole-genome computational prediction of binding sites. Overall, the known versus predicted fraction of sites when assessing a11 our computational predictions in the genome has diminished from ~ 1 to 40 in 2008, to 1 to 5 in 2010, and to 1 to 3 in the current verSlOn. The improved PWMs were used to initiate curation of regulatory interactions that had no binding site identified, despite the availability of experimental evidence that sup- ported them. Our current manual curation of the predicted sites has identified TFBSs for 35 interactions. In seeking consistency of evaluation of knowledge irrespective of its source, we used similar criteria to assess the quality of binding sites identified by chroma- tin immunoprecipitation (ChIP)-Seq experiments (see 'Enriched classifications based on classic and HT evi- dence' and Supplementary Data). We have expanded our curation to include factors that bind a11osterica11y to RNA polymerase directly. The two currently known mechanisms for E. coli regarding a11o- steric binding involve ppGpp and DksA. We curated regulatory interactions in which the nucleotide guanosine Y-diphosphate, ppGpp (referred to as both tetrap- hosphate and as its precursor, pppGpp) (4,5) and the smal! protein DksA (6,7) bind to the RNA polymerase alone or form a complex with each other, affecting tran- scription in either a positive or negative manner, or act antagonistical!y on the same promoter (8,9) (see Supplementary Figure SI in the Supplementary Data). Currently, 70 promoter interactions regulated by ppGpp, as wel! as sorne that include regulation by DksA, have been curated. The growth conditions under which the pro- moters are regulated are also included in each reaction of regulation (see Supplementary Figure SI in the Supplementary Data). HlGH-LEVEL CURATlON We believe that the integration of knowledge to facilitate an understanding at different levels of abstraction and detail is a major cha11enge for genomic databases. In the following section, we describe two directions of our efforts towards obtaining higher integration levels: (i) GUs and (ii) the organization of multiple TFBSs into regulatory phrases. Nucleic Acids Research. 2013. Vol. 41. Database issue D205 Fur, a complex GU In 2011, we described the new concept of genetic sensory-response units, or 'gensor units', which are composed of four components: (i) the signal, (ii) the slgnal-to-effector reactlOns that end with activation or in- activation of the TF, (iii) the regulatory switch (resulting in activation or repression oftranscription oftarget genes) and (iv) the consequence, or effects and roles of the regulated genes (1). RegulonDB contains 25 completed GUs, which are organized into two categories: carbon source utilization and metabolism of amino acids. These are al! GUs for local TFs and smal! regulons. We decided to cura te a much larger GU as a first step towards eventual!y compiling information on GUs of global regulators. Certainly, the size and complexity of the Fur (ferric uptake regulator) GU poses new chal!enges in its repre- sentation. Fur regula tes transcription initiation of 66 TUs, including nine TFs, a regulatory smal! RNA (sRNA) and two sigma factors (a19 and a 38). It includes >200 reactions and close to 300 nodes. To fa- cilitate interpretation of this GU, we included a high-level i11ustration that provides an overview of al! classes of genes and functions subject to Fur regulation (see Figure 2). Search 'gensor unit' in the main menu in RegulonDB and select Fur overview. Figure 2. Overview of the GU of the Fur TF. In the presence of Fe+, Fur represses genes involved in transport and release of Fe + from sid- erophores and genes for biosynthesis and assembly of FeS c1usters; in addition, it activates genes involved in Fe + storage and aetivatesj represses genes that eneode proteins that eontain Fe + or a group heme as a eofactor. In the presenee of the signal, Fur also regulates transeription of nine TFs, the a 19 and a 38 factors and a regulatory sRNA, RhyB, submaps of whieh are depieted as dark gray squares that can be expanded to see their eorresponding GU. In addition, Fu! regulates genes t.hat eneode metal-binding proteins (other than Fe ) and other protems that apparently have no direet relationship 'With Fe + or other metals. 39 D206 Nucleic Acids Research, 2013, VolA] , Database issue Regulatory pillases Another area that will c1early benefit from a more integrated description of the genome is the encoding of the organization and functioning of regulatory regions governing transcription. Previously, we displayed the col- lection of sites in upstream regions affecting each promoter, leaving it to the user to decipher how these multiple sites, whieh bind the same or different TFs, work in a coordinated fashion, or not, to regulate tran- scription. For instance, regulation of the acsp2 promoter is affected by two activator sites for CRP, three repressor sites for Fis and three for IHE The funetions and pos- itions of these eight sites are listed one by one in RegulonDB, when in fact it is known, first, that both in case of Fis and IHF, the multiple sites work together, and, second, that each group of sites represses the acsp2 promoter independently: FIS in log phase and IHF in stationary phase. Both proteins work as anti-activators of CRP during the transition from log-phase to stationary-phase growth (10,11), Briefly, the aim is to then group sites that work together in a 'regulatory phrase', or module. This integration of many sites into a redueed number of phrases will eontribute to the under- standing of complex regulation. Thus, phrases working independently that affeet the 0-70 family of promoters should have at least one proximal site, where the position of a proximal site guarantees direct interaction with the RNA polyrnerase (12 14), It has been known for years that the possible arrange- ments of sites and their functioning can vary for each TF, or eaeh TF family, In addition to showing this higher or- ganization within individual promoters, we also generated a new page within RegulonDB that groups all possible -200 -150 arrangements described in the genome for each TF, and even for eomplex phrases with sites of different TFs, that support eoordinated regulation of multiple TFs working together to affeet transeription initiation (See Figure 3), For instanee, the [CRP +] phrase offers the list of all precise positions found in E. coli, with either one or several sites used by CRP to activate transcription (15,16), It will then be easier to see that the CRP pair of sites activating acsp2 occurs also at similar positions in fixAp, whieh is subjeet to CaiF and FNR aetivation, or that the proximal -69,5 CRP aetivating position also oeeurs at the csiDp, gntKp and prpRp promoters in the eontext of regulation by other TFs, This first version of regulatory phrases was based on the identifieation of proximal sites first and then on detailed curation of cases of multiple TFs known to work jointly [e,g, CytR with CRP; or MelR with CRP (17)], as well as on an exhaustive identification of regulatory phrases with no proximal site, mostly from TFs known to bend the DNA and funetion as arehiteetural elements [e,g, IHF, Fis and other proteins (18,19)], THE CHALLENGE OF ENCODINGKNOWLEDGE GENERATED BY NOVEL 'OMIC' TECHNOLOGIES As HT methodologies have more frequently beeome a source of infonnation regarding gene regulation, we have had to address several conceptual and practical issues for their easier inclusion in RegulonDB. We have expanded our classification scheme for the various de- grees of eonfidenee in these different methodologies, In addition, we have analysed how independent the differ- ent methods are (i,e, their different potential sourees of -100 -SO "11,5 O Legend proximal . remate [CRP,+I-ychHp ____________________________ _ -81,5 "11.5 [CRP,+I-pkap ____________________________ _ -101,5 "11,5 [CRP,+]-maIXp==========:;;¡;;:~~' ~~============= [CRP,+l-acsp2 -12~,S -126.5 ~9,S -69,S [CRP,+]-fixAp __________ --1 •• '. _ ___________________ _ [CRP,+] phr.se .nd .11 other phrases th_ regulate these promoter(s). Llst of promoters and thelr correspondlng regulatory phrases. Remote upstream site(s) [CRp,+,-101,S] [CRp'+,-122,S] [IHF,-,-180,0,-1 53,0,-225,0] [Fis,-,-98,0,-26S,0] [FNR.+,-197,SI [CRP,+,-126,S] [CaiF,+,-136,S,-117,SI Proximalsite(.) [CRp'+,41.51 [CRp'+,41.5,-81,S] [Mall,-,-16,5] [CRp'+,41,S] [CRp,+,~9,SI [Fis,-,-S9,0] [CRP,+,~9,SI [(aiF,+,-79,S,-60.51 -==-." .' ,. _ ,o ychHp p/cap malXp acsp2 fixAp Figure 3. The [CRP,+] regulatory phrase. The graph shows sites of the [CRP,+] phrase for five promoters, and the table inc1udes all additional sites that regulate these promoters. Each promoter name is a link to the page in RegulonDB presenting all phrases for that promoter. Proximal sites are those \V:ithin the interval from -93 to +20, from which the TF can directly interact \V:ith RNA polymerase. AH other sites are considered remote, either upstream or downstream. 40 false-positives); from lhis information, we are able lo lhen propose which methods upgrade the quality of evidence to 'strong' for objects with two types of weak evidence, and to 'confirmed' evidence for objects with two independent strong types of evidence. We implemented tracks that facilitate the display of HT data, and we have also implemented fonnats for investi- gators to submit their HT data sets. Furthennore, we report the results of our RNA sequencing (RNA-Seq)- based identification of transcription start sites (TSSs), which have increased considerably the collection of TSSs for the E. coli genome. Enriched cIassifications based on cIassic and HT evidence Since the release of version 6.0 of RegulonDB, we have classified evidence associated with the objects annotated in RegulonDB as strong or weak, depending on the confi- dence level of the associated experimental or computa- tional methodologies. This two-tier rating system quickly distinguishes reliable from less reliable knowledge, contributing to better comparisons, interpretations and selection of gold standards. However, this classification was not defined for other sources of knowledge beyond classic methodologies; in addition, the different types of evidence do not add up. We had not previously addressed the analyses from differ- ent sources of knowledge that, if independent, should increase the degree of confidence for a given piece of knowledge, object or interaction. To facilitate adding evidence from HT methodologies without losing track of the highly reliable manually curated knowledge supporting RegulonDB, we had to expand our classification to the rapidly growing number of HT methodologies used for the identification of TFBSs, TSSs and TUs (20). These new technologies have generated a flood of new data, as they have allowed analysis of putative targets in parallel, but they are also associated with a high risk of false-positives due to new sources of stochastic effects, 'batch' errors and experimen- tal artifacts (21 23). Therefore, the majority of HT methods, for instance, RNA-Seq and ChIP-Seq, generate evidence elassified as weak within RegulonDB. Strong evidence requires efficient measures to exclude false-posi- tives as well as the reliability of the evidence based on biologically congruent replicates. The results of the detailed analyses of the different HT methodologies are reflected in the expanded evidence classifications shown in Table 1 of the new Evidence page in RegulonDB web site. The global character ofHT approaches makes it natural to compare their results with equally global computational predictions. However, the analysis of HT data sets involves bioinformatics and biostatistics processing, which, given the diversity of strategies, may limit their comparison until more standardized procedures have been established. A final outcome when these issues are addressed will be the combination not only of the different experiments and HT data sets, but also of aH sources of knowledge, computational and evolutionary predictions, elassic methodologies and HT strategies, to keep track of Nucleic Acids Research. 2013. Vol. 41. Database issue D207 each conlribution and lo assign an appropriale level of confidence to each object and interaction. In an initial step in this direction, independent cross-validation has been applied for promoters and regu- latory interactions. This new concept integra tes multiple types of evidence with the intention of mutually exeluding false-positive results. The classification of 'strong evi- dence' is assigned to data that are supported by at least two independent weak types of evidence, provided that the two sources of knowledge do not share major sources of false-positives and do not use common raw materials or common experimental steps. For instance, TSSs that have been identified by transcription initiation mapping can be cross-validated with in vitro transcription assays. Similarly, TFBSs that have been identified by genomic SELEX can be cross-validated by in vivo gene expression data. Moreover, by applying this new concept to data that are supported by strong evidence, we can extend our two-tier rating system to three tiers. To this end, we have introduced a third confidence score, 'confirmed'. Data supported by confirmed evidence, that is, by at least two types of independent strong evidence, have a high reliability and can be considered gold standard data in RegulonDB. For instance, TFBSs that have been identified by footprinting analysis and, in addition, have been validated by mutational analysis of the binding site, are now classified as data with confirmed evidence. The detailed analysis of this improvement will appear in a publication elsewhere (20). The results of this cross- validation are surnmarized in Table 2 of the Evidence page in RegulonDB web site (See Figure 4). We evaluated the confidence levels of HT and elassic methodologies through a more detailed curation process, which ineluded independent cross-validation and/or stat- istical validation. Statistical validation was used to evaluate the confidence for TFBSs discovered by ChIP technology, by using a strategy that was consistent with the evaluation of PWMs from manually curated binding sites, as described previously. To this end, we are imple- menting a pipeline to assess the quality of the ChIP-Seq/chip experimental data. We initiated analysing PurR-binding sites, which were identified by ChIP-chip (24) (see the Supplementary Data). The strategy was divided into three main evaluation steps: (i) assessing the enrichment of TFBSs with high scores for the aimed TF in the set of ChIP-identified regions based on matrix quality (3) (see Supplementary Figure S2 in the Supplementary Data). (ii) Discovery of overrepresented motifs in the set of ChIP-identified regions, as well as detection of second- ary motifs that could be related to cofactors that bind the targeted TF from the ChIP experiment. We have used peak motifs (25) to rediscover the PWMs for TFs by comparing the discovered motifs with those annotated in RegulonDB
Compartir