Analisis-genomico-de-la-conformacion-funcional-de-los-factores-transcripcionales-en-Escherichia-coli-k-12

•

Biológicas / Saúde

Estudiando Medicina

28.7.2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Medicina

240.721 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
DOCTORADO EN CIENCIAS BIOMÉDICAS
CENTRO DE CIENCIAS GENÓMICAS

ANÁLISIS GENÓMICO DE LA CONFORMACIÓN FUNCIONAL DE LOS
FACTORES TRANSCRIPCIONALES EN Escherichia coli K-12

TESIS
QUE PARA OPTAR POR EL GRADO DE:
DOCTOR EN CIENCIAS

PRESENTA:
YALBI ITZEL BALDERAS MARTÍNEZ

DIRECTOR DE TESIS

DR. JULIO COLLADO VIDES
CENTRO DE CIENCIAS GENÓMICAS

COMITÉ TUTOR

DR. JUAN ENRIQUE MORETT SÁNCHEZ
INSTITUTO DE BIOTECNOLOGÍA

DR. ERNESTO PÉREZ RUEDA
INSTITUTO DE BIOTECNOLOGÍA

CUERNAVACA, MORELOS. FEBRERO, 2014

UNAM – Dirección General de Bibliotecas
Tesis Digitales
Restricciones de uso

DERECHOS RESERVADOS ©
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL

Todo el material contenido en esta tesis esta protegido por la Ley Federal
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México).
El uso de imágenes, fragmentos de videos, y demás material que sea
objeto de protección de los derechos de autor, será exclusivamente para
fines educativos e informativos y deberá citar la fuente donde la obtuvo
mencionando el autor o autores. Cualquier uso distinto como el lucro,
reproducción, edición o modificación, será perseguido y sancionado por el
respectivo titular de los Derechos de Autor.

2
DEDICATORIA

Esta tesis está dedicada a mis padres y mi hermano

3
AGRADECIMIENTOS

Agradezco a Julio Collado por toda la experiencia, entusiasmo, genialidad y apoyo
brindado no sólo para la conclusión de este trabajo sino también para mi formación
profesional e inclusive personal ¡¡¡Mil gracias!!! Espero que podamos seguir
trabajando juntos.

A mis tutores Enrique Morett, Enrique Pérez Rueda y Miguel Ángel Ramírez que con
sus consejos y muchos ánimos lograron que mi proyecto tomara forma. A mis
revisores, Miguel Ángel Cevallos, Osbaldo Resendis, Agustino Martínez y Guillermo
Gosset por los comentarios duante la revisión de esta tesis.

A todas las personas que han estado conmigo en el Programa de Genómica
Computacional, que me han brindado su amistad, apoyo emocional, económico,
técnico, en fin, hay tantas historias que contar que no acabaría de contarlas, son
como una gran familia.

A Dante, que llegó a mi vida a darme un giro inesperado lleno de felicidad, gracias
por todo el apoyo que me estás dando en estos momentos.

A CONACYT, al Centro de Ciencias Genómicas de la UNAM y al Dr. David Romero
por los apoyos otorgados.

4
Las representaciones que construimos en nuestro cerebro son, objetos físicos,
“modelos reducidos” del mundo exterior y de nuestro propio mundo interior. No
pueden aspirar a una descripción integral, al agotamiento de la realidad del
mundo. Siempre existirá un margen de incertidumbre, un espacio para volver a
cuestionar todo avance del conocimiento científico.
¿Es ésta una razón para renunciar a saber más?
(Jean-Pierre Changeux – El hombre de verdad)

5
ÍNDICE

ÍNDICE ................................................................................................................................................................. 5
ÍNDICE DE FIGURAS ........................................................................................................................................ 6
ÍNDICE DE CUADROS ...................................................................................................................................... 6
RESUMEN ........................................................................................................................................................... 7
ABSTRACT ......................................................................................................................................................... 8
ABREVIATURAS ............................................................................................................................................... 9
CAPÍTULO 1. INTRODUCCIÓN ................................................................................................................... 10
1.1 PLANTEAMIENTO DEL PROBLEMA ................................................................................................................. 13
CAPÍTULO 2. OBJETIVOS ............................................................................................................................ 14
OBJETIVO GENERAL: ............................................................................................................................................. 14
OBJETIVOS ESPECÍFICOS: .................................................................................................................................... 14
CAPÍTULO 3. RELEVANCIA ......................................................................................................................... 15
CAPÍTULO 4. MARCO TEÓRICO ................................................................................................................ 16
4.1 UNA PERSPECTIVA HISTÓRICA EN LOS ESTUDIOS SOBRE LA REGULACIÓN TRANSCRIPCIONAL
BACTERIANA .................................................................................................................................................................. 16
4.2 EVOLUCIÓN DEL CONCEPTO DE ALOSTERISMO ............................................................................................ 17
4.3 EVOLUCIÓN DE LAS PROTEÍNAS ..................................................................................................................... 21
4.4 SISTEMAS INDUCIBLES Y REPRIMIBLES ........................................................................................................ 22
CAPÍTULO 5. MÉTODOS .............................................................................................................................. 26
CAPÍTULO 6. RESULTADOS ........................................................................................................................ 27
6.1 DELIMITACIÓN DE LOS TÉRMINOS RELACIONADOS CON LA INVESTIGACIÓN .......................................... 27
6.2 CURACIÓN DE LAS CONFORMACIONES FUNCIONALES DE LOS FACTORES TRANSCRIPCIONALES EN
ESCHERICHIA COLI K-12.............................................................................................................................................. 32
6.3 PRIMER ARTÍCULO: REGULONDB V8.0: OMICS DATA SETS, EVOLUTIONARY CONSERVATION,
REGULATORY PHRASES, CROSS-VALIDATED GOLD STANDARDS AND MORE. ....................................................... 35
6.4 SEGUNDO ARTÍCULO: TRANSCRIPTION FACTORS IN ESCHERICHIA COLI PREFER THE HOLO
CONFORMATION ............................................................................................................................................................ 47
CAPÍTULO 7. DISCUSIÓN ............................................................................................................................. 57
CAPÍTULO 8. CONCLUSIONES .................................................................................................................... 60
CAPÍTULO 9. PERSPECTIVAS .................................................................................................................... 61
ÁPENDICE ........................................................................................................................................................ 62

6
ÍNDICE DE FIGURAS

Figura 1. Diferentes tipos de comportamiento alostérico.
Figura 2. Sistemas inducibles y reprimibles.
Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli K-12.

ÍNDICE DE CUADROS

Cuadro 1. Conceptos originales.
Cuadro 2. Ambigüedad en el uso de los términos.
Cuadro 3. Clasificación de las evidencias experimentales de la conformación
funcionalde los factores transcripcionales

7
RESUMEN

La red regulatoria transcripcional de Escherichia coli K-12 es una de las redes
genéticas mejor estudiadas entre cualquier célula viviente. Los factores
transcripcionales se unen al ADN ya sea con el efector unido (conformación holo), o
como una proteína libre (conformación apo). En este trabajo se realizó una curación
manual de las conformaciones funcionales (holo o apo) de los factores
transcripcionales y se añadieron a la base de datos de RegulonDB. Una vez hecho
esto, se analizó la conformación funcional de los factores transcripcionales de forma
exhaustiva, considerando también el modo de regulación de los factores
transcripcionales (activador, represor, dual). Nosotros reportamos un
descubrimiento inesperado en la arquitectura de la red regulatoria, ya que
encontramos una subrepresentación de la conformación apo (sin metabolito
alostérico) en los factores transcripcionales cuando se unen a sus sitios en el ADN
para activar la transcripción. Esta observación tiene soporte a nivel de las
interacciones regulatorias individuales en sus promotores, aún si se excluyen los
promotores regulados por los factores transcripcionales globales, donde tres cuartas
partes de los promotores conocidos son regulados por un factor transcripcional en
conformación holo. Este análisis genómico en gran escala nos permite preguntarnos
cuáles son las implicaciones de estas observaciones para la fisiología y para el
entendimiento en la ecología de E. coli. Discutimos estas ideas dentro del marco
teórico de la teoría de la demanda de la regulación genética.

8
ABSTRACT

The transcriptional regulatory network of Escherichia coli K-12 is among the best-
studied gene networks of any living cell. Transcription factors bind to DNA either
with their effector bound (holo conformation), or as a free protein (apo
conformation) regulating transcription initiation. In this work, I performed a manual
curation of the functional conformations (holo or apo) of the transcription factors,
they were added to RegulonDB and then, they were exhaustively analyzed
considering also their mode of regulation (activator, repressor, or dual). We report a
striking discovery in the architecture of the regulatory network, finding a strong
under-representation of the apo conformation (without allosteric metabolite) of
transcription factors when binding to their DNA sites to activate transcription. This
observation is supported at the level of individual regulatory interactions on
promoters, even if we exclude the promoters regulated by global transcription factors,
where three-quarters of the known promoters are regulated by a transcription factor
in holo conformation. This genome-scale analysis enables us to ask what are the
implications of these observations for the physiology and for our understanding of
the ecology of E. coli. We discuss these ideas within the framework of the demand
theory of gene regulation.

9
ABREVIATURAS

ADN Ácido desoxirribonucleico
ARN Ácido ribonucleico
AMPc Adenosín monofosfato cíclico
FT, FTs Factor de la transcripción, factores de la transcripción
UT, UTs Unidades transcripcional, unidades transcripcionales

10
CAPÍTULO 1. INTRODUCCIÓN

La regulación transcripcional es un mecanismo que le permite a las bacterias
modular la expresión de sus genes para adaptarse a las condiciones ambientales y así
mantener a la célula en homeostasis. Esta regulación está dada principalmente por
los Factores de la Transcripción (FTs) que son proteínas que regulan el inicio de la
transcripción activando o reprimiendo la expresión de los genes (Lewin 2008).

Se han hecho contribuciones experimentales importantes se han realizado en
Escherichia coli K-12 para entender la regulación mediada por FTs. Este genoma
contiene más de 300 genes que codifican para proteínas que se predice se unen a
promotores para activar o reprimir la transcripción (Pérez-Rueda and Collado-Vides
2000). Se han verificado experimentalmente, más de la mitad de estas proteínas
(Salgado et al. 2013). La mayoría de los FTs se unen al ADN en una secuencia muy
específica, y esto asegura que sus acciones sean dirigidas a promotores específicos.
Algunas otras proteínas controlan un gran número de genes, por lo tanto la secuencia
que reconocen es más variable. Se ha estimado que diez FTs controlan el 50% de
todos los genes regulados, mientras que unos 60 FTs controlan un solo promotor
(Martínez-Antonio and Collado-Vides 2003; Freyre-González et al. 2008).

Los FTs acoplan la expresión de sus genes a señales ambientales, y ellos también
deben ser regulados ya sea controlando su actividad o controlando su expresión. Para
lograr esto, los FTs han usado diferentes mecanismos. Primero, la afinidad de unión
al ADN de los FTs pueden modularse por efectores o ligandos pequeños, las
concentraciones de los cuales fluctúan en respuesta a la disponibilidad de nutrientes
o a consecuencia de situaciones de estrés. Segundo, la actividad de algunos factores
transcripcionales se modula por modificación covalente. Tercero, la actividad de
algunos FTs depende de la concentración que éstos tengan y de la fase de crecimiento
en la que se encuentra la célula. Finalmente, un mecanismo menos común es a través
del secuestro por una proteína que se une al FT (Browning and Busby 2004).

El primer y segundo caso son los más frecuentes, los FTs pueden estar en un estado
funcional (activo) o no funcional (inactivo), y esta transición se debe a la unión del
FT con su efector (que puede ser un metabolito, proteína o una modificación
covalente) (Jacob and Monod 1961; Snyder and Champness 2003; Martínez-Antonio
et al. 2006; Goodey and Benkovic 2008). Los FTs están en conformación apo
funcional cuando unidos a su sitio operador están activando o reprimiendo la
transcripción sin estar unidos con un efector. Y por el contrario, cuando están unidos
con un efector activando o reprimiendo, los FTs están en una conformación holo
11
funcional. Los efectores determinan la conformación del FT, y son la conexión entre
la redes regulatorias y las rutas metabólicas (Martínez-Antonio et al. 2006).

Se ha recopilado poca información en bases de datos acerca de los efectores de los
FTs en E. coli (Wall et al. 2004; Karp et al. 2007; Gama-Castro et al. 2011); la fuente
más importante se encuentra en RegulonDB, que contiene la red regulatoria de E.
coli K-12 (Gama-Castro et al. 2011); se hizo una clasificación de los FTs con base en el
origen de la señal si es intracelular, externa o ambas (Martínez-Antonio et al.
2006), y por otra parte, existe una publicación que considera los estados activos e
inactivos de los factores transcripcionales para realizar predicciones sobre los genes
que se expresan o no, para explicar los experimentos hechos en microarreglos
(Gutiérrez-Ríos et al. 2003). Esta última publicación es la primera que contiene un
acercamiento más puntual relacionado con la conformación funcional de los FTs en
E. coli K-12.

Al analizar la información relacionada con la conformación funcional, se observa que
no existe un estándar en la utilización de los conceptos básicos que pertenecen al
tema. Por ejemplo, se han utilizado señal, efector o inductor como sinónimos, pero
pueden significar cosas diferentes dependiendo del contexto (Wall et al. 2004;
Alberts 2008). Esto genera problemas cuando se requieren hacer interpretaciones
biológicas, por ello es fundamental que el curador de artículos científicos, logre una
estandarización de conceptos e incorpore la información dentro de las bases de datos
de manera adecuada. Parte de lo que se presenta en esta tesis es una estandarización
de los conceptos en regulación transcripcional para poder generar un corpus de
artículos científicos sobre las conformacionesfuncionales de los FTs, que fueron
curadas y añadidas a RegulonDB (Salgado et al. 2013).

La compilación de los datos de las conformaciones funcionales de los FTs, nos
permite tener una visión más integral de cómo funcionan éstos en la red regulatoria
de E. coli K-12. Los análisis sobre otras propiedades en la regulación transcripcional
ya se han realizado, y gracias a ello, se ha obtenido una mayor comprensión de cómo
funcionan los sistemas biológicos. El ejemplo clásico es el estudio de la caja de
Pribnow, o secuencia -10 del promotor bacteriano, donde se une la ARN polimerasa
para iniciar la transcripción. Pribnow alineó seis secuencias de promotores y realizó
algunos experimentos, que le permitieron concluir que debía existir una secuencia
específica en la que se uniera la ARN polimerasa (Pribnow 1975). Actualmente se
pueden predecir los promotores de un genoma gracias a que fue posible encontrar
ciertos patrones en la regulación transcripcional.

12
El título del capítulo del libro Theoretical Biology; are there rules governing
patterns of gene regulation?, cuya traducción en español es: ¿existen reglas que
gobiernan los patrones de la regulación genética? La respuesta según el autor, es
simple, y depende de quien pregunta, “algunos biólogos dirán que efectivamente
hay reglas y que es negocio de la ciencia descubrirlas, y otros biólogos dirán que no
hay reglas” (Savageau 1989). Lo que se ha observado es que conforme se estudian
los mecanismos biológicos con más detalle y a nivel genómico, cada vez podemos
encontrar más patrones en la biología de lo que anteriormente se pensaba.

La información contenida en las bases de datos nos permite realizar análisis
genómicos y tener una visión integral que pueden resultar en propiedades
emergentes que no se pueden obtener analizando únicamente partes individuales del
sistema. La presente tesis contiene un estudio global de las conformaciones
funcionales de los FTs en E. coli, así como tendencias que hemos tratado de explicar
considerando el mecanismo molecular, la evolución y la fisiología en un contexto
ecológico.
13
1.1 Planteamiento del problema

Aunque E. coli K-12 como modelo de estudio, es la bacteria más estudiada en la
regulación transcripcional, sólo se ha estudiado de forma individual la conformación
funcional de los FTs. No existe ningún organismo en donde se haya investigado si
existe alguna tendencia en los FTs de tener algún tipo de conformación funcional.

En un análisis preliminar, se observó la correlación entre la función de los FTs si es
activador, represor, dual con la conformación funcional apo, holo y
encontramos que existe una tendencia de los activadores y FTs con función dual en
tener siempre una conformación funcional holo, y que no existen activadores en
conformación funcional apo. De forma contraria, los represores tienden a regular
preferentemente en conformación funcional apo.

Ahora bien, si analizáramos otros niveles de regulación, por ejemplo, si contaramos
unidades transcripcionales reguladas y sitios de unión al ADN regulados por los FTs
(activando, reprimiendo o regulando dualmente) en conformación funcional holo o
apo, ¿se conservará esta tendencia? ¿Por qué si existe la misma posibilidad de tener
dos tipos de conformaciones funcionales, no hay ejemplos de activadores en
conformación funcional apo? ¿Tendrá alguna relación con las funciones biológicas
de los genes regulados? ¿Los FTs que tienen un mismo tipo de conformación
funcional pertenecen a la misma familia evolutiva?

14
CAPÍTULO 2. OBJETIVOS

OBJETIVO GENERAL:

Establecer si existe una relación entre la conformación funcional de los factores
transcripcionales con la fisiología de los genes regulados o con propiedades
evolutivas de los sistemas regulatorios.

OBJETIVOS ESPECÍFICOS:

Caracterizar la conformación funcional de los factores transripcionales en la red
regulatoria transcripcional de Escherichia coli.

Analizar la distribución de las conformaciones funcionales con respecto a:
 los distintos tipos de mecanismos de regulación,
 la evolución de los factores transcripcionales, y
 la fisiología bacteriana.

15
CAPÍTULO 3. RELEVANCIA

Este es el primer estudio genómico en un solo organismo caracterizado (E. coli) en el
que se racionaliza la teoría de la demanda. Además, ofrece una visión a nivel global
de la red regulatoria transcripcional y nos provee un marco teórico para la
comprensión de la regulación genética en otras bacterias.

En lo particular, se han identificado patrones en los mecanismos de regulación
transcripcional que pueden explicar cómo la unión de efectores específicos asisten en
la actividad de la mayoría de los factores transcripcionales. Por ejemplo, se encontró
que sistemas inducibles generalmente correlacionan con sistemas catabólicos y que
los sistemas reprimibles generalmente correlacionan con sistemas anabólicos (Wall
et al. 2004). Entonces, los patrones de regulación en los circuitos genéticos pueden
ser entendidos en términos de los requerimientos funcionales para la biosíntesis y el
catabolismo (Savageau 1977). Para los sistemas naturales, las características de
diseño importantes son aquellas que les confieren una ventaja selectiva en un
contexto ecológico. Si los circuitos operan en una gran variedad de ambientes, la
función debe ser robusta a los cambios ambientales (Savageau 1974; Savageau 1976).
Si encontramos algunos patrones en la regulación, entonces podemos hacer
predicciones acerca de cómo los sistemas biológicos se comportarán.

El número de experimentos que se están colectando en RegulonDB es cada vez
mayor, por lo que la integración de la información anotada se convierte en un
recurso valioso para incrementar nuestro entendimiento sobre los fenómenos
biológicos.

16
CAPÍTULO 4. MARCO TEÓRICO

4.1 Una perspectiva histórica en los estudios sobre la regulación transcripcional
bacteriana

La regulación transcripcional del operón de la lactosa (lac) de Escherichia coli fue
descrita por primera vez por Jacob y Monod (Jacob and Monod 1959). Ellos
propusieron la hipótesis del operón y la función del ARN mensajero dentro del
modelo para el control de la expresión genética (Jacob and Monod 1961).
Actualmente sabemos que el operón lac se reprime a través de la unión de la proteína
LacI al ADN cuando no hay lactosa. Y que por otra parte, cuando hay lactosa
presente en el medio, se produce un metabolito efector denominado alolactosa. Este
metabolito al unirse a LacI, lo despega del ADN, permitiendo así la transcripción del
operón lac a través de la enzima ARN polimerasa.

Este modelo fue una pieza fundamental en el actual dogma central de la biología
molecular, denominada en 1956 como “la teoría del código genético” por Crick y
Watson. Esta teoría explicaba que la secuencia de ADN codifica secuencias de
aminoácidos y la información genética fluye en una sola dirección. Con el trabajo de
Jacob y Monod, se pudo establecer que el ADN puede transcribirse en una copia a
ARN mensajero y que está controlado por proteínas que se unen al ADN. A través de
los años, el dogma central sigue completándose. Se han caracterizado nuevos
mecanismos de regulación a partir del modelo inicial propuesto por Jacob y Monod.
Por ejemplo, inicialmente se pensaba que la represión era el principal tipo de
regulación (Kresge et al. 2007), sin embargo más tarde se descubrió que la
transcripción también podía ser activada por proteínas.

Un ejemplo de activación, lo reportó Ira Pastan, con el control de la expresión
genética mediada por AMP cíclico (AMPc) en E. coli. Pastan observó que hay una
correlación inversa entre los niveles de glucosa y la concentración intracelular de
AMPc en E. coli, regulando así, la síntesis de muchas enzimasinducibles (De
Crombrugghe et al. 1969). Este fenómeno se le conoce como represión catabólica por
glucosa (Magasanik 1961). Pastan y sus colegas describieron ensayos de hibridación
para medir la tasa de síntesis de ARN mensajero de lac y así demostraron que el
AMPc y la glucosa alteran las tasas de la producción de mRNA de la β-galactosidasa
(Varmus et al. 1970). Eventualmente se descubrió que la estimulación de la síntesis
de las enzimas inducibles requiere de la interacción del AMPc con una proteína
llamada la Proteína Receptora de AMP cíclico (CRP), y que el AMPc produce un
cambio alostérico en CRP, que incrementa la afinidad del receptor para las
17
secuencias de ADN en los promotores de muchos genes. Esto conlleva a la iniciación
de la transcripción y un incremento en la actividad del gen (Anderson et al. 1971).

Con estos trabajos, se dieron a conocer algunos de los mecanismos por los cuales las
proteínas pueden regulan el inicio de la transcripción. Estas proteínas denominadas
reguladores o Factores Transcripcionales (FTs), pueden ser represores cuando
impiden la transcripción, o activadores cuando promueven la transcripción
(Lehninger et al. 2000).

El caso del operón lac está sujeto a la regulación por ambos tipos de FTs, cuando la
lactosa no está presente en el medio entonces el represor LacI está activo y el
activador CRP está inactivo (ambos casos sin la presencia del metabolito efector).
Cuando la lactosa está presente en el medio entonces LacI está inactivo y CRP está
activo (en ambos casos está unido el metabolito efector al FT). Sin embargo aunque
ambos mecanismos permiten la expresión de los genes, la razón fisiológica sigue una
lógica diferente. En el primer caso se habla de que el sistema es inducible por la
desactivación de LacI por la alolactosa que es un producto de degradación que se
acumula cuando la lactosa es metabolizada por la β –galactosidasa. Por otra parte, el
segundo caso está relacionado con la represión catabólica, a través de una relación
indirecta ya que cuando los niveles de glucosa son bajos se incrementa la
concentración de AMPc que conducen a la activación de CRP.

Entonces es importante tener en cuenta los mecanismos mecanismos moleculares de
la regulación genética y la fisiología, y de qué manera ambos niveles están
estrechamente relacionados. A continuación se describirán con más detalle los
conceptos que están relacionados con el mecanismo por el cual los FTs tienen
cambios conformacionales, así como los diferentes tipos de sistemas fisiológicos en
los que operan.

4.2 Evolución del concepto de alosterismo

En 1951, Wyman formuló ideas acerca de cómo los cambios conformacionales en las
proteínas podrían permitir cambios en las propiedades funcionales (Simoni et al.
2002). De esta manera se explica cómo la proteína LacI puede pasar de un estado
funcional a un estado no-funcional, por una modificación alostérica dada por un
efector.
18

Wyman junto con Monod y Changeux, propusieron el modelo de las transiciones
alostéricas (Monod et al. 1965). Este modelo hizo posible explicar, clasificar y
predecir la mayoría de las propiedades cinéticas de muchos sistemas alostéricos (Ver
la figura 1 para una mayor explicación). Sin embargo, representa solamente una
primera aproximación en la descripción de los sistemas reales (Monod 1966). El
“modelo plausible” o “MWC” (Monod, Wyman y Changeux), propone que las
proteínas que exhiben cooperatividad pueden existir en dos estados
conformacionales, y que el equilibrio entre estos dos estados lo modifica la unión de
un efector, e.g., el oxígeno en la hemoglobina.

Figura 1. Diferentes modos de comportamiento alostérico. (a) Cooperatividad: una
caricatura mostrando el modelo MWC de las transiciones alostéricas. Una proteína
multimérica simétrica puede existir en uno de dos diferentes estados conformacionales – las
conformaciones funcionales y las no funcionales. Cada subunidad tiene un sitio de unión
para un efector alostérico así como un sitio activo o sitio de unión. (b) Una proteína
monomérica inhibida alostéricamente. La unión de un inhibidor alostérico altera el sitio
activo o la unión de un sitio en una forma no favorable, por lo tanto decrementando la
afinidad o la eficiencia catalítica. (c) una proteína monomérica activada alostéricamente. La
unión de un activador alostérico resulta en una afinidad incrementada o con actividad en el
segundo sitio. (d) La unión de un efector alostérico puede introducir un nuevo sitio de unión
a una proteína. La unión de un efector a su nuevo sitio de unión podría permitir cambios en
la geometría del sitio activo proveyendo un mecanismo indirecto de control alostérico. Este
tipo de efecto es de gran interés en el diseño de drogas alostéricas y puede ser considerado
un subconjunto del ejemplo mostrado en c. (e) La fusión de una enzima a una proteína bajo
el control alostérico. Este tipo de construcción puede actuar como un interruptor alostérico
porque la actividad de la enzima está indirectamente bajo control alostérico vía la proteína
unida con un sitio alostérico. Tales construcciones están ambas presentes en la naturaleza y
en estudios de ingeniería de proteínas. Tomado de: (Goodey and Benkovic 2008).
20
El modelo MWC, en el que los estados conformacionales de la proteína (funcionales y
no funcionales) se estabilizan selectivamente por los ligandos a los cuales ellos se
unen de forma preferencial, contrasta con el modelo secuencial que surgió
posteriormente, también conocido como Koshland-Nemethy-Filmer (KNF). Este
modelo propone que la unión del efector en su sitio causa un cambio subsecuente de
conformación que sería “adaptado” a la estructura particular del efector (Changeux
and Edelstein 2005). Es decir, que cuando el efector se une a uno de los monómeros
de un multímero proteico, se induce el cambio conformacional en éste y se propaga
al resto de los componentes del multímero. El modelo secuencial alternativo postula
múltiples conformaciones, cada una con diferentes números de moléculas de efector
únicas (Koshland et al. 1966).

Actualmente el alosterismo puede se define como la regulación de la función de una
proteína, estructura y/o flexibilidad inducida por la unión de un efector u otra
proteína, en un sitio diferente del sitio activo, también referido como sitio alostérico.
El alosterismo es una propiedad intrínseca de la mayoría de las proteínas. Casi todas
las superficies proteicas tienen sitios alostéricos potenciales que pudieran tener la
capacidad de unirse a un efector, si ocurren las mutaciones simples o múltiples
pertinentes. Las excepciones son las proteínas fibrosas, proteínas estructurales con
conformaciones uniformes y estables, en la cuales no es muy probable que muestren
un comportamiento alostérico debido a su falta de flexibilidad (Goodey and Benkovic
2008).

El alosterismo, básicamente se rige por tres características que la definen: (i) el
efector no es químicamente idéntico al sustrato, (ii) el efector produce un cambio en
una propiedad funcional de la proteína y (iii) el efector se une a un sitio que es
topográficamente distinto del sitio funcional de la proteína (Fenton 2008).

Por otra parte, una modificación covalente como la fosforilación también genera un
cambio conformacional en los FTs, por lo que no todos los efectores tienen que ser
necesariamente metabolitos. Actualmente, la definición de alosterismo incluye las
modificaciones químicas covalentes ya que sus papeles son similares para las
descripciones fisiológicas y topológicas en una red de regulación (Martínez-Antonio
et al. 2006).

Por definición, el alosterismo involucra la propagación de señales entre sitios en una
estructura proteica. Como ya hemos visto, un cambio en la función podría llevarse a
cabo por la unión de un efectoro una modificación covalente. Las proteínas son
dinámicas y tienen múltiples conformaciones antes de llegar a la conformación
21
funcional estable. El papel del efector es entonces, el de estabilizar una conformación
pre-existente, seleccionando esta conformación entre toda una población de
confórmeros proteicos. Básicamente, es una red físicamente interconectada y/o
termodinámicamente unida por residuos a través del cual se transmiten señales
(Daily and Gray 2007; Goodey and Benkovic 2008).

Finalmente, un concepto nuevo y atractivo es que las proteínas pueden ser
alostéricas y no tener cambios conformacionales (Daily and Gray 2007; Tsai et al.
2008). El alosterismo es fundamentalmente termodinámico por naturaleza, la
comunicación a través de la proteína podría mediarse no solamente por cambios en
la conformación media, sino también por cambios en las fluctuaciones dinámicas en
la conformación media. Es decir, la comunicación podría involucrar no únicamente
el componente entálpico, que es el factor clave responsable de la alteración
observada en la forma, sino también tendría una contribución entrópica. Las
interacciones alostéricas mediadas exclusivamente por cambios en los movimientos
de las proteínas causaría un cambio en la energía libre, sin que sea necesario ningún
tipo de mecanismo de “ajuste inducido”(Tsai et al. 2008). En la proteína CRP por
ejemplo, se encontró que los movimientos de los residuos localizados en algunas
regiones distantes de los sitios de unión son afectados en la ausencia de una ruta de
conectividad visible (Popovych et al. 2006). En otra proteína FecA, se señaló que el
efecto de unión se propaga a través de las interacciones Van der Waals entre los
residuos en la red conectada físicamente (Ferguson and Deisenhofer 2004).

4.3 Evolución de las proteínas

Los FTs se han clasificado con base en su dominio de unión al ADN en alrededor de
20 familias evolutivas, cuando se considera el motivo HTH (hélice-vuelta-helice,
denominado así por sus siglas en inglés: helix-turn-helix) (Pérez-Rueda and Collado-
Vides 2000). Inicialmente se había observado que las funciones reguladas por las
proteínas que forman parte de una misma familia eran homogéneas (e.g., la familia
LysR regula genes para la biosíntesis de aminoácidos)(Henikoff et al. 1988; Weickert
and Adhya 1992; Pérez-Rueda and Collado-Vides 2000). Sin embargo conforme se
van agregando más especies en las familias, se ha visto que puede existir una
variación en las funciones reguladas (e.g., en la familia GalR/LacI existen funciones
relacionadas con el catabolismo de carbono, la biosíntesis de nucleótidos y la
expresión de toxinas) (Swint-Kruse and Matthews 2009).

22
Por otra parte, dentro de una misma familia de proteínas se puede tener un papel
regulador distinto (e.g., en la familia GalR/LacI existen represores (GalR y LacI), y
también reguladores duales como CcpA). Además para una misma proteína se puede
tener distinta especificidad para distintos efectores (e.g., LacI se puede unir a
inductores, anti-inductores y efectores neutrales) (Barkley et al. 1975; Swint-Kruse
and Matthews 2009). Esto puede explicarse porque los metabolitos son similares en
su estructura y por la coevolución de las proteínas con sus efectores.

La coevolución molecular puede deberse a una adaptación específica entre dos
elementos que evolucionan, donde los cambios en uno de ellos los compensa los
cambios en el otro, o por la pérdida de una fuerza externa afectando las tasas
evolutivas de ambos elementos en una magnitud similar (de Juan et al. 2013). La
coevolución entre familias de proteínas relacionadas funcionalmente se ha observado
en casos esporádicos. Por ejemplo, se ha detectado una gran similitud entre los
árboles filogenéticos de los ligandos (tales como las insulinas y las interleucinas) y
sus receptores (Fryxell 1996).

Actualmente se conocen siete familias de proteínas en procariontes que unen
metales, de manera general podríamos decir que están relacionadas en una función
biológica, responder a la concentración de metales en la célula. Sin embargo, en
cuanto al motivo de unión al ADN podemos encontrar de tipo winged helix (hélice
alada), -helical bundle (aguja -hélice), ribbon-helix-helix (cinta-hélice-hélice); en
cuanto al tipo de metales que unen están los elementos de transición Mn, Fe, Col, Ni,
Cu y Zn, pero también metales de otros grupos; en cuanto al tipo de conformación
funcional existen proteínas que se unen en holo o en apo; y en cuanto al modo de
regulación hay represores principalmente, pero también activadores (Giedroc and
Arunkumar 2007). En resumen, aunque las proteínas estén relacionadas en familias
o funcionalmente, generalmente existe una gran diversidad en motivos de unión al
ADN, ligandos, y el modo de regulación.

4.4 Sistemas inducibles y reprimibles

Las bacterias responden a los cambios ambientales controlando la expresión de sus
genes, y como la economía es importante, evitan la síntesis de las enzimas en una
ruta cuando el sustrato está ausente, sin embargo están listas para producir las
enzimas si el sustrato aparece.

23
La síntesis de enzimas en respuesta a la aparición de un sustrato específico se llama
inducción, un ejemplo es el sistema de lactosa de E. coli mencionado
anteriormente. La transcripción se estimula tan pronto como el metabolito –la
alolactosa, en este caso llamado inductor- se añade al medio, y cuando el inductor se
retira, la transcripción cesa (Lewin 2008). La definición inicial de inducción
propuesta por Monod, es la “activación por el inductor de la síntesis de proteínas-
enzimas” (Jacob and Monod 1961). Una definición más reciente es que un sistema
inducible describe a un gen cuya expresión se incrementa en respuesta a una señal
ambiental (Wall et al. 2004).

También E. coli puede responder de forma contraria, en un efecto llamado
represión, que permite apagar la síntesis endógena de ciertos componentes que
puedan aparecer repentinamente en el medio. Por ejemplo, E. coli sintetiza
triptófano a través de la acción de la enzima triptófano sintetasa. Pero si el triptófano
está presente en el medio en donde la bacteria está creciendo, la producción de la
enzima se detiene (Lewin 2008). El término represión, se propuso originalmente
para designar el efecto inhibitorio de la arginina y en la biosíntesis de este
aminoácido, y se utilizó para establecer una diferencia conceptual entre los sistemas
“reprimibles” y los “sistemas inducibles”. La inhibición enzimática, como en el caso
de la inducción, generalmente involucra no una sola sino todo un conjunto de
enzimas activas en pasos metabólicos sucesivos (Jacob and Monod 1961). Otra forma
de definir a un sistema reprimible es que describe a un gen, o conjunto de genes,
cuya expresión se decrementa en respuesta a una señal específica en un ambiente
dado (Wall et al. 2004).

Entonces, los metabolitos que regulan la producción de enzimas que los pueden
metabolizar, se les llama inductores. Aquellos que previenen la producción de
enzimas capaces de sintetizarlos se les conoce como co-represores (Lewin 2008;
Murray 2012). Es importante mencionar que el concepto original de sistemas
inducibles y reprimibles se definió con respecto a la aparición del metabolito
inductor o co-represor, también llamado efector, e involucra la fisiología y el
mecanismo molecular. Existe otro concepto de sistemas inducibles y reprimibles que
es más actual y se define con respecto a la señal (Wall et al. 2004), sin embargo es
importante recalcar que la señal no necesariamente es un sinónimo de inductor,
como en el caso de CRP mencionado anteriormente, en el cual la señal es la glucosa y
el efector es cAMP.

Para ambos sistemas inducibles y reprimibles, existen dos tipos de sistemas de
control: negativo donde los genesse expresan a menos de que sean apagados por un
24
represor; y positivo, donde los genes se transcriben sólo cuando un activador está
presente (ver la figura 2)(Lewin 2008).
25

Figura 2. Sistemas inducibles y reprimibles. Existen dos tipos de sistemas inducibles
(1 y 2) que son generalmente catabólicos, y dos tipos de sistemas reprimibles (3 y 4) que
generalmente son anabólicos. 1) Sistema inducible por activador: a) el activador se
encuentra en una conformación no-funcional apo, b) cuando aparece el inductor cambia a
una conformación funcional holo y entonces activa la transcripción. 2) Sistema inducible
por represor: a) el represor está reprimiendo en conformación funcional apo, b) cuando el
inductor aparece entonces cambia a una conformación no-funcional holo y entonces se
induce la expresión de los genes regulados. 3) Sistema reprimible por activador: a) el
activador se encuentra en conformación funcional apo, b) cuando el co-represor aparece, el
activador cambia a una conformación no-funcional holo. 4) Sistema reprimible por
represor: a) el represor está en conformación no-funcional apo, b) cuando el co-represor
aparece, cambia a una conformación funcional holo y reprime la expresión de los genes.
Nota: inductor y co-represor pueden ser llamados efectores, cuando se refiera
al mecanismo de regulación transcripcional en sí. Símbolos: óvalo verde:
activador, óvalo rojo: represor, frijol morado: ARN polimerasa, triángulos amarillos: los
efectores (inductor o co-represor según sea el caso), barra de rectángulos azules: genes, línea
azul: ARN mensajero, flecha verde: indica transcripción de los genes regulados, línea roja en
punta T: indica la represión de los genes regulados.

26
CAPÍTULO 5. MÉTODOS

Para contestar los objetivos del trabajo que aquí presento, se utilizó la estrategia que
se observa en el diagrama de flujo que se presenta a continuación. Los métodos se
detallan en la segunda publicación que se encuentra en el capítulo de resultados.

Curación
manual
Delimitación de los conceptos o
información biológica
Información
en bases de
datos
Publicaciones
específicas
Análisis estadísticos y
pruebas de hipótesis
Resultados
Recopilación de las
conformaciones
funcionales de los
FTs en E. coli K-12
27
CAPÍTULO 6. RESULTADOS

6.1 Delimitación de los términos relacionados con la investigación

En muchas de las publicaciones científicas se han utilizado los términos de manera
ambigua. En este proyecto fue necesario eliminar la ambigüedad en los términos
relacionados con la conformación funcional para poder recopilar la información de
manera adecuada en la base de datos. Se revisaron los conceptos originales (ver
cuadro 1), se compararon y actualizaron con los términos más recientes (ver cuadro
2a y 2b), para finalmente delimitar los conceptos relacionados con la conformación
funcional (ver cuadro 2c).

Cuadro 1. Conceptos originales

Término
Definición
Inductor
Molécula que se requiere para llevar a cabo la síntesis de novo
completa de las enzimas (moléculas) que son nuevas por su
estructura específica así como por el origen de sus elementos.
Inducción
Es la activación por el inductor de la síntesis de proteínas-
enzimas.

Co-
represor
El metabolito que reprime (opuesto al inductor).
Represión Es la inhibición del operón, cuando el represor por si mismo está
inactivo y es activado solamente combinándolo con ciertas
moléculas específicas.
Represión
(Inhibición
enzimática
)
Es un mecanismo de control que complementa la inducción
enzimática: en cualquier caso la célula tiene a formar enzimas
cuando son necesarias y tiende a no formar enzimas cuando no
son necesarias.
Fuente: (Jacob and Monod 1961)

28
Cuadro 2. Ambigüedad en el uso de los términos

a) Términos que explican el mismo concepto
Término Definición Referencias
Inductor/Co-
represor
Molécula pequeña que causa/previene la
producción de enzimas capaces de
metabolizarlas. Ejemplo: la alolactosa
cuando se une a LacI

(Jacob and Monod
1961; Lewin 2008)
Ligando,
molécula
pequeña
Señal ambiental que se unen al factor
transcripcional.
(Browning and Busby
2004; Seshasayee et
al. 2006)
Efector Molécula que se une al factor
transcripcional para cambiar su
conformación funcional.
(Martínez-Antonio et
al. 2006; Balderas-
Martinez et al. 2013)

b) Mismo término para explicar diferentes conceptos
Término Definición Referencias
Señal Una molécula natural que actúa
directamente en el factor transcripcional
para llevar a cabo una respuesta fisiológica.
(Wall et al. 2004)
Señal En transducción de señales, es el estímulo
por el cual la célula convierte un tipo de señal
en otra.
(Alberts 2008)

c) Cambios derivados en los conceptos debido a la necesidad de
formalizarlos dentro de una base de datos relacional
Término Definición Referencia
Regulador
dual
Un factor transcripcional o
proteína regulatoria que activa
y/o reprime la transcripción de
los genes cuando se une en sitios
de unión al ADN.

La dualidad es una propiedad de
la interacción entre el FT y su
sitio de unión al ADN. Este es un
concepto que fue actualizado.

RegulonDB
(http://regulondb.ccg.unam.
mx/)

29
Como resultado, se seleccionó el término efector como el más apropiado para hablar
de la molécula que se une al FT y realizar el cambio conformacional. El efector puede
ser un metabolito alostérico, una modificación covalente (e.g., fosforilación), o
incluso una proteína que se una al FT.

Señal se definió como el estímulo que recibe la célula que iniciará una respuesta
fisiológica, y como ya se ha mencionado en el capítulo anterior, en ocasiones un
mismo metabolito puede ser señal y efector (e.g., alta concentración de zinc es la
señal y efector), pero en otras veces puede diferir del efector (e.g., glucosa es la señal
y cAMP es el efector).

Se utilizó el término apo para definir a la conformación que tiene el FT cuando no se
une con el metabolito efector, y holo para la conformación que tiene el FT cuando el
efector sí se une con su metabolito efector.

Por otra parte, se analizó el término de regulador dual. Los FTs generalmente se han
clasificado como activadores, represores o reguladores duales (aquellos FTs que
pueden activar o reprimir). La definición actual toma en cuenta las interacciones en
las que participa el FT. Para ello, se analizaron los diferentes modos de regulación
dual a los que están sujetos los FT que se encuentran en la base de datos de
RegulonDB (Gama-Castro et al. 2011) y se clasificaron según el modo en como
regulan sus genes (ver figura 3).

Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli
K-12. 1) FTs en la misma conformación tienen diferentes efectos en diferentes
UTs. a) En este caso, CysB es un activador para la unidad transcripcional (UT) del gen cysK
y por otra parte, b) es un represor para la UT del gen cysB (se autoregula negativamente).
En ambos casos tiene una conformación funcional holo cuando se une con el efector O-
acetil-L-serina. 2) Diferentes conformaciones en el mismo FT tienen diferentes
efectos en la misma UT. a) Este es un caso particular, en el que AraC puede reprimir en
conformación apo la UT de araBAD doblando el ADN, b) cuando la arabinosa aparece, AraC
cambia a su conformación funcional holo activando araBAD. También podemos observar
que el FT Crp cambia a una conformación funcional holo y coactiva los genes de araBAD. 3)
El mismo FT tiene diferente modo de regulación en los mismos sitios de unión
al ADN. a) ChbR es un FT que reprime la transcripción del operón ChbBCARFG en
conformación apo en cooperación con NagC, b) cuando la quitobiosa aparece, se produce el
efector monoacetilquitobiosa6-fosfato que se une a ChbR cambiándolo a su conformación
31
holo activa pero manteniéndolo en su mismo sitio de unión al ADN, además NagC cambia a
su conformación holo no-funcional cuando se une con N-acetil-glucosamina. En este último
caso, la cooperación con otro FT juega un papel importante en el modo de regulación dual de
ChbR. Símbolos: activador: óvalo verde; represor: óvalo rojo, ARN polimerasa: frijol
morado; efectores (triángulos, círculos pequeños, rombos y gotas con varios colores); genes:
barra de rectángulos (varios colores); ARN mensajero: línea debajo de los genes (varios
colores); transcripción de los genes regulados: flecha verde; represión de los genes
regulados: flecha roja con punta en T.

32
6.2 Curación de las conformaciones funcionales de los factores transcripcionales
en Escherichia coli K-12

Se utilizaron como base algunas publicaciones previas relacionadas (Gutiérrez-Ríos
et al. 2003; Wall et al. 2004; Martínez-Antonio et al. 2006). Sin embargo para
ampliar la información acerca de la conformación funcional y el efector específico
que se une al FT, fue necesario realizar una curación manual. Para ello se utilizaron
palabras clave en el buscador de PubMed. Las palabras clave empleadas fueron en
todos los casos: el nombre del FT y Escherichia coli; y junto con esas palabras se
realizó una combinación utilizando variaciones como son: effector, conformation,
inducible system, repressible system, ligand & metabolite. Se revisaron los artículos
en orden cronológico, se anotaron las evidencias experimentales y las referencias
para cada una de las conformaciones funcionales correspondientes con cada efector.
En colaboración con el equipo de curadores de RegulonDB, se realizó una
clasificación de las evidencias experimentales las cuales se incorporaron a la base de
datos (ver cuadro 1), de esta manera, para el proyecto se consideraron únicamente
aquellas evidencias que se catalogaron como “fuertes” (strong evidence).

33
Cuadro 3. Clasificación de las evidencias experimentales de la
conformación funcional de los factores transcripcionales

3. Transcription factor functional conformation

Most dedicated TFs have usually two conformations, one with a non-
covalent bound allosteric metabolite, or a covalent phosphorylation
(holo conformation), and one as a free protein or multimer (the apo
conformation). There are exceptions to this statement. We call
functional conformation the one that is capable of binding to its
specific binding sites and perform its activation or repression activity.
For the sake of functional conformation evidence the experiments
below have to be considered with and without effector.
Evidence
Code
Evidence
Category
Strong
Evidence
3.1 Assay of protein purified to homogeneity APPH Classical
experiment
3.2 Assay of protein purified to homogeneity from its
native host
APPHINH Classical
experiment
3.3 Binding of purified proteins
Example: mobility shift assays, PAGE, filter binding assays
BPP Classical
experiment
3.4 Inferred from direct assay
Example: Microscopy, sedimentation, ultracentrifugation
(molecular weight determination of a protein complex),
mmunoblotting experiments
IDA Classical
experiment
3.5 Site mutation
Example: Expression analysis when putative regulator
binding sites are mutated.
SM Classical
experiment
3.6 Inferred by functional complementation IFC nd
Weak
Evidence
3.7 Author statement AS Author statement
3.8 Non-traceable author statement NTAS Author statement
3.9 Traceable author statement TAS Author statement
3.10 Traceable author statement to experimental support TASES Author statement
3.11 Assay of partially-purified protein APPP Classical
experiment
3.12 Assay of protein partially-purified from a heterologous
host
APPPHH Classical
experiment
3.13 Assay of protein partially-purified from its native
host
APPPINH Classical
experiment
3.14 Assay of unpurified protein AUP Classical
experiment
3.15 Assay of unpurified protein expressed in its native
host
AUPEINH Classical
experiment
3.16 Binding of cellular extracts
Example: Gel shift analysis.
BCE Classical
experiment
3.17 Gene expression analysis
Example: Transcriptional fusions
GEA Classical
experiment
3.18 Inferred from experiment IE Classical
experiment
3.19 Inferred from expression pattern
Example: Northern blots, western blots, assay for enzyme
activity in cell extracts
IEP Classical
experiment
3.20 Inferred from genetic interaction IGI Classical
experiment
3.21 Inferred from mutant phenotype
Example: Any gene mutation/knockout,
overexpression/ectopic expression of wild-type genes or
IMP Classical
experiment
http://regulondb.ccg.unam.mx/evidenceclasification
34
3. Transcription factor functional conformation

genes carrying mutations in the effector binding domain of
the transcription factor.
3.22 Inferred from physical interaction
Example: Two-hybrid assays, co-immunoprecipitation, co-
purification
IPI Classical
experiment
3.23 Automated inference based on similarity to consensus
sequences
AIBSCS Computational
prediction or
inference
3.24 Automated inference of function from sequence
Example: Sequence similarity between effector domains of
orthologous transcription factors.
AIFS Computational
prediction or
inference
3.25 Inferred by computational analysis ICA Computational
prediction or
inference
3.26 Inferred computationally without human oversight ICWHO Computational
prediction or
inference
3.27 Author hypothesis AH Human inference
3.28 Human inference based on similarity to consensus
sequences
HIBSCS Human inference
3.29 Human inference of function from sequence HIFS Human inference
3.30 Inferred from Biological aspect from Ancestor IBAA Human inference
3.31 Inferred by curator IC Human inference
3.32 Inferred by a human based on computational
evidence
IHBCE Human inference

35
6.3 Primer artículo: RegulonDB v8.0: omics data sets, evolutionary conservation,
regulatory phrases, cross-validated gold standards and more.

La contribución en este artículo fue la curación de las conformaciones funcionales de
los factores transcripcionales en Escherichia coli K-12, los cuales aparecen en línea
en la base de datos de RegulonDB (http://regulondb.ccg.unam.mx/) y también en el
apéndice de la presente tesis.

Salgado H, Peralta-Gil M, Gama-Castro S, Santos-Zavaleta A, Muñiz-Rascado L,
García-Sotelo JS, Weiss V, Solano-Lira H, Martínez-Flores I, Medina-Rivera A,
Salgado-Osorio G, Alquicira-Hernández S, Alquicira-Hernández K, López-Fuentes A,
Porrón-Sotelo L, Huerta AM, Bonavides-Martínez C, Balderas-Martínez YI,
Pannier L, Olvera M, Labastida A, Jiménez-Jacinto V, Vega-Alvarado L, Del Moral-
Chávez V, Hernández-Alvarez A, Morett E, Collado-Vides J. RegulonDB v8.0: omics
data sets, evolutionary conservation, regulatory phrases, cross-validated gold
standards and more. Nucleic Acids Res. 2013 Jan;41(Database issue):D203-13. doi:
10.1093/nar/gks1201. Epub 2012 Nov 29.

http://regulondb.ccg.unam.mx/
http://www.ncbi.nlm.nih.gov/pubmed/23203884
http://www.ncbi.nlm.nih.gov/pubmed/23203884
http://www.ncbi.nlm.nih.gov/pubmed/23203884
36

Published online 29 November 2012 Nucleic Acids Research, 2013, Vo/' 41, Database issue D203-D213
doi.·10.1093jnarjgks1201
RegulonDB v8.0: omics data sets, evolutionary
conservation, regulatory phrases, cross-validated
gold standards and more
Heladia Salgado 1 , Martin Peralta-GiI1 , Socorro Gama-Castro 1 , Alberto Santos-Zavaleta 1 ,
Luis Muñiz-Rascado1, Jair S. García-Sotelo1, Verena Weiss1, Hilda Solano-Lira1,
Irma Martínez-Flores 1 , Alejandra Medina-Rivera 1 , Gerardo Salgado-Osorio 1 ,
Shirley Alquicira-Hernández 1 , Kevin Alquicira-Hernández 1 , Alejandra López-Fuentes 1 ,Liliana Porrón-Sotelo 1 , Araceli M. Huerta 1, César Bonavides-Martínez 1 ,
Yalbi l. Balderas-Martínez1, Lucia Pannier1, Maricela Olvera2, Aurora Labastida2,
Verónica Jiménez-Jacinto3 , Leticia Vega-Alvarado4 , Victor del Moral-Chávez 1 ,
Alfredo Hernández-Alvarez \ Enrique Morete and Julio Collado-Vides 1,*
1 Programa de Genómica Computacional, Centro de Ciencias Genómicas, Universidad Nacional Autónoma de
México, AP. 565-A, Cuernavaca, Morelos 62100, 2Departamento de Ingeniería Celular y Biocatálisis, Instituto
de Biotecnología, Universidad Nacional Autónoma de México, AP. 510-3, Cuernavaca, Morelos 62100, 3Unidad
Universitaria de Secuenciación Masiva de ADN, Instituto de Biotecnología, Universidad Nacional Autónoma de
México, AP. 510-3, Cuernavaca, Morelos 62100 and 4Grupo de Visión Artificial y Bioinformática, Centro de
Ciencias Aplicadas y Desarrollo Tecnológico, Universidad Nacional Autónoma de México, D.F., México 04510
Received October 1, 2012; Revised October 26,2012; Accepted October 30,2012
ABSTRACT
This article summarizes our progress with
RegulonDB (http://regulondb.ccg.unam.mx!) during
the past 2 years. We have kept up-to-date the know-
ledge from the published literature regarding tran-
scriptional regulation in Escherichia coli K-12. We
have maintained and expanded our curation efforts
to improve the breadth and qua lit y of the encoded
experimental knowledge, and we have implemented
criteria for the quality of our computational pred ic-
tions. Regulatory phrases now provide high-Ievel
descriptions of regulatory regions. We expanded
the assignment of quality to various sources of
evidence, particularly for knowledge generated
through high-throughput (Hn technology. Based
on our analysis of most relevant methods, we
defined rules for determining the quality of
evidence when multiple independent sources
support an entry. With this latest release of
RegulonDB, we present a new highly reliable larger
collection of transcription start sites, a result of our
experimental HT genome-wide efforts. These
improvements, together with several novel en-
hancements (the tracks display, uploading format
and curational guidelines), address the challenges
of incorporating HT -generated knowledge into
RegulonDB. Information on the evolutionary conser-
vation of regulatory elements is also available now.
Altogether, RegulonDB version 8.0 is a much better
home for integrating knowledge on gene regulation
from the sources of information currently available.
INTRODUCTION
Escherichia coli K -12 is one of the best-characterized
microorganisms. RegulonDB is a relational database
that serves the scientific cornmunity involved in the
study of bacteria, offering in an organized and comput-
able form, knowledge on transcriptional regnlation that
has been manually curated from original scientific publi-
cations. This includes curated infonnation on known
mechanisms of regulation of transcription initiation
through the activation and repression of transcription
factors (TFs), which bind to individual sites around pro-
moters; the organization of operons and their various
"'To whom correspondence should be addressed. Tel: +52 777 313 2063; Fax: +527773175581; Email: regulondb@ccg.unam.mx and
collado@ccg.unam.mx
© The Author(s) 2012. Published by Oxford University Press.
Tms is an Open Access article distributed under the terms of the Creative Conunons Attribution License (http://creativeconunons.org/licenses/by-nc/3.0¡), which
permits non-conunercial reuse, distribution, and reproduction in any meruum, provided the original work is properly cited . For commercial re-use, please contact
journals.permissions@oup.com.
37

D204 Nucleic Acids Research, 2013, VolA] , Database issue
transeription units (TUs) and the integration of regulons
as gensor units (GUs), The RegulonDB team also con-
tinues to perform high-throughput (HT) experimental
identification of promoters in the E. coli genome. Our
mission has been to be the compilers and editors of the
knowledge generated by the international scientific COffi-
munity regarding the regulatory elements of transcrip-
tianal regulation of gene expression in E. coN K-12. Our
work maintains up-to-date infonnation in both the
RegulonDB and EcoCyc databases [(1,2) and an update
by Keseler et al, in this issue],
We should emphasize that any piece of knowledge is
curated with its associated reference(s) and the corres-
ponding evidence cade on which unified criteria have
been defined, enabling distinctions between strong versus
weakly supported objects, As detailed later, this
classification has been enriched, initiating the process to
integrate multiple sourees of evidenee to define gold
standarels,
High-quality expauded eucoded mechauistic kuowledge
from different sources
In the main menu 'About RegulonDB', we show the his-
torical increase of al! objects through the years, During the
past 2 years, the number of publications supporting the
corpus of knowledge encoded in RegulonDB has
increased to 4667, We have increased the number of
known functional and non-functional conformations of
TFs from 232 to 298, corresponding to a total of 103
TFs (see historical increase in RegulonDB web site), By
'functional' we mean the conformations that bind to
DNA and exert their regulatory effec!' The analysis of
the repertoire of regulatory mechanisms focusing on the
arehiteeture of signal reeognition, speeifically, the fune-
tional conformation (hola or apo) of a TF, its function
or mode of regulation (activator, repressor or dual) and
the anabolic or catabolic nature of its regulated genes,
enables searches at a genomic level for design principIes
under the framework of the demand theory of gene regu-
lation, which we discuss elsewhere (Balderas-Martínez
el al" submitted for publication), Al! confonnations are
supported by experimental methods that have been classi-
fied into strong or weak evidence types (see the new
Evidence page in RegulonDB),
A constant effort focused on detailed correction of
TF-binding site (TFBS) properties, such as the length,
symmetry, precise position, strand and orientation, is
now reflected in new improved alignments for ,......, 130
TFs. This has been a demanding and time-consuming
effort of continuous curation that has strongly enhanced
the quality of the evidenee for the DNA-binding sites of
the TF collection, a core element of the mechanistic and
genomic imprint of transcriptional regulation. See the
OxyR example in Figure L This effort started in 2009,
and it is already providing fruits in terms of improved
computational TF-DNA models,
The number of TFs that possess at least four binding
sites has increased from 71 to 86 in the past 2 years,
enabling the construction of position weight matrix
(PWM) bioinformatics models, Since 2011, we have
proposed the use of four independent criteria to assess
the quality of matrices: (i) infonnation content conserva-
tion of at least 1.5 bits in at least six positions in the
matrix; (ii) a low false-positive rate « le- ) for recovering
70% of the annotated sites; (iii) an observed distribution
of scores in the upstream regions on E. coli K-12 that
shows overrepresentation of high scores compared with
Figure L Analysis of TFBSs to improve the quality of PWMs in the RegulonDB database. OxyR binds in tandem, covering regions of ~40 bp (a).
We identified within these regions, two inverted-repeat motifs of 17 bp, separated by 5 bp (b). Therefore, we now propose a new consensus sequence,
GATAGGTTnAACCTATC, for the binding sites of OxyR. This new annotation has improved the quality of the matrices (b) and, therefore, also the
predictions of binding sites for OxyR.
38

the theoretical distribution and (iv) not overfitting the
matrix to the sequences that were used to build it (3).
For details of these four criteria, see the documentation
on PWMs in RegulonDB. Based on thesecriteria, the
current col!ection of 86 TFs contains 50% high-quality
models. The low-quality models are mostly those for
TFs with a reduced number of sites. For instance,
when counting only matrices with eight or more sites,
58% are of high quality. In 2008, only 33% of the 60
TFs with a PWM had a high-quality matrix, whereas
currently 56% of these 60 TFs have a high-quality
matnx, reflectmg the Importance of our curation and COf-
rectian efforts.
The increased quality of the PWM col!ection is reflected
in the number of false-positives that might be generated
fram a whole-genome computational prediction of
binding sites. Overall, the known versus predicted
fraction of sites when assessing a11 our computational
predictions in the genome has diminished from ~ 1 to 40
in 2008, to 1 to 5 in 2010, and to 1 to 3 in the current
verSlOn.
The improved PWMs were used to initiate curation of
regulatory interactions that had no binding site identified,
despite the availability of experimental evidence that sup-
ported them. Our current manual curation of the
predicted sites has identified TFBSs for 35 interactions.
In seeking consistency of evaluation of knowledge
irrespective of its source, we used similar criteria to
assess the quality of binding sites identified by chroma-
tin immunoprecipitation (ChIP)-Seq experiments
(see 'Enriched classifications based on classic and HT evi-
dence' and Supplementary Data).
We have expanded our curation to include factors that
bind a11osterica11y to RNA polymerase directly. The two
currently known mechanisms for E. coli regarding a11o-
steric binding involve ppGpp and DksA. We curated
regulatory interactions in which the nucleotide guanosine
Y-diphosphate, ppGpp (referred to as both tetrap-
hosphate and as its precursor, pppGpp) (4,5) and the
smal! protein DksA (6,7) bind to the RNA polymerase
alone or form a complex with each other, affecting tran-
scription in either a positive or negative manner, or act
antagonistical!y on the same promoter (8,9) (see
Supplementary Figure SI in the Supplementary Data).
Currently, 70 promoter interactions regulated by ppGpp,
as wel! as sorne that include regulation by DksA, have
been curated. The growth conditions under which the pro-
moters are regulated are also included in each reaction of
regulation (see Supplementary Figure SI in the
Supplementary Data).
HlGH-LEVEL CURATlON
We believe that the integration of knowledge to facilitate
an understanding at different levels of abstraction and
detail is a major cha11enge for genomic databases. In the
following section, we describe two directions of our efforts
towards obtaining higher integration levels: (i) GUs and
(ii) the organization of multiple TFBSs into regulatory
phrases.
Nucleic Acids Research. 2013. Vol. 41. Database issue D205
Fur, a complex GU
In 2011, we described the new concept of genetic
sensory-response units, or 'gensor units', which are
composed of four components: (i) the signal, (ii) the
slgnal-to-effector reactlOns that end with activation or in-
activation of the TF, (iii) the regulatory switch (resulting
in activation or repression oftranscription oftarget genes)
and (iv) the consequence, or effects and roles of the
regulated genes (1). RegulonDB contains 25 completed
GUs, which are organized into two categories: carbon
source utilization and metabolism of amino acids. These
are al! GUs for local TFs and smal! regulons. We decided
to cura te a much larger GU as a first step towards
eventual!y compiling information on GUs of global
regulators.
Certainly, the size and complexity of the Fur (ferric
uptake regulator) GU poses new chal!enges in its repre-
sentation. Fur regula tes transcription initiation of 66
TUs, including nine TFs, a regulatory smal! RNA
(sRNA) and two sigma factors (a19 and a 38). It
includes >200 reactions and close to 300 nodes. To fa-
cilitate interpretation of this GU, we included a
high-level i11ustration that provides an overview of al!
classes of genes and functions subject to Fur regulation
(see Figure 2). Search 'gensor unit' in the main menu in
RegulonDB and select Fur overview.
Figure 2. Overview of the GU of the Fur TF. In the presence of Fe+,
Fur represses genes involved in transport and release of Fe + from sid-
erophores and genes for biosynthesis and assembly of FeS c1usters; in
addition, it activates genes involved in Fe + storage and aetivatesj
represses genes that eneode proteins that eontain Fe + or a group
heme as a eofactor. In the presenee of the signal, Fur also regulates
transeription of nine TFs, the a 19 and a 38 factors and a regulatory
sRNA, RhyB, submaps of whieh are depieted as dark gray squares
that can be expanded to see their eorresponding GU. In addition,
Fu! regulates genes t.hat eneode metal-binding proteins (other than
Fe ) and other protems that apparently have no direet relationship
'With Fe + or other metals.
39

D206 Nucleic Acids Research, 2013, VolA] , Database issue
Regulatory pillases
Another area that will c1early benefit from a more
integrated description of the genome is the encoding of
the organization and functioning of regulatory regions
governing transcription. Previously, we displayed the col-
lection of sites in upstream regions affecting each
promoter, leaving it to the user to decipher how these
multiple sites, whieh bind the same or different TFs,
work in a coordinated fashion, or not, to regulate tran-
scription. For instance, regulation of the acsp2 promoter
is affected by two activator sites for CRP, three repressor
sites for Fis and three for IHE The funetions and pos-
itions of these eight sites are listed one by one in
RegulonDB, when in fact it is known, first, that both in
case of Fis and IHF, the multiple sites work together, and,
second, that each group of sites represses the acsp2
promoter independently: FIS in log phase and IHF in
stationary phase. Both proteins work as anti-activators
of CRP during the transition from log-phase to
stationary-phase growth (10,11), Briefly, the aim is to
then group sites that work together in a 'regulatory
phrase', or module. This integration of many sites into a
redueed number of phrases will eontribute to the under-
standing of complex regulation. Thus, phrases working
independently that affeet the 0-70 family of promoters
should have at least one proximal site, where the
position of a proximal site guarantees direct interaction
with the RNA polyrnerase (12 14),
It has been known for years that the possible arrange-
ments of sites and their functioning can vary for each TF,
or eaeh TF family, In addition to showing this higher or-
ganization within individual promoters, we also generated
a new page within RegulonDB that groups all possible
-200 -150
arrangements described in the genome for each TF, and
even for eomplex phrases with sites of different TFs, that
support eoordinated regulation of multiple TFs working
together to affeet transeription initiation (See Figure 3),
For instanee, the [CRP +] phrase offers the list of all
precise positions found in E. coli, with either one or
several sites used by CRP to activate transcription
(15,16), It will then be easier to see that the CRP pair of
sites activating acsp2 occurs also at similar positions in
fixAp, whieh is subjeet to CaiF and FNR aetivation, or
that the proximal -69,5 CRP aetivating position also
oeeurs at the csiDp, gntKp and prpRp promoters in the
eontext of regulation by other TFs, This first version
of regulatory phrases was based on the identifieation of
proximal sites first and then on detailed curation of cases
of multiple TFs known to work jointly [e,g, CytR with
CRP; or MelR with CRP (17)], as well as on an
exhaustive identification of regulatory phrases with no
proximal site, mostly from TFs known to bend the
DNA and funetion as arehiteetural elements [e,g, IHF,
Fis and other proteins (18,19)],
THE CHALLENGE OF ENCODINGKNOWLEDGE
GENERATED BY NOVEL 'OMIC' TECHNOLOGIES
As HT methodologies have more frequently beeome a
source of infonnation regarding gene regulation, we
have had to address several conceptual and practical
issues for their easier inclusion in RegulonDB. We have
expanded our classification scheme for the various de-
grees of eonfidenee in these different methodologies,
In addition, we have analysed how independent the differ-
ent methods are (i,e, their different potential sourees of
-100 -SO
"11,5
O Legend
proximal
. remate
[CRP,+I-ychHp ____________________________ _
-81,5 "11.5
[CRP,+I-pkap ____________________________ _
-101,5 "11,5
[CRP,+]-maIXp==========:;;¡;;:~~' ~~=============
[CRP,+l-acsp2 -12~,S
-126.5
~9,S
-69,S
[CRP,+]-fixAp __________ --1 •• '. _ ___________________ _
[CRP,+] phr.se .nd .11 other phrases th_ regulate these promoter(s). Llst of promoters and thelr correspondlng regulatory phrases.
Remote upstream site(s)
[CRp,+,-101,S]
[CRp'+,-122,S] [IHF,-,-180,0,-1 53,0,-225,0] [Fis,-,-98,0,-26S,0]
[FNR.+,-197,SI [CRP,+,-126,S] [CaiF,+,-136,S,-117,SI
Proximalsite(.)
[CRp'+,41.51
[CRp'+,41.5,-81,S]
[Mall,-,-16,5] [CRp'+,41,S]
[CRp,+,~9,SI [Fis,-,-S9,0]
[CRP,+,~9,SI [(aiF,+,-79,S,-60.51
-==-." .' ,.
_ ,o
ychHp
p/cap
malXp
acsp2
fixAp
Figure 3. The [CRP,+] regulatory phrase. The graph shows sites of the [CRP,+] phrase for five promoters, and the table inc1udes all additional sites
that regulate these promoters. Each promoter name is a link to the page in RegulonDB presenting all phrases for that promoter. Proximal sites are
those \V:ithin the interval from -93 to +20, from which the TF can directly interact \V:ith RNA polymerase. AH other sites are considered remote,
either upstream or downstream.
40

false-positives); from lhis information, we are able lo lhen
propose which methods upgrade the quality of evidence to
'strong' for objects with two types of weak evidence, and
to 'confirmed' evidence for objects with two independent
strong types of evidence.
We implemented tracks that facilitate the display of HT
data, and we have also implemented fonnats for investi-
gators to submit their HT data sets. Furthennore, we
report the results of our RNA sequencing (RNA-Seq)-
based identification of transcription start sites (TSSs),
which have increased considerably the collection of TSSs
for the E. coli genome.
Enriched cIassifications based on cIassic and HT evidence
Since the release of version 6.0 of RegulonDB, we have
classified evidence associated with the objects annotated in
RegulonDB as strong or weak, depending on the confi-
dence level of the associated experimental or computa-
tional methodologies. This two-tier rating system quickly
distinguishes reliable from less reliable knowledge,
contributing to better comparisons, interpretations and
selection of gold standards.
However, this classification was not defined for other
sources of knowledge beyond classic methodologies; in
addition, the different types of evidence do not add up.
We had not previously addressed the analyses from differ-
ent sources of knowledge that, if independent, should
increase the degree of confidence for a given piece of
knowledge, object or interaction.
To facilitate adding evidence from HT methodologies
without losing track of the highly reliable manually
curated knowledge supporting RegulonDB, we had to
expand our classification to the rapidly growing number
of HT methodologies used for the identification of TFBSs,
TSSs and TUs (20). These new technologies have
generated a flood of new data, as they have allowed
analysis of putative targets in parallel, but they are also
associated with a high risk of false-positives due to new
sources of stochastic effects, 'batch' errors and experimen-
tal artifacts (21 23). Therefore, the majority of HT
methods, for instance, RNA-Seq and ChIP-Seq, generate
evidence elassified as weak within RegulonDB. Strong
evidence requires efficient measures to exclude false-posi-
tives as well as the reliability of the evidence based on
biologically congruent replicates. The results of the
detailed analyses of the different HT methodologies are
reflected in the expanded evidence classifications shown
in Table 1 of the new Evidence page in RegulonDB web
site.
The global character ofHT approaches makes it natural
to compare their results with equally global computational
predictions. However, the analysis of HT data sets
involves bioinformatics and biostatistics processing,
which, given the diversity of strategies, may limit their
comparison until more standardized procedures have
been established. A final outcome when these issues are
addressed will be the combination not only of the different
experiments and HT data sets, but also of aH sources of
knowledge, computational and evolutionary predictions,
elassic methodologies and HT strategies, to keep track of
Nucleic Acids Research. 2013. Vol. 41. Database issue D207
each conlribution and lo assign an appropriale level of
confidence to each object and interaction.
In an initial step in this direction, independent
cross-validation has been applied for promoters and regu-
latory interactions. This new concept integra tes multiple
types of evidence with the intention of mutually exeluding
false-positive results. The classification of 'strong evi-
dence' is assigned to data that are supported by at least
two independent weak types of evidence, provided that the
two sources of knowledge do not share major sources of
false-positives and do not use common raw materials or
common experimental steps. For instance, TSSs that have
been identified by transcription initiation mapping can be
cross-validated with in vitro transcription assays.
Similarly, TFBSs that have been identified by genomic
SELEX can be cross-validated by in vivo gene expression
data. Moreover, by applying this new concept to data that
are supported by strong evidence, we can extend our
two-tier rating system to three tiers. To this end, we
have introduced a third confidence score, 'confirmed'.
Data supported by confirmed evidence, that is, by at
least two types of independent strong evidence, have a
high reliability and can be considered gold standard data
in RegulonDB. For instance, TFBSs that have been
identified by footprinting analysis and, in addition, have
been validated by mutational analysis of the binding site,
are now classified as data with confirmed evidence. The
detailed analysis of this improvement will appear in a
publication elsewhere (20). The results of this cross-
validation are surnmarized in Table 2 of the Evidence
page in RegulonDB web site (See Figure 4).
We evaluated the confidence levels of HT and elassic
methodologies through a more detailed curation process,
which ineluded independent cross-validation and/or stat-
istical validation. Statistical validation was used to
evaluate the confidence for TFBSs discovered by ChIP
technology, by using a strategy that was consistent with
the evaluation of PWMs from manually curated binding
sites, as described previously. To this end, we are imple-
menting a pipeline to assess the quality of the
ChIP-Seq/chip experimental data. We initiated analysing
PurR-binding sites, which were identified by ChIP-chip
(24) (see the Supplementary Data). The strategy was
divided into three main evaluation steps: (i) assessing the
enrichment of TFBSs with high scores for the aimed TF in
the set of ChIP-identified regions based on matrix quality
(3) (see Supplementary Figure S2 in the Supplementary
Data). (ii) Discovery of overrepresented motifs in the set
of ChIP-identified regions, as well as detection of second-
ary motifs that could be related to cofactors that bind the
targeted TF from the ChIP experiment. We have
used peak motifs (25) to rediscover the PWMs for
TFs by comparing the discovered motifs with those
annotated in RegulonDB