Logo Studenta

Analisis-genomico-de-la-conformacion-funcional-de-los-factores-transcripcionales-en-Escherichia-coli-k-12

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO 
DOCTORADO EN CIENCIAS BIOMÉDICAS 
CENTRO DE CIENCIAS GENÓMICAS 
 
ANÁLISIS GENÓMICO DE LA CONFORMACIÓN FUNCIONAL DE LOS 
FACTORES TRANSCRIPCIONALES EN Escherichia coli K-12 
 
TESIS 
QUE PARA OPTAR POR EL GRADO DE: 
DOCTOR EN CIENCIAS 
 
PRESENTA: 
YALBI ITZEL BALDERAS MARTÍNEZ 
 
DIRECTOR DE TESIS 
 
DR. JULIO COLLADO VIDES 
CENTRO DE CIENCIAS GENÓMICAS 
 
COMITÉ TUTOR 
 
DR. JUAN ENRIQUE MORETT SÁNCHEZ 
INSTITUTO DE BIOTECNOLOGÍA 
 
DR. ERNESTO PÉREZ RUEDA 
INSTITUTO DE BIOTECNOLOGÍA 
 
CUERNAVACA, MORELOS. FEBRERO, 2014 
 
UNAM – Dirección General de Bibliotecas 
Tesis Digitales 
Restricciones de uso 
 
DERECHOS RESERVADOS © 
PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL 
 
Todo el material contenido en esta tesis esta protegido por la Ley Federal 
del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). 
El uso de imágenes, fragmentos de videos, y demás material que sea 
objeto de protección de los derechos de autor, será exclusivamente para 
fines educativos e informativos y deberá citar la fuente donde la obtuvo 
mencionando el autor o autores. Cualquier uso distinto como el lucro, 
reproducción, edición o modificación, será perseguido y sancionado por el 
respectivo titular de los Derechos de Autor. 
 
 
 
 2 
DEDICATORIA 
 
Esta tesis está dedicada a mis padres y mi hermano 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 3 
AGRADECIMIENTOS 
 
Agradezco a Julio Collado por toda la experiencia, entusiasmo, genialidad y apoyo 
brindado no sólo para la conclusión de este trabajo sino también para mi formación 
profesional e inclusive personal ¡¡¡Mil gracias!!! Espero que podamos seguir 
trabajando juntos. 
 
A mis tutores Enrique Morett, Enrique Pérez Rueda y Miguel Ángel Ramírez que con 
sus consejos y muchos ánimos lograron que mi proyecto tomara forma. A mis 
revisores, Miguel Ángel Cevallos, Osbaldo Resendis, Agustino Martínez y Guillermo 
Gosset por los comentarios duante la revisión de esta tesis. 
 
A todas las personas que han estado conmigo en el Programa de Genómica 
Computacional, que me han brindado su amistad, apoyo emocional, económico, 
técnico, en fin, hay tantas historias que contar que no acabaría de contarlas, son 
como una gran familia. 
 
A Dante, que llegó a mi vida a darme un giro inesperado lleno de felicidad, gracias 
por todo el apoyo que me estás dando en estos momentos. 
 
A CONACYT, al Centro de Ciencias Genómicas de la UNAM y al Dr. David Romero 
por los apoyos otorgados. 
 
 
 
 
 
 
 
 
 
 
 
 4 
Las representaciones que construimos en nuestro cerebro son, objetos físicos, 
“modelos reducidos” del mundo exterior y de nuestro propio mundo interior. No 
pueden aspirar a una descripción integral, al agotamiento de la realidad del 
mundo. Siempre existirá un margen de incertidumbre, un espacio para volver a 
cuestionar todo avance del conocimiento científico. 
 ¿Es ésta una razón para renunciar a saber más? 
(Jean-Pierre Changeux – El hombre de verdad) 
 
 
 5 
ÍNDICE 
 
ÍNDICE ................................................................................................................................................................. 5 
ÍNDICE DE FIGURAS ........................................................................................................................................ 6 
ÍNDICE DE CUADROS ...................................................................................................................................... 6 
RESUMEN ........................................................................................................................................................... 7 
ABSTRACT ......................................................................................................................................................... 8 
ABREVIATURAS ............................................................................................................................................... 9 
CAPÍTULO 1. INTRODUCCIÓN ................................................................................................................... 10 
1.1 PLANTEAMIENTO DEL PROBLEMA ................................................................................................................. 13 
CAPÍTULO 2. OBJETIVOS ............................................................................................................................ 14 
OBJETIVO GENERAL: ............................................................................................................................................. 14 
OBJETIVOS ESPECÍFICOS: .................................................................................................................................... 14 
CAPÍTULO 3. RELEVANCIA ......................................................................................................................... 15 
CAPÍTULO 4. MARCO TEÓRICO ................................................................................................................ 16 
4.1 UNA PERSPECTIVA HISTÓRICA EN LOS ESTUDIOS SOBRE LA REGULACIÓN TRANSCRIPCIONAL 
BACTERIANA .................................................................................................................................................................. 16 
4.2 EVOLUCIÓN DEL CONCEPTO DE ALOSTERISMO ............................................................................................ 17 
4.3 EVOLUCIÓN DE LAS PROTEÍNAS ..................................................................................................................... 21 
4.4 SISTEMAS INDUCIBLES Y REPRIMIBLES ........................................................................................................ 22 
CAPÍTULO 5. MÉTODOS .............................................................................................................................. 26 
CAPÍTULO 6. RESULTADOS ........................................................................................................................ 27 
6.1 DELIMITACIÓN DE LOS TÉRMINOS RELACIONADOS CON LA INVESTIGACIÓN .......................................... 27 
6.2 CURACIÓN DE LAS CONFORMACIONES FUNCIONALES DE LOS FACTORES TRANSCRIPCIONALES EN 
ESCHERICHIA COLI K-12.............................................................................................................................................. 32 
6.3 PRIMER ARTÍCULO: REGULONDB V8.0: OMICS DATA SETS, EVOLUTIONARY CONSERVATION, 
REGULATORY PHRASES, CROSS-VALIDATED GOLD STANDARDS AND MORE. ....................................................... 35 
6.4 SEGUNDO ARTÍCULO: TRANSCRIPTION FACTORS IN ESCHERICHIA COLI PREFER THE HOLO 
CONFORMATION ............................................................................................................................................................ 47 
CAPÍTULO 7. DISCUSIÓN ............................................................................................................................. 57 
CAPÍTULO 8. CONCLUSIONES .................................................................................................................... 60 
CAPÍTULO 9. PERSPECTIVAS .................................................................................................................... 61 
ÁPENDICE ........................................................................................................................................................ 62 
 
 
 
 6 
ÍNDICE DE FIGURAS 
 
Figura 1. Diferentes tipos de comportamiento alostérico. 
Figura 2. Sistemas inducibles y reprimibles. 
Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli K-12. 
 
 
ÍNDICE DE CUADROS 
 
Cuadro 1. Conceptos originales. 
Cuadro 2. Ambigüedad en el uso de los términos. 
Cuadro 3. Clasificación de las evidencias experimentales de la conformación 
funcionalde los factores transcripcionales 
 
 
 7 
RESUMEN 
 
La red regulatoria transcripcional de Escherichia coli K-12 es una de las redes 
genéticas mejor estudiadas entre cualquier célula viviente. Los factores 
transcripcionales se unen al ADN ya sea con el efector unido (conformación holo), o 
como una proteína libre (conformación apo). En este trabajo se realizó una curación 
manual de las conformaciones funcionales (holo o apo) de los factores 
transcripcionales y se añadieron a la base de datos de RegulonDB. Una vez hecho 
esto, se analizó la conformación funcional de los factores transcripcionales de forma 
exhaustiva, considerando también el modo de regulación de los factores 
transcripcionales (activador, represor, dual). Nosotros reportamos un 
descubrimiento inesperado en la arquitectura de la red regulatoria, ya que 
encontramos una subrepresentación de la conformación apo (sin metabolito 
alostérico) en los factores transcripcionales cuando se unen a sus sitios en el ADN 
para activar la transcripción. Esta observación tiene soporte a nivel de las 
interacciones regulatorias individuales en sus promotores, aún si se excluyen los 
promotores regulados por los factores transcripcionales globales, donde tres cuartas 
partes de los promotores conocidos son regulados por un factor transcripcional en 
conformación holo. Este análisis genómico en gran escala nos permite preguntarnos 
cuáles son las implicaciones de estas observaciones para la fisiología y para el 
entendimiento en la ecología de E. coli. Discutimos estas ideas dentro del marco 
teórico de la teoría de la demanda de la regulación genética. 
 
 8 
ABSTRACT 
 
The transcriptional regulatory network of Escherichia coli K-12 is among the best-
studied gene networks of any living cell. Transcription factors bind to DNA either 
with their effector bound (holo conformation), or as a free protein (apo 
conformation) regulating transcription initiation. In this work, I performed a manual 
curation of the functional conformations (holo or apo) of the transcription factors, 
they were added to RegulonDB and then, they were exhaustively analyzed 
considering also their mode of regulation (activator, repressor, or dual). We report a 
striking discovery in the architecture of the regulatory network, finding a strong 
under-representation of the apo conformation (without allosteric metabolite) of 
transcription factors when binding to their DNA sites to activate transcription. This 
observation is supported at the level of individual regulatory interactions on 
promoters, even if we exclude the promoters regulated by global transcription factors, 
where three-quarters of the known promoters are regulated by a transcription factor 
in holo conformation. This genome-scale analysis enables us to ask what are the 
implications of these observations for the physiology and for our understanding of 
the ecology of E. coli. We discuss these ideas within the framework of the demand 
theory of gene regulation. 
 
 9 
ABREVIATURAS 
 
ADN Ácido desoxirribonucleico 
ARN Ácido ribonucleico 
AMPc Adenosín monofosfato cíclico 
FT, FTs Factor de la transcripción, factores de la transcripción 
UT, UTs Unidades transcripcional, unidades transcripcionales 
 
 
 10 
CAPÍTULO 1. INTRODUCCIÓN 
 
La regulación transcripcional es un mecanismo que le permite a las bacterias 
modular la expresión de sus genes para adaptarse a las condiciones ambientales y así 
mantener a la célula en homeostasis. Esta regulación está dada principalmente por 
los Factores de la Transcripción (FTs) que son proteínas que regulan el inicio de la 
transcripción activando o reprimiendo la expresión de los genes (Lewin 2008). 
 
Se han hecho contribuciones experimentales importantes se han realizado en 
Escherichia coli K-12 para entender la regulación mediada por FTs. Este genoma 
contiene más de 300 genes que codifican para proteínas que se predice se unen a 
promotores para activar o reprimir la transcripción (Pérez-Rueda and Collado-Vides 
2000). Se han verificado experimentalmente, más de la mitad de estas proteínas 
(Salgado et al. 2013). La mayoría de los FTs se unen al ADN en una secuencia muy 
específica, y esto asegura que sus acciones sean dirigidas a promotores específicos. 
Algunas otras proteínas controlan un gran número de genes, por lo tanto la secuencia 
que reconocen es más variable. Se ha estimado que diez FTs controlan el 50% de 
todos los genes regulados, mientras que unos 60 FTs controlan un solo promotor 
(Martínez-Antonio and Collado-Vides 2003; Freyre-González et al. 2008). 
 
Los FTs acoplan la expresión de sus genes a señales ambientales, y ellos también 
deben ser regulados ya sea controlando su actividad o controlando su expresión. Para 
lograr esto, los FTs han usado diferentes mecanismos. Primero, la afinidad de unión 
al ADN de los FTs pueden modularse por efectores o ligandos pequeños, las 
concentraciones de los cuales fluctúan en respuesta a la disponibilidad de nutrientes 
o a consecuencia de situaciones de estrés. Segundo, la actividad de algunos factores 
transcripcionales se modula por modificación covalente. Tercero, la actividad de 
algunos FTs depende de la concentración que éstos tengan y de la fase de crecimiento 
en la que se encuentra la célula. Finalmente, un mecanismo menos común es a través 
del secuestro por una proteína que se une al FT (Browning and Busby 2004). 
 
El primer y segundo caso son los más frecuentes, los FTs pueden estar en un estado 
funcional (activo) o no funcional (inactivo), y esta transición se debe a la unión del 
FT con su efector (que puede ser un metabolito, proteína o una modificación 
covalente) (Jacob and Monod 1961; Snyder and Champness 2003; Martínez-Antonio 
et al. 2006; Goodey and Benkovic 2008). Los FTs están en conformación apo 
funcional cuando unidos a su sitio operador están activando o reprimiendo la 
transcripción sin estar unidos con un efector. Y por el contrario, cuando están unidos 
con un efector activando o reprimiendo, los FTs están en una conformación holo 
 11 
funcional. Los efectores determinan la conformación del FT, y son la conexión entre 
la redes regulatorias y las rutas metabólicas (Martínez-Antonio et al. 2006). 
 
 Se ha recopilado poca información en bases de datos acerca de los efectores de los 
FTs en E. coli (Wall et al. 2004; Karp et al. 2007; Gama-Castro et al. 2011); la fuente 
más importante se encuentra en RegulonDB, que contiene la red regulatoria de E. 
coli K-12 (Gama-Castro et al. 2011); se hizo una clasificación de los FTs con base en el 
origen de la señal si es intracelular, externa o ambas (Martínez-Antonio et al. 
2006), y por otra parte, existe una publicación que considera los estados activos e 
inactivos de los factores transcripcionales para realizar predicciones sobre los genes 
que se expresan o no, para explicar los experimentos hechos en microarreglos 
(Gutiérrez-Ríos et al. 2003). Esta última publicación es la primera que contiene un 
acercamiento más puntual relacionado con la conformación funcional de los FTs en 
E. coli K-12. 
 
Al analizar la información relacionada con la conformación funcional, se observa que 
no existe un estándar en la utilización de los conceptos básicos que pertenecen al 
tema. Por ejemplo, se han utilizado señal, efector o inductor como sinónimos, pero 
pueden significar cosas diferentes dependiendo del contexto (Wall et al. 2004; 
Alberts 2008). Esto genera problemas cuando se requieren hacer interpretaciones 
biológicas, por ello es fundamental que el curador de artículos científicos, logre una 
estandarización de conceptos e incorpore la información dentro de las bases de datos 
de manera adecuada. Parte de lo que se presenta en esta tesis es una estandarización 
de los conceptos en regulación transcripcional para poder generar un corpus de 
artículos científicos sobre las conformacionesfuncionales de los FTs, que fueron 
curadas y añadidas a RegulonDB (Salgado et al. 2013). 
 
La compilación de los datos de las conformaciones funcionales de los FTs, nos 
permite tener una visión más integral de cómo funcionan éstos en la red regulatoria 
de E. coli K-12. Los análisis sobre otras propiedades en la regulación transcripcional 
ya se han realizado, y gracias a ello, se ha obtenido una mayor comprensión de cómo 
funcionan los sistemas biológicos. El ejemplo clásico es el estudio de la caja de 
Pribnow, o secuencia -10 del promotor bacteriano, donde se une la ARN polimerasa 
para iniciar la transcripción. Pribnow alineó seis secuencias de promotores y realizó 
algunos experimentos, que le permitieron concluir que debía existir una secuencia 
específica en la que se uniera la ARN polimerasa (Pribnow 1975). Actualmente se 
pueden predecir los promotores de un genoma gracias a que fue posible encontrar 
ciertos patrones en la regulación transcripcional. 
 
 12 
El título del capítulo del libro Theoretical Biology; are there rules governing 
patterns of gene regulation?, cuya traducción en español es: ¿existen reglas que 
gobiernan los patrones de la regulación genética? La respuesta según el autor, es 
simple, y depende de quien pregunta, “algunos biólogos dirán que efectivamente 
hay reglas y que es negocio de la ciencia descubrirlas, y otros biólogos dirán que no 
hay reglas” (Savageau 1989). Lo que se ha observado es que conforme se estudian 
los mecanismos biológicos con más detalle y a nivel genómico, cada vez podemos 
encontrar más patrones en la biología de lo que anteriormente se pensaba. 
 
La información contenida en las bases de datos nos permite realizar análisis 
genómicos y tener una visión integral que pueden resultar en propiedades 
emergentes que no se pueden obtener analizando únicamente partes individuales del 
sistema. La presente tesis contiene un estudio global de las conformaciones 
funcionales de los FTs en E. coli, así como tendencias que hemos tratado de explicar 
considerando el mecanismo molecular, la evolución y la fisiología en un contexto 
ecológico. 
 13 
1.1 Planteamiento del problema 
 
Aunque E. coli K-12 como modelo de estudio, es la bacteria más estudiada en la 
regulación transcripcional, sólo se ha estudiado de forma individual la conformación 
funcional de los FTs. No existe ningún organismo en donde se haya investigado si 
existe alguna tendencia en los FTs de tener algún tipo de conformación funcional. 
 
En un análisis preliminar, se observó la correlación entre la función de los FTs si es 
activador, represor, dual con la conformación funcional apo, holo y 
encontramos que existe una tendencia de los activadores y FTs con función dual en 
tener siempre una conformación funcional holo, y que no existen activadores en 
conformación funcional apo. De forma contraria, los represores tienden a regular 
preferentemente en conformación funcional apo. 
 
Ahora bien, si analizáramos otros niveles de regulación, por ejemplo, si contaramos 
unidades transcripcionales reguladas y sitios de unión al ADN regulados por los FTs 
(activando, reprimiendo o regulando dualmente) en conformación funcional holo o 
apo, ¿se conservará esta tendencia? ¿Por qué si existe la misma posibilidad de tener 
dos tipos de conformaciones funcionales, no hay ejemplos de activadores en 
conformación funcional apo? ¿Tendrá alguna relación con las funciones biológicas 
de los genes regulados? ¿Los FTs que tienen un mismo tipo de conformación 
funcional pertenecen a la misma familia evolutiva? 
 
 14 
CAPÍTULO 2. OBJETIVOS 
 
OBJETIVO GENERAL: 
 
Establecer si existe una relación entre la conformación funcional de los factores 
transcripcionales con la fisiología de los genes regulados o con propiedades 
evolutivas de los sistemas regulatorios. 
 
OBJETIVOS ESPECÍFICOS: 
 
Caracterizar la conformación funcional de los factores transripcionales en la red 
regulatoria transcripcional de Escherichia coli. 
 
Analizar la distribución de las conformaciones funcionales con respecto a: 
 los distintos tipos de mecanismos de regulación, 
 la evolución de los factores transcripcionales, y 
 la fisiología bacteriana. 
 
 
 15 
CAPÍTULO 3. RELEVANCIA 
 
Este es el primer estudio genómico en un solo organismo caracterizado (E. coli) en el 
que se racionaliza la teoría de la demanda. Además, ofrece una visión a nivel global 
de la red regulatoria transcripcional y nos provee un marco teórico para la 
comprensión de la regulación genética en otras bacterias. 
 
En lo particular, se han identificado patrones en los mecanismos de regulación 
transcripcional que pueden explicar cómo la unión de efectores específicos asisten en 
la actividad de la mayoría de los factores transcripcionales. Por ejemplo, se encontró 
que sistemas inducibles generalmente correlacionan con sistemas catabólicos y que 
los sistemas reprimibles generalmente correlacionan con sistemas anabólicos (Wall 
et al. 2004). Entonces, los patrones de regulación en los circuitos genéticos pueden 
ser entendidos en términos de los requerimientos funcionales para la biosíntesis y el 
catabolismo (Savageau 1977). Para los sistemas naturales, las características de 
diseño importantes son aquellas que les confieren una ventaja selectiva en un 
contexto ecológico. Si los circuitos operan en una gran variedad de ambientes, la 
función debe ser robusta a los cambios ambientales (Savageau 1974; Savageau 1976). 
Si encontramos algunos patrones en la regulación, entonces podemos hacer 
predicciones acerca de cómo los sistemas biológicos se comportarán. 
 
El número de experimentos que se están colectando en RegulonDB es cada vez 
mayor, por lo que la integración de la información anotada se convierte en un 
recurso valioso para incrementar nuestro entendimiento sobre los fenómenos 
biológicos. 
 
 16 
CAPÍTULO 4. MARCO TEÓRICO 
 
4.1 Una perspectiva histórica en los estudios sobre la regulación transcripcional 
bacteriana 
 
La regulación transcripcional del operón de la lactosa (lac) de Escherichia coli fue 
descrita por primera vez por Jacob y Monod (Jacob and Monod 1959). Ellos 
propusieron la hipótesis del operón y la función del ARN mensajero dentro del 
modelo para el control de la expresión genética (Jacob and Monod 1961). 
Actualmente sabemos que el operón lac se reprime a través de la unión de la proteína 
LacI al ADN cuando no hay lactosa. Y que por otra parte, cuando hay lactosa 
presente en el medio, se produce un metabolito efector denominado alolactosa. Este 
metabolito al unirse a LacI, lo despega del ADN, permitiendo así la transcripción del 
operón lac a través de la enzima ARN polimerasa. 
 
Este modelo fue una pieza fundamental en el actual dogma central de la biología 
molecular, denominada en 1956 como “la teoría del código genético” por Crick y 
Watson. Esta teoría explicaba que la secuencia de ADN codifica secuencias de 
aminoácidos y la información genética fluye en una sola dirección. Con el trabajo de 
Jacob y Monod, se pudo establecer que el ADN puede transcribirse en una copia a 
ARN mensajero y que está controlado por proteínas que se unen al ADN. A través de 
los años, el dogma central sigue completándose. Se han caracterizado nuevos 
mecanismos de regulación a partir del modelo inicial propuesto por Jacob y Monod. 
Por ejemplo, inicialmente se pensaba que la represión era el principal tipo de 
regulación (Kresge et al. 2007), sin embargo más tarde se descubrió que la 
transcripción también podía ser activada por proteínas. 
 
Un ejemplo de activación, lo reportó Ira Pastan, con el control de la expresión 
genética mediada por AMP cíclico (AMPc) en E. coli. Pastan observó que hay una 
correlación inversa entre los niveles de glucosa y la concentración intracelular de 
AMPc en E. coli, regulando así, la síntesis de muchas enzimasinducibles (De 
Crombrugghe et al. 1969). Este fenómeno se le conoce como represión catabólica por 
glucosa (Magasanik 1961). Pastan y sus colegas describieron ensayos de hibridación 
para medir la tasa de síntesis de ARN mensajero de lac y así demostraron que el 
AMPc y la glucosa alteran las tasas de la producción de mRNA de la β-galactosidasa 
(Varmus et al. 1970). Eventualmente se descubrió que la estimulación de la síntesis 
de las enzimas inducibles requiere de la interacción del AMPc con una proteína 
llamada la Proteína Receptora de AMP cíclico (CRP), y que el AMPc produce un 
cambio alostérico en CRP, que incrementa la afinidad del receptor para las 
 17 
secuencias de ADN en los promotores de muchos genes. Esto conlleva a la iniciación 
de la transcripción y un incremento en la actividad del gen (Anderson et al. 1971). 
 
Con estos trabajos, se dieron a conocer algunos de los mecanismos por los cuales las 
proteínas pueden regulan el inicio de la transcripción. Estas proteínas denominadas 
reguladores o Factores Transcripcionales (FTs), pueden ser represores cuando 
impiden la transcripción, o activadores cuando promueven la transcripción 
(Lehninger et al. 2000). 
 
El caso del operón lac está sujeto a la regulación por ambos tipos de FTs, cuando la 
lactosa no está presente en el medio entonces el represor LacI está activo y el 
activador CRP está inactivo (ambos casos sin la presencia del metabolito efector). 
Cuando la lactosa está presente en el medio entonces LacI está inactivo y CRP está 
activo (en ambos casos está unido el metabolito efector al FT). Sin embargo aunque 
ambos mecanismos permiten la expresión de los genes, la razón fisiológica sigue una 
lógica diferente. En el primer caso se habla de que el sistema es inducible por la 
desactivación de LacI por la alolactosa que es un producto de degradación que se 
acumula cuando la lactosa es metabolizada por la β –galactosidasa. Por otra parte, el 
segundo caso está relacionado con la represión catabólica, a través de una relación 
indirecta ya que cuando los niveles de glucosa son bajos se incrementa la 
concentración de AMPc que conducen a la activación de CRP. 
 
Entonces es importante tener en cuenta los mecanismos mecanismos moleculares de 
la regulación genética y la fisiología, y de qué manera ambos niveles están 
estrechamente relacionados. A continuación se describirán con más detalle los 
conceptos que están relacionados con el mecanismo por el cual los FTs tienen 
cambios conformacionales, así como los diferentes tipos de sistemas fisiológicos en 
los que operan. 
 
 
4.2 Evolución del concepto de alosterismo 
 
En 1951, Wyman formuló ideas acerca de cómo los cambios conformacionales en las 
proteínas podrían permitir cambios en las propiedades funcionales (Simoni et al. 
2002). De esta manera se explica cómo la proteína LacI puede pasar de un estado 
funcional a un estado no-funcional, por una modificación alostérica dada por un 
efector. 
 18 
 
Wyman junto con Monod y Changeux, propusieron el modelo de las transiciones 
alostéricas (Monod et al. 1965). Este modelo hizo posible explicar, clasificar y 
predecir la mayoría de las propiedades cinéticas de muchos sistemas alostéricos (Ver 
la figura 1 para una mayor explicación). Sin embargo, representa solamente una 
primera aproximación en la descripción de los sistemas reales (Monod 1966). El 
“modelo plausible” o “MWC” (Monod, Wyman y Changeux), propone que las 
proteínas que exhiben cooperatividad pueden existir en dos estados 
conformacionales, y que el equilibrio entre estos dos estados lo modifica la unión de 
un efector, e.g., el oxígeno en la hemoglobina. 
 
 19 
 
 
Figura 1. Diferentes modos de comportamiento alostérico. (a) Cooperatividad: una 
caricatura mostrando el modelo MWC de las transiciones alostéricas. Una proteína 
multimérica simétrica puede existir en uno de dos diferentes estados conformacionales – las 
conformaciones funcionales y las no funcionales. Cada subunidad tiene un sitio de unión 
para un efector alostérico así como un sitio activo o sitio de unión. (b) Una proteína 
monomérica inhibida alostéricamente. La unión de un inhibidor alostérico altera el sitio 
activo o la unión de un sitio en una forma no favorable, por lo tanto decrementando la 
afinidad o la eficiencia catalítica. (c) una proteína monomérica activada alostéricamente. La 
unión de un activador alostérico resulta en una afinidad incrementada o con actividad en el 
segundo sitio. (d) La unión de un efector alostérico puede introducir un nuevo sitio de unión 
a una proteína. La unión de un efector a su nuevo sitio de unión podría permitir cambios en 
la geometría del sitio activo proveyendo un mecanismo indirecto de control alostérico. Este 
tipo de efecto es de gran interés en el diseño de drogas alostéricas y puede ser considerado 
un subconjunto del ejemplo mostrado en c. (e) La fusión de una enzima a una proteína bajo 
el control alostérico. Este tipo de construcción puede actuar como un interruptor alostérico 
porque la actividad de la enzima está indirectamente bajo control alostérico vía la proteína 
unida con un sitio alostérico. Tales construcciones están ambas presentes en la naturaleza y 
en estudios de ingeniería de proteínas. Tomado de: (Goodey and Benkovic 2008). 
 20 
El modelo MWC, en el que los estados conformacionales de la proteína (funcionales y 
no funcionales) se estabilizan selectivamente por los ligandos a los cuales ellos se 
unen de forma preferencial, contrasta con el modelo secuencial que surgió 
posteriormente, también conocido como Koshland-Nemethy-Filmer (KNF). Este 
modelo propone que la unión del efector en su sitio causa un cambio subsecuente de 
conformación que sería “adaptado” a la estructura particular del efector (Changeux 
and Edelstein 2005). Es decir, que cuando el efector se une a uno de los monómeros 
de un multímero proteico, se induce el cambio conformacional en éste y se propaga 
al resto de los componentes del multímero. El modelo secuencial alternativo postula 
múltiples conformaciones, cada una con diferentes números de moléculas de efector 
únicas (Koshland et al. 1966). 
 
Actualmente el alosterismo puede se define como la regulación de la función de una 
proteína, estructura y/o flexibilidad inducida por la unión de un efector u otra 
proteína, en un sitio diferente del sitio activo, también referido como sitio alostérico. 
El alosterismo es una propiedad intrínseca de la mayoría de las proteínas. Casi todas 
las superficies proteicas tienen sitios alostéricos potenciales que pudieran tener la 
capacidad de unirse a un efector, si ocurren las mutaciones simples o múltiples 
pertinentes. Las excepciones son las proteínas fibrosas, proteínas estructurales con 
conformaciones uniformes y estables, en la cuales no es muy probable que muestren 
un comportamiento alostérico debido a su falta de flexibilidad (Goodey and Benkovic 
2008). 
 
El alosterismo, básicamente se rige por tres características que la definen: (i) el 
efector no es químicamente idéntico al sustrato, (ii) el efector produce un cambio en 
una propiedad funcional de la proteína y (iii) el efector se une a un sitio que es 
topográficamente distinto del sitio funcional de la proteína (Fenton 2008). 
 
Por otra parte, una modificación covalente como la fosforilación también genera un 
cambio conformacional en los FTs, por lo que no todos los efectores tienen que ser 
necesariamente metabolitos. Actualmente, la definición de alosterismo incluye las 
modificaciones químicas covalentes ya que sus papeles son similares para las 
descripciones fisiológicas y topológicas en una red de regulación (Martínez-Antonio 
et al. 2006). 
 
Por definición, el alosterismo involucra la propagación de señales entre sitios en una 
estructura proteica. Como ya hemos visto, un cambio en la función podría llevarse a 
cabo por la unión de un efectoro una modificación covalente. Las proteínas son 
dinámicas y tienen múltiples conformaciones antes de llegar a la conformación 
 21 
funcional estable. El papel del efector es entonces, el de estabilizar una conformación 
pre-existente, seleccionando esta conformación entre toda una población de 
confórmeros proteicos. Básicamente, es una red físicamente interconectada y/o 
termodinámicamente unida por residuos a través del cual se transmiten señales 
(Daily and Gray 2007; Goodey and Benkovic 2008). 
 
Finalmente, un concepto nuevo y atractivo es que las proteínas pueden ser 
alostéricas y no tener cambios conformacionales (Daily and Gray 2007; Tsai et al. 
2008). El alosterismo es fundamentalmente termodinámico por naturaleza, la 
comunicación a través de la proteína podría mediarse no solamente por cambios en 
la conformación media, sino también por cambios en las fluctuaciones dinámicas en 
la conformación media. Es decir, la comunicación podría involucrar no únicamente 
el componente entálpico, que es el factor clave responsable de la alteración 
observada en la forma, sino también tendría una contribución entrópica. Las 
interacciones alostéricas mediadas exclusivamente por cambios en los movimientos 
de las proteínas causaría un cambio en la energía libre, sin que sea necesario ningún 
tipo de mecanismo de “ajuste inducido”(Tsai et al. 2008). En la proteína CRP por 
ejemplo, se encontró que los movimientos de los residuos localizados en algunas 
regiones distantes de los sitios de unión son afectados en la ausencia de una ruta de 
conectividad visible (Popovych et al. 2006). En otra proteína FecA, se señaló que el 
efecto de unión se propaga a través de las interacciones Van der Waals entre los 
residuos en la red conectada físicamente (Ferguson and Deisenhofer 2004). 
 
 
4.3 Evolución de las proteínas 
 
Los FTs se han clasificado con base en su dominio de unión al ADN en alrededor de 
20 familias evolutivas, cuando se considera el motivo HTH (hélice-vuelta-helice, 
denominado así por sus siglas en inglés: helix-turn-helix) (Pérez-Rueda and Collado-
Vides 2000). Inicialmente se había observado que las funciones reguladas por las 
proteínas que forman parte de una misma familia eran homogéneas (e.g., la familia 
LysR regula genes para la biosíntesis de aminoácidos)(Henikoff et al. 1988; Weickert 
and Adhya 1992; Pérez-Rueda and Collado-Vides 2000). Sin embargo conforme se 
van agregando más especies en las familias, se ha visto que puede existir una 
variación en las funciones reguladas (e.g., en la familia GalR/LacI existen funciones 
relacionadas con el catabolismo de carbono, la biosíntesis de nucleótidos y la 
expresión de toxinas) (Swint-Kruse and Matthews 2009). 
 
 22 
Por otra parte, dentro de una misma familia de proteínas se puede tener un papel 
regulador distinto (e.g., en la familia GalR/LacI existen represores (GalR y LacI), y 
también reguladores duales como CcpA). Además para una misma proteína se puede 
tener distinta especificidad para distintos efectores (e.g., LacI se puede unir a 
inductores, anti-inductores y efectores neutrales) (Barkley et al. 1975; Swint-Kruse 
and Matthews 2009). Esto puede explicarse porque los metabolitos son similares en 
su estructura y por la coevolución de las proteínas con sus efectores. 
 
La coevolución molecular puede deberse a una adaptación específica entre dos 
elementos que evolucionan, donde los cambios en uno de ellos los compensa los 
cambios en el otro, o por la pérdida de una fuerza externa afectando las tasas 
evolutivas de ambos elementos en una magnitud similar (de Juan et al. 2013). La 
coevolución entre familias de proteínas relacionadas funcionalmente se ha observado 
en casos esporádicos. Por ejemplo, se ha detectado una gran similitud entre los 
árboles filogenéticos de los ligandos (tales como las insulinas y las interleucinas) y 
sus receptores (Fryxell 1996). 
 
Actualmente se conocen siete familias de proteínas en procariontes que unen 
metales, de manera general podríamos decir que están relacionadas en una función 
biológica, responder a la concentración de metales en la célula. Sin embargo, en 
cuanto al motivo de unión al ADN podemos encontrar de tipo winged helix (hélice 
alada), -helical bundle (aguja -hélice), ribbon-helix-helix (cinta-hélice-hélice); en 
cuanto al tipo de metales que unen están los elementos de transición Mn, Fe, Col, Ni, 
Cu y Zn, pero también metales de otros grupos; en cuanto al tipo de conformación 
funcional existen proteínas que se unen en holo o en apo; y en cuanto al modo de 
regulación hay represores principalmente, pero también activadores (Giedroc and 
Arunkumar 2007). En resumen, aunque las proteínas estén relacionadas en familias 
o funcionalmente, generalmente existe una gran diversidad en motivos de unión al 
ADN, ligandos, y el modo de regulación. 
 
 
4.4 Sistemas inducibles y reprimibles 
 
Las bacterias responden a los cambios ambientales controlando la expresión de sus 
genes, y como la economía es importante, evitan la síntesis de las enzimas en una 
ruta cuando el sustrato está ausente, sin embargo están listas para producir las 
enzimas si el sustrato aparece. 
 
 23 
La síntesis de enzimas en respuesta a la aparición de un sustrato específico se llama 
inducción, un ejemplo es el sistema de lactosa de E. coli mencionado 
anteriormente. La transcripción se estimula tan pronto como el metabolito –la 
alolactosa, en este caso llamado inductor- se añade al medio, y cuando el inductor se 
retira, la transcripción cesa (Lewin 2008). La definición inicial de inducción 
propuesta por Monod, es la “activación por el inductor de la síntesis de proteínas-
enzimas” (Jacob and Monod 1961). Una definición más reciente es que un sistema 
inducible describe a un gen cuya expresión se incrementa en respuesta a una señal 
ambiental (Wall et al. 2004). 
 
También E. coli puede responder de forma contraria, en un efecto llamado 
represión, que permite apagar la síntesis endógena de ciertos componentes que 
puedan aparecer repentinamente en el medio. Por ejemplo, E. coli sintetiza 
triptófano a través de la acción de la enzima triptófano sintetasa. Pero si el triptófano 
está presente en el medio en donde la bacteria está creciendo, la producción de la 
enzima se detiene (Lewin 2008). El término represión, se propuso originalmente 
para designar el efecto inhibitorio de la arginina y en la biosíntesis de este 
aminoácido, y se utilizó para establecer una diferencia conceptual entre los sistemas 
“reprimibles” y los “sistemas inducibles”. La inhibición enzimática, como en el caso 
de la inducción, generalmente involucra no una sola sino todo un conjunto de 
enzimas activas en pasos metabólicos sucesivos (Jacob and Monod 1961). Otra forma 
de definir a un sistema reprimible es que describe a un gen, o conjunto de genes, 
cuya expresión se decrementa en respuesta a una señal específica en un ambiente 
dado (Wall et al. 2004). 
 
Entonces, los metabolitos que regulan la producción de enzimas que los pueden 
metabolizar, se les llama inductores. Aquellos que previenen la producción de 
enzimas capaces de sintetizarlos se les conoce como co-represores (Lewin 2008; 
Murray 2012). Es importante mencionar que el concepto original de sistemas 
inducibles y reprimibles se definió con respecto a la aparición del metabolito 
inductor o co-represor, también llamado efector, e involucra la fisiología y el 
mecanismo molecular. Existe otro concepto de sistemas inducibles y reprimibles que 
es más actual y se define con respecto a la señal (Wall et al. 2004), sin embargo es 
importante recalcar que la señal no necesariamente es un sinónimo de inductor, 
como en el caso de CRP mencionado anteriormente, en el cual la señal es la glucosa y 
el efector es cAMP. 
 
Para ambos sistemas inducibles y reprimibles, existen dos tipos de sistemas de 
control: negativo donde los genesse expresan a menos de que sean apagados por un 
 24 
represor; y positivo, donde los genes se transcriben sólo cuando un activador está 
presente (ver la figura 2)(Lewin 2008). 
 25 
 
Figura 2. Sistemas inducibles y reprimibles. Existen dos tipos de sistemas inducibles 
(1 y 2) que son generalmente catabólicos, y dos tipos de sistemas reprimibles (3 y 4) que 
generalmente son anabólicos. 1) Sistema inducible por activador: a) el activador se 
encuentra en una conformación no-funcional apo, b) cuando aparece el inductor cambia a 
una conformación funcional holo y entonces activa la transcripción. 2) Sistema inducible 
por represor: a) el represor está reprimiendo en conformación funcional apo, b) cuando el 
inductor aparece entonces cambia a una conformación no-funcional holo y entonces se 
induce la expresión de los genes regulados. 3) Sistema reprimible por activador: a) el 
activador se encuentra en conformación funcional apo, b) cuando el co-represor aparece, el 
activador cambia a una conformación no-funcional holo. 4) Sistema reprimible por 
represor: a) el represor está en conformación no-funcional apo, b) cuando el co-represor 
aparece, cambia a una conformación funcional holo y reprime la expresión de los genes. 
Nota: inductor y co-represor pueden ser llamados efectores, cuando se refiera 
al mecanismo de regulación transcripcional en sí. Símbolos: óvalo verde: 
activador, óvalo rojo: represor, frijol morado: ARN polimerasa, triángulos amarillos: los 
efectores (inductor o co-represor según sea el caso), barra de rectángulos azules: genes, línea 
azul: ARN mensajero, flecha verde: indica transcripción de los genes regulados, línea roja en 
punta T: indica la represión de los genes regulados. 
 
 26 
CAPÍTULO 5. MÉTODOS 
 
Para contestar los objetivos del trabajo que aquí presento, se utilizó la estrategia que 
se observa en el diagrama de flujo que se presenta a continuación. Los métodos se 
detallan en la segunda publicación que se encuentra en el capítulo de resultados. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Curación 
manual 
Delimitación de los conceptos o 
información biológica 
Información 
en bases de 
datos 
Publicaciones 
específicas 
Análisis estadísticos y 
pruebas de hipótesis 
Resultados 
Recopilación de las 
conformaciones 
funcionales de los 
FTs en E. coli K-12 
 27 
CAPÍTULO 6. RESULTADOS 
 
6.1 Delimitación de los términos relacionados con la investigación 
 
En muchas de las publicaciones científicas se han utilizado los términos de manera 
ambigua. En este proyecto fue necesario eliminar la ambigüedad en los términos 
relacionados con la conformación funcional para poder recopilar la información de 
manera adecuada en la base de datos. Se revisaron los conceptos originales (ver 
cuadro 1), se compararon y actualizaron con los términos más recientes (ver cuadro 
2a y 2b), para finalmente delimitar los conceptos relacionados con la conformación 
funcional (ver cuadro 2c). 
 
Cuadro 1. Conceptos originales 
 
Término 
Definición 
Inductor 
Molécula que se requiere para llevar a cabo la síntesis de novo 
completa de las enzimas (moléculas) que son nuevas por su 
estructura específica así como por el origen de sus elementos. 
Inducción 
Es la activación por el inductor de la síntesis de proteínas-
enzimas. 
 
Co-
represor 
El metabolito que reprime (opuesto al inductor). 
Represión Es la inhibición del operón, cuando el represor por si mismo está 
inactivo y es activado solamente combinándolo con ciertas 
moléculas específicas. 
Represión 
(Inhibición 
enzimática
) 
Es un mecanismo de control que complementa la inducción 
enzimática: en cualquier caso la célula tiene a formar enzimas 
cuando son necesarias y tiende a no formar enzimas cuando no 
son necesarias. 
 Fuente: (Jacob and Monod 1961) 
 
 
 28 
Cuadro 2. Ambigüedad en el uso de los términos 
 
a) Términos que explican el mismo concepto 
Término Definición Referencias 
Inductor/Co-
represor 
Molécula pequeña que causa/previene la 
producción de enzimas capaces de 
metabolizarlas. Ejemplo: la alolactosa 
cuando se une a LacI 
 
(Jacob and Monod 
1961; Lewin 2008) 
Ligando, 
molécula 
pequeña 
Señal ambiental que se unen al factor 
transcripcional. 
(Browning and Busby 
2004; Seshasayee et 
al. 2006) 
Efector Molécula que se une al factor 
transcripcional para cambiar su 
conformación funcional. 
(Martínez-Antonio et 
al. 2006; Balderas-
Martinez et al. 2013) 
 
b) Mismo término para explicar diferentes conceptos 
Término Definición Referencias 
Señal Una molécula natural que actúa 
directamente en el factor transcripcional 
para llevar a cabo una respuesta fisiológica. 
(Wall et al. 2004) 
Señal En transducción de señales, es el estímulo 
por el cual la célula convierte un tipo de señal 
en otra. 
(Alberts 2008) 
 
c) Cambios derivados en los conceptos debido a la necesidad de 
formalizarlos dentro de una base de datos relacional 
Término Definición Referencia 
Regulador 
dual 
Un factor transcripcional o 
proteína regulatoria que activa 
y/o reprime la transcripción de 
los genes cuando se une en sitios 
de unión al ADN. 
 
La dualidad es una propiedad de 
la interacción entre el FT y su 
sitio de unión al ADN. Este es un 
concepto que fue actualizado. 
 
RegulonDB 
(http://regulondb.ccg.unam.
mx/) 
 
 29 
Como resultado, se seleccionó el término efector como el más apropiado para hablar 
de la molécula que se une al FT y realizar el cambio conformacional. El efector puede 
ser un metabolito alostérico, una modificación covalente (e.g., fosforilación), o 
incluso una proteína que se una al FT. 
 
Señal se definió como el estímulo que recibe la célula que iniciará una respuesta 
fisiológica, y como ya se ha mencionado en el capítulo anterior, en ocasiones un 
mismo metabolito puede ser señal y efector (e.g., alta concentración de zinc es la 
señal y efector), pero en otras veces puede diferir del efector (e.g., glucosa es la señal 
y cAMP es el efector). 
 
Se utilizó el término apo para definir a la conformación que tiene el FT cuando no se 
une con el metabolito efector, y holo para la conformación que tiene el FT cuando el 
efector sí se une con su metabolito efector. 
 
Por otra parte, se analizó el término de regulador dual. Los FTs generalmente se han 
clasificado como activadores, represores o reguladores duales (aquellos FTs que 
pueden activar o reprimir). La definición actual toma en cuenta las interacciones en 
las que participa el FT. Para ello, se analizaron los diferentes modos de regulación 
dual a los que están sujetos los FT que se encuentran en la base de datos de 
RegulonDB (Gama-Castro et al. 2011) y se clasificaron según el modo en como 
regulan sus genes (ver figura 3). 
 
 30 
 
 
Figura 3. Modos de regulación dual en los factores transcripcionales de E. coli 
K-12. 1) FTs en la misma conformación tienen diferentes efectos en diferentes 
UTs. a) En este caso, CysB es un activador para la unidad transcripcional (UT) del gen cysK 
y por otra parte, b) es un represor para la UT del gen cysB (se autoregula negativamente). 
En ambos casos tiene una conformación funcional holo cuando se une con el efector O-
acetil-L-serina. 2) Diferentes conformaciones en el mismo FT tienen diferentes 
efectos en la misma UT. a) Este es un caso particular, en el que AraC puede reprimir en 
conformación apo la UT de araBAD doblando el ADN, b) cuando la arabinosa aparece, AraC 
cambia a su conformación funcional holo activando araBAD. También podemos observar 
que el FT Crp cambia a una conformación funcional holo y coactiva los genes de araBAD. 3) 
El mismo FT tiene diferente modo de regulación en los mismos sitios de unión 
al ADN. a) ChbR es un FT que reprime la transcripción del operón ChbBCARFG en 
conformación apo en cooperación con NagC, b) cuando la quitobiosa aparece, se produce el 
efector monoacetilquitobiosa6-fosfato que se une a ChbR cambiándolo a su conformación 
 31 
holo activa pero manteniéndolo en su mismo sitio de unión al ADN, además NagC cambia a 
su conformación holo no-funcional cuando se une con N-acetil-glucosamina. En este último 
caso, la cooperación con otro FT juega un papel importante en el modo de regulación dual de 
ChbR. Símbolos: activador: óvalo verde; represor: óvalo rojo, ARN polimerasa: frijol 
morado; efectores (triángulos, círculos pequeños, rombos y gotas con varios colores); genes: 
barra de rectángulos (varios colores); ARN mensajero: línea debajo de los genes (varios 
colores); transcripción de los genes regulados: flecha verde; represión de los genes 
regulados: flecha roja con punta en T. 
 
 32 
6.2 Curación de las conformaciones funcionales de los factores transcripcionales 
en Escherichia coli K-12 
 
Se utilizaron como base algunas publicaciones previas relacionadas (Gutiérrez-Ríos 
et al. 2003; Wall et al. 2004; Martínez-Antonio et al. 2006). Sin embargo para 
ampliar la información acerca de la conformación funcional y el efector específico 
que se une al FT, fue necesario realizar una curación manual. Para ello se utilizaron 
palabras clave en el buscador de PubMed. Las palabras clave empleadas fueron en 
todos los casos: el nombre del FT y Escherichia coli; y junto con esas palabras se 
realizó una combinación utilizando variaciones como son: effector, conformation, 
inducible system, repressible system, ligand & metabolite. Se revisaron los artículos 
en orden cronológico, se anotaron las evidencias experimentales y las referencias 
para cada una de las conformaciones funcionales correspondientes con cada efector. 
En colaboración con el equipo de curadores de RegulonDB, se realizó una 
clasificación de las evidencias experimentales las cuales se incorporaron a la base de 
datos (ver cuadro 1), de esta manera, para el proyecto se consideraron únicamente 
aquellas evidencias que se catalogaron como “fuertes” (strong evidence). 
 
 33 
Cuadro 3. Clasificación de las evidencias experimentales de la 
conformación funcional de los factores transcripcionales 
 
3. Transcription factor functional conformation 
 
Most dedicated TFs have usually two conformations, one with a non-
covalent bound allosteric metabolite, or a covalent phosphorylation 
(holo conformation), and one as a free protein or multimer (the apo 
conformation). There are exceptions to this statement. We call 
functional conformation the one that is capable of binding to its 
specific binding sites and perform its activation or repression activity. 
For the sake of functional conformation evidence the experiments 
below have to be considered with and without effector. 
Evidence 
Code 
Evidence 
Category 
Strong 
Evidence 
3.1 Assay of protein purified to homogeneity APPH Classical 
experiment 
3.2 Assay of protein purified to homogeneity from its 
native host 
APPHINH Classical 
experiment 
3.3 Binding of purified proteins 
Example: mobility shift assays, PAGE, filter binding assays 
BPP Classical 
experiment 
3.4 Inferred from direct assay 
Example: Microscopy, sedimentation, ultracentrifugation 
(molecular weight determination of a protein complex), 
mmunoblotting experiments 
IDA Classical 
experiment 
3.5 Site mutation 
Example: Expression analysis when putative regulator 
binding sites are mutated. 
SM Classical 
experiment 
3.6 Inferred by functional complementation IFC nd 
Weak 
Evidence 
3.7 Author statement AS Author statement 
3.8 Non-traceable author statement NTAS Author statement 
3.9 Traceable author statement TAS Author statement 
3.10 Traceable author statement to experimental support TASES Author statement 
3.11 Assay of partially-purified protein APPP Classical 
experiment 
3.12 Assay of protein partially-purified from a heterologous 
host 
APPPHH Classical 
experiment 
3.13 Assay of protein partially-purified from its native 
host 
APPPINH Classical 
experiment 
3.14 Assay of unpurified protein AUP Classical 
experiment 
3.15 Assay of unpurified protein expressed in its native 
host 
AUPEINH Classical 
experiment 
3.16 Binding of cellular extracts 
Example: Gel shift analysis. 
BCE Classical 
experiment 
3.17 Gene expression analysis 
Example: Transcriptional fusions 
GEA Classical 
experiment 
3.18 Inferred from experiment IE Classical 
experiment 
3.19 Inferred from expression pattern 
Example: Northern blots, western blots, assay for enzyme 
activity in cell extracts 
IEP Classical 
experiment 
3.20 Inferred from genetic interaction IGI Classical 
experiment 
3.21 Inferred from mutant phenotype 
Example: Any gene mutation/knockout, 
overexpression/ectopic expression of wild-type genes or 
IMP Classical 
experiment 
http://regulondb.ccg.unam.mx/evidenceclasification
 34 
3. Transcription factor functional conformation 
 
genes carrying mutations in the effector binding domain of 
the transcription factor. 
3.22 Inferred from physical interaction 
Example: Two-hybrid assays, co-immunoprecipitation, co-
purification 
IPI Classical 
experiment 
3.23 Automated inference based on similarity to consensus 
sequences 
AIBSCS Computational 
prediction or 
inference 
3.24 Automated inference of function from sequence 
Example: Sequence similarity between effector domains of 
orthologous transcription factors. 
AIFS Computational 
prediction or 
inference 
3.25 Inferred by computational analysis ICA Computational 
prediction or 
inference 
3.26 Inferred computationally without human oversight ICWHO Computational 
prediction or 
inference 
3.27 Author hypothesis AH Human inference 
3.28 Human inference based on similarity to consensus 
sequences 
HIBSCS Human inference 
3.29 Human inference of function from sequence HIFS Human inference 
3.30 Inferred from Biological aspect from Ancestor IBAA Human inference 
3.31 Inferred by curator IC Human inference 
3.32 Inferred by a human based on computational 
evidence 
IHBCE Human inference 
 
 
 35 
6.3 Primer artículo: RegulonDB v8.0: omics data sets, evolutionary conservation, 
regulatory phrases, cross-validated gold standards and more. 
 
 
La contribución en este artículo fue la curación de las conformaciones funcionales de 
los factores transcripcionales en Escherichia coli K-12, los cuales aparecen en línea 
en la base de datos de RegulonDB (http://regulondb.ccg.unam.mx/) y también en el 
apéndice de la presente tesis. 
 
 
Salgado H, Peralta-Gil M, Gama-Castro S, Santos-Zavaleta A, Muñiz-Rascado L, 
García-Sotelo JS, Weiss V, Solano-Lira H, Martínez-Flores I, Medina-Rivera A, 
Salgado-Osorio G, Alquicira-Hernández S, Alquicira-Hernández K, López-Fuentes A, 
Porrón-Sotelo L, Huerta AM, Bonavides-Martínez C, Balderas-Martínez YI, 
Pannier L, Olvera M, Labastida A, Jiménez-Jacinto V, Vega-Alvarado L, Del Moral-
Chávez V, Hernández-Alvarez A, Morett E, Collado-Vides J. RegulonDB v8.0: omics 
data sets, evolutionary conservation, regulatory phrases, cross-validated gold 
standards and more. Nucleic Acids Res. 2013 Jan;41(Database issue):D203-13. doi: 
10.1093/nar/gks1201. Epub 2012 Nov 29. 
 
http://regulondb.ccg.unam.mx/
http://www.ncbi.nlm.nih.gov/pubmed/23203884
http://www.ncbi.nlm.nih.gov/pubmed/23203884
http://www.ncbi.nlm.nih.gov/pubmed/23203884
 36 
 
 
 
 
 
Published online 29 November 2012 Nucleic Acids Research, 2013, Vo/' 41, Database issue D203-D213 
doi.·10.1093jnarjgks1201 
RegulonDB v8.0: omics data sets, evolutionary 
conservation, regulatory phrases, cross-validated 
gold standards and more 
Heladia Salgado 1 , Martin Peralta-GiI1 , Socorro Gama-Castro 1 , Alberto Santos-Zavaleta 1 , 
Luis Muñiz-Rascado1, Jair S. García-Sotelo1, Verena Weiss1, Hilda Solano-Lira1, 
Irma Martínez-Flores 1 , Alejandra Medina-Rivera 1 , Gerardo Salgado-Osorio 1 , 
Shirley Alquicira-Hernández 1 , Kevin Alquicira-Hernández 1 , Alejandra López-Fuentes 1 ,Liliana Porrón-Sotelo 1 , Araceli M. Huerta 1, César Bonavides-Martínez 1 , 
Yalbi l. Balderas-Martínez1, Lucia Pannier1, Maricela Olvera2, Aurora Labastida2, 
Verónica Jiménez-Jacinto3 , Leticia Vega-Alvarado4 , Victor del Moral-Chávez 1 , 
Alfredo Hernández-Alvarez \ Enrique Morete and Julio Collado-Vides 1,* 
1 Programa de Genómica Computacional, Centro de Ciencias Genómicas, Universidad Nacional Autónoma de 
México, AP. 565-A, Cuernavaca, Morelos 62100, 2Departamento de Ingeniería Celular y Biocatálisis, Instituto 
de Biotecnología, Universidad Nacional Autónoma de México, AP. 510-3, Cuernavaca, Morelos 62100, 3Unidad 
Universitaria de Secuenciación Masiva de ADN, Instituto de Biotecnología, Universidad Nacional Autónoma de 
México, AP. 510-3, Cuernavaca, Morelos 62100 and 4Grupo de Visión Artificial y Bioinformática, Centro de 
Ciencias Aplicadas y Desarrollo Tecnológico, Universidad Nacional Autónoma de México, D.F., México 04510 
Received October 1, 2012; Revised October 26,2012; Accepted October 30,2012 
ABSTRACT 
This article summarizes our progress with 
RegulonDB (http://regulondb.ccg.unam.mx!) during 
the past 2 years. We have kept up-to-date the know-
ledge from the published literature regarding tran-
scriptional regulation in Escherichia coli K-12. We 
have maintained and expanded our curation efforts 
to improve the breadth and qua lit y of the encoded 
experimental knowledge, and we have implemented 
criteria for the quality of our computational pred ic-
tions. Regulatory phrases now provide high-Ievel 
descriptions of regulatory regions. We expanded 
the assignment of quality to various sources of 
evidence, particularly for knowledge generated 
through high-throughput (Hn technology. Based 
on our analysis of most relevant methods, we 
defined rules for determining the quality of 
evidence when multiple independent sources 
support an entry. With this latest release of 
RegulonDB, we present a new highly reliable larger 
collection of transcription start sites, a result of our 
experimental HT genome-wide efforts. These 
improvements, together with several novel en-
hancements (the tracks display, uploading format 
and curational guidelines), address the challenges 
of incorporating HT -generated knowledge into 
RegulonDB. Information on the evolutionary conser-
vation of regulatory elements is also available now. 
Altogether, RegulonDB version 8.0 is a much better 
home for integrating knowledge on gene regulation 
from the sources of information currently available. 
INTRODUCTION 
Escherichia coli K -12 is one of the best-characterized 
microorganisms. RegulonDB is a relational database 
that serves the scientific cornmunity involved in the 
study of bacteria, offering in an organized and comput-
able form, knowledge on transcriptional regnlation that 
has been manually curated from original scientific publi-
cations. This includes curated infonnation on known 
mechanisms of regulation of transcription initiation 
through the activation and repression of transcription 
factors (TFs), which bind to individual sites around pro-
moters; the organization of operons and their various 
"'To whom correspondence should be addressed. Tel: +52 777 313 2063; Fax: +527773175581; Email: regulondb@ccg.unam.mx and 
collado@ccg.unam.mx 
© The Author(s) 2012. Published by Oxford University Press. 
Tms is an Open Access article distributed under the terms of the Creative Conunons Attribution License (http://creativeconunons.org/licenses/by-nc/3.0¡), which 
permits non-conunercial reuse, distribution, and reproduction in any meruum, provided the original work is properly cited . For commercial re-use, please contact 
journals.permissions@oup.com. 
 37 
 
D204 Nucleic Acids Research, 2013, VolA] , Database issue 
transeription units (TUs) and the integration of regulons 
as gensor units (GUs), The RegulonDB team also con-
tinues to perform high-throughput (HT) experimental 
identification of promoters in the E. coli genome. Our 
mission has been to be the compilers and editors of the 
knowledge generated by the international scientific COffi-
munity regarding the regulatory elements of transcrip-
tianal regulation of gene expression in E. coN K-12. Our 
work maintains up-to-date infonnation in both the 
RegulonDB and EcoCyc databases [(1,2) and an update 
by Keseler et al, in this issue], 
We should emphasize that any piece of knowledge is 
curated with its associated reference(s) and the corres-
ponding evidence cade on which unified criteria have 
been defined, enabling distinctions between strong versus 
weakly supported objects, As detailed later, this 
classification has been enriched, initiating the process to 
integrate multiple sourees of evidenee to define gold 
standarels, 
High-quality expauded eucoded mechauistic kuowledge 
from different sources 
In the main menu 'About RegulonDB', we show the his-
torical increase of al! objects through the years, During the 
past 2 years, the number of publications supporting the 
corpus of knowledge encoded in RegulonDB has 
increased to 4667, We have increased the number of 
known functional and non-functional conformations of 
TFs from 232 to 298, corresponding to a total of 103 
TFs (see historical increase in RegulonDB web site), By 
'functional' we mean the conformations that bind to 
DNA and exert their regulatory effec!' The analysis of 
the repertoire of regulatory mechanisms focusing on the 
arehiteeture of signal reeognition, speeifically, the fune-
tional conformation (hola or apo) of a TF, its function 
or mode of regulation (activator, repressor or dual) and 
the anabolic or catabolic nature of its regulated genes, 
enables searches at a genomic level for design principIes 
under the framework of the demand theory of gene regu-
lation, which we discuss elsewhere (Balderas-Martínez 
el al" submitted for publication), Al! confonnations are 
supported by experimental methods that have been classi-
fied into strong or weak evidence types (see the new 
Evidence page in RegulonDB), 
A constant effort focused on detailed correction of 
TF-binding site (TFBS) properties, such as the length, 
symmetry, precise position, strand and orientation, is 
now reflected in new improved alignments for ,......, 130 
TFs. This has been a demanding and time-consuming 
effort of continuous curation that has strongly enhanced 
the quality of the evidenee for the DNA-binding sites of 
the TF collection, a core element of the mechanistic and 
genomic imprint of transcriptional regulation. See the 
OxyR example in Figure L This effort started in 2009, 
and it is already providing fruits in terms of improved 
computational TF-DNA models, 
The number of TFs that possess at least four binding 
sites has increased from 71 to 86 in the past 2 years, 
enabling the construction of position weight matrix 
(PWM) bioinformatics models, Since 2011, we have 
proposed the use of four independent criteria to assess 
the quality of matrices: (i) infonnation content conserva-
tion of at least 1.5 bits in at least six positions in the 
matrix; (ii) a low false-positive rate « le- ) for recovering 
70% of the annotated sites; (iii) an observed distribution 
of scores in the upstream regions on E. coli K-12 that 
shows overrepresentation of high scores compared with 
Figure L Analysis of TFBSs to improve the quality of PWMs in the RegulonDB database. OxyR binds in tandem, covering regions of ~40 bp (a). 
We identified within these regions, two inverted-repeat motifs of 17 bp, separated by 5 bp (b). Therefore, we now propose a new consensus sequence, 
GATAGGTTnAACCTATC, for the binding sites of OxyR. This new annotation has improved the quality of the matrices (b) and, therefore, also the 
predictions of binding sites for OxyR. 
 38 
 
 
 
 
 
the theoretical distribution and (iv) not overfitting the 
matrix to the sequences that were used to build it (3). 
For details of these four criteria, see the documentation 
on PWMs in RegulonDB. Based on thesecriteria, the 
current col!ection of 86 TFs contains 50% high-quality 
models. The low-quality models are mostly those for 
TFs with a reduced number of sites. For instance, 
when counting only matrices with eight or more sites, 
58% are of high quality. In 2008, only 33% of the 60 
TFs with a PWM had a high-quality matrix, whereas 
currently 56% of these 60 TFs have a high-quality 
matnx, reflectmg the Importance of our curation and COf-
rectian efforts. 
The increased quality of the PWM col!ection is reflected 
in the number of false-positives that might be generated 
fram a whole-genome computational prediction of 
binding sites. Overall, the known versus predicted 
fraction of sites when assessing a11 our computational 
predictions in the genome has diminished from ~ 1 to 40 
in 2008, to 1 to 5 in 2010, and to 1 to 3 in the current 
verSlOn. 
The improved PWMs were used to initiate curation of 
regulatory interactions that had no binding site identified, 
despite the availability of experimental evidence that sup-
ported them. Our current manual curation of the 
predicted sites has identified TFBSs for 35 interactions. 
In seeking consistency of evaluation of knowledge 
irrespective of its source, we used similar criteria to 
assess the quality of binding sites identified by chroma-
tin immunoprecipitation (ChIP)-Seq experiments 
(see 'Enriched classifications based on classic and HT evi-
dence' and Supplementary Data). 
We have expanded our curation to include factors that 
bind a11osterica11y to RNA polymerase directly. The two 
currently known mechanisms for E. coli regarding a11o-
steric binding involve ppGpp and DksA. We curated 
regulatory interactions in which the nucleotide guanosine 
Y-diphosphate, ppGpp (referred to as both tetrap-
hosphate and as its precursor, pppGpp) (4,5) and the 
smal! protein DksA (6,7) bind to the RNA polymerase 
alone or form a complex with each other, affecting tran-
scription in either a positive or negative manner, or act 
antagonistical!y on the same promoter (8,9) (see 
Supplementary Figure SI in the Supplementary Data). 
Currently, 70 promoter interactions regulated by ppGpp, 
as wel! as sorne that include regulation by DksA, have 
been curated. The growth conditions under which the pro-
moters are regulated are also included in each reaction of 
regulation (see Supplementary Figure SI in the 
Supplementary Data). 
HlGH-LEVEL CURATlON 
We believe that the integration of knowledge to facilitate 
an understanding at different levels of abstraction and 
detail is a major cha11enge for genomic databases. In the 
following section, we describe two directions of our efforts 
towards obtaining higher integration levels: (i) GUs and 
(ii) the organization of multiple TFBSs into regulatory 
phrases. 
Nucleic Acids Research. 2013. Vol. 41. Database issue D205 
Fur, a complex GU 
In 2011, we described the new concept of genetic 
sensory-response units, or 'gensor units', which are 
composed of four components: (i) the signal, (ii) the 
slgnal-to-effector reactlOns that end with activation or in-
activation of the TF, (iii) the regulatory switch (resulting 
in activation or repression oftranscription oftarget genes) 
and (iv) the consequence, or effects and roles of the 
regulated genes (1). RegulonDB contains 25 completed 
GUs, which are organized into two categories: carbon 
source utilization and metabolism of amino acids. These 
are al! GUs for local TFs and smal! regulons. We decided 
to cura te a much larger GU as a first step towards 
eventual!y compiling information on GUs of global 
regulators. 
Certainly, the size and complexity of the Fur (ferric 
uptake regulator) GU poses new chal!enges in its repre-
sentation. Fur regula tes transcription initiation of 66 
TUs, including nine TFs, a regulatory smal! RNA 
(sRNA) and two sigma factors (a19 and a 38). It 
includes >200 reactions and close to 300 nodes. To fa-
cilitate interpretation of this GU, we included a 
high-level i11ustration that provides an overview of al! 
classes of genes and functions subject to Fur regulation 
(see Figure 2). Search 'gensor unit' in the main menu in 
RegulonDB and select Fur overview. 
Figure 2. Overview of the GU of the Fur TF. In the presence of Fe+, 
Fur represses genes involved in transport and release of Fe + from sid-
erophores and genes for biosynthesis and assembly of FeS c1usters; in 
addition, it activates genes involved in Fe + storage and aetivatesj 
represses genes that eneode proteins that eontain Fe + or a group 
heme as a eofactor. In the presenee of the signal, Fur also regulates 
transeription of nine TFs, the a 19 and a 38 factors and a regulatory 
sRNA, RhyB, submaps of whieh are depieted as dark gray squares 
that can be expanded to see their eorresponding GU. In addition, 
Fu! regulates genes t.hat eneode metal-binding proteins (other than 
Fe ) and other protems that apparently have no direet relationship 
'With Fe + or other metals. 
 39 
 
D206 Nucleic Acids Research, 2013, VolA] , Database issue 
Regulatory pillases 
Another area that will c1early benefit from a more 
integrated description of the genome is the encoding of 
the organization and functioning of regulatory regions 
governing transcription. Previously, we displayed the col-
lection of sites in upstream regions affecting each 
promoter, leaving it to the user to decipher how these 
multiple sites, whieh bind the same or different TFs, 
work in a coordinated fashion, or not, to regulate tran-
scription. For instance, regulation of the acsp2 promoter 
is affected by two activator sites for CRP, three repressor 
sites for Fis and three for IHE The funetions and pos-
itions of these eight sites are listed one by one in 
RegulonDB, when in fact it is known, first, that both in 
case of Fis and IHF, the multiple sites work together, and, 
second, that each group of sites represses the acsp2 
promoter independently: FIS in log phase and IHF in 
stationary phase. Both proteins work as anti-activators 
of CRP during the transition from log-phase to 
stationary-phase growth (10,11), Briefly, the aim is to 
then group sites that work together in a 'regulatory 
phrase', or module. This integration of many sites into a 
redueed number of phrases will eontribute to the under-
standing of complex regulation. Thus, phrases working 
independently that affeet the 0-70 family of promoters 
should have at least one proximal site, where the 
position of a proximal site guarantees direct interaction 
with the RNA polyrnerase (12 14), 
It has been known for years that the possible arrange-
ments of sites and their functioning can vary for each TF, 
or eaeh TF family, In addition to showing this higher or-
ganization within individual promoters, we also generated 
a new page within RegulonDB that groups all possible 
-200 -150 
arrangements described in the genome for each TF, and 
even for eomplex phrases with sites of different TFs, that 
support eoordinated regulation of multiple TFs working 
together to affeet transeription initiation (See Figure 3), 
For instanee, the [CRP +] phrase offers the list of all 
precise positions found in E. coli, with either one or 
several sites used by CRP to activate transcription 
(15,16), It will then be easier to see that the CRP pair of 
sites activating acsp2 occurs also at similar positions in 
fixAp, whieh is subjeet to CaiF and FNR aetivation, or 
that the proximal -69,5 CRP aetivating position also 
oeeurs at the csiDp, gntKp and prpRp promoters in the 
eontext of regulation by other TFs, This first version 
of regulatory phrases was based on the identifieation of 
proximal sites first and then on detailed curation of cases 
of multiple TFs known to work jointly [e,g, CytR with 
CRP; or MelR with CRP (17)], as well as on an 
exhaustive identification of regulatory phrases with no 
proximal site, mostly from TFs known to bend the 
DNA and funetion as arehiteetural elements [e,g, IHF, 
Fis and other proteins (18,19)], 
THE CHALLENGE OF ENCODINGKNOWLEDGE 
GENERATED BY NOVEL 'OMIC' TECHNOLOGIES 
As HT methodologies have more frequently beeome a 
source of infonnation regarding gene regulation, we 
have had to address several conceptual and practical 
issues for their easier inclusion in RegulonDB. We have 
expanded our classification scheme for the various de-
grees of eonfidenee in these different methodologies, 
In addition, we have analysed how independent the differ-
ent methods are (i,e, their different potential sourees of 
-100 -SO 
"11,5 
O Legend 
proximal 
. remate 
[CRP,+I-ychHp ____________________________ _ 
-81,5 "11.5 
[CRP,+I-pkap ____________________________ _ 
-101,5 "11,5 
[CRP,+]-maIXp==========:;;¡;;:~~' ~~============= 
[CRP,+l-acsp2 -12~,S 
-126.5 
~9,S 
-69,S 
[CRP,+]-fixAp __________ --1 •• '. _ ___________________ _ 
[CRP,+] phr.se .nd .11 other phrases th_ regulate these promoter(s). Llst of promoters and thelr correspondlng regulatory phrases. 
Remote upstream site(s) 
[CRp,+,-101,S] 
[CRp'+,-122,S] [IHF,-,-180,0,-1 53,0,-225,0] [Fis,-,-98,0,-26S,0] 
[FNR.+,-197,SI [CRP,+,-126,S] [CaiF,+,-136,S,-117,SI 
Proximalsite(.) 
[CRp'+,41.51 
[CRp'+,41.5,-81,S] 
[Mall,-,-16,5] [CRp'+,41,S] 
[CRp,+,~9,SI [Fis,-,-S9,0] 
[CRP,+,~9,SI [(aiF,+,-79,S,-60.51 
-==-." .' ,. 
_ ,o 
ychHp 
p/cap 
malXp 
acsp2 
fixAp 
Figure 3. The [CRP,+] regulatory phrase. The graph shows sites of the [CRP,+] phrase for five promoters, and the table inc1udes all additional sites 
that regulate these promoters. Each promoter name is a link to the page in RegulonDB presenting all phrases for that promoter. Proximal sites are 
those \V:ithin the interval from -93 to +20, from which the TF can directly interact \V:ith RNA polymerase. AH other sites are considered remote, 
either upstream or downstream. 
 40 
 
 
 
 
 
false-positives); from lhis information, we are able lo lhen 
propose which methods upgrade the quality of evidence to 
'strong' for objects with two types of weak evidence, and 
to 'confirmed' evidence for objects with two independent 
strong types of evidence. 
We implemented tracks that facilitate the display of HT 
data, and we have also implemented fonnats for investi-
gators to submit their HT data sets. Furthennore, we 
report the results of our RNA sequencing (RNA-Seq)-
based identification of transcription start sites (TSSs), 
which have increased considerably the collection of TSSs 
for the E. coli genome. 
Enriched cIassifications based on cIassic and HT evidence 
Since the release of version 6.0 of RegulonDB, we have 
classified evidence associated with the objects annotated in 
RegulonDB as strong or weak, depending on the confi-
dence level of the associated experimental or computa-
tional methodologies. This two-tier rating system quickly 
distinguishes reliable from less reliable knowledge, 
contributing to better comparisons, interpretations and 
selection of gold standards. 
However, this classification was not defined for other 
sources of knowledge beyond classic methodologies; in 
addition, the different types of evidence do not add up. 
We had not previously addressed the analyses from differ-
ent sources of knowledge that, if independent, should 
increase the degree of confidence for a given piece of 
knowledge, object or interaction. 
To facilitate adding evidence from HT methodologies 
without losing track of the highly reliable manually 
curated knowledge supporting RegulonDB, we had to 
expand our classification to the rapidly growing number 
of HT methodologies used for the identification of TFBSs, 
TSSs and TUs (20). These new technologies have 
generated a flood of new data, as they have allowed 
analysis of putative targets in parallel, but they are also 
associated with a high risk of false-positives due to new 
sources of stochastic effects, 'batch' errors and experimen-
tal artifacts (21 23). Therefore, the majority of HT 
methods, for instance, RNA-Seq and ChIP-Seq, generate 
evidence elassified as weak within RegulonDB. Strong 
evidence requires efficient measures to exclude false-posi-
tives as well as the reliability of the evidence based on 
biologically congruent replicates. The results of the 
detailed analyses of the different HT methodologies are 
reflected in the expanded evidence classifications shown 
in Table 1 of the new Evidence page in RegulonDB web 
site. 
The global character ofHT approaches makes it natural 
to compare their results with equally global computational 
predictions. However, the analysis of HT data sets 
involves bioinformatics and biostatistics processing, 
which, given the diversity of strategies, may limit their 
comparison until more standardized procedures have 
been established. A final outcome when these issues are 
addressed will be the combination not only of the different 
experiments and HT data sets, but also of aH sources of 
knowledge, computational and evolutionary predictions, 
elassic methodologies and HT strategies, to keep track of 
Nucleic Acids Research. 2013. Vol. 41. Database issue D207 
each conlribution and lo assign an appropriale level of 
confidence to each object and interaction. 
In an initial step in this direction, independent 
cross-validation has been applied for promoters and regu-
latory interactions. This new concept integra tes multiple 
types of evidence with the intention of mutually exeluding 
false-positive results. The classification of 'strong evi-
dence' is assigned to data that are supported by at least 
two independent weak types of evidence, provided that the 
two sources of knowledge do not share major sources of 
false-positives and do not use common raw materials or 
common experimental steps. For instance, TSSs that have 
been identified by transcription initiation mapping can be 
cross-validated with in vitro transcription assays. 
Similarly, TFBSs that have been identified by genomic 
SELEX can be cross-validated by in vivo gene expression 
data. Moreover, by applying this new concept to data that 
are supported by strong evidence, we can extend our 
two-tier rating system to three tiers. To this end, we 
have introduced a third confidence score, 'confirmed'. 
Data supported by confirmed evidence, that is, by at 
least two types of independent strong evidence, have a 
high reliability and can be considered gold standard data 
in RegulonDB. For instance, TFBSs that have been 
identified by footprinting analysis and, in addition, have 
been validated by mutational analysis of the binding site, 
are now classified as data with confirmed evidence. The 
detailed analysis of this improvement will appear in a 
publication elsewhere (20). The results of this cross-
validation are surnmarized in Table 2 of the Evidence 
page in RegulonDB web site (See Figure 4). 
We evaluated the confidence levels of HT and elassic 
methodologies through a more detailed curation process, 
which ineluded independent cross-validation and/or stat-
istical validation. Statistical validation was used to 
evaluate the confidence for TFBSs discovered by ChIP 
technology, by using a strategy that was consistent with 
the evaluation of PWMs from manually curated binding 
sites, as described previously. To this end, we are imple-
menting a pipeline to assess the quality of the 
ChIP-Seq/chip experimental data. We initiated analysing 
PurR-binding sites, which were identified by ChIP-chip 
(24) (see the Supplementary Data). The strategy was 
divided into three main evaluation steps: (i) assessing the 
enrichment of TFBSs with high scores for the aimed TF in 
the set of ChIP-identified regions based on matrix quality 
(3) (see Supplementary Figure S2 in the Supplementary 
Data). (ii) Discovery of overrepresented motifs in the set 
of ChIP-identified regions, as well as detection of second-
ary motifs that could be related to cofactors that bind the 
targeted TF from the ChIP experiment. We have 
used peak motifs (25) to rediscover the PWMs for 
TFs by comparing the discovered motifs with those 
annotated in RegulonDB

Otros materiales