Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE ESTUDIOS SUPERIORES CUAUTITLÁN BIOINFORMÁTICA. UN ENFOQUE TEÓRICO Y PRÁCTICO T E S I S P A R A O B T E N E R E L T Í T U L O D E : QUÍMICO FARMACÉUTICO B IÓLOGO P R E S E N T A OCTAVIO ANTONIO SÁNCHEZ PÉREZ ASESORA: M. EN C. MARITERE DOMINGUEZ ROJAS UNAM – Dirección General de Bibliotecas Tesis Digitales Restricciones de uso DERECHOS RESERVADOS © PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL Todo el material contenido en esta tesis esta protegido por la Ley Federal del Derecho de Autor (LFDA) de los Estados Unidos Mexicanos (México). El uso de imágenes, fragmentos de videos, y demás material que sea objeto de protección de los derechos de autor, será exclusivamente para fines educativos e informativos y deberá citar la fuente donde la obtuvo mencionando el autor o autores. Cualquier uso distinto como el lucro, reproducción, edición o modificación, será perseguido y sancionado por el respectivo titular de los Derechos de Autor. Octavio Antonio Sánchez Pérez Siempre he envidiado a la gente que ante la pregunta “Y tú… ¿qué haces?” puede dar una respuesta sencilla. En una fiesta, o en el autobús, tanto si quieres intimar más con la persona que te ha dirigido esa pregunta como si quieres librarte de ella, lo mejor que uno puede hacer – a no ser que seas actor de éxito o una supermodelo- es pasar por encima de esa cuestión e intentar llevar a la otra persona a un tema de conversación más atractivo; o, en el caso contrario, mencionar rápidamente su oficio y salir corriendo. Por eso, siempre he envidiado a los que a ése “Y tú… ¿qué haces?” pueden responder con un simple “bombero” o “periodista”, o incluso “biólogo”. Y les envidio porque en mi caso, ante esa pregunta sólo existen dos posibilidades: mentir murmurando cualquier profesión que no genere dudas, o contestar la verdad y sufrir las consecuencias de hacerlo, ya que siempre que uno se decide por la segunda opción se ve abocado a una sucesión de acontecimientos de los que no suele venir nada bueno. Porque cuando uno contesta con la palabra mágica, “bioinformática”, los listillos suelen pensar que te dedicas a conectar animales a ordenadores y piden más información sobre el asunto, y los más humildes, simplemente exclaman un ¡ah!, miran a su alrededor en busca de una excusa, se dan la vuelta y desaparecen de tu vida para siempre. Y aunque no tengo datos que prueben esto científicamente, la experiencia me dice que existe una extraña anticorrelación entre el interés que una persona pone en la bioinformática y el interés que tú tienes en esa persona. [Segura, Antinoo. “La bioinformática: una ciencia de riesgo”] Octavio Antonio Sánchez Pérez Agradecimientos A MI MAMÁ LEONOR SÁNCHEZ: POR TU ESFUERZO Y SACRIFICIO PARA QUE YO OBTUVIERA ESTE PEQUEÑO LOGRO, POR TU APOYO A LO LARGO DE TODOS ESTOS AÑOS, POR FOMENTAR EN MÍ EL DESEO DE ESTUDIAR Y SALIR ADELANTE, PERO SOBRE TODO POR TU CARIÑO. FAMILIA: POR SU PRESENCIA, POR SU APOYO, POR LOS CONSEJOS, POR SU ALEGRÍA, POR SUS ENOJOS, POR HACERME CRECER COMO PERSONA, EN FIN, GRACIAS POR TANTOS BUENOS MOMENTOS. A TI UNAM: POR DARME UN LUGAR EN TUS AULAS, POR FORJARME COMO PROFESIONISTA, PERO SOBRE TODO COMO SER HUMANO Y AHORA POR BRINDARME MI PRIMER OPORTUNIDAD LABORAL DRA. SANDRA: POR LAS OPORTUNIDADES OTORGADAS, POR LA CONFIANZA DEPOSITADA EN MÍ Y SOBRETODO POR LA ENSEÑANZA QUE ME REGALO ESTOS ÚLTIMOS AÑOS. PROFESORAS ROSALBA Y MARITERE: POR SU APOYO Y ENSEÑANZA DENTRO Y FUERA DE LAS AULAS. PORQUE SIEMPRE HABÍA UN COMENTARIO AGRADABLE Y MUCHÍSIMAS GRACIAS POR NO CAER EN EL ESTRÉS DE MI COMPORTAMIENTO. GADAHAR: PORQUE NADIE ME ESCUCHA COMO TÚ LO HACES Y GRACIAS POR SIEMPRE TENER UN LENGUETAZO CUANDO MÁS LO NECESITO. A MIS AMIGOS (A,A,A,C,D,E): POR LAS RISAS, POR LOS CHISMES, POR LOS CONSEJOS, POR ESAS LARGAS PLÁTICAS, Y SOBRETODO, GRACIAS POR AGUANTARME. Octavio Antonio Sánchez Pérez A MÍ PERSONA: POR NUNCA PERMITIRME CAER Y DARME POR VENCIDO, POR SIEMPRE BUSCAR ALGO MÁS Y POR ÉSTA SATISFACTORIA CULMINACIÓN. A MI CIELITA: POR ESTOS ÚLTIMOS MESES TAN LINDOS, POR TU AMISTAD, POR LA CONFIANZA, POR TU POYO Y POR ESAS RECOMENDACIONES Y REGAÑOS PARA FINALIZAR MI TESIS. MALOI MUAI. GRACIAS A TODOS POR LA FUERZA Y VOLUNTAD QUE HAN DEPOSITADA EN MÍ. CADA MOMENTO Y CADA EXPERIENCIA CON USTEDES HA SIDO GRATIFICANTE, EN OCASIONES CON MALOS DIVIDENDOS O CON BENEFICIOS SATISFACTORIOS, SIN EMBARGO, CADA SECUELA ME HA PERMITIDO CRECER EN LA VIDA Y LA EXPERIENCIA RECIBIDA ME HA CONVERTIDO EN LO QUE SOY HOY. GRACIAS POR SUS BUENOS DESEOS, SIN USTEDES SERÍA NADA. “SERÁ LA RAZÓN MI GUÍA, LA VOLUNTAD MI FUERZA, EL DEBER DE PROCEDER ASI MI PERSEVERANCIA Y EL APOYO MAS GRANDE.... MI FÉ" [ADOLF HITLER] “VI VERI VINIVERSUM VIVUS VICI” [FAUSTO, CHRISTOPHER MARLOWE] Octavio Antonio Sánchez Pérez Dedicatorias A LA MEMORIA DE MIS ABUELOS: ALFONSO Y ERNESTINA. GRACIAS POR LOS JALONES DE OREJAS, POR SU COMPAÑÍA INCONDICIONAL Y MIL GRACIAS POR SU CARIÑO. ESTE LOGRO ES TAN SUYO COMO MÍO. TANTOS AÑOS AUSENTES, AÚN ASÍ, JAMÁS ABANDONARON MI MENTE Y MI CORAZÓN. SU PRESENCIA SIEMPRE ENGALANARÁ MIS LOGROS, Y SU AMOR, SU AMOR SIMPRE ME HARÁ CAMBIAR EL RUMBO. LOS AMO. Índice Octavio Antonio Sánchez Pérez i Índice Índice ..........................................................................................................................i Índice de ejercicios y problemas ................................................................................iii Índice de figuras .........................................................................................................iv Índice de tablas ..........................................................................................................vi Abreviaturas ...............................................................................................................vii Resumen .....................................................................................................................x Justificación................................................................................................................xi Objetivo .......................................................................................................................xii PARTE UNO ..............................................................................................................1 Capítulo 1. Los ácidos nucleicos ........................................................................2 Características de los ácidos nucleicos ......................................................2 Bases moleculares de los ácidos nucleicos.................................................3 La estructura del DNA ...............................................................................6 La estructura del RNA ...............................................................................9 Organización molecular del DNA en la célula ..........................................12 Replicación ..................................................................................................14 Transcripción ..............................................................................................19 Traducción y el código genético ................................................................24 Gen .............................................................................................................27Capítulo 2. Proteínas. .........................................................................................28 Aminoácidos................................................................................................28 Proteínas ....................................................................................................30 Niveles de estructuración proteica ............................................................30 Capítulo 3. La bioinformática .............................................................................35 Bioinformática ¿Qué es? .............................................................................35 Breve historia de la bioinformática ...........................................................36 Explosión de datos ......................................................................................37 Minería de datos .........................................................................................39 Algoritmos ..................................................................................................39 Bases de datos ............................................................................................40 Formato FASTA .........................................................................................48 Índice Octavio Antonio Sánchez Pérez ii i PARTE DOS ...............................................................................................................52 Capítulo 4. Bases Genómicas. .............................................................................53 4.1 NCBI: GenBank ...................................................................................53 4.2 EMBL-EBI: EMBL Bank .....................................................................65 Capítulo 5. Bases Proteicas. ...............................................................................76 5.1 Primarias. Uniprot ...............................................................................76 5.2 Secundarias. Prosite.............................................................................88 5.3 Terciarias. Protein Data Bank (PDB) .................................................102 Capítulo 6. Enfermedades mendelianas (OMIM). .............................................115 PARTE TRES .............................................................................................................129 Capítulo 7. NCBI: BLAST. ..................................................................................130 Capítulo 8. EMBL: ENSEMBL. ..........................................................................146 PARTE CUATRO .......................................................................................................166 Capítulo 9. Herramientas adicionales. ...............................................................166 9.1 PRINTS .................................................................................................167 9.2 eBLOCKs ..............................................................................................169 9.3 PUBMED Central ................................................................................171 Conclusiones ...............................................................................................................173 ANEXO. Resolución de problemas ............................................................................174 Referencias .................................................................................................................177 Índice de ejercicios y problemas. Octavio Antonio Sánchez Pérez iii Índice de ejercicios y problemas Ejercicio 1. Búsqueda en GenBank de la secuencia nucleotídica del gen IL2RB del Homo sapiens ...........................................................................................56 Problemas complementarios para el GenBank. ........................................................64 Ejercicio 2. Búsqueda en el EMBL-Bank de la secuencia nucleotídica del gen IL2RB del Homo sapiens ....................................................................................67 Problema complementario para el EMBL-Bank. ......................................................75 Ejercicio 3. Búsqueda en UniProt de la secuencia proteica primaria de la proteína FOXP2 del Homo sapiens. ..........................................................................77 Problema complementario para UniProt ..................................................................87 Ejercicio 4. Búsqueda en Prosite de las secuencias proteicas secundarias de la proteína FOXP2 del Homo sapiens ..................................................................90 Problemas complementarios para Prosite. ...............................................................101 Ejercicio 5. Búsqueda en PDB de la estructura proteica en 3D de la proteína FOXP2 del Homo sapiens ...........................................................................107 Problema complementario para PDB. .......................................................................114 Ejercicio 6. Búsqueda en OMIM de la enfermedad mendeliana producida por la proteína FOXP2. ..............................................................................................121 Problema complementario para OMIM.....................................................................128 Ejercicio 7. Alineamiento en BLAST para la secuencia nucleotídica del gen FOXP2 del Homo sapiens. ..................................................................................138 Problema complementario para BLAST ...................................................................145 Ejercicio 8. Análisis genómico en Ensembl de la secuencia nucleotídica del gen FOXP2 del Homo sapiens. .........................................................................................149 Problema complementario para Ensembl .................................................................165 ANEXO Resolución de problemas .............................................................................174 Índice de figuras Octavio Antonio Sánchez Pérez iv Índice de figuras Dogma central de la biología molecular ....................................................................3 Estructura química de las bases nitrogenadas ........................................................4 Azúcares pentósidos ..................................................................................................4 Estructura química de los nucleósidos .....................................................................5 Estructura química de un nucleótido .......................................................................5 Estructura química de un dinucleótido ....................................................................5 Artículo de la doble hélice (Watson y Crick) ............................................................7 Estructura de la doble hélice .....................................................................................8 Estructura de RNA ...................................................................................................9 Estructura secundaria del RNA ...............................................................................10 Esquema de un ribosoma eucariota y procariota .....................................................10 Estructura tridimensional del tRNA ........................................................................11Superenrrollamiento plectonémico ...........................................................................12 Niveles de condensación del DNA ............................................................................13 Replicación semiconservativa ...................................................................................15 Modelo θ de la replicación .........................................................................................15 Cromosoma de E. coli en replicación ........................................................................15 Modelo de la replicación de Kornberg ......................................................................16 Esquema de la replicación de DNA eucariota ..........................................................17 Modelo de la síntesis de DNA eucariota ...................................................................18 Iniciación de la transcripción por la RNA polimerasa II .........................................20 Formación del capuchón 5´ en el mRNA ..................................................................22 Poliadenilación del extremo 3´ en el mRNA ............................................................22 Splicing del RNA .......................................................................................................23 Mecanismo de splicing ..............................................................................................24 El código genético ......................................................................................................25 Proceso de traducción ................................................................................................26 Estructura general de un aminoácido ......................................................................28 Formación del enlace peptídico ................................................................................31 α-Hélice .......................................................................................................................31 Lámina-β .....................................................................................................................32 Índice de figuras Octavio Antonio Sánchez Pérez v Pliegues β ....................................................................................................................32 Estructura terciaria de una proteína ........................................................................33 Estructura cuaternaria de la hemoglobina ...............................................................34 Gráfico de crecimiento del GenBank .........................................................................38 Interconexión de datos por el NCBI ..........................................................................41 Integración de bases de datos ....................................................................................43 Arquitectura del NCBI ...............................................................................................44 Arquitectura del EMBL .............................................................................................47 12 Ediciones impresas de MIM .................................................................................115 Número de genomas secuenciados por completo hasta septiembre del 2009 ..........146 Índice de tablas Octavio Antonio Sánchez Pérez vi Índice de tablas Principales bases de datos y herramientas de la bioinformática. ............................ix Nomenclatura de nucleósidos y nucleótidos presentes en el DNA y RNA ..............6 Clasificación de los aminoácidos. ...............................................................................29 Crecimiento del GenBank (1982-2008). ....................................................................37 Comparación en los rangos de crecimiento de diversas curvas de explosión de datos. ......................................................................................................................38 Tabla de limitantes de búsqueda. ..............................................................................45 Código FASTA para nucleótidos. ...............................................................................50 Código FASTA para proteínas. ..................................................................................51 Formato para un resultado de búsqueda presentado por el GenBank. ...................54 Formato para un resultado de búsqueda presentado por el formato de texto del EMBL. ...................................................................................................................66 Crecimiento de PDB en los últimos años. .................................................................102 Estadísticas OMIM ....................................................................................................116 Lista de actualizaciones OMIM .................................................................................116 Primer dígito en el número MIM y su interpretación ..............................................118 Interpretación de símbolo anterior al número MIM .................................................118 Componentes para los formatos de anotación fenotípica y génica ...........................119 Programas de búsqueda para alineamientos con secuencias nucleotídicas en BLAST ...................................................................................................................131 Programas de búsqueda para alineamientos con secuencias proteicas en BLAST ...................................................................................................................132 Búsqueda en funciones especiales de BLAST ...........................................................132 Búsqueda contra organismos específicos o bases de datos genómicas en BLAST. .......................................................................................................................133 Parámetros de búsqueda para secuencias nucleicas cortas. ....................................134 Parámetros de búsqueda para secuencias peptídicas cortas. ...................................135 Programas de búsqueda para secuencias cortas. ......................................................136 URL´s de acceso a Ensembl y sus diferentes plataformas. ......................................147 Tipos de entradas en Ensembl. ..................................................................................148 Formato para el alineamiento textual en Ensembl. .................................................155 Términos ontológicos. .................................................................................................164 Abreviaturas Octavio Antonio Sánchez Pérez vii Abreviaturas 7mG 7 metil guanocina A Adenina Å Amstrongs ATP Adenosina trifosfatada BLAST Basic Local Alignment Search Tool BMRB BioMag-ResBank C Citosina CDART Conserved Domain Architecture cDNA Ácido desoxiribonucleico complementario CDS Coding Sequence CPP Conserved Domain Database CTP Citidina trifosfatada dATP Desoxiadenosina trifosfatada dCTP Desoxicitidina trifosfatada DDBJ DNA Data Bank of Japan dGTP Desoxiguanosina trifosfatada DNA Ácido desoxiribonucleico dNTP´s Desoxiribonucleosidos trifosfatados DOE Department of Energy DVD Developmental Verbal Dyspraxia dTTP Desoxitimina trifosfatada EBI European Bioinformatics Institute EDA´s Estimación de Distribución de Algoritmos EF Factor de elongación EMBL European Molecular Biology Laboratory ENA European Nucleotide Archive ENSE Ensembl Exons ENSG Ensembl Genes Abreviaturas Octavio Antonio Sánchez Pérez viii ENSP Ensembl Peptides ENST Ensembl Transcripts G Guanina GEO BLASTGene Expression Profile Basic Local Alignment Search Tool GHP Genome Human Project GO Gene Ontology GTP Guanosina trifosfatada H1 Histonas internucleosomales H2A Histonas nucleosomales 2A H2B Histonas nucleosomales 2B H3 Histonas nucleosomales 3 H4 Histonas nucleosomales 4 HAVANA Human And Vertebrate Analysis aNd Annotation HGMD Human Genes Mutation Database hnRNA Ácido ribonucleico nuclear heterogéneo (precursor del mRNA) HSP´s High-scoring Segment Pairs HUGO Human Genome Organization IF Factor de iniciación IFN Interferon igBLAST Immunoglobulin Basic Local Alignment Search Tool JIPID Japan International Protein Information Database LANL Los Alamos National Laboratory LD Linkage Desequilibrium MIM Mendelian Inheritance in Man MIPS Munich Information Center Protein Sequence mRNA Ácido ribonucleico mensajero MSD-EBI Macromolecular Structure Data Bank at the European Bioinformatics Institute MSUD Maple Syrup Urine Disease NBRF National Biomedical Research Fundation NCBI National Center for Biotechnology Information NIH National Institutes of Health NLM National Library of Medicine NMR Nuclear Magnetic Resonance nt Nucleótido NTP´s Ribonucleósidos trifosfatados Abreviaturas Octavio Antonio Sánchez Pérez ix OMIM Online Mendelian Inheritance in Man pb Pares de bases PDB Protein Data Bank PDBj Protein Data Bank Japan PIR Protein Information Resource PSSM Position Specific Scoring Matrix PSSMs Position Specific Scoring Matrices QTLs Quantitative Trail Locis RCSB-PDB Research Collaboratory for Structural Bioinformatics Protein Data Bank RNA Ácido ribonucleico RNPsn Partículas ribonucleoproteicas pequeñas nucleolares RPS-BLAST Reverse Position Specific Basic Local Alignment Search Tool rRNA Ácido ribonucleico ribosomal scRNA Ácido ribonucleico pequeño citoplasmático SIB Swizz Institute of Bioinformatics snoRNA Ácido ribonucleico pequeño nucleolar SNP Single Nucleotide Polymorphism SNP BLAST Single Nucleotide Polymorphism Basic Local Alignment Search Tool snRNA Ácido ribonucleico pequeño nuclear SRS Sequence Retrieval System T Timina TF Factor de transcripción TNFα Factor de Necrosis Tumoral Alfa TNFβ Factor de Necrosis Tumoral Beta tRNA Ácido ribonucleico de transferencia U Uracilo URL Uniform Resource Locator UTP Uridina trifosfatada UTR´s Untranslated regions VAST Vector Alignment Search Tool VecScreen Vector Contamination VEGA Vertebrate Genome Annotation WU-BLAST Washington University-Basic Local Alignment Search Tool wwPDB WorldWide Protein Data Bank WWW World Wide Web Resúmen Octavio Antonio Sánchez Pérez x Resumen La bioinformática es la simbiosis perfecta entre las tecnologías informáticas y las ciencias biológicas. El NCBI, define a la bioinformática como el campo de la ciencia en donde la biología, las ciencias de la computación, y la información tecnológica emergen para formar una única disciplina. En la actualidad la principal tarea de la bioinformática, es efectuar el análisis de diversos datos, incluyendo secuencias de nucleótidos o aminoácidos, dominios y estructuras proteicas, así como buscar la innovación de las metodologías para el acceso y búsqueda en bases de datos [19,20]. Sin duda alguna, la biología molecular ha experimentado un gran avance en los últimos años, manteniéndose actualizada frente a los cambios frecuentes en cuanto a herramientas informáticas y bases de datos se refiere. Sin embargo, existe redundancia en las bases de datos existentes; incluso conociendo casos de secuencias idénticas bajo distintos números o claves de acceso (identificadores en los bancos de datos), las variaciones se dan en cuanto al tejido estudiado, o el organismo del cual provienen las secuencias [31]. Existen tres grandes corporaciones que llevan a cabo una búsqueda diaria de datos, colaborando en la recolección pública de secuencias nucleotídicas y proteínicas. Estas organizaciones se distinguen por tener diferentes presentaciones, formatos y en ocasiones diferencias en la presentación de sus datos. Las tres grandes organizaciones a las que se hace alusión, son el GenBank del NCBI, EBI (European Bioinformatics Institute) del EMBL y el DDBJ [32]. Las principales bases de datos que componen los sistemas anteriores y que fungen como las principales herramientas de la bioinformática en la actualidad, se enumeran a continuación: Base de datos Utilidad o tipo de búsqueda NCBI: GenBank OMIM PubMed BLAST Secuencias génicas Herencia mendeliana Búsqueda hemerográfica Alineamientos múltiples de secuencias EMBL: EMBL-Bank UniProt Ensembl Secuencias génicas Secuencias proteicas (primarias) Análisis de genomas PDB Secuencias proteicas (tridimensionales) Prosite Motivos o dominios proteicos Blocks Motivos o dominios proteicos que se presentan en bloques según su nivel de conservación y función biológica Prints Motivos o dominios proteicos observados de manera particular en ciertas familias proteicas (fingerprints) Tabla R. Principales bases de datos y herramientas de la bioinformática. Justificación Octavio Antonio Sánchez Pérez xi Justificación La fusión de las herramientas informáticas y las ciencias biológicas dió como resultado la creación de la bioinformática. En la actualidad la bioinformática se ha convertido en la primera herramienta de investigación del área, siendo ésta un trampolín hacia futuras investigaciones prácticas y teóricas. Sin embargo, la bioinformática ya hace mucho dejo de ser una herramienta de búsqueda en bases de datos proteicas y nucleotídicas; en la actualidad la investigación “in silico”, permite realizar análisis de secuencias o incluso de genomas enteros. Asimismo la bioinformática ha permitido la generación de nuevos conocimientos, principalmente en estudios evolutivos. La bioinformática al paso de los años ha permitido la generación de nuevos softwares cada vez, a una escala de capacidad y velocidad mayor, lo que ha facilitado llevar a cabo estudios entre especies de una manera más eficiente y fidedigna. Además de los beneficios anteriores es importante señalar que la bioinformática con el paso de los años ha permitido conocer y entender mejor las características de las proteínas, al proveer de herramientas que permiten llevar a cabo visualizaciones estructurales de las proteínas o incluso de los motivos o dominios por los que éstas se encuentran constituidos. La bioinformática en la actualidad se ha convertido en la herramienta base para el estudio de la genómica y la proteómica; una rama sin la otra no sería viable. Por los motivos explicados con anterioridad, es importante que los estudiosos de la bioinformática cuenten con una capacitación actual y completa sobre las principales herramientas y bases de datos que proporciona la bioinformática; por lo que el presente manual pretende ser una herramienta textual y práctica para el estudio de ésta, que permita una comprensión real y sea una guía que genere las aptitudes y competencias necesarias en los alumnos de la asignatura de Bioinformática correspondiente a las licenciaturas de “Licenciado en Farmacia” y “Licenciado en Bioquímica Diagnóstica”; permitiéndoles así manejar en su totalidad las herramientas que les proporciona la bioinformática. Asimismo, a futuro se contempla la realización de un complemento electrónico del presente manual, buscando así que la formación académica del alumno cumpla con la totalidad de los objetivos planteados para el curso de la asignatura de bioinformática. Octavio Antonio Sánchez Pérez xii Objetivo Elaborar un manual teórico práctico de bioinformática con la finalidad de capacitar de manera práctica en el uso de las diferentes bases de datos y herramientasde análisis a estudiantes del área de las ciencias biológicas, complementando así su perfil profesiográfico. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 1 PARTE UNO De la genética a la bioinformática. 1. Los ácidos nucleicos. 2. Proteínas. 3. La bioinformática. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 2 Capítulo 1. Los ácidos nucleicos La bioinformática en la actualidad se ha convertido en la herramienta base para el estudio de la genómica; una rama sin la otra no sería viable. Por ello el entendimiento de las características, estructura, propiedades, así como la función del material genético y sus productos, son indispensables para lograr un perfecto desarrollo en el área de la bioinformática. En el presente capítulo se abordarán dichos temas con el fin de lograr un perfecto entendimiento por parte del lector. Características de los ácidos nucleicos. Los ácidos nucleicos, son sustancias que fueron aisladas a partir del núcleo celular en organismos eucariontes, por lo que reciben ese nombre, sin embargo, en la actualidad se sabe que estos se encuentran también en el citoplasma y en organelos como la mitocondria [1-3]. Existen dos tipos de ácidos nucleicos: DNA (ácido desoxirribonucleico), se encuentra en el núcleo y en algunos organelos de las células eucariotas, y en el citoplasma de algunas procariotas o dentro de la estructura proteica de soporte de algunos virus [1,2]. RNA (ácido ribonucleico), principalmente se localiza en el citoplasma de las células y dentro de la estructura proteica de soporte de algunos virus [1,2]. Los ácidos nucleicos desempeñan un papel esencial en la herencia y función celular o viral, presentando características como: su replicación y almacenaje y expresión de información [2-4]. La replicación es la forma de preservación del material heredable. Esta característica es propia del ciclo celular, ya que al término de éste, la información genética será repartida equitativamente a cada célula hija [1,3,4]. La característica de almacenaje, se debe de considerar como la información genética en la que se encuentran los caracteres heredables de una generación; sin embargo, PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 3 ésta información es susceptible de ser o no expresada. Dicha característica se encuentra dada principalmente por el DNA y su expresión dependerá de cada organismo o de cada sistema [1-5]. La expresión es inherente al RNA. El primer paso es la transcripción, que por principio dá como resultado tres tipos de RNA: mRNA (mensajero), rRNA (ribosomal) y tRNA (de transferencia). El mRNA se deriva de un gen específico, que será traducido a una proteína; cada mRNA produce una proteína diferente. La traducción a una proteína es llevada a cabo por los ribosomas, estos se forman con rRNA. A éste se acoplará el mRNA y será reconocido por su anticodón o tRNA que llevará a cabo la síntesis química de la proteína. En conjunto el mecanismo de transcripción y traducción, han sido denominados como el dogma central de la biología molecular (ver fig. 1.1) [1-5]. FIGURA 1.1 Dogma central de la biología molecular Bases moleculares de los ácidos nucleicos. Los ácidos nucleicos son moléculas de un elevado peso molecular, formados por miles o millones de repeticiones de nucleótidos [3,5]. Los nucleótidos se constituyen de tres componentes fundamentales: una base nitrogenada, un azúcar pentósido (es decir azúcar de 5 carbonos) y un grupo fosfato. Dentro de las bases nitrogenadas existen dos bases: púricas (doble anillo con nueve átomos) y pirimídicas (anillo con seis átomos). Las dos purinas presentes en los ácidos nucleicos son: Adenina (A) y Guanina (G). Las tres pirimidinas presentes son: Timina (T), Citocina (C) y Uracilo (U). La figura 1.2 muestra las estructuras químicas de las bases nitrogenadas. El DNA contiene A, G, C y T. La estructura del RNA coincide con el DNA en el contenido de A, G, y C, sin embargo, éste no contiene T y se ve sustituida por U [1,3-7]. El azúcar pentósido presente, confiere al ácido nucleico su nombre. Los ácidos ribonucleicos (RNA) contienen ribosa, mientras que el ácido desoxirribonucleico (DNA) contiene 2-desoxirribosa. En la figura 1.3 se observa la estructura de estos azúcares; en éste, se aprecia que la diferencia entre la ribosa y la desoxirribosa es la presencia de un grupo hidroxilo (OH) en el carbono C-2 (ribosa), mientras que la desoxirribosa carece de éste, observando al carbono de esta posición completamente reducido [,5-7]. DNA RNA Proteína Transcripción Traducción Replicación PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 4 La molécula formada por una base (purina o pirimidina) y un azúcar (ribosa o desoxirribosa), recibe el nombre de nucleósido. Éste se une mediante un enlace N-glucosídico establecido entre el C-1 del azúcar y el N-9 de purina, y el N-1 en caso de la pirimidina, que forman un enlace covalente (ver fig. 1.4). El nucleósido formado recibe su nombre en función de la base nitrogenada que lo conforma. Así, el formado por A y ribosa recibe el nombre de adenosina y el formado por A y desoxirribosa, recibe el nombre de desoxiadenosina. La nomenclatura completa se muestra en la tabla 1.1 [3,7,8]. La unión entre el grupo fosfato y el nucleósido, se lleva a cabo mediante la formación de un enlace fosfodiéster; el enlace se forma debido a un enlace éster entre el fósforo del grupo fosfato y el oxígeno del C-5 del azúcar (ver fig. 1.5). El fosfato unido a un nucleósido recibe el nombre de nucleótido, que es la unidad de repetición básica de la estructura del DNA. Por ejemplo: adenosina más fosfato, recibe el nombre de ácido adenílico (la nomenclatura completa se puede observar en la tabla 1.1) [3,5-8]. Anillo de purina Anillo de pirimidina Adenina Guanina Timina Citosina Uracilo FIGURA 1.2 Estructura química de las bases nitrogenadas que sirven como unidades estructurales para el DNA y RNA. FIGURA 1.3 Estructura de azúcares pentósidos. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 5 FIGURA 1.4 Estructuras química de nucleósidos (azúcar + base nitrogenada). La unión de dos nucleótidos se da a partir de un grupo fosfato unido a dos azúcares; la unión generada consiste en un enlace fosfodiéster (por la unión del grupo fosfato a dos alcoholes de dos azúcares generando una unión éster en ambos lados) (ver fig. 1.6). Cada estructura deja como resultado un extremo C-3´ y C-5´. La unión de dos nucleótidos forma un dinucleótido, la unión de tres forma un trinucleótido, la unión de menos de 20 nucleótidos se puede nombrar como un oligonucleótido y la unión de más de 20 nucleótidos se conoce como un polinucleótido [3,5,6,8,9]. FIGURA 1.5 Estructura de un nucleótido (azúcar + base nitrogenada + grupo fosfato). FIGURA 1.6 Estructura de un dinucleótido, en donde se observan los enlaces fosfodiéster presentes (círculos punteados). PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 6 Tabla 1.1 Nomenclatura de nucleósidos y nucleótidos presentes en el DNA y RNA La estructura del DNA. Anteriormente se mencionó que la estructura básica lineal de los ácidos nucleicos, esta compuesta por residuos de azúcar (desoxirribosa) y fosfato alternados, éstos unidos por un enlace 3´- 5´fosfodiéster. En la mayoría de los organismos y bajo condiciones normales, la estructura que compone al RNA es una molécula lineal única, sin embargo, la estructura correspondiente al DNA es una doble hélice; éstadoble hélice se compone por dos cadenas de DNA unidas entre sí por interacciones débiles de puentes de hidrógeno [3- 7,9,10]. En los años 40, la pregunta fundamental y más importante en la biología era, ¿Cómo esta constituida la estructura del DNA y como funciona éste en la base de la vida? En 1953 James Watson y Francis Crick, publicaron un corto artículo en la revista Nature (ver fig 1.7). En éste, proponían una estructura de doble hélice para la molécula del DNA. Los datos en los que se basaron éstos dos científicos provenían básicamente de dos fuentes: el Estudio de composición de bases de Erwin Chargaff y los estudios de Análisis de refracción de rayos X por Rosalind Franklin [3,4,5,6,8,10]. El Estudio de composición de bases. Erwin Chargaff y sus colaboradores utilizaron métodos cromatográficos para separar las cuatro bases diferentes del DNA de diferentes organismos. Mediante métodos cuantitativos, determinaron la cantidad de las cuatro bases en cada uno de los organismos; dedujeron lo siguiente: Los residuos de adenina, son proporcionales a los de timina; asimismo, los residuos de guanina son proporcionales a los de citosina. La suma de purinas (A+G) es igual a la de las pirimidinas (T+C). El porcentaje de C+G no es necesariamente igual al de A+T [3,5-7]. El Análisis de refracción de rayos X de Rosalind Franklin; una molécula bombardeada con rayos X, dispersará los rayos en relación la forma de la molécula. Franklin al realizar el análisis, confirmó la periodicidad de 3.4 Å vista por Astbury en 1938, sugiriendo que la molécula se componía por una doble hélice [,5-8,10]. Ribonucleósidos Ribonucleótidos Adenosina Ácido adenílico Citidina Ácido citidílico Guanosina Ácido guanílico Uridina Ácido uridílico Desoxirribonucleósidos Desoxirribonucleótidos Desoxiadenosina Ácido desoxiadenílico Desoxicitidina Ácido desoxicitidílico Desoxiguanosina Ácido desoxiguanílico Desoxitimidina Ácido desoxitimídílico PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 7 El modelo de Watson y Crick, Tras la información revisada con anterioridad, Watson y Crick publicaron el artículo en donde presentaron su modelo de la doble hélice (ver fig. 1.7). El modelo propuesto, indica las siguientes características: Esta formada por dos cadenas de polinucleótidos que tienen una posición antiparalela una a la otra, es decir, una de ellas va en sentido 5´ a 3´ y la otra en sentido 3´ a 5´. Esta hélice tiene la característica de ser dextrógira (gira a la derecha). Las bases de ambas cadenas están apareadas mediante puentes de hidrógeno, éste apareamiento se da entre las bases A-T y las bases G-C. Las bases se encuentran apareadas una sobre la otra (perpendiculares al eje) a una distancia de 3.4 Å. Cada giro de la molécula de DNA es completado por 10pb y su medida es de 34 Å. El diámetro total de la hélice es de 20 Å [3-10]. En la figura 1.8 B, se esquematiza la doble hélice sugerida por Watson y Crick. En ésta se observan dos cadenas helicoidales de polinucleótidos con giro hacia la derecha, éstas se enrollan en un eje común formando una doble hélice. Las bases nitrogenadas que la conforman, se encuentran en un apilamiento casi horizontal en el interior del eje y es notoria la unión azúcar-fosfato constituyendo su esqueleto [3- 7,9]. FIGURA 1.7 Artículo presentado por Watson y Crick a la revista NATURE (25 de Abril de 1953); en este exponen su modelo de la doble hélice. Facultad de Biología U.C.M. 2009 (Recuperado Viernes 7 de Agosto del 2009) http://www.ucm.es/info/biologia/actualiz/temp/crick.htm PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 8 Una de las características primordiales del modelo, es su naturaleza antiparalela, es decir, una cadena base se encuentra con una dirección 5´→3´ y su cadena complementarias en una dirección 3´→5´ (ver fig. 1.8 A) [5,7,9]. La característica más importante del modelo de Watson y Crick, es la condición de complementariedad entre bases A(purina)-T(pirimidina) y G(purina)-C(pirimidina); éstas bases al ser complementarias entre sí, brindan la estabilidad química necesaria para mantener la doble hélice unida. La estabilidad química señalada, se logra mediante la formación de puentes de hidrógeno entre las bases, siendo dobles entre las bases A-T y triples con las bases G-C. La doble hélice al tener la conformación descrita, da lugar a la formación de un surco mayor y un surco menor, justificando así la complementariedad explicada anteriormente entre A-T y G-C. Sí esto fuera de otra forma, el diámetro variaría enseguida y la conformación de estos surcos se vería alterada, además, que los puentes de hidrógeno formados entre cada base complementaria se dificultarían y por consiguiente la estabilidad de la doble hélice se vería fuertemente disminuida [3,6,7,9,10]. La posición de azúcar-fosfato en la formación del esqueleto y las bases al interior de la doble hélice, le confiere a la molécula una estabilidad mayor, ya que las bases nitrogenadas al tener un carácter hidrófobo en su posición se encuentran protegidas 3.4 Å FIGURA 1.8 A) Cadenas antiparalelas de DNA. Las cadenas tienen una naturaleza antiparalela por la dirección opuesta en la que cada cadena se encuentra, para así llevar a cabo la polimerización entre el carbono 5´con el 3´y viceversa. B) Representación de la doble hélice propuesta por Watson y Crick. Con un esqueleto constituido por azúcar-fosfato y niveles horizontales constituidos por pares de bases nitrogenadas (10 por cada giro de la doble hélice) Strachan, T.; Read, A. (2006) Genética Humana 3ª Edición. Mc Graw Hill. México. pag. 9. 34 Å A) B) PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 9 del agua y el esqueleto al tener un carácter hidrofílico se encuentra al exterior de la hélice, en dónde puede interaccionar libremente con el agua [5-7]. Aunque en la actualidad se ha observado que cada giro de la doble hélice consta de 10.5 pb y no de 10 como señalaban en su artículo original Watson y Crick; se debe aplaudir el hecho de que con las condiciones trabajadas anteriormente, éstos dos autores hallan sido tan precisos en su razonamiento y hayan regalado el mayor descubrimiento a la biología molecular [5-7]. La estructura del RNA. El RNA es una estructura prebiótica existente aproximadamente desde hace 3.8 millones de años; ésta ha sido merecedora de estudios a partir de la década de 1940 con la aparición de los estudios moleculares. Se ha comprobado que el RNA es resultado de la transcripción del DNA genómico que sirve como molde; ésta transcripción es mediada por enzimas llamadas RNA polimerasas[3,9]. Al igual que el DNA, el RNA se compone por una estructura básica lineal, ésta contiene residuos de azúcar (ribosa) y fosfato alternados, unidos por un enlace 3´-5´ fosfodiéster. A diferencia del DNA, el RNA está conformado por una única cadena de polinucleótidos (excepto en el caso de algunos virus) que contiene 4 bases nitrogenadas: A, U, G, y C (ver fig. 1.9) [3,6-9]. Se han identificado tres principales grupos de RNA. El RNA mensajero (mRNA), el RNA ribosomal (rRNA), éste compone del 85% al 90% del RNA total en un organismo y el RNA de transferencia (tRNA). Sin embargo han sido hallados otros grupos de RNA que llegan a componer hasta el 1% del RNA total en un organismo, éstos son: el RNA pequeño nuclear (snRNA), el RNA pequeño nucleolar (snoRNA) y el RNA pequeño citoplasmático (scRNA) [3,5,7-9]. RNA mensajero (mRNA). El RNA encargado de portar la información genética transcrita del DNA (garantizando así la integridad del DNA) hasta el ribosoma y con ello sea factible la FIGURA 1.9 Estructura delRNA Adenina Guanina Citocina Uracilo PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 10 traducción a proteínas, recibe el nombre de mensajero. Éste RNA estando formado por una cadena de nucleótidos que contienen las bases A, U, G y C. Comprende del 3% al 5% del RNA celular total y tanto sus dimensiones como su vida media (no mayor a unos cuantos minutos), dependen del tamaño del gen transcrito [3,5,6,9,10]. RNA ribosomal (rRNA). El rRNA es un elemento constitutivo y conformacional de los ribosomas, siendo así un componente fundamental en la traducción de las proteínas [3,5,7,10,11]. La importancia de este RNA y su función, es puesta en evidencia tras estudiar la cantidad presente de la molécula en un organismo, siendo ésta de un 85%-90%; así como de la cantidad de ribosomas presentes en el mismo [8-11]. El ribosoma de una célula procariota se encuentra constituido por dos subunidades: 50S y 30S (ver fig. 1.11); la subunidad 50S a su vez se dividen en dos rRNA: 5S y 23S y la subunidad 30S que se divide en el rRNA 16S (el valor S es refiere a la unidad de Svedberg, ésta es una medida de la velocidad de sedimentación); ambas subunidades además están compuestas por r-proteínas (proteínas ribosomales), 34 y 21 proteínas respectivamente [3,6,7,9-11]. En el caso de la célula eucariota, las subunidades presentes son la 60S y la 40S (ver fig. 1.11), la primer subunidad se compone por 3 rRNA: 5S, 5.8S y 28S; la subunidad 40S se compone por un rRNA 18S. Ambas tienen una composición proteínica (r- proteínas), la primera cuenta con 45 proteínas y la segunda con 33 [3,6-8,10]. FIGURA 1.10 Estructura secundaria del rRNA 16S y 5S de E .coli. Se distinguen estructuras como regiones doble helicoidales, asas y vueltas en horquilla. Koolman, J. (2004) Bioquímica Texto y Atlas 3ª Ed. Editorial Médica Panamericana. Argentina. pag. 83. Procariota Eucariota 70S 80S 50S→ 60S→ 30S→ 40S→ FIGURA 1.11 Esquema de los ribosomas presentes en células procariotas y eucariotas en donde se señala el rRNA y proteínas que conforman cada subunidad. 2 rRNA (5S; 23S) 34 r-proteínas 3 rRNA (5S; 5.8S; 28S) 45 r-proteínas 1 rRNA (16S) 21 r-proteínas 1 rRNA (18S) 33 r-proteínas PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 11 RNA de transferencia (tRNA). La molécula de tRNA es la más pequeña de los RNA presentes en un organismo; la longitud de su cadena de polinucleótidos puede variar de los 72 hasta 95 nucleótidos. La estructura tridimensional que presenta el tRNA, es de un orden superior comparado con los demás RNA presentes en el organismo. El tRNA recibe su nombre debido a su acción transportadora de aminoácidos desde el citoplasma hacia el ribosoma con el fin de acoplarse al mRNA y llevar a cabo la síntesis de proteínas. Para realizar su función, el tRNA posee dos regiones fundamentales: el anticodón que interactúa con el codón del mRNA y la región aceptora terminal 3´ (ver fig. 1.12). La estructura secundaria clásica del tRNA, corresponde a la forma de un trébol que posee tres brazos; uno de estos brazos corresponde a la región del anticodón. A la región terminal 3´ se une covalentemente sólo un aminoácido, por lo que se puede señalar que los tRNA son aminoácido específicos [3,5-9]. Una peculiaridad en los tRNA, es su contenido en nucleótidos modificados o en bases que difieren químicamente con la adenina, citosina, guanina y uracilo [3,8,9]. Anticodón Asa variable Asa variable Región de unión al aminoácido (aceptora terminal 3´) FIGURA 1.12 A) Estructura tridimensional del tRNA B) Estructura en forma de trébol de las moléculas de tRNA. Se observan elementos estructurales como las horquillas (4 asas observables) y regiones doble helicoidales estabilizadas por puentes de hidrógeno en las bases complementarias. Diana Yates; University of Illinois at Urbana-Champaign (Recuperado Domingo 16 de Agosto del 2009) http://www.eurekalert.org/multimedia/pub/7027.php?from=109749 A) B) http://www.uiuc.edu/ http://www.uiuc.edu/ PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 12 Organización de la molécula del DNA en la célula. Cromosomas víricos y bacterianos. Los cromosoma víricos y bacterianos en comparación a los cromosomas eucarióticos, son mucho menos complicados. Generalmente éstos se conforman de una única molécula de ácido nucleico que normalmente se encuentra desprovisto de proteínas [3,8]. En particular para los cromosomas víricos, se puede señalar la presencia de cromosomas lineales y circulares, éstos a su vez pueden poseer cadena doble o sencilla. El cromosoma bacteriano se encuentra compactado en estructuras denominadas nucleoides; estas estructuras se componen por una doble cadena de DNA y proteínas de unión al DNA denominadas HU y H, la asociación de estos componentes se facilita debido a la carga positiva de las proteínas de unión y a la carga negativa de los grupos fosfato de la doble cadena, dando lugar a un superenrrollamiento plectonémico (ver fig. 1.13) [3,6,8,10]. Cromosomas eucarióticos. El material genético contenido en una célula eucariota, así como la cantidad de proteínas asociadas a su DNA, promueven que su almacenaje y organización sea más complejo que en los virus y las células bacterianas. Por ejemplo, el DNA de un cromosoma humano (visible fácilmente con un microscopio óptico) tiene una longitud de que va de 14,000 a 73,000µm; en conjunto los 46 cromosomas humanos alcanzan una longitud de casi 2 metros que se encuentra almacenado dentro de un núcleo celular el cual normalmente mide 5 µm de diámetro [,5,6,7,8]. El DNA en interfase es poco compacto y forma una maraña nuclear. Al observarlas con microscopia electrónica se aprecian dos estadios de la cromatina: fibras con un diámetro de 30nm y otras de 10nm. Las fibras de 30nm es cromatina compacta que se encuentra pegada en bucles grandes sobre un esqueleto proteico. Las fibras de 10nm son una serie de “collares de perlas” denominadas nucleosomas [3,6-9]. FIGURA 1.13 A). Superenrollamiento plectonémico. En éste la doble hélice forma una segunda doble hélice al enrollarse sobre un eje a lo largo de la cadena. B) Superenrollamiento toroidal. Éste enrollamiento la cadena de DNA se enrolla alrededor de una estructura cilíndrica. Jiménez, L. F.; Merchant, H. (2003) Biología celular y molecular. Prentice Hall. México. pag. 16. A) B) PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 13 FIGURA 1.14 Esquema de los niveles de condensación del DNA, indicando la manera en la que la fibra de cromatina se condensa durante la mitosis hasta formar un cromosoma perfectamente condensado. Klug, W.; Cumiings, M. (1999) Conceptos de Genética. 5ª Ed. Prentice Hall Iberia. Madrid, España. pag. 526. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 14 En la fase de mitosis, los cromosomas forman estructuras más compactas que se unen al huso acromático en donde es posible su identificación; éstas moléculas se encuentran organizadas dentro de la célula en estructuras muy compactas y se describen a continuación [5,6,8,9]. El primer nivel de condensación del DNA, se da por una interacción DNA-histonas. En general éstas proteínas histonas se componen por tres grupos: 1) histonas nucleosomales: H2A, H2B, H3 y H4; 2) histonas internucleosomales: H1 y 3) proteínas no histonas [5-8]. El primer nivel está compuesto por un centro o núcleo octamérico formado por dos copias de cada histona nucleosomal al cual el DNA se enrolla de manera toroidal (aproximadamente1.6 vueltas con 83pb) (ver fig. 1.13 B). El complejo formado por la interacción DNA-histonas se conoce por el nombre de nucleosoma. Éste complejo es la subunidad fundamental de los cromosomas. El DNA presente entre cada cromosoma es conocido como DNA ligador o DNA separador y tiene una longitud de 20 a 80pb. Éste nivel de condensación aporta una reducción de 6 veces el tamaño del DNA en la célula y arroja como resultado una fibra de 10nm [3,5-9]. El segundo nivel de condensación se logra cuando la histona H1 que cubre alrededor de 20pb y algunas proteínas no histonas, se unen al DNA separador y a la parte media de los 146pb que forma el nucleosoma favoreciendo la formación de solenoides (superestructuras de forma espiral con un diámetro de 30nm y una pendiente helicoidal de 11nm) que están compuestos por 6 nucleosomas cada uno. Cuando la cromatina se condensa, los solenoides se apilan uno sobre otro formando bucles de unos 200nm que contienen aproximadamente 80000pb, éstos bucles se unen a un esqueleto de proteínas (andamio nuclear) que se organiza en bandas miniaturas denominadas minibandas cada 20 bucles [5-9]. Las minibandas formadas se apilan en gran cantidad para formar un cromosoma que contienen no menos de 50 millones de pb cada uno [6-8]. Replicación. Con el fin de transmitir y preservar la información genética durante la división celular, se debe elaborar una copia exacta del material genético antes de pasar al proceso de mitosis. Éste evento se conoce con el nombre de replicación [3,4,10]. El modelo de doble hélice propuesto por Watson y Crick, ayudó a responder diversas dudas existentes sobre la replicación del DNA. A su tiempo y ayudados por su previa propuesta de la doble hélice, ellos mismos propusieron que la replicación del material genético correspondía a una replicación semiconservativa de la doble hélice(ver fig. 1.15), es decir, cada hebra del DNA dará lugar a una nueva doble hélice, manteniendo así una hebra original y una completamente nueva [3,9,10]. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 15 FIGURA 1.15 Esquema de la replicación semiconservativa del DNA. De una doble hélice original, se obtiene dos hijas que tendrán una hebra original y una de nueva síntesis. Strachan, T.; Read, A. (2006) Genética Humana 3ª Edición. Mc Graw Hill. México. pag. 11. En el modelo propuesto por Watson y Crick, se determinó que la dirección que sigue la síntesis de la nueva cadena es del extremo 5´ a 3´, replicándose ambas hebras al mismo tiempo. El mecanismo por el cual se sintetiza la nueva hebra será retomado más adelante [3,9,10]. En el caso de los organismos procariontes que contienen una molécula de DNA circular, la replicación comienza en un punto de origen dirigiéndose hacia ambas direcciones. Al momento de llevarse a cabo la replicación se forma en cada hebra una horquilla de replicación. Al observarla mediante microscopía electrónica aparenta una “Y” en el sitio de replicación. En la molécula circular se forman dos horquillas que circulan en dirección contraria y al final de la replicación se unen en un sitio en común; el mecanismo por el cual se replican éstas moléculas es conocido como el modelo theta “θ” de la replicación, por la forma que toma la molécula en la parte intermedia de la replicación (ver fig. 1.16 y 1.17) [3-5,7,9-11]. FIGURA 1.16 Modelo theta (θ) de la replicación. Se señala el origen de replicación, así como las dos horquillas de replicación (encerradas en líneas punteadas negras) que se forman al replicar el material genético y finalmente obtener dos cromosomas idénticos. Origen de replicación Horquillas de replicación Cromosomas terminados Cromosoma circular “original” FIGURA 1.17 Micrografía electrónica del cromosoma de E. coli en replicación. Las flechas señalan las horquillas de replicación que se forman. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 16 La replicación del DNA bacteriano es guiada por la DNA Polimerasa III. Para que ésta pueda llevarse a cabo es necesaria la presencia de dNTP´s (dATP, dCTP, dGTP y dTTP) como precursores de la nueva hebra y proporcionarán la energía necesaria para la reacción. Además se necesita el DNA parental y un cebador (primer) de RNA como iniciador de la replicación [3,5,7,9-11]. La síntesis de un cadena de DNA inicia cuando un cebador de 4 a 12 nucleótidos, es sintetizado por la enzima RNA polimerasa llamada Primasa, posterior a esto, la DNA polimerasa III sustituye a la Primasa y comienza la síntesis de la cadena de DNA. La síntesis se logra cuando la DNA polimerasa hidroliza el enlace entre dos grupos fosfato (α y β) que se encuentran unidos al carbono 5´de la desoxirribosa del dNTP. Esto permite que el fosfato alfa pueda unirse covalentemente al grupo 3´-OH de la desoxirribosa a la que se une el nucleótido, cada paso añade un nucleótido a la nueva cadena de DNA. Una vez terminada la síntesis, la DNA polimerasa III se separa dando paso a la DNA polimerasa I (nombrada así por ser la primera en ser aislada), que al tener acción de exonucleasa 5´-3´, se une al cebador degradándolo y sintetizando al mismo tiempo el DNA que ocupara éste lugar; asimismo, se encarga de reparar errores durante la replicación. Se ha visto la acción de una RNasa capaz de degradar el cebador antes de que la DNA polimerasa I comience su síntesis [3,5- 7,10,11]. Como se mencionó con anterioridad, la replicación de ambas hebras se da al mismo tiempo, sin embargo, la síntesis de la hebra siempre es en sentido 5´-3´, por lo tanto la síntesis de una de las hebras sería imposible. Éste dilema fue resuelto cuando en 1988 Kornberg propuso un modelo en el que la DNA polimerasa III al tener dos subunidades catalíticas, podría invertir la cadena retrasada o discontinua formando un bucle que si bien no invertiría el sentido 5´-3´de la cadena, si permitiría que la adición de los nucleótidos fuese en sentido 5´-3´ y así se pudiera llevar a cabo la síntesis de ambas cadenas de manera simultánea (ver fig 1.18) [3,5-7,9-11]. . FIGURA 1.18 Esquema del modelo de replicación de Kornberg, es éste se observa la formación del bucle que permite la síntesis simultánea de las dos hebras de DNA. Establecimiento de la horquilla de replicación Primasa y DNA polimerasa III Síntesis en ambas cadenas, en sentido 5´-3´ 5´ 3´ 5´ 3´ 3´ 5´ 3´ 5´ PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 17 La replicación en eucariontes es muy similar, la diferencia principal, radica en el hecho de que la molécula al ser lineal da lugar a múltiples puntos de iniciación, teniendo como consecuencia la formación de diversas burbujas de replicación que eventualmente dan lugar a dos moléculas separadas de doble hélice de DNA [3,5,6,8,11]. En organismos eucariontes la hebra retardada (5´-3´) no forma un bucle para llevar a cabo la elongación como ocurre en los cromosomas circulares; en los eucariontes la elongación de la hebra nueva que parte de la parental retardada ocurre de manera discontinua mediante la formación de fragmentos cortos o fragmentos de Okazaki que corren en dirección contraria a la de su hebra conductora. Los fragmentos resultantes concluyen la síntesis de la hebra nueva, al unirse covalentemente al finalizar la replicación [3,5-9,11,12]. Las etapas necesarias para llevar a cabo la replicación en eucariontes se describen a continuación (ver fig 1.20): La helicasa reconoce el punto de iniciación y cataliza el rompimiento de los puentes de hidrógeno presentes entre sus bases, separando así las dos hebras del DNA. La topoisomerasa (DNA girasa) libera la tensión de la doble hélice induciendo su desenrrollamiento; con éste proceso se completa la formación de lahorquilla de replicación. Las proteínas SSB estabilizan las hebras protegiéndolas de una ruptura hidrolítica de los enlaces fosfodiéster. La primasa sintetiza un cebador (4-12 nt) de RNA que dará inicio a la síntesis de una nueva hebra; la síntesis de éstos cebadores sólo se requiere una vez para la cadena continua, si embargo, en la discontinua se requiere que se sintetice un cebador cada vez que se sintetice un fragmento de Okazaki. FIGURA 1.19 Esquema de la replicación de DNA eucariota; se aprecian múltiples puntos de iniciación y la formación de diversas burbujas de replicación. Puntos de iniciación Burbuja de replicación PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 18 FIGURA 1.20 Modelo de la síntesis de DNA eucariota, en ésta se muestran las enzimas participantes en la reacción. Klug, W.; Cumiings, M. (1999) Conceptos de Genética. 5ª Ed. Prentice Hall Iberia. Madrid, España. pag. 331. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 19 Ya formado el cebador, la DNA polimerasa III inicia la elongación de la nueva hebra de DNA; ésta enzima tiene la capacidad de funcionar como una exonucleasa revisora 3´-5´, así puede interactuar con la cadena recién sintetizada para localizar nucleótidos erróneos o sitios con defectos y repararlos. Terminada la elongación, la DNA polimerasa es retirada dando lugar a la entrada de una RNasa que degrada el cebador, permitiendo que la DNA polimerasa I pueda incrustar bases y rellenar los huecos que eran ocupados por el cebador. Como paso final una DNA ligasa forma los enlaces fosfodiéster entre el grupo fosfato 5´ libre y el sitio OH 3´, con lo que la nueva hebra queda completamente sintetizada [3,5-9,11,12]. Transcripción. La transcripción es el proceso mediante el cual a partir de una molécula de DNA es sintetizado mRNA [3,4]. La transcripción en procariontes y eucariontes es mediada por RNA polimerasas; éstas enzimas tienen una gran similitud con la DNA polimerasa, pero la cadena que sintetiza es de ribonucleotidos. Para llevar a cabo una síntesis de mRNA es necesario además de la RNA polimerasa, una hebra molde de DNA y NTP´s (ATP, GTP, CTP, y UTP) [3-9,11]. Existen tres diferentes tipos de RNA polimerasa: RNA polimerasa I que sintetiza un precursor de rRNA con coeficiente 45S; RNA polimerasa II, ésta enzima se encarga de llevar a cabo la síntesis de hnRNA, que es un precursor del mRNA y del snRNA; y la RNA polimerasa III que transcribe los genes para tRNA y rRNA 5S [,4-8,12]. La transcripción consta de tres pasos fundamentales: el primero es la iniciación, en donde la RNA polimerasa junto con factores de iniciación de la transcripción, se unen a la región promotora del DNA e inicia la transcripción. Al igual que la replicación, la transcripción se dirige en sentido 5´-3´ con la diferencia que sólo una hebra sirve de molde. Una vez unida la RNA polimerasa, sufre una serie de modificaciones estructurales y con ayuda de algunas enzimas como la helicasa y la topoisomerasa, da inicio a la siguiente etapa [3-7,11]. La elongación es el segundo paso de la transcripción; tras sintetizar las primeras diez bases, la polimerasa sufre nuevos cambios estructurales que además de sintetizar la cadena de RNA, le permite desnaturalizar la hélice por delante de ella y renaturalizarla también, así como de disociar la cadena de RNA formada [3-8]. La terminación es el último paso de la transcripción; aquí la enzima deja de transcribir y se separa del gen. En diversas células se encuentra bien caracterizada la secuencia de terminación, aunque en muchas otras no se conoce las señales que le indican a la RNA polimerasa que se detenga [3-8,12]. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 20 En células procariotas la iniciación de la transcripción, se dará a razón del reconocimiento de un promotor que consta de 40 nucleótidos anteriores al nucleótido de inicio de la transcripción (a éste nucleótido se le llama +1, siendo el primer nucleótido del promotor anterior a éste el -1) y posee en su estructura regiones conservadas que se mantienen así en todos los promotores que han sido estudiados [3-8,11,12]. FIGURA 1.21 Iniciación de la transcripción por la RNA polimerasa II. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 21 Las secuencias conservadas en cada promotor, se encuentran situadas aproximadamente en la posición -35 y -10. En la posición -35, habitualmente se localizan tres bases altamente conservadas: TTGACA, teniendo una conservación superior al 75%. En la posición -10 se encuentran tres bases también altamente conservadas: TATATT; a esta región se le conoce como caja TATA o caja Pribnow, y se puede considerar como la región de acoplamiento para la RNA polimerasa y así se de inicio a la transcripción [3,5-8,11]. En el caso de las células eucariotas, la transcripción comienza cuando el factor de iniciación TFIIB se unen a la caja TATA de la región del promotor en el gen; a éste complejo basal se une la RNA polimerasa, con ayuda de la TFIIB. Finalmente se une la TFIIH y mediante la fosforilación de la polimerasa y algunos factores del complejo basal, la transcripción se ve iniciada (ver fig 1.21) [3,5-7,11]. La elongación y terminación procede como se explico con anterioridad para conformar el hnRNA. Se lleva a cabo una serie de procesos postranscripcionales que conllevan la formación de un capuchón (unión de la 7-metilguanosina al extremo 5´) y una poliadenilación (mediante la unión de residuos de adenilato (AMP) al extremo 3´que forma una cola poli-A). Estas modificaciones estabilizaran al transcrito primario; tras la finalización los procesos anteriores, se lleva a cabo un empalme o splicing, en donde se eliminan los intrones presentes en el transcrito y se conforma el mRNA [3,5-9,11]. Capuchón (Capping). La formación del capuchón se da poco después del inicio de la transcripción bloqueando el crecimiento del extremo 5´del transcrito primario. El capuchón se forma a partir de una unión especial 5´-5´ mediante tres fosfatos, entre el primer nucleótido del transcrito y la 7-metilguanosina (7mG) (ver fig 1.22). Ésta unión, provee al mRNA de una protección efectiva contra el ataque de nucleasas y fosfatasas presentes en el citoplasma, además de ser un componente de iniciación en la traducción, debido a que la subunidad pequeña del ribosoma, identificará y se unirá el capuchón como un control y proceso inicial de la traducción [3,5-9,11]. Poliadenilación. La cola de poli-A, es una secuencia de aproximadamente 200-250 nucleótidos (nt) de Adenina. La señal de poliadenilación, se encuentra dada por la secuencia conservada AAUAAAA o AUUAAA, que indica un sitio de corte situado 15-30 nt posteriores de dicha secuencia. Ésta señal de corte se sitúa en el extremo 3´ de la mayoría de los transcritos primarios, siendo la excepción los transcritos que corresponden a los genes de histona y genes snRNA. La posterior poliadenilación, es mediada por la enzima polimerasa poli-A que paulatinamente unirá cada una de las Adeninas que conforman la cola poli-A (ver fig 1.23) [3,5-8,11]. PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 22 FIGURA 1.22 Formación del capuchón 5´ del RNA. Como primer paso la enzima RNA trifosfatasa elimina el fosfato γ del extremo 5´del trascrito primario; en un segundo paso, la enzima guanilil transeferasa promueve un ataque nucleofílico del fosfato β sobre el fosfato α del GTP, tras esto se libera un pirofosfato (fosfatos β y γ). Finalmente la enzima metil transferasa promueve la adición de grupos metilo sobre la guanina recién añadida A G A A G RNA trifosfatasa 1. Guanilil transferasa2. Metil transferasa H3C Metilo 7 3´ HO 3´ HO 5´ 5´ 5´ 5´ α β γ γ β α β α P P P P P P P P P P P P P P P P P FIGURA 1.23 Poliadenilación del extremo 3´del mRNA. AAUAAA AAUAAA AAUAAA Sitio de corte Adición de la cola poli-A AAA….AAA-OH 3´ 15-30 nt PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 23 Empalme (splicing). Sólo una pequeña cantidad del material transcrito será traducido a un producto; el transcrito primario se encuentra conformado por fragmentos codificantes (exones) separados por secuencias intermedias no codificantes (intrones) que no serán traducidas para la conformación de un producto. El proceso final de la transcripción, comprende la escisión de los intrones y el empalme de los exones, mediante dos reacciones de transesterificación, dando como resultado un mRNA maduro que puede ser traducido (ver fig 1.24) [3,7-11]. El proceso de empalme comienza en ciertas regiones conservadas del intrón; en el sitio de empalme 5´se encuentra la región GU, mientras que en el sitio de empalme 3´se encuentra la región AG. Además, dentro del mismo intrón (aproximadamente a 40 nt del sitio de empalme 5´), se encuentra una región conservada denominada sitio de ramificación A, siendo todos éstos componentes necesarios para llevar a cabo el empalme (ver fig 1.24) [3,5-7]. El proceso es sustentado en el núcleo celular por complejos proteicos y de RNA, denominados espliceosomas, formados en esencia por partículas ribonucleoproteica nucleares pequeñas o RNPsn presentes en cinco formas (U1, U2, U4, U5 y U6). El empalme inicia con un ataque nucleofílico del grupo OH 2´de la A en el sitio de ramificación, al grupo fosforilo de la G del sitio 5´, ocasionando la ruptura del enlace fosfodiéster presente entre el intrón y el exón. En ésta primera reacción de transesterificación se da la formación de un nuevo enlace fosfodiéster entre el grupo fosfato del extremo 5´ liberado y el grupo OH 2´ del sitio de ramificación A; esto resulta en un triple enlace fosfodiéster en el sitio de ramificación (ver fig1.25) [3,5-8]. La segunda reacción de transesterificación, tiene lugar entre el extremo OH 3´ del exón previamente liberado y el fosfato del exón 5´. En éste caso e grupo OH 3´ inicia FIGURA 1.24 Empalme de RNA, se observa la escisión de los segmentos correspondientes a los intrones, y el empalme correspondiente a los exones. Sitios de corte Empalme Escisión de intrones GU AG GU AG GU AG GU AG Exón 1 Exón 1 Exón 1 Exón 2 Exón 2 Exón 2 Exón 3 Exón 3 Exón 3 PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 24 con el ataque nucleofílico contra el grupo fosfato 5´, provocando el empalme entre los exones y la escisión del intrón. Debido a la reacción de transesterificación previa, el intrón es liberado en forma de lazo (ver fig 1.26) [3,5-8]. Traducción y el código genético. La información contenida en el material genético codifica para cada proteína necesaria en una célula, sin embargo, el lenguaje de las proteínas no es el mismo que el de los ácidos nucleicos; por lo tanto éste tiene que ser traducido. La traducción, es el proceso mediante el cual a partir de una cadena de mRNA se sintetiza una proteína, éste proceso de traducción, es posible debido a la existencia de un código genético (ver fig 1.27) [5,9]. El material genético debe codificar para los 20 diferentes aminoácidos proteicos mas abundantes en el organismo; la manera en que consigue esto, es mediante la organización del material en tripletes denominados codones que se leen en dirección 5´ a 3´ (en la figura 1.27, se muestran los tripletes posibles, así como el aminoácido para el que transcriben) [6,9-12]. FIGURA 1.26 Mecanismo de empalme. Strachan, T.; Read, A. (2006) Genética Humana 3ª Edición. Mc Graw Hill. México. pag. 21. Sitio de ramificación Sitio de empalme Sitio de empalme Primer ataque nucleofílico y corte en 5´ Corte en 3´ y empalme de exones. Exón 1 Exón 2 Ex. 1 Ex. 2 PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 25 El código genético es universal, es el mismo código para todos los organismos; sin embargo, algunas investigaciones han demostrado que en la mitocondria, en algunas levaduras y algunos insectos, hay codones que difieren [3,12]. El código para 20 aminoácidos se comprende por 64 codones, por lo cual es obvio que un aminoácido pueda tener mas de un codón que codifique para sí mismo; ésta propiedad le da al código la calidad de ser degenerado. Entre los 64 codones mencionados, existen tres que no codificaran para ningún aminoácido, sin embargo éstos señalaran el fin de la transcripción. Por otro lado un codón (ATG para el DNA o AUG para el mRNA) codificara para la metionina, que es la señal de inicio para la traducción de un transcrito [3,6,9,12]. El código se lee de manera regular, los tripletes no son superpuestos, así como tampoco cambian su marco de lectura [3]. El proceso de traducción es efectuado en el citoplasma y es catalizado por partículas ribonucleoproteicas, ribosomas y GTP; consta de tres pasos fundamentales: iniciación, elongación y terminación [9,10]. Iniciación. El proceso de iniciación requiere la participación de diversos componentes como: ribosomas, mRNA, factores de iniciación (IF), moléculas de GTP y el aminoácido de inicio N-formil metionina (fMet-tRNA en procariotas) o Met-tRNA (en eucariotas) [6,9-12]. En primer lugar, los IF-1 y 3 se unen a la subunidad menor del ribosoma, posteriormente un complejo formado por el IF-2 y el GTP, se unen al IF-3; la formación de éste complejo, tiene el fin de estabilizar la subunidad, además de permitir la unión del mRNA a la subunidad (con la posterior salida del IF-3). Tras la unión del IF-2, es posible el acoplamiento del fMet- tRNA o Met-tRNA a la subunidad; en conjunto este complejo, se conoce como complejo de iniciación. Como paso final de la iniciación, se une la subunidad mayor del ribosoma y los IF-1 y 2 son liberados y el GTP es hidrolizado a GDP. Una vez acopladas las dos subunidades, se forman dos sitios: sitio peptidilo P (en donde se sitúa el tRNA que Trp FIGURA 1.27 El código genético. Lectura: TCA = Ser. Koolman, J.; Röhm, K.H. (2004). “Bioquímica Texto y Atlas”. 3ª Edición. Editorial Médica Panamericana. Argentina. pag. T C G A C C C C A A A A T T T T G G G G C C C C C C C C C C C C C C C C T T T T T T T T T T T T T T T T A A A A A A A A A A A A A A A A G G G G G G G G G G G G G G G G Fe Leu Ser Tir Paro Paro Cis Leu Pro His Gln Arg Ile Met Thr Asn Lis Ser Arg Val Ala Asp Glu Gli Trp PARTE UNO. Los ácidos nucleicos Octavio Antonio Sánchez Pérez 26 FIGURA 1.28 Proceso de traducción. Watson, J.D.; Baker, T.A.; Bell, S. P.; Gann, A.; Levine, M.; Losick, R. (2006). “Biología molecular del gen” 5ª Edición. Editorial médica panamericana. España. pags. 457 y 465. porta la cadena polipeptídica) y sitio aminoacil A (en donde se sitúa el tRNA portador del nuevo aminoácido) [3,6,7,9,10,12]. Elongación. El sitio P es
Compartir