Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
198 G E N Ó M I C A , G E N É T I C A Y V I R O L O G Í A Un ORF probablemente será también funcional si su secuen- cia es similar a las secuencias de los ORF de los genomas de otros organismos (independientemente de que codifiquen o no proteínas conocidas), o si el ORF contiene una secuencia cono- cida que codifica un dominio funcional de una proteína. Ello es debido a que las proteínas con funciones similares en célu- las diferentes suelen tener un origen evolutivo común y típica- mente comparten características estructurales y de secuencia (Sección 6.11). Con un ordenador se pueden buscar secuencias parecidas en bases de datos como GenBank. En esta base de datos, que contiene más de 200.000 millones de pares de bases de secuencias, se pueden hacer búsquedas en línea en http:// www.ncbi.nlm.nih.gov/Genbank/. La herramienta de búsqueda de datos más utilizada es BLAST (del inglés Basic Local Align- ment Search Tool, herramienta de búsqueda de alineamientos locales), que tiene diversas variantes según se busquen secuen- cias de ácidos nucleicos o de proteinas. Por ejemplo, el dispo- sitivo BLASTn busca en bases de datos de ácidos nucleicos usando una consulta para ácidos nucleicos, mientras BLASTp busca en las bases de datos de proteínas usando una consulta para proteínas. ORFs no caracterizados Aunque existen diferencias entre los organismos, en la mayoría de los genomas el número de genes cuya función puede identifi- carse claramente es aproximadamente el 70 % del número total de ORF detectados. Los ORF no caracterizados (o desconoci- dos) se dice que codifican proteínas hipotéticas, proteínas que probablemente existan, aunque su función se desconoce. Un ORF no caracterizado tiene un marco de lectura ininterrum- pido de una longitud razonable, y necesariamente codones de inicio y de parada (Figura 6.6). Sin embargo, la proteína que codifica carece de suficiente homología de secuencia con cual- quier proteína conocida como para ser identificada como tal. A medida que se identifican las funciones de los genes en un organismo, se pueden asignar también las funciones de ORF homólogos en otros organismos. No obstante, ya se han iden- tificado la mayoría de los genes para la síntesis de macromolé- culas y del metabolismo central, esenciales para el crecimiento. Por tanto, es probable que la mayoría de los ORF restantes codi- fiquen proteínas no esenciales. Se predice que muchos de los genes no identificados de E. coli codifican proteínas reguladoras o redundantes, algunas de las cuales probablemente sean necesarias solo en condiciones una sola cadena, ambas cadenas se transcriben en alguna parte del genoma (en todos, excepto en los plásmidos más pequeños o en los genomas víricos). Por ello, es necesaria la inspección computarizada de ambas cadenas. La primera etapa para encontrar un ORF es localizar los codones de inicio y de parada en la secuencia ( Sección 4.11 y 4.5). Sin embargo, los codones de inicio y de parada dentro del mismo marco de lectura aparecerán al azar con una frecuen- cia razonable. Por tanto, se necesitan otras pistas. La mayoría de las proteínas celulares contiene 100 o más aminoácidos, de modo que la mayoría de los ORF funcionales serán más largos de 100 codones (300 nucleótidos). No obstante, ignorar ORF más cortos de 100 codones nos hará perder algunos genes cor- tos pero auténticos. En Bacteria, la traducción comienza en codones de inicio que se localizan inmediatamente después de una secuencia de unión del ribosoma (secuencia Shine–Dal- garno) en el mRNA ( Sección 4.13). Por tanto, encontrar posibles secuencias de Shine–Dalgarno puede resultar útil para establecer si un ORF es funcional y qué codón de inicio se usa realmente. Para la mayoría de los 20 aminoácidos existe más de un codón ( Tabla 4.5), y algunos codones se utilizan con más frecuencia que otros. Esto último es conocido como preferencia de codo- nes (uso codónico) y esto difiere mucho entre organismos. Por ejemplo, la Tabla 6.3 muestra las diferentes preferencias de uso de los seis codones para la arginina en Escherichia coli, compa- rado con sus usos en los humanos y en la mosca del vinagre. Si el uso codónico en un ORF determinado es muy diferente del uso codónico consensuado para el organismo en cuestión, el ORF puede no ser funcional, o bien ser funcional pero adqui- rido mediante transferencia horizontal de genes (Sección 6.12). Secuencia codificante Estructura de un ORF Sitio de unión al ribosoma Codón de inicio Codón de parada 1. El ordenador busca los posibles codones de inicio. 2. El ordenador busca los posibles codones de parada. 4. El ordenador busca posibles RBS. 3. El ordenador cuenta los codones entre el inicio y el codón de parada. 6. El ordenador decide si un ORF tiene probabilidades de ser genuino. 7. Lista de ORF probables. 5. El ordenador calcula la preferencia codónica. Figura 6.6 Identificación por ordenador de posibles ORF. El ordenador revisa las secuencias de DNA buscando primero los codones de inicio y de parada. A continuación cuenta el número de codones en cada marco de lectura ininterrumpido y rechaza los demasiado cortos. La probabilidad de encontrar un ORF genuino es mayor si se encuentra un sitio probable de unión al ribosoma (RBS) a la distancia correcta del inicio del ORF. El cálculo de la preferencia de codones se utiliza para evaluar si un ORF cumple con el uso codónico del organismo que está siendo examinado. Tabla 6.3 Ejemplos de preferencia de codones Codón para argininaa Preferencia de cada codón para arginina (%) Escherichia coli Mosca del vinagre Humano AGA 1 10 22 AGG 1 6 23 CGA 4 8 10 CGC 39 49 22 CGG 4 9 14 CGU 49 18 9 aHay seis codones para arginina, véase la Tabla 4.5. https://booksmedicos.org booksmedicos.org Botón1:
Compartir