Logo Studenta

Algoritmo de clasificação de sequências de ADN

¡Este material tiene más páginas!

Vista previa del material en texto

BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA 
 
Facultad de Ciencias de la Computación 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Desarrollo de un algoritmo de clasificación de secuencias de ADN, 
basado en localizar regiones conservadas y una técnica de búsqueda 
heurística. 
 
Tesis profesional presentada para obtener el título de 
 Maestría en Ciencias de la Computación 
 
Presenta: 
Sarahí Zúñiga Herrera 
 
Director de tesis: 
David Eduardo Pinto Avendaño 
 
Asesor externo: 
Javier Garcés Eisele 
 
 
Puebla, Pue., México Noviembre del 2019 
ii 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iii 
 
 
 
 
 
 
 
 
Agradecimientos: 
A mis padres y a mis mentores: 
Doctor Javier Garcés Eisele y 
Doctor Iván Olmos Pineda. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
iv 
 
RESUMEN 
 
 
 
 
 
 
En esta tesis se presenta la aplicación de los algoritmos ID3 y J48 para acelerar el 
proceso de localizar secuencias conservadas y patrones específicos en una base de 
datos con secuencias de ADN del virus de Hepatitis tipo C, para que investigadores 
puedan diseñar una prueba de diagnóstico molecular basada en la reacción en cadena 
polimerasa. 
Además de utilizar estos algoritmos bien conocidos se presenta el desarrollo de un 
algoritmo llamado ID3HCV, que al mismo tiempo de considerar la ganancia de 
información considera el grado de conservación y la importancia que tiene la posición 
del atributo. Este algoritmo está diseñado para favorecer aquellos atributos que son 
mayormente conservados, evaluados a través de una función de evaluación que 
también considera parámetros específicos de las pruebas de PCR basada en los trabajos 
de Steve Lefever, Filip Pattyn, y Jan Hellemans. 
Empleando estos conceptos y utilizando la teoría de árboles de decisión se aplicaron 
los algoritmos ID3HCV y C4.5 a una base de datos con 2000 secuencias ADN de los 
siete tipos de HCV. Estos algoritmos localizaron aquellas regiones de mejor calidad, 
es decir; que están dentro de regiones conservadas y que también son clave para 
discriminar entre los siete tipos de virus. 
Los resultados obtenidos muestran que es posible localizar atributos que podrían 
resolver el problema de clasificación, lo siguiente es que estas propuestas sean 
evaluadas y científicos determinen si es posible diseñar cebadores en las regiones 
propuestas. 
 
 
v 
 
 
 
CONTENIDO 
 
 
 
 
 
 
Resumen...................................................................................................................................iv 
Capítulo 1. INTRODUCCIÓN ..................................................................................................... 1 
1.1 Planteamiento del problema ................................................................................... 2 
1.2 Justificación .............................................................................................................. 4 
1.3 Hipótesis ................................................................................................................... 5 
1.4 Objetivos Generales y Específicos ............................................................................ 5 
1.4.1 Objetivo general ............................................................................................... 5 
1.4.2 Objetivos particulares ...................................................................................... 6 
1.5 Alcances y limitaciones ............................................................................................ 6 
1.5.1 Alcance ............................................................................................................. 6 
1.5.2 Limitaciones ..................................................................................................... 7 
Capítulo 2. MARCO TEÓRICO ................................................................................................... 8 
2.1 Ácido desoxirribonucleico (ADN) ............................................................................. 8 
2.2 Virus de Hepatitis. .................................................................................................... 9 
2.2.1 Genoma del Virus de Hepatitis C. .................................................................. 10 
2.2.2 Diagnóstico del Virus de Hepatitis C. ............................................................. 11 
2.3 Reacción en cadena polimerasa (PCR) ................................................................... 12 
2.3.1 Reactivos de la PCR ........................................................................................ 15 
2.3.2 Diseño de cebadores ...................................................................................... 16 
2.4 Propuestas actuales de solución al “sequence typing problem” (STP) .................. 19 
2.5 Teoría de la información ........................................................................................ 21 
2.5.1 Concepto de Entropía .................................................................................... 24 
2.5.2 Ganancia de información ............................................................................... 25 
2.6 Árboles de decisión ................................................................................................ 25 
vi 
 
2.6.1 Algoritmo ID3 ................................................................................................. 27 
2.6.2 Algoritmo C4.5 ............................................................................................... 29 
Capítulo 3. DESCRIPCIÓN DEL PROBLEMA ............................................................................. 32 
Capítulo 4. METODOLOGÍA .................................................................................................... 34 
4.1 Propuesta de solución ............................................................................................ 34 
4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución ............. 34 
4.1.2 Aplicación de la Ganancia de Información como propuesta de solución ...... 35 
4.2 Propuesta de solución: algoritmo ID3HCV ............................................................. 37 
4.2.1 Implementación del algoritmo ID3HVC ......................................................... 41 
4.3 Propuesta de solución: algoritmo J48 .................................................................... 41 
4.4 Propuesta de solución: algoritmo J48 sobre bases de datos Binarias ................... 42 
Capítulo 5. RESULTADOS ........................................................................................................ 43 
5.1 Resultados algoritmo ID3HCV ................................................................................ 43 
5.2 Resultados algoritmo J48 ....................................................................................... 45 
5.3 Resultados bases de datos binarias usando algoritmo J48 .................................... 46 
Capítulo 6. DISCUSIÓN ........................................................................................................... 49 
Capítulo 7. CONCLUSIÓN Y TRABAJO FUTURO ...................................................................... 52 
Referencias ............................................................................................................................. 54 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
vii 
 
 
 
 
 
 
 
 
 
1 
 
CAPÍTULO 1. INTRODUCCIÓN 
 
 
 
 
 
 
 
El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido 
como un serio problema de salud a nivel mundial. Además, se le conoce por ser el 
responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo 
importante para el carcinoma hepatocelular [8]. Puebla es el estadomexicano con 
mayor mortalidad por cirrosis hepática [9]. 
El VHC posee una alta variabilidad genética, identificándose desde su descubrimiento 
a la fecha siete tipos principales asociados a diferentes comportamientos del virus en 
el hospedero y respuestas al tratamiento [10]. 
Uno de los problemas más frecuentes en el diagnóstico clínico es clasificar una 
secuencia de ADN dada y determinar la clase o subclase, lo que se conoce como 
problema de tipificación de secuencias (STP) [2]. Actualmente, el problema de 
clasificar las secuencias de ADN con una alta tasa de variabilidad es de gran interés 
para el desarrollo de pruebas de diagnóstico. Para resolver el problema de STP se han 
encaminado diferentes propuestas como los propuestos por Garcés basados en 
conceptos de ganancia de información y entropía de Shannon [31, 32]. 
Una de las herramientas principales en el diagnóstico molecular es la reacción en 
cadena polimerasa (PCR, del inglés Polimerase Chain Reaction). La PCR revolucionó 
el campo del diagnóstico molecular, hasta el punto de que en la actualidad representa 
el segmento de mayor crecimiento en los laboratorios clínicos del mundo entero 
[20]. Sin embargo, el diseño de una prueba de diagnóstico por PCR puede resultar 
muy complejo. 
Este trabajo de tesis se planteó el objetivo de desarrollar un algoritmo, para localizar 
regiones conservadas y patrones en secuencias de ADN que sirvan como base para el 
2 
 
diseño de cebadores de una prueba de diagnóstico clínico por PCR que ayude a 
discriminar secuencias de ADN. 
Además de utilizar el criterio de ganancia de información, es necesario no olvidar que 
los resultados serán utilizados para montar una prueba de diagnóstico por PCR, por 
ello consideramos importante tomar en cuenta algunos criterios que pueden optimizar 
el diseño de la prueba. Lefever et al. demostró el efecto que tiene el tipo de desajuste 
en la alineación y posición en un primer en la eficiencia de extensión durante los 
primeros ciclos de la PCR [31]. Utilizando el análisis realizado por Lefever se diseñó 
una función de evaluación que considera sus aportaciones y que, además considerara 
el criterio de ganancia de información. 
La selección de los cebadores es un proceso crítico para asegurar éxito en las pruebas 
de PCR, por ello es importante considerar que para que su diseño sea óptimo deben 
ser ubicados en regiones conservadas, además se deben evitar desajustes en el extremo 
3’ del cebador ya que cuanto más próximo mayor es el impacto que tiene al aumentar 
el número de ciclos necesarios de la prueba. 
 
 
1.1 Planteamiento del problema 
 
 
Para detectar y tipificar al virus de hepatitis C en los laboratorios de diagnóstico de 
Biología Molecular, actualmente existen kits comerciales basados en técnicas de PCR, 
sin embargo, la gran mayoría de ellos no incluyen los siete subtipos actuales y son 
sumamente costosos. 
Para el caso del HCV una de las principales razones para que las pruebas sean tan 
elevadas en precio es la complejidad que se descubre al diseñarlas. Las herramientas 
bioinformáticas que actualmente utilizan Biólogos Moleculares para el diseño de 
cebadores no incluyen un análisis de las secuencias que permita localizar las regiones 
que ayudan a resolver el problema de tipificación del HCV. Los investigadores se 
limitan a observar las secuencias y determinar manualmente cuál es la región correcta 
para diseñar los oligos. Como se muestra en la figura 1 la metodología que actualmente 
se utiliza es alinear secuencias de una base de datos y buscar regiones conservadas 
3 
 
para localizar atributos que permitan identificar secuencias de cada uno de los siete 
tipos de virus de HCV. Por ejemplo, en la figura 1 se observa que utilizando el atributo 
20 se pueden separar las secuencias de las clases HCV1 y HCV4 instanciadas con una 
Timina, conociendo esto, se puede utilizar el atributo 7 y determinar que en caso de 
que la secuencia en esa posición 7 contenga una Guanina pertenece al HCV1 y si 
contiene una C pertenece al tipo HCV4. 
El atributo 20 apunta ser una buena opción ya que ayuda a discriminar secuencias entre 
clases y además se encuentra dentro de una región conservada, sin embargo, el atributo 
7 no parece ser una buena alternativa para diseñar cebadores para una PCR dado que 
se encuentra en una región altamente variable a pesar de que ayuda a clasificar 
secuencias del tipo HCV1 y HCV4. Como se explicará más adelante las regiones 
conservadas y algunos otros criterios son importantes para el diseño de pruebas de 
PCR. 
 
 
Figura 1. Secuencias de ADN alineadas de los 7 tipos de HCV. Localización de los atributos 7 y 20 
que ayudan a clasificar secuencias de HCV1 y HCV4. a) El atributo 7 se encuentra rodeado de 
atributos muy variables. b) El atributo 20 se encuentra rodeado de atributos conservados. 
 
Por otro lado, considerando que las bases de datos que se manejan son ciento de veces 
más grandes a la mostrada en la figura 1, resulta fácil demostrar lo complicado que es 
localizar estos atributos de forma visual. 
 
 
a) Región variable b) Región conservada 
4 
 
1.2 Justificación 
 
 
Tomando como punto de partida que los investigadores realizan la búsqueda manual 
de regiones para el diseño de cebadores de PCR utilizados en la tipificación de HCV. 
Corresponderá como trabajo de esta tesis diseñar un algoritmo que ayude a acelerar el 
proceso y resolver el problema de encontrar secuencias conservadas y patrones en una 
base de datos con secuencias de ADN de los siete tipos de VHC, utilizando por ejemplo 
herramientas de la teoría de la información de Shannon, clasificadores, técnicas 
heurísticas, entre otras. Ver figura 2. Como entrada se trabajará con una base de datos 
con instancias de secuencias altamente variables de los siete tipos de virus de hepatitis 
C. 
 
Figura 2. Metodología del análisis de una base de datos para localizar atributos y diseñar pruebas de 
PCR. 
 
 
5 
 
1.3 Hipótesis 
 
 
Es posible desarrollar un algoritmo basado en heurísticas computacionales que 
permitan localizar zonas conservadas y patrones en secuencias de ADN con un bajo 
costo computacional, que favorezcan al desarrollo de pruebas de diagnóstico por PCR 
para la clasificación de los siete tipos de virus de hepatitis C. 
 
 
1.4 Objetivos Generales y Específicos 
 
 
1.4.1 Objetivo general 
 
 
El objetivo general del trabajo es desarrollar un algoritmo a través del uso de técnicas 
basadas en técnicas heurísticas, para localizar regiones conservadas y patrones en 
secuencias de ADN que sirvan como base para el diseño de una prueba de diagnóstico 
clínico creada por expertos en Biología Molecular, para clasificar secuencias de ADN 
de los siete subtipos de virus de hepatitis C. 
 
El algoritmo recibirá una base de datos con secuencias alineadas y depuradas de ADN 
altamente variables de todos los subtipos de virus de hepatitis C, con el objetivo de 
localizar regiones de secuencias conservadas en las que se deberán ubicar patrones que 
resuelvan el problema de clasificación de los siete tipos de virus que existen 
actualmente. El desarrollo será basado en heurísticas utilizando modelos tales como 
aquellos basados en la teoría de la información de Shannon y otras herramientas de 
análisis. 
 
 
6 
 
1.4.2 Objetivos particulares 
 
 
 Proponer un algoritmo para solucionar el problema de localizar regiones 
conservadas y patrones en secuencias de ADN utilizando todos los recursos 
encontrados durante la revisión de la bibliografía. 
Implementar el algoritmo diseñado para procesar una base de datos con 
instancias de secuencias de ADN del virus de hepatitis C para ubicar regiones 
conservadas y patrones específicos. 
 Medir la calidad de los resultados a partir de métricas cuantitativas y 
cualitativas para determinar la exactitud de la metodología al encontrar 
regionesconservadas. La calidad de los resultados se medirá por medio de dos 
parámetros: medidas cuantitativas, referentes a estadísticas de los resultados de 
acuerdo con los algoritmos diseñados y medidas cualitativas, las cuales se 
basarán en las evaluaciones de los expertos en el dominio. 
 
 
1.5 Alcances y limitaciones 
 
 
1.5.1 Alcances 
 
 
Se desarrollará un algoritmo capaz de identificar regiones conservadas para cada tipo 
del virus de hepatitis C, estas regiones deben facilitar a expertos el diseño de cebadores 
para crear pruebas de tipificación por PCR. Dicho algoritmo será capaz de localizar 
las regiones que resuelven el problema de clasificación de secuencias del HCV de una 
base de datos dada, considerando criterios específicos de la reacción en cadena 
polimerasa. 
 
 
7 
 
1.5.2 Limitaciones 
 
 
A causa de la complejidad del diseño de los cebadores para pruebas de PCR, el 
algoritmo solo podrá proponer aquellas regiones que después de un análisis 
matemático resulten como adecuadas para resolver el problema de clasificación, sin 
embargo, será decisión del experto y de su análisis, aceptar o rechazar las propuestas 
hechas por el algoritmo. 
 
8 
 
 CAPÍTULO 2. MARCO TEÓRICO 
 
 
 
 
 
 
2.1 Ácido desoxirribonucleico (ADN) 
 
 
Cada organismo, sea este un virus, una bacteria, un animal o una planta, posee un 
genoma que contiene la información biológica necesaria para construir y mantener 
cada una de las instancias de ese organismo. La mayor parte de los genomas presentes 
en la naturaleza están constituidos por ácido desoxirribonucleico (ADN) aunque 
ciertos virus poseen ácido ribonucleico (ARN) como material genético. Tanto el ARN 
como el ADN son moléculas poliméricas construidas por cadenas de subunidades 
denominadas nucleótidos. Un nucleótido es un compuesto químico fundamental de 
los ácidos nucleicos, constituidos por una base nitrogenada, un azúcar y una molécula 
de ácido fosfórico [1]. El ADN está compuesto por una mezcla de cuatro de estos 
nucleótidos: la adenina (A), la guanina (G), la citosina (C) y la timina (T). Figura 3. 
 
Figura 3. Doble hélice de ADN. P significa di-éster fosfato, S significa azúcar desoxirribosa, A es 
Adenina, T es Timina, G es Guanina y C es Citocina. 
9 
 
Una molécula de ADN está formada por dos cadenas de estos nucleótidos 
polimerizados, que se denominan bases, formado una estructura que se describe a 
menudo como una doble hélice. Las dos cadenas o hebras del ADN están estabilizadas 
entre por uniones no covalentes, presentes entre las bases de las dos cadenas. Decimos 
que las bases están apareadas o alineadas unas con otras. Este apareamiento tiene lugar 
de una forma muy precisa: la A de una cadena se aparea con la T de la otra cadena y 
la C con la G. La información biológica presente en el ADN se encuentra codificada 
en el orden preciso de esos nucleótidos dentro de la molécula de ADN, lo que 
denominamos secuencia de nucleótidos o secuencia de ADN. 
𝐺𝑤 = ⟨𝑣1, 𝑣2, 𝑣3 … 𝑣𝑛⟩, es una cadena de elementos del alfabeto 
∑𝐴𝐷𝑁, donde ∑𝐴𝐷𝑁 = {𝐴, 𝑇, 𝐺, 𝐶}, 𝑣𝑥 ∈ ∑𝐴𝐷𝑁 
 
Donde una cadena ϕi es una secuencia de ADN formada elementos del alfabeto ∑𝐴𝐷𝑁 
y puede definir las características de un organismo vivo, de hecho, si se conoce una 
cadena o parte de ella se puede determinar a qué organismo pertenece. Así, diferentes 
tipos de análisis de secuencias se pueden utilizar en laboratorios de análisis clínicos, 
por ejemplo: para identificar agentes infecciosos presentes en una muestra de sangre 
tomada de algún paciente. 
 
 
2.2 Virus de Hepatitis. 
 
 
El término hepatitis, proveniente del griego hepar, que significa hígado, fue utilizado 
por primera vez por Bianchi en 1710 y se refiere a todas aquellas enfermedades que 
pueden de una forma u otra inflamar el hígado [3]. La causa más frecuente que provoca 
hepatitis es una infección vírica, aunque también puede ser producida por agentes 
químicos, bacterias o toxinas bacterianas, infecciones parasitarias, por la existencia de 
litiasis en la vesícula, entre otras [4]. De ahí que las hepatitis se dividen en infecciosas 
y no infecciosas. La padecida por la mayoría de los pacientes es la de tipo infecciosa. 
La hepatitis vírica típica en los humanos es producida debido al efecto de varios tipos 
10 
 
de virus, las formas más comunes son la hepatitis por el virus A (VHA), la hepatitis 
por el virus B (VHB) y la hepatitis por el virus C (VHC), que anteriormente se conocía 
como hepatitis no A/no B, y la única relación entre ellas es que todas afectan al hígado 
[3]. La hepatitis causada por el virus de la hepatitis C (VHC) se ha transformado en 
uno de los principales problemas de enfermedades infecciosas emergentes [5]. 
El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido 
como un serio problema de salud a nivel mundial. Se estima que el VHC infecta cada 
año de 3 a 4 millones de personas y que anualmente mueren de 350 000 a 500 000 
personas por enfermedades hepáticas relacionadas con el virus [6]. La Organización 
Mundial de la Salud estimó que 71 millones de personas tenían infecciones crónicas 
por el VHC en 2015 [7]. En la actualidad este virus representa la causa más frecuente 
de enfermedad hepática crónica, cirrosis y trasplante hepático. Además, se le conoce 
por ser el responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo 
importante para el carcinoma hepatocelular [8]. Puebla es el estado mexicano con 
mayor mortalidad por cirrosis hepática [9]. 
El VHC posee una alta variabilidad genética y basándose en ella se han identificado 
desde su descubrimiento a la fecha siete tipos principales asociados a diferentes 
comportamientos del virus en el hospedero y respuestas al tratamiento [10]. 
 
 
2.2.1 Genoma del Virus de Hepatitis C. 
 
 
El genoma del VHC está constituido por una cadena simple positiva de ácido 
ribonucleico (ARN) de entre 9,500-10,000 nucleótidos (9.6 kb), que codifica para una 
poliproteína de aproximadamente 3,010 aminoácidos y caracterizada por un alto grado 
de heterogeneidad genética y con un marco de lectura visible (ORF) [11]. El genoma 
está precedido por una región no codificante 5´(UTR) de 342 bases, altamente 
conservada y resistente a la desnaturalización y seguida por una región no codificante 
3´(UTR) de 15 a 269 bases con una secuencia de poli(A) (adenina) en el extremo 3´ 
11 
 
[12,13]. La porción amino terminal forma la proteína estructural (región 5´terminal) y 
se divide en tres proteínas estructurales (C, E1, E2), mientras que la carboxilo terminal 
(región 3´terminal) da lugar a varias enzimas virales y seis proteínas no estructurales 
(NS2, NS3, NS4a, NS4b, NS5a, NS5b) [13]. Figura 4. 
 
Figura 4. Genoma del virus de la hepatitis C 
 
 
2.2.2 Diagnóstico del Virus de Hepatitis C. 
 
 
La hepatitis C es una enfermedad que permanece desconocida y es raramente 
diagnosticada hasta la aparición de sus complicaciones crónicas. A partir de 1989 
después de la secuenciación del genoma y la descripción del virus mediante técnicas 
de ingeniería genética [14] se hizo posible el diagnóstico de laboratorio. 
Para la detección o diagnóstico de la infección por el VHC y el estado de progresión 
de la enfermedad, existen diferentes pruebas [3]. Los ensayos serológicos, que detectan 
anticuerpos al VHC (anti-VHC), se subdividen en ensayos de escrutinio como los 
inmunoenzimáticos, principalmente los “Enzyme Linked Immunosorbent Assay” 
(ELISA) [15], que usan anticuerpos policlonales o monoclonales (para detectar 
antígenos) o virus completos, péptidos sintéticos o antígenos recombinantes (para 
detectar anticuerpos) [13] y ensayos suplementarios como los “Recombinant 
Immunoblot”, entre ellos el de tercera generación para IgG (RIBA 3.0). Además de las 
técnicas de biología molecular que analizan los ácidos nucleicos(ADN y ARN) éstos 
últimos han sido la herramienta que ha permitido conocer la existencia del VHC a 
12 
 
través de la identificación de su genoma. A nivel diagnóstico han contribuido a la 
determinación de la persistencia del virus en la persona infectada, a establecer su 
genotipo, así como a cuantificar el virus circulante [16]. 
Existen diversas técnicas para la determinación del genotipo viral, unas basadas en la 
amplificación de secuencias (5'UTR, core, NS5b) con cebadores tipo-específicos, o 
seguidas de hibridación a sondas tipo-específicas, o de análisis de restricción de 
producto amplificado; y otras basadas en la determinación de anticuerpos frentes a 
péptidos tipoespecíficos [18,19]. Estas últimas son sencillas y en pacientes 
inmunocompetentes tienen buena concordancia con las técnicas moleculares, pero su 
uso está limitado en pacientes inmunodeprimidos y en el análisis de determinados 
genotipos. 
Los ensayos que permiten detectar, clonar y secuenciar genomas virales, son más 
sensible que las pruebas convencionales aun en pacientes con niveles bajos del ARN 
viral y permiten la detección precoz del virus [12, 17]. Sin embargo, son muy 
sofisticados, requieren de un seguimiento cuidadoso para reducir la contaminación, 
una correcta colección y almacenamiento de las muestras y con problemas especiales 
en la amplificación, debido a la variabilidad de la secuencia del ARN [11]. 
 
 
2.3 Reacción en cadena polimerasa (PCR) 
 
 
En 1983, Kary Mullis, investgador de la compañía Cetus, diseña y patenta un método 
para la amplificación de secuencias específicas de ADN, al que se ha denominado 
PCR, siglas de reacción en cadena de la polimerasa en inglés [20]. 
La PCR revolucionó el campo del diagnóstico molecular, hasta el punto de que en la 
actualidad representa el segmento de mayor crecimiento en los laboratorios clínicos 
del mundo entero, en los que se ha convertido en herramienta de invaluable utilidad y 
una metodología encaminada a obtener cantidades grandes de ADN para su utilización 
en el laboratorio clínico [10]. La PCR es una técnica enzimática que nos permite 
fabricar in vitro un número teóricamente ilimitado de copias de una secuencia de ADN 
13 
 
conocida, gracias a la repetición cíclica de tres pasos o reacciones simples en las que 
solo varia la temperatura de incubación. Esto supone disponer de una forma rápida y 
eficaz de cantidades suficientes de una determinada secuencia de ADN para su 
posterior estudio molecular. 
Conceptualmente, la PCR es un método simple de síntesis de ácidos nucleicos in vitro, 
en el que el número de moléculas generadas se duplica tras cada ciclo del proceso, de 
tal forma que, si se empieza con una sola doble cadena de ADN y suponiendo una 
eficiencia de amplificación del 100%, después de 20 ciclos dispondríamos de un 
millón de copias del fragmento amplificado. Para su realización se requieren reactivos 
básicos, que se someten a diferentes cambios cíclicos de temperatura. Estos son: la 
muestra o molde de ADN a amplificar, dos oligonucleótidos, llamados cebadores, 
iniciadores o primers, cada uno de ellos complementario a cada una de las hebras del 
ADN molde al que flanquean, con una corta distancia entre ellos; una cantidad 
abundante de los precursores de síntesis, (los cuatro deoxinucleótidos trifosfatos 
dATP, dCTP, dGTP, dTTP) y una enzima ADN polimerasa, que se encargará del 
proceso de síntesis de las nuevas copias de ADN a partir del ADN molde [21]. 
Básicamente, el proceso se realiza mezclando los productos descritos en un microtubo 
Eppendorf de 0,2 ml, al que sometemos a una serie de ciclos en los que varía la 
temperatura de incubación [21]. Cada ciclo consta de tres pasos o reacciones: 
 
1. Desnaturalización del ADN muestra bicatenario (dos cadenas) en los que se 
separan las dos hebras complementarias por calentamiento de las mismas a 
95°C. 
2. Renaturalización o unión de los cebadores a las secuencias complementarias 
del ADN muestra por descenso de la temperatura (entre 37° C y 60° C). 
3. Polimerización, síntesis o extensión, en el que la temperatura (72º C) se adecua 
para que pueda actuar la enzima y copiar la hebra de ADN molde mediante la 
adición al extremo 3’ del cebador de los distintos deoxinucleótidos según las 
reglas de la complementariedad, sintetizándose el nuevo ADN en la dirección 
5’ a 3’. 
14 
 
Estos pasos se repetirán cíclicamente, de tal manera que después de cada ciclo habrá 
un crecimiento exponencial de las copias de ADN. Un incremento final de (1 + 𝑒)𝑛, 
donde 𝑒 es la eficiencia de amplificación y 𝑛 es el número de ciclos (Figura 5) [23]. 
Todo este proceso está automatizado, requiriendo sólo una o dos horas desde el 
comienzo de los ciclos hasta el análisis del producto resultante. 
 
 
Figura 5. Amplificación de un fragmento de ADN mediante la reacción en cadena polimerasa. (a) El 
procedimiento de la PCR tiene tres pasos. (1) Se separan las cadenas de ADN por calentamiento, a 
continuación (2) se hibridan con exceso de cebadores de ADN sintético cortos, que flanquean la región 
que se desea amplificar; (3) el ADN nuevo se sintetiza por polimerización. Los tres pasos se repiten 
unos 25 o 30 ciclos [37]. 
 
 
 
 
 
15 
 
2.3.1 Reactivos de la PCR 
 
 
 Enzima Taq polimerasa 
La enzima para llevar a cabo la amplificación de ADN fue descubierta en 1988 
procedente de una bacteria termófila, Thermus aquaticus, que vive a 
temperaturas de 70-75° C en fuentes termales. La Taq polimerasa, como se la 
denomina, presenta una temperatura optima de actuación entre 75-80° C, 
siendo más resistente al calor, de forma que tras 50 ciclos a las condiciones 
citadas conserva el 65 % de su actividad [24]. 
 Oligonucleótidos o cebadores 
Como hemos visto, para poder sintetizar copias de un determinado fragmento 
de ADN debemos previamente conocer al menos la secuencia de los dos 
extremos del fragmento. Conocidas estas secuencias, se sintetizan los dos 
oligonucleótidos, cebadores o primers. Un cebador o primer es un segmento 
de cadena (complementario molde) con un grupo 3’-hidroxilo libre al cual 
pueden añadir nucleótidos que serán complementarios a cada flanco de cada 
una de las hebras del ADN a amplificar, de tal manera que uno de ellos 
hibridará con la hebra en sentido 5’-3’ y el otro con la complementaria 3’-5’ o 
antisentido. A partir de aquí, la enzima podrá llevar a cabo su actividad de 
síntesis, siempre desde el extremo 3’ término del cebador y en la dirección 5’-
3’ [21]. (Ver figura 5). El tamaño del cebador puede variar. Se ha visto que 
con un tamaño de 15-20 bases un cebador tiene una elevada posibilidad de 
unirse a un solo lugar del genoma humano; si el cebador es más largo, la 
especificad será mayor, y viceversa. 
 Otros reactivos 
Aparte de los ya citados, cebadores y enzima, debemos incluir en el tubo de 
reacción los cuatro deoxinucleótidos trifosfatos y MgCl, en un tampón 
adecuado, normalmente Tris-HCL, pH 8,4, a temperatura ambiente y, por 
supuesto, la muestra del ADN que queremos amplificar. 
 
16 
 
El proceso de PCR se desarrolló originalmente para amplificar segmentos cortos de 
una molécula de ADN más larga [25]. Una vez ensamblada, la reacción se coloca en 
un termociclador, un instrumento que somete la reacción a cambios de temperatura 
según un programa determinado. Esta serie de ajustes de temperatura y tiempo se 
conoce como un ciclo de amplificación. Cada ciclo de PCR teóricamente duplica la 
cantidad de la secuencia seleccionada por los cebadores (amplicón) en la reacción. 
Cada ciclo de PCR incluye pasos para la desnaturalización de la plantilla, de la 
alineación del cebador y la extensión del cebador [26]. 
 
 
2.3.2 Diseño de cebadores 
 
 
La PCR se caracteriza por ser una técnica con alta sensibilidad, reproducibilidad y 
eficiencia, que genera resultados fiables en poco tiempo y fáciles de analizar[27,28]. 
Sin embargo, el diseño de una prueba de diagnóstico de PCR puede ser muy complejo, 
si el número de secuencias a clasificar es grande y, además, son muy variables. El 
diseño óptimo de los cebadores es esencial para maximizar la especificidad y la 
eficiencia de una PCR [29]. Un diseño deficiente de los cebadores puede dar lugar a 
cantidades pequeñas, nulas o no específicas del producto de amplificación. Un diseño 
apropiado es uno de los factores más importantes para el éxito de una PCR [27]. En 
general, el diseño de los primers se resume en 4 puntos principales. 
 
1. El primero es obtener una base de datos con las secuencias genéticas objetivo, 
esta base de datos se puede obtener en bancos de secuencias internacionales 
como GenBank o fuentes más selectivas como ViRP donde se encuentran las 
secuencias genéticas de patógenos virales, incluido el VHC. 
2. El segundo paso es procesar la base de datos alineándola utilizando cualquiera 
de las herramientas computacionales disponibles actualmente, como Strap, 
ClustalX o Clustal Omega, MUSCLE entre otras [30] para localizar las 
regiones homólogas y conservadas y por otro lado herramentas como Jalview 
para la visualización de alineaciones de secuencias. Una región conservada 
17 
 
comprende un intervalo de comparación de nucleótidos en las donde la 
repetición de aparición de los nucleótidos es muy similar o idéntica. La 
alineación de secuencias es el proceso mediante el cual las secuencias se 
comparan mediante la búsqueda de caracteres comunes y el establecimiento de 
los residuos de correspondencia entre las secuencias relacionadas, para resaltar 
zonas de similitud las cuales podrían indicar relaciones funcionales, evolutivas 
o de interés para su análisis. Estas regiones son interesantes porque si hay un 
alto grado de conservación, la probabilidad de amplificación para una PCR 
aumenta. 
3. El tercer paso corresponde a la identificación de los oligonucleótidos o 
cebadores. Seleccionar aquellos nucleótidos que cumplan con los criterios 
químicos que garantizan especificidad y sensibilidad. Cada primer individual 
debe contar con una longitud de 18-24 bases. Seleccionar secuencias en las que 
no abunden repeticiones de bases (polipurinas o polipirimidinas), ya que 
contribuyen a la inespecificidad de la reacción, se debe mantener un contenido 
de G:C (Guanina:Citosina) entre 40 y 60 %. Los dos primers del par deben de 
tener temperatura de fusión 𝑇𝑚 cercanos dentro de los 5 °C. La secuencia de 
los primers individuales debe iniciarse y terminarse con 1 o 2 bases púricas. 
Evitar secuencias que puedan formar estructuras secundarias por sí mismas, 
pues esto dificultaría la unión de los cebadores al ADN muestra y podría haber 
autoamplificación. Evitar poli X, secuencias adicionales pueden ser agregadas 
en el extremo 5’ del primer, se pueden agregar degeneraciones en algunas 
posiciones del primer. Un primer degenerad es una combinación de secuencias 
de oligonucleótidos en las que pocas bases se alteran de tal manera que el 
cebador cubre todas las combinaciones de nucleótidos posibles para la proteína 
objetivo a través de la secuencia de ADN. Comprobar en bancos de datos que 
las secuencias de oligonucleótidos elegidas no estén en otro lugar del genoma, 
lo que podría llevarnos a amplificar regiones no deseadas. Comprobar que los 
cebadores, si no pueden ser 100 % complementarios al ADN molde en toda su 
extensión, sí lo sean al extremo 3’ término por ser éste el lugar de unión de la 
Taq polimerasa [15]. Los cebadores se añaden a la reacción en un exceso molar 
sobre el ADN molde, de manera que la formación del complejo cebador-ADN 
18 
 
molde se vea favorecida sobre la reasociación de las dos hebras del ADN molde 
en el segundo paso del ciclo cuando desciende la temperatura. 
Para diseñar y analizar un par de primers para ser usados en una reacción de 
PCR contamos con varios programas. Primer3 es una aplicación que se 
encuentra libre para su uso en diferentes servidores web. Este software permite 
especificar un gran número de variables y obtener primers según las 
indicaciones solicitadas. Además, permite agregar el número de acceso de la 
secuencia, que se halla en las bases de datos internacionales. También permite 
discriminar las regiones de la secuencia que se deben incluir, las que se deben 
excluir y el rango de tamaños del producto. Por otra parte, el software incluye 
la posibilidad de especificar las características mínimas de los primers 
deseados, como Tm, porcentaje de GC, máxima autocomplementariedad, y 
otros parámetros. También presenta las mismas facilidades si se está buscando 
y analizando una sonda, por ejemplo, para utilizarse en trabajos de hibridación. 
4. El cuarto corresponde a la síntesis y evaluación in vitro de los cebadores 
propuestos para las reacciones de PCR. 
 
El tercer paso se describe como la parte más costosa de todo el diseño en términos de 
tiempo y recursos económicos, especialmente para las pruebas en las que se desea 
realizar una clasificación de secuencias, como se menciona en el caso del VHC, ya que 
dos factores deben considerarse principalmente: El primero es seleccionar regiones 
que nos permitan distinguir entre una clase y otra; el segundo es el establecido en las 
condiciones químicas y termodinámicas que garantizan la amplificación de la PCR 
mencionadas anteriormente. 
En el segundo factor, actualmente hay varios programas de computadora que realizan 
estas tareas, como oligo7 y primer3 [30]. El nivel de desarrollo de estos programas es 
tan alto que para las pruebas de identificación es suficiente ingresar la secuencia al 
programa y esto dará como resultado una serie de las mejores propuestas para los 
cebadores, lo que dejará al investigador poco o nada para mejorar y aceptar la 
propuesta hecha por el software. Sin embargo, para el primer factor y basado en el 
estudio realizado en el estado del arte, no existen herramientas computacionales que 
permitan la selección de los cebadores clasificadores de las secuencias de interés. 
19 
 
Actualmente, los investigadores se limitan a observar las secuencias y determinar 
manualmente cuál es la región correcta para diseñar los oligos para resolver el 
problema de clasificación. 
Un diseño idóneo de PCR consta de un número pequeño de reacciones para la 
amplificación con una sensibilidad homogénea de todos los tipos virales. Sin embargo, 
el diseño de una prueba de diagnóstico por PCR puede resultar muy complejo, si la 
cantidad de tipos del virus a clasificar es grande y las secuencias de ADN para el diseño 
son altamente variables. Por esta razón la mayoría de los diseños actuales de PCR no 
cumplen con todas estas expectativas ya sea excluyen ciertos tipos virales por su baja 
prevalencia en una región geográfica dada o no logran una asignación correcta del tipo 
y subtipo viral en todos los casos. 
 
 
2.4 Propuestas actuales de solución al “sequence typing problem” 
(STP) 
 
 
Uno de los problemas más frecuentes encontrados en el diagnóstico es tener que 
clasificar una secuencia dada y determinar el tipo o subtipo de la clase a la que 
pertenece y es llamado problema de clasificación de secuencia (STP sequence-typing 
problem) [2]. 
Para proponer soluciones al problema STP, en términos computacionales: al problema 
de clasificación de secuencias de ADN, se utilizan diferentes herramientas del área de 
computación que son de ayuda a investigadores para localizar regiones conservadas 
para diseñar cebadores y se puede partir, por ejemplo, con diversos algoritmos como 
de alineación y búsqueda de regiones conservadas. Estas herramientas proporcionan 
resultados que pueden ser la base para el diseño de pruebas de diagnóstico. 
Algoritmos para localizar regiones conservadas y determinar el grado de semejanza 
entre secuencias de ADN requieren elaborar el alineamiento y contar (directa oindirectamente) el número de posiciones equivalentes conservadas. Un proceso 
20 
 
fundamental para localizar zonas conservadas dentro de un conjunto de secuencias, es 
el proceso de alineación: proceso por el cual, se comparan las secuencias mediante la 
búsqueda de caracteres comunes y el establecimiento de los residuos de 
correspondencia entre las secuencias relacionadas. El alineamiento de pares de 
secuencias es fundamental en la búsqueda de similitudes dentro de la base de datos 
[34]. Existe el alineamiento global aplicado cuando las secuencias son similares y de 
aproximadamente el mismo tamaño por ejemplo el algoritmo de Needleman Wunsch 
y el alineamiento local aplicado para secuencias diferentes en las que se sospecha que 
existen regiones muy similares por ejemplo el algoritmo de Smith-Waterman [35]. 
Por otro lado existen diversas herramientas para alineamiento de secuencias múltiple, 
uno de los más utilizados es el MEGA, otros tres programas de creación y 
visualización de alineamientos múltiples son Jalview, Strap y ClustalX [30]. 
Entre estas herramientas una de las más utilizadas en bioinformática para el 
alineamiento de secuencias múltiple y diseño de pruebas de diagnóstico es Clustal 
Omega que hace uso de un algoritmo centrado en Modelos Ocultos de Marcov. Este 
algoritmo ofrece la ventaja de ser bastante rápido en comparación a herramientas 
basadas en los algoritmos anteriormente mencionados, también es capaz de producir 
no sólo alineamientos globales, sino también locales [34]. Esta herramienta además 
del alineamiento permite localizar regiones conservadas entre las secuencias 
marcándolas con un solo color para que sea sencillo ubicarlas en forma visual. Si el 
investigador desea diseñar una prueba de diagnóstico para tipificar diferentes 
genotipos Clustal Omega deja a su criterio elegir aquellas regiones que considere como 
las indicadas para basar su diseño de prueba. 
A pesar de la gran variedad de algoritmos y programas que existen para alinear y 
localizar secuencias conservadas, actualmente las herramientas de acceso público han 
sido poco eficientes para localizar regiones conservadas que faciliten la tipificación y 
el diseño de pruebas de diagnóstico molecular en un conjunto de secuencias de ADN 
que pertenecen a múltiples clases. Actualmente, los investigadores se limitan a utilizar 
las herramientas disponibles y finalmente observar, analizar las secuencias y 
determinar manualmente cuál es la región correcta para resolver el problema de 
clasificación. 
http://www.megasoftware.net/
http://www.jalview.org/
http://www.bioinformatics.org/strap/
http://www.clustal.org/clustal2/
21 
 
En Puebla existen laboratorios donde se hace investigación y desarrollo de pruebas de 
diagnóstico molecular y hay un especial interés en desarrollar una prueba de 
diagnóstico molecular para la tipificación viral de hepatitis tipo C. 
Bajo la dirección del Doctor Javier Garcés Eisele, se han dirigido proyectos desde hace 
varios años enfocados al desarrollo de propuestas para encontrar secuencias 
conservadas de ADN y secuencias patrón que sirvan como base para el diseño de 
pruebas por PCR. Para resolver el problema de STP se han encaminado diferentes 
propuestas, por ejemplo; en el año 2002 y 2004 se desarrollaron dos trabajos de tesis 
bajo la dirección del Doctor Garcés y su equipo de trabajo, en las que se propone una 
solución al problema de STP para el virus de papiloma humano (VPH) [31, 32] 
utilizando herramientas alineación de secuencias, procesos de agrupamiento 
(clustering), herramientas de la teoría de la información de Shannon como entropía y 
ganancia de información. Su propuesta ayudó a diseñar una prueba de diagnóstico 
molecular por RFLP-PCR (Restriction Fragment Lenght Polymophism coupled to 
Polymerase Chain Reaction) que actualmente es utilizada en laboratorios para el 
diagnóstico de VPH [2, 31]. 
 
 
2.5 Teoría de la información 
 
 
El concepto de información se ha convertido en una noción importante para muchos 
niveles del conocimiento a partir de las elaboraciones que Claude Shannon (1948, 
1949) realizó, a finales de los años cuarenta para optimizar los procesos de transmisión 
de señales codificadas. 
A partir de la acelerada difusión y especialización que experimentan los medios de 
comunicación en el procesamiento y transmisión de información durante la primera 
mitad de nuestro siglo, se desarrolló el primer modelo científico del proceso de 
comunicación conocido como la Teoría de la Información o Teoría Matemática de la 
Comunicación. La primera formulación de las leyes matemáticas que gobiernan dicho 
22 
 
sistema fue realizada por Hartley (1928) y sus ideas son consideradas actualmente 
como la génesis de la Teoría de la Información. Posteriormente, Shannon y Weaver 
(1949) desarrollaron los principios definitivos de esta teoría. 
La teoría de la información no trata directamente sobre las señales físicas sino sobre 
los mensajes codificados. Así, es posible realizar un análisis matemático de “... la 
medida de la información, la capacidad de un canal de comunicación para transferir 
información y la codificación como un medio de utilizar los canales a toda su 
capacidad” [36]. 
Shannon estaba interesado en los principios de diseño de los sistemas de transmisión 
y recepción de señales que minimizaran la probabilidad de error en el proceso. Así, 
concibió una definición de información en función de la probabilidad de ocurrencia de 
un mensaje: la información (𝐼) se definió como el logaritmo (base 𝑏) del inverso de la 
probabilidad de ocurrencia del mensaje (𝐴): 
𝐼 = 𝑙𝑜𝑔𝑏(
1
𝑃𝐴
) 
(1) 
La información depende exclusivamente de la probabilidad de ocurrencia del mensaje 
y no del contenido semántico. Si un mensaje es poco probable, contiene mucha 
información; si es muy probable, contiene poca información. En los casos extremos, 
un mensaje con probabilidad uno contiene cero informaciones; por el contrario, un 
mensaje con probabilidad cero contiene infinita información. La definición ofrecida 
tiene sentido si es posible asignar una probabilidad a los mensajes, lo que implica la 
existencia de un conjunto de mensajes posibles donde podemos hacer la asignación de 
probabilidades, es decir, hablamos de probabilidades calculables a priori sobre la 
ocurrencia específica de un mensaje, pero a posteriori sobre el conjunto de señales 
posibles [38]. 
El mensaje podría ser en una secuencia de letras carentes de todo significado e 
igualmente el problema de cuánta información es transmitida estaría presente. En un 
sentido amplio, la Teoría de la Información trata acerca de la cantidad de información 
que es transmitida por la fuente al receptor al enviar un determinado mensaje, sin 
considerar el significado o propósito de dicho mensaje. No interesa tanto la pregunta: 
“¿Qué tipo de información?” sino más bien, “¿Cuánta información?” es la que 
transmite la fuente. 
23 
 
Shannon resume en 1948 que la entropía es una medida de la información o 
incertidumbre de experimentos probabilísticos. La entropía de Shannon mide, por lo 
tanto, el grado de desorden (o azar) de un sistema. 
Después de su aparición en un contexto tecnológico, la teoría de la información 
encontró aplicación en otros campos teóricos. Quizá el caso más espectacular de 
transferencia analógica fue la aplicación del concepto de información de Shannon en 
la biología molecular. El descubrimiento de la estructura bioquímica de los ácidos 
nucleicos (ADN y ARN) en los años cincuenta señaló el mecanismo fundamental de 
la herencia y abrió un territorio de investigación en biología. Se encontró que las 
secuencias genéticas se formaban por el encadenamiento químicamente arbitrario de 
bases nucleicas (en cuatro posibilidades: dos purinas y dos pirimidinas). La 
transmisión de caracteres hereditarios se interpretó entonces como un resultado causal 
dela decodificación de la información contenida en las secuencias genéticas. No tardó 
en hablarse de las cuatro bases como el alfabeto del código genético y de las secuencias 
genéticas como los programas de desarrollo de los sistemas biológicos. En tal contexto, 
resultó completamente natural la aplicación del concepto de información de Shannon. 
Las secuencias genéticas podían verse como mensajes escritos en un código 
especificado, donde las posibilidades combinatorias del alfabeto podían calcularse, 
formalizando de ese modo el concepto de información genética. 
Por otro lado, Benish WA (1999), aplicó la Teoría de Información de Shannon a 
pruebas de análisis clínicos calculando la Ganancia de Información pre y post-prueba. 
La teoría de Información fue aplicada con éxito también al problema de clasificación 
de los codones para revelar el orden presente en el código genético [41]. Ha sido 
utilizada igualmente para esclarecer las interrelaciones entre estructura, función y 
evolución de una familia de genes o productos génicos [42]. Ebeling y Frommel en 
1998 aplicaron el concepto de entropía como la capacidad para describir la estructura 
de portadores de información tales como el ADN, proteínas, texto y notas musicales 
[43]. La investigación de Solis et al. en el año 2000 propone un método para extraer la 
cantidad máxima de información disponible de estructuras peptídicas en fragmentos 
de secuencias, encontrando que la manera en la cual la estructura es representada, 
afecta la cantidad y calidad de información estructural que puede ser extraída de 
secuencias [44]. 
24 
 
2.5.1 Concepto de Entropía 
 
 
Sea 𝑊 el número de microestados que un sistema puede tener en un estado en 
particular. Intuitivamente aceptamos que un estado altamente ordenado tiene un 
número de microestados pequeño en comparación a un estado desordenado. 
Generalmente se usa la entropía como medida del grado de desorden en un sistema. 
Cualquiera que sea la forma de cuantificar el grado de desorden, esperamos que esta 
función aumente monótonamente con el número de microestados del sistema. 
Adicionalmente, la entropía de un sistema debería ser la suma de la entropía de dos 
subsistemas. Una función que cumple con estas características es: 
𝐻 = log 𝑊 
(2) 
 
Asumiendo que cada microestado es equiprobable, entonces podemos expresar la 
probabilidad de cada microestado como: 
𝑝𝑖 = 
1
𝑊
 
(3) 
Así obtenemos: 
𝐻(𝑆) = − log 𝑝𝑖 
(4) 
 
Si los microestados no son equiprobables, entonces tenemos que modificar la 
expresión por el valor esperado. En caso de una variable aleatoria numérica 𝑥, el valor 
esperado 𝐸𝑥 corresponde a la suma de los productos de probabilidad 𝑝𝑖 de obtener un 
valor numérico y el valor numérico 𝑛𝑖 correspondiente: 
𝐸𝑥 = ∑ 𝑝𝑖𝑛𝑖
𝑖
 
(5) 
 
Aplicado a nuestro caso de microestados no equiprobables obtenemos entonces: 
𝐻(𝑆) = − ∑ 𝑝𝑖 log 𝑝𝑖
𝑖
 
(6) 
25 
 
Esta es la definición de la Entropía de Shannon y es máxima cuando los eventos o 
microestados son equiprobables. La base logarítmica es una elección arbitraria [36]. 
La Entropía de Shannon puede interpretarse en este como el grado de error o 
certidumbre de un problema de clasificación. Visto de otro modo, la entropía de 
Shannon puede interpretarse como la información que se requiere obtener para 
resolver el problema de clasificación. Sin embargo, no nos dice cómo obtener esta 
información del análisis de los atributos de los elementos. 
 
 
2.5.2 Ganancia de información 
 
 
La ganancia de información es la herramienta que nos permite cuantificar la 
información proporcionada por un estado con respecto al problema de clasificación y 
nos permite así resolver el problema de clasificación. La ganancia de información se 
define como la diferencia entre la entropía de Shannon antes 𝐻(𝑆) y después 𝐻 (𝑆 |𝐴𝑖) 
de conocer el valor del atributo 𝐴𝑖: 
𝐼𝐺(𝐴𝑖) = 𝐻(𝑆) − 𝐻 (𝑆 |𝐴𝑖) 
(7) 
La cual es siempre  0. 
 
 
2.6 Árboles de decisión 
 
 
Un árbol de decisión es un modelo de predicción cuyo objetivo principal es el 
aprendizaje inductivo a partir de observaciones y construcciones lógicas [45]. Son muy 
similares a los sistemas de predicción basados en reglas, que sirven para representar y 
categorizar una serie de condiciones que suceden de forma sucesiva para la solución 
de un problema. Constituyen probablemente el modelo de clasificación más utilizado 
y popular. El conocimiento obtenido durante el proceso de aprendizaje inductivo se 
26 
 
representa mediante un árbol. Un árbol gráficamente se representa por un conjunto de 
nodos, hojas y ramas. El nodo principal o raíz es el atributo a partir del cual se inicia 
el proceso de clasificación; los nodos internos corresponden a cada una de las 
preguntas acerca del atributo en particular del problema. Cada posible respuesta a los 
cuestionamientos se representa mediante un nodo hijo. Las ramas que salen de cada 
uno de estos nodos se encuentran etiquetadas con los posibles valores del atributo. Los 
nodos finales o nodos hoja corresponden a una decisión, la cual coincide con una de 
las variables clase del problema a resolver. Este modelo se construye a partir de la 
descripción narrativa de un problema, ya que provee una visión gráfica de la toma de 
decisión, especificando las variables que son evaluadas, las acciones que deben ser 
tomadas y el orden en el que la toma de decisión será efectuada. Cada vez que se 
ejecuta este tipo de modelo, sólo un camino será seguido dependiendo del valor actual 
de la variable evaluada. Los valores que pueden tomar las variables para este tipo de 
modelos pueden ser discretos o continuos [45]. Un algoritmo de generación de árboles 
de decisión consta de 2 etapas: la primera corresponde a la inducción del árbol y la 
segunda a la clasificación. En la primera etapa se construye el árbol de decisión a partir 
del conjunto de entrenamiento; comúnmente cada nodo interno del árbol se compone 
de un atributo de prueba y la porción del conjunto de entrenamiento presente en el 
nodo es dividida de acuerdo con los valores que pueda tomar ese atributo. La 
construcción del árbol inicia generando su nodo raíz, eligiendo un atributo de prueba 
y dividiendo el conjunto de entrenamiento en dos o más subconjuntos; para cada 
partición se genera un nuevo nodo y así sucesivamente. Cuando en un nodo se tienen 
objetos de más de una clase se genera un nodo interno; cuando contiene objetos de una 
clase solamente, se forma una hoja a la que se le asigna la etiqueta de la clase. En la 
segunda etapa del algoritmo cada objeto nuevo es clasificado por el árbol construido; 
después se recorre el árbol desde el nodo raíz hasta una hoja, a partir de la que se 
determina la membresía del objeto a alguna clase. El camino a seguir en el árbol lo 
determinan las decisiones tomadas en cada nodo interno, de acuerdo con el atributo de 
prueba presente en él. 
El primer sistema que construía árboles de decisión fue CLS de Hunt, desarrollado en 
1959 y depurado a lo largo de los años sesenta. CLS es un sistema desarrollado por 
psicólogos como un modelo del proceso cognitivo de formación de conceptos 
sencillos. Su contribución fundamental fue la propia metodología, pero no resultaba 
computacionalmente eficiente debido al método que empleaba en la extensión de los 
27 
 
nodos. Se guiaba por una estrategia similar al minimax con una función que integraba 
diferentes costes. 
En 1979 Quinlan desarrolla el sistema ID3 [47], que él denominaría simplemente 
herramienta porque la consideraba experimental. Conceptualmente es fiel a la 
metodología de CLS pero le aventaja en el método de expansión de los nodos, basado 
en una función que utiliza la medida de la información de Shannon. La versión 
definitiva, presentada por su autor Quinlan como un sistema de aprendizaje, es el 
sistema C4.5 que expone con cierto detalleen la obra C4.5: Programs for Machine 
Learning [48]. La evolución -comercial- de ese sistema es otro denominado C5 del 
mismo autor, del que se puede obtener una versión de demostración restringida en 
cuanto a capacidades; por ejemplo, el número máximo de ejemplos de entrenamiento. 
 
 
2.6.1 Algoritmo ID3 
 
 
El sistema ID3 [49] es un algoritmo simple y, sin embargo, potente, cuya misión es la 
elaboración de un árbol de decisión. El procedimiento para generar un árbol de 
decisión consiste, como se comentó anteriormente en seleccionar un atributo como 
raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. 
Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto es, 
se selecciona otro atributo y se genera una nueva rama para cada posible valor del 
atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de 
uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que 
se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es 
obtener reglas o relaciones que permitan clasificar a partir de los atributos. 
En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir 
dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que 
mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la 
entropía, que es una medida de cómo está ordenado el sistema. La teoría de la 
información (basada en la entropía) calcula el número de bits (información, preguntas 
28 
 
sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un 
ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más 
útil será el atributo para la clasificación. La definición de entropía que da Shannon en 
su Teoría de la Información (1948). 
Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se 
discrimina (se gana por usar) un atributo 𝐴𝑖 empleando para ello la ecuación 6, en la 
que se define la ganancia de información. 
Una vez explicada la heurística empleada para seleccionar el mejor atributo en un nodo 
del árbol de decisión, se muestra el algoritmo ID3: 
 
𝐼𝐷3(𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆 ) 
(1) Calcular el valor inicial de 𝐻(𝑆) 
(2) Seleccionar el atributo 𝐴𝑖 que maximice la 
 ganacia 𝐼𝐺(𝐴𝑖) para que sirva como nodo raiz 
(3) Construya el siguiente nivel del árbol de 
 decisión proporcionando la mayor disminución 
 en la entropía. Introducir los ejemplos en 
 los sucesores según el valor que tenga el 
 atributo. Por cada sucesor: 
a. Si sólo hay ejemplos de una clase,𝐶𝑦 , 
entonces etiquetarlo con 𝐶𝑦 . 
b. Si no, llamar a ID3 con una tabla 
formada por los ejemplos de ese nodo, 
eliminando la columna del atributo 𝐴𝑖 
(4) Repita el paso 3 y continuel el procedimiento 
 hasta que no haya atributos para más 
 clasificación. En esta etapa, se obtuvo un 
 conjunto de nodos de hoja de árbol de 
 decisión. 
Algoritmo 1. Generación de un árbol de decisión basado en el algoritmo heurístico ID3 
 
 
 
 
 
29 
 
2.6.2 Algoritmo C4.5 
 
 
C4.5 es un algoritmo usado para generar un árbol de decisión. Fue desarrollado por 
Ross Quinlan en 1993 y es una extensión del algoritmo ID3 desarrollado también por 
Quinlan previamente. Los árboles de decisión generados con C4.5 se pueden usar para 
clasificación, por ello es conocido como un clasificador estadístico [48]. Las mejoras 
que propone C4.5 frente a ID3 son: 
 Manejo de los datos perdidos. A la hora de construir el árbol se ignoran los 
campos perdidos, de manera que solo se tienen en cuenta los registros que 
tienen valor para ese atributo. 
 Posibilidad de trabajar con datos continuos. Para poder trabajar con datos 
continuos, C4.5 divide los datos en rangos en base a los valores encontrados 
en el conjunto de entrenamiento. 
 Propone soluciones para el sobreaprendizaje, pudiendo usar pre-poda (se 
decide cuando dejar de subdividir el árbol) y post-poda (se construye el árbol 
y después se poda). 
A continuación, se muestra el pseudocódigo del algoritmo C4.5 
C4.5 (𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆) 
1 Comprobar casos base 
2 For each 𝐴𝑖 
3 Encontrar ganancia de información normalizada de la 
4 división 𝐴𝑖 
5 Dejar que 𝐴𝑏𝑒𝑠𝑡 sea el atributo con la ganancia de información 
6 normalizada más alta 
8 Crear un nodo de decisión que divida a 𝐴𝑏𝑒𝑠𝑡 
7 Repetir en las sublistas obtenidas por división de 𝐴𝑏𝑒𝑠𝑡, y 
8 agregar estos nodos como hijos de nodo 
9 End 
 
Algoritmo 2. Pseudicódigo del algoritmo C4.5. Recibe de una base de datos con instancias. Devuelve 
un árbol de decisión donde cada nodo es un atributo que resuelve el problema de clasificación. 
 
 
http://id3gocuteam.blogspot.com.es/2013/04/ross-quinlan-el-inventor-del-id3.html
http://id3gocuteam.blogspot.com.es/2013/04/algoritmo-de-clasificacion-id3.html
30 
 
2.6.2.1 Características del algoritmo C4.5 
 
 
Las principales características del algoritmo son las siguientes: 
 Permite trabajar con valores continuos para los atributos, separando los 
posibles resultados en 2 ramas 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍; siendo 𝑍 un umbral escogido 
anteriormente. 
 Los árboles son menos frondosos, ya que cada hoja cubre una distribución de 
clases, no una clase en particular. 
 Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial 
a partir de un conjunto de datos de entrenamiento. 
 Se basan en la utilización del criterio de proporción de ganancia. De esta 
manera se consigue evitar que las variables con mayor número de categorías 
salgan beneficiadas en la selección. 
 Es recursivo. 
 
2.6.2.2 Funcionamiento 
 
 
El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de 
datos y selecciona la prueba que le haya generado la mayor ganancia de información. 
Para cada atributo discreto, se considera una prueba con n resultados, siendo n el 
número de valores posibles que puede tomar el atributo. Para cada atributo continuo, 
se realiza una prueba binaria (1,0) sobre cada uno de los valores que toma el atributo 
en los datos. En cada nodo, el sistema debe decidir que prueba escoge para dividir los 
datos. Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 
son: 
1. La prueba estándar para las variables discretas, con un resultado y una rama 
para cada valor posible de la variable. 
31 
 
2. Una prueba más compleja, basada en una variable discreta, en donde los 
valores posibles son asignados a un número variable de grupos con un resultado 
posible para cada grupo, en lugar de para cada valor. 
3. Si una variable 𝐴𝑖 tiene valores numéricos continuos, se realiza una prueba 
binaria con resultados 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍, para lo cual debe determinar el valor 
limite 𝑍. 
Todas estas pruebas se evalúan observando la razón de ganancia resultante de la 
división de datos que producen. 
 
 
2.6.2.3 Razón de Ganancia 
 
 
El test basado en el criterio de maximizar la ganancia tiene como sesgo la elección de 
atributos con muchos valores. Esto es debido a que cuanto más fina sea la participación 
producida por los valores del atributo, normalmente, la incertidumbre o entropía en 
cada nuevo nodo será menor, y por lo tanto también será menor la media de la entropía 
a ese nivel. C4.5 modifica el criterio de selección del atributo empleando en lugar de 
la ganancia la razón de ganancia, cuya definición se muestra en la ecuación 8. 
 
𝐺𝑅(𝐴𝑖) =
𝐼𝐺(𝐴𝑖)
𝐼(𝐷𝑖𝑣𝑖𝑠𝑖ó𝑛 𝐴𝑖)
= 
𝐼𝐺(𝐴𝑖)
− ∑
|𝑆𝑥
𝑖 |
|𝑆|
𝑙𝑜𝑔 (
|𝑆𝑥
𝑖 |
|𝑆|
)𝑖
 
(8) 
 
 
 
 
32 
 
CAPÍTULO 3. DESCRIPCIÓN DEL PROBLEMA 
 
 
 
 
 
 
Para diagnosticar HCV actualmente existen kits comerciales basados en técnicas de 
PCR, sin embargo,la gran mayoría de ellos no incluyen los siete subtipos actuales y 
son sumamente costosos. Para algunas pruebas de diagnóstico que implican elevados 
precios, algunos laboratorios que cuentan con el personal y equipos necesarios optan 
por desarrollar su propio protocolo de diagnóstico con el fin de reducir costos a largo 
plazo. Para el caso del HCV una de las principales razones para que las pruebas sean 
tan elevadas en precio es la complejidad que se descubre al diseñarlas. 
 
Las herramientas mencionadas en el primer capítulo para el diseño de cebadores 
ayudan a alinear secuencias y localizar regiones adecuadas que cumplen criterios 
químicos y de conservación, pero no ayudan a seleccionar aquellas regiones que 
ayudan a resolver el problema clasificar los siete tipos de virus. Actualmente, los 
investigadores se limitan a observar las secuencias y determinar manualmente cuál es 
la región correcta para diseñar los oligos. De manera que es necesario trabajar en 
propuestas, metodologías o algoritmos que ayuden a los investigadores a seleccionar 
de manera adecuada las regiones que clasifican secuencias de ADN para diseñar sus 
propias pruebas de PCR que incluya los siete tipos de virus que además les permita 
reducir costos y acelerar el proceso. 
 
Por tanto, el problema a abordar es poder analizar una base de datos con secuencias de 
ADN del HCV. Para eso es necesario contar con una base de datos de secuencias 
alineadas. La alineación es una forma de representar la comparación entre dos o más 
secuencias para resaltar áreas de similitud. A un conjunto de cadenas alineadas 
(instancias) se le asigna el nombre de conjunto 𝑆. 
 
 
33 
 
𝑆 = {𝐺𝑤: 𝑤 = 1,2, … 𝑚} | |𝑆| = 𝑚 
(9) 
 
Cada instancia 𝐺𝑤 pertenece a una clase 𝐶𝑦 donde 𝑦 representa el valor de la 𝑦 −
é𝑠𝑖𝑚𝑎 clase. 
Se le asigna el nombre de atributo 𝐴𝑖 a cada posición o nucleótido de un conjunto de 
secuencias alineadas S donde 𝑖 indica la posición del nucleótido. El dominio 𝐷(𝐴𝑖) es 
igual al conjunto de valores 𝑣𝑥
𝑖 ∶ 𝑥 es el valor 𝑥 − é𝑠𝑖𝑚𝑜 en el dominio del atributo 𝐴𝑖 
(consulte la Tabla 1). 
Teniendo en cuenta los conceptos y la nomenclatura descritos anteriormente, podemos 
describir formalmente el problema que queremos resolver. 
En un conjunto 𝑆 de secuencias de ADN o instancias 𝐺𝑤, queremos ubicar aquellos 
atributos 𝐴𝑖 que proporcionan más información y que se consideran como los mejores 
atributos para resolver el problema de clasificación de las siete clases 𝐶𝑦 del virus de 
la hepatitis C que existen actualmente. Estos atributos deben pertenecer a una región 
conservada y considerar los criterios que favorecen una prueba de diagnóstico 
molecular por PCR. 
 
 
34 
 
CAPÍTULO 4. METODOLOGÍA 
 
 
 
 
 
 
4.1 Propuesta de solución 
 
 
En el contexto de la clasificación, la calidad de un atributo 𝐴𝑖 tiene que ver con su 
capacidad para separar las instancias 𝐺𝑤, entre las diferentes clases posibles. Si hay 
una relación directa entre los valores de los atributos y las posibles clases, significa 
que el atributo es muy bueno para clasificar. La calidad de un atributo tiene que ver 
con qué clases se pueden separar cada vez que instanciamos ese atributo 𝐴𝑖. Las clases 
se separan bien cuando cada subgrupo que se genera es homogéneo, es decir: en cada 
subgrupo, todos los 𝐺𝑤 pertenecen a la misma clase. Por lo tanto, es necesaria una 
métrica de homogeneidad. 
 
 
4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución 
 
 
La Entropía de Shannon puede interpretarse en este como el grado de error o 
certidumbre de un problema de clasificación. En el ejemplo de la clasificación de 
secuencias, la entropía de Shannon corresponde al error que se comete al asignar una 
secuencia al azar a una clase sin conocer algún detalle de ella. Visto de otro modo, la 
entropía de Shannon puede interpretarse como la información que se requiere obtener 
para resolver el problema de clasificación 
 
 
 
35 
 
Se define como: 𝐻(𝑆): 
𝐻(𝑆) = − ∑ 𝑃(𝐶𝑦) ∗ 𝐿𝑛 (𝑃(𝐶𝑦)) ; 
𝑁
𝑦=1
𝑃(𝐶𝑦) = 
|𝐶𝑦|
|𝑆|
 
(10) 
Donde 𝑃(𝐶𝑦) corresponde a la probabilidad de que un elemento pertenezca a la clase 
𝐶𝑦 y 𝑁 es el número total de clases. 
 
 
4.1.2 Aplicación de la Ganancia de Información como propuesta de solución 
 
 
La ganancia de información permite cuantificar la información proporcionada por un 
atributo 𝐴𝑖 con respecto al problema de clasificación. La ganancia de información se 
define como la diferencia entre la entropía de Shannon antes de 𝐻(𝑆) y 𝐻 (𝑆 |𝐴𝑖) 
después de conocer su valor en el atributo 𝐴𝑖. Ver ecuación 7. 
El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en 𝑧𝑖 subgrupos 𝑆𝑥
𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 =
|𝐷(𝐴𝑖)| es decir, el número de valores que puede presentar el atributo. Para calcular la 
entropía de of 𝐻 (𝑆 |𝐴𝑖), se calcula como el promedio ponderado 
|𝑆𝑥
𝑖 |
|𝑆|
 de la entropía 
de Shannon en cada subgrupo 𝑆𝑥
𝑖 . 
𝐻 (𝑆 |𝐴𝑖) = ∑ 𝑃 (
|𝑆𝑥
𝑖 |
|𝑆|
) ∗ 𝐻 (𝑆|𝑆𝑥
𝑖 )
𝑧𝑖
𝑥=1
 
(11) 
donde: 
𝐻 (𝑆|𝑆𝑥
𝑖 ) = − ∑ 𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) ∗ 𝐿𝑛 (𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 ))) ; 
𝑁
𝑦=1
 
𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) = 
|𝑆𝑦
𝐶(𝑆𝑥
𝑖 )|
|𝑆𝑥
𝑖 |
 
 
La función 𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) es la probabilidad de que un elemento 𝑆𝑦
𝐶(𝑆𝑥
𝑖 ) pertenezca a la 
clase 𝐶𝑦 y si el elemento pertenece al subgrupo 𝑆𝑥
𝑖 . 
 
36 
 
 
Tabla 1. Representación de un conjunto 𝑆 de instancias 𝐺𝑤 , donde cada instancia pertenece a una 
clase 𝐶𝑦. A cada posición o nucleótido de un conjunto de secuencias alineadas 𝑆 se le asignó el nombre 
de atributo 𝐴𝑖 donde 𝑖 indica la posición del nucleótido. El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en 
𝑧𝑖 subgrupos 𝑆𝑥
𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 = |𝐷(𝐴𝑖)|. 𝑆𝑦
𝐶(𝑆𝑥
𝑖 ) expresa que el subconjunto 𝑆𝑥
𝑖 pertenece 
a la clase 𝐶𝑦. 
 
Para entender lo anterior, a continuación, se desarrolla un ejemplo asociado con los 
valores de la Tabla 1. Al aplicar la ecuación 7 para cada uno de los atributos del 
conjunto 𝑆, se observa que el atributo 𝐴3 se evalúa con la mayor ganancia de 
información y se divide en tres subconjuntos del conjunto S. El primero es 𝑆𝐶
3, donde 
sus instancias pertenecen a las clases 𝐶2 y 𝐶3. El segundo subconjunto es 𝑆𝐴
3 con todas 
sus instancias pertenecientes a la clase 𝐶4. El último subconjunto es el 𝑆𝑇
3 donde todas 
las instancias pertenecen a la clase 𝐶1. Debido a que el subconjunto 𝑆𝐶
3 no tiene 
instancias de una sola clase, el análisis de ganancia de información se realiza 
nuevamente aplicando la fórmula 7. Si dos instancias no tienen el mismo valor para 
cada atributo y pertenecen a clases diferentes, los atributos son adecuados para llevar 
a cabo la clasificación, como se puede ver, el subgrupo 𝑆𝐶
3 los atributos 𝐴1 y 𝐴2 
permiten clasificar los elementos correctamente para Las clases 𝐶2 y 𝐶3. 
Este ejemplo muestra que es posible clasificar secuencias de ADN utilizando los 
conceptos de entropía y ganancia de información. Para este caso, se selecciona el 
atributo 𝐴3 con mayor 𝐼𝐺 , este atributo permite discriminar rápidamente las clases 𝐶1 
y 𝐶4. Al calcular nuevamente 𝐼𝐺 de todos los atributos, se obtiene que tanto 𝐴1 como 
𝐴2 permiten discriminar las clases 𝐶2 y 𝐶3. Lo anterior se puede mostrar de una manera 
simple en un árbol de decisión donde cada vértice tiene un máximo de 4 valores 
posibles Figura 6. 
 
37 
 
 
Figura 6. Árbol de decisión para la clasificación de los datos presentados en la Tabla 1. 
 
 
4.2 Propuesta de solución: algoritmo ID3HCV 
 
 
Además de utilizar el criterio de ganancia de información para seleccionar el atributo 
que mejor separa las clases, es necesario contemplar que los resultados se utilizarán 
para montar una prueba de diagnóstico de PCR. Por lo tanto,es necesario considerar 
algunos criterios que pueden optimizar el diseño de la prueba. 
Lefever et al. [21] demostró el efecto que el tipo de desajuste tiene sobre la alineación 
y la posición en un cebador sobre la eficiencia de extensión durante los primeros ciclos 
de la PCR. Encontró un mínimo o nula extensión [7] cuando introdujeron un desajuste 
en los últimos 3 o 4 nucleótidos del cebador en el extremo 3'. Su hipótesis fue que la 
baja extensión fue causada por la reducción en la unión de la enzima ADN polimerasa 
al sitio de unión [7]. Llegó a la conclusión de que cuanto más se aproximaba el 
desajuste al extremo 3', mayor era el impacto que tenía durante la extensión de la PCR, 
lo que aumentaba el número de ciclos en los que se detectaba el amplicón en la PCR. 
 
Utilizando el análisis realizado por Lefever, se diseñó una función de evaluación para 
considerar sus contribuciones y, además considerar el criterio de ganancia de 
información. 
El criterio utilizado para la función de evaluación 𝐸(𝐴𝑖, 𝑑) fue que el atributo de 
interés 𝐴𝑖 debe evaluarse en 𝐼𝐺 para considerarlo un buen atributo para discriminar 
38 
 
entre clases y que además los atributos que lo rodean al 𝐴𝑖 deben contener el mayor 
grado de conservación para establecer si es una buena opción para el diseño del 
cebador estableciendo que el atributo 𝐴𝑖 es el extremo 3´del cebador . 
Los atributos que rodean el atributo 𝐴𝑖 se denominaron ventana 𝜑(𝐴𝑖, 𝑑)
− si nos 
referimos al cebador de reversa (“forward”) y 𝜑(𝐴𝑖, 𝑑)
+ si hacemos referencia al 
cebador adelantado (“reverse”), consulte la tabla 2. 
 
 
𝜑(𝐴𝑖 , 𝑑)
− = { 𝐴𝐽: 𝐽 = 𝑖 − 𝑑, … , 𝑖 − 1} 
𝜑(𝐴𝑖, 𝑑)
+ = { 𝐴𝐽: 𝐽 = 𝑖, … , 𝑖 + 𝑑} 
(11) 
 
 
Tabla 2. Representación de la ventana de evaluación 𝜑(𝐴𝑖, 𝑑) donde 𝑑 indica el número de atributos 
que se relacionan con el análisis de la ventana a la derecha (𝜑(𝐴𝑖, 𝑑)
+) para el diseño del cebador 
adelantado y a la izquierda (𝜑(𝐴𝑖 , 𝑑)
−) para el diseño del cebador de reversa del atributo de interés 
𝐴𝑖. 
 
Por lo tanto, el criterio de selección se estableció mediante la función de evaluación 
𝐸(𝐴𝑖 , 𝑑) es simplemente el producto entre 𝐼𝐺(𝐴𝑖) y la evaluación de la 
ventana 𝜑(𝐴𝑖, 𝑑). En caso de hacer el análisis para el cebador adelantado se toma en 
cuenta la ventana del lado derecho 𝜑(𝐴𝑖, 𝑑)
−, para el análisis del cebador de reversa se 
considera la ventana del lado izquierda del atributo 𝐴𝑖 𝜑(𝐴𝑖, 𝑑)
+. 
 
 𝐸(𝐴𝑖 , 𝑑)
− = 𝐼𝐺(𝐴𝑖) ∗ 𝜑
−(𝐴𝑖, 𝑑) 
(12) 
39 
 
𝐸(𝐴𝑖 , 𝑑)
+ = 𝐼𝐺(𝐴𝑖) ∗ 𝜑
+(𝐴𝑖, 𝑑) 
(13) 
 
 
donde 𝜑−(𝐴𝑖, 𝑑) 
𝜑−(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗)
𝑗=𝑖−1
𝑗=𝑖−𝑑
 
y 𝜑+(𝐴𝑖, 𝑑) 
𝜑+(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗)
𝑗=𝑖+𝑑
𝑗=𝑖
 
 
de manera que 𝜑(𝐴𝑖, 𝑑) es la evaluación de la ventana 𝜑(𝐴𝑖, 𝑑) con 𝑑 atributos antes 
o después de la posición 𝐴𝑖. 
 
𝑊𝑗 es el peso del atributo 𝑊𝑗 tomado de los experimentos de Lefever definidos como 
∑
𝑑𝐶𝑞
𝑅𝑗
 la suma de las diferencias entre el número de ciclos 𝐶𝑞𝑀𝑀 para la amplificación 
con la alineación no ajustada y el número de ciclos para la amplificación con la 
alineación perfecto 𝐶𝑞𝑃 [21]. Simplificado en la Tabla 3, basado en los resultados 
obtenidos por Lefever. 
 
𝑾𝒋 Value associated 
with 𝑾𝒋 
0 0.687 
1 0.057 
2 0.031 
3 0.016 
4 0.012 
5-19 0.014 
Tabla 3. Pesos 𝑊𝑗 y su valor asociado por posicion basado en los resultdos de Lefever. 
 
 
𝐻(𝐴𝑗) = Entropía del atributo 𝐴𝑗 se define como: 
 
𝐻(𝐴𝑗) = ∑ 𝑃(𝑣𝑥
𝑗
) ∗ 𝑙𝑛 (𝑃(𝑣𝑥
𝑗
))
𝑧𝑗
𝑥=1 tal que 𝑃(𝑣𝑥
𝑗
) = 
|𝑣𝑥
𝑗
|
|𝑆|
 
(14) 
 
El análisis anterior indica que los conceptos de entropía y ganancia de información 
permiten clasificar las secuencias de ADN y, debido al estudio de Lefever, pueden 
40 
 
considerarse criterios que pueden favorecer el diseño de cebadores para una PCR. 
Sobre la base del análisis anterior, diseñamos el algoritmo 2 que recibe una base de 
datos con instancias de secuencias de ADN. 
 
ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠) 
1 Crear un nuevo nodo 𝑟𝑎í𝑧 del árbol 
2 If todas las instancias tienen la misma etiqueta para el 
3 atributo que pertenece a la clase 𝐶𝑦 
4 Return el árbol con 𝑟𝑎í𝑧 única y con la etiqueta 𝐶𝑦 
5 If 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 está vacío 
6 Return el árbol con 𝑟𝑎í𝑧 única con la etiqueta 
7 más común de 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠 
8 Else 
9 𝐴𝑖 ← el atributo en 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 que mejor 
10 clasifica las 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (considerando la fórmula 𝑬(𝑨𝒊, 𝒅)) 
11 𝑟𝑎í𝑧 atributo de decisión ← 𝐴𝑖 
12 For each posible valor 𝑣𝑖 de 𝐴𝑖 
13 Agrega una nueva ramificación debajo de la raíz 
14 correspondiente a la prueba de 𝐴𝑖 = 𝑣𝑖 
15 Sea 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 el subconjunto de instancias 
16 con el valor 𝑣𝑖 para el atributo 𝐴𝑖 
17 If 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠𝑣𝑖 está vacío 
18 A continuación de esta ramificación, 
19 agrega una nueva hoja nodo con el valor 
20 más común 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠. 
21 Else 
22 ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 , 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 − {𝐴𝑖}) 
23 End 
Algoritmo 3. Recibe de una base de datos con instancias de secuencias de ADN. Devuelve un árbol de 
decisión donde cada nodo es un atributo que resuelve el problema de clasificación. 
 
 
Este algoritmo toma como base al algoritmo ID3. Sin embargo, se le han hecho algunas 
modificaciones ya que no solo utiliza los criterios de ganancia de información para 
generar el árbol, además de eso se ha agregado la función de evaluación. En la línea 9, 
10 y 11 se seleccionan los mejores atributos analizándolos con la fórmula 12 
aplicándola para el cebador adelantado o para el cebador de reversa y finalmente 
devuelve un árbol de decisiones donde cada nodo es un atributo que resuelve el 
problema de clasificación. 
 
 
 
 
41 
 
4.2.1 Implementación del algoritmo ID3HVC 
 
 
La base de datos utilizada contiene 2000 secuencias alineadas con los 7 tipos del HCV 
fue proporcionada por los Laboratorios Clínicos de Puebla extraída de un repositorio 
de la ViRP (Virus Pathogen Database and Analysis Resourse). Del total del de las 2000 
secuencias 946 pertenecen al VHC tipo 1, 211 al tipo 2, 544 al tipo 3, 72 al tipo 4, 11 
al tipo 5, 210 al tipo 6 y 6 al tipo 7. 
 
La implementación del algoritmo se realizó en el lenguaje de programación Java 
1.8.0_111 y la plataforma de software Weka 3.8.0. Se ejecutó en una computadora 
Intel Core i7 2.9 Ghz con 16 GB de Ram y Windows 10 Home. 
 
 
4.3 Propuesta de solución: algoritmo J48 
 
 
 
Debido a que Lefever insistió a través de su trabajo que la hibridación de los 
nucleótidos más cercanos al extremo 3´ tienen un papel fundamental en la 
amplificación se decidió hacer un ajuste en la base de datos y considerar un atributo 
como una combinación de 3 nucleótidos (triplete) continuos en la secuencia de ADN. 
Antes de generar esta nueva base fueron eliminados todos aquellos nucleótidos con 
ganancia de información igual que 0 con el objetivo de reducir el número de 
combinaciones de atributos y reducir el espacio de análisis. 
Hacer esta modificación en la base de datos nos permite identificar aquellos atributos 
por triplete que mayor ganancia de información aportan. Esto cobra sentido en el 
momento que se espera que los investigadores basen su diseño considerando el triplete 
seleccionado como el extremo 3´ del cebador. A partir de este momento se define a 𝐴𝑖 
como la combinación de un triplete de nucleótidos de la nueva base de datos donde 𝑖 
es la posición del triplete. 
Esta modificación en la base de

Continuar navegando