Algoritmo de clasificação de sequências de ADN

•

BUAP

Estudiando Y Aprendendo

20/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Introducción a la Administración

123.076 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA

Facultad de Ciencias de la Computación

Desarrollo de un algoritmo de clasificación de secuencias de ADN,
basado en localizar regiones conservadas y una técnica de búsqueda
heurística.

Tesis profesional presentada para obtener el título de
Maestría en Ciencias de la Computación

Presenta:
Sarahí Zúñiga Herrera

Director de tesis:
David Eduardo Pinto Avendaño

Asesor externo:
Javier Garcés Eisele

Puebla, Pue., México Noviembre del 2019
ii

iii

Agradecimientos:
A mis padres y a mis mentores:
Doctor Javier Garcés Eisele y
Doctor Iván Olmos Pineda.

RESUMEN

En esta tesis se presenta la aplicación de los algoritmos ID3 y J48 para acelerar el
proceso de localizar secuencias conservadas y patrones específicos en una base de
datos con secuencias de ADN del virus de Hepatitis tipo C, para que investigadores
puedan diseñar una prueba de diagnóstico molecular basada en la reacción en cadena
polimerasa.
Además de utilizar estos algoritmos bien conocidos se presenta el desarrollo de un
algoritmo llamado ID3HCV, que al mismo tiempo de considerar la ganancia de
información considera el grado de conservación y la importancia que tiene la posición
del atributo. Este algoritmo está diseñado para favorecer aquellos atributos que son
mayormente conservados, evaluados a través de una función de evaluación que
también considera parámetros específicos de las pruebas de PCR basada en los trabajos
de Steve Lefever, Filip Pattyn, y Jan Hellemans.
Empleando estos conceptos y utilizando la teoría de árboles de decisión se aplicaron
los algoritmos ID3HCV y C4.5 a una base de datos con 2000 secuencias ADN de los
siete tipos de HCV. Estos algoritmos localizaron aquellas regiones de mejor calidad,
es decir; que están dentro de regiones conservadas y que también son clave para
discriminar entre los siete tipos de virus.
Los resultados obtenidos muestran que es posible localizar atributos que podrían
resolver el problema de clasificación, lo siguiente es que estas propuestas sean
evaluadas y científicos determinen si es posible diseñar cebadores en las regiones
propuestas.

CONTENIDO

Resumen...................................................................................................................................iv
Capítulo 1. INTRODUCCIÓN ..................................................................................................... 1
1.1 Planteamiento del problema ................................................................................... 2
1.2 Justificación .............................................................................................................. 4
1.3 Hipótesis ................................................................................................................... 5
1.4 Objetivos Generales y Específicos ............................................................................ 5
1.4.1 Objetivo general ............................................................................................... 5
1.4.2 Objetivos particulares ...................................................................................... 6
1.5 Alcances y limitaciones ............................................................................................ 6
1.5.1 Alcance ............................................................................................................. 6
1.5.2 Limitaciones ..................................................................................................... 7
Capítulo 2. MARCO TEÓRICO ................................................................................................... 8
2.1 Ácido desoxirribonucleico (ADN) ............................................................................. 8
2.2 Virus de Hepatitis. .................................................................................................... 9
2.2.1 Genoma del Virus de Hepatitis C. .................................................................. 10
2.2.2 Diagnóstico del Virus de Hepatitis C. ............................................................. 11
2.3 Reacción en cadena polimerasa (PCR) ................................................................... 12
2.3.1 Reactivos de la PCR ........................................................................................ 15
2.3.2 Diseño de cebadores ...................................................................................... 16
2.4 Propuestas actuales de solución al “sequence typing problem” (STP) .................. 19
2.5 Teoría de la información ........................................................................................ 21
2.5.1 Concepto de Entropía .................................................................................... 24
2.5.2 Ganancia de información ............................................................................... 25
2.6 Árboles de decisión ................................................................................................ 25
vi

2.6.1 Algoritmo ID3 ................................................................................................. 27
2.6.2 Algoritmo C4.5 ............................................................................................... 29
Capítulo 3. DESCRIPCIÓN DEL PROBLEMA ............................................................................. 32
Capítulo 4. METODOLOGÍA .................................................................................................... 34
4.1 Propuesta de solución ............................................................................................ 34
4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución ............. 34
4.1.2 Aplicación de la Ganancia de Información como propuesta de solución ...... 35
4.2 Propuesta de solución: algoritmo ID3HCV ............................................................. 37
4.2.1 Implementación del algoritmo ID3HVC ......................................................... 41
4.3 Propuesta de solución: algoritmo J48 .................................................................... 41
4.4 Propuesta de solución: algoritmo J48 sobre bases de datos Binarias ................... 42
Capítulo 5. RESULTADOS ........................................................................................................ 43
5.1 Resultados algoritmo ID3HCV ................................................................................ 43
5.2 Resultados algoritmo J48 ....................................................................................... 45
5.3 Resultados bases de datos binarias usando algoritmo J48 .................................... 46
Capítulo 6. DISCUSIÓN ........................................................................................................... 49
Capítulo 7. CONCLUSIÓN Y TRABAJO FUTURO ...................................................................... 52
Referencias ............................................................................................................................. 54

vii

CAPÍTULO 1. INTRODUCCIÓN

El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido
como un serio problema de salud a nivel mundial. Además, se le conoce por ser el
responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo
importante para el carcinoma hepatocelular [8]. Puebla es el estadomexicano con
mayor mortalidad por cirrosis hepática [9].
El VHC posee una alta variabilidad genética, identificándose desde su descubrimiento
a la fecha siete tipos principales asociados a diferentes comportamientos del virus en
el hospedero y respuestas al tratamiento [10].
Uno de los problemas más frecuentes en el diagnóstico clínico es clasificar una
secuencia de ADN dada y determinar la clase o subclase, lo que se conoce como
problema de tipificación de secuencias (STP) [2]. Actualmente, el problema de
clasificar las secuencias de ADN con una alta tasa de variabilidad es de gran interés
para el desarrollo de pruebas de diagnóstico. Para resolver el problema de STP se han
encaminado diferentes propuestas como los propuestos por Garcés basados en
conceptos de ganancia de información y entropía de Shannon [31, 32].
Una de las herramientas principales en el diagnóstico molecular es la reacción en
cadena polimerasa (PCR, del inglés Polimerase Chain Reaction). La PCR revolucionó
el campo del diagnóstico molecular, hasta el punto de que en la actualidad representa
el segmento de mayor crecimiento en los laboratorios clínicos del mundo entero
[20]. Sin embargo, el diseño de una prueba de diagnóstico por PCR puede resultar
muy complejo.
Este trabajo de tesis se planteó el objetivo de desarrollar un algoritmo, para localizar
regiones conservadas y patrones en secuencias de ADN que sirvan como base para el
2

diseño de cebadores de una prueba de diagnóstico clínico por PCR que ayude a
discriminar secuencias de ADN.
Además de utilizar el criterio de ganancia de información, es necesario no olvidar que
los resultados serán utilizados para montar una prueba de diagnóstico por PCR, por
ello consideramos importante tomar en cuenta algunos criterios que pueden optimizar
el diseño de la prueba. Lefever et al. demostró el efecto que tiene el tipo de desajuste
en la alineación y posición en un primer en la eficiencia de extensión durante los
primeros ciclos de la PCR [31]. Utilizando el análisis realizado por Lefever se diseñó
una función de evaluación que considera sus aportaciones y que, además considerara
el criterio de ganancia de información.
La selección de los cebadores es un proceso crítico para asegurar éxito en las pruebas
de PCR, por ello es importante considerar que para que su diseño sea óptimo deben
ser ubicados en regiones conservadas, además se deben evitar desajustes en el extremo
3’ del cebador ya que cuanto más próximo mayor es el impacto que tiene al aumentar
el número de ciclos necesarios de la prueba.

1.1 Planteamiento del problema

Para detectar y tipificar al virus de hepatitis C en los laboratorios de diagnóstico de
Biología Molecular, actualmente existen kits comerciales basados en técnicas de PCR,
sin embargo, la gran mayoría de ellos no incluyen los siete subtipos actuales y son
sumamente costosos.
Para el caso del HCV una de las principales razones para que las pruebas sean tan
elevadas en precio es la complejidad que se descubre al diseñarlas. Las herramientas
bioinformáticas que actualmente utilizan Biólogos Moleculares para el diseño de
cebadores no incluyen un análisis de las secuencias que permita localizar las regiones
que ayudan a resolver el problema de tipificación del HCV. Los investigadores se
limitan a observar las secuencias y determinar manualmente cuál es la región correcta
para diseñar los oligos. Como se muestra en la figura 1 la metodología que actualmente
se utiliza es alinear secuencias de una base de datos y buscar regiones conservadas
3

para localizar atributos que permitan identificar secuencias de cada uno de los siete
tipos de virus de HCV. Por ejemplo, en la figura 1 se observa que utilizando el atributo
20 se pueden separar las secuencias de las clases HCV1 y HCV4 instanciadas con una
Timina, conociendo esto, se puede utilizar el atributo 7 y determinar que en caso de
que la secuencia en esa posición 7 contenga una Guanina pertenece al HCV1 y si
contiene una C pertenece al tipo HCV4.
El atributo 20 apunta ser una buena opción ya que ayuda a discriminar secuencias entre
clases y además se encuentra dentro de una región conservada, sin embargo, el atributo
7 no parece ser una buena alternativa para diseñar cebadores para una PCR dado que
se encuentra en una región altamente variable a pesar de que ayuda a clasificar
secuencias del tipo HCV1 y HCV4. Como se explicará más adelante las regiones
conservadas y algunos otros criterios son importantes para el diseño de pruebas de
PCR.

Figura 1. Secuencias de ADN alineadas de los 7 tipos de HCV. Localización de los atributos 7 y 20
que ayudan a clasificar secuencias de HCV1 y HCV4. a) El atributo 7 se encuentra rodeado de
atributos muy variables. b) El atributo 20 se encuentra rodeado de atributos conservados.

Por otro lado, considerando que las bases de datos que se manejan son ciento de veces
más grandes a la mostrada en la figura 1, resulta fácil demostrar lo complicado que es
localizar estos atributos de forma visual.

a) Región variable b) Región conservada
4

1.2 Justificación

Tomando como punto de partida que los investigadores realizan la búsqueda manual
de regiones para el diseño de cebadores de PCR utilizados en la tipificación de HCV.
Corresponderá como trabajo de esta tesis diseñar un algoritmo que ayude a acelerar el
proceso y resolver el problema de encontrar secuencias conservadas y patrones en una
base de datos con secuencias de ADN de los siete tipos de VHC, utilizando por ejemplo
herramientas de la teoría de la información de Shannon, clasificadores, técnicas
heurísticas, entre otras. Ver figura 2. Como entrada se trabajará con una base de datos
con instancias de secuencias altamente variables de los siete tipos de virus de hepatitis
C.

Figura 2. Metodología del análisis de una base de datos para localizar atributos y diseñar pruebas de
PCR.

1.3 Hipótesis

Es posible desarrollar un algoritmo basado en heurísticas computacionales que
permitan localizar zonas conservadas y patrones en secuencias de ADN con un bajo
costo computacional, que favorezcan al desarrollo de pruebas de diagnóstico por PCR
para la clasificación de los siete tipos de virus de hepatitis C.

1.4 Objetivos Generales y Específicos

1.4.1 Objetivo general

El objetivo general del trabajo es desarrollar un algoritmo a través del uso de técnicas
basadas en técnicas heurísticas, para localizar regiones conservadas y patrones en
secuencias de ADN que sirvan como base para el diseño de una prueba de diagnóstico
clínico creada por expertos en Biología Molecular, para clasificar secuencias de ADN
de los siete subtipos de virus de hepatitis C.

El algoritmo recibirá una base de datos con secuencias alineadas y depuradas de ADN
altamente variables de todos los subtipos de virus de hepatitis C, con el objetivo de
localizar regiones de secuencias conservadas en las que se deberán ubicar patrones que
resuelvan el problema de clasificación de los siete tipos de virus que existen
actualmente. El desarrollo será basado en heurísticas utilizando modelos tales como
aquellos basados en la teoría de la información de Shannon y otras herramientas de
análisis.

1.4.2 Objetivos particulares

 Proponer un algoritmo para solucionar el problema de localizar regiones
conservadas y patrones en secuencias de ADN utilizando todos los recursos
encontrados durante la revisión de la bibliografía.
Implementar el algoritmo diseñado para procesar una base de datos con
instancias de secuencias de ADN del virus de hepatitis C para ubicar regiones
conservadas y patrones específicos.
 Medir la calidad de los resultados a partir de métricas cuantitativas y
cualitativas para determinar la exactitud de la metodología al encontrar
regionesconservadas. La calidad de los resultados se medirá por medio de dos
parámetros: medidas cuantitativas, referentes a estadísticas de los resultados de
acuerdo con los algoritmos diseñados y medidas cualitativas, las cuales se
basarán en las evaluaciones de los expertos en el dominio.

1.5 Alcances y limitaciones

1.5.1 Alcances

Se desarrollará un algoritmo capaz de identificar regiones conservadas para cada tipo
del virus de hepatitis C, estas regiones deben facilitar a expertos el diseño de cebadores
para crear pruebas de tipificación por PCR. Dicho algoritmo será capaz de localizar
las regiones que resuelven el problema de clasificación de secuencias del HCV de una
base de datos dada, considerando criterios específicos de la reacción en cadena
polimerasa.

1.5.2 Limitaciones

A causa de la complejidad del diseño de los cebadores para pruebas de PCR, el
algoritmo solo podrá proponer aquellas regiones que después de un análisis
matemático resulten como adecuadas para resolver el problema de clasificación, sin
embargo, será decisión del experto y de su análisis, aceptar o rechazar las propuestas
hechas por el algoritmo.

CAPÍTULO 2. MARCO TEÓRICO

2.1 Ácido desoxirribonucleico (ADN)

Cada organismo, sea este un virus, una bacteria, un animal o una planta, posee un
genoma que contiene la información biológica necesaria para construir y mantener
cada una de las instancias de ese organismo. La mayor parte de los genomas presentes
en la naturaleza están constituidos por ácido desoxirribonucleico (ADN) aunque
ciertos virus poseen ácido ribonucleico (ARN) como material genético. Tanto el ARN
como el ADN son moléculas poliméricas construidas por cadenas de subunidades
denominadas nucleótidos. Un nucleótido es un compuesto químico fundamental de
los ácidos nucleicos, constituidos por una base nitrogenada, un azúcar y una molécula
de ácido fosfórico [1]. El ADN está compuesto por una mezcla de cuatro de estos
nucleótidos: la adenina (A), la guanina (G), la citosina (C) y la timina (T). Figura 3.

Figura 3. Doble hélice de ADN. P significa di-éster fosfato, S significa azúcar desoxirribosa, A es
Adenina, T es Timina, G es Guanina y C es Citocina.
9

Una molécula de ADN está formada por dos cadenas de estos nucleótidos
polimerizados, que se denominan bases, formado una estructura que se describe a
menudo como una doble hélice. Las dos cadenas o hebras del ADN están estabilizadas
entre por uniones no covalentes, presentes entre las bases de las dos cadenas. Decimos
que las bases están apareadas o alineadas unas con otras. Este apareamiento tiene lugar
de una forma muy precisa: la A de una cadena se aparea con la T de la otra cadena y
la C con la G. La información biológica presente en el ADN se encuentra codificada
en el orden preciso de esos nucleótidos dentro de la molécula de ADN, lo que
denominamos secuencia de nucleótidos o secuencia de ADN.
𝐺𝑤 = ⟨𝑣1, 𝑣2, 𝑣3 … 𝑣𝑛⟩, es una cadena de elementos del alfabeto
∑𝐴𝐷𝑁, donde ∑𝐴𝐷𝑁 = {𝐴, 𝑇, 𝐺, 𝐶}, 𝑣𝑥 ∈ ∑𝐴𝐷𝑁

Donde una cadena ϕi es una secuencia de ADN formada elementos del alfabeto ∑𝐴𝐷𝑁
y puede definir las características de un organismo vivo, de hecho, si se conoce una
cadena o parte de ella se puede determinar a qué organismo pertenece. Así, diferentes
tipos de análisis de secuencias se pueden utilizar en laboratorios de análisis clínicos,
por ejemplo: para identificar agentes infecciosos presentes en una muestra de sangre
tomada de algún paciente.

2.2 Virus de Hepatitis.

El término hepatitis, proveniente del griego hepar, que significa hígado, fue utilizado
por primera vez por Bianchi en 1710 y se refiere a todas aquellas enfermedades que
pueden de una forma u otra inflamar el hígado [3]. La causa más frecuente que provoca
hepatitis es una infección vírica, aunque también puede ser producida por agentes
químicos, bacterias o toxinas bacterianas, infecciones parasitarias, por la existencia de
litiasis en la vesícula, entre otras [4]. De ahí que las hepatitis se dividen en infecciosas
y no infecciosas. La padecida por la mayoría de los pacientes es la de tipo infecciosa.
La hepatitis vírica típica en los humanos es producida debido al efecto de varios tipos
10

de virus, las formas más comunes son la hepatitis por el virus A (VHA), la hepatitis
por el virus B (VHB) y la hepatitis por el virus C (VHC), que anteriormente se conocía
como hepatitis no A/no B, y la única relación entre ellas es que todas afectan al hígado
[3]. La hepatitis causada por el virus de la hepatitis C (VHC) se ha transformado en
uno de los principales problemas de enfermedades infecciosas emergentes [5].
El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido
como un serio problema de salud a nivel mundial. Se estima que el VHC infecta cada
año de 3 a 4 millones de personas y que anualmente mueren de 350 000 a 500 000
personas por enfermedades hepáticas relacionadas con el virus [6]. La Organización
Mundial de la Salud estimó que 71 millones de personas tenían infecciones crónicas
por el VHC en 2015 [7]. En la actualidad este virus representa la causa más frecuente
de enfermedad hepática crónica, cirrosis y trasplante hepático. Además, se le conoce
por ser el responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo
importante para el carcinoma hepatocelular [8]. Puebla es el estado mexicano con
mayor mortalidad por cirrosis hepática [9].
El VHC posee una alta variabilidad genética y basándose en ella se han identificado
desde su descubrimiento a la fecha siete tipos principales asociados a diferentes
comportamientos del virus en el hospedero y respuestas al tratamiento [10].

2.2.1 Genoma del Virus de Hepatitis C.

El genoma del VHC está constituido por una cadena simple positiva de ácido
ribonucleico (ARN) de entre 9,500-10,000 nucleótidos (9.6 kb), que codifica para una
poliproteína de aproximadamente 3,010 aminoácidos y caracterizada por un alto grado
de heterogeneidad genética y con un marco de lectura visible (ORF) [11]. El genoma
está precedido por una región no codificante 5´(UTR) de 342 bases, altamente
conservada y resistente a la desnaturalización y seguida por una región no codificante
3´(UTR) de 15 a 269 bases con una secuencia de poli(A) (adenina) en el extremo 3´
11

[12,13]. La porción amino terminal forma la proteína estructural (región 5´terminal) y
se divide en tres proteínas estructurales (C, E1, E2), mientras que la carboxilo terminal
(región 3´terminal) da lugar a varias enzimas virales y seis proteínas no estructurales
(NS2, NS3, NS4a, NS4b, NS5a, NS5b) [13]. Figura 4.

Figura 4. Genoma del virus de la hepatitis C

2.2.2 Diagnóstico del Virus de Hepatitis C.

La hepatitis C es una enfermedad que permanece desconocida y es raramente
diagnosticada hasta la aparición de sus complicaciones crónicas. A partir de 1989
después de la secuenciación del genoma y la descripción del virus mediante técnicas
de ingeniería genética [14] se hizo posible el diagnóstico de laboratorio.
Para la detección o diagnóstico de la infección por el VHC y el estado de progresión
de la enfermedad, existen diferentes pruebas [3]. Los ensayos serológicos, que detectan
anticuerpos al VHC (anti-VHC), se subdividen en ensayos de escrutinio como los
inmunoenzimáticos, principalmente los “Enzyme Linked Immunosorbent Assay”
(ELISA) [15], que usan anticuerpos policlonales o monoclonales (para detectar
antígenos) o virus completos, péptidos sintéticos o antígenos recombinantes (para
detectar anticuerpos) [13] y ensayos suplementarios como los “Recombinant
Immunoblot”, entre ellos el de tercera generación para IgG (RIBA 3.0). Además de las
técnicas de biología molecular que analizan los ácidos nucleicos(ADN y ARN) éstos
últimos han sido la herramienta que ha permitido conocer la existencia del VHC a
12

través de la identificación de su genoma. A nivel diagnóstico han contribuido a la
determinación de la persistencia del virus en la persona infectada, a establecer su
genotipo, así como a cuantificar el virus circulante [16].
Existen diversas técnicas para la determinación del genotipo viral, unas basadas en la
amplificación de secuencias (5'UTR, core, NS5b) con cebadores tipo-específicos, o
seguidas de hibridación a sondas tipo-específicas, o de análisis de restricción de
producto amplificado; y otras basadas en la determinación de anticuerpos frentes a
péptidos tipoespecíficos [18,19]. Estas últimas son sencillas y en pacientes
inmunocompetentes tienen buena concordancia con las técnicas moleculares, pero su
uso está limitado en pacientes inmunodeprimidos y en el análisis de determinados
genotipos.
Los ensayos que permiten detectar, clonar y secuenciar genomas virales, son más
sensible que las pruebas convencionales aun en pacientes con niveles bajos del ARN
viral y permiten la detección precoz del virus [12, 17]. Sin embargo, son muy
sofisticados, requieren de un seguimiento cuidadoso para reducir la contaminación,
una correcta colección y almacenamiento de las muestras y con problemas especiales
en la amplificación, debido a la variabilidad de la secuencia del ARN [11].

2.3 Reacción en cadena polimerasa (PCR)

En 1983, Kary Mullis, investgador de la compañía Cetus, diseña y patenta un método
para la amplificación de secuencias específicas de ADN, al que se ha denominado
PCR, siglas de reacción en cadena de la polimerasa en inglés [20].
La PCR revolucionó el campo del diagnóstico molecular, hasta el punto de que en la
actualidad representa el segmento de mayor crecimiento en los laboratorios clínicos
del mundo entero, en los que se ha convertido en herramienta de invaluable utilidad y
una metodología encaminada a obtener cantidades grandes de ADN para su utilización
en el laboratorio clínico [10]. La PCR es una técnica enzimática que nos permite
fabricar in vitro un número teóricamente ilimitado de copias de una secuencia de ADN
13

conocida, gracias a la repetición cíclica de tres pasos o reacciones simples en las que
solo varia la temperatura de incubación. Esto supone disponer de una forma rápida y
eficaz de cantidades suficientes de una determinada secuencia de ADN para su
posterior estudio molecular.
Conceptualmente, la PCR es un método simple de síntesis de ácidos nucleicos in vitro,
en el que el número de moléculas generadas se duplica tras cada ciclo del proceso, de
tal forma que, si se empieza con una sola doble cadena de ADN y suponiendo una
eficiencia de amplificación del 100%, después de 20 ciclos dispondríamos de un
millón de copias del fragmento amplificado. Para su realización se requieren reactivos
básicos, que se someten a diferentes cambios cíclicos de temperatura. Estos son: la
muestra o molde de ADN a amplificar, dos oligonucleótidos, llamados cebadores,
iniciadores o primers, cada uno de ellos complementario a cada una de las hebras del
ADN molde al que flanquean, con una corta distancia entre ellos; una cantidad
abundante de los precursores de síntesis, (los cuatro deoxinucleótidos trifosfatos
dATP, dCTP, dGTP, dTTP) y una enzima ADN polimerasa, que se encargará del
proceso de síntesis de las nuevas copias de ADN a partir del ADN molde [21].
Básicamente, el proceso se realiza mezclando los productos descritos en un microtubo
Eppendorf de 0,2 ml, al que sometemos a una serie de ciclos en los que varía la
temperatura de incubación [21]. Cada ciclo consta de tres pasos o reacciones:

1. Desnaturalización del ADN muestra bicatenario (dos cadenas) en los que se
separan las dos hebras complementarias por calentamiento de las mismas a
95°C.
2. Renaturalización o unión de los cebadores a las secuencias complementarias
del ADN muestra por descenso de la temperatura (entre 37° C y 60° C).
3. Polimerización, síntesis o extensión, en el que la temperatura (72º C) se adecua
para que pueda actuar la enzima y copiar la hebra de ADN molde mediante la
adición al extremo 3’ del cebador de los distintos deoxinucleótidos según las
reglas de la complementariedad, sintetizándose el nuevo ADN en la dirección
5’ a 3’.
14

Estos pasos se repetirán cíclicamente, de tal manera que después de cada ciclo habrá
un crecimiento exponencial de las copias de ADN. Un incremento final de (1 + 𝑒)𝑛,
donde 𝑒 es la eficiencia de amplificación y 𝑛 es el número de ciclos (Figura 5) [23].
Todo este proceso está automatizado, requiriendo sólo una o dos horas desde el
comienzo de los ciclos hasta el análisis del producto resultante.

Figura 5. Amplificación de un fragmento de ADN mediante la reacción en cadena polimerasa. (a) El
procedimiento de la PCR tiene tres pasos. (1) Se separan las cadenas de ADN por calentamiento, a
continuación (2) se hibridan con exceso de cebadores de ADN sintético cortos, que flanquean la región
que se desea amplificar; (3) el ADN nuevo se sintetiza por polimerización. Los tres pasos se repiten
unos 25 o 30 ciclos [37].

2.3.1 Reactivos de la PCR

 Enzima Taq polimerasa
La enzima para llevar a cabo la amplificación de ADN fue descubierta en 1988
procedente de una bacteria termófila, Thermus aquaticus, que vive a
temperaturas de 70-75° C en fuentes termales. La Taq polimerasa, como se la
denomina, presenta una temperatura optima de actuación entre 75-80° C,
siendo más resistente al calor, de forma que tras 50 ciclos a las condiciones
citadas conserva el 65 % de su actividad [24].
 Oligonucleótidos o cebadores
Como hemos visto, para poder sintetizar copias de un determinado fragmento
de ADN debemos previamente conocer al menos la secuencia de los dos
extremos del fragmento. Conocidas estas secuencias, se sintetizan los dos
oligonucleótidos, cebadores o primers. Un cebador o primer es un segmento
de cadena (complementario molde) con un grupo 3’-hidroxilo libre al cual
pueden añadir nucleótidos que serán complementarios a cada flanco de cada
una de las hebras del ADN a amplificar, de tal manera que uno de ellos
hibridará con la hebra en sentido 5’-3’ y el otro con la complementaria 3’-5’ o
antisentido. A partir de aquí, la enzima podrá llevar a cabo su actividad de
síntesis, siempre desde el extremo 3’ término del cebador y en la dirección 5’-
3’ [21]. (Ver figura 5). El tamaño del cebador puede variar. Se ha visto que
con un tamaño de 15-20 bases un cebador tiene una elevada posibilidad de
unirse a un solo lugar del genoma humano; si el cebador es más largo, la
especificad será mayor, y viceversa.
 Otros reactivos
Aparte de los ya citados, cebadores y enzima, debemos incluir en el tubo de
reacción los cuatro deoxinucleótidos trifosfatos y MgCl, en un tampón
adecuado, normalmente Tris-HCL, pH 8,4, a temperatura ambiente y, por
supuesto, la muestra del ADN que queremos amplificar.

El proceso de PCR se desarrolló originalmente para amplificar segmentos cortos de
una molécula de ADN más larga [25]. Una vez ensamblada, la reacción se coloca en
un termociclador, un instrumento que somete la reacción a cambios de temperatura
según un programa determinado. Esta serie de ajustes de temperatura y tiempo se
conoce como un ciclo de amplificación. Cada ciclo de PCR teóricamente duplica la
cantidad de la secuencia seleccionada por los cebadores (amplicón) en la reacción.
Cada ciclo de PCR incluye pasos para la desnaturalización de la plantilla, de la
alineación del cebador y la extensión del cebador [26].

2.3.2 Diseño de cebadores

La PCR se caracteriza por ser una técnica con alta sensibilidad, reproducibilidad y
eficiencia, que genera resultados fiables en poco tiempo y fáciles de analizar[27,28].
Sin embargo, el diseño de una prueba de diagnóstico de PCR puede ser muy complejo,
si el número de secuencias a clasificar es grande y, además, son muy variables. El
diseño óptimo de los cebadores es esencial para maximizar la especificidad y la
eficiencia de una PCR [29]. Un diseño deficiente de los cebadores puede dar lugar a
cantidades pequeñas, nulas o no específicas del producto de amplificación. Un diseño
apropiado es uno de los factores más importantes para el éxito de una PCR [27]. En
general, el diseño de los primers se resume en 4 puntos principales.

1. El primero es obtener una base de datos con las secuencias genéticas objetivo,
esta base de datos se puede obtener en bancos de secuencias internacionales
como GenBank o fuentes más selectivas como ViRP donde se encuentran las
secuencias genéticas de patógenos virales, incluido el VHC.
2. El segundo paso es procesar la base de datos alineándola utilizando cualquiera
de las herramientas computacionales disponibles actualmente, como Strap,
ClustalX o Clustal Omega, MUSCLE entre otras [30] para localizar las
regiones homólogas y conservadas y por otro lado herramentas como Jalview
para la visualización de alineaciones de secuencias. Una región conservada
17

comprende un intervalo de comparación de nucleótidos en las donde la
repetición de aparición de los nucleótidos es muy similar o idéntica. La
alineación de secuencias es el proceso mediante el cual las secuencias se
comparan mediante la búsqueda de caracteres comunes y el establecimiento de
los residuos de correspondencia entre las secuencias relacionadas, para resaltar
zonas de similitud las cuales podrían indicar relaciones funcionales, evolutivas
o de interés para su análisis. Estas regiones son interesantes porque si hay un
alto grado de conservación, la probabilidad de amplificación para una PCR
aumenta.
3. El tercer paso corresponde a la identificación de los oligonucleótidos o
cebadores. Seleccionar aquellos nucleótidos que cumplan con los criterios
químicos que garantizan especificidad y sensibilidad. Cada primer individual
debe contar con una longitud de 18-24 bases. Seleccionar secuencias en las que
no abunden repeticiones de bases (polipurinas o polipirimidinas), ya que
contribuyen a la inespecificidad de la reacción, se debe mantener un contenido
de G:C (Guanina:Citosina) entre 40 y 60 %. Los dos primers del par deben de
tener temperatura de fusión 𝑇𝑚 cercanos dentro de los 5 °C. La secuencia de
los primers individuales debe iniciarse y terminarse con 1 o 2 bases púricas.
Evitar secuencias que puedan formar estructuras secundarias por sí mismas,
pues esto dificultaría la unión de los cebadores al ADN muestra y podría haber
autoamplificación. Evitar poli X, secuencias adicionales pueden ser agregadas
en el extremo 5’ del primer, se pueden agregar degeneraciones en algunas
posiciones del primer. Un primer degenerad es una combinación de secuencias
de oligonucleótidos en las que pocas bases se alteran de tal manera que el
cebador cubre todas las combinaciones de nucleótidos posibles para la proteína
objetivo a través de la secuencia de ADN. Comprobar en bancos de datos que
las secuencias de oligonucleótidos elegidas no estén en otro lugar del genoma,
lo que podría llevarnos a amplificar regiones no deseadas. Comprobar que los
cebadores, si no pueden ser 100 % complementarios al ADN molde en toda su
extensión, sí lo sean al extremo 3’ término por ser éste el lugar de unión de la
Taq polimerasa [15]. Los cebadores se añaden a la reacción en un exceso molar
sobre el ADN molde, de manera que la formación del complejo cebador-ADN
18

molde se vea favorecida sobre la reasociación de las dos hebras del ADN molde
en el segundo paso del ciclo cuando desciende la temperatura.
Para diseñar y analizar un par de primers para ser usados en una reacción de
PCR contamos con varios programas. Primer3 es una aplicación que se
encuentra libre para su uso en diferentes servidores web. Este software permite
especificar un gran número de variables y obtener primers según las
indicaciones solicitadas. Además, permite agregar el número de acceso de la
secuencia, que se halla en las bases de datos internacionales. También permite
discriminar las regiones de la secuencia que se deben incluir, las que se deben
excluir y el rango de tamaños del producto. Por otra parte, el software incluye
la posibilidad de especificar las características mínimas de los primers
deseados, como Tm, porcentaje de GC, máxima autocomplementariedad, y
otros parámetros. También presenta las mismas facilidades si se está buscando
y analizando una sonda, por ejemplo, para utilizarse en trabajos de hibridación.
4. El cuarto corresponde a la síntesis y evaluación in vitro de los cebadores
propuestos para las reacciones de PCR.

El tercer paso se describe como la parte más costosa de todo el diseño en términos de
tiempo y recursos económicos, especialmente para las pruebas en las que se desea
realizar una clasificación de secuencias, como se menciona en el caso del VHC, ya que
dos factores deben considerarse principalmente: El primero es seleccionar regiones
que nos permitan distinguir entre una clase y otra; el segundo es el establecido en las
condiciones químicas y termodinámicas que garantizan la amplificación de la PCR
mencionadas anteriormente.
En el segundo factor, actualmente hay varios programas de computadora que realizan
estas tareas, como oligo7 y primer3 [30]. El nivel de desarrollo de estos programas es
tan alto que para las pruebas de identificación es suficiente ingresar la secuencia al
programa y esto dará como resultado una serie de las mejores propuestas para los
cebadores, lo que dejará al investigador poco o nada para mejorar y aceptar la
propuesta hecha por el software. Sin embargo, para el primer factor y basado en el
estudio realizado en el estado del arte, no existen herramientas computacionales que
permitan la selección de los cebadores clasificadores de las secuencias de interés.
19

Actualmente, los investigadores se limitan a observar las secuencias y determinar
manualmente cuál es la región correcta para diseñar los oligos para resolver el
problema de clasificación.
Un diseño idóneo de PCR consta de un número pequeño de reacciones para la
amplificación con una sensibilidad homogénea de todos los tipos virales. Sin embargo,
el diseño de una prueba de diagnóstico por PCR puede resultar muy complejo, si la
cantidad de tipos del virus a clasificar es grande y las secuencias de ADN para el diseño
son altamente variables. Por esta razón la mayoría de los diseños actuales de PCR no
cumplen con todas estas expectativas ya sea excluyen ciertos tipos virales por su baja
prevalencia en una región geográfica dada o no logran una asignación correcta del tipo
y subtipo viral en todos los casos.

2.4 Propuestas actuales de solución al “sequence typing problem”
(STP)

Uno de los problemas más frecuentes encontrados en el diagnóstico es tener que
clasificar una secuencia dada y determinar el tipo o subtipo de la clase a la que
pertenece y es llamado problema de clasificación de secuencia (STP sequence-typing
problem) [2].
Para proponer soluciones al problema STP, en términos computacionales: al problema
de clasificación de secuencias de ADN, se utilizan diferentes herramientas del área de
computación que son de ayuda a investigadores para localizar regiones conservadas
para diseñar cebadores y se puede partir, por ejemplo, con diversos algoritmos como
de alineación y búsqueda de regiones conservadas. Estas herramientas proporcionan
resultados que pueden ser la base para el diseño de pruebas de diagnóstico.
Algoritmos para localizar regiones conservadas y determinar el grado de semejanza
entre secuencias de ADN requieren elaborar el alineamiento y contar (directa oindirectamente) el número de posiciones equivalentes conservadas. Un proceso
20

fundamental para localizar zonas conservadas dentro de un conjunto de secuencias, es
el proceso de alineación: proceso por el cual, se comparan las secuencias mediante la
búsqueda de caracteres comunes y el establecimiento de los residuos de
correspondencia entre las secuencias relacionadas. El alineamiento de pares de
secuencias es fundamental en la búsqueda de similitudes dentro de la base de datos
[34]. Existe el alineamiento global aplicado cuando las secuencias son similares y de
aproximadamente el mismo tamaño por ejemplo el algoritmo de Needleman Wunsch
y el alineamiento local aplicado para secuencias diferentes en las que se sospecha que
existen regiones muy similares por ejemplo el algoritmo de Smith-Waterman [35].
Por otro lado existen diversas herramientas para alineamiento de secuencias múltiple,
uno de los más utilizados es el MEGA, otros tres programas de creación y
visualización de alineamientos múltiples son Jalview, Strap y ClustalX [30].
Entre estas herramientas una de las más utilizadas en bioinformática para el
alineamiento de secuencias múltiple y diseño de pruebas de diagnóstico es Clustal
Omega que hace uso de un algoritmo centrado en Modelos Ocultos de Marcov. Este
algoritmo ofrece la ventaja de ser bastante rápido en comparación a herramientas
basadas en los algoritmos anteriormente mencionados, también es capaz de producir
no sólo alineamientos globales, sino también locales [34]. Esta herramienta además
del alineamiento permite localizar regiones conservadas entre las secuencias
marcándolas con un solo color para que sea sencillo ubicarlas en forma visual. Si el
investigador desea diseñar una prueba de diagnóstico para tipificar diferentes
genotipos Clustal Omega deja a su criterio elegir aquellas regiones que considere como
las indicadas para basar su diseño de prueba.
A pesar de la gran variedad de algoritmos y programas que existen para alinear y
localizar secuencias conservadas, actualmente las herramientas de acceso público han
sido poco eficientes para localizar regiones conservadas que faciliten la tipificación y
el diseño de pruebas de diagnóstico molecular en un conjunto de secuencias de ADN
que pertenecen a múltiples clases. Actualmente, los investigadores se limitan a utilizar
las herramientas disponibles y finalmente observar, analizar las secuencias y
determinar manualmente cuál es la región correcta para resolver el problema de
clasificación.
http://www.megasoftware.net/
http://www.jalview.org/
http://www.bioinformatics.org/strap/
http://www.clustal.org/clustal2/
21

En Puebla existen laboratorios donde se hace investigación y desarrollo de pruebas de
diagnóstico molecular y hay un especial interés en desarrollar una prueba de
diagnóstico molecular para la tipificación viral de hepatitis tipo C.
Bajo la dirección del Doctor Javier Garcés Eisele, se han dirigido proyectos desde hace
varios años enfocados al desarrollo de propuestas para encontrar secuencias
conservadas de ADN y secuencias patrón que sirvan como base para el diseño de
pruebas por PCR. Para resolver el problema de STP se han encaminado diferentes
propuestas, por ejemplo; en el año 2002 y 2004 se desarrollaron dos trabajos de tesis
bajo la dirección del Doctor Garcés y su equipo de trabajo, en las que se propone una
solución al problema de STP para el virus de papiloma humano (VPH) [31, 32]
utilizando herramientas alineación de secuencias, procesos de agrupamiento
(clustering), herramientas de la teoría de la información de Shannon como entropía y
ganancia de información. Su propuesta ayudó a diseñar una prueba de diagnóstico
molecular por RFLP-PCR (Restriction Fragment Lenght Polymophism coupled to
Polymerase Chain Reaction) que actualmente es utilizada en laboratorios para el
diagnóstico de VPH [2, 31].

2.5 Teoría de la información

El concepto de información se ha convertido en una noción importante para muchos
niveles del conocimiento a partir de las elaboraciones que Claude Shannon (1948,
1949) realizó, a finales de los años cuarenta para optimizar los procesos de transmisión
de señales codificadas.
A partir de la acelerada difusión y especialización que experimentan los medios de
comunicación en el procesamiento y transmisión de información durante la primera
mitad de nuestro siglo, se desarrolló el primer modelo científico del proceso de
comunicación conocido como la Teoría de la Información o Teoría Matemática de la
Comunicación. La primera formulación de las leyes matemáticas que gobiernan dicho
22

sistema fue realizada por Hartley (1928) y sus ideas son consideradas actualmente
como la génesis de la Teoría de la Información. Posteriormente, Shannon y Weaver
(1949) desarrollaron los principios definitivos de esta teoría.
La teoría de la información no trata directamente sobre las señales físicas sino sobre
los mensajes codificados. Así, es posible realizar un análisis matemático de “... la
medida de la información, la capacidad de un canal de comunicación para transferir
información y la codificación como un medio de utilizar los canales a toda su
capacidad” [36].
Shannon estaba interesado en los principios de diseño de los sistemas de transmisión
y recepción de señales que minimizaran la probabilidad de error en el proceso. Así,
concibió una definición de información en función de la probabilidad de ocurrencia de
un mensaje: la información (𝐼) se definió como el logaritmo (base 𝑏) del inverso de la
probabilidad de ocurrencia del mensaje (𝐴):
𝐼 = 𝑙𝑜𝑔𝑏(
1
𝑃𝐴
)
(1)
La información depende exclusivamente de la probabilidad de ocurrencia del mensaje
y no del contenido semántico. Si un mensaje es poco probable, contiene mucha
información; si es muy probable, contiene poca información. En los casos extremos,
un mensaje con probabilidad uno contiene cero informaciones; por el contrario, un
mensaje con probabilidad cero contiene infinita información. La definición ofrecida
tiene sentido si es posible asignar una probabilidad a los mensajes, lo que implica la
existencia de un conjunto de mensajes posibles donde podemos hacer la asignación de
probabilidades, es decir, hablamos de probabilidades calculables a priori sobre la
ocurrencia específica de un mensaje, pero a posteriori sobre el conjunto de señales
posibles [38].
El mensaje podría ser en una secuencia de letras carentes de todo significado e
igualmente el problema de cuánta información es transmitida estaría presente. En un
sentido amplio, la Teoría de la Información trata acerca de la cantidad de información
que es transmitida por la fuente al receptor al enviar un determinado mensaje, sin
considerar el significado o propósito de dicho mensaje. No interesa tanto la pregunta:
“¿Qué tipo de información?” sino más bien, “¿Cuánta información?” es la que
transmite la fuente.
23

Shannon resume en 1948 que la entropía es una medida de la información o
incertidumbre de experimentos probabilísticos. La entropía de Shannon mide, por lo
tanto, el grado de desorden (o azar) de un sistema.
Después de su aparición en un contexto tecnológico, la teoría de la información
encontró aplicación en otros campos teóricos. Quizá el caso más espectacular de
transferencia analógica fue la aplicación del concepto de información de Shannon en
la biología molecular. El descubrimiento de la estructura bioquímica de los ácidos
nucleicos (ADN y ARN) en los años cincuenta señaló el mecanismo fundamental de
la herencia y abrió un territorio de investigación en biología. Se encontró que las
secuencias genéticas se formaban por el encadenamiento químicamente arbitrario de
bases nucleicas (en cuatro posibilidades: dos purinas y dos pirimidinas). La
transmisión de caracteres hereditarios se interpretó entonces como un resultado causal
dela decodificación de la información contenida en las secuencias genéticas. No tardó
en hablarse de las cuatro bases como el alfabeto del código genético y de las secuencias
genéticas como los programas de desarrollo de los sistemas biológicos. En tal contexto,
resultó completamente natural la aplicación del concepto de información de Shannon.
Las secuencias genéticas podían verse como mensajes escritos en un código
especificado, donde las posibilidades combinatorias del alfabeto podían calcularse,
formalizando de ese modo el concepto de información genética.
Por otro lado, Benish WA (1999), aplicó la Teoría de Información de Shannon a
pruebas de análisis clínicos calculando la Ganancia de Información pre y post-prueba.
La teoría de Información fue aplicada con éxito también al problema de clasificación
de los codones para revelar el orden presente en el código genético [41]. Ha sido
utilizada igualmente para esclarecer las interrelaciones entre estructura, función y
evolución de una familia de genes o productos génicos [42]. Ebeling y Frommel en
1998 aplicaron el concepto de entropía como la capacidad para describir la estructura
de portadores de información tales como el ADN, proteínas, texto y notas musicales
[43]. La investigación de Solis et al. en el año 2000 propone un método para extraer la
cantidad máxima de información disponible de estructuras peptídicas en fragmentos
de secuencias, encontrando que la manera en la cual la estructura es representada,
afecta la cantidad y calidad de información estructural que puede ser extraída de
secuencias [44].
24

2.5.1 Concepto de Entropía

Sea 𝑊 el número de microestados que un sistema puede tener en un estado en
particular. Intuitivamente aceptamos que un estado altamente ordenado tiene un
número de microestados pequeño en comparación a un estado desordenado.
Generalmente se usa la entropía como medida del grado de desorden en un sistema.
Cualquiera que sea la forma de cuantificar el grado de desorden, esperamos que esta
función aumente monótonamente con el número de microestados del sistema.
Adicionalmente, la entropía de un sistema debería ser la suma de la entropía de dos
subsistemas. Una función que cumple con estas características es:
𝐻 = log 𝑊
(2)

Asumiendo que cada microestado es equiprobable, entonces podemos expresar la
probabilidad de cada microestado como:
𝑝𝑖 =
1
𝑊

(3)
Así obtenemos:
𝐻(𝑆) = − log 𝑝𝑖
(4)

Si los microestados no son equiprobables, entonces tenemos que modificar la
expresión por el valor esperado. En caso de una variable aleatoria numérica 𝑥, el valor
esperado 𝐸𝑥 corresponde a la suma de los productos de probabilidad 𝑝𝑖 de obtener un
valor numérico y el valor numérico 𝑛𝑖 correspondiente:
𝐸𝑥 = ∑ 𝑝𝑖𝑛𝑖
𝑖

(5)

Aplicado a nuestro caso de microestados no equiprobables obtenemos entonces:
𝐻(𝑆) = − ∑ 𝑝𝑖 log 𝑝𝑖
𝑖

(6)
25

Esta es la definición de la Entropía de Shannon y es máxima cuando los eventos o
microestados son equiprobables. La base logarítmica es una elección arbitraria [36].
La Entropía de Shannon puede interpretarse en este como el grado de error o
certidumbre de un problema de clasificación. Visto de otro modo, la entropía de
Shannon puede interpretarse como la información que se requiere obtener para
resolver el problema de clasificación. Sin embargo, no nos dice cómo obtener esta
información del análisis de los atributos de los elementos.

2.5.2 Ganancia de información

La ganancia de información es la herramienta que nos permite cuantificar la
información proporcionada por un estado con respecto al problema de clasificación y
nos permite así resolver el problema de clasificación. La ganancia de información se
define como la diferencia entre la entropía de Shannon antes 𝐻(𝑆) y después 𝐻 (𝑆 |𝐴𝑖)
de conocer el valor del atributo 𝐴𝑖:
𝐼𝐺(𝐴𝑖) = 𝐻(𝑆) − 𝐻 (𝑆 |𝐴𝑖)
(7)
La cual es siempre  0.

2.6 Árboles de decisión

Un árbol de decisión es un modelo de predicción cuyo objetivo principal es el
aprendizaje inductivo a partir de observaciones y construcciones lógicas [45]. Son muy
similares a los sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva para la solución
de un problema. Constituyen probablemente el modelo de clasificación más utilizado
y popular. El conocimiento obtenido durante el proceso de aprendizaje inductivo se
26

representa mediante un árbol. Un árbol gráficamente se representa por un conjunto de
nodos, hojas y ramas. El nodo principal o raíz es el atributo a partir del cual se inicia
el proceso de clasificación; los nodos internos corresponden a cada una de las
preguntas acerca del atributo en particular del problema. Cada posible respuesta a los
cuestionamientos se representa mediante un nodo hijo. Las ramas que salen de cada
uno de estos nodos se encuentran etiquetadas con los posibles valores del atributo. Los
nodos finales o nodos hoja corresponden a una decisión, la cual coincide con una de
las variables clase del problema a resolver. Este modelo se construye a partir de la
descripción narrativa de un problema, ya que provee una visión gráfica de la toma de
decisión, especificando las variables que son evaluadas, las acciones que deben ser
tomadas y el orden en el que la toma de decisión será efectuada. Cada vez que se
ejecuta este tipo de modelo, sólo un camino será seguido dependiendo del valor actual
de la variable evaluada. Los valores que pueden tomar las variables para este tipo de
modelos pueden ser discretos o continuos [45]. Un algoritmo de generación de árboles
de decisión consta de 2 etapas: la primera corresponde a la inducción del árbol y la
segunda a la clasificación. En la primera etapa se construye el árbol de decisión a partir
del conjunto de entrenamiento; comúnmente cada nodo interno del árbol se compone
de un atributo de prueba y la porción del conjunto de entrenamiento presente en el
nodo es dividida de acuerdo con los valores que pueda tomar ese atributo. La
construcción del árbol inicia generando su nodo raíz, eligiendo un atributo de prueba
y dividiendo el conjunto de entrenamiento en dos o más subconjuntos; para cada
partición se genera un nuevo nodo y así sucesivamente. Cuando en un nodo se tienen
objetos de más de una clase se genera un nodo interno; cuando contiene objetos de una
clase solamente, se forma una hoja a la que se le asigna la etiqueta de la clase. En la
segunda etapa del algoritmo cada objeto nuevo es clasificado por el árbol construido;
después se recorre el árbol desde el nodo raíz hasta una hoja, a partir de la que se
determina la membresía del objeto a alguna clase. El camino a seguir en el árbol lo
determinan las decisiones tomadas en cada nodo interno, de acuerdo con el atributo de
prueba presente en él.
El primer sistema que construía árboles de decisión fue CLS de Hunt, desarrollado en
1959 y depurado a lo largo de los años sesenta. CLS es un sistema desarrollado por
psicólogos como un modelo del proceso cognitivo de formación de conceptos
sencillos. Su contribución fundamental fue la propia metodología, pero no resultaba
computacionalmente eficiente debido al método que empleaba en la extensión de los
27

nodos. Se guiaba por una estrategia similar al minimax con una función que integraba
diferentes costes.
En 1979 Quinlan desarrolla el sistema ID3 [47], que él denominaría simplemente
herramienta porque la consideraba experimental. Conceptualmente es fiel a la
metodología de CLS pero le aventaja en el método de expansión de los nodos, basado
en una función que utiliza la medida de la información de Shannon. La versión
definitiva, presentada por su autor Quinlan como un sistema de aprendizaje, es el
sistema C4.5 que expone con cierto detalleen la obra C4.5: Programs for Machine
Learning [48]. La evolución -comercial- de ese sistema es otro denominado C5 del
mismo autor, del que se puede obtener una versión de demostración restringida en
cuanto a capacidades; por ejemplo, el número máximo de ejemplos de entrenamiento.

2.6.1 Algoritmo ID3

El sistema ID3 [49] es un algoritmo simple y, sin embargo, potente, cuya misión es la
elaboración de un árbol de decisión. El procedimiento para generar un árbol de
decisión consiste, como se comentó anteriormente en seleccionar un atributo como
raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo.
Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto es,
se selecciona otro atributo y se genera una nueva rama para cada posible valor del
atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de
uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que
se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es
obtener reglas o relaciones que permitan clasificar a partir de los atributos.
En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir
dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que
mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la
entropía, que es una medida de cómo está ordenado el sistema. La teoría de la
información (basada en la entropía) calcula el número de bits (información, preguntas
28

sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un
ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más
útil será el atributo para la clasificación. La definición de entropía que da Shannon en
su Teoría de la Información (1948).
Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se
discrimina (se gana por usar) un atributo 𝐴𝑖 empleando para ello la ecuación 6, en la
que se define la ganancia de información.
Una vez explicada la heurística empleada para seleccionar el mejor atributo en un nodo
del árbol de decisión, se muestra el algoritmo ID3:

𝐼𝐷3(𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆 )
(1) Calcular el valor inicial de 𝐻(𝑆)
(2) Seleccionar el atributo 𝐴𝑖 que maximice la
ganacia 𝐼𝐺(𝐴𝑖) para que sirva como nodo raiz
(3) Construya el siguiente nivel del árbol de
decisión proporcionando la mayor disminución
en la entropía. Introducir los ejemplos en
los sucesores según el valor que tenga el
atributo. Por cada sucesor:
a. Si sólo hay ejemplos de una clase,𝐶𝑦 ,
entonces etiquetarlo con 𝐶𝑦 .
b. Si no, llamar a ID3 con una tabla
formada por los ejemplos de ese nodo,
eliminando la columna del atributo 𝐴𝑖
(4) Repita el paso 3 y continuel el procedimiento
hasta que no haya atributos para más
clasificación. En esta etapa, se obtuvo un
conjunto de nodos de hoja de árbol de
decisión.
Algoritmo 1. Generación de un árbol de decisión basado en el algoritmo heurístico ID3

2.6.2 Algoritmo C4.5

C4.5 es un algoritmo usado para generar un árbol de decisión. Fue desarrollado por
Ross Quinlan en 1993 y es una extensión del algoritmo ID3 desarrollado también por
Quinlan previamente. Los árboles de decisión generados con C4.5 se pueden usar para
clasificación, por ello es conocido como un clasificador estadístico [48]. Las mejoras
que propone C4.5 frente a ID3 son:
 Manejo de los datos perdidos. A la hora de construir el árbol se ignoran los
campos perdidos, de manera que solo se tienen en cuenta los registros que
tienen valor para ese atributo.
 Posibilidad de trabajar con datos continuos. Para poder trabajar con datos
continuos, C4.5 divide los datos en rangos en base a los valores encontrados
en el conjunto de entrenamiento.
 Propone soluciones para el sobreaprendizaje, pudiendo usar pre-poda (se
decide cuando dejar de subdividir el árbol) y post-poda (se construye el árbol
y después se poda).
A continuación, se muestra el pseudocódigo del algoritmo C4.5
C4.5 (𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆)
1 Comprobar casos base
2 For each 𝐴𝑖
3 Encontrar ganancia de información normalizada de la
4 división 𝐴𝑖
5 Dejar que 𝐴𝑏𝑒𝑠𝑡 sea el atributo con la ganancia de información
6 normalizada más alta
8 Crear un nodo de decisión que divida a 𝐴𝑏𝑒𝑠𝑡
7 Repetir en las sublistas obtenidas por división de 𝐴𝑏𝑒𝑠𝑡, y
8 agregar estos nodos como hijos de nodo
9 End

Algoritmo 2. Pseudicódigo del algoritmo C4.5. Recibe de una base de datos con instancias. Devuelve
un árbol de decisión donde cada nodo es un atributo que resuelve el problema de clasificación.

http://id3gocuteam.blogspot.com.es/2013/04/ross-quinlan-el-inventor-del-id3.html
http://id3gocuteam.blogspot.com.es/2013/04/algoritmo-de-clasificacion-id3.html
30

2.6.2.1 Características del algoritmo C4.5

Las principales características del algoritmo son las siguientes:
 Permite trabajar con valores continuos para los atributos, separando los
posibles resultados en 2 ramas 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍; siendo 𝑍 un umbral escogido
anteriormente.
 Los árboles son menos frondosos, ya que cada hoja cubre una distribución de
clases, no una clase en particular.
 Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial
a partir de un conjunto de datos de entrenamiento.
 Se basan en la utilización del criterio de proporción de ganancia. De esta
manera se consigue evitar que las variables con mayor número de categorías
salgan beneficiadas en la selección.
 Es recursivo.

2.6.2.2 Funcionamiento

El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de
datos y selecciona la prueba que le haya generado la mayor ganancia de información.
Para cada atributo discreto, se considera una prueba con n resultados, siendo n el
número de valores posibles que puede tomar el atributo. Para cada atributo continuo,
se realiza una prueba binaria (1,0) sobre cada uno de los valores que toma el atributo
en los datos. En cada nodo, el sistema debe decidir que prueba escoge para dividir los
datos. Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5
son:
1. La prueba estándar para las variables discretas, con un resultado y una rama
para cada valor posible de la variable.
31

2. Una prueba más compleja, basada en una variable discreta, en donde los
valores posibles son asignados a un número variable de grupos con un resultado
posible para cada grupo, en lugar de para cada valor.
3. Si una variable 𝐴𝑖 tiene valores numéricos continuos, se realiza una prueba
binaria con resultados 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍, para lo cual debe determinar el valor
limite 𝑍.
Todas estas pruebas se evalúan observando la razón de ganancia resultante de la
división de datos que producen.

2.6.2.3 Razón de Ganancia

El test basado en el criterio de maximizar la ganancia tiene como sesgo la elección de
atributos con muchos valores. Esto es debido a que cuanto más fina sea la participación
producida por los valores del atributo, normalmente, la incertidumbre o entropía en
cada nuevo nodo será menor, y por lo tanto también será menor la media de la entropía
a ese nivel. C4.5 modifica el criterio de selección del atributo empleando en lugar de
la ganancia la razón de ganancia, cuya definición se muestra en la ecuación 8.

𝐺𝑅(𝐴𝑖) =
𝐼𝐺(𝐴𝑖)
𝐼(𝐷𝑖𝑣𝑖𝑠𝑖ó𝑛 𝐴𝑖)
=
𝐼𝐺(𝐴𝑖)
− ∑
|𝑆𝑥
𝑖 |
|𝑆|
𝑙𝑜𝑔 (
|𝑆𝑥
𝑖 |
|𝑆|
)𝑖

(8)

CAPÍTULO 3. DESCRIPCIÓN DEL PROBLEMA

Para diagnosticar HCV actualmente existen kits comerciales basados en técnicas de
PCR, sin embargo,la gran mayoría de ellos no incluyen los siete subtipos actuales y
son sumamente costosos. Para algunas pruebas de diagnóstico que implican elevados
precios, algunos laboratorios que cuentan con el personal y equipos necesarios optan
por desarrollar su propio protocolo de diagnóstico con el fin de reducir costos a largo
plazo. Para el caso del HCV una de las principales razones para que las pruebas sean
tan elevadas en precio es la complejidad que se descubre al diseñarlas.

Las herramientas mencionadas en el primer capítulo para el diseño de cebadores
ayudan a alinear secuencias y localizar regiones adecuadas que cumplen criterios
químicos y de conservación, pero no ayudan a seleccionar aquellas regiones que
ayudan a resolver el problema clasificar los siete tipos de virus. Actualmente, los
investigadores se limitan a observar las secuencias y determinar manualmente cuál es
la región correcta para diseñar los oligos. De manera que es necesario trabajar en
propuestas, metodologías o algoritmos que ayuden a los investigadores a seleccionar
de manera adecuada las regiones que clasifican secuencias de ADN para diseñar sus
propias pruebas de PCR que incluya los siete tipos de virus que además les permita
reducir costos y acelerar el proceso.

Por tanto, el problema a abordar es poder analizar una base de datos con secuencias de
ADN del HCV. Para eso es necesario contar con una base de datos de secuencias
alineadas. La alineación es una forma de representar la comparación entre dos o más
secuencias para resaltar áreas de similitud. A un conjunto de cadenas alineadas
(instancias) se le asigna el nombre de conjunto 𝑆.

𝑆 = {𝐺𝑤: 𝑤 = 1,2, … 𝑚} | |𝑆| = 𝑚
(9)

Cada instancia 𝐺𝑤 pertenece a una clase 𝐶𝑦 donde 𝑦 representa el valor de la 𝑦 −
é𝑠𝑖𝑚𝑎 clase.
Se le asigna el nombre de atributo 𝐴𝑖 a cada posición o nucleótido de un conjunto de
secuencias alineadas S donde 𝑖 indica la posición del nucleótido. El dominio 𝐷(𝐴𝑖) es
igual al conjunto de valores 𝑣𝑥
𝑖 ∶ 𝑥 es el valor 𝑥 − é𝑠𝑖𝑚𝑜 en el dominio del atributo 𝐴𝑖
(consulte la Tabla 1).
Teniendo en cuenta los conceptos y la nomenclatura descritos anteriormente, podemos
describir formalmente el problema que queremos resolver.
En un conjunto 𝑆 de secuencias de ADN o instancias 𝐺𝑤, queremos ubicar aquellos
atributos 𝐴𝑖 que proporcionan más información y que se consideran como los mejores
atributos para resolver el problema de clasificación de las siete clases 𝐶𝑦 del virus de
la hepatitis C que existen actualmente. Estos atributos deben pertenecer a una región
conservada y considerar los criterios que favorecen una prueba de diagnóstico
molecular por PCR.

CAPÍTULO 4. METODOLOGÍA

4.1 Propuesta de solución

En el contexto de la clasificación, la calidad de un atributo 𝐴𝑖 tiene que ver con su
capacidad para separar las instancias 𝐺𝑤, entre las diferentes clases posibles. Si hay
una relación directa entre los valores de los atributos y las posibles clases, significa
que el atributo es muy bueno para clasificar. La calidad de un atributo tiene que ver
con qué clases se pueden separar cada vez que instanciamos ese atributo 𝐴𝑖. Las clases
se separan bien cuando cada subgrupo que se genera es homogéneo, es decir: en cada
subgrupo, todos los 𝐺𝑤 pertenecen a la misma clase. Por lo tanto, es necesaria una
métrica de homogeneidad.

4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución

La Entropía de Shannon puede interpretarse en este como el grado de error o
certidumbre de un problema de clasificación. En el ejemplo de la clasificación de
secuencias, la entropía de Shannon corresponde al error que se comete al asignar una
secuencia al azar a una clase sin conocer algún detalle de ella. Visto de otro modo, la
entropía de Shannon puede interpretarse como la información que se requiere obtener
para resolver el problema de clasificación

Se define como: 𝐻(𝑆):
𝐻(𝑆) = − ∑ 𝑃(𝐶𝑦) ∗ 𝐿𝑛 (𝑃(𝐶𝑦)) ;
𝑁
𝑦=1
𝑃(𝐶𝑦) =
|𝐶𝑦|
|𝑆|

(10)
Donde 𝑃(𝐶𝑦) corresponde a la probabilidad de que un elemento pertenezca a la clase
𝐶𝑦 y 𝑁 es el número total de clases.

4.1.2 Aplicación de la Ganancia de Información como propuesta de solución

La ganancia de información permite cuantificar la información proporcionada por un
atributo 𝐴𝑖 con respecto al problema de clasificación. La ganancia de información se
define como la diferencia entre la entropía de Shannon antes de 𝐻(𝑆) y 𝐻 (𝑆 |𝐴𝑖)
después de conocer su valor en el atributo 𝐴𝑖. Ver ecuación 7.
El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en 𝑧𝑖 subgrupos 𝑆𝑥
𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 =
|𝐷(𝐴𝑖)| es decir, el número de valores que puede presentar el atributo. Para calcular la
entropía de of 𝐻 (𝑆 |𝐴𝑖), se calcula como el promedio ponderado
|𝑆𝑥
𝑖 |
|𝑆|
de la entropía
de Shannon en cada subgrupo 𝑆𝑥
𝑖 .
𝐻 (𝑆 |𝐴𝑖) = ∑ 𝑃 (
|𝑆𝑥
𝑖 |
|𝑆|
) ∗ 𝐻 (𝑆|𝑆𝑥
𝑖 )
𝑧𝑖
𝑥=1

(11)
donde:
𝐻 (𝑆|𝑆𝑥
𝑖 ) = − ∑ 𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) ∗ 𝐿𝑛 (𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 ))) ;
𝑁
𝑦=1

𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) =
|𝑆𝑦
𝐶(𝑆𝑥
𝑖 )|
|𝑆𝑥
𝑖 |

La función 𝑃(𝑆𝑦
𝐶(𝑆𝑥
𝑖 )) es la probabilidad de que un elemento 𝑆𝑦
𝐶(𝑆𝑥
𝑖 ) pertenezca a la
clase 𝐶𝑦 y si el elemento pertenece al subgrupo 𝑆𝑥
𝑖 .

Tabla 1. Representación de un conjunto 𝑆 de instancias 𝐺𝑤 , donde cada instancia pertenece a una
clase 𝐶𝑦. A cada posición o nucleótido de un conjunto de secuencias alineadas 𝑆 se le asignó el nombre
de atributo 𝐴𝑖 donde 𝑖 indica la posición del nucleótido. El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en
𝑧𝑖 subgrupos 𝑆𝑥
𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 = |𝐷(𝐴𝑖)|. 𝑆𝑦
𝐶(𝑆𝑥
𝑖 ) expresa que el subconjunto 𝑆𝑥
𝑖 pertenece
a la clase 𝐶𝑦.

Para entender lo anterior, a continuación, se desarrolla un ejemplo asociado con los
valores de la Tabla 1. Al aplicar la ecuación 7 para cada uno de los atributos del
conjunto 𝑆, se observa que el atributo 𝐴3 se evalúa con la mayor ganancia de
información y se divide en tres subconjuntos del conjunto S. El primero es 𝑆𝐶
3, donde
sus instancias pertenecen a las clases 𝐶2 y 𝐶3. El segundo subconjunto es 𝑆𝐴
3 con todas
sus instancias pertenecientes a la clase 𝐶4. El último subconjunto es el 𝑆𝑇
3 donde todas
las instancias pertenecen a la clase 𝐶1. Debido a que el subconjunto 𝑆𝐶
3 no tiene
instancias de una sola clase, el análisis de ganancia de información se realiza
nuevamente aplicando la fórmula 7. Si dos instancias no tienen el mismo valor para
cada atributo y pertenecen a clases diferentes, los atributos son adecuados para llevar
a cabo la clasificación, como se puede ver, el subgrupo 𝑆𝐶
3 los atributos 𝐴1 y 𝐴2
permiten clasificar los elementos correctamente para Las clases 𝐶2 y 𝐶3.
Este ejemplo muestra que es posible clasificar secuencias de ADN utilizando los
conceptos de entropía y ganancia de información. Para este caso, se selecciona el
atributo 𝐴3 con mayor 𝐼𝐺 , este atributo permite discriminar rápidamente las clases 𝐶1
y 𝐶4. Al calcular nuevamente 𝐼𝐺 de todos los atributos, se obtiene que tanto 𝐴1 como
𝐴2 permiten discriminar las clases 𝐶2 y 𝐶3. Lo anterior se puede mostrar de una manera
simple en un árbol de decisión donde cada vértice tiene un máximo de 4 valores
posibles Figura 6.

Figura 6. Árbol de decisión para la clasificación de los datos presentados en la Tabla 1.

4.2 Propuesta de solución: algoritmo ID3HCV

Además de utilizar el criterio de ganancia de información para seleccionar el atributo
que mejor separa las clases, es necesario contemplar que los resultados se utilizarán
para montar una prueba de diagnóstico de PCR. Por lo tanto,es necesario considerar
algunos criterios que pueden optimizar el diseño de la prueba.
Lefever et al. [21] demostró el efecto que el tipo de desajuste tiene sobre la alineación
y la posición en un cebador sobre la eficiencia de extensión durante los primeros ciclos
de la PCR. Encontró un mínimo o nula extensión [7] cuando introdujeron un desajuste
en los últimos 3 o 4 nucleótidos del cebador en el extremo 3'. Su hipótesis fue que la
baja extensión fue causada por la reducción en la unión de la enzima ADN polimerasa
al sitio de unión [7]. Llegó a la conclusión de que cuanto más se aproximaba el
desajuste al extremo 3', mayor era el impacto que tenía durante la extensión de la PCR,
lo que aumentaba el número de ciclos en los que se detectaba el amplicón en la PCR.

Utilizando el análisis realizado por Lefever, se diseñó una función de evaluación para
considerar sus contribuciones y, además considerar el criterio de ganancia de
información.
El criterio utilizado para la función de evaluación 𝐸(𝐴𝑖, 𝑑) fue que el atributo de
interés 𝐴𝑖 debe evaluarse en 𝐼𝐺 para considerarlo un buen atributo para discriminar
38

entre clases y que además los atributos que lo rodean al 𝐴𝑖 deben contener el mayor
grado de conservación para establecer si es una buena opción para el diseño del
cebador estableciendo que el atributo 𝐴𝑖 es el extremo 3´del cebador .
Los atributos que rodean el atributo 𝐴𝑖 se denominaron ventana 𝜑(𝐴𝑖, 𝑑)
− si nos
referimos al cebador de reversa (“forward”) y 𝜑(𝐴𝑖, 𝑑)
+ si hacemos referencia al
cebador adelantado (“reverse”), consulte la tabla 2.

𝜑(𝐴𝑖 , 𝑑)
− = { 𝐴𝐽: 𝐽 = 𝑖 − 𝑑, … , 𝑖 − 1}
𝜑(𝐴𝑖, 𝑑)
+ = { 𝐴𝐽: 𝐽 = 𝑖, … , 𝑖 + 𝑑}
(11)

Tabla 2. Representación de la ventana de evaluación 𝜑(𝐴𝑖, 𝑑) donde 𝑑 indica el número de atributos
que se relacionan con el análisis de la ventana a la derecha (𝜑(𝐴𝑖, 𝑑)
+) para el diseño del cebador
adelantado y a la izquierda (𝜑(𝐴𝑖 , 𝑑)
−) para el diseño del cebador de reversa del atributo de interés
𝐴𝑖.

Por lo tanto, el criterio de selección se estableció mediante la función de evaluación
𝐸(𝐴𝑖 , 𝑑) es simplemente el producto entre 𝐼𝐺(𝐴𝑖) y la evaluación de la
ventana 𝜑(𝐴𝑖, 𝑑). En caso de hacer el análisis para el cebador adelantado se toma en
cuenta la ventana del lado derecho 𝜑(𝐴𝑖, 𝑑)
−, para el análisis del cebador de reversa se
considera la ventana del lado izquierda del atributo 𝐴𝑖 𝜑(𝐴𝑖, 𝑑)
+.

𝐸(𝐴𝑖 , 𝑑)
− = 𝐼𝐺(𝐴𝑖) ∗ 𝜑
−(𝐴𝑖, 𝑑)
(12)
39

𝐸(𝐴𝑖 , 𝑑)
+ = 𝐼𝐺(𝐴𝑖) ∗ 𝜑
+(𝐴𝑖, 𝑑)
(13)

donde 𝜑−(𝐴𝑖, 𝑑)
𝜑−(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗)
𝑗=𝑖−1
𝑗=𝑖−𝑑

y 𝜑+(𝐴𝑖, 𝑑)
𝜑+(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗)
𝑗=𝑖+𝑑
𝑗=𝑖

de manera que 𝜑(𝐴𝑖, 𝑑) es la evaluación de la ventana 𝜑(𝐴𝑖, 𝑑) con 𝑑 atributos antes
o después de la posición 𝐴𝑖.

𝑊𝑗 es el peso del atributo 𝑊𝑗 tomado de los experimentos de Lefever definidos como
∑
𝑑𝐶𝑞
𝑅𝑗
la suma de las diferencias entre el número de ciclos 𝐶𝑞𝑀𝑀 para la amplificación
con la alineación no ajustada y el número de ciclos para la amplificación con la
alineación perfecto 𝐶𝑞𝑃 [21]. Simplificado en la Tabla 3, basado en los resultados
obtenidos por Lefever.

𝑾𝒋 Value associated
with 𝑾𝒋
0 0.687
1 0.057
2 0.031
3 0.016
4 0.012
5-19 0.014
Tabla 3. Pesos 𝑊𝑗 y su valor asociado por posicion basado en los resultdos de Lefever.

𝐻(𝐴𝑗) = Entropía del atributo 𝐴𝑗 se define como:

𝐻(𝐴𝑗) = ∑ 𝑃(𝑣𝑥
𝑗
) ∗ 𝑙𝑛 (𝑃(𝑣𝑥
𝑗
))
𝑧𝑗
𝑥=1 tal que 𝑃(𝑣𝑥
𝑗
) =
|𝑣𝑥
𝑗
|
|𝑆|

(14)

El análisis anterior indica que los conceptos de entropía y ganancia de información
permiten clasificar las secuencias de ADN y, debido al estudio de Lefever, pueden
40

considerarse criterios que pueden favorecer el diseño de cebadores para una PCR.
Sobre la base del análisis anterior, diseñamos el algoritmo 2 que recibe una base de
datos con instancias de secuencias de ADN.

ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠)
1 Crear un nuevo nodo 𝑟𝑎í𝑧 del árbol
2 If todas las instancias tienen la misma etiqueta para el
3 atributo que pertenece a la clase 𝐶𝑦
4 Return el árbol con 𝑟𝑎í𝑧 única y con la etiqueta 𝐶𝑦
5 If 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 está vacío
6 Return el árbol con 𝑟𝑎í𝑧 única con la etiqueta
7 más común de 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠
8 Else
9 𝐴𝑖 ← el atributo en 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 que mejor
10 clasifica las 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (considerando la fórmula 𝑬(𝑨𝒊, 𝒅))
11 𝑟𝑎í𝑧 atributo de decisión ← 𝐴𝑖
12 For each posible valor 𝑣𝑖 de 𝐴𝑖
13 Agrega una nueva ramificación debajo de la raíz
14 correspondiente a la prueba de 𝐴𝑖 = 𝑣𝑖
15 Sea 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 el subconjunto de instancias
16 con el valor 𝑣𝑖 para el atributo 𝐴𝑖
17 If 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠𝑣𝑖 está vacío
18 A continuación de esta ramificación,
19 agrega una nueva hoja nodo con el valor
20 más común 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠.
21 Else
22 ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 , 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 − {𝐴𝑖})
23 End
Algoritmo 3. Recibe de una base de datos con instancias de secuencias de ADN. Devuelve un árbol de
decisión donde cada nodo es un atributo que resuelve el problema de clasificación.

Este algoritmo toma como base al algoritmo ID3. Sin embargo, se le han hecho algunas
modificaciones ya que no solo utiliza los criterios de ganancia de información para
generar el árbol, además de eso se ha agregado la función de evaluación. En la línea 9,
10 y 11 se seleccionan los mejores atributos analizándolos con la fórmula 12
aplicándola para el cebador adelantado o para el cebador de reversa y finalmente
devuelve un árbol de decisiones donde cada nodo es un atributo que resuelve el
problema de clasificación.

4.2.1 Implementación del algoritmo ID3HVC

La base de datos utilizada contiene 2000 secuencias alineadas con los 7 tipos del HCV
fue proporcionada por los Laboratorios Clínicos de Puebla extraída de un repositorio
de la ViRP (Virus Pathogen Database and Analysis Resourse). Del total del de las 2000
secuencias 946 pertenecen al VHC tipo 1, 211 al tipo 2, 544 al tipo 3, 72 al tipo 4, 11
al tipo 5, 210 al tipo 6 y 6 al tipo 7.

La implementación del algoritmo se realizó en el lenguaje de programación Java
1.8.0_111 y la plataforma de software Weka 3.8.0. Se ejecutó en una computadora
Intel Core i7 2.9 Ghz con 16 GB de Ram y Windows 10 Home.

4.3 Propuesta de solución: algoritmo J48

Debido a que Lefever insistió a través de su trabajo que la hibridación de los
nucleótidos más cercanos al extremo 3´ tienen un papel fundamental en la
amplificación se decidió hacer un ajuste en la base de datos y considerar un atributo
como una combinación de 3 nucleótidos (triplete) continuos en la secuencia de ADN.
Antes de generar esta nueva base fueron eliminados todos aquellos nucleótidos con
ganancia de información igual que 0 con el objetivo de reducir el número de
combinaciones de atributos y reducir el espacio de análisis.
Hacer esta modificación en la base de datos nos permite identificar aquellos atributos
por triplete que mayor ganancia de información aportan. Esto cobra sentido en el
momento que se espera que los investigadores basen su diseño considerando el triplete
seleccionado como el extremo 3´ del cebador. A partir de este momento se define a 𝐴𝑖
como la combinación de un triplete de nucleótidos de la nueva base de datos donde 𝑖
es la posición del triplete.
Esta modificación en la base de