Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
BENEMÉRITA UNIVERSIDAD AUTÓNOMA DE PUEBLA Facultad de Ciencias de la Computación Desarrollo de un algoritmo de clasificación de secuencias de ADN, basado en localizar regiones conservadas y una técnica de búsqueda heurística. Tesis profesional presentada para obtener el título de Maestría en Ciencias de la Computación Presenta: Sarahí Zúñiga Herrera Director de tesis: David Eduardo Pinto Avendaño Asesor externo: Javier Garcés Eisele Puebla, Pue., México Noviembre del 2019 ii iii Agradecimientos: A mis padres y a mis mentores: Doctor Javier Garcés Eisele y Doctor Iván Olmos Pineda. iv RESUMEN En esta tesis se presenta la aplicación de los algoritmos ID3 y J48 para acelerar el proceso de localizar secuencias conservadas y patrones específicos en una base de datos con secuencias de ADN del virus de Hepatitis tipo C, para que investigadores puedan diseñar una prueba de diagnóstico molecular basada en la reacción en cadena polimerasa. Además de utilizar estos algoritmos bien conocidos se presenta el desarrollo de un algoritmo llamado ID3HCV, que al mismo tiempo de considerar la ganancia de información considera el grado de conservación y la importancia que tiene la posición del atributo. Este algoritmo está diseñado para favorecer aquellos atributos que son mayormente conservados, evaluados a través de una función de evaluación que también considera parámetros específicos de las pruebas de PCR basada en los trabajos de Steve Lefever, Filip Pattyn, y Jan Hellemans. Empleando estos conceptos y utilizando la teoría de árboles de decisión se aplicaron los algoritmos ID3HCV y C4.5 a una base de datos con 2000 secuencias ADN de los siete tipos de HCV. Estos algoritmos localizaron aquellas regiones de mejor calidad, es decir; que están dentro de regiones conservadas y que también son clave para discriminar entre los siete tipos de virus. Los resultados obtenidos muestran que es posible localizar atributos que podrían resolver el problema de clasificación, lo siguiente es que estas propuestas sean evaluadas y científicos determinen si es posible diseñar cebadores en las regiones propuestas. v CONTENIDO Resumen...................................................................................................................................iv Capítulo 1. INTRODUCCIÓN ..................................................................................................... 1 1.1 Planteamiento del problema ................................................................................... 2 1.2 Justificación .............................................................................................................. 4 1.3 Hipótesis ................................................................................................................... 5 1.4 Objetivos Generales y Específicos ............................................................................ 5 1.4.1 Objetivo general ............................................................................................... 5 1.4.2 Objetivos particulares ...................................................................................... 6 1.5 Alcances y limitaciones ............................................................................................ 6 1.5.1 Alcance ............................................................................................................. 6 1.5.2 Limitaciones ..................................................................................................... 7 Capítulo 2. MARCO TEÓRICO ................................................................................................... 8 2.1 Ácido desoxirribonucleico (ADN) ............................................................................. 8 2.2 Virus de Hepatitis. .................................................................................................... 9 2.2.1 Genoma del Virus de Hepatitis C. .................................................................. 10 2.2.2 Diagnóstico del Virus de Hepatitis C. ............................................................. 11 2.3 Reacción en cadena polimerasa (PCR) ................................................................... 12 2.3.1 Reactivos de la PCR ........................................................................................ 15 2.3.2 Diseño de cebadores ...................................................................................... 16 2.4 Propuestas actuales de solución al “sequence typing problem” (STP) .................. 19 2.5 Teoría de la información ........................................................................................ 21 2.5.1 Concepto de Entropía .................................................................................... 24 2.5.2 Ganancia de información ............................................................................... 25 2.6 Árboles de decisión ................................................................................................ 25 vi 2.6.1 Algoritmo ID3 ................................................................................................. 27 2.6.2 Algoritmo C4.5 ............................................................................................... 29 Capítulo 3. DESCRIPCIÓN DEL PROBLEMA ............................................................................. 32 Capítulo 4. METODOLOGÍA .................................................................................................... 34 4.1 Propuesta de solución ............................................................................................ 34 4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución ............. 34 4.1.2 Aplicación de la Ganancia de Información como propuesta de solución ...... 35 4.2 Propuesta de solución: algoritmo ID3HCV ............................................................. 37 4.2.1 Implementación del algoritmo ID3HVC ......................................................... 41 4.3 Propuesta de solución: algoritmo J48 .................................................................... 41 4.4 Propuesta de solución: algoritmo J48 sobre bases de datos Binarias ................... 42 Capítulo 5. RESULTADOS ........................................................................................................ 43 5.1 Resultados algoritmo ID3HCV ................................................................................ 43 5.2 Resultados algoritmo J48 ....................................................................................... 45 5.3 Resultados bases de datos binarias usando algoritmo J48 .................................... 46 Capítulo 6. DISCUSIÓN ........................................................................................................... 49 Capítulo 7. CONCLUSIÓN Y TRABAJO FUTURO ...................................................................... 52 Referencias ............................................................................................................................. 54 vii 1 CAPÍTULO 1. INTRODUCCIÓN El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido como un serio problema de salud a nivel mundial. Además, se le conoce por ser el responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo importante para el carcinoma hepatocelular [8]. Puebla es el estadomexicano con mayor mortalidad por cirrosis hepática [9]. El VHC posee una alta variabilidad genética, identificándose desde su descubrimiento a la fecha siete tipos principales asociados a diferentes comportamientos del virus en el hospedero y respuestas al tratamiento [10]. Uno de los problemas más frecuentes en el diagnóstico clínico es clasificar una secuencia de ADN dada y determinar la clase o subclase, lo que se conoce como problema de tipificación de secuencias (STP) [2]. Actualmente, el problema de clasificar las secuencias de ADN con una alta tasa de variabilidad es de gran interés para el desarrollo de pruebas de diagnóstico. Para resolver el problema de STP se han encaminado diferentes propuestas como los propuestos por Garcés basados en conceptos de ganancia de información y entropía de Shannon [31, 32]. Una de las herramientas principales en el diagnóstico molecular es la reacción en cadena polimerasa (PCR, del inglés Polimerase Chain Reaction). La PCR revolucionó el campo del diagnóstico molecular, hasta el punto de que en la actualidad representa el segmento de mayor crecimiento en los laboratorios clínicos del mundo entero [20]. Sin embargo, el diseño de una prueba de diagnóstico por PCR puede resultar muy complejo. Este trabajo de tesis se planteó el objetivo de desarrollar un algoritmo, para localizar regiones conservadas y patrones en secuencias de ADN que sirvan como base para el 2 diseño de cebadores de una prueba de diagnóstico clínico por PCR que ayude a discriminar secuencias de ADN. Además de utilizar el criterio de ganancia de información, es necesario no olvidar que los resultados serán utilizados para montar una prueba de diagnóstico por PCR, por ello consideramos importante tomar en cuenta algunos criterios que pueden optimizar el diseño de la prueba. Lefever et al. demostró el efecto que tiene el tipo de desajuste en la alineación y posición en un primer en la eficiencia de extensión durante los primeros ciclos de la PCR [31]. Utilizando el análisis realizado por Lefever se diseñó una función de evaluación que considera sus aportaciones y que, además considerara el criterio de ganancia de información. La selección de los cebadores es un proceso crítico para asegurar éxito en las pruebas de PCR, por ello es importante considerar que para que su diseño sea óptimo deben ser ubicados en regiones conservadas, además se deben evitar desajustes en el extremo 3’ del cebador ya que cuanto más próximo mayor es el impacto que tiene al aumentar el número de ciclos necesarios de la prueba. 1.1 Planteamiento del problema Para detectar y tipificar al virus de hepatitis C en los laboratorios de diagnóstico de Biología Molecular, actualmente existen kits comerciales basados en técnicas de PCR, sin embargo, la gran mayoría de ellos no incluyen los siete subtipos actuales y son sumamente costosos. Para el caso del HCV una de las principales razones para que las pruebas sean tan elevadas en precio es la complejidad que se descubre al diseñarlas. Las herramientas bioinformáticas que actualmente utilizan Biólogos Moleculares para el diseño de cebadores no incluyen un análisis de las secuencias que permita localizar las regiones que ayudan a resolver el problema de tipificación del HCV. Los investigadores se limitan a observar las secuencias y determinar manualmente cuál es la región correcta para diseñar los oligos. Como se muestra en la figura 1 la metodología que actualmente se utiliza es alinear secuencias de una base de datos y buscar regiones conservadas 3 para localizar atributos que permitan identificar secuencias de cada uno de los siete tipos de virus de HCV. Por ejemplo, en la figura 1 se observa que utilizando el atributo 20 se pueden separar las secuencias de las clases HCV1 y HCV4 instanciadas con una Timina, conociendo esto, se puede utilizar el atributo 7 y determinar que en caso de que la secuencia en esa posición 7 contenga una Guanina pertenece al HCV1 y si contiene una C pertenece al tipo HCV4. El atributo 20 apunta ser una buena opción ya que ayuda a discriminar secuencias entre clases y además se encuentra dentro de una región conservada, sin embargo, el atributo 7 no parece ser una buena alternativa para diseñar cebadores para una PCR dado que se encuentra en una región altamente variable a pesar de que ayuda a clasificar secuencias del tipo HCV1 y HCV4. Como se explicará más adelante las regiones conservadas y algunos otros criterios son importantes para el diseño de pruebas de PCR. Figura 1. Secuencias de ADN alineadas de los 7 tipos de HCV. Localización de los atributos 7 y 20 que ayudan a clasificar secuencias de HCV1 y HCV4. a) El atributo 7 se encuentra rodeado de atributos muy variables. b) El atributo 20 se encuentra rodeado de atributos conservados. Por otro lado, considerando que las bases de datos que se manejan son ciento de veces más grandes a la mostrada en la figura 1, resulta fácil demostrar lo complicado que es localizar estos atributos de forma visual. a) Región variable b) Región conservada 4 1.2 Justificación Tomando como punto de partida que los investigadores realizan la búsqueda manual de regiones para el diseño de cebadores de PCR utilizados en la tipificación de HCV. Corresponderá como trabajo de esta tesis diseñar un algoritmo que ayude a acelerar el proceso y resolver el problema de encontrar secuencias conservadas y patrones en una base de datos con secuencias de ADN de los siete tipos de VHC, utilizando por ejemplo herramientas de la teoría de la información de Shannon, clasificadores, técnicas heurísticas, entre otras. Ver figura 2. Como entrada se trabajará con una base de datos con instancias de secuencias altamente variables de los siete tipos de virus de hepatitis C. Figura 2. Metodología del análisis de una base de datos para localizar atributos y diseñar pruebas de PCR. 5 1.3 Hipótesis Es posible desarrollar un algoritmo basado en heurísticas computacionales que permitan localizar zonas conservadas y patrones en secuencias de ADN con un bajo costo computacional, que favorezcan al desarrollo de pruebas de diagnóstico por PCR para la clasificación de los siete tipos de virus de hepatitis C. 1.4 Objetivos Generales y Específicos 1.4.1 Objetivo general El objetivo general del trabajo es desarrollar un algoritmo a través del uso de técnicas basadas en técnicas heurísticas, para localizar regiones conservadas y patrones en secuencias de ADN que sirvan como base para el diseño de una prueba de diagnóstico clínico creada por expertos en Biología Molecular, para clasificar secuencias de ADN de los siete subtipos de virus de hepatitis C. El algoritmo recibirá una base de datos con secuencias alineadas y depuradas de ADN altamente variables de todos los subtipos de virus de hepatitis C, con el objetivo de localizar regiones de secuencias conservadas en las que se deberán ubicar patrones que resuelvan el problema de clasificación de los siete tipos de virus que existen actualmente. El desarrollo será basado en heurísticas utilizando modelos tales como aquellos basados en la teoría de la información de Shannon y otras herramientas de análisis. 6 1.4.2 Objetivos particulares Proponer un algoritmo para solucionar el problema de localizar regiones conservadas y patrones en secuencias de ADN utilizando todos los recursos encontrados durante la revisión de la bibliografía. Implementar el algoritmo diseñado para procesar una base de datos con instancias de secuencias de ADN del virus de hepatitis C para ubicar regiones conservadas y patrones específicos. Medir la calidad de los resultados a partir de métricas cuantitativas y cualitativas para determinar la exactitud de la metodología al encontrar regionesconservadas. La calidad de los resultados se medirá por medio de dos parámetros: medidas cuantitativas, referentes a estadísticas de los resultados de acuerdo con los algoritmos diseñados y medidas cualitativas, las cuales se basarán en las evaluaciones de los expertos en el dominio. 1.5 Alcances y limitaciones 1.5.1 Alcances Se desarrollará un algoritmo capaz de identificar regiones conservadas para cada tipo del virus de hepatitis C, estas regiones deben facilitar a expertos el diseño de cebadores para crear pruebas de tipificación por PCR. Dicho algoritmo será capaz de localizar las regiones que resuelven el problema de clasificación de secuencias del HCV de una base de datos dada, considerando criterios específicos de la reacción en cadena polimerasa. 7 1.5.2 Limitaciones A causa de la complejidad del diseño de los cebadores para pruebas de PCR, el algoritmo solo podrá proponer aquellas regiones que después de un análisis matemático resulten como adecuadas para resolver el problema de clasificación, sin embargo, será decisión del experto y de su análisis, aceptar o rechazar las propuestas hechas por el algoritmo. 8 CAPÍTULO 2. MARCO TEÓRICO 2.1 Ácido desoxirribonucleico (ADN) Cada organismo, sea este un virus, una bacteria, un animal o una planta, posee un genoma que contiene la información biológica necesaria para construir y mantener cada una de las instancias de ese organismo. La mayor parte de los genomas presentes en la naturaleza están constituidos por ácido desoxirribonucleico (ADN) aunque ciertos virus poseen ácido ribonucleico (ARN) como material genético. Tanto el ARN como el ADN son moléculas poliméricas construidas por cadenas de subunidades denominadas nucleótidos. Un nucleótido es un compuesto químico fundamental de los ácidos nucleicos, constituidos por una base nitrogenada, un azúcar y una molécula de ácido fosfórico [1]. El ADN está compuesto por una mezcla de cuatro de estos nucleótidos: la adenina (A), la guanina (G), la citosina (C) y la timina (T). Figura 3. Figura 3. Doble hélice de ADN. P significa di-éster fosfato, S significa azúcar desoxirribosa, A es Adenina, T es Timina, G es Guanina y C es Citocina. 9 Una molécula de ADN está formada por dos cadenas de estos nucleótidos polimerizados, que se denominan bases, formado una estructura que se describe a menudo como una doble hélice. Las dos cadenas o hebras del ADN están estabilizadas entre por uniones no covalentes, presentes entre las bases de las dos cadenas. Decimos que las bases están apareadas o alineadas unas con otras. Este apareamiento tiene lugar de una forma muy precisa: la A de una cadena se aparea con la T de la otra cadena y la C con la G. La información biológica presente en el ADN se encuentra codificada en el orden preciso de esos nucleótidos dentro de la molécula de ADN, lo que denominamos secuencia de nucleótidos o secuencia de ADN. 𝐺𝑤 = ⟨𝑣1, 𝑣2, 𝑣3 … 𝑣𝑛⟩, es una cadena de elementos del alfabeto ∑𝐴𝐷𝑁, donde ∑𝐴𝐷𝑁 = {𝐴, 𝑇, 𝐺, 𝐶}, 𝑣𝑥 ∈ ∑𝐴𝐷𝑁 Donde una cadena ϕi es una secuencia de ADN formada elementos del alfabeto ∑𝐴𝐷𝑁 y puede definir las características de un organismo vivo, de hecho, si se conoce una cadena o parte de ella se puede determinar a qué organismo pertenece. Así, diferentes tipos de análisis de secuencias se pueden utilizar en laboratorios de análisis clínicos, por ejemplo: para identificar agentes infecciosos presentes en una muestra de sangre tomada de algún paciente. 2.2 Virus de Hepatitis. El término hepatitis, proveniente del griego hepar, que significa hígado, fue utilizado por primera vez por Bianchi en 1710 y se refiere a todas aquellas enfermedades que pueden de una forma u otra inflamar el hígado [3]. La causa más frecuente que provoca hepatitis es una infección vírica, aunque también puede ser producida por agentes químicos, bacterias o toxinas bacterianas, infecciones parasitarias, por la existencia de litiasis en la vesícula, entre otras [4]. De ahí que las hepatitis se dividen en infecciosas y no infecciosas. La padecida por la mayoría de los pacientes es la de tipo infecciosa. La hepatitis vírica típica en los humanos es producida debido al efecto de varios tipos 10 de virus, las formas más comunes son la hepatitis por el virus A (VHA), la hepatitis por el virus B (VHB) y la hepatitis por el virus C (VHC), que anteriormente se conocía como hepatitis no A/no B, y la única relación entre ellas es que todas afectan al hígado [3]. La hepatitis causada por el virus de la hepatitis C (VHC) se ha transformado en uno de los principales problemas de enfermedades infecciosas emergentes [5]. El virus de la hepatitis C (VHC), desde su descubrimiento en 1989, ha sido reconocido como un serio problema de salud a nivel mundial. Se estima que el VHC infecta cada año de 3 a 4 millones de personas y que anualmente mueren de 350 000 a 500 000 personas por enfermedades hepáticas relacionadas con el virus [6]. La Organización Mundial de la Salud estimó que 71 millones de personas tenían infecciones crónicas por el VHC en 2015 [7]. En la actualidad este virus representa la causa más frecuente de enfermedad hepática crónica, cirrosis y trasplante hepático. Además, se le conoce por ser el responsable de múltiples manifestaciones extrahepáticas y un factor de riesgo importante para el carcinoma hepatocelular [8]. Puebla es el estado mexicano con mayor mortalidad por cirrosis hepática [9]. El VHC posee una alta variabilidad genética y basándose en ella se han identificado desde su descubrimiento a la fecha siete tipos principales asociados a diferentes comportamientos del virus en el hospedero y respuestas al tratamiento [10]. 2.2.1 Genoma del Virus de Hepatitis C. El genoma del VHC está constituido por una cadena simple positiva de ácido ribonucleico (ARN) de entre 9,500-10,000 nucleótidos (9.6 kb), que codifica para una poliproteína de aproximadamente 3,010 aminoácidos y caracterizada por un alto grado de heterogeneidad genética y con un marco de lectura visible (ORF) [11]. El genoma está precedido por una región no codificante 5´(UTR) de 342 bases, altamente conservada y resistente a la desnaturalización y seguida por una región no codificante 3´(UTR) de 15 a 269 bases con una secuencia de poli(A) (adenina) en el extremo 3´ 11 [12,13]. La porción amino terminal forma la proteína estructural (región 5´terminal) y se divide en tres proteínas estructurales (C, E1, E2), mientras que la carboxilo terminal (región 3´terminal) da lugar a varias enzimas virales y seis proteínas no estructurales (NS2, NS3, NS4a, NS4b, NS5a, NS5b) [13]. Figura 4. Figura 4. Genoma del virus de la hepatitis C 2.2.2 Diagnóstico del Virus de Hepatitis C. La hepatitis C es una enfermedad que permanece desconocida y es raramente diagnosticada hasta la aparición de sus complicaciones crónicas. A partir de 1989 después de la secuenciación del genoma y la descripción del virus mediante técnicas de ingeniería genética [14] se hizo posible el diagnóstico de laboratorio. Para la detección o diagnóstico de la infección por el VHC y el estado de progresión de la enfermedad, existen diferentes pruebas [3]. Los ensayos serológicos, que detectan anticuerpos al VHC (anti-VHC), se subdividen en ensayos de escrutinio como los inmunoenzimáticos, principalmente los “Enzyme Linked Immunosorbent Assay” (ELISA) [15], que usan anticuerpos policlonales o monoclonales (para detectar antígenos) o virus completos, péptidos sintéticos o antígenos recombinantes (para detectar anticuerpos) [13] y ensayos suplementarios como los “Recombinant Immunoblot”, entre ellos el de tercera generación para IgG (RIBA 3.0). Además de las técnicas de biología molecular que analizan los ácidos nucleicos(ADN y ARN) éstos últimos han sido la herramienta que ha permitido conocer la existencia del VHC a 12 través de la identificación de su genoma. A nivel diagnóstico han contribuido a la determinación de la persistencia del virus en la persona infectada, a establecer su genotipo, así como a cuantificar el virus circulante [16]. Existen diversas técnicas para la determinación del genotipo viral, unas basadas en la amplificación de secuencias (5'UTR, core, NS5b) con cebadores tipo-específicos, o seguidas de hibridación a sondas tipo-específicas, o de análisis de restricción de producto amplificado; y otras basadas en la determinación de anticuerpos frentes a péptidos tipoespecíficos [18,19]. Estas últimas son sencillas y en pacientes inmunocompetentes tienen buena concordancia con las técnicas moleculares, pero su uso está limitado en pacientes inmunodeprimidos y en el análisis de determinados genotipos. Los ensayos que permiten detectar, clonar y secuenciar genomas virales, son más sensible que las pruebas convencionales aun en pacientes con niveles bajos del ARN viral y permiten la detección precoz del virus [12, 17]. Sin embargo, son muy sofisticados, requieren de un seguimiento cuidadoso para reducir la contaminación, una correcta colección y almacenamiento de las muestras y con problemas especiales en la amplificación, debido a la variabilidad de la secuencia del ARN [11]. 2.3 Reacción en cadena polimerasa (PCR) En 1983, Kary Mullis, investgador de la compañía Cetus, diseña y patenta un método para la amplificación de secuencias específicas de ADN, al que se ha denominado PCR, siglas de reacción en cadena de la polimerasa en inglés [20]. La PCR revolucionó el campo del diagnóstico molecular, hasta el punto de que en la actualidad representa el segmento de mayor crecimiento en los laboratorios clínicos del mundo entero, en los que se ha convertido en herramienta de invaluable utilidad y una metodología encaminada a obtener cantidades grandes de ADN para su utilización en el laboratorio clínico [10]. La PCR es una técnica enzimática que nos permite fabricar in vitro un número teóricamente ilimitado de copias de una secuencia de ADN 13 conocida, gracias a la repetición cíclica de tres pasos o reacciones simples en las que solo varia la temperatura de incubación. Esto supone disponer de una forma rápida y eficaz de cantidades suficientes de una determinada secuencia de ADN para su posterior estudio molecular. Conceptualmente, la PCR es un método simple de síntesis de ácidos nucleicos in vitro, en el que el número de moléculas generadas se duplica tras cada ciclo del proceso, de tal forma que, si se empieza con una sola doble cadena de ADN y suponiendo una eficiencia de amplificación del 100%, después de 20 ciclos dispondríamos de un millón de copias del fragmento amplificado. Para su realización se requieren reactivos básicos, que se someten a diferentes cambios cíclicos de temperatura. Estos son: la muestra o molde de ADN a amplificar, dos oligonucleótidos, llamados cebadores, iniciadores o primers, cada uno de ellos complementario a cada una de las hebras del ADN molde al que flanquean, con una corta distancia entre ellos; una cantidad abundante de los precursores de síntesis, (los cuatro deoxinucleótidos trifosfatos dATP, dCTP, dGTP, dTTP) y una enzima ADN polimerasa, que se encargará del proceso de síntesis de las nuevas copias de ADN a partir del ADN molde [21]. Básicamente, el proceso se realiza mezclando los productos descritos en un microtubo Eppendorf de 0,2 ml, al que sometemos a una serie de ciclos en los que varía la temperatura de incubación [21]. Cada ciclo consta de tres pasos o reacciones: 1. Desnaturalización del ADN muestra bicatenario (dos cadenas) en los que se separan las dos hebras complementarias por calentamiento de las mismas a 95°C. 2. Renaturalización o unión de los cebadores a las secuencias complementarias del ADN muestra por descenso de la temperatura (entre 37° C y 60° C). 3. Polimerización, síntesis o extensión, en el que la temperatura (72º C) se adecua para que pueda actuar la enzima y copiar la hebra de ADN molde mediante la adición al extremo 3’ del cebador de los distintos deoxinucleótidos según las reglas de la complementariedad, sintetizándose el nuevo ADN en la dirección 5’ a 3’. 14 Estos pasos se repetirán cíclicamente, de tal manera que después de cada ciclo habrá un crecimiento exponencial de las copias de ADN. Un incremento final de (1 + 𝑒)𝑛, donde 𝑒 es la eficiencia de amplificación y 𝑛 es el número de ciclos (Figura 5) [23]. Todo este proceso está automatizado, requiriendo sólo una o dos horas desde el comienzo de los ciclos hasta el análisis del producto resultante. Figura 5. Amplificación de un fragmento de ADN mediante la reacción en cadena polimerasa. (a) El procedimiento de la PCR tiene tres pasos. (1) Se separan las cadenas de ADN por calentamiento, a continuación (2) se hibridan con exceso de cebadores de ADN sintético cortos, que flanquean la región que se desea amplificar; (3) el ADN nuevo se sintetiza por polimerización. Los tres pasos se repiten unos 25 o 30 ciclos [37]. 15 2.3.1 Reactivos de la PCR Enzima Taq polimerasa La enzima para llevar a cabo la amplificación de ADN fue descubierta en 1988 procedente de una bacteria termófila, Thermus aquaticus, que vive a temperaturas de 70-75° C en fuentes termales. La Taq polimerasa, como se la denomina, presenta una temperatura optima de actuación entre 75-80° C, siendo más resistente al calor, de forma que tras 50 ciclos a las condiciones citadas conserva el 65 % de su actividad [24]. Oligonucleótidos o cebadores Como hemos visto, para poder sintetizar copias de un determinado fragmento de ADN debemos previamente conocer al menos la secuencia de los dos extremos del fragmento. Conocidas estas secuencias, se sintetizan los dos oligonucleótidos, cebadores o primers. Un cebador o primer es un segmento de cadena (complementario molde) con un grupo 3’-hidroxilo libre al cual pueden añadir nucleótidos que serán complementarios a cada flanco de cada una de las hebras del ADN a amplificar, de tal manera que uno de ellos hibridará con la hebra en sentido 5’-3’ y el otro con la complementaria 3’-5’ o antisentido. A partir de aquí, la enzima podrá llevar a cabo su actividad de síntesis, siempre desde el extremo 3’ término del cebador y en la dirección 5’- 3’ [21]. (Ver figura 5). El tamaño del cebador puede variar. Se ha visto que con un tamaño de 15-20 bases un cebador tiene una elevada posibilidad de unirse a un solo lugar del genoma humano; si el cebador es más largo, la especificad será mayor, y viceversa. Otros reactivos Aparte de los ya citados, cebadores y enzima, debemos incluir en el tubo de reacción los cuatro deoxinucleótidos trifosfatos y MgCl, en un tampón adecuado, normalmente Tris-HCL, pH 8,4, a temperatura ambiente y, por supuesto, la muestra del ADN que queremos amplificar. 16 El proceso de PCR se desarrolló originalmente para amplificar segmentos cortos de una molécula de ADN más larga [25]. Una vez ensamblada, la reacción se coloca en un termociclador, un instrumento que somete la reacción a cambios de temperatura según un programa determinado. Esta serie de ajustes de temperatura y tiempo se conoce como un ciclo de amplificación. Cada ciclo de PCR teóricamente duplica la cantidad de la secuencia seleccionada por los cebadores (amplicón) en la reacción. Cada ciclo de PCR incluye pasos para la desnaturalización de la plantilla, de la alineación del cebador y la extensión del cebador [26]. 2.3.2 Diseño de cebadores La PCR se caracteriza por ser una técnica con alta sensibilidad, reproducibilidad y eficiencia, que genera resultados fiables en poco tiempo y fáciles de analizar[27,28]. Sin embargo, el diseño de una prueba de diagnóstico de PCR puede ser muy complejo, si el número de secuencias a clasificar es grande y, además, son muy variables. El diseño óptimo de los cebadores es esencial para maximizar la especificidad y la eficiencia de una PCR [29]. Un diseño deficiente de los cebadores puede dar lugar a cantidades pequeñas, nulas o no específicas del producto de amplificación. Un diseño apropiado es uno de los factores más importantes para el éxito de una PCR [27]. En general, el diseño de los primers se resume en 4 puntos principales. 1. El primero es obtener una base de datos con las secuencias genéticas objetivo, esta base de datos se puede obtener en bancos de secuencias internacionales como GenBank o fuentes más selectivas como ViRP donde se encuentran las secuencias genéticas de patógenos virales, incluido el VHC. 2. El segundo paso es procesar la base de datos alineándola utilizando cualquiera de las herramientas computacionales disponibles actualmente, como Strap, ClustalX o Clustal Omega, MUSCLE entre otras [30] para localizar las regiones homólogas y conservadas y por otro lado herramentas como Jalview para la visualización de alineaciones de secuencias. Una región conservada 17 comprende un intervalo de comparación de nucleótidos en las donde la repetición de aparición de los nucleótidos es muy similar o idéntica. La alineación de secuencias es el proceso mediante el cual las secuencias se comparan mediante la búsqueda de caracteres comunes y el establecimiento de los residuos de correspondencia entre las secuencias relacionadas, para resaltar zonas de similitud las cuales podrían indicar relaciones funcionales, evolutivas o de interés para su análisis. Estas regiones son interesantes porque si hay un alto grado de conservación, la probabilidad de amplificación para una PCR aumenta. 3. El tercer paso corresponde a la identificación de los oligonucleótidos o cebadores. Seleccionar aquellos nucleótidos que cumplan con los criterios químicos que garantizan especificidad y sensibilidad. Cada primer individual debe contar con una longitud de 18-24 bases. Seleccionar secuencias en las que no abunden repeticiones de bases (polipurinas o polipirimidinas), ya que contribuyen a la inespecificidad de la reacción, se debe mantener un contenido de G:C (Guanina:Citosina) entre 40 y 60 %. Los dos primers del par deben de tener temperatura de fusión 𝑇𝑚 cercanos dentro de los 5 °C. La secuencia de los primers individuales debe iniciarse y terminarse con 1 o 2 bases púricas. Evitar secuencias que puedan formar estructuras secundarias por sí mismas, pues esto dificultaría la unión de los cebadores al ADN muestra y podría haber autoamplificación. Evitar poli X, secuencias adicionales pueden ser agregadas en el extremo 5’ del primer, se pueden agregar degeneraciones en algunas posiciones del primer. Un primer degenerad es una combinación de secuencias de oligonucleótidos en las que pocas bases se alteran de tal manera que el cebador cubre todas las combinaciones de nucleótidos posibles para la proteína objetivo a través de la secuencia de ADN. Comprobar en bancos de datos que las secuencias de oligonucleótidos elegidas no estén en otro lugar del genoma, lo que podría llevarnos a amplificar regiones no deseadas. Comprobar que los cebadores, si no pueden ser 100 % complementarios al ADN molde en toda su extensión, sí lo sean al extremo 3’ término por ser éste el lugar de unión de la Taq polimerasa [15]. Los cebadores se añaden a la reacción en un exceso molar sobre el ADN molde, de manera que la formación del complejo cebador-ADN 18 molde se vea favorecida sobre la reasociación de las dos hebras del ADN molde en el segundo paso del ciclo cuando desciende la temperatura. Para diseñar y analizar un par de primers para ser usados en una reacción de PCR contamos con varios programas. Primer3 es una aplicación que se encuentra libre para su uso en diferentes servidores web. Este software permite especificar un gran número de variables y obtener primers según las indicaciones solicitadas. Además, permite agregar el número de acceso de la secuencia, que se halla en las bases de datos internacionales. También permite discriminar las regiones de la secuencia que se deben incluir, las que se deben excluir y el rango de tamaños del producto. Por otra parte, el software incluye la posibilidad de especificar las características mínimas de los primers deseados, como Tm, porcentaje de GC, máxima autocomplementariedad, y otros parámetros. También presenta las mismas facilidades si se está buscando y analizando una sonda, por ejemplo, para utilizarse en trabajos de hibridación. 4. El cuarto corresponde a la síntesis y evaluación in vitro de los cebadores propuestos para las reacciones de PCR. El tercer paso se describe como la parte más costosa de todo el diseño en términos de tiempo y recursos económicos, especialmente para las pruebas en las que se desea realizar una clasificación de secuencias, como se menciona en el caso del VHC, ya que dos factores deben considerarse principalmente: El primero es seleccionar regiones que nos permitan distinguir entre una clase y otra; el segundo es el establecido en las condiciones químicas y termodinámicas que garantizan la amplificación de la PCR mencionadas anteriormente. En el segundo factor, actualmente hay varios programas de computadora que realizan estas tareas, como oligo7 y primer3 [30]. El nivel de desarrollo de estos programas es tan alto que para las pruebas de identificación es suficiente ingresar la secuencia al programa y esto dará como resultado una serie de las mejores propuestas para los cebadores, lo que dejará al investigador poco o nada para mejorar y aceptar la propuesta hecha por el software. Sin embargo, para el primer factor y basado en el estudio realizado en el estado del arte, no existen herramientas computacionales que permitan la selección de los cebadores clasificadores de las secuencias de interés. 19 Actualmente, los investigadores se limitan a observar las secuencias y determinar manualmente cuál es la región correcta para diseñar los oligos para resolver el problema de clasificación. Un diseño idóneo de PCR consta de un número pequeño de reacciones para la amplificación con una sensibilidad homogénea de todos los tipos virales. Sin embargo, el diseño de una prueba de diagnóstico por PCR puede resultar muy complejo, si la cantidad de tipos del virus a clasificar es grande y las secuencias de ADN para el diseño son altamente variables. Por esta razón la mayoría de los diseños actuales de PCR no cumplen con todas estas expectativas ya sea excluyen ciertos tipos virales por su baja prevalencia en una región geográfica dada o no logran una asignación correcta del tipo y subtipo viral en todos los casos. 2.4 Propuestas actuales de solución al “sequence typing problem” (STP) Uno de los problemas más frecuentes encontrados en el diagnóstico es tener que clasificar una secuencia dada y determinar el tipo o subtipo de la clase a la que pertenece y es llamado problema de clasificación de secuencia (STP sequence-typing problem) [2]. Para proponer soluciones al problema STP, en términos computacionales: al problema de clasificación de secuencias de ADN, se utilizan diferentes herramientas del área de computación que son de ayuda a investigadores para localizar regiones conservadas para diseñar cebadores y se puede partir, por ejemplo, con diversos algoritmos como de alineación y búsqueda de regiones conservadas. Estas herramientas proporcionan resultados que pueden ser la base para el diseño de pruebas de diagnóstico. Algoritmos para localizar regiones conservadas y determinar el grado de semejanza entre secuencias de ADN requieren elaborar el alineamiento y contar (directa oindirectamente) el número de posiciones equivalentes conservadas. Un proceso 20 fundamental para localizar zonas conservadas dentro de un conjunto de secuencias, es el proceso de alineación: proceso por el cual, se comparan las secuencias mediante la búsqueda de caracteres comunes y el establecimiento de los residuos de correspondencia entre las secuencias relacionadas. El alineamiento de pares de secuencias es fundamental en la búsqueda de similitudes dentro de la base de datos [34]. Existe el alineamiento global aplicado cuando las secuencias son similares y de aproximadamente el mismo tamaño por ejemplo el algoritmo de Needleman Wunsch y el alineamiento local aplicado para secuencias diferentes en las que se sospecha que existen regiones muy similares por ejemplo el algoritmo de Smith-Waterman [35]. Por otro lado existen diversas herramientas para alineamiento de secuencias múltiple, uno de los más utilizados es el MEGA, otros tres programas de creación y visualización de alineamientos múltiples son Jalview, Strap y ClustalX [30]. Entre estas herramientas una de las más utilizadas en bioinformática para el alineamiento de secuencias múltiple y diseño de pruebas de diagnóstico es Clustal Omega que hace uso de un algoritmo centrado en Modelos Ocultos de Marcov. Este algoritmo ofrece la ventaja de ser bastante rápido en comparación a herramientas basadas en los algoritmos anteriormente mencionados, también es capaz de producir no sólo alineamientos globales, sino también locales [34]. Esta herramienta además del alineamiento permite localizar regiones conservadas entre las secuencias marcándolas con un solo color para que sea sencillo ubicarlas en forma visual. Si el investigador desea diseñar una prueba de diagnóstico para tipificar diferentes genotipos Clustal Omega deja a su criterio elegir aquellas regiones que considere como las indicadas para basar su diseño de prueba. A pesar de la gran variedad de algoritmos y programas que existen para alinear y localizar secuencias conservadas, actualmente las herramientas de acceso público han sido poco eficientes para localizar regiones conservadas que faciliten la tipificación y el diseño de pruebas de diagnóstico molecular en un conjunto de secuencias de ADN que pertenecen a múltiples clases. Actualmente, los investigadores se limitan a utilizar las herramientas disponibles y finalmente observar, analizar las secuencias y determinar manualmente cuál es la región correcta para resolver el problema de clasificación. http://www.megasoftware.net/ http://www.jalview.org/ http://www.bioinformatics.org/strap/ http://www.clustal.org/clustal2/ 21 En Puebla existen laboratorios donde se hace investigación y desarrollo de pruebas de diagnóstico molecular y hay un especial interés en desarrollar una prueba de diagnóstico molecular para la tipificación viral de hepatitis tipo C. Bajo la dirección del Doctor Javier Garcés Eisele, se han dirigido proyectos desde hace varios años enfocados al desarrollo de propuestas para encontrar secuencias conservadas de ADN y secuencias patrón que sirvan como base para el diseño de pruebas por PCR. Para resolver el problema de STP se han encaminado diferentes propuestas, por ejemplo; en el año 2002 y 2004 se desarrollaron dos trabajos de tesis bajo la dirección del Doctor Garcés y su equipo de trabajo, en las que se propone una solución al problema de STP para el virus de papiloma humano (VPH) [31, 32] utilizando herramientas alineación de secuencias, procesos de agrupamiento (clustering), herramientas de la teoría de la información de Shannon como entropía y ganancia de información. Su propuesta ayudó a diseñar una prueba de diagnóstico molecular por RFLP-PCR (Restriction Fragment Lenght Polymophism coupled to Polymerase Chain Reaction) que actualmente es utilizada en laboratorios para el diagnóstico de VPH [2, 31]. 2.5 Teoría de la información El concepto de información se ha convertido en una noción importante para muchos niveles del conocimiento a partir de las elaboraciones que Claude Shannon (1948, 1949) realizó, a finales de los años cuarenta para optimizar los procesos de transmisión de señales codificadas. A partir de la acelerada difusión y especialización que experimentan los medios de comunicación en el procesamiento y transmisión de información durante la primera mitad de nuestro siglo, se desarrolló el primer modelo científico del proceso de comunicación conocido como la Teoría de la Información o Teoría Matemática de la Comunicación. La primera formulación de las leyes matemáticas que gobiernan dicho 22 sistema fue realizada por Hartley (1928) y sus ideas son consideradas actualmente como la génesis de la Teoría de la Información. Posteriormente, Shannon y Weaver (1949) desarrollaron los principios definitivos de esta teoría. La teoría de la información no trata directamente sobre las señales físicas sino sobre los mensajes codificados. Así, es posible realizar un análisis matemático de “... la medida de la información, la capacidad de un canal de comunicación para transferir información y la codificación como un medio de utilizar los canales a toda su capacidad” [36]. Shannon estaba interesado en los principios de diseño de los sistemas de transmisión y recepción de señales que minimizaran la probabilidad de error en el proceso. Así, concibió una definición de información en función de la probabilidad de ocurrencia de un mensaje: la información (𝐼) se definió como el logaritmo (base 𝑏) del inverso de la probabilidad de ocurrencia del mensaje (𝐴): 𝐼 = 𝑙𝑜𝑔𝑏( 1 𝑃𝐴 ) (1) La información depende exclusivamente de la probabilidad de ocurrencia del mensaje y no del contenido semántico. Si un mensaje es poco probable, contiene mucha información; si es muy probable, contiene poca información. En los casos extremos, un mensaje con probabilidad uno contiene cero informaciones; por el contrario, un mensaje con probabilidad cero contiene infinita información. La definición ofrecida tiene sentido si es posible asignar una probabilidad a los mensajes, lo que implica la existencia de un conjunto de mensajes posibles donde podemos hacer la asignación de probabilidades, es decir, hablamos de probabilidades calculables a priori sobre la ocurrencia específica de un mensaje, pero a posteriori sobre el conjunto de señales posibles [38]. El mensaje podría ser en una secuencia de letras carentes de todo significado e igualmente el problema de cuánta información es transmitida estaría presente. En un sentido amplio, la Teoría de la Información trata acerca de la cantidad de información que es transmitida por la fuente al receptor al enviar un determinado mensaje, sin considerar el significado o propósito de dicho mensaje. No interesa tanto la pregunta: “¿Qué tipo de información?” sino más bien, “¿Cuánta información?” es la que transmite la fuente. 23 Shannon resume en 1948 que la entropía es una medida de la información o incertidumbre de experimentos probabilísticos. La entropía de Shannon mide, por lo tanto, el grado de desorden (o azar) de un sistema. Después de su aparición en un contexto tecnológico, la teoría de la información encontró aplicación en otros campos teóricos. Quizá el caso más espectacular de transferencia analógica fue la aplicación del concepto de información de Shannon en la biología molecular. El descubrimiento de la estructura bioquímica de los ácidos nucleicos (ADN y ARN) en los años cincuenta señaló el mecanismo fundamental de la herencia y abrió un territorio de investigación en biología. Se encontró que las secuencias genéticas se formaban por el encadenamiento químicamente arbitrario de bases nucleicas (en cuatro posibilidades: dos purinas y dos pirimidinas). La transmisión de caracteres hereditarios se interpretó entonces como un resultado causal dela decodificación de la información contenida en las secuencias genéticas. No tardó en hablarse de las cuatro bases como el alfabeto del código genético y de las secuencias genéticas como los programas de desarrollo de los sistemas biológicos. En tal contexto, resultó completamente natural la aplicación del concepto de información de Shannon. Las secuencias genéticas podían verse como mensajes escritos en un código especificado, donde las posibilidades combinatorias del alfabeto podían calcularse, formalizando de ese modo el concepto de información genética. Por otro lado, Benish WA (1999), aplicó la Teoría de Información de Shannon a pruebas de análisis clínicos calculando la Ganancia de Información pre y post-prueba. La teoría de Información fue aplicada con éxito también al problema de clasificación de los codones para revelar el orden presente en el código genético [41]. Ha sido utilizada igualmente para esclarecer las interrelaciones entre estructura, función y evolución de una familia de genes o productos génicos [42]. Ebeling y Frommel en 1998 aplicaron el concepto de entropía como la capacidad para describir la estructura de portadores de información tales como el ADN, proteínas, texto y notas musicales [43]. La investigación de Solis et al. en el año 2000 propone un método para extraer la cantidad máxima de información disponible de estructuras peptídicas en fragmentos de secuencias, encontrando que la manera en la cual la estructura es representada, afecta la cantidad y calidad de información estructural que puede ser extraída de secuencias [44]. 24 2.5.1 Concepto de Entropía Sea 𝑊 el número de microestados que un sistema puede tener en un estado en particular. Intuitivamente aceptamos que un estado altamente ordenado tiene un número de microestados pequeño en comparación a un estado desordenado. Generalmente se usa la entropía como medida del grado de desorden en un sistema. Cualquiera que sea la forma de cuantificar el grado de desorden, esperamos que esta función aumente monótonamente con el número de microestados del sistema. Adicionalmente, la entropía de un sistema debería ser la suma de la entropía de dos subsistemas. Una función que cumple con estas características es: 𝐻 = log 𝑊 (2) Asumiendo que cada microestado es equiprobable, entonces podemos expresar la probabilidad de cada microestado como: 𝑝𝑖 = 1 𝑊 (3) Así obtenemos: 𝐻(𝑆) = − log 𝑝𝑖 (4) Si los microestados no son equiprobables, entonces tenemos que modificar la expresión por el valor esperado. En caso de una variable aleatoria numérica 𝑥, el valor esperado 𝐸𝑥 corresponde a la suma de los productos de probabilidad 𝑝𝑖 de obtener un valor numérico y el valor numérico 𝑛𝑖 correspondiente: 𝐸𝑥 = ∑ 𝑝𝑖𝑛𝑖 𝑖 (5) Aplicado a nuestro caso de microestados no equiprobables obtenemos entonces: 𝐻(𝑆) = − ∑ 𝑝𝑖 log 𝑝𝑖 𝑖 (6) 25 Esta es la definición de la Entropía de Shannon y es máxima cuando los eventos o microestados son equiprobables. La base logarítmica es una elección arbitraria [36]. La Entropía de Shannon puede interpretarse en este como el grado de error o certidumbre de un problema de clasificación. Visto de otro modo, la entropía de Shannon puede interpretarse como la información que se requiere obtener para resolver el problema de clasificación. Sin embargo, no nos dice cómo obtener esta información del análisis de los atributos de los elementos. 2.5.2 Ganancia de información La ganancia de información es la herramienta que nos permite cuantificar la información proporcionada por un estado con respecto al problema de clasificación y nos permite así resolver el problema de clasificación. La ganancia de información se define como la diferencia entre la entropía de Shannon antes 𝐻(𝑆) y después 𝐻 (𝑆 |𝐴𝑖) de conocer el valor del atributo 𝐴𝑖: 𝐼𝐺(𝐴𝑖) = 𝐻(𝑆) − 𝐻 (𝑆 |𝐴𝑖) (7) La cual es siempre 0. 2.6 Árboles de decisión Un árbol de decisión es un modelo de predicción cuyo objetivo principal es el aprendizaje inductivo a partir de observaciones y construcciones lógicas [45]. Son muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva para la solución de un problema. Constituyen probablemente el modelo de clasificación más utilizado y popular. El conocimiento obtenido durante el proceso de aprendizaje inductivo se 26 representa mediante un árbol. Un árbol gráficamente se representa por un conjunto de nodos, hojas y ramas. El nodo principal o raíz es el atributo a partir del cual se inicia el proceso de clasificación; los nodos internos corresponden a cada una de las preguntas acerca del atributo en particular del problema. Cada posible respuesta a los cuestionamientos se representa mediante un nodo hijo. Las ramas que salen de cada uno de estos nodos se encuentran etiquetadas con los posibles valores del atributo. Los nodos finales o nodos hoja corresponden a una decisión, la cual coincide con una de las variables clase del problema a resolver. Este modelo se construye a partir de la descripción narrativa de un problema, ya que provee una visión gráfica de la toma de decisión, especificando las variables que son evaluadas, las acciones que deben ser tomadas y el orden en el que la toma de decisión será efectuada. Cada vez que se ejecuta este tipo de modelo, sólo un camino será seguido dependiendo del valor actual de la variable evaluada. Los valores que pueden tomar las variables para este tipo de modelos pueden ser discretos o continuos [45]. Un algoritmo de generación de árboles de decisión consta de 2 etapas: la primera corresponde a la inducción del árbol y la segunda a la clasificación. En la primera etapa se construye el árbol de decisión a partir del conjunto de entrenamiento; comúnmente cada nodo interno del árbol se compone de un atributo de prueba y la porción del conjunto de entrenamiento presente en el nodo es dividida de acuerdo con los valores que pueda tomar ese atributo. La construcción del árbol inicia generando su nodo raíz, eligiendo un atributo de prueba y dividiendo el conjunto de entrenamiento en dos o más subconjuntos; para cada partición se genera un nuevo nodo y así sucesivamente. Cuando en un nodo se tienen objetos de más de una clase se genera un nodo interno; cuando contiene objetos de una clase solamente, se forma una hoja a la que se le asigna la etiqueta de la clase. En la segunda etapa del algoritmo cada objeto nuevo es clasificado por el árbol construido; después se recorre el árbol desde el nodo raíz hasta una hoja, a partir de la que se determina la membresía del objeto a alguna clase. El camino a seguir en el árbol lo determinan las decisiones tomadas en cada nodo interno, de acuerdo con el atributo de prueba presente en él. El primer sistema que construía árboles de decisión fue CLS de Hunt, desarrollado en 1959 y depurado a lo largo de los años sesenta. CLS es un sistema desarrollado por psicólogos como un modelo del proceso cognitivo de formación de conceptos sencillos. Su contribución fundamental fue la propia metodología, pero no resultaba computacionalmente eficiente debido al método que empleaba en la extensión de los 27 nodos. Se guiaba por una estrategia similar al minimax con una función que integraba diferentes costes. En 1979 Quinlan desarrolla el sistema ID3 [47], que él denominaría simplemente herramienta porque la consideraba experimental. Conceptualmente es fiel a la metodología de CLS pero le aventaja en el método de expansión de los nodos, basado en una función que utiliza la medida de la información de Shannon. La versión definitiva, presentada por su autor Quinlan como un sistema de aprendizaje, es el sistema C4.5 que expone con cierto detalleen la obra C4.5: Programs for Machine Learning [48]. La evolución -comercial- de ese sistema es otro denominado C5 del mismo autor, del que se puede obtener una versión de demostración restringida en cuanto a capacidades; por ejemplo, el número máximo de ejemplos de entrenamiento. 2.6.1 Algoritmo ID3 El sistema ID3 [49] es un algoritmo simple y, sin embargo, potente, cuya misión es la elaboración de un árbol de decisión. El procedimiento para generar un árbol de decisión consiste, como se comentó anteriormente en seleccionar un atributo como raíz del árbol y crear una rama con cada uno de los posibles valores de dicho atributo. Con cada rama resultante (nuevo nodo del árbol), se realiza el mismo proceso, esto es, se selecciona otro atributo y se genera una nueva rama para cada posible valor del atributo. Este procedimiento continúa hasta que los ejemplos se clasifiquen a través de uno de los caminos del árbol. El nodo final de cada camino será un nodo hoja, al que se le asignará la clase correspondiente. Así, el objetivo de los árboles de decisión es obtener reglas o relaciones que permitan clasificar a partir de los atributos. En cada nodo del árbol de decisión se debe seleccionar un atributo para seguir dividiendo, y el criterio que se toma para elegirlo es: se selecciona el atributo que mejor separe (ordene) los ejemplos de acuerdo a las clases. Para ello se emplea la entropía, que es una medida de cómo está ordenado el sistema. La teoría de la información (basada en la entropía) calcula el número de bits (información, preguntas 28 sobre atributos) que hace falta suministrar para conocer la clase a la que pertenece un ejemplo. Cuanto menor sea el valor de la entropía, menor será la incertidumbre y más útil será el atributo para la clasificación. La definición de entropía que da Shannon en su Teoría de la Información (1948). Si aplicamos la entropía a los problemas de clasificación se puede medir lo que se discrimina (se gana por usar) un atributo 𝐴𝑖 empleando para ello la ecuación 6, en la que se define la ganancia de información. Una vez explicada la heurística empleada para seleccionar el mejor atributo en un nodo del árbol de decisión, se muestra el algoritmo ID3: 𝐼𝐷3(𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆 ) (1) Calcular el valor inicial de 𝐻(𝑆) (2) Seleccionar el atributo 𝐴𝑖 que maximice la ganacia 𝐼𝐺(𝐴𝑖) para que sirva como nodo raiz (3) Construya el siguiente nivel del árbol de decisión proporcionando la mayor disminución en la entropía. Introducir los ejemplos en los sucesores según el valor que tenga el atributo. Por cada sucesor: a. Si sólo hay ejemplos de una clase,𝐶𝑦 , entonces etiquetarlo con 𝐶𝑦 . b. Si no, llamar a ID3 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo 𝐴𝑖 (4) Repita el paso 3 y continuel el procedimiento hasta que no haya atributos para más clasificación. En esta etapa, se obtuvo un conjunto de nodos de hoja de árbol de decisión. Algoritmo 1. Generación de un árbol de decisión basado en el algoritmo heurístico ID3 29 2.6.2 Algoritmo C4.5 C4.5 es un algoritmo usado para generar un árbol de decisión. Fue desarrollado por Ross Quinlan en 1993 y es una extensión del algoritmo ID3 desarrollado también por Quinlan previamente. Los árboles de decisión generados con C4.5 se pueden usar para clasificación, por ello es conocido como un clasificador estadístico [48]. Las mejoras que propone C4.5 frente a ID3 son: Manejo de los datos perdidos. A la hora de construir el árbol se ignoran los campos perdidos, de manera que solo se tienen en cuenta los registros que tienen valor para ese atributo. Posibilidad de trabajar con datos continuos. Para poder trabajar con datos continuos, C4.5 divide los datos en rangos en base a los valores encontrados en el conjunto de entrenamiento. Propone soluciones para el sobreaprendizaje, pudiendo usar pre-poda (se decide cuando dejar de subdividir el árbol) y post-poda (se construye el árbol y después se poda). A continuación, se muestra el pseudocódigo del algoritmo C4.5 C4.5 (𝐷𝑎𝑡𝑎𝑆𝑒𝑡 𝑆) 1 Comprobar casos base 2 For each 𝐴𝑖 3 Encontrar ganancia de información normalizada de la 4 división 𝐴𝑖 5 Dejar que 𝐴𝑏𝑒𝑠𝑡 sea el atributo con la ganancia de información 6 normalizada más alta 8 Crear un nodo de decisión que divida a 𝐴𝑏𝑒𝑠𝑡 7 Repetir en las sublistas obtenidas por división de 𝐴𝑏𝑒𝑠𝑡, y 8 agregar estos nodos como hijos de nodo 9 End Algoritmo 2. Pseudicódigo del algoritmo C4.5. Recibe de una base de datos con instancias. Devuelve un árbol de decisión donde cada nodo es un atributo que resuelve el problema de clasificación. http://id3gocuteam.blogspot.com.es/2013/04/ross-quinlan-el-inventor-del-id3.html http://id3gocuteam.blogspot.com.es/2013/04/algoritmo-de-clasificacion-id3.html 30 2.6.2.1 Características del algoritmo C4.5 Las principales características del algoritmo son las siguientes: Permite trabajar con valores continuos para los atributos, separando los posibles resultados en 2 ramas 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍; siendo 𝑍 un umbral escogido anteriormente. Los árboles son menos frondosos, ya que cada hoja cubre una distribución de clases, no una clase en particular. Utiliza el método "divide y vencerás" para generar el árbol de decisión inicial a partir de un conjunto de datos de entrenamiento. Se basan en la utilización del criterio de proporción de ganancia. De esta manera se consigue evitar que las variables con mayor número de categorías salgan beneficiadas en la selección. Es recursivo. 2.6.2.2 Funcionamiento El algoritmo considera todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la prueba que le haya generado la mayor ganancia de información. Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba binaria (1,0) sobre cada uno de los valores que toma el atributo en los datos. En cada nodo, el sistema debe decidir que prueba escoge para dividir los datos. Según Espino (2005) los tres tipos de pruebas posibles propuestas para el C4.5 son: 1. La prueba estándar para las variables discretas, con un resultado y una rama para cada valor posible de la variable. 31 2. Una prueba más compleja, basada en una variable discreta, en donde los valores posibles son asignados a un número variable de grupos con un resultado posible para cada grupo, en lugar de para cada valor. 3. Si una variable 𝐴𝑖 tiene valores numéricos continuos, se realiza una prueba binaria con resultados 𝐴𝑖 ≤ 𝑍 y 𝐴𝑖 > 𝑍, para lo cual debe determinar el valor limite 𝑍. Todas estas pruebas se evalúan observando la razón de ganancia resultante de la división de datos que producen. 2.6.2.3 Razón de Ganancia El test basado en el criterio de maximizar la ganancia tiene como sesgo la elección de atributos con muchos valores. Esto es debido a que cuanto más fina sea la participación producida por los valores del atributo, normalmente, la incertidumbre o entropía en cada nuevo nodo será menor, y por lo tanto también será menor la media de la entropía a ese nivel. C4.5 modifica el criterio de selección del atributo empleando en lugar de la ganancia la razón de ganancia, cuya definición se muestra en la ecuación 8. 𝐺𝑅(𝐴𝑖) = 𝐼𝐺(𝐴𝑖) 𝐼(𝐷𝑖𝑣𝑖𝑠𝑖ó𝑛 𝐴𝑖) = 𝐼𝐺(𝐴𝑖) − ∑ |𝑆𝑥 𝑖 | |𝑆| 𝑙𝑜𝑔 ( |𝑆𝑥 𝑖 | |𝑆| )𝑖 (8) 32 CAPÍTULO 3. DESCRIPCIÓN DEL PROBLEMA Para diagnosticar HCV actualmente existen kits comerciales basados en técnicas de PCR, sin embargo,la gran mayoría de ellos no incluyen los siete subtipos actuales y son sumamente costosos. Para algunas pruebas de diagnóstico que implican elevados precios, algunos laboratorios que cuentan con el personal y equipos necesarios optan por desarrollar su propio protocolo de diagnóstico con el fin de reducir costos a largo plazo. Para el caso del HCV una de las principales razones para que las pruebas sean tan elevadas en precio es la complejidad que se descubre al diseñarlas. Las herramientas mencionadas en el primer capítulo para el diseño de cebadores ayudan a alinear secuencias y localizar regiones adecuadas que cumplen criterios químicos y de conservación, pero no ayudan a seleccionar aquellas regiones que ayudan a resolver el problema clasificar los siete tipos de virus. Actualmente, los investigadores se limitan a observar las secuencias y determinar manualmente cuál es la región correcta para diseñar los oligos. De manera que es necesario trabajar en propuestas, metodologías o algoritmos que ayuden a los investigadores a seleccionar de manera adecuada las regiones que clasifican secuencias de ADN para diseñar sus propias pruebas de PCR que incluya los siete tipos de virus que además les permita reducir costos y acelerar el proceso. Por tanto, el problema a abordar es poder analizar una base de datos con secuencias de ADN del HCV. Para eso es necesario contar con una base de datos de secuencias alineadas. La alineación es una forma de representar la comparación entre dos o más secuencias para resaltar áreas de similitud. A un conjunto de cadenas alineadas (instancias) se le asigna el nombre de conjunto 𝑆. 33 𝑆 = {𝐺𝑤: 𝑤 = 1,2, … 𝑚} | |𝑆| = 𝑚 (9) Cada instancia 𝐺𝑤 pertenece a una clase 𝐶𝑦 donde 𝑦 representa el valor de la 𝑦 − é𝑠𝑖𝑚𝑎 clase. Se le asigna el nombre de atributo 𝐴𝑖 a cada posición o nucleótido de un conjunto de secuencias alineadas S donde 𝑖 indica la posición del nucleótido. El dominio 𝐷(𝐴𝑖) es igual al conjunto de valores 𝑣𝑥 𝑖 ∶ 𝑥 es el valor 𝑥 − é𝑠𝑖𝑚𝑜 en el dominio del atributo 𝐴𝑖 (consulte la Tabla 1). Teniendo en cuenta los conceptos y la nomenclatura descritos anteriormente, podemos describir formalmente el problema que queremos resolver. En un conjunto 𝑆 de secuencias de ADN o instancias 𝐺𝑤, queremos ubicar aquellos atributos 𝐴𝑖 que proporcionan más información y que se consideran como los mejores atributos para resolver el problema de clasificación de las siete clases 𝐶𝑦 del virus de la hepatitis C que existen actualmente. Estos atributos deben pertenecer a una región conservada y considerar los criterios que favorecen una prueba de diagnóstico molecular por PCR. 34 CAPÍTULO 4. METODOLOGÍA 4.1 Propuesta de solución En el contexto de la clasificación, la calidad de un atributo 𝐴𝑖 tiene que ver con su capacidad para separar las instancias 𝐺𝑤, entre las diferentes clases posibles. Si hay una relación directa entre los valores de los atributos y las posibles clases, significa que el atributo es muy bueno para clasificar. La calidad de un atributo tiene que ver con qué clases se pueden separar cada vez que instanciamos ese atributo 𝐴𝑖. Las clases se separan bien cuando cada subgrupo que se genera es homogéneo, es decir: en cada subgrupo, todos los 𝐺𝑤 pertenecen a la misma clase. Por lo tanto, es necesaria una métrica de homogeneidad. 4.1.1 Aplicación de la Entropía de Shannon como propuesta de solución La Entropía de Shannon puede interpretarse en este como el grado de error o certidumbre de un problema de clasificación. En el ejemplo de la clasificación de secuencias, la entropía de Shannon corresponde al error que se comete al asignar una secuencia al azar a una clase sin conocer algún detalle de ella. Visto de otro modo, la entropía de Shannon puede interpretarse como la información que se requiere obtener para resolver el problema de clasificación 35 Se define como: 𝐻(𝑆): 𝐻(𝑆) = − ∑ 𝑃(𝐶𝑦) ∗ 𝐿𝑛 (𝑃(𝐶𝑦)) ; 𝑁 𝑦=1 𝑃(𝐶𝑦) = |𝐶𝑦| |𝑆| (10) Donde 𝑃(𝐶𝑦) corresponde a la probabilidad de que un elemento pertenezca a la clase 𝐶𝑦 y 𝑁 es el número total de clases. 4.1.2 Aplicación de la Ganancia de Información como propuesta de solución La ganancia de información permite cuantificar la información proporcionada por un atributo 𝐴𝑖 con respecto al problema de clasificación. La ganancia de información se define como la diferencia entre la entropía de Shannon antes de 𝐻(𝑆) y 𝐻 (𝑆 |𝐴𝑖) después de conocer su valor en el atributo 𝐴𝑖. Ver ecuación 7. El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en 𝑧𝑖 subgrupos 𝑆𝑥 𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 = |𝐷(𝐴𝑖)| es decir, el número de valores que puede presentar el atributo. Para calcular la entropía de of 𝐻 (𝑆 |𝐴𝑖), se calcula como el promedio ponderado |𝑆𝑥 𝑖 | |𝑆| de la entropía de Shannon en cada subgrupo 𝑆𝑥 𝑖 . 𝐻 (𝑆 |𝐴𝑖) = ∑ 𝑃 ( |𝑆𝑥 𝑖 | |𝑆| ) ∗ 𝐻 (𝑆|𝑆𝑥 𝑖 ) 𝑧𝑖 𝑥=1 (11) donde: 𝐻 (𝑆|𝑆𝑥 𝑖 ) = − ∑ 𝑃(𝑆𝑦 𝐶(𝑆𝑥 𝑖 )) ∗ 𝐿𝑛 (𝑃(𝑆𝑦 𝐶(𝑆𝑥 𝑖 ))) ; 𝑁 𝑦=1 𝑃(𝑆𝑦 𝐶(𝑆𝑥 𝑖 )) = |𝑆𝑦 𝐶(𝑆𝑥 𝑖 )| |𝑆𝑥 𝑖 | La función 𝑃(𝑆𝑦 𝐶(𝑆𝑥 𝑖 )) es la probabilidad de que un elemento 𝑆𝑦 𝐶(𝑆𝑥 𝑖 ) pertenezca a la clase 𝐶𝑦 y si el elemento pertenece al subgrupo 𝑆𝑥 𝑖 . 36 Tabla 1. Representación de un conjunto 𝑆 de instancias 𝐺𝑤 , donde cada instancia pertenece a una clase 𝐶𝑦. A cada posición o nucleótido de un conjunto de secuencias alineadas 𝑆 se le asignó el nombre de atributo 𝐴𝑖 donde 𝑖 indica la posición del nucleótido. El atributo 𝐴𝑖 subdivide las instancias de 𝑆 en 𝑧𝑖 subgrupos 𝑆𝑥 𝑖 (𝑥 = 1, … , 𝑧𝑖) donde 𝑧𝑖 = |𝐷(𝐴𝑖)|. 𝑆𝑦 𝐶(𝑆𝑥 𝑖 ) expresa que el subconjunto 𝑆𝑥 𝑖 pertenece a la clase 𝐶𝑦. Para entender lo anterior, a continuación, se desarrolla un ejemplo asociado con los valores de la Tabla 1. Al aplicar la ecuación 7 para cada uno de los atributos del conjunto 𝑆, se observa que el atributo 𝐴3 se evalúa con la mayor ganancia de información y se divide en tres subconjuntos del conjunto S. El primero es 𝑆𝐶 3, donde sus instancias pertenecen a las clases 𝐶2 y 𝐶3. El segundo subconjunto es 𝑆𝐴 3 con todas sus instancias pertenecientes a la clase 𝐶4. El último subconjunto es el 𝑆𝑇 3 donde todas las instancias pertenecen a la clase 𝐶1. Debido a que el subconjunto 𝑆𝐶 3 no tiene instancias de una sola clase, el análisis de ganancia de información se realiza nuevamente aplicando la fórmula 7. Si dos instancias no tienen el mismo valor para cada atributo y pertenecen a clases diferentes, los atributos son adecuados para llevar a cabo la clasificación, como se puede ver, el subgrupo 𝑆𝐶 3 los atributos 𝐴1 y 𝐴2 permiten clasificar los elementos correctamente para Las clases 𝐶2 y 𝐶3. Este ejemplo muestra que es posible clasificar secuencias de ADN utilizando los conceptos de entropía y ganancia de información. Para este caso, se selecciona el atributo 𝐴3 con mayor 𝐼𝐺 , este atributo permite discriminar rápidamente las clases 𝐶1 y 𝐶4. Al calcular nuevamente 𝐼𝐺 de todos los atributos, se obtiene que tanto 𝐴1 como 𝐴2 permiten discriminar las clases 𝐶2 y 𝐶3. Lo anterior se puede mostrar de una manera simple en un árbol de decisión donde cada vértice tiene un máximo de 4 valores posibles Figura 6. 37 Figura 6. Árbol de decisión para la clasificación de los datos presentados en la Tabla 1. 4.2 Propuesta de solución: algoritmo ID3HCV Además de utilizar el criterio de ganancia de información para seleccionar el atributo que mejor separa las clases, es necesario contemplar que los resultados se utilizarán para montar una prueba de diagnóstico de PCR. Por lo tanto,es necesario considerar algunos criterios que pueden optimizar el diseño de la prueba. Lefever et al. [21] demostró el efecto que el tipo de desajuste tiene sobre la alineación y la posición en un cebador sobre la eficiencia de extensión durante los primeros ciclos de la PCR. Encontró un mínimo o nula extensión [7] cuando introdujeron un desajuste en los últimos 3 o 4 nucleótidos del cebador en el extremo 3'. Su hipótesis fue que la baja extensión fue causada por la reducción en la unión de la enzima ADN polimerasa al sitio de unión [7]. Llegó a la conclusión de que cuanto más se aproximaba el desajuste al extremo 3', mayor era el impacto que tenía durante la extensión de la PCR, lo que aumentaba el número de ciclos en los que se detectaba el amplicón en la PCR. Utilizando el análisis realizado por Lefever, se diseñó una función de evaluación para considerar sus contribuciones y, además considerar el criterio de ganancia de información. El criterio utilizado para la función de evaluación 𝐸(𝐴𝑖, 𝑑) fue que el atributo de interés 𝐴𝑖 debe evaluarse en 𝐼𝐺 para considerarlo un buen atributo para discriminar 38 entre clases y que además los atributos que lo rodean al 𝐴𝑖 deben contener el mayor grado de conservación para establecer si es una buena opción para el diseño del cebador estableciendo que el atributo 𝐴𝑖 es el extremo 3´del cebador . Los atributos que rodean el atributo 𝐴𝑖 se denominaron ventana 𝜑(𝐴𝑖, 𝑑) − si nos referimos al cebador de reversa (“forward”) y 𝜑(𝐴𝑖, 𝑑) + si hacemos referencia al cebador adelantado (“reverse”), consulte la tabla 2. 𝜑(𝐴𝑖 , 𝑑) − = { 𝐴𝐽: 𝐽 = 𝑖 − 𝑑, … , 𝑖 − 1} 𝜑(𝐴𝑖, 𝑑) + = { 𝐴𝐽: 𝐽 = 𝑖, … , 𝑖 + 𝑑} (11) Tabla 2. Representación de la ventana de evaluación 𝜑(𝐴𝑖, 𝑑) donde 𝑑 indica el número de atributos que se relacionan con el análisis de la ventana a la derecha (𝜑(𝐴𝑖, 𝑑) +) para el diseño del cebador adelantado y a la izquierda (𝜑(𝐴𝑖 , 𝑑) −) para el diseño del cebador de reversa del atributo de interés 𝐴𝑖. Por lo tanto, el criterio de selección se estableció mediante la función de evaluación 𝐸(𝐴𝑖 , 𝑑) es simplemente el producto entre 𝐼𝐺(𝐴𝑖) y la evaluación de la ventana 𝜑(𝐴𝑖, 𝑑). En caso de hacer el análisis para el cebador adelantado se toma en cuenta la ventana del lado derecho 𝜑(𝐴𝑖, 𝑑) −, para el análisis del cebador de reversa se considera la ventana del lado izquierda del atributo 𝐴𝑖 𝜑(𝐴𝑖, 𝑑) +. 𝐸(𝐴𝑖 , 𝑑) − = 𝐼𝐺(𝐴𝑖) ∗ 𝜑 −(𝐴𝑖, 𝑑) (12) 39 𝐸(𝐴𝑖 , 𝑑) + = 𝐼𝐺(𝐴𝑖) ∗ 𝜑 +(𝐴𝑖, 𝑑) (13) donde 𝜑−(𝐴𝑖, 𝑑) 𝜑−(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗) 𝑗=𝑖−1 𝑗=𝑖−𝑑 y 𝜑+(𝐴𝑖, 𝑑) 𝜑+(𝐴𝑖, 𝑑) = ∑ 𝑊|𝑗| ∗ 𝐻(𝐴𝑗) 𝑗=𝑖+𝑑 𝑗=𝑖 de manera que 𝜑(𝐴𝑖, 𝑑) es la evaluación de la ventana 𝜑(𝐴𝑖, 𝑑) con 𝑑 atributos antes o después de la posición 𝐴𝑖. 𝑊𝑗 es el peso del atributo 𝑊𝑗 tomado de los experimentos de Lefever definidos como ∑ 𝑑𝐶𝑞 𝑅𝑗 la suma de las diferencias entre el número de ciclos 𝐶𝑞𝑀𝑀 para la amplificación con la alineación no ajustada y el número de ciclos para la amplificación con la alineación perfecto 𝐶𝑞𝑃 [21]. Simplificado en la Tabla 3, basado en los resultados obtenidos por Lefever. 𝑾𝒋 Value associated with 𝑾𝒋 0 0.687 1 0.057 2 0.031 3 0.016 4 0.012 5-19 0.014 Tabla 3. Pesos 𝑊𝑗 y su valor asociado por posicion basado en los resultdos de Lefever. 𝐻(𝐴𝑗) = Entropía del atributo 𝐴𝑗 se define como: 𝐻(𝐴𝑗) = ∑ 𝑃(𝑣𝑥 𝑗 ) ∗ 𝑙𝑛 (𝑃(𝑣𝑥 𝑗 )) 𝑧𝑗 𝑥=1 tal que 𝑃(𝑣𝑥 𝑗 ) = |𝑣𝑥 𝑗 | |𝑆| (14) El análisis anterior indica que los conceptos de entropía y ganancia de información permiten clasificar las secuencias de ADN y, debido al estudio de Lefever, pueden 40 considerarse criterios que pueden favorecer el diseño de cebadores para una PCR. Sobre la base del análisis anterior, diseñamos el algoritmo 2 que recibe una base de datos con instancias de secuencias de ADN. ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠) 1 Crear un nuevo nodo 𝑟𝑎í𝑧 del árbol 2 If todas las instancias tienen la misma etiqueta para el 3 atributo que pertenece a la clase 𝐶𝑦 4 Return el árbol con 𝑟𝑎í𝑧 única y con la etiqueta 𝐶𝑦 5 If 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 está vacío 6 Return el árbol con 𝑟𝑎í𝑧 única con la etiqueta 7 más común de 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠 8 Else 9 𝐴𝑖 ← el atributo en 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 que mejor 10 clasifica las 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠 (considerando la fórmula 𝑬(𝑨𝒊, 𝒅)) 11 𝑟𝑎í𝑧 atributo de decisión ← 𝐴𝑖 12 For each posible valor 𝑣𝑖 de 𝐴𝑖 13 Agrega una nueva ramificación debajo de la raíz 14 correspondiente a la prueba de 𝐴𝑖 = 𝑣𝑖 15 Sea 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 el subconjunto de instancias 16 con el valor 𝑣𝑖 para el atributo 𝐴𝑖 17 If 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑒𝑠𝑣𝑖 está vacío 18 A continuación de esta ramificación, 19 agrega una nueva hoja nodo con el valor 20 más común 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎 en 𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠. 21 Else 22 ID3VHC(𝑖𝑛𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠𝑣𝑖 , 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜_𝑒𝑡𝑖𝑞𝑢𝑒𝑡𝑎, 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑠 − {𝐴𝑖}) 23 End Algoritmo 3. Recibe de una base de datos con instancias de secuencias de ADN. Devuelve un árbol de decisión donde cada nodo es un atributo que resuelve el problema de clasificación. Este algoritmo toma como base al algoritmo ID3. Sin embargo, se le han hecho algunas modificaciones ya que no solo utiliza los criterios de ganancia de información para generar el árbol, además de eso se ha agregado la función de evaluación. En la línea 9, 10 y 11 se seleccionan los mejores atributos analizándolos con la fórmula 12 aplicándola para el cebador adelantado o para el cebador de reversa y finalmente devuelve un árbol de decisiones donde cada nodo es un atributo que resuelve el problema de clasificación. 41 4.2.1 Implementación del algoritmo ID3HVC La base de datos utilizada contiene 2000 secuencias alineadas con los 7 tipos del HCV fue proporcionada por los Laboratorios Clínicos de Puebla extraída de un repositorio de la ViRP (Virus Pathogen Database and Analysis Resourse). Del total del de las 2000 secuencias 946 pertenecen al VHC tipo 1, 211 al tipo 2, 544 al tipo 3, 72 al tipo 4, 11 al tipo 5, 210 al tipo 6 y 6 al tipo 7. La implementación del algoritmo se realizó en el lenguaje de programación Java 1.8.0_111 y la plataforma de software Weka 3.8.0. Se ejecutó en una computadora Intel Core i7 2.9 Ghz con 16 GB de Ram y Windows 10 Home. 4.3 Propuesta de solución: algoritmo J48 Debido a que Lefever insistió a través de su trabajo que la hibridación de los nucleótidos más cercanos al extremo 3´ tienen un papel fundamental en la amplificación se decidió hacer un ajuste en la base de datos y considerar un atributo como una combinación de 3 nucleótidos (triplete) continuos en la secuencia de ADN. Antes de generar esta nueva base fueron eliminados todos aquellos nucleótidos con ganancia de información igual que 0 con el objetivo de reducir el número de combinaciones de atributos y reducir el espacio de análisis. Hacer esta modificación en la base de datos nos permite identificar aquellos atributos por triplete que mayor ganancia de información aportan. Esto cobra sentido en el momento que se espera que los investigadores basen su diseño considerando el triplete seleccionado como el extremo 3´ del cebador. A partir de este momento se define a 𝐴𝑖 como la combinación de un triplete de nucleótidos de la nueva base de datos donde 𝑖 es la posición del triplete. Esta modificación en la base de
Compartir