Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
, INSTITUTO TECNOLOGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY Campus Ciudad de México Escuela de Graduados en Ingeniería y Arquitectura "APLICACIÓN DE PROGRAMACIÓN GENÉTICA PARA ENCONTRAR RELACIONES GEN - GEN EN ENFERMEDADES COMUNES COMPLEJAS" Tesis para optar el grado de Maestro en Ciencias de la Computación presentada por: Jesús Karol Estrada Gil Asesor: Dr. Edgar Vallejo Clemente Agosto del 2004 Resumen INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. G:impus Ciudad de M é( im La identificación de genes que tienen influencia en el riesgo de contraer enfermedades comunes complejas primordialmente dada por la interacción con otros genes y factores ambientales es un aún un reto estadístico y computacional en la epidemiología genética. El reto estadístico consiste en considerar interacciones con alta dimensionalidad, sin perder grados de libertad mientras que el reto computacional consiste en el tamaño y complejidad del espacio de búsqueda (Templeton AR. 2000; Ritchie et al., 2003 ). La presente investigación detalla el uso de un sistema de programación genética para inducir árboles de decisión (GPDTI por sus siglas en inglés) capaces de encontrar la mejor combinación de genes cuya interacción describa un fenotipo dado por epistasis. En este estudio nos hemos enfocado a especializar el programa en enfermedades humanas comunes complejas, específicamente en esquizofrenia, sin embargo creemos que el modelo computacional podría aplicarse a la resolución de cualquier problema de aprendizaje de máquina. Para demostrar la validez del método se desarrolló un simulador de genotipos de pares de hermanos discordantes. Utilizamos ocho diferentes modelos de epistasis usados en la literatura (Li et al., 2000; Ritchie et al., 2001; Culverhouse et al., 2002; Ritchie et al., 2003b) para medir la capacidad del método para encontrar los genes relacionados con la enfermedad así como su interacción. Comparando los resultados obtenidos de nuestro método contra otras técnicas computacionales utilizadas en los mismos modelos, observamos que el poder para detectar la interacción de los genes es similar o mejor los resultados publicados. Además, los experimentos realizados demostraron con anterioridad que nuestros tiempos de convergencia son mejores así como la interpretación de los modelos obtenidos. 111 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Canpus Ciudad de M b: ico Contenido Dedicatoria ................................................................................................................................. .... .. . i Agradecimientos .............................................. ...... ......................... ...................................... ...... .. ... ii Resumen ........................................................ ........... ................... .............................................. ..... iii Lista de Tablas ............................................... .... ............................................................................ . vi Introducción ............................................................................................ .................................... .... . 1 1.1 Generalidades .............................. .... ...................................................................... .......... 1 1.2 Problema planteado ................ .. ................ ............................ ....... ........ ......... ................. .. 6 1.3 Objetivo ........ ...... .................................................... .... ....... ..... .... .. ... .... .. ......... ... ... .. ... .. .. .. 7 1.4 Justificación ... ............................. ................ .... ......... ............ ..... ... ... ........ .... .... ...... ..... ..... . 7 1.5 Hipótesis ............................ .......... .. .. .. ........................... ... .... ............. .... ............. ...... ....... . 7 1.6 Contribuciones esperadas .................................................. .... ........ .. ................................ 8 1. 7 Organización del documento ..... .......................................... ..... .. ... ................................. . 9 2 Marco teórico .... ........................................................................... .... .. ............................ ........ 1 O 2.1 Genética .................................... .......... .... ......................... ........... ................................... 1 O 2.2 Genética Humana ................................. ... ................................ ....... ... ............................ 16 2.2.1 Herencia familiar ............... ................. ............................. ...................... ..... .. .... ... .. 16 2.2.2 Enfermedades comunes complejas ......... ...... .. ............ .. ................. ... .......... ... .... .. .. 22 2.2.3 Métodos de detección de ligamiento y asociación .... .. ......... .. .......... .. .... .. ............. 25 2.2.4 Pruebas de asociación ............................................................................................ 28 2.3 Trabajos relacionados ................ .............. .............................. ... ...................... ... ........ .. .. 3 1 2.3.1 MDR .............................................................................................................. ... .. ... 31 2.3.2 GPNN .................................................... .. ...... .. ...................................................... 33 2.3.3 Árboles de decisión ............ ....................................... .... .. ... .. ... .. .. .................... .... .. 35 2.3.4 FBAT .................................. .... .. .......... .................. .. ....... ............ .. .................. ....... . 37 2.3.5 Comparación de métodos para la detección de genes de susceptibilidad .............. 37 2.4 Algoritmos evolutivos ................... .. .......... .. ....... ............ ... .. .......................................... 38 2.4.1 Programación genética .......................................................................................... 39 2.4.2 Las estructuras iniciales ................................................................................ ......... 41 2.4.3 La medida de aptitud ...................................................... ........ ........................ ... .... 42 2.4.4 Los operadores que madi fican las estructuras ................................................... .... 42 2.4.5 Estado del sistema ................................................................................................. 43 2.4.6 Criterio de terminación ..................................................................................... ..... 44 2.4. 7 Método para designar el resultado ganador .................. .... .... ........................ .... .. ... 44 2.4.8 Parámetros de control ................... ............................... ..... .. .............. ...... ... ........ .... 44 2.4.9 Proceso evolutivo para encontrar la mejor solución ........ ... ......... .. ... .. ................... 45 2.5 Evolución de la clasificación .. ...... ................................ .. .. ......... ......... .................... ...... . 46 3 Problema .......................................................................................... .. ... .... .. ................. ..... ..... 47 4 Modelo propuesto ..................................................................... .......... .. ................................. 48 4.1 Modelado ...................................... ................................................................................. 48 4.1.1 Funciones ........................................................................................................... .. .. 48 IV INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. CampusCiudad de M éx im 4.1.2 Las estructuras iniciales ......................................................................................... 49 4.1.3 La medida de aptitud ............................................................................................. 49 4.1.4 Operadores que modifican las estructuras ............................................................. 50 4.1.5 Estado del sistema ................................................................................................. 50 4.1.6 Criterio de terminación .......................................................................................... 50 4.1. 7 Método para designar el resultado ganador ........................................................... 50 4.1.8 Parárnetros de control ............................................................................................ 51 4.2 Proceso .......................................................................................................................... 51 4.2.1 Simulación de los datos ......................................................................................... 51 4.2.2 Lectura de los datos ............................................................................................... 54 4.2.3 Validación cruzada por partición del conjunto de datos .................................... .... 57 4.2.4 Entrenamiento ........................................................................................................ 58 4.2.5 Predicción .............................................................................................................. 60 4.2.6 Obtención de estadísticas ....................................................................................... 61 4.2. 7 Paralelización ......................................................................................................... 66 5 Resultados .............................................................................................................................. 68 5.1 Comparación mediante el uso de datos no biológicos ................................................... 68 5.2 Comparación contra modelos de epistasis ya probados ................................................ 72 5.3 Comparación entre tipos de codificación ...................................................................... 83 6 Conclusiones .......................................................................................................................... 85 6.1 Trabajos futuros ............................................................................................................. 86 7 Glosario ................................................................................................................................. 89 8 Referencias ............................................................................................................................ 93 V INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im Lista de Tablas Tabla 1 Experimentos en guisantes de Mendel ............................................................................. 11 Tabla 2 Comparación de métodos para detección de genes de susceptibilidad ............................ 38 Tabla 3 Tabla de penetrancia para dos marcadores bialélicos ...................................................... 53 Tabla 4 Ejemplo de arreglo de datos en forma de atributos y registros ........................................ 59 Tabla 5 Datos del problema de golf .............................................................................................. 69 Tabla 6. Comparación de desempeño en los problemas de los Monos ......................................... 72 Tabla 7 Funciones de penetrancia del modelo l .......................................................................... 73 Tabla 8 Funciones de penetrancia del modelo 2 .......................................................................... 73 Tabla 9 Funciones de penetrancia del modelo 3 ........................................................................... 74 Tabla 1 O Funciones de penetrancia del modelo 4 .......................................................................... 74 Tabla 11 Funciones de penetrancia del modelo 5 .......................................................................... 74 Tabla 12 Comparación de resultados GPNN y GPDTI.. ............................................................... 75 Tabla 13 Comparación de valores de consistencia ........................................................................ 77 Tabla 14 Valores de CVEC obtenidos con GPDTI ....................................................................... 78 Tabla 15 Funciones de penetrancia del modelo 6 ......................................................................... 81 Tabla 16 Comparación de MDR y GPDTI .................................................................................... 81 Tabla 17 Comparación entre distintos tipos de codificación ......................................................... 83 Tabla 18 Comparación de CVC en diferentes codificaciones ....................................................... 84 VI INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Czrrpus Ciudad de M éx im Introducción 1.1 Generalidades Desde hace más de 6000 años, cuando el hombre se volvió sedentario y empezó a domesticar animales, se contaba ya con una idea de que los rasgos de animales se transmitían a través de las generaciones, esto se ve demostrado en tallados en piedra en Caldea donde se muestran árboles genealógicos en relación con algunas características de las crines de los caballos, sin embargo el cómo y donde se transmitían estas características fue un misterio hasta los últimos dos siglos. A finales del siglo XVIII geólogos como James Hutton, William Smith y Charles Lycll empezaron a encontrar evidencia de que la Tierra era bastante más antigua que la estimación popular de unos pocos miles de años, además de encontrar rocas con fósiles de animales extintos y evidencia de que las especies cambian a lo largo del tiempo. Incluso el abuelo de Darwin, Erasmo, escribió el libro Zoomania en 1794, en el cual se postulaba que una especie podía convertirse en otra. En 1809 el biólogo francés J can Baptiste Lamarck presentó su tesis, que mucho después se demostrara que era incorrecta; él decía que las características corporales adquiridas como resultado del uso o desuso de diversas partes u órganos podrían transmitirse a la descendencia, de esta manera la acumulación de estas modificaciones podría convertir una especie en otra. En 1859 Charles Robert Darwin publicó "Sobre el origen de las especies", en el que se detallaban ciertos descubrimientos y teorías acerca de la "descendencia con modificación" de los organismos vivientes. Su tesis era simple y estaba sustentada por veintisiete años de observación y experimentación ésta afirmaba que los seres vivientes cambiaron de forma gradual a lo largo del tiempo desde los organismos simples, resultando en la complejidad de formas que vemos actualmente y de muchas otras que se han extinguido. Esto se podía dar gracias a los principios en los cuales Darwin aseguraba que todos los organismos varían y estas variaciones son en alguna medida heredadas. Como todos los organismos producen más descendientes que los que INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M & im sobreviven hasta llegar a ser adultos, entre los sobrevivientes estarán aquellos que pueden haber heredado variaciones que han facilitado su adaptación al entorno local. Esta selección natural produce una población con características alteradas; esto puede dar lugar eventualmente, a la aparición de una nueva especie (Lee, 1994). Darwin había descubierto una manera con la cual se podía explicar la diversidad de especies en el planeta, diferente a la ideaque aún en nuestros días prevalece, la evidencia no señalaba a un Ser Divino creador de todas las especies conocidas, el trabajo de Darwin produjo, en palabras de John Green en su libro de 1959 sobre la evolución y su impacto sobre el pensamiento occidental, "la muerte de Adán". Ante la creciente evidencia a favor de las teorías de Darwin, sus oponentes contraatacaron, el problema era que no se contaba con explicaciones satisfactorias disponibles de la variabilidad de los organismos y de los medios por los cuales estas diferencias podían ser transmitidas a la siguiente generación; en otras palabras, el estudio de la herencia. Darwin se vio obligado a aceptar la explicación de Lamarck y se dedicó por el resto de sus días a tratar de encontrar la manera en que esta variabilidad podía ser explicada; sus esfuerzos fueron infructuosos ya que falleció en 1882 sin saber que una persona ya había descubierto los mecanismos de la herencia de los seres vivos. En 1865 un monje moravo de nombre Gregario Mendel presenta los resultados de siete años de investigación con guisantes. Gracias a una minuciosa selección de grupos de éstos y constantes pruebas de hibridación, este monje logró descubrir que ciertos rasgos de la planta se transmitían de generación en generación en una razón constante. Además parecía que algunas variantes de cada rasgo tenían prioridad sobre otras; por ejemplo el color amarillo de la semilla contra el color verde, con base a sus observaciones concluyó que la única manera de explicar lo ocurrido era si la herencia de caracteres era siempre determinada por factores discretos que ocurren en los hijos en pares, uno heredado de cada padre y los cuales son separados de nuevo cuando las células sexuales son creadas, produciendo dos tipos de gametos, con un factor de cada par en cada uno. Esta hipótesis es conocida como la primera ley de Mendel, o el principio de segregación. En estudios posteriores se dio cuenta que estas características podían heredarse de forma independiente, por lo que concluyó que se encontraban distribuidas en diferentes partes. 2 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im Posteriormente estos "factores" fueron denominados genes. Lo que Mendel había descubierto era el mecanismo con el cual se podía explicar la variabilidad tan buscado por Darwin. Sin duda Mendel conocía, como la mayoría de los científicos de la época, los estudios de Darwin, sin embargo las teorías de Mendel no fueron aceptadas hasta 35 años después cuando tres diferentes investigadores las redescubrieron. No se sabe si Darwin llegó a conocer los resultados presentados por Mendel, lo más probable es que no fue así. Finalmente se había descubierto el mecanismo de evolución y herencia que controla a todos los seres vivos, sin embargo, todos los estudios hasta la fecha se habían basado en rasgos visibles a simple vista, ¿era posible que los genes tuvieran alguna otra labor? En 1901, Sir Archibald Garrod describió una enfermedad humana llamada alcaptonuria en la cual las personas afectadas secretan orina de color oscuro. Presentó evidencia de que esta enfermedad se segrega como un trastorno recesivo y que se tiene mayor probabilidad de contraerla cuando los padres de afectados son primos. La importancia de sus observaciones recae en que Garrod señaló que en la alcaptonuria había un trastorno hereditario que comprendía un proceso químico. Éste fue el comienzo de la genética bioquímica y de la idea de que los genes controlan la síntesis de enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos bioquímicos específicos. Este descubrimiento llevó a la medicina común a un nuevo nivel, por primera vez se podía pensar en encontrar al causante de enfermedades hereditarias. En la década de 1930 Thomas Hunt Morgan y Calvin Bridges hicieron experimentos con la mosca de la fruta, pudieron realizar mapas de los cromosomas de este organismo indicando las posiciones exactas de casi 100 genes diferentes midiendo la frecuencia de las recombinaciones. El mismo método puede ser aplicado para encontrar genes causantes de enfermedades humanas, sin embargo esto resulta más complejo, ya que con las moscas de la fruta se puede seleccionar los individuos interesantes, cruzarlos y ver los resultados. Por razones obvias esto no puede ser replicado en los humanos, por lo cual la única manera de realizar estudios de ligamiento en humanos es a través de familias informativas. Es por esto que en el hombre ha sido necesario depender de la información que los genetistas obtienen al estudiar la segregación de los llamados genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son 3 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gimpus Ciudad de M éx: im aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que aparezcan en la familia en estudio. Éstos incluyen grupos sanguíneos, ciertas proteínas séricas, daltonismo, etc. Uno de los descubrimiento de mayor impacto en la genética molecular fue el de Kan et al. (1978) donde se describe el primer lugar (loci) de longitud variable (polimorfismo) dentro de la molécula de ADN. Estos polimorfismos se obtienen por medio del corte de la molécula de ADN utilizando otras moléculas especializadas para esta labor llamadas enzimas de restricción, generando de esta manera fragmentos de tamaño variable (RFPL por sus siglas en inglés). Estos fragmentos son heredados mendelianamente y se convirtieron en uno de los más importantes instrumentos en el mapeo de los genes (Botsein, 1980). Para el año de 1981 se conocían 23 loci que contenían polimorfismos de ADN. Para 1989 ya eran 2,000 y en 1994 la base de información se duplicó para llegar cerca de 4,000 de estos marcadores distribuidos por todo el genoma (Nicolini et al., 1995). En 1989 después de años de búsqueda, Francis S. Collins y Lap-Chee Tsui lograron aislar el gen causante de la fibrosis cística en el cromosoma 7 con un tamaño de 250,000 pares de bases mediante el análisis de ligamiento génico. El 70% de las veces la enfermedad es causada por la falta de tres bases nitrogenadas, las cuales normalmente codifican la inserción de fenilalanina de un polipéptido. El 30% restante tenía alguna forma de mutación diferente. El 20 de septiembre de 1990 dos grupos de investigadores usando virus como vectores, habían introducido genes normales en las células pulmonares con fibrosis cística, las células antes enfermas empezaron a producir las proteínas que carecen los pacientes de este padecimiento. En un futuro se podría usar esta técnica directamente en los humanos, cuando se tenga la certeza de que el virus no hará mayor daño (Lee, 1994 ). Si bien la técnica de análisis de ligamiento génico ha tenido éxito en enfermedades de un sólo gen como la fibrosis cística, en las enfermedades multifactoriales se han encontrado resultados contradictorios. En el caso de la esquizofrenia, se reportó una alteración en el cromosoma 5, además de evidencia significativa de enlace génico pero hasta el momento no ha 4 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de México sido posible reproducir dichos hallazgos. Se han clonado varios genes cuyos productos son de especial relevancia para el funcionamiento del sistema nervioso central, para algunos de ellos existe evidencia que sugiere que su mal funcionamiento puede contribuir al desarrollo de la esquizofrenia y por esta razón son genes candidatos para el mapeo de la enfermedad (Nicolini, 1995). El receptor 2 fue el primero en ser clonado y es el que mejor se ha estudiado en esta enfermedad. Diversos grupos de investigación no han demostrado una asociación entre este trastorno con los genes O 1, 02, 04, 05, MAO A y B, y la enzima COMT; quizá los únicos datos positivosque han podido ser reproducidos por algunos grupos, pero no por todos, sean aquellos que indican la existencia de una asociación entre uno de los alelos del gen DRD3 con este trastorno psicótico. En otros estudios se encontró asociación entre la esquizofrenia y el alelo 2 del gen receptor 5HT2a para serotonina, sin embargo otros grupos de investigación no han reproducido dicha asociación en muestras más pequeñas (Nicolini y Cruz, 1998). En 1996 Neil Risch y Kathleen Merikangas publican un artículo en la revista Science (Risch et al., 1996) donde se demuestra que los estudios de ligamiento tienen menor poder de detectar genes asociados con una enfermedad comparado con los relativos nuevos métodos de asociación basados en familias. En el mismo año un grupo de investigadores publican en la revista Nature Genetics un estudio donde se demuestra que tanto los estudios de ligamiento génico como los de asociación pueden ser inútiles en la búsqueda de los genes causantes de enfermedades multigénicas debido a las limitantes estadísticas y computacionales (Frankel, 1996). Es entonces cuando se empiezan a utilizar técnicas de minería de datos para tratar de resolver el problema (Ritchie et al., 2001; Ritchie et al., 2003; Pociot et al, 2004). Una de las técnicas que ha ido ganando auge en la genómica computacional son los algoritmos evolutivos donde al principio se hace una búsqueda al azar dentro del espacio de búsqueda y conforme van progresando el resultado va mejorando, este modelo computacional es similar al proceso que ocurre en la naturaleza llamado Selección natural donde los individuos van evolucionando conforme su aptitud para resolver ciertos problemas. La programación genética es un algoritmo evolutivo donde el resultado final es un programa computacional capaz de resolver un problema dado, ésta característica nos permite realizar una minería de datos inteligente donde 5 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gzmpus Ciudad de M ~ im en cada generación se van seleccionando los marcadores y sus combinaciones que meJor expliquen a la enfermedad multifactorial, la manera en que los marcadores son organizados es un árbol de decisión en el cual los nodos están ordenados de manera jerárquica y mientras se va recorriendo el árbol se van tomando decisiones sobre los atributos y valores de la base de datos hasta llegar a un nodo final el cual clasifica a la muestra. (Quinlan, 1986). 1.2 Problema planteado Una enfermedad común compleja es aquella que tiene un componente genético, sin embargo, no sigue el modelo de herencia simple propuesto por Mendel. La causa de estas enfermedades puede deberse a la interacción de dos o más genes, o a la interacción entre genes y factores ambientales. El ténnino "común" se debe a que estas enfermedades se presentan con una frecuencia mucho mayor a aquellas enfermedades que siguen un modelo de herencia mendeliano. Las tecnologías como los microarreglos de ADN (Schena et al. 1995) permiten analizar miles de variaciones en las secuencias de ADN. Estas grandes cantidades de información han creado desafíos estadísticos y computacionales, uno de ellos es el problema de la selección de variables. Este problema proviene de la creciente aceptación de que las interacciones entre múltiples factores genéticos y ambientales, tienden a ser más importante que cualquier otro factor para predecir el riesgo de una enfermedad multifactorial. Dado que las interacciones juegan un papel importante en la etiología de una enfermedad, es necesario considerar las combinaciones de variaciones genéticas en nuestro análisis. El problema surge cuando el número de variables es grande, ya que existe infinito de combinaciones que pueden ser evaluadas. Por ejemplo, si se consideran 10,000 variables, tendremos aproximadamente 5 x 107 posibles combinaciones de dos variables, 1.7 x 10 11 de tres variables y 4.2 x 10 14 de cuatro variables. Podernos ver claramente que la magnitud de las combinaciones 6 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Czrnpus Ciudad de M tX im para seleccionar las variables lleva a una búsqueda exhaustiva de todos los posibles conjuntos de variables, lo cual es computacionalmente intratable. (Moore 2003) 1.3 Objetivo Desarrollar un método que pueda realizar combinaciones gen - gen para encontrar el modelo de epistasis que mejor describa el fenotipo de una enfermedad común compleja. 1.4 Justificación Los métodos estadísticos actuales no contemplan la posibilidad de que una enfermedad común compleja pueda darse en un modelo puramente epistatico. En tales condiciones los resultados de dichos métodos no encuentran asociación entre cada marcador en el modelo y el fenotipo (Frankel et al., 1996). Para poder medir el efecto real es necesario utilizar el efecto combinado de todos los marcadores relacionados en el modelo a tratar. Dicha combinación puede llegar a ser estadística y computacionalmente intratable dependiendo de la cantidad de marcadores que se desean utilizar en la prueba. 1.5 Hipótesis La hipótesis que se trata de demostrar en la presente investigación es que en una enfermedad multifactorial podría ser prácticamente imposible encontrar los genes causantes de ella mediante el uso de técnicas estadísticas comunes cuando el modelo subyacente es puramente epistático. Por otro lado, lo modelos computacionales basados en búsqueda exhaustiva del espacio de búsqueda se enfrentan al problema de aumento de complejidad conforme se utilizan más marcadores. Pensamos que el uso de programación genética en este problema es apropiado ya que conforme avanza el proceso el espacio de búsqueda se va acotando y el resultado va mejorando conforme avanza el proceso evolutivo. En el criterio de término obtenemos como 7 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im resultado un programa computacional en forma de un árbol de decisión que pueden interpretarse como reglas que modelan de manera adecuada la interacción entre marcadores cuyo efecto sea el fenotipo en cuestión. 1.6 Contribuciones esperadas El uso de programación genética para resolver este problema solamente ha sido abordado por Ritchie (2003) para optimizar una red neuronal artificial, sin embargo el método requiere de gran poder de cómputo y no se tiene una manera fácil de interpretar los resultados. Nosotros esperamos obtener resultados con errores de predicción y con niveles de consistencia mejores a los presentados en el estado del arte, aparte de brindar una manera más fácil de interpretar los resultados. La mayor parte de los estudios en enfermedades complejas como esquizofrenia se han enfocado en colectar familias grandes, pares de hennanos afectados (los dos afectados), tríos y sujetos de pruebas tipo caso - control. Desde el punto de vista clínico, sería mucho más sencillo recolectar datos de pares de hermanos discordantes (DSP por sus siglas en inglés) donde un hermano tiene la enfermedad y el otro no. El uso de DSP en lugar de casos - controles previene posibles asociaciones con la enfermedad en ausencia de ligamiento causados por subdivisión y adición de población (Spielman, 1993). Un nuevo modelo de validación de consistencia es presentado "Consistencia extendida de la validación cruzada", el cual nos permite medir la capacidad del método para encontrar la interacción entre los genes tomando en cuenta que la prob,ramación genética al ser un modelo estocástico puede llegar a diferentes resultados posibles. 8 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im Para poder realizar los análisis de poder del método, se desarrolló un simulador de pares de hermanos discordantes, el sistema genera los genotipos de los hermanos de acuerdo al modelo de epistasis seleccionado. En los resultados obtenidos podemos verque mediante el uso de los mismos parámetros de número de marcadores, cantidad de alelos por marcador, modelo de epistasis y tamaño de muestra, nuestro método obtiene mejores resultados que otras técnicas como la evolución de redes neuronales. Los resultados tienen muy poca diferencia en error de predicción comparado con una búsqueda exhaustiva. l. 7 Organización del documento En el capítulo 1.1 se presenta una breve introducción en la historia de la genética. En el capítulo 2.1 se profundiza en el estudio de la genética humana así como las distintas técnicas estadísticas que se han abordado para solucionar el problema de encontrar los genes causantes de enfermedades comunes. La lectura de estos dos capítulos puede resultar innecesaria para el lector con conocimientos en genética humana. En el capítulo 2.4 se hace un resumen de las técnicas computacionales utilizadas lo cual no es necesario para un lector con experiencia en programación evolutiva. En el capítulo 2.3 se hace un análisis crítico del estado del arte de la aplicación de técnicas computacionales a la resolución del problema planteado. El capítulo 4 explica a detalle el modelo propuesto desde un punto de vista tanto biológico como computacionalmente. En el capítulo 5 exponemos los resultados obtenidos a través de los experimentos utilizando gráficas y tablas comparativas. Finalmente, en el capítulo 6 damos nuestras conclusiones y el trabajo a futuro, aquí podemos observar también las contribuciones, limitaciones y extensiones. 9 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gimpus Ciudad de México 2 Marco teórico 2.1 Genética Desde hace más de 6000 años se pueden encontrar ideas sobre la herencia sobre tallados en piedra en Caldea, ahí se muestran árboles genealógicos en relación con algunas características de las crines de los caballos. Hace 1500 años, el Talmud menciona la heredabilidad de la hemofilia, un trastorno de la sangre donde la persona tiene bajo nivel de coagulación. Aristóteles, quien vivió 300 años antes de Cristo, creó la idea de que el semen del varón se originaba de la sangre y tenía la capacidad de infundir vida al embrión en la mujer, esta idea fue aceptada por casi 2000 años. No fue hasta la segunda mitad del siglo XVII cuando Regnier de Graaf fue el primero en reconocer que la unión del óvulo y el espermatozoide es la base de la concepción; por primera vez se expuso la idea de que el espermatozoide no era el único agente hereditario, esta idea tardo varios años para ser aceptada (Emery 1978). Pero no es hasta 1857 cuando Gregorio Mendcl empieza sus experimentos en hibridación de plantas, investigación que se prolongará por siete años y lo llevará a descubrir las leyes básicas de la herencia que hoy llevan su nombre y es gracias a estos estudios que Mendel se gana el título de padre de la genética. Si bien otros investigadores ya habían usado guisantes para realizar estudios acerca de herencia, la gran contribución de Mendel fue demostrar que los caracteres heredados son unidades discretas; los cuales pueden ser empaquetados en diferentes maneras o reordenados en cada generación, estas unidades discretas eventualmente serán llamadas genes. Para lograr estos descubrimientos, Mendel tomó 32 diferentes tipos de guisantes, escogió siete características que aparecían diferentes en los distintos tipos de plantas; una por ejemplo siempre producía guisantes amarillos, mientras otra siempre producía verdes. En una variedad la 10 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im semilla parecía rugosa, mientras que en otras ésta era lisa. Estas características están listadas en la Tabla 1. 2da Generación Rasgo Dominante Recesivo Dominante Reccsivo Total Forma de semilla Liso Rugoso 5,474 1,850 7,324 Color de semilla Amarillo Verde 6,022 2,001 8,023 Posición de flor Axial Terminal 651 207 858 1 -~ Color de flor Rojo Blanco 705 224 929 1 Forma de vaina Inflada Estrecha 882 299 1, 181 1 1 Color de vaina Verde Amarilla 428 152 580 Tamaño de tallo Alto Enano 787 277 1,064 Tabla 1 Experimentos en guisantes de Mendcl Entonces Mendel hizo cruzas entre los diferentes tipos de guisantes; por ejemplo, usó polen de una flor blanca para fertilizar una flor roja. Una vez realizado estos experimentos, se dio cuenta que en la primera generación (F 1) de estas cruzas, uno de los rasgos desaparecía completamente; por ejemplo, toda la progenie de la cruza de plantas de semilla amarilla con las de semilla verde eran de semilla amarilla como sus padres. A estos rasgos que permanecían les llamó dominantes, mientras que los que desaparecían en la primera generación los llamó reces1vos. ¿Qué había pasado con los rasgos recesivos como el color verde de la semilla? El brillante científico permitió que los individuos de la generación Fl se polinizaran entre ellos mismos: el resultado fue asombroso, los rasgos recesivos reaparecían en la segunda generación (F2), en la Tabla 1 se encuentran los resultados de sus experimentos. Estos números fueron la base de la primera ley de Mendel. 1 1 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im Con estos datos, Mendel se dio cuenta de que la relación de apanc1on en la segunda generación de los rasgos dominantes y recesivos es de 3 a 1. ¿Cómo era posible que un rasgo recesivo desapareciera en la primera generación y después se presentara en la segunda con una proporción tan constante? Concluyó que la única manera de explicar esto era si la herencia de caracteres era siempre determinada por factores discretos que ocurren en los hijos en pares, uno heredado de cada padre, y los cuales son separados de nuevo cuando las células sexuales son creadas, produciendo dos tipos de gametos, con un factor de cada par en cada uno. Esta hipótesis es conocida como la primera ley de Mendel, o el principio de segregación. Los dos factores pueden ser los mismos, o bien pueden ser diferentes, en cuyo caso son llamados alelos. Por ejemplo, el color amarillo o verde de las semillas son determinados por alelos, diferentes formas de un gen (factor) para el color de semilla. Cuando los genes de un par de genes son iguales, el organismo se dice ser homocigoto para ese rasgo en particular; en cambio, cuando los genes de un par de genes son diferentes, el organismo es heterocigoto para el rasgo. Cuando los gametos son formados, los genes son pasados a ellos; pero cada gameto sólo contiene uno de los dos posibles alelos heredados del padre y madre. Cuando dos gametos se combinan en el huevo fertilizado, los genes se presentan de nuevo en forma de pares, un alelo puede ser dominante sobre otro; en este caso, el organismo tendrá la apariencia como si sólo tuviera este gen dominante. Esta apariencia es conocida como fenotipo; sin embargo, en el marco genético o genotipo, cada alelo existe independientemente y como una unidad discreta aún cuando ésta no sea visible en el fenotipo y el alelo recesivo se separará de su contraparte dominante cuando los gametos sean formados de nuevo. Sólo si dos alelos recesivos están juntos, entonces el fenotipo mostrará el rasgo recesivo. En una segunda serie de experimentos, Mendel hizo cruzas entre plantas de !:,'llisantes que diferían en dos características simultáneamente; por ejemplo, un padre tenía semillas lisas y amarillas y la madre tenía semillas rugosas y verdes; como se puede ver en la Tabla 1 los rasgos lisos y amarillos son dominantes, mientras que los rugosos y verdes son recesivos. Como era esperado, en la primera generación todas las plantas eran lisas y amarillas, pero cuando se dejó polinizar los individuos de esta generación se obtuvieron los siguientes de resultados: de 556 12 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gzmpus Ciudad de México semillas en total,315 tuvieron los dos rasgos dominantes, semillas lisas y amarillas, pero sólo 32 tuvieron los rasgos recesivos, rugosas y verdes. Las demás semillas fueron 1 O 1 rugosas y amarillas y 108 fueron lisas y verdes. Nuevas combinaciones de rasgos habían aparecido. Aún en estos experimentos se conservan la proporción 3: 1 de rasgos dominantes contra recesivos pero los rasgos lisos - amarillos y rugosos - verdes, que originalmente estaban combinados en una planta, se comportaron corno si fueran enteramente independientes uno de otro. De aquí que surge la segunda ley de Mendel, el principio de diversidad independiente. La proporción observada en estos experimentos es de 9:3 :3: 1 donde 9 representa la proporción de progenie que mostrara dos rasgos dominantes, 1 los que mostrarán dos rasgos recesivos, y 3 los que mostrarán la combinación de un rasgo dominante y uno recesivo. La Figura 1 muestra estos resultados. F1 Qx Q AaBb AaBb AB Ab aB ab AB o o o o AABB AABb AaBB AaBb Ab o @ o ® AABb AAbb AaBb Aabb 2 aB o o AaBB AaBb aaBB aaBb ab o © AaBb Aabb aaBb aabb ~ o @ 9/16AB 3/16Ab 3/16aB 1/16 ab Figura 1 Resultados de la segunda serie de experimentos de Mendel 13 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. C:zmpus Ciudad de M éx im A= Alelo para el fenotipo de semilla amarilla a = Alelo para el fenotipo de semilla verde B= Alelo para el fenotipo de semilla lisa b= Alelo para el fenotipo de semilla rugosa Sus experimentos fueron reportados en 1865 y publicados; sin embargo su trabajo fue ignorado por 35 años y no recibió reconocimiento científico hasta después de su muerte. En el año de 1900 las leyes de Mendel fueron redescubiertas por tres biólogos de manera independiente: Hugo de Vries, Carl Correns y Erich van Tschemark-Seysenegg. Los tres llegaron a las mismas conclusiones que Mendel quien falleció 16 años antes de que su trabajo fuera reconocido como uno de los descubrimientos científicos más importantes de todas las épocas (Curtís, 1972; Emery, 1978). Hasta estas fechas, la genética se había ocupado en herencia de anormalidades estructurales patentes. En 1901, Sir Archibald Garrad en un artículo que leyó ante la Sociedad Real de Medicina y Cirugía en Londres, describió una enfermedad humana llamada alcaptonuria en la cual las personas afectadas secretan orina de color oscuro; presentó evidencia de que esta enfermedad se segrega como un trastorno recesivo y que se tiene mayor probabilidad de contraerla cuando los padres de afectados son primos. La importancia de sus observaciones recae en que Garrad señaló que en la alcaptonuria había un trastorno hereditario que comprendía un proceso químico. Este fue el comienzo de la genética bioquímica y de la idea de que los genes controlan la síntesis de enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos bioquímicos específicos. En 1902 Walter Sutton estaba observando el proceso de meiosis (proceso importante que detallaremos adelante) en la producción de células de esperma y se sorprendió al ver la similitud de lo que estaba observando y las leyes de Mendel, los cromosomas venían en pares, así como los factores Mendelianos (genes). Los pares de cromosomas (homólogos) se separan cuando los gametos son formados; así también los genes. Y los genes y los cromosomas se juntan de nuevo 14 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. G:mpus Ciudad de M 6; im en pares en la descendencia. Con esto Sutton propuso que los factores observados por Mendcl se encontraban en los cromosomas. Existen dos procesos de división nucleares básicos: la mitosis y la meiosis. En la mitosis una célula se divide en dos copias exactamente iguales, este proceso sucede en todos los seres vivos; en el caso del hombre por ejemplo, la célula de la piel se divide en promedio una vez cada tres o cuatro días, lo cual significa que durante la vida de una persona se dividen unas 10,000 veces. En este proceso el número de cromosomas por cada nueva célula no cambia. La meiosis es el proceso de división nuclear donde se forman las células sexuales, es decir, los gametos. Durante este proceso el número de cromosomas disminuye a la mitad y cada gameto recibe uno de los cromosomas análogos del par, pero rara vez ambos ( cuando esto sucede generalmente resulta en una enfermedad causada por una anormalidad de tipo cromosómica y no genética como a nosotros nos atañe). Durante la primera fase de la meiosis, los cromosomas homólogos entran en íntima cercanía e intercambian partes entre las cromátides de los mismos. A este proceso se le conoce como recombinación. Los cromosomas homólogos tienen aspecto semejante y en posiciones idénticas en cada cromosoma se encuentran genes de los que depende la misma característica; sin embargo, estos genes, a pesar de determinar la misma característica, pueden no ser idénticos, a esto se le llaman variaciones alélicas o alelos. Como resultado, el entrecruzamiento durante la meiosis hay intercambio de material entre cromosomas homólogos, lo cual origina recombinaciones de genes, esto es; si dos genes estuvieron originalmente en un mismo cromosoma de un par, el entrecruzamiento daría por resultado su separación, o bien puede suceder al revés, si dos genes estaban separados, después del entrecrnzamiento pueden quedar en el mismo cromosoma. Cuando dos genes diferentes están situados en el mismo par cromosómico, se dice que están asociados. Como el entrecruzamiento es un evento donde el punto de cruce es escogido al azar, existe mayor posibilidad de que ocurra un entrecruzamiento entre dos genes que se encuentran muy separados, mientras que, si se 15 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im encuentran relativamente cerca, existe una mayor posibilidad de que no sean separados. Este principio ha sido usado para medir la distancia que existe entre dos genes, se mide la frecuencia de recombinación y esto da una idea de la separación entre ambos. En la década de 1930 Thomas Hunt Margan y Calvin Bridges hicieron experimentos con la mosca de la fruta, midiendo la frecuencia de recombinaciones pudieron realizar mapas de los cromosomas de este organismo indicando las posiciones exactas de casi 100 genes diferentes. Realizar estos estudios en el hombre es más complejo ya que se depende de matrimonios informativos ocurridos por azar. 2.2 Genética Humana 2.2.1 Herencia familiar Como explicamos anteriormente, el estudio de asociación en humanos es más complejo que el de otras especies, ya que el investigador depende de encontrar familias informativas ocurridas al azar; mientras que en animales y plantas el investigador tiene la oportunidad de generar las combinaciones que se requieran. Sin embargo, son muy raras las enfermedades que se heredan por mecanismos sencillos. Las enfermedades familiares comunes por lo regular no siguen una pauta sencilla en sus mecanismos de herencia, es por esto que en el humano ha sido necesario depender de la información que los genetistas obtienen al estudiar la segregación de los llamados genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que aparezcan en la familia en estudio. Estos incluyen grupos sanguíneos, ciertas proteínas séricas, daltonismo, etc. Otras técnicas han sido descritas y se pueden ver a más detalle en Emery ( 1978 Pág. 48-51.) 2.2.1.1 Herencia dominante autosómica En los rasgos dominantes autosómicos cada persona afectada por lo regular tiene también un progenitor afectado, esto ocurre generalmente en la mitad de los casos si la persona afectada se une con una persona normal. Sin embargo, una enfermedad puede también aparecer 16 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY.C:impus Ciudad de M éx im repentinamente en una generación, sin que se tengan registros de otros miembros de generaciones anteriores, esto puede pasar porque alguno de los antecedentes tenía la enfermedad mas no fue detectada, o bien puede ser que la persona afectada sea equivalente a una mutación repentina. 2.2.1.2 Herencia recesiva autosómica Los rasgos recesivos autosómicos atacan de igual manera a ambos sexos, pero en este caso los rasgos sólo se manifiestan cuando el gen aparece en doble dosis, es decir, en personas homocigotos para ese gen mutante particular. En promedio 25 por 100 de los hijos de dos personas que tengan una sola copia del gen mutante mostrarán el ataque de la enfermedad. Todas estas cifras concuerdan con los resultados obtenidos por Mendel. 2.2.1.3 Herencia intermedia y herencia ligada al sexo En un rasgo dominante incompleto una persona heterocigota generalmente no expresa el rasgo a menos que se presenten situaciones ambientales que sumados con el gen mutante, causen la aparición de la caracteristica. La herencia ligada al sexo denota las características del pedigri de genes que están en uno u otro de los cromosomas sexuales. Los genes que se encuentran en el cromosoma X se conocen como genes ligados al X, y los que están en el cromosoma Y, como ligados al cromosoma Y. Un rasgo recesivo ligado al X, es aquel que depende de un gen que está en el cromosoma X y que se manifiesta en la mujer sólo cuando existe una doble dosis de dicho gen. En el varón, un gen mutante en el cromosoma X siempre se manifiesta por que no hay un gen normal que antogonice los efectos del gen mutante como es el caso de la mujer heterocigota. Las mujeres heterocigotas por lo regular no son afectadas, estas enfermedades son transmitidas por los varones atacados y por las mujeres sanas portadoras. El ejemplo mejor conocido es la hemofilia, en épocas pasadas, los hemofilicos solían morir en la niñez como resultado de traumatismos simples. En el caso de un varón afectado que tenga hijos con una mujer sana, todas sus hijas serán portadoras, ya que el 17 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx= im hombre sólo puede heredar el cromosoma X con el gen mutante, sin embargo, todos sus hijos serán normales, ya que el padre es el único que puede donar el cromosoma Y a sus hijos varones. Un rasgo ligado al X nunca se transmite del padre al hijo. Si una mujer portadora se casa con un varón normal, entonces las cosas cambian, la mitad de sus hijas serán portadoras, y la mitad de sus hijos estarán afectados por la enfermedad. Este mecanismo de herencia donde los varones son los únicos afectados por una enfermedad transmitida por mujeres (llamada ley de Nasse) fue apreciada por los judíos hace unos 2000 años. Eximían de la circuncisión a los varones de las hijas de una madre que había tenido un hijo con la "enfermedad hemorrágica". Los hijos de los hermanos del padre no eran eximidos de la circuncisión. La reina Victoria fue portadora de hemofilia y sus hijas también lo fueron, y gracias a ellas introdujeron la enfermedad en las familias real rusa y española. Por suerte el hijo de la reina Victoria, Eduardo VII no heredó el gen y no lo transmitió a sus descendientes Figura 2. e Carrler Fén~ie e · · Scaws lJncertaín • Hemophlik M:lle • Figura 2 Transmisión de hemofilia en generaciones de la familia real europea 18 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Carrpus Ciudad de M 6: im 2.2.1.4 Herencia multifactorial En las enfermedades descritas hemos supuesto que cada una es resultado de la acción de un solo gen (unifactorial). Sin embargo, hay trastornos bastante comunes en los cuales se aprecia una tendencia familiar neta, y la proporción de parientes afectados es mayor de lo que se observa en la población general, pero dicha proporción suele estar en el orden de 5 por 100 y por esta causa, es mucho menor de la que cabría esperar para un rasgo unifactorial. Esto podría ser causado por una penetrancia incompleta, es decir, que el gen mutante no se expresa gracias a factores ambientales o de otros genes. Sin embargo, es más probable que estos trastornos sean causados por muchos genes (mecanismo poligénico) sumado a los efectos del ambiente, a esto se le llama herencia mult~factorial. Algunos rasgos normales heredados por este mecanismo son la inteligencia, estatura, color de la piel, entre otros. Algunos ejemplos de rasgos anormales son hipertensión, diabetes sacarina, artritis reumatoide, úlcera péptica entre muchas otras. Se piensa que cada característica es el resultado de la acción de muchos genes, cada uno de los cuales tiene un efecto pequeño pero aditivo, a lo que se sumarían los efectos del ambiente. 2.2.1.5 Heredabilidad Es posible estimar el grado en que la etiología o la causa de un trastorno puede atribuirse a factores genéticos y no a factores ambientales. Esta es la llamada heredabilidad, que puede definirse como la proporción de la variación total de una característica que puede atribuirse a factores genéticos. Se expresa en forma porcentual y se le abrevia a menudo con el símbolo "h2". Entre más grande es la heredabilidad, mayor es la contribución de factores genéticos en la etiología de la enfermedad o rasgo. Por ejemplo, los surcos en los dedos que crean las huellas digitales, tienen una heredabilidad de 99 por 100, gemelos idénticos no tienen exactamente la misma huella digital, y esto puede ser explicado por que en el momento de la creación del feto hay influencia del medio. La esquizofrenia por su parte tiene una heredabilidad del 80 por 1 OO. La ulcera péptica tiene heredabilidad de solo 37 por 1 OO. 19 2.2.1.6 Epistasis INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M 6: im Bateson definió epistasis como una forma de interacción genética donde un gen interfiere con la influencia fenotípica de otro gen no alélico tal que el fenotipo está determinado por el primero y no el segundo, aún cuando ambos genes se presentan al mismo tiempo en un individuo (Bateson, 1907). Esta definición no es controversia!, lo que dice es que una mutación de un gen va a ser tan fuerte que se va a imponer ante otros genes cuya contribución sea menor. Existe una definición más amplia aceptada por estadistas en genética, la cual dice que la epistasis ocurre cuando el efecto combinado de dos o más genes en un fenotipo no puede ser predicho por la suma de sus efectos por separado. Bajo esta definición, tenemos por ejemplo que si se tienen alelos asociados con la obesidad en el loci A y B, y cada uno de ellos provocan un aumento de peso de 1 gramo cuando son heredados por separado y de 2 gramos cuando se heredan los dos junto, este efecto se describiría como aditivo o no epistático. Sin embargo, si la presencia simultánea de los dos alelos inducen un incremento de 1 O gramos o una gran pérdida de peso estos se describirían como epistáticos (Frankel et al., 1996). El principio biológico detrás de la epistasis es claro: los fenotipos a menudo se presentan como el resultado no predecible de sus determinantes. Aún así, la mayoría de los esfuerzos por mapear loci no han tomado en cuenta la posibilidad de efectos epistáticos. La razón de esto radica en que los paradigmas actuales de mapeo genético tienen poco poder para detectar este tipo de interacciones, y esto se debe a que desde un principio se busca a el o los loci cuyo efecto principal tenga un valor estadístico significativo. Además, las estrategias de modelado estadístico y las herramientas actuales de análisis de datos sólo toman en cuenta los efectos de un solo loci a la vez. Ejemplos de estos paquetes son: LINKAGE, SAGE, MENDEL, MAPMAKER/SIBS, APM y el muy famoso y ampliamente utilizado en la fecha de esta investigación GENEHUNTER. No es de sorprender entonces que diversos estudiosen enfermedades comunes complejas tengan resultados contradictorios, ya que al ignorar los efectos de la epistasis entre genes, uno podría suponer que en distintas poblaciones se puedan obtener resultados incluso contradictorios. 20 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. C:zmpus Ciudad de M éx im El problema de encontrar interacción entre genes, es decir, su epistasis, sale de las posibilidades de un tratamiento netamente estadístico, y esto se debe las razones expuestas por Frankel et al (1996).: Para empezar existe el problema del tamaño de la muestra y el poder estadístico. Si consideramos un experimento con ratones con 100 individuos, y una epistasis definida por dos locus bialélicos, la frecuencia con la que el fenotipo será observado, si se tiene una penetrancia del 100 por 100, será de Y2 x Y2 = ~ , es decir en sólo 25 por 100 de la progenie. Esto únicamente ocurriría si el fenotipo fuese completamente determinado por la interacción de los genes. En la práctica esto no es así, los rasgos complejos son generalmente influenciados por factores no genéticos, si a esto aunamos que no necesariamente sea la interacción de dos sino de tres, cuatro o más genes, y tomamos en cuenta que en promedio la adición de un gen más al modelo epistático divide a la mitad la cantidad de individuos que contarán con el fenotipo, la población inicial de 100 ya no resulta lo suficiente robusta para encontrar un valor estadísticamente significativo. Ahora bien, los genes pueden interactuar en una variedad de formas, para poder detectar un efecto epistático uno tendria que modelar cada una de las posibilidades, o bien hacer ciertas suposiciones, lo cual vuelve aún más complejo el problema ya que se requiere hacer múltiples pruebas, lo cual podria llevar a cientos, miles o incluso millones de posibles combinaciones de genes. Estas pruebas podrian llevar a obtener falsos positivos. Una vez descubierto un posible efecto epistático, la siguiente etapa es verificar si esta interacción tiene sentido biológico. 2.2.1.7 Ligamiento y desequilibrio de ligamiento Debido a la recombinación cromosómica, existe una tendencia mayor de heredar al mismo tiempo los loci que se encuentren juntos en el mismo cromosoma, esto es causado ya que entre más cerca estén, menor será la probabilidad de recombinación. Este principio es utilizado por los estudios de ligamiento o enlace génico. 21 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de México Cuando los alelos en dos loci se encuentran en una combinación (haploti po) más frecuente de lo que se esperaria por las frecuencias alélicas se dice que hay un desequilibrio de ligamiento. Esto sugiere que los loci se encuentran muy cerca uno de otro en el mismo cromosoma, tan cerca que es muy dificil observar un evento de recombinación. Esta caracteristica es la utilizada en los estudios de asociación. 2.2.2 Enfermedades comunes complejas 2.2.2.1 Esquizofrenia La esquizofrenia es una enfermedad psicótica que suele empezar en los comienzos de la vida adulta y se caracteriza por cambios de la personalidad y emocionales en relación con un alejamiento de la realidad, acompañada de alucinaciones y delirio. Es la causa principal de enfermedades mental crónica y afecta a 1 por 100 de la población. A través de estudio en gemelos se ha podido calcular que esta enfermedad tiene un grado de heredabilidad de 80 por 100, lo cual es bastante alto. Sin embargo, no se conoce a fondo la naturaleza y la extensión de los factores genéticos así como su contribución, en parte por confusión en definiciones en particular del término esquizoide. En general, se dice que el término esquizoide denota a la persona con síntomas fundamentales de esquizofrenia pero en forma más benigna. Se ha estimado que, en promedio, 4 por 100 de la población general tiene esquizofrenia o un problema esquizoide. Si se consideran los dos trastornos juntos, prácticamente 90 por 100 de los gemelos idénticos tienen el trastorno, al igual que la mitad de sus parientes de primer grado. Seria sencillo pensar que esta enfermedad se hereda en forma de un rasgo dominante autosómico con una penetrancia casi completa. Sin embargo, las proporciones de parientes más lejanos afectados no concuerdan con la hipótesis dominante. También la alta frecuencia de la enfermedad en la población general debiera significar que si el problema depende de un solo gen, entonces el índice de mutación debiera ser extraordinariamente alto, o que existiera alguna ventaja para el 22 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Oirnpus Ciudad de M éx ÚXJ heterocigoto que si no la hubiera, este trastorno nocivo hubiera sido eliminado desde hace mucho por selección natural. Se ha demostrado que los esquizofrénicos tienen una resistencia mayor de la normal al choque traumático quirúrgico, alergias, en términos generales, y a diversas substancias farmacológicamente activas. También se ha sugerido que la resistencia a epidemias como viruela y peste pudo haber sido un factor contribuyente a la frecuencia actual, pero esto es mera especulación. (Emery, 1978). ¿Es posible que existan otras causas por las que esta enfermedad tiene una frecuencia tan alta en la población global? ¿Si llegáramos a identificar los genes causantes de la esquizofrenia, sería bueno eliminarlos del acervo genético humano? Hace 150,000 años un animal desarrollo una capacidad no vista en ninguna otra especie del planeta, la capacidad de imaginar, de ver más allá de la caja negra en la que vivían, de crear mundos más allá de lo que el ojo podía ver, ellos fueron los primeros (Horno sapiens), a partir de entonces se aceleró el proceso evolutivo hasta llegar al grado tecnológico con el que contamos ahora. ¿ Y quien ha hecho posible que hoy contemos con electricidad, televisión, reactores nucleares, o llegar a la Luna? Todo esto no sería posible sin la creatividad, y la imaginación de los científicos de los últimos siglos. Generalmente se ve a la esquizofrenia como una enfermedad que provocara algún tipo de retraso mental. En realidad lo que genera es una inmensa capacidad para imaginar cosas, lugares, y formas, valores que hoy la humanidad tienen en muy alto, sin embargo, esta capacidad está tan desarrollada que sobrepasa al individuo al grado de no poder controlarla, y es por eso que se convierte en una enfermedad discapacitante. ¿Pero que sucede con los padres, hermanos, o hijos de un esquizofrénico? Éstos únicamente portan en promedio la mitad de los genes del probando. T:11 vez estos parientes porten una buena cantidad de genes de la enfermedad, o bien el único gen pero con poder disminuido, para que gocen de una ventaja selectiva sobre la población de tal manera que tendrán más éxito y por lo tanto, mantendrán vivos los genes culpables de la imaginación. Si bien se sabe de varios parientes de esquizofrénicos exitosos, como el hijo de Einstein, o la hija de James Joyce, esta teoría no ha sido confirmada y requeriría de una amplia investigación para ser corroborada. 23 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gimpus Ciudad de M éx im En la búsqueda de la causa de la esquizofrenia se han hecho hallazgos, algunos contradictorios, Basset et al ( 1988) reporta una trisomía del cromosoma 5. Posterionnente esto es replicado en un estudio de familias de Islandia por Basset (1988), sin embargo al mismo tiempo en que se reporta, en el mismo número de publicación Kennedy et al. ( 1988) señalan evidencia contradictoria. Otros datos han señalado a una región del cromosoma 6, cercana al locus de HLA como un sitio interesante para esquizofrenia (Moisés et al, 1995; Portin y Alanen, 1997). De la misma forma se han obtenido índices LOD significativos en regiones de los cromosomas 9 y 20 (Moisés et al. 1995) 24 INSTITUTO TECNOLÓGICOY DE ESTUDIOS SUPERIORES DE MONTERREY. Gzmpus Cmdad de M 6: iaJ 2.2.3 Métodos de detección de ligamiento y asociación 2.2.3.1 Estudios de enlace génico 2.2.3.1.1 Estudio del puntaje "LOD" En la década de los ochenta, con el surgimiento de la biología molecular aplicada a la investigación clínica, surgen esperanzas de un nuevo conocimiento. La clonación e identificación de variantes moleculares de múltiples genes (polimorfismos genéticos), aunado al desarrollo de técnicas como la reacción en cadena de la polimerasa (PCR) y de programas estadísticos de análisis más sofisticados han impulsado la aplicación de estudios de enlace génico y asociación genética en los trastornos mentales. A continuación se explica el objetivo de un estudio de enlace génico. (Nicolini, 1995) "La idea fundamental de los estudios de enlace génico, es la de analizar la cosegregación de una enfermedad con un marcador polimórfico. La evidencia estadística del enlace génico es el índice LOD. Este término es un acrónimo del "logaritmo de las probabilidades" (lag of the odds) y se obtiene calculando el cociente de probabilidad de una familia bajo distintas estimaciones de la frecuencia de recombinación (medida indirecta de la distancia entre los genes) menores a la que se esperaria encontrar en el caso de que hubiera enlace ( <0.5), entre la probabilidad de la misma familia bajo segregación independiente; es decir a una frecuencia de recombinación de 0.5 o mayor. A este resultado se le calcula el logaritmo base diez, lo que permite sumar los resultados obtenidos en distintas familias." El Comité del Mapeo del Genoma Humano ha establecido ciertos requisitos que tienen que ser cubiertos para poder asignar enlace génico a un locus determinado. Estos son la evidencia 25 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im significativa de enlace (LOD > 3), y la replicación de este resultado por al menos dos laboratorios distintos y de manera independiente. 2.2.3.1.2 Pruebas con pares de hermanos afectados El ADN en un mismo locus en dos cromosomas homólogos es "Idéntico por descendencia" (IBD por sus siglas en inglés) si se originó de un cromosoma ancestral. Si dos cromosomas homólogos de personas diferentes son IBD en un mismo locus, las personas son familiares. Si dos cromosomas homólogos de una sola persona son IBD en un locus, esta persona tiene padres no tomados al azar de una población, es decir, sus padres son parientes. Dos personas pueden compartir ADN IBD en un locus en especifico ya sea en cero, uno o dos cromosomas. El método de "pares de hermanos afectados" (ASP por sus siglas en inglés) es usado de manera rutidiana para detectar ligamiento entre un marcador y un gen de enfermedad y consiste en estudiar la identidad por descendencia en pares de hermanos afectados con la enfermedad de interés. En general, existe una asociación entre fenotipo y una configuración 180 de individuos familiares en loci ligados a un loci de susceptibilidad de enfermedad (OS por sus siglas en inglés). La idea de esta técnica es tipificar pares de hermanos afectados en muchos marcadores genéticos. En la mayoría de los marcadores no se encontrará conexión con la enfermedad. Sin embargo, si uno de los marcadores está altamente ligado en el mismo cromosoma con un gen de susceptibilidad de la enfermedad, entonces uno esperaría ver una distorsión en la segregación en el locus de ese marcador. En esencia, dos hermanos afectados están obligados a tener genotipos similares en un locus que predispongan a una enfermedad dada. Y debido al alto ligamiento, la similitud se extiende al locus del marcador (Lange, 1986). 26 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M éx im En 1975 Cudworth y Woodrow (Cudworth 1975), hicieron un experimento con 15 pares de hermanos afectados con diabetes juvenil en marcadores de genes relacionados con los leucocitos humanos (HLA por sus siglas en inglés). Encontraron una desviación significante de la distribución normal y su estudio empezó una gran cantidad de investigaciones en la implicación de HLA y otros loci en la diabetes mellitas dependiente de insulina. (Dudoit, 2004) 2.2.3.2 Limitantes de los métodos de análisis de ligamiento En el año de 1996 Risch y Merikangas (Risch, 1996) publican un artículo donde se demuestra que los métodos de análisis de ligamiento tienen un poder limitado para poder encontrar genes de efecto modesto. Pero por otro lado, concluyen que los métodos de asociación, relativamente nuevos, tienen un mayor poder para detectar estos efectos. Se calcula que los métodos de análisis de ligamiento requerirían de cuando menos 2,500 familias para poder detectar un gen cuyo genotipo tenga un riesgo relativo igual o menor a 2, lo cual no es nada práctico, ya que el encontrar esa cantidad de familias en donde se encuentren cuando menos dos individuos afectados requeriría demasiados años de investigación y una gran cantidad de dinero. Sin embargo, para esta misma configuración, una prueba de asociación únicamente requerirá de 180 a 340 familias. Cabe aclarar que en el mismo artículo también se menciona una deficiencia de los estudios de asociación, ya que a pesar de tener un mejor poder que los estudios de ligamiento, el gen involucrado con la enfermedad debe ser identificado tentativamente antes de que se haga la prueba. Esta es una desventaja tecnológica más que estadística, ya que se requiere contar con la totalidad de los genes humanos tipificados, o bien una buena colección de grupos de marcadores que estén en desequilibrio de ligamiento, para poder encontrar a un gen causante de enfermedad con este tipo de estudios. 27 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. C:tmpus Ciudad de M éx im 2.2.4 Pruebas de asociación 2.2.4.1 Prueba de asociación poblacional La prueba de asociación más simple es la llamada poblacional o de ''caso - control". En esta prueba lo que se busca es encontrar una correlación entre un alelo en específico y la enfermedad, esto se logra comparando la diferencia de frecuencia entre los alelos del grupo de los casos y de los controles mediante una prueba estadística de ;c cuadrada. Sin embargo existen aspectos importantes que limitan la credibilidad de este tipo de pruebas. Si se selecciona de manera errónea los controles, este tipo de pruebas puede llevar a falsos positivos. La estructura de la población puede causar que debido a las migraciones, nuevas variantes de genes se introduzcan, provocando un cambio en la frecuencia de ciertos alelos en la población (Spielman, 1993). 2.2.4.2 Pruebas de asociación familiar Hacia 1993 se habían hecho vanos estudios de asociación poblacionales que indicaban una posible asociación entre la diabetes mellitus dependiente de insulina y una clase de alelos encontrados en una región específica del cromosoma 11 p. Sin embargo, los estudios de ligamiento efectuados en esa área no podían replicar los resultados. Es entonces cuando empiezan a surgir métodos alternativos que proponen hacer pruebas de ligamiento en un marcador genético cuando ha sido encontrada asociación población. Usando los datos de las familias con cuando menos un hijo afectado, se puede evaluar la transmisión del alelo del marcador asociado desde un padre heterocigoto a un hijo afectado. Si bien este método ya había sido probado por otros investigadores, las propiedades estadísticas son descritas por primera vez en el método llamado "Prueba de transmisión para determinar desequilibrio de ligamiento" (TDT por sus siglas en ingles) (Spielman, 1993). 28 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. c.arrpus Ciudad de M éx im La prueba original de TDT considera padres que sean heterocigotos para un alelo asociado con la enfermedad y evalúa la frecuencia con la cual esealelo o sus alternos son transmitidos al hijo afectado. En ésta prueba no se requiere datos de otros miembros de la familia ya sea afectados o no afectados. Sin embargo, como se había mencionado anteriormente, esta prueba requiere que exista una asociación debida a un desequilibrio de ligamiento para poder detectar el ligamiento entre el marcador y el locus de la enfennedad. Cinco años después de la aparición de la prueba TDT surgieron variaciones que permitían usar la información de un hermano sano en lugar de la información de los padres. Dos grupos de investigadores publicaron sus resultados en el mismo número de revista (Spielman, 1998; Boehnke, 1998). Uno fue llamado S-TDT y el otro "Discordant-Alleles Test". La importancia de esta adición es que permite utilizar los estudios de asociación en enfermedades donde la edad en la que se empieza a desarrollar la enfermedad es alta. En este tipo de padecimientos, generalmente no se cuenta ya con los padres para poder obtener sus genotipos, sin embargo si es mucho más común el contar aún con un hermano que no haya desarrollado los síntomas. Otra contribuciones al método es la capacidad de medir rasgos cuantitativos y no sólo cualitativos, en este sentido las mayores contribuciones fueron de Allison ( 1997), Rabinowitz ( 1997) y Fulker (1999). Si bien el contar con un rasgo cuantitativo provee de mayor poder para poder encontrar genes causantes de enfermedades, cabe recalcar que esto no siempre es posible ya que existen enfermedades cuya etiología no puede ser medida en una escala cuantitativa como en el caso de la esquizofrenia. Una herramienta muy utilizada en estos días para hacer estudios de asociación es el paquete computacional FBAT / PBAT, este tiene sus bases en un alcance unificado para hacer pruebas en distintas circunstancias, como rasgos cuantitativos o cualitativos, un solo individuo, hermanos discordantes, múltiples alelos, este modelo estadístico fue propuesto por Rabinowitz y Laird (2000) y Lange y Laird (2002) . Para un compendio más específico de pruebas de asociación ver (Zhao et al., 2000). 29 INSTITUfO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Campus Ciudad de M ~ im 2.2.4.3 Limitaciones de los estudios de asociación basados en familias Si bien los estudios de asociación tienen mayor poder para detectar genes cuyo efecto en la etiología de la enfermedad es baja (Risch et al, 1996), este método tiene el mismo problema que los estudios de ligamiento en cuanto a que cuenta con poco poder cuando la enfe1medad tiene bases epistáticas, es decir, cuando al medir el efecto principal de un gen no resulta en una asociación hasta que es agregado el efecto de un gen secundario. En un estudio (Culverhouse ) se simularon combinaciones de dos, tres y cuatro genes interactuando en una modelo puramente epistático sin variación aditiva o dominante en los loci de susceptibilidad, los resultados indicaron que los estudios de asociación no tienen la capacidad para detectar los loci, sin embargo, los métodos de ligamiento podrían detectar los loci de susceptibilidad. Podemos ver entonces que los métodos de ligamiento podrán detectar relaciones puramente epistaticas, sin embargo, retomando los resultados de (Risch et al., 1996), el riesgo relativo del genotipo debe ser mayor a 2 para que pueda ser detectado. Y por otro lado los estudios de asociación podrán detectar genes de susceptibilidad con riesgos relativos de dos, mientras que la enfermedad no esté predicha por un modelo puramente epistático. Se ha propuesto entonces pruebas condicionales como el TDT condicional (Culverhouse, 2002), donde los valores de dos pruebas individuales de TDT son combinados usando la estadística de Fisher (1932). Otras propuestas son detectar la evidencia de ligamiento de una región incorporando la de otra región (Liang et al, 2001). Y el utilizar múltiples marcadores, sin embargo en este último caso, los marcadores deben estar altamente ligados (haplotipos) (Zhao et al., 2000b ). 30 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. Gimpus Ciudad de M éx im 2.3 Trabajos relacionados 2.3.1 MOR En el método llamado Reducción de la dimensionalidad multifactoria/ (o MOR por sus siglas en inglés), como su nombre lo indica, colapsa los datos génicos de alta dimensionalidad a sólo una dimensión, lo que permite detectar interacciones de genes en muestras relativamente pequeñas (Ritchie et al., 2001; Lance et al., 2003). El sistema funciona como un clasificador que puede utilizar validación cruzada de 1 O partes, es decir, divide la muestra en 1 O partes, 9 de ellas se utilizan para entrenar al clasificador, y la décima se utiliza para hacer pruebas de error de clasificación y de predicción. El usuario selecciona el número de variables a usar, y un umbral T que representa el límite del cociente de los individuos afectados entre los no afectados, en nuestro caso, de los pares de hermanos afectados entre los no afectados. A continuación se subdivide el proceso en 6 etapas: 1. Se dividen los datos de prueba en un número de partes iguales. 2. Se toma un conjunto de N factores 3.1 Por cada factor, sus clases son representadas en un espacio N-dimensional con una celda por cada combinación. 3 .2 Se calcula el cociente de los individuos afectados contra los no afectados por cada celda. 4. Cada celda es etiquetada si rebasa el umbral establecido, de esta manera se reduce el problema a una dimensión, es decir una variable con dos valores, riesgo alto y riesgo bajo. 31 INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. C:trnpus Ciudad de M éx im Cuando en una celda no hay controles, se determina de alto riesgo, y en el caso de no haber casos, se determina de bajo riesgo. 5. Cada combinación de los N factores es evaluada de manera independiente y se selecciona el mejor factor. 6. Se utiliza los datos independientes para medir el porcentaje de error y de predicción utilizando el modelo que ganó en la etapa 5. Esto se repite 10 veces con distintos datos de prueba y entrenamiento. Una vez que se han encontrado la mejor combinación de factores, se busca cuáles niveles multifactoriales (genotipos) son de alto o bajo riesgo con todos los datos. Se utiliza un valor de T if,:rual a la división de los casos entre los controles de toda la prueba, esto se hace para ajustar la prueba cuando existe una cantidad no balanceada entre los casos y los controles. I STEP 1 1 8 3 6 5 L I STEP6 I Locus l Lorus4~ "! Locus 5 ~Bb Loc~s <., - ....-----+~---+-~~ ..... • . Locu., N ...- 1 STEP5 I Modeb Frictors l. 6 LJ 2,4 2,] t:rror 19.25 22 12 2·.U3 28 14 bb I STEP 4 1 Locus 3 32 Discusión INSTITUTO TECNOLÓGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY. C:mpus Ciudad de M éx im Pasos a seguir en el método MDR Este método y su implementación puede encontrar relaciones gen - gen en bases de datos de hasta 4000 individuos y con hasta 500 factores o variables, sin necesidad de tener un modelo genético, y es un método no paramétrico. Sin embargo, está limitado a solamente tres niveles lo cual se traduce a marcadores bialélicos más uno adicional en el caso de que no exista la información. Esto limita al software ya que para nuestro análisis, hay genes con 3, 4,5 alelos. Además el autor especifica que para grandes bases de datos o modelos de alto orden, el algoritmo se vuelve inoperante por todas las posibles combinaciones. 2.3.2 GPNN Un método recientemente publicado (Ritchie et al., 2003b) optimiza la arquitectura de una red neuronal utilizando programación genética. Este método tiene como objetivo el poder detectar interacciones entre genes aún cuando el modelo sea puramente epistático. La red utilizada es una red neuronal artificial de retro propagación. Se realizaron los experimentos en dos fases. En la primera se utilizan arquitecturas escogidas
Compartir