Programação Genética para Identificação de Genes

•

ITESM

Todo para Aprender

31/10/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Anatomía I

133.202 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

,
INSTITUTO TECNOLOGICO Y DE
ESTUDIOS SUPERIORES DE
MONTERREY
Campus Ciudad de México
Escuela de Graduados en Ingeniería y Arquitectura
"APLICACIÓN DE PROGRAMACIÓN GENÉTICA
PARA ENCONTRAR RELACIONES GEN - GEN EN
ENFERMEDADES COMUNES COMPLEJAS"
Tesis para optar el grado de
Maestro en Ciencias de la Computación
presentada por:
Jesús Karol Estrada Gil
Asesor: Dr. Edgar Vallejo Clemente
Agosto del 2004
Resumen
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
G:impus Ciudad de M é( im
La identificación de genes que tienen influencia en el riesgo de contraer enfermedades comunes
complejas primordialmente dada por la interacción con otros genes y factores ambientales es un
aún un reto estadístico y computacional en la epidemiología genética. El reto estadístico consiste
en considerar interacciones con alta dimensionalidad, sin perder grados de libertad mientras que
el reto computacional consiste en el tamaño y complejidad del espacio de búsqueda (Templeton
AR. 2000; Ritchie et al., 2003 ).
La presente investigación detalla el uso de un sistema de programación genética para
inducir árboles de decisión (GPDTI por sus siglas en inglés) capaces de encontrar la mejor
combinación de genes cuya interacción describa un fenotipo dado por epistasis. En este estudio
nos hemos enfocado a especializar el programa en enfermedades humanas comunes complejas,
específicamente en esquizofrenia, sin embargo creemos que el modelo computacional podría
aplicarse a la resolución de cualquier problema de aprendizaje de máquina.
Para demostrar la validez del método se desarrolló un simulador de genotipos de pares de
hermanos discordantes. Utilizamos ocho diferentes modelos de epistasis usados en la literatura
(Li et al., 2000; Ritchie et al., 2001; Culverhouse et al., 2002; Ritchie et al., 2003b) para medir la
capacidad del método para encontrar los genes relacionados con la enfermedad así como su
interacción.
Comparando los resultados obtenidos de nuestro método contra otras técnicas
computacionales utilizadas en los mismos modelos, observamos que el poder para detectar la
interacción de los genes es similar o mejor los resultados publicados. Además, los experimentos
realizados demostraron con anterioridad que nuestros tiempos de convergencia son mejores así
como la interpretación de los modelos obtenidos.
111
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Canpus Ciudad de M b: ico
Contenido
Dedicatoria ................................................................................................................................. .... .. . i
Agradecimientos .............................................. ...... ......................... ...................................... ...... .. ... ii
Resumen ........................................................ ........... ................... .............................................. ..... iii
Lista de Tablas ............................................... .... ............................................................................ . vi
Introducción ............................................................................................ .................................... .... . 1
1.1 Generalidades .............................. .... ...................................................................... .......... 1
1.2 Problema planteado ................ .. ................ ............................ ....... ........ ......... ................. .. 6
1.3 Objetivo ........ ...... .................................................... .... ....... ..... .... .. ... .... .. ......... ... ... .. ... .. .. .. 7
1.4 Justificación ... ............................. ................ .... ......... ............ ..... ... ... ........ .... .... ...... ..... ..... . 7
1.5 Hipótesis ............................ .......... .. .. .. ........................... ... .... ............. .... ............. ...... ....... . 7
1.6 Contribuciones esperadas .................................................. .... ........ .. ................................ 8
1. 7 Organización del documento ..... .......................................... ..... .. ... ................................. . 9
2 Marco teórico .... ........................................................................... .... .. ............................ ........ 1 O
2.1 Genética .................................... .......... .... ......................... ........... ................................... 1 O
2.2 Genética Humana ................................. ... ................................ ....... ... ............................ 16
2.2.1 Herencia familiar ............... ................. ............................. ...................... ..... .. .... ... .. 16
2.2.2 Enfermedades comunes complejas ......... ...... .. ............ .. ................. ... .......... ... .... .. .. 22
2.2.3 Métodos de detección de ligamiento y asociación .... .. ......... .. .......... .. .... .. ............. 25
2.2.4 Pruebas de asociación ............................................................................................ 28
2.3 Trabajos relacionados ................ .............. .............................. ... ...................... ... ........ .. .. 3 1
2.3.1 MDR .............................................................................................................. ... .. ... 31
2.3.2 GPNN .................................................... .. ...... .. ...................................................... 33
2.3.3 Árboles de decisión ............ ....................................... .... .. ... .. ... .. .. .................... .... .. 35
2.3.4 FBAT .................................. .... .. .......... .................. .. ....... ............ .. .................. ....... . 37
2.3.5 Comparación de métodos para la detección de genes de susceptibilidad .............. 37
2.4 Algoritmos evolutivos ................... .. .......... .. ....... ............ ... .. .......................................... 38
2.4.1 Programación genética .......................................................................................... 39
2.4.2 Las estructuras iniciales ................................................................................ ......... 41
2.4.3 La medida de aptitud ...................................................... ........ ........................ ... .... 42
2.4.4 Los operadores que madi fican las estructuras ................................................... .... 42
2.4.5 Estado del sistema ................................................................................................. 43
2.4.6 Criterio de terminación ..................................................................................... ..... 44
2.4. 7 Método para designar el resultado ganador .................. .... .... ........................ .... .. ... 44
2.4.8 Parámetros de control ................... ............................... ..... .. .............. ...... ... ........ .... 44
2.4.9 Proceso evolutivo para encontrar la mejor solución ........ ... ......... .. ... .. ................... 45
2.5 Evolución de la clasificación .. ...... ................................ .. .. ......... ......... .................... ...... . 46
3 Problema .......................................................................................... .. ... .... .. ................. ..... ..... 47
4 Modelo propuesto ..................................................................... .......... .. ................................. 48
4.1 Modelado ...................................... ................................................................................. 48
4.1.1 Funciones ........................................................................................................... .. .. 48
IV
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
CampusCiudad de M éx im
4.1.2 Las estructuras iniciales ......................................................................................... 49
4.1.3 La medida de aptitud ............................................................................................. 49
4.1.4 Operadores que modifican las estructuras ............................................................. 50
4.1.5 Estado del sistema ................................................................................................. 50
4.1.6 Criterio de terminación .......................................................................................... 50
4.1. 7 Método para designar el resultado ganador ........................................................... 50
4.1.8 Parárnetros de control ............................................................................................ 51
4.2 Proceso .......................................................................................................................... 51
4.2.1 Simulación de los datos ......................................................................................... 51
4.2.2 Lectura de los datos ............................................................................................... 54
4.2.3 Validación cruzada por partición del conjunto de datos .................................... .... 57
4.2.4 Entrenamiento ........................................................................................................ 58
4.2.5 Predicción .............................................................................................................. 60
4.2.6 Obtención de estadísticas ....................................................................................... 61
4.2. 7 Paralelización ......................................................................................................... 66
5 Resultados .............................................................................................................................. 68
5.1 Comparación mediante el uso de datos no biológicos ................................................... 68
5.2 Comparación contra modelos de epistasis ya probados ................................................ 72
5.3 Comparación entre tipos de codificación ...................................................................... 83
6 Conclusiones .......................................................................................................................... 85
6.1 Trabajos futuros ............................................................................................................. 86
7 Glosario ................................................................................................................................. 89
8 Referencias ............................................................................................................................ 93
V
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
Lista de Tablas
Tabla 1 Experimentos en guisantes de Mendel ............................................................................. 11
Tabla 2 Comparación de métodos para detección de genes de susceptibilidad ............................ 38
Tabla 3 Tabla de penetrancia para dos marcadores bialélicos ...................................................... 53
Tabla 4 Ejemplo de arreglo de datos en forma de atributos y registros ........................................ 59
Tabla 5 Datos del problema de golf .............................................................................................. 69
Tabla 6. Comparación de desempeño en los problemas de los Monos ......................................... 72
Tabla 7 Funciones de penetrancia del modelo l .......................................................................... 73
Tabla 8 Funciones de penetrancia del modelo 2 .......................................................................... 73
Tabla 9 Funciones de penetrancia del modelo 3 ........................................................................... 74
Tabla 1 O Funciones de penetrancia del modelo 4 .......................................................................... 74
Tabla 11 Funciones de penetrancia del modelo 5 .......................................................................... 74
Tabla 12 Comparación de resultados GPNN y GPDTI.. ............................................................... 75
Tabla 13 Comparación de valores de consistencia ........................................................................ 77
Tabla 14 Valores de CVEC obtenidos con GPDTI ....................................................................... 78
Tabla 15 Funciones de penetrancia del modelo 6 ......................................................................... 81
Tabla 16 Comparación de MDR y GPDTI .................................................................................... 81
Tabla 17 Comparación entre distintos tipos de codificación ......................................................... 83
Tabla 18 Comparación de CVC en diferentes codificaciones ....................................................... 84
VI
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Czrrpus Ciudad de M éx im
Introducción
1.1 Generalidades
Desde hace más de 6000 años, cuando el hombre se volvió sedentario y empezó a domesticar
animales, se contaba ya con una idea de que los rasgos de animales se transmitían a través de las
generaciones, esto se ve demostrado en tallados en piedra en Caldea donde se muestran árboles
genealógicos en relación con algunas características de las crines de los caballos, sin embargo el
cómo y donde se transmitían estas características fue un misterio hasta los últimos dos siglos.
A finales del siglo XVIII geólogos como James Hutton, William Smith y Charles Lycll
empezaron a encontrar evidencia de que la Tierra era bastante más antigua que la estimación
popular de unos pocos miles de años, además de encontrar rocas con fósiles de animales extintos
y evidencia de que las especies cambian a lo largo del tiempo. Incluso el abuelo de Darwin,
Erasmo, escribió el libro Zoomania en 1794, en el cual se postulaba que una especie podía
convertirse en otra. En 1809 el biólogo francés J can Baptiste Lamarck presentó su tesis, que
mucho después se demostrara que era incorrecta; él decía que las características corporales
adquiridas como resultado del uso o desuso de diversas partes u órganos podrían transmitirse a la
descendencia, de esta manera la acumulación de estas modificaciones podría convertir una
especie en otra.
En 1859 Charles Robert Darwin publicó "Sobre el origen de las especies", en el que se
detallaban ciertos descubrimientos y teorías acerca de la "descendencia con modificación" de los
organismos vivientes. Su tesis era simple y estaba sustentada por veintisiete años de observación
y experimentación ésta afirmaba que los seres vivientes cambiaron de forma gradual a lo largo
del tiempo desde los organismos simples, resultando en la complejidad de formas que vemos
actualmente y de muchas otras que se han extinguido. Esto se podía dar gracias a los principios
en los cuales Darwin aseguraba que todos los organismos varían y estas variaciones son en
alguna medida heredadas. Como todos los organismos producen más descendientes que los que
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M & im
sobreviven hasta llegar a ser adultos, entre los sobrevivientes estarán aquellos que pueden haber
heredado variaciones que han facilitado su adaptación al entorno local. Esta selección natural
produce una población con características alteradas; esto puede dar lugar eventualmente, a la
aparición de una nueva especie (Lee, 1994). Darwin había descubierto una manera con la cual se
podía explicar la diversidad de especies en el planeta, diferente a la ideaque aún en nuestros días
prevalece, la evidencia no señalaba a un Ser Divino creador de todas las especies conocidas, el
trabajo de Darwin produjo, en palabras de John Green en su libro de 1959 sobre la evolución y su
impacto sobre el pensamiento occidental, "la muerte de Adán".
Ante la creciente evidencia a favor de las teorías de Darwin, sus oponentes
contraatacaron, el problema era que no se contaba con explicaciones satisfactorias disponibles de
la variabilidad de los organismos y de los medios por los cuales estas diferencias podían ser
transmitidas a la siguiente generación; en otras palabras, el estudio de la herencia. Darwin se vio
obligado a aceptar la explicación de Lamarck y se dedicó por el resto de sus días a tratar de
encontrar la manera en que esta variabilidad podía ser explicada; sus esfuerzos fueron
infructuosos ya que falleció en 1882 sin saber que una persona ya había descubierto los
mecanismos de la herencia de los seres vivos.
En 1865 un monje moravo de nombre Gregario Mendel presenta los resultados de siete
años de investigación con guisantes. Gracias a una minuciosa selección de grupos de éstos y
constantes pruebas de hibridación, este monje logró descubrir que ciertos rasgos de la planta se
transmitían de generación en generación en una razón constante. Además parecía que algunas
variantes de cada rasgo tenían prioridad sobre otras; por ejemplo el color amarillo de la semilla
contra el color verde, con base a sus observaciones concluyó que la única manera de explicar lo
ocurrido era si la herencia de caracteres era siempre determinada por factores discretos que
ocurren en los hijos en pares, uno heredado de cada padre y los cuales son separados de nuevo
cuando las células sexuales son creadas, produciendo dos tipos de gametos, con un factor de cada
par en cada uno. Esta hipótesis es conocida como la primera ley de Mendel, o el principio de
segregación. En estudios posteriores se dio cuenta que estas características podían heredarse de
forma independiente, por lo que concluyó que se encontraban distribuidas en diferentes partes.
2
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
Posteriormente estos "factores" fueron denominados genes. Lo que Mendel había descubierto era
el mecanismo con el cual se podía explicar la variabilidad tan buscado por Darwin. Sin duda
Mendel conocía, como la mayoría de los científicos de la época, los estudios de Darwin, sin
embargo las teorías de Mendel no fueron aceptadas hasta 35 años después cuando tres diferentes
investigadores las redescubrieron. No se sabe si Darwin llegó a conocer los resultados
presentados por Mendel, lo más probable es que no fue así.
Finalmente se había descubierto el mecanismo de evolución y herencia que controla a todos
los seres vivos, sin embargo, todos los estudios hasta la fecha se habían basado en rasgos visibles
a simple vista, ¿era posible que los genes tuvieran alguna otra labor? En 1901, Sir Archibald
Garrod describió una enfermedad humana llamada alcaptonuria en la cual las personas afectadas
secretan orina de color oscuro. Presentó evidencia de que esta enfermedad se segrega como un
trastorno recesivo y que se tiene mayor probabilidad de contraerla cuando los padres de afectados
son primos. La importancia de sus observaciones recae en que Garrod señaló que en la
alcaptonuria había un trastorno hereditario que comprendía un proceso químico. Éste fue el
comienzo de la genética bioquímica y de la idea de que los genes controlan la síntesis de
enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos bioquímicos
específicos. Este descubrimiento llevó a la medicina común a un nuevo nivel, por primera vez se
podía pensar en encontrar al causante de enfermedades hereditarias.
En la década de 1930 Thomas Hunt Morgan y Calvin Bridges hicieron experimentos con la
mosca de la fruta, pudieron realizar mapas de los cromosomas de este organismo indicando las
posiciones exactas de casi 100 genes diferentes midiendo la frecuencia de las recombinaciones.
El mismo método puede ser aplicado para encontrar genes causantes de enfermedades humanas,
sin embargo esto resulta más complejo, ya que con las moscas de la fruta se puede seleccionar los
individuos interesantes, cruzarlos y ver los resultados. Por razones obvias esto no puede ser
replicado en los humanos, por lo cual la única manera de realizar estudios de ligamiento en
humanos es a través de familias informativas. Es por esto que en el hombre ha sido necesario
depender de la información que los genetistas obtienen al estudiar la segregación de los llamados
genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son
3
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gimpus Ciudad de M éx: im
aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que
aparezcan en la familia en estudio. Éstos incluyen grupos sanguíneos, ciertas proteínas séricas,
daltonismo, etc.
Uno de los descubrimiento de mayor impacto en la genética molecular fue el de Kan et al.
(1978) donde se describe el primer lugar (loci) de longitud variable (polimorfismo) dentro de la
molécula de ADN. Estos polimorfismos se obtienen por medio del corte de la molécula de ADN
utilizando otras moléculas especializadas para esta labor llamadas enzimas de restricción,
generando de esta manera fragmentos de tamaño variable (RFPL por sus siglas en inglés). Estos
fragmentos son heredados mendelianamente y se convirtieron en uno de los más importantes
instrumentos en el mapeo de los genes (Botsein, 1980). Para el año de 1981 se conocían 23 loci
que contenían polimorfismos de ADN. Para 1989 ya eran 2,000 y en 1994 la base de información
se duplicó para llegar cerca de 4,000 de estos marcadores distribuidos por todo el genoma
(Nicolini et al., 1995).
En 1989 después de años de búsqueda, Francis S. Collins y Lap-Chee Tsui lograron aislar el
gen causante de la fibrosis cística en el cromosoma 7 con un tamaño de 250,000 pares de bases
mediante el análisis de ligamiento génico. El 70% de las veces la enfermedad es causada por la
falta de tres bases nitrogenadas, las cuales normalmente codifican la inserción de fenilalanina de
un polipéptido. El 30% restante tenía alguna forma de mutación diferente. El 20 de septiembre de
1990 dos grupos de investigadores usando virus como vectores, habían introducido genes
normales en las células pulmonares con fibrosis cística, las células antes enfermas empezaron a
producir las proteínas que carecen los pacientes de este padecimiento. En un futuro se podría usar
esta técnica directamente en los humanos, cuando se tenga la certeza de que el virus no hará
mayor daño (Lee, 1994 ).
Si bien la técnica de análisis de ligamiento génico ha tenido éxito en enfermedades de un
sólo gen como la fibrosis cística, en las enfermedades multifactoriales se han encontrado
resultados contradictorios. En el caso de la esquizofrenia, se reportó una alteración en el
cromosoma 5, además de evidencia significativa de enlace génico pero hasta el momento no ha
4
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de México
sido posible reproducir dichos hallazgos. Se han clonado varios genes cuyos productos son de
especial relevancia para el funcionamiento del sistema nervioso central, para algunos de ellos
existe evidencia que sugiere que su mal funcionamiento puede contribuir al desarrollo de la
esquizofrenia y por esta razón son genes candidatos para el mapeo de la enfermedad (Nicolini,
1995). El receptor 2 fue el primero en ser clonado y es el que mejor se ha estudiado en esta
enfermedad. Diversos grupos de investigación no han demostrado una asociación entre este
trastorno con los genes O 1, 02, 04, 05, MAO A y B, y la enzima COMT; quizá los únicos datos
positivosque han podido ser reproducidos por algunos grupos, pero no por todos, sean aquellos
que indican la existencia de una asociación entre uno de los alelos del gen DRD3 con este
trastorno psicótico. En otros estudios se encontró asociación entre la esquizofrenia y el alelo 2 del
gen receptor 5HT2a para serotonina, sin embargo otros grupos de investigación no han
reproducido dicha asociación en muestras más pequeñas (Nicolini y Cruz, 1998).
En 1996 Neil Risch y Kathleen Merikangas publican un artículo en la revista Science
(Risch et al., 1996) donde se demuestra que los estudios de ligamiento tienen menor poder de
detectar genes asociados con una enfermedad comparado con los relativos nuevos métodos de
asociación basados en familias. En el mismo año un grupo de investigadores publican en la
revista Nature Genetics un estudio donde se demuestra que tanto los estudios de ligamiento
génico como los de asociación pueden ser inútiles en la búsqueda de los genes causantes de
enfermedades multigénicas debido a las limitantes estadísticas y computacionales (Frankel,
1996). Es entonces cuando se empiezan a utilizar técnicas de minería de datos para tratar de
resolver el problema (Ritchie et al., 2001; Ritchie et al., 2003; Pociot et al, 2004).
Una de las técnicas que ha ido ganando auge en la genómica computacional son los
algoritmos evolutivos donde al principio se hace una búsqueda al azar dentro del espacio de
búsqueda y conforme van progresando el resultado va mejorando, este modelo computacional es
similar al proceso que ocurre en la naturaleza llamado Selección natural donde los individuos van
evolucionando conforme su aptitud para resolver ciertos problemas. La programación genética es
un algoritmo evolutivo donde el resultado final es un programa computacional capaz de resolver
un problema dado, ésta característica nos permite realizar una minería de datos inteligente donde
5
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gzmpus Ciudad de M ~ im
en cada generación se van seleccionando los marcadores y sus combinaciones que meJor
expliquen a la enfermedad multifactorial, la manera en que los marcadores son organizados es un
árbol de decisión en el cual los nodos están ordenados de manera jerárquica y mientras se va
recorriendo el árbol se van tomando decisiones sobre los atributos y valores de la base de datos
hasta llegar a un nodo final el cual clasifica a la muestra. (Quinlan, 1986).
1.2 Problema planteado
Una enfermedad común compleja es aquella que tiene un componente genético, sin embargo, no
sigue el modelo de herencia simple propuesto por Mendel. La causa de estas enfermedades
puede deberse a la interacción de dos o más genes, o a la interacción entre genes y factores
ambientales. El ténnino "común" se debe a que estas enfermedades se presentan con una
frecuencia mucho mayor a aquellas enfermedades que siguen un modelo de herencia mendeliano.
Las tecnologías como los microarreglos de ADN (Schena et al. 1995) permiten analizar
miles de variaciones en las secuencias de ADN. Estas grandes cantidades de información han
creado desafíos estadísticos y computacionales, uno de ellos es el problema de la selección de
variables. Este problema proviene de la creciente aceptación de que las interacciones entre
múltiples factores genéticos y ambientales, tienden a ser más importante que cualquier otro factor
para predecir el riesgo de una enfermedad multifactorial.
Dado que las interacciones juegan un papel importante en la etiología de una enfermedad,
es necesario considerar las combinaciones de variaciones genéticas en nuestro análisis. El
problema surge cuando el número de variables es grande, ya que existe infinito de combinaciones
que pueden ser evaluadas. Por ejemplo, si se consideran 10,000 variables, tendremos
aproximadamente 5 x 107 posibles combinaciones de dos variables, 1.7 x 10 11 de tres variables y
4.2 x 10 14 de cuatro variables. Podernos ver claramente que la magnitud de las combinaciones
6
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Czrnpus Ciudad de M tX im
para seleccionar las variables lleva a una búsqueda exhaustiva de todos los posibles conjuntos de
variables, lo cual es computacionalmente intratable. (Moore 2003)
1.3 Objetivo
Desarrollar un método que pueda realizar combinaciones gen - gen para encontrar el modelo de
epistasis que mejor describa el fenotipo de una enfermedad común compleja.
1.4 Justificación
Los métodos estadísticos actuales no contemplan la posibilidad de que una enfermedad común
compleja pueda darse en un modelo puramente epistatico. En tales condiciones los resultados de
dichos métodos no encuentran asociación entre cada marcador en el modelo y el fenotipo
(Frankel et al., 1996). Para poder medir el efecto real es necesario utilizar el efecto combinado de
todos los marcadores relacionados en el modelo a tratar. Dicha combinación puede llegar a ser
estadística y computacionalmente intratable dependiendo de la cantidad de marcadores que se
desean utilizar en la prueba.
1.5 Hipótesis
La hipótesis que se trata de demostrar en la presente investigación es que en una enfermedad
multifactorial podría ser prácticamente imposible encontrar los genes causantes de ella mediante
el uso de técnicas estadísticas comunes cuando el modelo subyacente es puramente epistático.
Por otro lado, lo modelos computacionales basados en búsqueda exhaustiva del espacio de
búsqueda se enfrentan al problema de aumento de complejidad conforme se utilizan más
marcadores. Pensamos que el uso de programación genética en este problema es apropiado ya
que conforme avanza el proceso el espacio de búsqueda se va acotando y el resultado va
mejorando conforme avanza el proceso evolutivo. En el criterio de término obtenemos como
7
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
resultado un programa computacional en forma de un árbol de decisión que pueden interpretarse
como reglas que modelan de manera adecuada la interacción entre marcadores cuyo efecto sea el
fenotipo en cuestión.
1.6 Contribuciones esperadas
El uso de programación genética para resolver este problema solamente ha sido abordado por
Ritchie (2003) para optimizar una red neuronal artificial, sin embargo el método requiere de gran
poder de cómputo y no se tiene una manera fácil de interpretar los resultados. Nosotros
esperamos obtener resultados con errores de predicción y con niveles de consistencia mejores a
los presentados en el estado del arte, aparte de brindar una manera más fácil de interpretar los
resultados.
La mayor parte de los estudios en enfermedades complejas como esquizofrenia se han
enfocado en colectar familias grandes, pares de hennanos afectados (los dos afectados), tríos y
sujetos de pruebas tipo caso - control. Desde el punto de vista clínico, sería mucho más sencillo
recolectar datos de pares de hermanos discordantes (DSP por sus siglas en inglés) donde un
hermano tiene la enfermedad y el otro no. El uso de DSP en lugar de casos - controles previene
posibles asociaciones con la enfermedad en ausencia de ligamiento causados por subdivisión y
adición de población (Spielman, 1993).
Un nuevo modelo de validación de consistencia es presentado "Consistencia extendida de
la validación cruzada", el cual nos permite medir la capacidad del método para encontrar la
interacción entre los genes tomando en cuenta que la prob,ramación genética al ser un modelo
estocástico puede llegar a diferentes resultados posibles.
8
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
Para poder realizar los análisis de poder del método, se desarrolló un simulador de pares de
hermanos discordantes, el sistema genera los genotipos de los hermanos de acuerdo al modelo de
epistasis seleccionado.
En los resultados obtenidos podemos verque mediante el uso de los mismos parámetros de
número de marcadores, cantidad de alelos por marcador, modelo de epistasis y tamaño de
muestra, nuestro método obtiene mejores resultados que otras técnicas como la evolución de
redes neuronales. Los resultados tienen muy poca diferencia en error de predicción comparado
con una búsqueda exhaustiva.
l. 7 Organización del documento
En el capítulo 1.1 se presenta una breve introducción en la historia de la genética. En el capítulo
2.1 se profundiza en el estudio de la genética humana así como las distintas técnicas estadísticas
que se han abordado para solucionar el problema de encontrar los genes causantes de
enfermedades comunes. La lectura de estos dos capítulos puede resultar innecesaria para el lector
con conocimientos en genética humana.
En el capítulo 2.4 se hace un resumen de las técnicas computacionales utilizadas lo cual no
es necesario para un lector con experiencia en programación evolutiva. En el capítulo 2.3 se hace
un análisis crítico del estado del arte de la aplicación de técnicas computacionales a la resolución
del problema planteado.
El capítulo 4 explica a detalle el modelo propuesto desde un punto de vista tanto biológico
como computacionalmente. En el capítulo 5 exponemos los resultados obtenidos a través de los
experimentos utilizando gráficas y tablas comparativas. Finalmente, en el capítulo 6 damos
nuestras conclusiones y el trabajo a futuro, aquí podemos observar también las contribuciones,
limitaciones y extensiones.
9
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gimpus Ciudad de México
2 Marco teórico
2.1 Genética
Desde hace más de 6000 años se pueden encontrar ideas sobre la herencia sobre tallados en
piedra en Caldea, ahí se muestran árboles genealógicos en relación con algunas características de
las crines de los caballos. Hace 1500 años, el Talmud menciona la heredabilidad de la hemofilia,
un trastorno de la sangre donde la persona tiene bajo nivel de coagulación. Aristóteles, quien
vivió 300 años antes de Cristo, creó la idea de que el semen del varón se originaba de la sangre y
tenía la capacidad de infundir vida al embrión en la mujer, esta idea fue aceptada por casi 2000
años. No fue hasta la segunda mitad del siglo XVII cuando Regnier de Graaf fue el primero en
reconocer que la unión del óvulo y el espermatozoide es la base de la concepción; por primera
vez se expuso la idea de que el espermatozoide no era el único agente hereditario, esta idea tardo
varios años para ser aceptada (Emery 1978).
Pero no es hasta 1857 cuando Gregorio Mendcl empieza sus experimentos en hibridación
de plantas, investigación que se prolongará por siete años y lo llevará a descubrir las leyes básicas
de la herencia que hoy llevan su nombre y es gracias a estos estudios que Mendel se gana el título
de padre de la genética.
Si bien otros investigadores ya habían usado guisantes para realizar estudios acerca de
herencia, la gran contribución de Mendel fue demostrar que los caracteres heredados son
unidades discretas; los cuales pueden ser empaquetados en diferentes maneras o reordenados en
cada generación, estas unidades discretas eventualmente serán llamadas genes.
Para lograr estos descubrimientos, Mendel tomó 32 diferentes tipos de guisantes, escogió
siete características que aparecían diferentes en los distintos tipos de plantas; una por ejemplo
siempre producía guisantes amarillos, mientras otra siempre producía verdes. En una variedad la
10
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
semilla parecía rugosa, mientras que en otras ésta era lisa. Estas características están listadas en
la Tabla 1.
2da Generación
Rasgo Dominante Recesivo Dominante Reccsivo Total
Forma de semilla Liso Rugoso 5,474 1,850 7,324
Color de semilla Amarillo Verde 6,022 2,001 8,023
Posición de flor Axial Terminal 651 207 858 1
-~
Color de flor Rojo Blanco 705 224 929
1
Forma de vaina Inflada Estrecha 882 299 1, 181 1
1
Color de vaina Verde Amarilla 428 152 580
Tamaño de tallo Alto Enano 787 277 1,064
Tabla 1 Experimentos en guisantes de Mendcl
Entonces Mendel hizo cruzas entre los diferentes tipos de guisantes; por ejemplo, usó
polen de una flor blanca para fertilizar una flor roja. Una vez realizado estos experimentos, se dio
cuenta que en la primera generación (F 1) de estas cruzas, uno de los rasgos desaparecía
completamente; por ejemplo, toda la progenie de la cruza de plantas de semilla amarilla con las
de semilla verde eran de semilla amarilla como sus padres. A estos rasgos que permanecían les
llamó dominantes, mientras que los que desaparecían en la primera generación los llamó
reces1vos.
¿Qué había pasado con los rasgos recesivos como el color verde de la semilla? El brillante
científico permitió que los individuos de la generación Fl se polinizaran entre ellos mismos: el
resultado fue asombroso, los rasgos recesivos reaparecían en la segunda generación (F2), en la
Tabla 1 se encuentran los resultados de sus experimentos. Estos números fueron la base de la
primera ley de Mendel.
1 1
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
Con estos datos, Mendel se dio cuenta de que la relación de apanc1on en la segunda
generación de los rasgos dominantes y recesivos es de 3 a 1. ¿Cómo era posible que un rasgo
recesivo desapareciera en la primera generación y después se presentara en la segunda con una
proporción tan constante? Concluyó que la única manera de explicar esto era si la herencia de
caracteres era siempre determinada por factores discretos que ocurren en los hijos en pares, uno
heredado de cada padre, y los cuales son separados de nuevo cuando las células sexuales son
creadas, produciendo dos tipos de gametos, con un factor de cada par en cada uno. Esta hipótesis
es conocida como la primera ley de Mendel, o el principio de segregación. Los dos factores
pueden ser los mismos, o bien pueden ser diferentes, en cuyo caso son llamados alelos. Por
ejemplo, el color amarillo o verde de las semillas son determinados por alelos, diferentes formas
de un gen (factor) para el color de semilla. Cuando los genes de un par de genes son iguales, el
organismo se dice ser homocigoto para ese rasgo en particular; en cambio, cuando los genes de
un par de genes son diferentes, el organismo es heterocigoto para el rasgo.
Cuando los gametos son formados, los genes son pasados a ellos; pero cada gameto sólo
contiene uno de los dos posibles alelos heredados del padre y madre. Cuando dos gametos se
combinan en el huevo fertilizado, los genes se presentan de nuevo en forma de pares, un alelo
puede ser dominante sobre otro; en este caso, el organismo tendrá la apariencia como si sólo
tuviera este gen dominante. Esta apariencia es conocida como fenotipo; sin embargo, en el marco
genético o genotipo, cada alelo existe independientemente y como una unidad discreta aún
cuando ésta no sea visible en el fenotipo y el alelo recesivo se separará de su contraparte
dominante cuando los gametos sean formados de nuevo. Sólo si dos alelos recesivos están juntos,
entonces el fenotipo mostrará el rasgo recesivo.
En una segunda serie de experimentos, Mendel hizo cruzas entre plantas de !:,'llisantes que
diferían en dos características simultáneamente; por ejemplo, un padre tenía semillas lisas y
amarillas y la madre tenía semillas rugosas y verdes; como se puede ver en la Tabla 1 los rasgos
lisos y amarillos son dominantes, mientras que los rugosos y verdes son recesivos. Como era
esperado, en la primera generación todas las plantas eran lisas y amarillas, pero cuando se dejó
polinizar los individuos de esta generación se obtuvieron los siguientes de resultados: de 556
12
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gzmpus Ciudad de México
semillas en total,315 tuvieron los dos rasgos dominantes, semillas lisas y amarillas, pero sólo 32
tuvieron los rasgos recesivos, rugosas y verdes. Las demás semillas fueron 1 O 1 rugosas y
amarillas y 108 fueron lisas y verdes. Nuevas combinaciones de rasgos habían aparecido.
Aún en estos experimentos se conservan la proporción 3: 1 de rasgos dominantes contra
recesivos pero los rasgos lisos - amarillos y rugosos - verdes, que originalmente estaban
combinados en una planta, se comportaron corno si fueran enteramente independientes uno de
otro. De aquí que surge la segunda ley de Mendel, el principio de diversidad independiente. La
proporción observada en estos experimentos es de 9:3 :3: 1 donde 9 representa la proporción de
progenie que mostrara dos rasgos dominantes, 1 los que mostrarán dos rasgos recesivos, y 3 los
que mostrarán la combinación de un rasgo dominante y uno recesivo. La Figura 1 muestra estos
resultados.
F1 Qx Q
AaBb AaBb
AB Ab aB ab
AB o o o o
AABB AABb AaBB AaBb
Ab o @ o ®
AABb AAbb AaBb Aabb 2
aB o o
AaBB AaBb aaBB aaBb
ab o ©
AaBb Aabb aaBb aabb
~ o @
9/16AB 3/16Ab 3/16aB 1/16 ab
Figura 1 Resultados de la segunda serie de experimentos de Mendel
13
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
C:zmpus Ciudad de M éx im
A= Alelo para el fenotipo de semilla amarilla
a = Alelo para el fenotipo de semilla verde
B= Alelo para el fenotipo de semilla lisa
b= Alelo para el fenotipo de semilla rugosa
Sus experimentos fueron reportados en 1865 y publicados; sin embargo su trabajo fue
ignorado por 35 años y no recibió reconocimiento científico hasta después de su muerte. En el
año de 1900 las leyes de Mendel fueron redescubiertas por tres biólogos de manera
independiente: Hugo de Vries, Carl Correns y Erich van Tschemark-Seysenegg. Los tres llegaron
a las mismas conclusiones que Mendel quien falleció 16 años antes de que su trabajo fuera
reconocido como uno de los descubrimientos científicos más importantes de todas las épocas
(Curtís, 1972; Emery, 1978).
Hasta estas fechas, la genética se había ocupado en herencia de anormalidades estructurales
patentes. En 1901, Sir Archibald Garrad en un artículo que leyó ante la Sociedad Real de
Medicina y Cirugía en Londres, describió una enfermedad humana llamada alcaptonuria en la
cual las personas afectadas secretan orina de color oscuro; presentó evidencia de que esta
enfermedad se segrega como un trastorno recesivo y que se tiene mayor probabilidad de
contraerla cuando los padres de afectados son primos. La importancia de sus observaciones recae
en que Garrad señaló que en la alcaptonuria había un trastorno hereditario que comprendía un
proceso químico. Este fue el comienzo de la genética bioquímica y de la idea de que los genes
controlan la síntesis de enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos
bioquímicos específicos.
En 1902 Walter Sutton estaba observando el proceso de meiosis (proceso importante que
detallaremos adelante) en la producción de células de esperma y se sorprendió al ver la similitud
de lo que estaba observando y las leyes de Mendel, los cromosomas venían en pares, así como los
factores Mendelianos (genes). Los pares de cromosomas (homólogos) se separan cuando los
gametos son formados; así también los genes. Y los genes y los cromosomas se juntan de nuevo
14
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
G:mpus Ciudad de M 6; im
en pares en la descendencia. Con esto Sutton propuso que los factores observados por Mendcl se
encontraban en los cromosomas.
Existen dos procesos de división nucleares básicos: la mitosis y la meiosis. En la mitosis
una célula se divide en dos copias exactamente iguales, este proceso sucede en todos los seres
vivos; en el caso del hombre por ejemplo, la célula de la piel se divide en promedio una vez cada
tres o cuatro días, lo cual significa que durante la vida de una persona se dividen unas 10,000
veces. En este proceso el número de cromosomas por cada nueva célula no cambia.
La meiosis es el proceso de división nuclear donde se forman las células sexuales, es decir,
los gametos. Durante este proceso el número de cromosomas disminuye a la mitad y cada gameto
recibe uno de los cromosomas análogos del par, pero rara vez ambos ( cuando esto sucede
generalmente resulta en una enfermedad causada por una anormalidad de tipo cromosómica y no
genética como a nosotros nos atañe). Durante la primera fase de la meiosis, los cromosomas
homólogos entran en íntima cercanía e intercambian partes entre las cromátides de los mismos. A
este proceso se le conoce como recombinación.
Los cromosomas homólogos tienen aspecto semejante y en posiciones idénticas en cada
cromosoma se encuentran genes de los que depende la misma característica; sin embargo, estos
genes, a pesar de determinar la misma característica, pueden no ser idénticos, a esto se le llaman
variaciones alélicas o alelos.
Como resultado, el entrecruzamiento durante la meiosis hay intercambio de material entre
cromosomas homólogos, lo cual origina recombinaciones de genes, esto es; si dos genes
estuvieron originalmente en un mismo cromosoma de un par, el entrecruzamiento daría por
resultado su separación, o bien puede suceder al revés, si dos genes estaban separados, después
del entrecrnzamiento pueden quedar en el mismo cromosoma. Cuando dos genes diferentes están
situados en el mismo par cromosómico, se dice que están asociados. Como el entrecruzamiento
es un evento donde el punto de cruce es escogido al azar, existe mayor posibilidad de que ocurra
un entrecruzamiento entre dos genes que se encuentran muy separados, mientras que, si se
15
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
encuentran relativamente cerca, existe una mayor posibilidad de que no sean separados. Este
principio ha sido usado para medir la distancia que existe entre dos genes, se mide la frecuencia
de recombinación y esto da una idea de la separación entre ambos. En la década de 1930 Thomas
Hunt Margan y Calvin Bridges hicieron experimentos con la mosca de la fruta, midiendo la
frecuencia de recombinaciones pudieron realizar mapas de los cromosomas de este organismo
indicando las posiciones exactas de casi 100 genes diferentes. Realizar estos estudios en el
hombre es más complejo ya que se depende de matrimonios informativos ocurridos por azar.
2.2 Genética Humana
2.2.1 Herencia familiar
Como explicamos anteriormente, el estudio de asociación en humanos es más complejo que el de
otras especies, ya que el investigador depende de encontrar familias informativas ocurridas al
azar; mientras que en animales y plantas el investigador tiene la oportunidad de generar las
combinaciones que se requieran. Sin embargo, son muy raras las enfermedades que se heredan
por mecanismos sencillos. Las enfermedades familiares comunes por lo regular no siguen una
pauta sencilla en sus mecanismos de herencia, es por esto que en el humano ha sido necesario
depender de la información que los genetistas obtienen al estudiar la segregación de los llamados
genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son
aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que
aparezcan en la familia en estudio. Estos incluyen grupos sanguíneos, ciertas proteínas séricas,
daltonismo, etc. Otras técnicas han sido descritas y se pueden ver a más detalle en Emery ( 1978
Pág. 48-51.)
2.2.1.1 Herencia dominante autosómica
En los rasgos dominantes autosómicos cada persona afectada por lo regular tiene también un
progenitor afectado, esto ocurre generalmente en la mitad de los casos si la persona afectada se
une con una persona normal. Sin embargo, una enfermedad puede también aparecer
16
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.C:impus Ciudad de M éx im
repentinamente en una generación, sin que se tengan registros de otros miembros de generaciones
anteriores, esto puede pasar porque alguno de los antecedentes tenía la enfermedad mas no fue
detectada, o bien puede ser que la persona afectada sea equivalente a una mutación repentina.
2.2.1.2 Herencia recesiva autosómica
Los rasgos recesivos autosómicos atacan de igual manera a ambos sexos, pero en este caso los
rasgos sólo se manifiestan cuando el gen aparece en doble dosis, es decir, en personas
homocigotos para ese gen mutante particular. En promedio 25 por 100 de los hijos de dos
personas que tengan una sola copia del gen mutante mostrarán el ataque de la enfermedad. Todas
estas cifras concuerdan con los resultados obtenidos por Mendel.
2.2.1.3 Herencia intermedia y herencia ligada al sexo
En un rasgo dominante incompleto una persona heterocigota generalmente no expresa el rasgo a
menos que se presenten situaciones ambientales que sumados con el gen mutante, causen la
aparición de la caracteristica.
La herencia ligada al sexo denota las características del pedigri de genes que están en uno u
otro de los cromosomas sexuales. Los genes que se encuentran en el cromosoma X se conocen
como genes ligados al X, y los que están en el cromosoma Y, como ligados al cromosoma Y. Un
rasgo recesivo ligado al X, es aquel que depende de un gen que está en el cromosoma X y que se
manifiesta en la mujer sólo cuando existe una doble dosis de dicho gen. En el varón, un gen
mutante en el cromosoma X siempre se manifiesta por que no hay un gen normal que antogonice
los efectos del gen mutante como es el caso de la mujer heterocigota. Las mujeres heterocigotas
por lo regular no son afectadas, estas enfermedades son transmitidas por los varones atacados y
por las mujeres sanas portadoras. El ejemplo mejor conocido es la hemofilia, en épocas pasadas,
los hemofilicos solían morir en la niñez como resultado de traumatismos simples. En el caso de
un varón afectado que tenga hijos con una mujer sana, todas sus hijas serán portadoras, ya que el
17
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx= im
hombre sólo puede heredar el cromosoma X con el gen mutante, sin embargo, todos sus hijos
serán normales, ya que el padre es el único que puede donar el cromosoma Y a sus hijos varones.
Un rasgo ligado al X nunca se transmite del padre al hijo. Si una mujer portadora se casa con un
varón normal, entonces las cosas cambian, la mitad de sus hijas serán portadoras, y la mitad de
sus hijos estarán afectados por la enfermedad. Este mecanismo de herencia donde los varones son
los únicos afectados por una enfermedad transmitida por mujeres (llamada ley de Nasse) fue
apreciada por los judíos hace unos 2000 años. Eximían de la circuncisión a los varones de las
hijas de una madre que había tenido un hijo con la "enfermedad hemorrágica". Los hijos de los
hermanos del padre no eran eximidos de la circuncisión. La reina Victoria fue portadora de
hemofilia y sus hijas también lo fueron, y gracias a ellas introdujeron la enfermedad en las
familias real rusa y española. Por suerte el hijo de la reina Victoria, Eduardo VII no heredó el gen
y no lo transmitió a sus descendientes Figura 2.
e Carrler Fén~ie e
· · Scaws lJncertaín
• Hemophlik M:lle •
Figura 2 Transmisión de hemofilia en generaciones de la familia real europea
18
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Carrpus Ciudad de M 6: im
2.2.1.4 Herencia multifactorial
En las enfermedades descritas hemos supuesto que cada una es resultado de la acción de un solo
gen (unifactorial). Sin embargo, hay trastornos bastante comunes en los cuales se aprecia una
tendencia familiar neta, y la proporción de parientes afectados es mayor de lo que se observa en
la población general, pero dicha proporción suele estar en el orden de 5 por 100 y por esta causa,
es mucho menor de la que cabría esperar para un rasgo unifactorial. Esto podría ser causado por
una penetrancia incompleta, es decir, que el gen mutante no se expresa gracias a factores
ambientales o de otros genes. Sin embargo, es más probable que estos trastornos sean causados
por muchos genes (mecanismo poligénico) sumado a los efectos del ambiente, a esto se le llama
herencia mult~factorial. Algunos rasgos normales heredados por este mecanismo son la
inteligencia, estatura, color de la piel, entre otros. Algunos ejemplos de rasgos anormales son
hipertensión, diabetes sacarina, artritis reumatoide, úlcera péptica entre muchas otras. Se piensa
que cada característica es el resultado de la acción de muchos genes, cada uno de los cuales tiene
un efecto pequeño pero aditivo, a lo que se sumarían los efectos del ambiente.
2.2.1.5 Heredabilidad
Es posible estimar el grado en que la etiología o la causa de un trastorno puede atribuirse a
factores genéticos y no a factores ambientales. Esta es la llamada heredabilidad, que puede
definirse como la proporción de la variación total de una característica que puede atribuirse a
factores genéticos. Se expresa en forma porcentual y se le abrevia a menudo con el símbolo "h2".
Entre más grande es la heredabilidad, mayor es la contribución de factores genéticos en la
etiología de la enfermedad o rasgo. Por ejemplo, los surcos en los dedos que crean las huellas
digitales, tienen una heredabilidad de 99 por 100, gemelos idénticos no tienen exactamente la
misma huella digital, y esto puede ser explicado por que en el momento de la creación del feto
hay influencia del medio. La esquizofrenia por su parte tiene una heredabilidad del 80 por 1 OO.
La ulcera péptica tiene heredabilidad de solo 37 por 1 OO.
19
2.2.1.6 Epistasis
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M 6: im
Bateson definió epistasis como una forma de interacción genética donde un gen interfiere con la
influencia fenotípica de otro gen no alélico tal que el fenotipo está determinado por el primero y
no el segundo, aún cuando ambos genes se presentan al mismo tiempo en un individuo (Bateson,
1907). Esta definición no es controversia!, lo que dice es que una mutación de un gen va a ser tan
fuerte que se va a imponer ante otros genes cuya contribución sea menor. Existe una definición
más amplia aceptada por estadistas en genética, la cual dice que la epistasis ocurre cuando el
efecto combinado de dos o más genes en un fenotipo no puede ser predicho por la suma de sus
efectos por separado. Bajo esta definición, tenemos por ejemplo que si se tienen alelos asociados
con la obesidad en el loci A y B, y cada uno de ellos provocan un aumento de peso de 1 gramo
cuando son heredados por separado y de 2 gramos cuando se heredan los dos junto, este efecto se
describiría como aditivo o no epistático. Sin embargo, si la presencia simultánea de los dos alelos
inducen un incremento de 1 O gramos o una gran pérdida de peso estos se describirían como
epistáticos (Frankel et al., 1996).
El principio biológico detrás de la epistasis es claro: los fenotipos a menudo se presentan
como el resultado no predecible de sus determinantes. Aún así, la mayoría de los esfuerzos por
mapear loci no han tomado en cuenta la posibilidad de efectos epistáticos. La razón de esto radica
en que los paradigmas actuales de mapeo genético tienen poco poder para detectar este tipo de
interacciones, y esto se debe a que desde un principio se busca a el o los loci cuyo efecto
principal tenga un valor estadístico significativo. Además, las estrategias de modelado estadístico
y las herramientas actuales de análisis de datos sólo toman en cuenta los efectos de un solo loci a
la vez. Ejemplos de estos paquetes son: LINKAGE, SAGE, MENDEL, MAPMAKER/SIBS,
APM y el muy famoso y ampliamente utilizado en la fecha de esta investigación
GENEHUNTER. No es de sorprender entonces que diversos estudiosen enfermedades comunes
complejas tengan resultados contradictorios, ya que al ignorar los efectos de la epistasis entre
genes, uno podría suponer que en distintas poblaciones se puedan obtener resultados incluso
contradictorios.
20
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
C:zmpus Ciudad de M éx im
El problema de encontrar interacción entre genes, es decir, su epistasis, sale de las
posibilidades de un tratamiento netamente estadístico, y esto se debe las razones expuestas por
Frankel et al (1996).: Para empezar existe el problema del tamaño de la muestra y el poder
estadístico. Si consideramos un experimento con ratones con 100 individuos, y una epistasis
definida por dos locus bialélicos, la frecuencia con la que el fenotipo será observado, si se tiene
una penetrancia del 100 por 100, será de Y2 x Y2 = ~ , es decir en sólo 25 por 100 de la progenie.
Esto únicamente ocurriría si el fenotipo fuese completamente determinado por la interacción de
los genes. En la práctica esto no es así, los rasgos complejos son generalmente influenciados por
factores no genéticos, si a esto aunamos que no necesariamente sea la interacción de dos sino de
tres, cuatro o más genes, y tomamos en cuenta que en promedio la adición de un gen más al
modelo epistático divide a la mitad la cantidad de individuos que contarán con el fenotipo, la
población inicial de 100 ya no resulta lo suficiente robusta para encontrar un valor
estadísticamente significativo.
Ahora bien, los genes pueden interactuar en una variedad de formas, para poder detectar un
efecto epistático uno tendria que modelar cada una de las posibilidades, o bien hacer ciertas
suposiciones, lo cual vuelve aún más complejo el problema ya que se requiere hacer múltiples
pruebas, lo cual podria llevar a cientos, miles o incluso millones de posibles combinaciones de
genes. Estas pruebas podrian llevar a obtener falsos positivos. Una vez descubierto un posible
efecto epistático, la siguiente etapa es verificar si esta interacción tiene sentido biológico.
2.2.1.7 Ligamiento y desequilibrio de ligamiento
Debido a la recombinación cromosómica, existe una tendencia mayor de heredar al mismo
tiempo los loci que se encuentren juntos en el mismo cromosoma, esto es causado ya que entre
más cerca estén, menor será la probabilidad de recombinación. Este principio es utilizado por los
estudios de ligamiento o enlace génico.
21
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de México
Cuando los alelos en dos loci se encuentran en una combinación (haploti po) más
frecuente de lo que se esperaria por las frecuencias alélicas se dice que hay un desequilibrio de
ligamiento. Esto sugiere que los loci se encuentran muy cerca uno de otro en el mismo
cromosoma, tan cerca que es muy dificil observar un evento de recombinación. Esta caracteristica
es la utilizada en los estudios de asociación.
2.2.2 Enfermedades comunes complejas
2.2.2.1 Esquizofrenia
La esquizofrenia es una enfermedad psicótica que suele empezar en los comienzos de la vida
adulta y se caracteriza por cambios de la personalidad y emocionales en relación con un
alejamiento de la realidad, acompañada de alucinaciones y delirio. Es la causa principal de
enfermedades mental crónica y afecta a 1 por 100 de la población. A través de estudio en
gemelos se ha podido calcular que esta enfermedad tiene un grado de heredabilidad de 80 por
100, lo cual es bastante alto. Sin embargo, no se conoce a fondo la naturaleza y la extensión de
los factores genéticos así como su contribución, en parte por confusión en definiciones en
particular del término esquizoide. En general, se dice que el término esquizoide denota a la
persona con síntomas fundamentales de esquizofrenia pero en forma más benigna. Se ha
estimado que, en promedio, 4 por 100 de la población general tiene esquizofrenia o un problema
esquizoide.
Si se consideran los dos trastornos juntos, prácticamente 90 por 100 de los gemelos
idénticos tienen el trastorno, al igual que la mitad de sus parientes de primer grado. Seria sencillo
pensar que esta enfermedad se hereda en forma de un rasgo dominante autosómico con una
penetrancia casi completa. Sin embargo, las proporciones de parientes más lejanos afectados no
concuerdan con la hipótesis dominante. También la alta frecuencia de la enfermedad en la
población general debiera significar que si el problema depende de un solo gen, entonces el
índice de mutación debiera ser extraordinariamente alto, o que existiera alguna ventaja para el
22
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Oirnpus Ciudad de M éx ÚXJ
heterocigoto que si no la hubiera, este trastorno nocivo hubiera sido eliminado desde hace mucho
por selección natural. Se ha demostrado que los esquizofrénicos tienen una resistencia mayor de
la normal al choque traumático quirúrgico, alergias, en términos generales, y a diversas
substancias farmacológicamente activas. También se ha sugerido que la resistencia a epidemias
como viruela y peste pudo haber sido un factor contribuyente a la frecuencia actual, pero esto es
mera especulación. (Emery, 1978).
¿Es posible que existan otras causas por las que esta enfermedad tiene una frecuencia tan
alta en la población global? ¿Si llegáramos a identificar los genes causantes de la esquizofrenia,
sería bueno eliminarlos del acervo genético humano? Hace 150,000 años un animal desarrollo
una capacidad no vista en ninguna otra especie del planeta, la capacidad de imaginar, de ver más
allá de la caja negra en la que vivían, de crear mundos más allá de lo que el ojo podía ver, ellos
fueron los primeros (Horno sapiens), a partir de entonces se aceleró el proceso evolutivo hasta
llegar al grado tecnológico con el que contamos ahora. ¿ Y quien ha hecho posible que hoy
contemos con electricidad, televisión, reactores nucleares, o llegar a la Luna? Todo esto no sería
posible sin la creatividad, y la imaginación de los científicos de los últimos siglos. Generalmente
se ve a la esquizofrenia como una enfermedad que provocara algún tipo de retraso mental. En
realidad lo que genera es una inmensa capacidad para imaginar cosas, lugares, y formas, valores
que hoy la humanidad tienen en muy alto, sin embargo, esta capacidad está tan desarrollada que
sobrepasa al individuo al grado de no poder controlarla, y es por eso que se convierte en una
enfermedad discapacitante. ¿Pero que sucede con los padres, hermanos, o hijos de un
esquizofrénico? Éstos únicamente portan en promedio la mitad de los genes del probando. T:11
vez estos parientes porten una buena cantidad de genes de la enfermedad, o bien el único gen
pero con poder disminuido, para que gocen de una ventaja selectiva sobre la población de tal
manera que tendrán más éxito y por lo tanto, mantendrán vivos los genes culpables de la
imaginación. Si bien se sabe de varios parientes de esquizofrénicos exitosos, como el hijo de
Einstein, o la hija de James Joyce, esta teoría no ha sido confirmada y requeriría de una amplia
investigación para ser corroborada.
23
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gimpus Ciudad de M éx im
En la búsqueda de la causa de la esquizofrenia se han hecho hallazgos, algunos
contradictorios, Basset et al ( 1988) reporta una trisomía del cromosoma 5. Posterionnente esto es
replicado en un estudio de familias de Islandia por Basset (1988), sin embargo al mismo tiempo
en que se reporta, en el mismo número de publicación Kennedy et al. ( 1988) señalan evidencia
contradictoria. Otros datos han señalado a una región del cromosoma 6, cercana al locus de HLA
como un sitio interesante para esquizofrenia (Moisés et al, 1995; Portin y Alanen, 1997). De la
misma forma se han obtenido índices LOD significativos en regiones de los cromosomas 9 y 20
(Moisés et al. 1995)
24
INSTITUTO TECNOLÓGICOY DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gzmpus Cmdad de M 6: iaJ
2.2.3 Métodos de detección de ligamiento y asociación
2.2.3.1 Estudios de enlace génico
2.2.3.1.1 Estudio del puntaje "LOD"
En la década de los ochenta, con el surgimiento de la biología molecular aplicada a la
investigación clínica, surgen esperanzas de un nuevo conocimiento. La clonación e identificación
de variantes moleculares de múltiples genes (polimorfismos genéticos), aunado al desarrollo de
técnicas como la reacción en cadena de la polimerasa (PCR) y de programas estadísticos de
análisis más sofisticados han impulsado la aplicación de estudios de enlace génico y asociación
genética en los trastornos mentales.
A continuación se explica el objetivo de un estudio de enlace génico. (Nicolini, 1995)
"La idea fundamental de los estudios de enlace génico, es la
de analizar la cosegregación de una enfermedad con un marcador
polimórfico. La evidencia estadística del enlace génico es el índice
LOD. Este término es un acrónimo del "logaritmo de las
probabilidades" (lag of the odds) y se obtiene calculando el
cociente de probabilidad de una familia bajo distintas estimaciones
de la frecuencia de recombinación (medida indirecta de la distancia
entre los genes) menores a la que se esperaria encontrar en el caso
de que hubiera enlace ( <0.5), entre la probabilidad de la misma
familia bajo segregación independiente; es decir a una frecuencia
de recombinación de 0.5 o mayor. A este resultado se le calcula el
logaritmo base diez, lo que permite sumar los resultados obtenidos
en distintas familias."
El Comité del Mapeo del Genoma Humano ha establecido ciertos requisitos que tienen
que ser cubiertos para poder asignar enlace génico a un locus determinado. Estos son la evidencia
25
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
significativa de enlace (LOD > 3), y la replicación de este resultado por al menos dos laboratorios
distintos y de manera independiente.
2.2.3.1.2 Pruebas con pares de hermanos afectados
El ADN en un mismo locus en dos cromosomas homólogos es "Idéntico por descendencia" (IBD
por sus siglas en inglés) si se originó de un cromosoma ancestral. Si dos cromosomas homólogos
de personas diferentes son IBD en un mismo locus, las personas son familiares. Si dos
cromosomas homólogos de una sola persona son IBD en un locus, esta persona tiene padres no
tomados al azar de una población, es decir, sus padres son parientes. Dos personas pueden
compartir ADN IBD en un locus en especifico ya sea en cero, uno o dos cromosomas.
El método de "pares de hermanos afectados" (ASP por sus siglas en inglés) es usado de
manera rutidiana para detectar ligamiento entre un marcador y un gen de enfermedad y consiste
en estudiar la identidad por descendencia en pares de hermanos afectados con la enfermedad de
interés.
En general, existe una asociación entre fenotipo y una configuración 180 de individuos
familiares en loci ligados a un loci de susceptibilidad de enfermedad (OS por sus siglas en
inglés).
La idea de esta técnica es tipificar pares de hermanos afectados en muchos marcadores
genéticos. En la mayoría de los marcadores no se encontrará conexión con la enfermedad. Sin
embargo, si uno de los marcadores está altamente ligado en el mismo cromosoma con un gen de
susceptibilidad de la enfermedad, entonces uno esperaría ver una distorsión en la segregación en
el locus de ese marcador. En esencia, dos hermanos afectados están obligados a tener genotipos
similares en un locus que predispongan a una enfermedad dada. Y debido al alto ligamiento, la
similitud se extiende al locus del marcador (Lange, 1986).
26
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M éx im
En 1975 Cudworth y Woodrow (Cudworth 1975), hicieron un experimento con 15 pares
de hermanos afectados con diabetes juvenil en marcadores de genes relacionados con los
leucocitos humanos (HLA por sus siglas en inglés). Encontraron una desviación significante de la
distribución normal y su estudio empezó una gran cantidad de investigaciones en la implicación
de HLA y otros loci en la diabetes mellitas dependiente de insulina. (Dudoit, 2004)
2.2.3.2 Limitantes de los métodos de análisis de ligamiento
En el año de 1996 Risch y Merikangas (Risch, 1996) publican un artículo donde se demuestra
que los métodos de análisis de ligamiento tienen un poder limitado para poder encontrar genes de
efecto modesto. Pero por otro lado, concluyen que los métodos de asociación, relativamente
nuevos, tienen un mayor poder para detectar estos efectos. Se calcula que los métodos de análisis
de ligamiento requerirían de cuando menos 2,500 familias para poder detectar un gen cuyo
genotipo tenga un riesgo relativo igual o menor a 2, lo cual no es nada práctico, ya que el
encontrar esa cantidad de familias en donde se encuentren cuando menos dos individuos
afectados requeriría demasiados años de investigación y una gran cantidad de dinero. Sin
embargo, para esta misma configuración, una prueba de asociación únicamente requerirá de 180 a
340 familias.
Cabe aclarar que en el mismo artículo también se menciona una deficiencia de los estudios
de asociación, ya que a pesar de tener un mejor poder que los estudios de ligamiento, el gen
involucrado con la enfermedad debe ser identificado tentativamente antes de que se haga la
prueba. Esta es una desventaja tecnológica más que estadística, ya que se requiere contar con la
totalidad de los genes humanos tipificados, o bien una buena colección de grupos de marcadores
que estén en desequilibrio de ligamiento, para poder encontrar a un gen causante de enfermedad
con este tipo de estudios.
27
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
C:tmpus Ciudad de M éx im
2.2.4 Pruebas de asociación
2.2.4.1 Prueba de asociación poblacional
La prueba de asociación más simple es la llamada poblacional o de ''caso - control". En esta
prueba lo que se busca es encontrar una correlación entre un alelo en específico y la enfermedad,
esto se logra comparando la diferencia de frecuencia entre los alelos del grupo de los casos y de
los controles mediante una prueba estadística de ;c cuadrada.
Sin embargo existen aspectos importantes que limitan la credibilidad de este tipo de
pruebas. Si se selecciona de manera errónea los controles, este tipo de pruebas puede llevar a
falsos positivos. La estructura de la población puede causar que debido a las migraciones, nuevas
variantes de genes se introduzcan, provocando un cambio en la frecuencia de ciertos alelos en la
población (Spielman, 1993).
2.2.4.2 Pruebas de asociación familiar
Hacia 1993 se habían hecho vanos estudios de asociación poblacionales que indicaban una
posible asociación entre la diabetes mellitus dependiente de insulina y una clase de alelos
encontrados en una región específica del cromosoma 11 p. Sin embargo, los estudios de
ligamiento efectuados en esa área no podían replicar los resultados. Es entonces cuando empiezan
a surgir métodos alternativos que proponen hacer pruebas de ligamiento en un marcador genético
cuando ha sido encontrada asociación población. Usando los datos de las familias con cuando
menos un hijo afectado, se puede evaluar la transmisión del alelo del marcador asociado desde un
padre heterocigoto a un hijo afectado. Si bien este método ya había sido probado por otros
investigadores, las propiedades estadísticas son descritas por primera vez en el método llamado
"Prueba de transmisión para determinar desequilibrio de ligamiento" (TDT por sus siglas en
ingles) (Spielman, 1993).
28
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
c.arrpus Ciudad de M éx im
La prueba original de TDT considera padres que sean heterocigotos para un alelo asociado
con la enfermedad y evalúa la frecuencia con la cual esealelo o sus alternos son transmitidos al
hijo afectado. En ésta prueba no se requiere datos de otros miembros de la familia ya sea
afectados o no afectados. Sin embargo, como se había mencionado anteriormente, esta prueba
requiere que exista una asociación debida a un desequilibrio de ligamiento para poder detectar el
ligamiento entre el marcador y el locus de la enfennedad.
Cinco años después de la aparición de la prueba TDT surgieron variaciones que permitían
usar la información de un hermano sano en lugar de la información de los padres. Dos grupos de
investigadores publicaron sus resultados en el mismo número de revista (Spielman, 1998;
Boehnke, 1998). Uno fue llamado S-TDT y el otro "Discordant-Alleles Test". La importancia de
esta adición es que permite utilizar los estudios de asociación en enfermedades donde la edad en
la que se empieza a desarrollar la enfermedad es alta. En este tipo de padecimientos,
generalmente no se cuenta ya con los padres para poder obtener sus genotipos, sin embargo si es
mucho más común el contar aún con un hermano que no haya desarrollado los síntomas.
Otra contribuciones al método es la capacidad de medir rasgos cuantitativos y no sólo
cualitativos, en este sentido las mayores contribuciones fueron de Allison ( 1997), Rabinowitz
( 1997) y Fulker (1999). Si bien el contar con un rasgo cuantitativo provee de mayor poder para
poder encontrar genes causantes de enfermedades, cabe recalcar que esto no siempre es posible
ya que existen enfermedades cuya etiología no puede ser medida en una escala cuantitativa como
en el caso de la esquizofrenia.
Una herramienta muy utilizada en estos días para hacer estudios de asociación es el paquete
computacional FBAT / PBAT, este tiene sus bases en un alcance unificado para hacer pruebas en
distintas circunstancias, como rasgos cuantitativos o cualitativos, un solo individuo, hermanos
discordantes, múltiples alelos, este modelo estadístico fue propuesto por Rabinowitz y Laird
(2000) y Lange y Laird (2002) . Para un compendio más específico de pruebas de asociación ver
(Zhao et al., 2000).
29
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Campus Ciudad de M ~ im
2.2.4.3 Limitaciones de los estudios de asociación basados en familias
Si bien los estudios de asociación tienen mayor poder para detectar genes cuyo efecto en la
etiología de la enfermedad es baja (Risch et al, 1996), este método tiene el mismo problema que
los estudios de ligamiento en cuanto a que cuenta con poco poder cuando la enfe1medad tiene
bases epistáticas, es decir, cuando al medir el efecto principal de un gen no resulta en una
asociación hasta que es agregado el efecto de un gen secundario.
En un estudio (Culverhouse ) se simularon combinaciones de dos, tres y cuatro genes
interactuando en una modelo puramente epistático sin variación aditiva o dominante en los loci
de susceptibilidad, los resultados indicaron que los estudios de asociación no tienen la capacidad
para detectar los loci, sin embargo, los métodos de ligamiento podrían detectar los loci de
susceptibilidad.
Podemos ver entonces que los métodos de ligamiento podrán detectar relaciones puramente
epistaticas, sin embargo, retomando los resultados de (Risch et al., 1996), el riesgo relativo del
genotipo debe ser mayor a 2 para que pueda ser detectado. Y por otro lado los estudios de
asociación podrán detectar genes de susceptibilidad con riesgos relativos de dos, mientras que la
enfermedad no esté predicha por un modelo puramente epistático.
Se ha propuesto entonces pruebas condicionales como el TDT condicional (Culverhouse,
2002), donde los valores de dos pruebas individuales de TDT son combinados usando la
estadística de Fisher (1932). Otras propuestas son detectar la evidencia de ligamiento de una
región incorporando la de otra región (Liang et al, 2001). Y el utilizar múltiples marcadores, sin
embargo en este último caso, los marcadores deben estar altamente ligados (haplotipos) (Zhao et
al., 2000b ).
30
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
Gimpus Ciudad de M éx im
2.3 Trabajos relacionados
2.3.1 MOR
En el método llamado Reducción de la dimensionalidad multifactoria/ (o MOR por sus siglas en
inglés), como su nombre lo indica, colapsa los datos génicos de alta dimensionalidad a sólo una
dimensión, lo que permite detectar interacciones de genes en muestras relativamente pequeñas
(Ritchie et al., 2001; Lance et al., 2003).
El sistema funciona como un clasificador que puede utilizar validación cruzada de 1 O
partes, es decir, divide la muestra en 1 O partes, 9 de ellas se utilizan para entrenar al clasificador,
y la décima se utiliza para hacer pruebas de error de clasificación y de predicción. El usuario
selecciona el número de variables a usar, y un umbral T que representa el límite del cociente de
los individuos afectados entre los no afectados, en nuestro caso, de los pares de hermanos
afectados entre los no afectados.
A continuación se subdivide el proceso en 6 etapas:
1. Se dividen los datos de prueba en un número de partes iguales.
2. Se toma un conjunto de N factores
3.1 Por cada factor, sus clases son representadas en un espacio N-dimensional con una celda por
cada combinación.
3 .2 Se calcula el cociente de los individuos afectados contra los no afectados por cada celda.
4. Cada celda es etiquetada si rebasa el umbral establecido, de esta manera se reduce el problema
a una dimensión, es decir una variable con dos valores, riesgo alto y riesgo bajo.
31
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
C:trnpus Ciudad de M éx im
Cuando en una celda no hay controles, se determina de alto riesgo, y en el caso de no haber
casos, se determina de bajo riesgo.
5. Cada combinación de los N factores es evaluada de manera independiente y se selecciona el
mejor factor.
6. Se utiliza los datos independientes para medir el porcentaje de error y de predicción utilizando
el modelo que ganó en la etapa 5.
Esto se repite 10 veces con distintos datos de prueba y entrenamiento. Una vez que se han
encontrado la mejor combinación de factores, se busca cuáles niveles multifactoriales (genotipos)
son de alto o bajo riesgo con todos los datos. Se utiliza un valor de T if,:rual a la división de los
casos entre los controles de toda la prueba, esto se hace para ajustar la prueba cuando existe una
cantidad no balanceada entre los casos y los controles.
I STEP 1 1
8 3
6 5
L I STEP6 I
Locus l
Lorus4~ "!
Locus 5 ~Bb
Loc~s <., - ....-----+~---+-~~ .....
• .
Locu., N
...- 1 STEP5 I
Modeb
Frictors
l. 6
LJ
2,4
2,]
t:rror
19.25
22 12
2·.U3
28 14
bb
I STEP 4 1
Locus 3
32
Discusión
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS
SUPERIORES DE MONTERREY.
C:mpus Ciudad de M éx im
Pasos a seguir en el método MDR
Este método y su implementación puede encontrar relaciones gen - gen en bases de datos
de hasta 4000 individuos y con hasta 500 factores o variables, sin necesidad de tener un modelo
genético, y es un método no paramétrico. Sin embargo, está limitado a solamente tres niveles lo
cual se traduce a marcadores bialélicos más uno adicional en el caso de que no exista la
información. Esto limita al software ya que para nuestro análisis, hay genes con 3, 4,5 alelos.
Además el autor especifica que para grandes bases de datos o modelos de alto orden, el algoritmo
se vuelve inoperante por todas las posibles combinaciones.
2.3.2 GPNN
Un método recientemente publicado (Ritchie et al., 2003b) optimiza la arquitectura de una red
neuronal utilizando programación genética. Este método tiene como objetivo el poder detectar
interacciones entre genes aún cuando el modelo sea puramente epistático. La red utilizada es una
red neuronal artificial de retro propagación. Se realizaron los experimentos en dos fases. En la
primera se utilizan arquitecturas escogidas