Logo Studenta

Programação Genética para Identificação de Genes

¡Este material tiene más páginas!

Vista previa del material en texto

, 
INSTITUTO TECNOLOGICO Y DE 
ESTUDIOS SUPERIORES DE 
MONTERREY 
Campus Ciudad de México 
Escuela de Graduados en Ingeniería y Arquitectura 
"APLICACIÓN DE PROGRAMACIÓN GENÉTICA 
PARA ENCONTRAR RELACIONES GEN - GEN EN 
ENFERMEDADES COMUNES COMPLEJAS" 
Tesis para optar el grado de 
Maestro en Ciencias de la Computación 
presentada por: 
Jesús Karol Estrada Gil 
Asesor: Dr. Edgar Vallejo Clemente 
Agosto del 2004 
Resumen 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
G:impus Ciudad de M é( im 
La identificación de genes que tienen influencia en el riesgo de contraer enfermedades comunes 
complejas primordialmente dada por la interacción con otros genes y factores ambientales es un 
aún un reto estadístico y computacional en la epidemiología genética. El reto estadístico consiste 
en considerar interacciones con alta dimensionalidad, sin perder grados de libertad mientras que 
el reto computacional consiste en el tamaño y complejidad del espacio de búsqueda (Templeton 
AR. 2000; Ritchie et al., 2003 ). 
La presente investigación detalla el uso de un sistema de programación genética para 
inducir árboles de decisión (GPDTI por sus siglas en inglés) capaces de encontrar la mejor 
combinación de genes cuya interacción describa un fenotipo dado por epistasis. En este estudio 
nos hemos enfocado a especializar el programa en enfermedades humanas comunes complejas, 
específicamente en esquizofrenia, sin embargo creemos que el modelo computacional podría 
aplicarse a la resolución de cualquier problema de aprendizaje de máquina. 
Para demostrar la validez del método se desarrolló un simulador de genotipos de pares de 
hermanos discordantes. Utilizamos ocho diferentes modelos de epistasis usados en la literatura 
(Li et al., 2000; Ritchie et al., 2001; Culverhouse et al., 2002; Ritchie et al., 2003b) para medir la 
capacidad del método para encontrar los genes relacionados con la enfermedad así como su 
interacción. 
Comparando los resultados obtenidos de nuestro método contra otras técnicas 
computacionales utilizadas en los mismos modelos, observamos que el poder para detectar la 
interacción de los genes es similar o mejor los resultados publicados. Además, los experimentos 
realizados demostraron con anterioridad que nuestros tiempos de convergencia son mejores así 
como la interpretación de los modelos obtenidos. 
111 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Canpus Ciudad de M b: ico 
Contenido 
Dedicatoria ................................................................................................................................. .... .. . i 
Agradecimientos .............................................. ...... ......................... ...................................... ...... .. ... ii 
Resumen ........................................................ ........... ................... .............................................. ..... iii 
Lista de Tablas ............................................... .... ............................................................................ . vi 
Introducción ............................................................................................ .................................... .... . 1 
1.1 Generalidades .............................. .... ...................................................................... .......... 1 
1.2 Problema planteado ................ .. ................ ............................ ....... ........ ......... ................. .. 6 
1.3 Objetivo ........ ...... .................................................... .... ....... ..... .... .. ... .... .. ......... ... ... .. ... .. .. .. 7 
1.4 Justificación ... ............................. ................ .... ......... ............ ..... ... ... ........ .... .... ...... ..... ..... . 7 
1.5 Hipótesis ............................ .......... .. .. .. ........................... ... .... ............. .... ............. ...... ....... . 7 
1.6 Contribuciones esperadas .................................................. .... ........ .. ................................ 8 
1. 7 Organización del documento ..... .......................................... ..... .. ... ................................. . 9 
2 Marco teórico .... ........................................................................... .... .. ............................ ........ 1 O 
2.1 Genética .................................... .......... .... ......................... ........... ................................... 1 O 
2.2 Genética Humana ................................. ... ................................ ....... ... ............................ 16 
2.2.1 Herencia familiar ............... ................. ............................. ...................... ..... .. .... ... .. 16 
2.2.2 Enfermedades comunes complejas ......... ...... .. ............ .. ................. ... .......... ... .... .. .. 22 
2.2.3 Métodos de detección de ligamiento y asociación .... .. ......... .. .......... .. .... .. ............. 25 
2.2.4 Pruebas de asociación ............................................................................................ 28 
2.3 Trabajos relacionados ................ .............. .............................. ... ...................... ... ........ .. .. 3 1 
2.3.1 MDR .............................................................................................................. ... .. ... 31 
2.3.2 GPNN .................................................... .. ...... .. ...................................................... 33 
2.3.3 Árboles de decisión ............ ....................................... .... .. ... .. ... .. .. .................... .... .. 35 
2.3.4 FBAT .................................. .... .. .......... .................. .. ....... ............ .. .................. ....... . 37 
2.3.5 Comparación de métodos para la detección de genes de susceptibilidad .............. 37 
2.4 Algoritmos evolutivos ................... .. .......... .. ....... ............ ... .. .......................................... 38 
2.4.1 Programación genética .......................................................................................... 39 
2.4.2 Las estructuras iniciales ................................................................................ ......... 41 
2.4.3 La medida de aptitud ...................................................... ........ ........................ ... .... 42 
2.4.4 Los operadores que madi fican las estructuras ................................................... .... 42 
2.4.5 Estado del sistema ................................................................................................. 43 
2.4.6 Criterio de terminación ..................................................................................... ..... 44 
2.4. 7 Método para designar el resultado ganador .................. .... .... ........................ .... .. ... 44 
2.4.8 Parámetros de control ................... ............................... ..... .. .............. ...... ... ........ .... 44 
2.4.9 Proceso evolutivo para encontrar la mejor solución ........ ... ......... .. ... .. ................... 45 
2.5 Evolución de la clasificación .. ...... ................................ .. .. ......... ......... .................... ...... . 46 
3 Problema .......................................................................................... .. ... .... .. ................. ..... ..... 47 
4 Modelo propuesto ..................................................................... .......... .. ................................. 48 
4.1 Modelado ...................................... ................................................................................. 48 
4.1.1 Funciones ........................................................................................................... .. .. 48 
IV 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
CampusCiudad de M éx im 
4.1.2 Las estructuras iniciales ......................................................................................... 49 
4.1.3 La medida de aptitud ............................................................................................. 49 
4.1.4 Operadores que modifican las estructuras ............................................................. 50 
4.1.5 Estado del sistema ................................................................................................. 50 
4.1.6 Criterio de terminación .......................................................................................... 50 
4.1. 7 Método para designar el resultado ganador ........................................................... 50 
4.1.8 Parárnetros de control ............................................................................................ 51 
4.2 Proceso .......................................................................................................................... 51 
4.2.1 Simulación de los datos ......................................................................................... 51 
4.2.2 Lectura de los datos ............................................................................................... 54 
4.2.3 Validación cruzada por partición del conjunto de datos .................................... .... 57 
4.2.4 Entrenamiento ........................................................................................................ 58 
4.2.5 Predicción .............................................................................................................. 60 
4.2.6 Obtención de estadísticas ....................................................................................... 61 
4.2. 7 Paralelización ......................................................................................................... 66 
5 Resultados .............................................................................................................................. 68 
5.1 Comparación mediante el uso de datos no biológicos ................................................... 68 
5.2 Comparación contra modelos de epistasis ya probados ................................................ 72 
5.3 Comparación entre tipos de codificación ...................................................................... 83 
6 Conclusiones .......................................................................................................................... 85 
6.1 Trabajos futuros ............................................................................................................. 86 
7 Glosario ................................................................................................................................. 89 
8 Referencias ............................................................................................................................ 93 
V 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
Lista de Tablas 
Tabla 1 Experimentos en guisantes de Mendel ............................................................................. 11 
Tabla 2 Comparación de métodos para detección de genes de susceptibilidad ............................ 38 
Tabla 3 Tabla de penetrancia para dos marcadores bialélicos ...................................................... 53 
Tabla 4 Ejemplo de arreglo de datos en forma de atributos y registros ........................................ 59 
Tabla 5 Datos del problema de golf .............................................................................................. 69 
Tabla 6. Comparación de desempeño en los problemas de los Monos ......................................... 72 
Tabla 7 Funciones de penetrancia del modelo l .......................................................................... 73 
Tabla 8 Funciones de penetrancia del modelo 2 .......................................................................... 73 
Tabla 9 Funciones de penetrancia del modelo 3 ........................................................................... 74 
Tabla 1 O Funciones de penetrancia del modelo 4 .......................................................................... 74 
Tabla 11 Funciones de penetrancia del modelo 5 .......................................................................... 74 
Tabla 12 Comparación de resultados GPNN y GPDTI.. ............................................................... 75 
Tabla 13 Comparación de valores de consistencia ........................................................................ 77 
Tabla 14 Valores de CVEC obtenidos con GPDTI ....................................................................... 78 
Tabla 15 Funciones de penetrancia del modelo 6 ......................................................................... 81 
Tabla 16 Comparación de MDR y GPDTI .................................................................................... 81 
Tabla 17 Comparación entre distintos tipos de codificación ......................................................... 83 
Tabla 18 Comparación de CVC en diferentes codificaciones ....................................................... 84 
VI 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Czrrpus Ciudad de M éx im 
Introducción 
1.1 Generalidades 
Desde hace más de 6000 años, cuando el hombre se volvió sedentario y empezó a domesticar 
animales, se contaba ya con una idea de que los rasgos de animales se transmitían a través de las 
generaciones, esto se ve demostrado en tallados en piedra en Caldea donde se muestran árboles 
genealógicos en relación con algunas características de las crines de los caballos, sin embargo el 
cómo y donde se transmitían estas características fue un misterio hasta los últimos dos siglos. 
A finales del siglo XVIII geólogos como James Hutton, William Smith y Charles Lycll 
empezaron a encontrar evidencia de que la Tierra era bastante más antigua que la estimación 
popular de unos pocos miles de años, además de encontrar rocas con fósiles de animales extintos 
y evidencia de que las especies cambian a lo largo del tiempo. Incluso el abuelo de Darwin, 
Erasmo, escribió el libro Zoomania en 1794, en el cual se postulaba que una especie podía 
convertirse en otra. En 1809 el biólogo francés J can Baptiste Lamarck presentó su tesis, que 
mucho después se demostrara que era incorrecta; él decía que las características corporales 
adquiridas como resultado del uso o desuso de diversas partes u órganos podrían transmitirse a la 
descendencia, de esta manera la acumulación de estas modificaciones podría convertir una 
especie en otra. 
En 1859 Charles Robert Darwin publicó "Sobre el origen de las especies", en el que se 
detallaban ciertos descubrimientos y teorías acerca de la "descendencia con modificación" de los 
organismos vivientes. Su tesis era simple y estaba sustentada por veintisiete años de observación 
y experimentación ésta afirmaba que los seres vivientes cambiaron de forma gradual a lo largo 
del tiempo desde los organismos simples, resultando en la complejidad de formas que vemos 
actualmente y de muchas otras que se han extinguido. Esto se podía dar gracias a los principios 
en los cuales Darwin aseguraba que todos los organismos varían y estas variaciones son en 
alguna medida heredadas. Como todos los organismos producen más descendientes que los que 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M & im 
sobreviven hasta llegar a ser adultos, entre los sobrevivientes estarán aquellos que pueden haber 
heredado variaciones que han facilitado su adaptación al entorno local. Esta selección natural 
produce una población con características alteradas; esto puede dar lugar eventualmente, a la 
aparición de una nueva especie (Lee, 1994). Darwin había descubierto una manera con la cual se 
podía explicar la diversidad de especies en el planeta, diferente a la ideaque aún en nuestros días 
prevalece, la evidencia no señalaba a un Ser Divino creador de todas las especies conocidas, el 
trabajo de Darwin produjo, en palabras de John Green en su libro de 1959 sobre la evolución y su 
impacto sobre el pensamiento occidental, "la muerte de Adán". 
Ante la creciente evidencia a favor de las teorías de Darwin, sus oponentes 
contraatacaron, el problema era que no se contaba con explicaciones satisfactorias disponibles de 
la variabilidad de los organismos y de los medios por los cuales estas diferencias podían ser 
transmitidas a la siguiente generación; en otras palabras, el estudio de la herencia. Darwin se vio 
obligado a aceptar la explicación de Lamarck y se dedicó por el resto de sus días a tratar de 
encontrar la manera en que esta variabilidad podía ser explicada; sus esfuerzos fueron 
infructuosos ya que falleció en 1882 sin saber que una persona ya había descubierto los 
mecanismos de la herencia de los seres vivos. 
En 1865 un monje moravo de nombre Gregario Mendel presenta los resultados de siete 
años de investigación con guisantes. Gracias a una minuciosa selección de grupos de éstos y 
constantes pruebas de hibridación, este monje logró descubrir que ciertos rasgos de la planta se 
transmitían de generación en generación en una razón constante. Además parecía que algunas 
variantes de cada rasgo tenían prioridad sobre otras; por ejemplo el color amarillo de la semilla 
contra el color verde, con base a sus observaciones concluyó que la única manera de explicar lo 
ocurrido era si la herencia de caracteres era siempre determinada por factores discretos que 
ocurren en los hijos en pares, uno heredado de cada padre y los cuales son separados de nuevo 
cuando las células sexuales son creadas, produciendo dos tipos de gametos, con un factor de cada 
par en cada uno. Esta hipótesis es conocida como la primera ley de Mendel, o el principio de 
segregación. En estudios posteriores se dio cuenta que estas características podían heredarse de 
forma independiente, por lo que concluyó que se encontraban distribuidas en diferentes partes. 
2 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
Posteriormente estos "factores" fueron denominados genes. Lo que Mendel había descubierto era 
el mecanismo con el cual se podía explicar la variabilidad tan buscado por Darwin. Sin duda 
Mendel conocía, como la mayoría de los científicos de la época, los estudios de Darwin, sin 
embargo las teorías de Mendel no fueron aceptadas hasta 35 años después cuando tres diferentes 
investigadores las redescubrieron. No se sabe si Darwin llegó a conocer los resultados 
presentados por Mendel, lo más probable es que no fue así. 
Finalmente se había descubierto el mecanismo de evolución y herencia que controla a todos 
los seres vivos, sin embargo, todos los estudios hasta la fecha se habían basado en rasgos visibles 
a simple vista, ¿era posible que los genes tuvieran alguna otra labor? En 1901, Sir Archibald 
Garrod describió una enfermedad humana llamada alcaptonuria en la cual las personas afectadas 
secretan orina de color oscuro. Presentó evidencia de que esta enfermedad se segrega como un 
trastorno recesivo y que se tiene mayor probabilidad de contraerla cuando los padres de afectados 
son primos. La importancia de sus observaciones recae en que Garrod señaló que en la 
alcaptonuria había un trastorno hereditario que comprendía un proceso químico. Éste fue el 
comienzo de la genética bioquímica y de la idea de que los genes controlan la síntesis de 
enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos bioquímicos 
específicos. Este descubrimiento llevó a la medicina común a un nuevo nivel, por primera vez se 
podía pensar en encontrar al causante de enfermedades hereditarias. 
En la década de 1930 Thomas Hunt Morgan y Calvin Bridges hicieron experimentos con la 
mosca de la fruta, pudieron realizar mapas de los cromosomas de este organismo indicando las 
posiciones exactas de casi 100 genes diferentes midiendo la frecuencia de las recombinaciones. 
El mismo método puede ser aplicado para encontrar genes causantes de enfermedades humanas, 
sin embargo esto resulta más complejo, ya que con las moscas de la fruta se puede seleccionar los 
individuos interesantes, cruzarlos y ver los resultados. Por razones obvias esto no puede ser 
replicado en los humanos, por lo cual la única manera de realizar estudios de ligamiento en 
humanos es a través de familias informativas. Es por esto que en el hombre ha sido necesario 
depender de la información que los genetistas obtienen al estudiar la segregación de los llamados 
genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son 
3 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gimpus Ciudad de M éx: im 
aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que 
aparezcan en la familia en estudio. Éstos incluyen grupos sanguíneos, ciertas proteínas séricas, 
daltonismo, etc. 
Uno de los descubrimiento de mayor impacto en la genética molecular fue el de Kan et al. 
(1978) donde se describe el primer lugar (loci) de longitud variable (polimorfismo) dentro de la 
molécula de ADN. Estos polimorfismos se obtienen por medio del corte de la molécula de ADN 
utilizando otras moléculas especializadas para esta labor llamadas enzimas de restricción, 
generando de esta manera fragmentos de tamaño variable (RFPL por sus siglas en inglés). Estos 
fragmentos son heredados mendelianamente y se convirtieron en uno de los más importantes 
instrumentos en el mapeo de los genes (Botsein, 1980). Para el año de 1981 se conocían 23 loci 
que contenían polimorfismos de ADN. Para 1989 ya eran 2,000 y en 1994 la base de información 
se duplicó para llegar cerca de 4,000 de estos marcadores distribuidos por todo el genoma 
(Nicolini et al., 1995). 
En 1989 después de años de búsqueda, Francis S. Collins y Lap-Chee Tsui lograron aislar el 
gen causante de la fibrosis cística en el cromosoma 7 con un tamaño de 250,000 pares de bases 
mediante el análisis de ligamiento génico. El 70% de las veces la enfermedad es causada por la 
falta de tres bases nitrogenadas, las cuales normalmente codifican la inserción de fenilalanina de 
un polipéptido. El 30% restante tenía alguna forma de mutación diferente. El 20 de septiembre de 
1990 dos grupos de investigadores usando virus como vectores, habían introducido genes 
normales en las células pulmonares con fibrosis cística, las células antes enfermas empezaron a 
producir las proteínas que carecen los pacientes de este padecimiento. En un futuro se podría usar 
esta técnica directamente en los humanos, cuando se tenga la certeza de que el virus no hará 
mayor daño (Lee, 1994 ). 
Si bien la técnica de análisis de ligamiento génico ha tenido éxito en enfermedades de un 
sólo gen como la fibrosis cística, en las enfermedades multifactoriales se han encontrado 
resultados contradictorios. En el caso de la esquizofrenia, se reportó una alteración en el 
cromosoma 5, además de evidencia significativa de enlace génico pero hasta el momento no ha 
4 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de México 
sido posible reproducir dichos hallazgos. Se han clonado varios genes cuyos productos son de 
especial relevancia para el funcionamiento del sistema nervioso central, para algunos de ellos 
existe evidencia que sugiere que su mal funcionamiento puede contribuir al desarrollo de la 
esquizofrenia y por esta razón son genes candidatos para el mapeo de la enfermedad (Nicolini, 
1995). El receptor 2 fue el primero en ser clonado y es el que mejor se ha estudiado en esta 
enfermedad. Diversos grupos de investigación no han demostrado una asociación entre este 
trastorno con los genes O 1, 02, 04, 05, MAO A y B, y la enzima COMT; quizá los únicos datos 
positivosque han podido ser reproducidos por algunos grupos, pero no por todos, sean aquellos 
que indican la existencia de una asociación entre uno de los alelos del gen DRD3 con este 
trastorno psicótico. En otros estudios se encontró asociación entre la esquizofrenia y el alelo 2 del 
gen receptor 5HT2a para serotonina, sin embargo otros grupos de investigación no han 
reproducido dicha asociación en muestras más pequeñas (Nicolini y Cruz, 1998). 
En 1996 Neil Risch y Kathleen Merikangas publican un artículo en la revista Science 
(Risch et al., 1996) donde se demuestra que los estudios de ligamiento tienen menor poder de 
detectar genes asociados con una enfermedad comparado con los relativos nuevos métodos de 
asociación basados en familias. En el mismo año un grupo de investigadores publican en la 
revista Nature Genetics un estudio donde se demuestra que tanto los estudios de ligamiento 
génico como los de asociación pueden ser inútiles en la búsqueda de los genes causantes de 
enfermedades multigénicas debido a las limitantes estadísticas y computacionales (Frankel, 
1996). Es entonces cuando se empiezan a utilizar técnicas de minería de datos para tratar de 
resolver el problema (Ritchie et al., 2001; Ritchie et al., 2003; Pociot et al, 2004). 
Una de las técnicas que ha ido ganando auge en la genómica computacional son los 
algoritmos evolutivos donde al principio se hace una búsqueda al azar dentro del espacio de 
búsqueda y conforme van progresando el resultado va mejorando, este modelo computacional es 
similar al proceso que ocurre en la naturaleza llamado Selección natural donde los individuos van 
evolucionando conforme su aptitud para resolver ciertos problemas. La programación genética es 
un algoritmo evolutivo donde el resultado final es un programa computacional capaz de resolver 
un problema dado, ésta característica nos permite realizar una minería de datos inteligente donde 
5 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gzmpus Ciudad de M ~ im 
en cada generación se van seleccionando los marcadores y sus combinaciones que meJor 
expliquen a la enfermedad multifactorial, la manera en que los marcadores son organizados es un 
árbol de decisión en el cual los nodos están ordenados de manera jerárquica y mientras se va 
recorriendo el árbol se van tomando decisiones sobre los atributos y valores de la base de datos 
hasta llegar a un nodo final el cual clasifica a la muestra. (Quinlan, 1986). 
1.2 Problema planteado 
Una enfermedad común compleja es aquella que tiene un componente genético, sin embargo, no 
sigue el modelo de herencia simple propuesto por Mendel. La causa de estas enfermedades 
puede deberse a la interacción de dos o más genes, o a la interacción entre genes y factores 
ambientales. El ténnino "común" se debe a que estas enfermedades se presentan con una 
frecuencia mucho mayor a aquellas enfermedades que siguen un modelo de herencia mendeliano. 
Las tecnologías como los microarreglos de ADN (Schena et al. 1995) permiten analizar 
miles de variaciones en las secuencias de ADN. Estas grandes cantidades de información han 
creado desafíos estadísticos y computacionales, uno de ellos es el problema de la selección de 
variables. Este problema proviene de la creciente aceptación de que las interacciones entre 
múltiples factores genéticos y ambientales, tienden a ser más importante que cualquier otro factor 
para predecir el riesgo de una enfermedad multifactorial. 
Dado que las interacciones juegan un papel importante en la etiología de una enfermedad, 
es necesario considerar las combinaciones de variaciones genéticas en nuestro análisis. El 
problema surge cuando el número de variables es grande, ya que existe infinito de combinaciones 
que pueden ser evaluadas. Por ejemplo, si se consideran 10,000 variables, tendremos 
aproximadamente 5 x 107 posibles combinaciones de dos variables, 1.7 x 10 11 de tres variables y 
4.2 x 10 14 de cuatro variables. Podernos ver claramente que la magnitud de las combinaciones 
6 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Czrnpus Ciudad de M tX im 
para seleccionar las variables lleva a una búsqueda exhaustiva de todos los posibles conjuntos de 
variables, lo cual es computacionalmente intratable. (Moore 2003) 
1.3 Objetivo 
Desarrollar un método que pueda realizar combinaciones gen - gen para encontrar el modelo de 
epistasis que mejor describa el fenotipo de una enfermedad común compleja. 
1.4 Justificación 
Los métodos estadísticos actuales no contemplan la posibilidad de que una enfermedad común 
compleja pueda darse en un modelo puramente epistatico. En tales condiciones los resultados de 
dichos métodos no encuentran asociación entre cada marcador en el modelo y el fenotipo 
(Frankel et al., 1996). Para poder medir el efecto real es necesario utilizar el efecto combinado de 
todos los marcadores relacionados en el modelo a tratar. Dicha combinación puede llegar a ser 
estadística y computacionalmente intratable dependiendo de la cantidad de marcadores que se 
desean utilizar en la prueba. 
1.5 Hipótesis 
La hipótesis que se trata de demostrar en la presente investigación es que en una enfermedad 
multifactorial podría ser prácticamente imposible encontrar los genes causantes de ella mediante 
el uso de técnicas estadísticas comunes cuando el modelo subyacente es puramente epistático. 
Por otro lado, lo modelos computacionales basados en búsqueda exhaustiva del espacio de 
búsqueda se enfrentan al problema de aumento de complejidad conforme se utilizan más 
marcadores. Pensamos que el uso de programación genética en este problema es apropiado ya 
que conforme avanza el proceso el espacio de búsqueda se va acotando y el resultado va 
mejorando conforme avanza el proceso evolutivo. En el criterio de término obtenemos como 
7 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
resultado un programa computacional en forma de un árbol de decisión que pueden interpretarse 
como reglas que modelan de manera adecuada la interacción entre marcadores cuyo efecto sea el 
fenotipo en cuestión. 
1.6 Contribuciones esperadas 
El uso de programación genética para resolver este problema solamente ha sido abordado por 
Ritchie (2003) para optimizar una red neuronal artificial, sin embargo el método requiere de gran 
poder de cómputo y no se tiene una manera fácil de interpretar los resultados. Nosotros 
esperamos obtener resultados con errores de predicción y con niveles de consistencia mejores a 
los presentados en el estado del arte, aparte de brindar una manera más fácil de interpretar los 
resultados. 
La mayor parte de los estudios en enfermedades complejas como esquizofrenia se han 
enfocado en colectar familias grandes, pares de hennanos afectados (los dos afectados), tríos y 
sujetos de pruebas tipo caso - control. Desde el punto de vista clínico, sería mucho más sencillo 
recolectar datos de pares de hermanos discordantes (DSP por sus siglas en inglés) donde un 
hermano tiene la enfermedad y el otro no. El uso de DSP en lugar de casos - controles previene 
posibles asociaciones con la enfermedad en ausencia de ligamiento causados por subdivisión y 
adición de población (Spielman, 1993). 
Un nuevo modelo de validación de consistencia es presentado "Consistencia extendida de 
la validación cruzada", el cual nos permite medir la capacidad del método para encontrar la 
interacción entre los genes tomando en cuenta que la prob,ramación genética al ser un modelo 
estocástico puede llegar a diferentes resultados posibles. 
8 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
Para poder realizar los análisis de poder del método, se desarrolló un simulador de pares de 
hermanos discordantes, el sistema genera los genotipos de los hermanos de acuerdo al modelo de 
epistasis seleccionado. 
En los resultados obtenidos podemos verque mediante el uso de los mismos parámetros de 
número de marcadores, cantidad de alelos por marcador, modelo de epistasis y tamaño de 
muestra, nuestro método obtiene mejores resultados que otras técnicas como la evolución de 
redes neuronales. Los resultados tienen muy poca diferencia en error de predicción comparado 
con una búsqueda exhaustiva. 
l. 7 Organización del documento 
En el capítulo 1.1 se presenta una breve introducción en la historia de la genética. En el capítulo 
2.1 se profundiza en el estudio de la genética humana así como las distintas técnicas estadísticas 
que se han abordado para solucionar el problema de encontrar los genes causantes de 
enfermedades comunes. La lectura de estos dos capítulos puede resultar innecesaria para el lector 
con conocimientos en genética humana. 
En el capítulo 2.4 se hace un resumen de las técnicas computacionales utilizadas lo cual no 
es necesario para un lector con experiencia en programación evolutiva. En el capítulo 2.3 se hace 
un análisis crítico del estado del arte de la aplicación de técnicas computacionales a la resolución 
del problema planteado. 
El capítulo 4 explica a detalle el modelo propuesto desde un punto de vista tanto biológico 
como computacionalmente. En el capítulo 5 exponemos los resultados obtenidos a través de los 
experimentos utilizando gráficas y tablas comparativas. Finalmente, en el capítulo 6 damos 
nuestras conclusiones y el trabajo a futuro, aquí podemos observar también las contribuciones, 
limitaciones y extensiones. 
9 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gimpus Ciudad de México 
2 Marco teórico 
2.1 Genética 
Desde hace más de 6000 años se pueden encontrar ideas sobre la herencia sobre tallados en 
piedra en Caldea, ahí se muestran árboles genealógicos en relación con algunas características de 
las crines de los caballos. Hace 1500 años, el Talmud menciona la heredabilidad de la hemofilia, 
un trastorno de la sangre donde la persona tiene bajo nivel de coagulación. Aristóteles, quien 
vivió 300 años antes de Cristo, creó la idea de que el semen del varón se originaba de la sangre y 
tenía la capacidad de infundir vida al embrión en la mujer, esta idea fue aceptada por casi 2000 
años. No fue hasta la segunda mitad del siglo XVII cuando Regnier de Graaf fue el primero en 
reconocer que la unión del óvulo y el espermatozoide es la base de la concepción; por primera 
vez se expuso la idea de que el espermatozoide no era el único agente hereditario, esta idea tardo 
varios años para ser aceptada (Emery 1978). 
Pero no es hasta 1857 cuando Gregorio Mendcl empieza sus experimentos en hibridación 
de plantas, investigación que se prolongará por siete años y lo llevará a descubrir las leyes básicas 
de la herencia que hoy llevan su nombre y es gracias a estos estudios que Mendel se gana el título 
de padre de la genética. 
Si bien otros investigadores ya habían usado guisantes para realizar estudios acerca de 
herencia, la gran contribución de Mendel fue demostrar que los caracteres heredados son 
unidades discretas; los cuales pueden ser empaquetados en diferentes maneras o reordenados en 
cada generación, estas unidades discretas eventualmente serán llamadas genes. 
Para lograr estos descubrimientos, Mendel tomó 32 diferentes tipos de guisantes, escogió 
siete características que aparecían diferentes en los distintos tipos de plantas; una por ejemplo 
siempre producía guisantes amarillos, mientras otra siempre producía verdes. En una variedad la 
10 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
semilla parecía rugosa, mientras que en otras ésta era lisa. Estas características están listadas en 
la Tabla 1. 
2da Generación 
Rasgo Dominante Recesivo Dominante Reccsivo Total 
Forma de semilla Liso Rugoso 5,474 1,850 7,324 
Color de semilla Amarillo Verde 6,022 2,001 8,023 
Posición de flor Axial Terminal 651 207 858 1 
-~ 
Color de flor Rojo Blanco 705 224 929 
1 
Forma de vaina Inflada Estrecha 882 299 1, 181 1 
1 
Color de vaina Verde Amarilla 428 152 580 
Tamaño de tallo Alto Enano 787 277 1,064 
Tabla 1 Experimentos en guisantes de Mendcl 
Entonces Mendel hizo cruzas entre los diferentes tipos de guisantes; por ejemplo, usó 
polen de una flor blanca para fertilizar una flor roja. Una vez realizado estos experimentos, se dio 
cuenta que en la primera generación (F 1) de estas cruzas, uno de los rasgos desaparecía 
completamente; por ejemplo, toda la progenie de la cruza de plantas de semilla amarilla con las 
de semilla verde eran de semilla amarilla como sus padres. A estos rasgos que permanecían les 
llamó dominantes, mientras que los que desaparecían en la primera generación los llamó 
reces1vos. 
¿Qué había pasado con los rasgos recesivos como el color verde de la semilla? El brillante 
científico permitió que los individuos de la generación Fl se polinizaran entre ellos mismos: el 
resultado fue asombroso, los rasgos recesivos reaparecían en la segunda generación (F2), en la 
Tabla 1 se encuentran los resultados de sus experimentos. Estos números fueron la base de la 
primera ley de Mendel. 
1 1 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
Con estos datos, Mendel se dio cuenta de que la relación de apanc1on en la segunda 
generación de los rasgos dominantes y recesivos es de 3 a 1. ¿Cómo era posible que un rasgo 
recesivo desapareciera en la primera generación y después se presentara en la segunda con una 
proporción tan constante? Concluyó que la única manera de explicar esto era si la herencia de 
caracteres era siempre determinada por factores discretos que ocurren en los hijos en pares, uno 
heredado de cada padre, y los cuales son separados de nuevo cuando las células sexuales son 
creadas, produciendo dos tipos de gametos, con un factor de cada par en cada uno. Esta hipótesis 
es conocida como la primera ley de Mendel, o el principio de segregación. Los dos factores 
pueden ser los mismos, o bien pueden ser diferentes, en cuyo caso son llamados alelos. Por 
ejemplo, el color amarillo o verde de las semillas son determinados por alelos, diferentes formas 
de un gen (factor) para el color de semilla. Cuando los genes de un par de genes son iguales, el 
organismo se dice ser homocigoto para ese rasgo en particular; en cambio, cuando los genes de 
un par de genes son diferentes, el organismo es heterocigoto para el rasgo. 
Cuando los gametos son formados, los genes son pasados a ellos; pero cada gameto sólo 
contiene uno de los dos posibles alelos heredados del padre y madre. Cuando dos gametos se 
combinan en el huevo fertilizado, los genes se presentan de nuevo en forma de pares, un alelo 
puede ser dominante sobre otro; en este caso, el organismo tendrá la apariencia como si sólo 
tuviera este gen dominante. Esta apariencia es conocida como fenotipo; sin embargo, en el marco 
genético o genotipo, cada alelo existe independientemente y como una unidad discreta aún 
cuando ésta no sea visible en el fenotipo y el alelo recesivo se separará de su contraparte 
dominante cuando los gametos sean formados de nuevo. Sólo si dos alelos recesivos están juntos, 
entonces el fenotipo mostrará el rasgo recesivo. 
En una segunda serie de experimentos, Mendel hizo cruzas entre plantas de !:,'llisantes que 
diferían en dos características simultáneamente; por ejemplo, un padre tenía semillas lisas y 
amarillas y la madre tenía semillas rugosas y verdes; como se puede ver en la Tabla 1 los rasgos 
lisos y amarillos son dominantes, mientras que los rugosos y verdes son recesivos. Como era 
esperado, en la primera generación todas las plantas eran lisas y amarillas, pero cuando se dejó 
polinizar los individuos de esta generación se obtuvieron los siguientes de resultados: de 556 
12 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gzmpus Ciudad de México 
semillas en total,315 tuvieron los dos rasgos dominantes, semillas lisas y amarillas, pero sólo 32 
tuvieron los rasgos recesivos, rugosas y verdes. Las demás semillas fueron 1 O 1 rugosas y 
amarillas y 108 fueron lisas y verdes. Nuevas combinaciones de rasgos habían aparecido. 
Aún en estos experimentos se conservan la proporción 3: 1 de rasgos dominantes contra 
recesivos pero los rasgos lisos - amarillos y rugosos - verdes, que originalmente estaban 
combinados en una planta, se comportaron corno si fueran enteramente independientes uno de 
otro. De aquí que surge la segunda ley de Mendel, el principio de diversidad independiente. La 
proporción observada en estos experimentos es de 9:3 :3: 1 donde 9 representa la proporción de 
progenie que mostrara dos rasgos dominantes, 1 los que mostrarán dos rasgos recesivos, y 3 los 
que mostrarán la combinación de un rasgo dominante y uno recesivo. La Figura 1 muestra estos 
resultados. 
F1 Qx Q 
AaBb AaBb 
AB Ab aB ab 
AB o o o o 
AABB AABb AaBB AaBb 
Ab o @ o ® 
AABb AAbb AaBb Aabb 2 
aB o o 
AaBB AaBb aaBB aaBb 
ab o © 
AaBb Aabb aaBb aabb 
~ o @ 
9/16AB 3/16Ab 3/16aB 1/16 ab 
Figura 1 Resultados de la segunda serie de experimentos de Mendel 
13 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
C:zmpus Ciudad de M éx im 
A= Alelo para el fenotipo de semilla amarilla 
a = Alelo para el fenotipo de semilla verde 
B= Alelo para el fenotipo de semilla lisa 
b= Alelo para el fenotipo de semilla rugosa 
Sus experimentos fueron reportados en 1865 y publicados; sin embargo su trabajo fue 
ignorado por 35 años y no recibió reconocimiento científico hasta después de su muerte. En el 
año de 1900 las leyes de Mendel fueron redescubiertas por tres biólogos de manera 
independiente: Hugo de Vries, Carl Correns y Erich van Tschemark-Seysenegg. Los tres llegaron 
a las mismas conclusiones que Mendel quien falleció 16 años antes de que su trabajo fuera 
reconocido como uno de los descubrimientos científicos más importantes de todas las épocas 
(Curtís, 1972; Emery, 1978). 
Hasta estas fechas, la genética se había ocupado en herencia de anormalidades estructurales 
patentes. En 1901, Sir Archibald Garrad en un artículo que leyó ante la Sociedad Real de 
Medicina y Cirugía en Londres, describió una enfermedad humana llamada alcaptonuria en la 
cual las personas afectadas secretan orina de color oscuro; presentó evidencia de que esta 
enfermedad se segrega como un trastorno recesivo y que se tiene mayor probabilidad de 
contraerla cuando los padres de afectados son primos. La importancia de sus observaciones recae 
en que Garrad señaló que en la alcaptonuria había un trastorno hereditario que comprendía un 
proceso químico. Este fue el comienzo de la genética bioquímica y de la idea de que los genes 
controlan la síntesis de enzimas, las cuales, a su vez, son las encargadas de llevar a cabo procesos 
bioquímicos específicos. 
En 1902 Walter Sutton estaba observando el proceso de meiosis (proceso importante que 
detallaremos adelante) en la producción de células de esperma y se sorprendió al ver la similitud 
de lo que estaba observando y las leyes de Mendel, los cromosomas venían en pares, así como los 
factores Mendelianos (genes). Los pares de cromosomas (homólogos) se separan cuando los 
gametos son formados; así también los genes. Y los genes y los cromosomas se juntan de nuevo 
14 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
G:mpus Ciudad de M 6; im 
en pares en la descendencia. Con esto Sutton propuso que los factores observados por Mendcl se 
encontraban en los cromosomas. 
Existen dos procesos de división nucleares básicos: la mitosis y la meiosis. En la mitosis 
una célula se divide en dos copias exactamente iguales, este proceso sucede en todos los seres 
vivos; en el caso del hombre por ejemplo, la célula de la piel se divide en promedio una vez cada 
tres o cuatro días, lo cual significa que durante la vida de una persona se dividen unas 10,000 
veces. En este proceso el número de cromosomas por cada nueva célula no cambia. 
La meiosis es el proceso de división nuclear donde se forman las células sexuales, es decir, 
los gametos. Durante este proceso el número de cromosomas disminuye a la mitad y cada gameto 
recibe uno de los cromosomas análogos del par, pero rara vez ambos ( cuando esto sucede 
generalmente resulta en una enfermedad causada por una anormalidad de tipo cromosómica y no 
genética como a nosotros nos atañe). Durante la primera fase de la meiosis, los cromosomas 
homólogos entran en íntima cercanía e intercambian partes entre las cromátides de los mismos. A 
este proceso se le conoce como recombinación. 
Los cromosomas homólogos tienen aspecto semejante y en posiciones idénticas en cada 
cromosoma se encuentran genes de los que depende la misma característica; sin embargo, estos 
genes, a pesar de determinar la misma característica, pueden no ser idénticos, a esto se le llaman 
variaciones alélicas o alelos. 
Como resultado, el entrecruzamiento durante la meiosis hay intercambio de material entre 
cromosomas homólogos, lo cual origina recombinaciones de genes, esto es; si dos genes 
estuvieron originalmente en un mismo cromosoma de un par, el entrecruzamiento daría por 
resultado su separación, o bien puede suceder al revés, si dos genes estaban separados, después 
del entrecrnzamiento pueden quedar en el mismo cromosoma. Cuando dos genes diferentes están 
situados en el mismo par cromosómico, se dice que están asociados. Como el entrecruzamiento 
es un evento donde el punto de cruce es escogido al azar, existe mayor posibilidad de que ocurra 
un entrecruzamiento entre dos genes que se encuentran muy separados, mientras que, si se 
15 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
encuentran relativamente cerca, existe una mayor posibilidad de que no sean separados. Este 
principio ha sido usado para medir la distancia que existe entre dos genes, se mide la frecuencia 
de recombinación y esto da una idea de la separación entre ambos. En la década de 1930 Thomas 
Hunt Margan y Calvin Bridges hicieron experimentos con la mosca de la fruta, midiendo la 
frecuencia de recombinaciones pudieron realizar mapas de los cromosomas de este organismo 
indicando las posiciones exactas de casi 100 genes diferentes. Realizar estos estudios en el 
hombre es más complejo ya que se depende de matrimonios informativos ocurridos por azar. 
2.2 Genética Humana 
2.2.1 Herencia familiar 
Como explicamos anteriormente, el estudio de asociación en humanos es más complejo que el de 
otras especies, ya que el investigador depende de encontrar familias informativas ocurridas al 
azar; mientras que en animales y plantas el investigador tiene la oportunidad de generar las 
combinaciones que se requieran. Sin embargo, son muy raras las enfermedades que se heredan 
por mecanismos sencillos. Las enfermedades familiares comunes por lo regular no siguen una 
pauta sencilla en sus mecanismos de herencia, es por esto que en el humano ha sido necesario 
depender de la información que los genetistas obtienen al estudiar la segregación de los llamados 
genes marcadores en familias con un trastorno hereditario particular. Los genes marcadores son 
aquellos tan frecuentes en la población general, que hay una magnífica posibilidad de que 
aparezcan en la familia en estudio. Estos incluyen grupos sanguíneos, ciertas proteínas séricas, 
daltonismo, etc. Otras técnicas han sido descritas y se pueden ver a más detalle en Emery ( 1978 
Pág. 48-51.) 
2.2.1.1 Herencia dominante autosómica 
En los rasgos dominantes autosómicos cada persona afectada por lo regular tiene también un 
progenitor afectado, esto ocurre generalmente en la mitad de los casos si la persona afectada se 
une con una persona normal. Sin embargo, una enfermedad puede también aparecer 
16 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY.C:impus Ciudad de M éx im 
repentinamente en una generación, sin que se tengan registros de otros miembros de generaciones 
anteriores, esto puede pasar porque alguno de los antecedentes tenía la enfermedad mas no fue 
detectada, o bien puede ser que la persona afectada sea equivalente a una mutación repentina. 
2.2.1.2 Herencia recesiva autosómica 
Los rasgos recesivos autosómicos atacan de igual manera a ambos sexos, pero en este caso los 
rasgos sólo se manifiestan cuando el gen aparece en doble dosis, es decir, en personas 
homocigotos para ese gen mutante particular. En promedio 25 por 100 de los hijos de dos 
personas que tengan una sola copia del gen mutante mostrarán el ataque de la enfermedad. Todas 
estas cifras concuerdan con los resultados obtenidos por Mendel. 
2.2.1.3 Herencia intermedia y herencia ligada al sexo 
En un rasgo dominante incompleto una persona heterocigota generalmente no expresa el rasgo a 
menos que se presenten situaciones ambientales que sumados con el gen mutante, causen la 
aparición de la caracteristica. 
La herencia ligada al sexo denota las características del pedigri de genes que están en uno u 
otro de los cromosomas sexuales. Los genes que se encuentran en el cromosoma X se conocen 
como genes ligados al X, y los que están en el cromosoma Y, como ligados al cromosoma Y. Un 
rasgo recesivo ligado al X, es aquel que depende de un gen que está en el cromosoma X y que se 
manifiesta en la mujer sólo cuando existe una doble dosis de dicho gen. En el varón, un gen 
mutante en el cromosoma X siempre se manifiesta por que no hay un gen normal que antogonice 
los efectos del gen mutante como es el caso de la mujer heterocigota. Las mujeres heterocigotas 
por lo regular no son afectadas, estas enfermedades son transmitidas por los varones atacados y 
por las mujeres sanas portadoras. El ejemplo mejor conocido es la hemofilia, en épocas pasadas, 
los hemofilicos solían morir en la niñez como resultado de traumatismos simples. En el caso de 
un varón afectado que tenga hijos con una mujer sana, todas sus hijas serán portadoras, ya que el 
17 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx= im 
hombre sólo puede heredar el cromosoma X con el gen mutante, sin embargo, todos sus hijos 
serán normales, ya que el padre es el único que puede donar el cromosoma Y a sus hijos varones. 
Un rasgo ligado al X nunca se transmite del padre al hijo. Si una mujer portadora se casa con un 
varón normal, entonces las cosas cambian, la mitad de sus hijas serán portadoras, y la mitad de 
sus hijos estarán afectados por la enfermedad. Este mecanismo de herencia donde los varones son 
los únicos afectados por una enfermedad transmitida por mujeres (llamada ley de Nasse) fue 
apreciada por los judíos hace unos 2000 años. Eximían de la circuncisión a los varones de las 
hijas de una madre que había tenido un hijo con la "enfermedad hemorrágica". Los hijos de los 
hermanos del padre no eran eximidos de la circuncisión. La reina Victoria fue portadora de 
hemofilia y sus hijas también lo fueron, y gracias a ellas introdujeron la enfermedad en las 
familias real rusa y española. Por suerte el hijo de la reina Victoria, Eduardo VII no heredó el gen 
y no lo transmitió a sus descendientes Figura 2. 
e Carrler Fén~ie e 
· · Scaws lJncertaín 
• Hemophlik M:lle • 
Figura 2 Transmisión de hemofilia en generaciones de la familia real europea 
18 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Carrpus Ciudad de M 6: im 
2.2.1.4 Herencia multifactorial 
En las enfermedades descritas hemos supuesto que cada una es resultado de la acción de un solo 
gen (unifactorial). Sin embargo, hay trastornos bastante comunes en los cuales se aprecia una 
tendencia familiar neta, y la proporción de parientes afectados es mayor de lo que se observa en 
la población general, pero dicha proporción suele estar en el orden de 5 por 100 y por esta causa, 
es mucho menor de la que cabría esperar para un rasgo unifactorial. Esto podría ser causado por 
una penetrancia incompleta, es decir, que el gen mutante no se expresa gracias a factores 
ambientales o de otros genes. Sin embargo, es más probable que estos trastornos sean causados 
por muchos genes (mecanismo poligénico) sumado a los efectos del ambiente, a esto se le llama 
herencia mult~factorial. Algunos rasgos normales heredados por este mecanismo son la 
inteligencia, estatura, color de la piel, entre otros. Algunos ejemplos de rasgos anormales son 
hipertensión, diabetes sacarina, artritis reumatoide, úlcera péptica entre muchas otras. Se piensa 
que cada característica es el resultado de la acción de muchos genes, cada uno de los cuales tiene 
un efecto pequeño pero aditivo, a lo que se sumarían los efectos del ambiente. 
2.2.1.5 Heredabilidad 
Es posible estimar el grado en que la etiología o la causa de un trastorno puede atribuirse a 
factores genéticos y no a factores ambientales. Esta es la llamada heredabilidad, que puede 
definirse como la proporción de la variación total de una característica que puede atribuirse a 
factores genéticos. Se expresa en forma porcentual y se le abrevia a menudo con el símbolo "h2". 
Entre más grande es la heredabilidad, mayor es la contribución de factores genéticos en la 
etiología de la enfermedad o rasgo. Por ejemplo, los surcos en los dedos que crean las huellas 
digitales, tienen una heredabilidad de 99 por 100, gemelos idénticos no tienen exactamente la 
misma huella digital, y esto puede ser explicado por que en el momento de la creación del feto 
hay influencia del medio. La esquizofrenia por su parte tiene una heredabilidad del 80 por 1 OO. 
La ulcera péptica tiene heredabilidad de solo 37 por 1 OO. 
19 
2.2.1.6 Epistasis 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M 6: im 
Bateson definió epistasis como una forma de interacción genética donde un gen interfiere con la 
influencia fenotípica de otro gen no alélico tal que el fenotipo está determinado por el primero y 
no el segundo, aún cuando ambos genes se presentan al mismo tiempo en un individuo (Bateson, 
1907). Esta definición no es controversia!, lo que dice es que una mutación de un gen va a ser tan 
fuerte que se va a imponer ante otros genes cuya contribución sea menor. Existe una definición 
más amplia aceptada por estadistas en genética, la cual dice que la epistasis ocurre cuando el 
efecto combinado de dos o más genes en un fenotipo no puede ser predicho por la suma de sus 
efectos por separado. Bajo esta definición, tenemos por ejemplo que si se tienen alelos asociados 
con la obesidad en el loci A y B, y cada uno de ellos provocan un aumento de peso de 1 gramo 
cuando son heredados por separado y de 2 gramos cuando se heredan los dos junto, este efecto se 
describiría como aditivo o no epistático. Sin embargo, si la presencia simultánea de los dos alelos 
inducen un incremento de 1 O gramos o una gran pérdida de peso estos se describirían como 
epistáticos (Frankel et al., 1996). 
El principio biológico detrás de la epistasis es claro: los fenotipos a menudo se presentan 
como el resultado no predecible de sus determinantes. Aún así, la mayoría de los esfuerzos por 
mapear loci no han tomado en cuenta la posibilidad de efectos epistáticos. La razón de esto radica 
en que los paradigmas actuales de mapeo genético tienen poco poder para detectar este tipo de 
interacciones, y esto se debe a que desde un principio se busca a el o los loci cuyo efecto 
principal tenga un valor estadístico significativo. Además, las estrategias de modelado estadístico 
y las herramientas actuales de análisis de datos sólo toman en cuenta los efectos de un solo loci a 
la vez. Ejemplos de estos paquetes son: LINKAGE, SAGE, MENDEL, MAPMAKER/SIBS, 
APM y el muy famoso y ampliamente utilizado en la fecha de esta investigación 
GENEHUNTER. No es de sorprender entonces que diversos estudiosen enfermedades comunes 
complejas tengan resultados contradictorios, ya que al ignorar los efectos de la epistasis entre 
genes, uno podría suponer que en distintas poblaciones se puedan obtener resultados incluso 
contradictorios. 
20 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
C:zmpus Ciudad de M éx im 
El problema de encontrar interacción entre genes, es decir, su epistasis, sale de las 
posibilidades de un tratamiento netamente estadístico, y esto se debe las razones expuestas por 
Frankel et al (1996).: Para empezar existe el problema del tamaño de la muestra y el poder 
estadístico. Si consideramos un experimento con ratones con 100 individuos, y una epistasis 
definida por dos locus bialélicos, la frecuencia con la que el fenotipo será observado, si se tiene 
una penetrancia del 100 por 100, será de Y2 x Y2 = ~ , es decir en sólo 25 por 100 de la progenie. 
Esto únicamente ocurriría si el fenotipo fuese completamente determinado por la interacción de 
los genes. En la práctica esto no es así, los rasgos complejos son generalmente influenciados por 
factores no genéticos, si a esto aunamos que no necesariamente sea la interacción de dos sino de 
tres, cuatro o más genes, y tomamos en cuenta que en promedio la adición de un gen más al 
modelo epistático divide a la mitad la cantidad de individuos que contarán con el fenotipo, la 
población inicial de 100 ya no resulta lo suficiente robusta para encontrar un valor 
estadísticamente significativo. 
Ahora bien, los genes pueden interactuar en una variedad de formas, para poder detectar un 
efecto epistático uno tendria que modelar cada una de las posibilidades, o bien hacer ciertas 
suposiciones, lo cual vuelve aún más complejo el problema ya que se requiere hacer múltiples 
pruebas, lo cual podria llevar a cientos, miles o incluso millones de posibles combinaciones de 
genes. Estas pruebas podrian llevar a obtener falsos positivos. Una vez descubierto un posible 
efecto epistático, la siguiente etapa es verificar si esta interacción tiene sentido biológico. 
2.2.1.7 Ligamiento y desequilibrio de ligamiento 
Debido a la recombinación cromosómica, existe una tendencia mayor de heredar al mismo 
tiempo los loci que se encuentren juntos en el mismo cromosoma, esto es causado ya que entre 
más cerca estén, menor será la probabilidad de recombinación. Este principio es utilizado por los 
estudios de ligamiento o enlace génico. 
21 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de México 
Cuando los alelos en dos loci se encuentran en una combinación (haploti po) más 
frecuente de lo que se esperaria por las frecuencias alélicas se dice que hay un desequilibrio de 
ligamiento. Esto sugiere que los loci se encuentran muy cerca uno de otro en el mismo 
cromosoma, tan cerca que es muy dificil observar un evento de recombinación. Esta caracteristica 
es la utilizada en los estudios de asociación. 
2.2.2 Enfermedades comunes complejas 
2.2.2.1 Esquizofrenia 
La esquizofrenia es una enfermedad psicótica que suele empezar en los comienzos de la vida 
adulta y se caracteriza por cambios de la personalidad y emocionales en relación con un 
alejamiento de la realidad, acompañada de alucinaciones y delirio. Es la causa principal de 
enfermedades mental crónica y afecta a 1 por 100 de la población. A través de estudio en 
gemelos se ha podido calcular que esta enfermedad tiene un grado de heredabilidad de 80 por 
100, lo cual es bastante alto. Sin embargo, no se conoce a fondo la naturaleza y la extensión de 
los factores genéticos así como su contribución, en parte por confusión en definiciones en 
particular del término esquizoide. En general, se dice que el término esquizoide denota a la 
persona con síntomas fundamentales de esquizofrenia pero en forma más benigna. Se ha 
estimado que, en promedio, 4 por 100 de la población general tiene esquizofrenia o un problema 
esquizoide. 
Si se consideran los dos trastornos juntos, prácticamente 90 por 100 de los gemelos 
idénticos tienen el trastorno, al igual que la mitad de sus parientes de primer grado. Seria sencillo 
pensar que esta enfermedad se hereda en forma de un rasgo dominante autosómico con una 
penetrancia casi completa. Sin embargo, las proporciones de parientes más lejanos afectados no 
concuerdan con la hipótesis dominante. También la alta frecuencia de la enfermedad en la 
población general debiera significar que si el problema depende de un solo gen, entonces el 
índice de mutación debiera ser extraordinariamente alto, o que existiera alguna ventaja para el 
22 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Oirnpus Ciudad de M éx ÚXJ 
heterocigoto que si no la hubiera, este trastorno nocivo hubiera sido eliminado desde hace mucho 
por selección natural. Se ha demostrado que los esquizofrénicos tienen una resistencia mayor de 
la normal al choque traumático quirúrgico, alergias, en términos generales, y a diversas 
substancias farmacológicamente activas. También se ha sugerido que la resistencia a epidemias 
como viruela y peste pudo haber sido un factor contribuyente a la frecuencia actual, pero esto es 
mera especulación. (Emery, 1978). 
¿Es posible que existan otras causas por las que esta enfermedad tiene una frecuencia tan 
alta en la población global? ¿Si llegáramos a identificar los genes causantes de la esquizofrenia, 
sería bueno eliminarlos del acervo genético humano? Hace 150,000 años un animal desarrollo 
una capacidad no vista en ninguna otra especie del planeta, la capacidad de imaginar, de ver más 
allá de la caja negra en la que vivían, de crear mundos más allá de lo que el ojo podía ver, ellos 
fueron los primeros (Horno sapiens), a partir de entonces se aceleró el proceso evolutivo hasta 
llegar al grado tecnológico con el que contamos ahora. ¿ Y quien ha hecho posible que hoy 
contemos con electricidad, televisión, reactores nucleares, o llegar a la Luna? Todo esto no sería 
posible sin la creatividad, y la imaginación de los científicos de los últimos siglos. Generalmente 
se ve a la esquizofrenia como una enfermedad que provocara algún tipo de retraso mental. En 
realidad lo que genera es una inmensa capacidad para imaginar cosas, lugares, y formas, valores 
que hoy la humanidad tienen en muy alto, sin embargo, esta capacidad está tan desarrollada que 
sobrepasa al individuo al grado de no poder controlarla, y es por eso que se convierte en una 
enfermedad discapacitante. ¿Pero que sucede con los padres, hermanos, o hijos de un 
esquizofrénico? Éstos únicamente portan en promedio la mitad de los genes del probando. T:11 
vez estos parientes porten una buena cantidad de genes de la enfermedad, o bien el único gen 
pero con poder disminuido, para que gocen de una ventaja selectiva sobre la población de tal 
manera que tendrán más éxito y por lo tanto, mantendrán vivos los genes culpables de la 
imaginación. Si bien se sabe de varios parientes de esquizofrénicos exitosos, como el hijo de 
Einstein, o la hija de James Joyce, esta teoría no ha sido confirmada y requeriría de una amplia 
investigación para ser corroborada. 
23 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gimpus Ciudad de M éx im 
En la búsqueda de la causa de la esquizofrenia se han hecho hallazgos, algunos 
contradictorios, Basset et al ( 1988) reporta una trisomía del cromosoma 5. Posterionnente esto es 
replicado en un estudio de familias de Islandia por Basset (1988), sin embargo al mismo tiempo 
en que se reporta, en el mismo número de publicación Kennedy et al. ( 1988) señalan evidencia 
contradictoria. Otros datos han señalado a una región del cromosoma 6, cercana al locus de HLA 
como un sitio interesante para esquizofrenia (Moisés et al, 1995; Portin y Alanen, 1997). De la 
misma forma se han obtenido índices LOD significativos en regiones de los cromosomas 9 y 20 
(Moisés et al. 1995) 
24 
INSTITUTO TECNOLÓGICOY DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gzmpus Cmdad de M 6: iaJ 
2.2.3 Métodos de detección de ligamiento y asociación 
2.2.3.1 Estudios de enlace génico 
2.2.3.1.1 Estudio del puntaje "LOD" 
En la década de los ochenta, con el surgimiento de la biología molecular aplicada a la 
investigación clínica, surgen esperanzas de un nuevo conocimiento. La clonación e identificación 
de variantes moleculares de múltiples genes (polimorfismos genéticos), aunado al desarrollo de 
técnicas como la reacción en cadena de la polimerasa (PCR) y de programas estadísticos de 
análisis más sofisticados han impulsado la aplicación de estudios de enlace génico y asociación 
genética en los trastornos mentales. 
A continuación se explica el objetivo de un estudio de enlace génico. (Nicolini, 1995) 
"La idea fundamental de los estudios de enlace génico, es la 
de analizar la cosegregación de una enfermedad con un marcador 
polimórfico. La evidencia estadística del enlace génico es el índice 
LOD. Este término es un acrónimo del "logaritmo de las 
probabilidades" (lag of the odds) y se obtiene calculando el 
cociente de probabilidad de una familia bajo distintas estimaciones 
de la frecuencia de recombinación (medida indirecta de la distancia 
entre los genes) menores a la que se esperaria encontrar en el caso 
de que hubiera enlace ( <0.5), entre la probabilidad de la misma 
familia bajo segregación independiente; es decir a una frecuencia 
de recombinación de 0.5 o mayor. A este resultado se le calcula el 
logaritmo base diez, lo que permite sumar los resultados obtenidos 
en distintas familias." 
El Comité del Mapeo del Genoma Humano ha establecido ciertos requisitos que tienen 
que ser cubiertos para poder asignar enlace génico a un locus determinado. Estos son la evidencia 
25 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
significativa de enlace (LOD > 3), y la replicación de este resultado por al menos dos laboratorios 
distintos y de manera independiente. 
2.2.3.1.2 Pruebas con pares de hermanos afectados 
El ADN en un mismo locus en dos cromosomas homólogos es "Idéntico por descendencia" (IBD 
por sus siglas en inglés) si se originó de un cromosoma ancestral. Si dos cromosomas homólogos 
de personas diferentes son IBD en un mismo locus, las personas son familiares. Si dos 
cromosomas homólogos de una sola persona son IBD en un locus, esta persona tiene padres no 
tomados al azar de una población, es decir, sus padres son parientes. Dos personas pueden 
compartir ADN IBD en un locus en especifico ya sea en cero, uno o dos cromosomas. 
El método de "pares de hermanos afectados" (ASP por sus siglas en inglés) es usado de 
manera rutidiana para detectar ligamiento entre un marcador y un gen de enfermedad y consiste 
en estudiar la identidad por descendencia en pares de hermanos afectados con la enfermedad de 
interés. 
En general, existe una asociación entre fenotipo y una configuración 180 de individuos 
familiares en loci ligados a un loci de susceptibilidad de enfermedad (OS por sus siglas en 
inglés). 
La idea de esta técnica es tipificar pares de hermanos afectados en muchos marcadores 
genéticos. En la mayoría de los marcadores no se encontrará conexión con la enfermedad. Sin 
embargo, si uno de los marcadores está altamente ligado en el mismo cromosoma con un gen de 
susceptibilidad de la enfermedad, entonces uno esperaría ver una distorsión en la segregación en 
el locus de ese marcador. En esencia, dos hermanos afectados están obligados a tener genotipos 
similares en un locus que predispongan a una enfermedad dada. Y debido al alto ligamiento, la 
similitud se extiende al locus del marcador (Lange, 1986). 
26 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M éx im 
En 1975 Cudworth y Woodrow (Cudworth 1975), hicieron un experimento con 15 pares 
de hermanos afectados con diabetes juvenil en marcadores de genes relacionados con los 
leucocitos humanos (HLA por sus siglas en inglés). Encontraron una desviación significante de la 
distribución normal y su estudio empezó una gran cantidad de investigaciones en la implicación 
de HLA y otros loci en la diabetes mellitas dependiente de insulina. (Dudoit, 2004) 
2.2.3.2 Limitantes de los métodos de análisis de ligamiento 
En el año de 1996 Risch y Merikangas (Risch, 1996) publican un artículo donde se demuestra 
que los métodos de análisis de ligamiento tienen un poder limitado para poder encontrar genes de 
efecto modesto. Pero por otro lado, concluyen que los métodos de asociación, relativamente 
nuevos, tienen un mayor poder para detectar estos efectos. Se calcula que los métodos de análisis 
de ligamiento requerirían de cuando menos 2,500 familias para poder detectar un gen cuyo 
genotipo tenga un riesgo relativo igual o menor a 2, lo cual no es nada práctico, ya que el 
encontrar esa cantidad de familias en donde se encuentren cuando menos dos individuos 
afectados requeriría demasiados años de investigación y una gran cantidad de dinero. Sin 
embargo, para esta misma configuración, una prueba de asociación únicamente requerirá de 180 a 
340 familias. 
Cabe aclarar que en el mismo artículo también se menciona una deficiencia de los estudios 
de asociación, ya que a pesar de tener un mejor poder que los estudios de ligamiento, el gen 
involucrado con la enfermedad debe ser identificado tentativamente antes de que se haga la 
prueba. Esta es una desventaja tecnológica más que estadística, ya que se requiere contar con la 
totalidad de los genes humanos tipificados, o bien una buena colección de grupos de marcadores 
que estén en desequilibrio de ligamiento, para poder encontrar a un gen causante de enfermedad 
con este tipo de estudios. 
27 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
C:tmpus Ciudad de M éx im 
2.2.4 Pruebas de asociación 
2.2.4.1 Prueba de asociación poblacional 
La prueba de asociación más simple es la llamada poblacional o de ''caso - control". En esta 
prueba lo que se busca es encontrar una correlación entre un alelo en específico y la enfermedad, 
esto se logra comparando la diferencia de frecuencia entre los alelos del grupo de los casos y de 
los controles mediante una prueba estadística de ;c cuadrada. 
Sin embargo existen aspectos importantes que limitan la credibilidad de este tipo de 
pruebas. Si se selecciona de manera errónea los controles, este tipo de pruebas puede llevar a 
falsos positivos. La estructura de la población puede causar que debido a las migraciones, nuevas 
variantes de genes se introduzcan, provocando un cambio en la frecuencia de ciertos alelos en la 
población (Spielman, 1993). 
2.2.4.2 Pruebas de asociación familiar 
Hacia 1993 se habían hecho vanos estudios de asociación poblacionales que indicaban una 
posible asociación entre la diabetes mellitus dependiente de insulina y una clase de alelos 
encontrados en una región específica del cromosoma 11 p. Sin embargo, los estudios de 
ligamiento efectuados en esa área no podían replicar los resultados. Es entonces cuando empiezan 
a surgir métodos alternativos que proponen hacer pruebas de ligamiento en un marcador genético 
cuando ha sido encontrada asociación población. Usando los datos de las familias con cuando 
menos un hijo afectado, se puede evaluar la transmisión del alelo del marcador asociado desde un 
padre heterocigoto a un hijo afectado. Si bien este método ya había sido probado por otros 
investigadores, las propiedades estadísticas son descritas por primera vez en el método llamado 
"Prueba de transmisión para determinar desequilibrio de ligamiento" (TDT por sus siglas en 
ingles) (Spielman, 1993). 
28 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
c.arrpus Ciudad de M éx im 
La prueba original de TDT considera padres que sean heterocigotos para un alelo asociado 
con la enfermedad y evalúa la frecuencia con la cual esealelo o sus alternos son transmitidos al 
hijo afectado. En ésta prueba no se requiere datos de otros miembros de la familia ya sea 
afectados o no afectados. Sin embargo, como se había mencionado anteriormente, esta prueba 
requiere que exista una asociación debida a un desequilibrio de ligamiento para poder detectar el 
ligamiento entre el marcador y el locus de la enfennedad. 
Cinco años después de la aparición de la prueba TDT surgieron variaciones que permitían 
usar la información de un hermano sano en lugar de la información de los padres. Dos grupos de 
investigadores publicaron sus resultados en el mismo número de revista (Spielman, 1998; 
Boehnke, 1998). Uno fue llamado S-TDT y el otro "Discordant-Alleles Test". La importancia de 
esta adición es que permite utilizar los estudios de asociación en enfermedades donde la edad en 
la que se empieza a desarrollar la enfermedad es alta. En este tipo de padecimientos, 
generalmente no se cuenta ya con los padres para poder obtener sus genotipos, sin embargo si es 
mucho más común el contar aún con un hermano que no haya desarrollado los síntomas. 
Otra contribuciones al método es la capacidad de medir rasgos cuantitativos y no sólo 
cualitativos, en este sentido las mayores contribuciones fueron de Allison ( 1997), Rabinowitz 
( 1997) y Fulker (1999). Si bien el contar con un rasgo cuantitativo provee de mayor poder para 
poder encontrar genes causantes de enfermedades, cabe recalcar que esto no siempre es posible 
ya que existen enfermedades cuya etiología no puede ser medida en una escala cuantitativa como 
en el caso de la esquizofrenia. 
Una herramienta muy utilizada en estos días para hacer estudios de asociación es el paquete 
computacional FBAT / PBAT, este tiene sus bases en un alcance unificado para hacer pruebas en 
distintas circunstancias, como rasgos cuantitativos o cualitativos, un solo individuo, hermanos 
discordantes, múltiples alelos, este modelo estadístico fue propuesto por Rabinowitz y Laird 
(2000) y Lange y Laird (2002) . Para un compendio más específico de pruebas de asociación ver 
(Zhao et al., 2000). 
29 
INSTITUfO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Campus Ciudad de M ~ im 
2.2.4.3 Limitaciones de los estudios de asociación basados en familias 
Si bien los estudios de asociación tienen mayor poder para detectar genes cuyo efecto en la 
etiología de la enfermedad es baja (Risch et al, 1996), este método tiene el mismo problema que 
los estudios de ligamiento en cuanto a que cuenta con poco poder cuando la enfe1medad tiene 
bases epistáticas, es decir, cuando al medir el efecto principal de un gen no resulta en una 
asociación hasta que es agregado el efecto de un gen secundario. 
En un estudio (Culverhouse ) se simularon combinaciones de dos, tres y cuatro genes 
interactuando en una modelo puramente epistático sin variación aditiva o dominante en los loci 
de susceptibilidad, los resultados indicaron que los estudios de asociación no tienen la capacidad 
para detectar los loci, sin embargo, los métodos de ligamiento podrían detectar los loci de 
susceptibilidad. 
Podemos ver entonces que los métodos de ligamiento podrán detectar relaciones puramente 
epistaticas, sin embargo, retomando los resultados de (Risch et al., 1996), el riesgo relativo del 
genotipo debe ser mayor a 2 para que pueda ser detectado. Y por otro lado los estudios de 
asociación podrán detectar genes de susceptibilidad con riesgos relativos de dos, mientras que la 
enfermedad no esté predicha por un modelo puramente epistático. 
Se ha propuesto entonces pruebas condicionales como el TDT condicional (Culverhouse, 
2002), donde los valores de dos pruebas individuales de TDT son combinados usando la 
estadística de Fisher (1932). Otras propuestas son detectar la evidencia de ligamiento de una 
región incorporando la de otra región (Liang et al, 2001). Y el utilizar múltiples marcadores, sin 
embargo en este último caso, los marcadores deben estar altamente ligados (haplotipos) (Zhao et 
al., 2000b ). 
30 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
Gimpus Ciudad de M éx im 
2.3 Trabajos relacionados 
2.3.1 MOR 
En el método llamado Reducción de la dimensionalidad multifactoria/ (o MOR por sus siglas en 
inglés), como su nombre lo indica, colapsa los datos génicos de alta dimensionalidad a sólo una 
dimensión, lo que permite detectar interacciones de genes en muestras relativamente pequeñas 
(Ritchie et al., 2001; Lance et al., 2003). 
El sistema funciona como un clasificador que puede utilizar validación cruzada de 1 O 
partes, es decir, divide la muestra en 1 O partes, 9 de ellas se utilizan para entrenar al clasificador, 
y la décima se utiliza para hacer pruebas de error de clasificación y de predicción. El usuario 
selecciona el número de variables a usar, y un umbral T que representa el límite del cociente de 
los individuos afectados entre los no afectados, en nuestro caso, de los pares de hermanos 
afectados entre los no afectados. 
A continuación se subdivide el proceso en 6 etapas: 
1. Se dividen los datos de prueba en un número de partes iguales. 
2. Se toma un conjunto de N factores 
3.1 Por cada factor, sus clases son representadas en un espacio N-dimensional con una celda por 
cada combinación. 
3 .2 Se calcula el cociente de los individuos afectados contra los no afectados por cada celda. 
4. Cada celda es etiquetada si rebasa el umbral establecido, de esta manera se reduce el problema 
a una dimensión, es decir una variable con dos valores, riesgo alto y riesgo bajo. 
31 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
C:trnpus Ciudad de M éx im 
Cuando en una celda no hay controles, se determina de alto riesgo, y en el caso de no haber 
casos, se determina de bajo riesgo. 
5. Cada combinación de los N factores es evaluada de manera independiente y se selecciona el 
mejor factor. 
6. Se utiliza los datos independientes para medir el porcentaje de error y de predicción utilizando 
el modelo que ganó en la etapa 5. 
Esto se repite 10 veces con distintos datos de prueba y entrenamiento. Una vez que se han 
encontrado la mejor combinación de factores, se busca cuáles niveles multifactoriales (genotipos) 
son de alto o bajo riesgo con todos los datos. Se utiliza un valor de T if,:rual a la división de los 
casos entre los controles de toda la prueba, esto se hace para ajustar la prueba cuando existe una 
cantidad no balanceada entre los casos y los controles. 
I STEP 1 1 
8 3 
6 5 
L I STEP6 I 
Locus l 
Lorus4~ "! 
Locus 5 ~Bb 
Loc~s <., - ....-----+~---+-~~ ..... 
• . 
Locu., N 
...- 1 STEP5 I 
Modeb 
Frictors 
l. 6 
LJ 
2,4 
2,] 
t:rror 
19.25 
22 12 
2·.U3 
28 14 
bb 
I STEP 4 1 
Locus 3 
32 
Discusión 
INSTITUTO TECNOLÓGICO Y DE ESTUDIOS 
SUPERIORES DE MONTERREY. 
C:mpus Ciudad de M éx im 
Pasos a seguir en el método MDR 
Este método y su implementación puede encontrar relaciones gen - gen en bases de datos 
de hasta 4000 individuos y con hasta 500 factores o variables, sin necesidad de tener un modelo 
genético, y es un método no paramétrico. Sin embargo, está limitado a solamente tres niveles lo 
cual se traduce a marcadores bialélicos más uno adicional en el caso de que no exista la 
información. Esto limita al software ya que para nuestro análisis, hay genes con 3, 4,5 alelos. 
Además el autor especifica que para grandes bases de datos o modelos de alto orden, el algoritmo 
se vuelve inoperante por todas las posibles combinaciones. 
2.3.2 GPNN 
Un método recientemente publicado (Ritchie et al., 2003b) optimiza la arquitectura de una red 
neuronal utilizando programación genética. Este método tiene como objetivo el poder detectar 
interacciones entre genes aún cuando el modelo sea puramente epistático. La red utilizada es una 
red neuronal artificial de retro propagación. Se realizaron los experimentos en dos fases. En la 
primera se utilizan arquitecturas escogidas

Continuar navegando