Logo Studenta

tesis-n5074-Teich

¡Este material tiene más páginas!

Vista previa del material en texto

Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. 
Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293
Co nta cto :Co nta cto : digital@bl.fcen.uba.ar
Tesis Doctoral
Análisis de la estructura genéticaAnálisis de la estructura genética
espacial de especies arbóreas y suespacial de especies arbóreas y su
asociación con la variabilidadasociación con la variabilidad
fenotípica y ambientalfenotípica y ambiental
Teich, Ingrid
2012
Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca
Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser
acompañada por la cita bibliográfica con reconocimiento de la fuente.
This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico
Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding
citation acknowledging the source.
Cita tipo APA:
Teich, Ingrid. (2012). Análisis de la estructura genética espacial de especies arbóreas y su
asociación con la variabilidad fenotípica y ambiental. Facultad de Ciencias Exactas y
Naturales. Universidad de Buenos Aires.
Cita tipo Chicago:
Teich, Ingrid. "Análisis de la estructura genética espacial de especies arbóreas y su asociación
con la variabilidad fenotípica y ambiental". Facultad de Ciencias Exactas y Naturales.
Universidad de Buenos Aires. 2012.
http://digital.bl.fcen.uba.ar
http://digital.bl.fcen.uba.ar
mailto:digital@bl.fcen.uba.ar
 
 
 
 
 
UNIV
Facu
Análisis de la e
arbóreas y su a
Tesis presentada pa
Buenos A
Directora de tesis: Dra. M
Consejero de Estudios: D
Lugar de trabajo: Centro
Naturales. Facultad de C
 
Buenos Aires, 2012 
 
 
NIVERSIDAD DE BUENOS AIRES 
cultad de Ciencias Exactas y Naturales 
 
 
 
 
 
 estructura genética espacial de
u asociación con la variabilidad 
y ambiental 
 
 
 
 para optar al título de Doctora de la Unive
s Aires en el área de Ciencias Biológicas 
 
 
Lic. Ingrid Teich 
 
 
. Mónica Balzarini 
: Dr. Juan Carlos Reboreda 
tro de Relevamiento y Evaluación de Recurs
 Ciencias Agropecuarias, Universidad Nacion
 
 
e especies 
 fenotípica 
iversidad de 
 
rsos Agrícolas y 
onal de Córdoba 
ii 
 
Análisis de la estructura genética espacial de especies arbóreas y 
su asociación con la variabilidad fenotípica y ambiental 
 
RESUMEN 
Este trabajo aborda el análisis de estructura genética espacial (EGE) en especies 
arbóreas nativas de importancia para Argentina, y su asociación a otras variables, 
desde un enfoque interdisciplinar que incluye perspectivas biológicas y 
metodológicas. Mediante la revisión y comparación del desempeño de métodos 
estadísticos para detectar y caracterizar EGE, según distintos escenarios biológicos, se 
recomiendan estrategias analíticas para el estudio espacial de la variabilidad genética 
y su asociación con variables ambientales y fenotípicas. Se analizó la EGE a escala fina 
en un enjambre híbrido de Prosopis spp., encontrando significativa asociación de ésta 
con la variabilidad morfológica; información relevante para el ordenamiento del 
recurso genético algarrobo. También se analizó la correspondencia entre la variación 
espacial de la diversidad genética de poblaciones de Polylepis australis, a lo largo de 
su rango de distribución, y la inestabilidad del ambiente usando nuevos índices de 
heterogeneidad temporal del paisaje derivados de imágenes satelitales. Se concluye, 
que sitios ambientalmente más estables albergan mayores niveles de diversidad 
genética para esta especie. El estudio de EGE en árboles, y su asociación con 
variabilidad fenotípica y ambiental, permite inferir procesos evolutivos-ecológicos, 
que aportan conocimiento para mejorar el manejo y conservación de los bosques. 
 
PALABRAS CLAVES: genómica, AFLP, SSR, Prosopis spp., Polylepis australis, 
estadística espacial, bosques, conservación. 
iii 
 
Analysis of the spatial genetic structure in tree species and its 
association to phenotypic and environmental variability 
 
ABSTRACT 
In this work, the analysis of spatial genetic structure (SGS) of native tree species and 
its association with other variables is investigated with an interdisciplinary approach, 
including both the methodological and biological perspectives. Through the revision 
and comparison of the performance of statistical methods used to detect and 
characterize SGS, under different biological scenarios, we recommend and propose 
analytic strategies to spatially analyze genetic variability. We analyzed the SGS at fine 
scale of a Prosopis spp. hybrid swarm and found a significant correlation with its 
morphological variability, facilitating the differentiation of biological units that are 
object of management and improvement of the Algarrobo genetic resource. We also 
characterized the spatial pattern of Polylepis australis genetic diversity and 
differentiation along its entire distribution range and found that they differ from 
historical migration scenarios observed in the northern hemisphere. We found a 
significant correlation between genetic diversity and environmental instability 
indices derived from satellite imaginary, concluding that more environmentally stable 
sites show higher levels of P. australis genetic diversity. The study of SGS in tree 
species and its association with other variables allows the inference of ecological and 
evolutionary processes, providing relevant information for the management and 
conservation of native forests. 
KEY WORDS: genomics, SSR, AFLP, Prosopis spp., Polylepis australis, spatial statistics, 
forests, conservation. 
iv 
 
AGRADECIMIENTOS 
Esta tesis ha sido posible gracias a numerosas personas e instituciones que me han 
brindado su apoyo a lo largo de los últimos cinco años. 
Principalmente quiero agradecer a mi directora, la Dra. Mónica Balzarini, por abrir las 
puertas de su inmenso conocimiento y sabiduría con paciencia y buen humor. Es gracias 
a su espíritu generoso y positivo que he llegado a estas instancias. 
También le agradezco a mi codirectora de beca, la Dra. Ana Planchuelo, por su 
minuciosa lectura de la tesis, por su valioso consejo y excelente disposición. 
Agradezco a mi consejero de estudios, el Dr. Juan Carlos Reboreda, quien me escuchó 
con atención y cuyas recomendaciones resultaron claves en un momento de inflexión en 
mi formación y las cuales fortalecieron mi vocación científica. 
Agradezco también al Dr. Andrés Ravelo por brindarme la posibilidad de trabajar en el 
Centro de Relevamiento y Evaluación de Recursos Agrícolas y Naturales, lo cual fue 
fundamental para el desarrollo del trabajo de investigación y a los miembros de la 
Cátedra de Estadística por su cordial y generoso recibimiento. 
Quiero agradecer al Dr. Aníbal Verga y su grupo del Instituto de Fisiología y Recursos 
Genéticos Vegetales del INTA por aportar información y conocimiento imprescindibles 
para este trabajo de investigación y por la corrección de la tesis. 
Gracias a la Dra. Isabell Hensen y la Universidad Martin-Luther en Halle, Alemania, por 
brindarme la posibilidad de realizar los análisis moleculares y conocer la cultura 
alemana. También agradezco a Carolien Tote, Else Swinnen y VITO (Bélgica) por su 
recibimiento y colaboración en el análisis de series temporales de NDVI. 
Agradezco al Dr. Renison, la Dra. Cingolani y el Dr. Grilli por haber dirigido distintas 
etapas de mi formación profesional, posibilitando el desarrollo de ésta tesis. 
Gracias a la Facultad de Ciencias Exactas y Naturales de la UBA, por haber inculcado en 
mí su espíritu de excelencia académica y por brindarme formación de grado y posgrado 
de primera calidad en forma gratuita. En particular quisiera agradecer a los 
v 
 
integrantes de la Comisión de Doctorado por responder las consultas cordialmentey 
posibilitar la evaluación de la tesis. 
Agradezco a los Miembros del Jurado por aceptar gentilmente formar parte del tribunal 
examinador y por dedicar su valioso tiempo a la revisión de este trabajo. 
Gracias a Ana Bondia y a Luis Vazquez quienes colaboraron siempre para que todos los 
trámites doctorales puedan realizarse desde Córdoba con eficiencia. 
Agradezco también al Consejo Nacional de Investigaciones Científicas y Técnicas 
(CONICET) por otorgar las becas de doctorado que permitieron llevara adelante mi 
formación doctoral y profesional. 
Gracias a mis amigas y amigos, quienes están siempre presentes y me han acompañado 
en las buenas y en las malas. A mi mamá que me acompaña en la vida con mimos y 
cariños y a mi papá que me brinda su consejo y apoyo. Y por supuesto gracias a César 
que me ha acompañado intensamente en las distintas etapas de éste trabajo, desde el 
campo y el laboratorio hasta el análisis de datos y escritura de trabajos, poniéndole 
sabor a mis días. 
 
 
 
 
 
 
 
 
 
 
 
vi 
 
 
 
 
 
 
 
 
 
 
A los obstáculos del camino 
que templan nuestro espíritu y fortalecen nuestra determinación. 
vii 
 
TABLA DE CONTENIDOS 
 
INTRODUCCIÓN GENERAL ........................................................................................................................... 1 
OBJETIVOS GENERALES .................................................................................................................................. 6 
OBJETIVOS ESPECÍFICOS ................................................................................................................................. 6 
CAPÍTULO I: MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL DE LA 
VARIABILIDAD GENÉTICA EN ESPECIES ARBÓREAS ................................................................... 8 
INTRODUCCIÓN ................................................................................................................................................... 9 
PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA GENÉTICA 
ESPACIAL (EGE) ................................................................................................................................................ 16 
 Correlación entre distancias ................................................................................................................... 16 
 Aplicación de la prueba de Mantel ...................................................................................................... 17 
 Regresión entre distancias ...................................................................................................................... 19 
 Estimación de las regresiones propuestas por Rousset ............................................................. 20 
 Índices de autocorrelación espacial .................................................................................................... 21 
 Cálculo de índices de Moran y Geary .................................................................................................. 24 
 Correlogramas ............................................................................................................................................... 26 
 Estimación de correlogramas discretos ............................................................................................ 27 
 Semivariogramas ......................................................................................................................................... 29 
 Estimación de semivariogramas empíricos y teóricos ................................................................ 31 
 Ordenamientos Multivariados ............................................................................................................... 34 
 Aplicación de ACP y ACP espacial ........................................................................................................ 38 
CONCLUSIÓN ...................................................................................................................................................... 45 
CAPÍTULO II: EVALUACIÓN DEL DESEMPEÑO DE MÉTODOS ESTADÍSTICOS PARA 
EL ANÁLISIS DE ESTRUCTURA GENÉTICA ESPACIAL ............................................................... 47 
INTRODUCCIÓN ................................................................................................................................................ 48 
MÉTODOS ............................................................................................................................................................. 51 
 Diseño del Estudio por Simulación ...................................................................................................... 51 
 Procedimientos Comparados y Criterios de Evaluación ........................................................... 54 
RESULTADOS ...................................................................................................................................................... 56 
 Tasas de Error Tipo I. Escenario sin EGE ........................................................................................ 56 
 Tasas de Error Tipo II y caracterización del patrón espacial. Escenarios con EGE. .... 56 
DISCUSIÓN ........................................................................................................................................................... 63 
CONCLUSIÓN ...................................................................................................................................................... 66 
viii 
 
CAPÍTULO III: ANÁLISIS DE ASOCIACIÓN ENTRE LA VARIABILIDAD GENÉTICA Y 
FENOTÍPICA EN UN ENJAMBRE HÍBRIDO DE PROSOPIS SPP. ............................................. 67 
INTRODUCCIÓN ................................................................................................................................................ 68 
MATERIALES Y MÉTODOS ........................................................................................................................... 70 
 Datos................................................................................................................................................................... 70 
 Especies de estudio ..................................................................................................................................... 71 
 Caracteres morfológicos .......................................................................................................................... 72 
 Caracteres moleculares ............................................................................................................................ 74 
 Análisis Estadísticos ................................................................................................................................... 76 
 Análisis espacial de datos genéticos y morfológicos .................................................................... 76 
 Análisis de asociaciones entre datos genéticos y morfológicos .............................................. 76 
RESULTADOS ...................................................................................................................................................... 78 
 Análisis de estructura espacial de la variabilidad genética y morfológica ....................... 78 
 Asociación entre datos genéticos y fenotípicos ............................................................................. 82 
DISCUSIÓN ........................................................................................................................................................... 86 
CONCLUSIÓN ...................................................................................................................................................... 89 
CAPÍTULO IV: VARIABILIDAD GENÉTICADE POLYLEPIS AUSTRALIS (ROSACEAE) 
A LO LARGO DE SU RANGO DE DISTRIBUCIÓN ............................................................................ 90 
INTRODUCCIÓN ................................................................................................................................................ 91 
MATERIALES Y MÉTODOS ........................................................................................................................... 94 
 Sitios de estudio y diseño de muestreo ............................................................................................. 94 
 Análisis Molecular........................................................................................................................................ 96 
 Extracción de ADN genómico ................................................................................................................ 96 
 Restricción del ADN y Ligamiento de adaptadores ...................................................................... 97 
 Preamplificación ......................................................................................................................................... 97 
 Amplificación Selectiva ............................................................................................................................ 97 
 Electroforesis ................................................................................................................................................ 98 
 Análisis de datos ........................................................................................................................................... 98 
 Patrones espaciales de Diversidad genética ................................................................................. 99 
 Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 99 
RESULTADOS .................................................................................................................................................... 101 
 Patrones espaciales de Diversidad genética ................................................................................. 101 
 Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 103 
DISCUSIÓN ......................................................................................................................................................... 107 
CONCLUSIÓN .................................................................................................................................................... 110 
CAPÍTULO V: ASOCIACIÓN DE LA DIVERSIDAD GENÉTICA Y LA INESTABILIDAD 
AMBIENTAL EN BOSQUES DE MONTAÑA DE POLYLEPIS AUSTRALIS ........................... 112 
INTRODUCCIÓN ..................................................................................................................................... 113 
MATERIALES Y MÉTODOS ................................................................................................................ 115 
 Diversidad Genética .................................................................................................................................. 115 
ix 
 
 Variabilidad Ambiental ........................................................................................................................... 115 
 Series temporales de NDVI .................................................................................................................... 116 
 Cálculo de Indicadores de Inestabilidad Ambiental ................................................................... 118 
 Correlación de la diversidad genética poblacional con la inestabilidad ambiental .. 119 
RESULTADOS .................................................................................................................................................... 120 
 Asociación entre inestabilidad ambiental y diversidad genética ....................................... 122 
DISCUSIÓN ......................................................................................................................................................... 126 
CONCLUSIÓN .................................................................................................................................................... 128 
CONCLUSIÓN GENERAL ............................................................................................................................ 129 
REFERENCIAS ................................................................................................................................................. 132 
ANEXO I: DESCRIPCIÓN DE DATOS UTILIZADOS Y RUTINAS EN LENGUAJE R 
DESARROLLADAS PARA LOS ANÁLISIS REALIZADOS EN EL CAPÍTULO I .................. 150 
DESCRIPCIÓN DE LOS CONJUNTOS DE DATOS UTILIZADOS ................................................... 151 
RUTINAS EN LENGUAJE R DE LOS ANÁLISIS REALIZADOS ...................................................... 157 
ANEXO II: RUTINAS, PROGRAMAS Y PARÁMETROS PARA GENERAR Y ANALIZAR 
LOS DATOS SIMULADOS EN EL CAPÍTULO II ............................................................................... 165 
DISEÑO DE LA SIMULACIÓN ..................................................................................................................... 166 
RUTINAS R Y PROGRAMAS PARA CORRER LOS ANÁLISIS ESTADÍSTICOS ....................... 169 
1 
 
INTRODUCCIÓN GENERAL 
Las variaciones de las condiciones ambientales, como por ejemplo la heterogeneidad 
climática o edáfica, diferentes regímenes de disturbios exógenos o endógenos y el 
aislamiento geográfico, tanto de origen natural como antrópico, producen respuestas 
genéticas en los individuos, que pueden generar la estructuración espacial de la 
variabilidad genética. Además, muchos de los procesos evolutivos y ecológicos que 
influyen sobre la variación genética, están mediados por el espacio y por tanto es 
frecuente la presencia de estructura genética espacial (EGE) en la naturaleza. El estudio 
de la variabilidad genética espacial permite hacer distintos tipos de inferencias sobre los 
principales procesos que han operado a nivel del conjunto de individuos en un espacio 
determinado. De ésta manera, el conocimiento de la EGE es crucial tanto para el uso y 
manejo racional de las especies que están en procesos de domesticación y mejora 
genética, como para la conservación de especies amenazadas (Escudero et al. 2003; 
Teich et al. 2010; Kettle et al. 2011). 
Mientras que numerosos trabajos científicos demuestran la importancia que 
tiene la cantidad y distribución de la variabilidad genética en la viabilidad y resiliencia 
de las especies, comunidades y ecosistemas (Reusch et al. 2005; Crutsinger et al. 2006; 
Bailey et al. 2009), cada vez se incrementan más las amenazas a la diversidad genética a 
nivel mundial (Laikre 2010; Laikre et al. 2010). Éstas incluyen la manipulación del 
conjunto de genes de las especies a través de la explotación comercial (Lee et al. 2002; 
Laikre et al. 2005), la fragmentación del hábitat (Young et al. 1996; Vranckx et al. 2011) 
y el cambio climático (Balint et al. 2011; Provan y Maggs 2012). En este contexto es 
fundamental contar con herramientas analíticas que permitan describir, analizar, 
comparar y asociar patrones espaciales de variabilidad genética. 
El análisis de la EGE se ha desarrollado desde principios de la década del 40, con 
los trabajos pioneros de Wright (1943) y en la actualidad es un campo de investigación 
en constante y rápida evolución, que incluye una amplia variedad de conceptos 
biológicos y métodos estadísticos específicos para datos referenciados espacialmente 
(Balzarini et al. 2011; Safner et al. 2011; Guillot y Rousset 2012). En los últimos se ha 
definido a la genética del paisaje como una disciplinaindependiente que incorpora al 
2 
 
estudio de la estructura espacial de la variación genética, la variación espacial de las 
características del ambiente (Manel et al. 2003; Manel y Segelbacher 2009; Manel et al. 
2010; Segelbacher et al. 2010) uniendo a tres disciplinas diferentes: la ecología del 
paisaje, la genética de poblaciones y la estadística espacial (Storfer et al. 2007). 
La EGE puede exhibir distintos patrones, desde cambios graduales, como las 
clinas, (Haldane 1948; Premoli 2003) hasta cambios abruptos como los parches (Turner 
et al. 1982; Manel et al. 2007). La identificación de dichos patrones espaciales requiere 
de la colecta de información genética de individuos o poblaciones cuya posición 
geográfica debe ser conocida. Así, en numerosos estudios, los datos genéticos son 
también datos “espaciales” o georreferenciados. Debido a la naturaleza multivariada de 
los datos genéticos, provistos en muchos casos por marcadores moleculares, es común 
que se intente colapsar la información molecular en medidas de resumen univariadas 
como puede ser un índice de diversidad genética o una variable sintética obtenida 
mediante una técnica de reducción de la dimensión. Las distancias genéticas también 
son comúnmente usadas para sintetizar la información multidimensional de los 
genotipos multilocus. Sin embargo, para un mismo conjunto de datos moleculares 
pueden calcularse distintos índices de diversidad y métricas de distancia genética, que 
no necesariamente tienen una única interpretación a nivel biológico como a nivel 
estadístico (Bruno y Balzarini 2010). Los métodos analíticos que permiten detectar y 
cuantificar EGE son muy variados y la selección criteriosa del o los procedimientos más 
apropiados, para cada situación biológica, demanda el conocimiento del desempeño 
relativo de éstos frente a diferentes escenarios de variabilidad genética que pueden 
darse en la naturaleza. 
En los bosques nativos la modelación espacial de la variabilidad genética y su 
correlación con variables ambientales es de vital importancia. Los bosques, además de 
ser el hábitat de muchas especies, brindan importantes servicios ecosistémicos. Por ello, 
la pérdida de diversidad genética de estos ecosistemas, debido a la creciente 
fragmentación del paisaje y al cambio climático global, ha ganado la atención de la 
comunidad científica (Hamrick 2004). La fragmentación reduce el tamaño de las 
poblaciones arbóreas y aumenta su aislamiento, lo cual aumenta la endogamia y la 
deriva génica y reduce el flujo génico (Jump y Peñuelas 2006). La erosión genética puede 
aumentar el riesgo de extinción de una especie en el corto tiempo a través de la 
depresión por endogamia y, a largo tiempo, a través de la reducción de la habilidad de la 
3 
 
población a adaptarse a las condiciones ambientales (Frankham 2005; 2010) y en 
consecuencia también disminuir la resiliencia de las comunidades (Reusch et al. 2005). 
Sin embargo, no todos los estudios sugieren que la variabilidad genética en bosques 
decrece con la reducción del tamaño del parche. En algunos casos la fragmentación 
parece aumentar el flujo genético entre poblaciones, rompiendo la estructura genética 
local y disminuyendo la variabilidad espacial. La dificultad de detectar los efectos de la 
fragmentación en poblaciones de árboles puede deberse a que la mayor parte de la 
fragmentación ha ocurrido en un lapso de tiempo corto (100-200 años) en relación al 
tiempo generacional de las especies arbóreas. Otros autores (Young et al. 2000; Ortego 
et al. 2010) también postulan que es posible que en especies anemófilas la 
fragmentación aumente el flujo de polen por el viento a través del paisaje, manteniendo 
los niveles de diversidad genética en fragmentos pequeños y aislados (Young et al. 2000; 
Ortego et al. 2010). En Argentina se ha perdido el 70% de los bosques nativos originales 
(SAyDS 2005) y recientemente se ha declarado la emergencia forestal (Ley Nacional 
26.331). Para un diagnóstico correcto del estado, las amenazas y la viabilidad de las 
poblaciones remanentes de bosque nativo es crítico el conocimiento de la cantidad de 
diversidad genética y su distribución espacial (Escudero et al. 2003). 
En la presente tesis se investigan métodos estadísticos para caracterizar la EGE 
en bosques, analizando la variabilidad genética espacial en una escala microgeográfica 
de un conjunto de algarrobos pertenecientes al género Prosopis spp. y en una escala 
macrogeográfica para poblaciones nativas de Polylepis australis Bitt. Las especies de 
Prosopis (Fabaceae, Mimosoideae) constituyen un recurso natural importante en zonas 
áridas debido al potencial que tienen para proveer un amplio espectro de productos y su 
habilidad de crecer en suelos pobres, donde pocas especies pueden sobrevivir. Además 
de utilizarse como recurso (leña, frutos, forraje, medicinas), los algarrobos estabilizan el 
suelo y previenen la erosión a través de la fijación del nitrógeno (Pasiecznik et al. 2001). 
En Argentina, Prosopis es un complejo taxonómico que presenta un gran número de 
grupos morfológicos que ocupan diversos nichos ecológicos. Dentro del género las 
especies se diferencian tanto a nivel morfológico (Burkart 1976), como a nivel molecular 
(Catalano et al. 2008). Sin embargo, dentro de la Sección Algarobia, existe hibridación 
entre algunas especies (Palacios y Bravo 1981), lo cual dificulta la diferenciación de 
unidades de uso y conservación, es decir, de grupos de individuos que poseen cierta 
identidad morfológica y genética, coherencia en sentido biológico y mantenimiento de 
4 
 
identidad en el proceso evolutivo. Para el ordenamiento del recurso forestal, se 
requieren distintos tipos de conocimiento, entre los que figuran la magnitud de 
variabilidad genética, su variación espacial y la correlación con variables morfológicas 
que caracterizan los fenotipos de las distintas especies e híbridos que cohabitan el 
ambiente. 
Respecto al género Polylepis (Rosaceae) se señala que éste contiene las especies 
de árboles que crecen a mayores altitudes en el mundo, en zonas climáticas en las cuales 
no pueden crecer otras especies arbóreas, como en algunos sitios de la cordillera de 
Sudamérica (Rada et al. 2001). Los bosques nativos de este género son de gran 
importancia en Argentina, debido al elevado número de endemismos que albergan y por 
ser el principal tipo de cobertura en las cabeceras de cuencas hídricas, contribuyendo a 
retener el suelo y el agua (Fjeldså 2002). No obstante, se ha observado una severa 
reducción de estos bosques, presumiblemente debido a cambios climáticos y antrópicos, 
incluyendo fuego, pastoreo, tala y agricultura (Teich et al. 2005; Renison et al. 2006; 
Renison et al. 2008), por lo cual se considera que su protección y restauración es una 
necesidad. 
El presente trabajo de investigación trata, en primer lugar y en virtud de la 
multiplicidad de enfoques y análisis estadísticos disponibles, el problema de la 
caracterización de EGE desde una perspectiva estadístico-metodológica. Bajo ésta 
dimensión, los primeros Capítulos se focalizan en el análisis de datos genéticos 
georreferenciados y discuten aspectos de la aplicación de métodos estadísticos 
disponibles utilizando bases de datos simulados. En segundo lugar, desde una 
perspectiva más biológica, se estudia la EGE y su asociación con variables ambientales y 
fenotípicas en especies de bosques nativos de importancia en nuestro país. Así, el 
Capítulo I consiste en la revisión e ilustración en distintos escenarios biológicos, de 
metodologías de análisis estadístico para detectar y caracterizar EGE en bosques. Los 
resultados del Capítulo II permiten una comprensión en mayor profundidad de los 
méritos de dos técnicas tradicionalmente usadas en el análisis de variación espacial 
genética, como son la prueba de Mantel y las regresiones de Rousset y de dos nuevas 
propuestas parael tratamiento de genotipos multilocus basadas en el análisis de 
componentes principales, una de ellas específicamente desarrollada para datos 
espaciales, conocida como Análisis de Componentes Principales Espacial. Los resultados 
de los Capítulos I y II muestran cuán diferentes son las interpretaciones biológicas que 
5 
 
se derivan en un estudio particular dependiendo del tipo de estructura estadística que 
capta cada análisis (media, varianza, autocorrelación) y proveen herramientas para 
quienes deban analizar datos genéticos de especies arbóreas espacialmente 
referenciados. En el Capítulo III no sólo se describe la variabilidad genética espacial a 
escala fina de un enjambre híbrido de Prosopis spp. del Chaco Árido Argentino, sino que 
también se cuantifica la asociación entre la variabilidad genética y morfológica, haciendo 
especial énfasis en procedimientos para la incorporación de la información espacial en 
el análisis de asociaciones. Los capítulos IV y V integran el primer estudio de la 
variabilidad genética de poblaciones de Polylepis australis a lo largo de su rango de 
distribución y su relación con indicadores derivados de información satelital que se 
proponen como métricas de inestabilidad ambiental. El conocimiento generado sobre 
datos reales de especies arbóreas nativas de nuestro país en los Capítulos III, IV y V 
provee no sólo una ilustración de los métodos analizados y propuestos, sino también 
conocimiento de base para programas de mejoramiento, conservación y estudio de la 
ecología evolutiva de Prosopis spp. y de Polylepis australis. Consideramos que el enfoque 
plural sobre la problemática es lo que hace a la virtud del presente trabajo de tesis. 
 
 
 
 
 
 
 
 
 
 
 
6 
 
OBJETIVOS GENERALES 
1. Proponer estrategias metodológicas para el análisis estadístico de la estructura 
genética espacial en especies arbóreas. 
2. Analizar la estructura genética espacial y su asociación con variables fenotípicas y 
ambientales en bosques nativos de Argentina. 
OBJETIVOS ESPECÍFICOS 
1. Comparar, desde su aplicación en escenarios de estructura espacial genética de tipo 
parche y clina, métodos estadísticos basados en correlaciones y regresiones entre 
matrices de distancia, índices de autocorrelación espacial, correlogramas discretos, 
semivariogramas y técnicas de ordenamiento multivariado. 
2. Evaluar, bajo distintos escenarios biológicos, el desempeño relativo para detectar y 
caracterizar estructura genética espacial de métodos tradicionales (Prueba de 
Mantel, Regresiones propuestas por Rousset) y nuevas propuestas basadas en la 
complementación de Análisis de Componentes Principales y Análisis de 
Componentes Principales Espacial con métricas de autocorrelación espacial. 
3. Analizar la estructura espacial a escala fina de la variabilidad genética, morfológica y 
morfométrica en un enjambre híbrido del complejo taxonómico Prosopis spp. 
4. Explorar asociaciones multivariadas entre la variabilidad genética y morfológica en 
un enjambre híbrido del complejo taxonómico Prosopis spp. 
5. Ilustrar la aplicación de aproximaciones basadas en el uso complementario de 
análisis multivariados y modelos lineales mixtos en estudios de asociación con datos 
autocorrelacionados espacialmente. 
6. Caracterizar la diversidad y la estructura genética espacial de poblaciones de 
Polylepis australis a lo largo de su rango de distribución. 
7 
 
7. Comparar niveles de diversidad genética entre y dentro de las regiones de 
distribución de Polylepis australis en función de su posición geográfica. 
8. Caracterizar la inestabilidad ambiental de sitios donde se desarrollan poblaciones de 
Polylepis australis a través de indicadores derivados de información satelital. 
9. Asociar la diversidad genética de Polylepis australis con la heterogeneidad temporal 
del ambiente en el paisaje. 
 
 
 
 
8 
 
 
CAPÍTULO I 
 
MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL 
DE LA VARIABILIDAD GENÉTICA EN ESPECIES 
ARBÓREAS 
 
9 
 
INTRODUCCIÓN 
La importancia del análisis espacial de la variabilidad genética se ha incrementado 
recientemente dada la necesidad de conservar y restaurar los ecosistemas naturales a 
nivel mundial. Sin embargo, las motivaciones que originan los estudios de estructura 
genética espacial (EGE) son mucho más amplias. Inicialmente, la dimensión espacial fue 
incorporada a los modelos genético poblacionales a través de su impacto en la 
reproducción y dispersión de los individuos, dando lugar al modelo de asilamiento por 
distancia (IBD, por sus siglas en inglés) desarrollado por Wright (1943; 1946). Otros 
desarrollos teóricos posteriores han ampliado y generalizado esta teoría (Kimura y 
Weiss 1964; Malécot 1975; Rousset 1997). La motivación original de dichas 
aproximaciones fue estimar parámetros relacionados a la reproducción, demografía y 
migración de las poblaciones naturales y para eso sus desarrollos se basan en supuestos 
biológicos y modelos poblacionales. Sin embargo, en los últimos años, el estudio 
combinado de la información espacial y genética se ha ampliado notablemente, 
incluyendo nociones de la ecología de paisajes y dando origen a una nueva disciplina, la 
genética del paisaje (Manel et al. 2003; Manel y Segelbacher 2009). Estos estudios 
persiguen el fin de entender los procesos y patrones de flujo génico y adaptación local, 
pero desde una perspectiva diferente, podríamos decir más ecológica. En muchos de los 
trabajos, el objetivo del análisis conjunto de la información genética y espacial no es 
estimar un parámetro poblacional, como podría ser el tamaño del vecindario de un 
individuo en una población, sino, por ejemplo, lograr una buena representación gráfica 
de cómo varía en el espacio la diversidad o la identidad genética de los individuos. En 
otros casos, se busca modelar la estructura de correlación espacial de la variabilidad 
genética para tenerla en cuenta en análisis estadísticos que demandan datos 
independientes y, consecuentemente, donde las correlaciones entre observaciones 
pueden sesgar los resultados. No sólo las estimaciones de variabilidad pueden cambiar 
en un contexto de datos correlacionados espacialmente sino que también se ve afectada 
la significancia de las asociaciones que podrían ser de interés entre los datos genéticos 
con otros conjuntos de variables como aquellas que describen el ambiente o el fenotipo. 
Los procedimientos analíticos que se deben utilizar según los objetivos que se persigan, 
son diferentes. Es así, como el cuerpo de análisis estadísticos utilizados en estudios de 
datos espaciales o geo-posicionados es muy variado y muchas veces no es claro para el 
10 
 
investigador qué método es más conveniente usar para analizar estadísticamente un 
problema biológico específico. Esta situación ha conducido a discusiones sobre la 
selección de metodologías de análisis espacial en análisis genéticos (Guillot et al. 2009). 
La gran cantidad de trabajos biológicos que discuten las aproximaciones metodológicas, 
es una evidencia de la necesidad que existe de investigar el uso de técnicas de análisis 
espacial en Genética (Vekemans y Hardy 2004; Guillot 2009; Jombart et al. 2009b; 
Francois y Durand 2010; Segelbacher et al. 2010; Balzarini et al. 2011). Asimismo, 
existen numerosos estudios de simulación que han sido diseñados para responder 
preguntas específicas sobre el desempeño, desde criterios estadísticos más que 
biológicos, de metodologías que alternativamente pueden utilizarse para un mismo 
problema y por tanto para obtener recomendaciones sobre el método más apropiado 
para el análisis de una situación específica (Guillot y Santos 2009; Guillot y Rousset 
2012). 
Para elegir el método analítico más apropiado para contestar una pregunta referida 
a EGE es necesario analizar y diferenciar diversos aspectos del problema en cuestión. 
Una primera diferenciación a considerares la identificación de la escala espacial, la cual 
dependerá del proceso o patrón biológico de estudio (Anderson et al. 2010). A nivel 
metodológico la escala puede afectar la capacidad del método para identificar con 
precisión el tipo e intensidad del patrón espacial subyacente en los datos genéticos. A 
nivel biológico, las conclusiones e inferencias realizadas sobre una escala espacial que 
no concuerda con las preguntas y/o la historia natural del objeto de estudio pueden 
directamente carecer de sentido o ser incorrectas. En general, se reconocen dos grandes 
escalas en estudios de EGE, la escala fina o microgeográfica y la escala macrogeográfica. 
Cuando no es posible identificar grupos de individuos como podrían ser poblaciones, las 
unidades de análisis (entidades) sobre las cuales se investigan los patrones espaciales 
genéticos son los mismos individuos, generalmente distribuidos en forma continua en el 
espacio y a escala espacial fina. 
Otra cuestión sobre la que es necesario pensar, antes de seleccionar un método de 
análisis de EGE, es la naturaleza discreta o continua del patrón espacial presente en los 
datos genéticos. Los métodos para el análisis de patrones espaciales pueden agruparse 
en dos grandes familias según esta consideración: los análisis de patrones de puntos y 
los análisis de patrones de superficies (Legendre 1993). Los análisis de patrones de 
puntos buscan detectar si la distribución espacial en las entidades de estudio se 
11 
 
distribuyen al azar o no, en cuyo caso es de interés describir si se encuentran agrupadas 
o regularmente distribuidas (Ripley 1981; Upton y Fingleton 1985; Ripley 1987; 
Schlather et al. 2004). Los análisis de patrones de superficies, en cambio, estudian 
variables que se distribuyen en forma continua en el espacio. Si bien comúnmente los 
datos provienen de muestreos en espacios discretos, el fenómeno de estudio se suele 
suponer como continuo en el espacio. En estos casos, las coordenadas espaciales son el 
resultado de una elección del investigador y no reflejan propiedades intrínsecas del 
proceso que se está estudiando. Las situaciones en las que tanto la variable como la 
posición de las entidades son informativas, han sido muy poco exploradas en el contexto 
de la genética espacial, muy probablemente debido a la dificultad de aplicar los análisis 
de patrones de puntos a datos multivariados como los genéticos (Guillot et al. 2009). Sin 
embargo, algunas veces sucede que la distribución de las entidades de estudio en el 
espacio no sigue un patrón aleatorio. Por ejemplo, en especies arbóreas puede suceder 
que no todas las regiones del espacio tengan la misma probabilidad de contener un 
árbol. En estos casos, la posición en el espacio de los individuos no puede ser 
considerada independiente de los genotipos y debería ser analizada y modelada como 
parte del mismo proceso. Una aplicación del uso de modelos de patrones de puntos para 
describir la distribución de árboles y sus genotipos demostró que esta metodología 
puede ser útil en estudios de estructura genética espacial a escala fina (Shimatani 2002; 
Shimatani y Takahashi 2003; Shimatani 2004). En este trabajo, nos ocuparemos de 
métodos que asumen patrones continuos en el espacio, suponiendo que la distribución 
de los genotipos en el espacio, es al azar. 
Otra noción importante que es necesario contemplar en la selección de un método 
de análisis, es el objeto de la inferencia, el cual está directamente relacionado con el 
objetivo principal del estudio. En algunos casos se busca la detección de un cambio 
espacial a nivel promedio de la característica genética de interés o en otros casos, la 
detección de una estructura de correlación entre las componentes aleatorias de las 
observaciones realizadas en sitios más o menos cercanos en el espacio. La detección de 
la estructura espacial de correlación de los términos aleatorios suele realizarse tanto 
para obtener estimaciones más precisas de variabilidad como para derivar la distancia a 
la cual un par de observaciones se considera independiente y así inferir procesos de 
dispersión. 
12 
 
 Si bien el desarrollo de análisis de datos espaciales es muy amplio (Schabenberger y 
Gotway 2005), su aplicación en datos genéticos georreferenciados presenta un desafío 
particular: la naturaleza categorizada y multivariada del dato genético (Jombart et al. 
2009b; Balzarini et al. 2011). Para obtener los datos genéticos es común el uso de 
marcadores moleculares o de técnicas de secuenciación que aportan información sobre 
ciertas porciones del genoma de cada individuo (loci) favoreciendo la clasificación o 
categorización de las entidades en función de las características cualitativas registradas 
en cada locus. La caracterización genética de individuos o de poblaciones puede incluir 
decenas, cientos, miles o incluso cientos de miles de loci que deben ser considerados en 
forma simultánea como una observación multivariada. El cálculo de distancias genéticas 
entre entidades (individuos o poblaciones), es una de las aproximaciones más utilizadas 
para resumir la información molecular multivariada en indicadores univariados que 
permiten estudiar la variabilidad genética. La disponibilidad de métricas para calcular 
distancias que cuantifican la diferenciación genética entre dos unidades de análisis, es 
amplia (Bruno y Balzarini 2010). Numerosas aproximaciones para detectar y cuantificar 
estructura espacial genética, se basan en el estudio de la relación entre alguna de estas 
métricas de distancias genéticas con métricas de distancias geográficas. Estas 
aproximaciones se basan en la búsqueda de autocorrelación espacial, es decir, la 
propiedad de que entidades más cercanas en el espacio sean más parecidas 
(autocorrelación positiva) o menos parecidas (autocorrelación negativa) que lo 
esperado por azar. La cuantificación de la autocorrelación espacial en datos genéticos ha 
sido abordada desde la teoría de la genética de las poblaciones para estimar parámetros 
relacionados al flujo génico, como el número de migrantes o el tamaño del vecindario 
(Epperson y Allard 1989; Epperson 1990; 2005; 2007). 
La prueba de Mantel (Mantel 1967), es una de las herramientas estadísticas más 
utilizadas para evaluar la dependencia estadística entre las distancias geográficas y 
genéticas. Éste método es esencialmente exploratorio y carece de supuestos sobre los 
procesos biológicos o los efectos de otros factores que pueden influenciar el patrón 
espacial genético. Otros métodos estadísticamente formales, como aquellos basados en 
regresiones, evalúan la relación entre distancias genéticas y geográficas bajo supuestos 
biológicos y permiten estimar parámetros como el tamaño de vecindario de cada 
entidad (Rousset 1997; 2000). Existen también diversos coeficientes univariados que 
permiten cuantificar la autocorrelación espacial como el índice de Moran (Moran 1950) 
13 
 
o el índice de Geary (Geary 1954). En general éstos se han aplicado sobre datos 
univariados, como puede ser una frecuencia alélica. No obstante, Smouse y Peakall 
(1999) proponen el cálculo de un coeficiente de autocorrelación que permite rescatar la 
naturaleza multivariada de los perfiles genotípicos obtenidos con marcadores 
multilocus-multialélicos. Estos índices miden a través de un coeficiente de correlación y 
en base a matrices de distancias genéticas, la similitud genética entre pares de 
individuos que se encuentran separados a una determinada distancia geográfica y luego 
de evaluar estas correlaciones para un conjunto discreto de clases de distancia se 
grafican los coeficientes de correlación en relación a la distancia de separación (lag) 
usada, constituyendo correlogramas. Otra herramienta que relaciona las diferencias 
genéticas entre entidades separadas a una cierta distancia, pero para un dominio 
continuo de lags, es la función conocida en Geoestadísticacomo semivariograma 
(Schabenberger y Gotway 2005). La función puede utilizarse para cuantificar la 
magnitud de autocorrelación espacial de la variabilidad genética. Esta aproximación 
geoestadística ha sido usada para datos genéticos recién en los últimos años (Wagner et 
al. 2005). 
Las distancias multivariadas son útiles para el estudio de variabilidad genética, pero 
dado que el dato de distancia relaciona a un par de unidades de análisis a la vez, surgen 
limitaciones cuando se desea visualizar cómo varía la identidad genética de los 
individuos en su conjunto. Dentro de las técnicas estadísticas del Análisis Multivariado 
(Johnson y Wichern 2007), existen las técnicas de reducción de la dimensión (TRDs) las 
cuales permiten resumir la información provista por los datos genéticos en nuevas 
variables sintéticas, que luego pueden ser usadas en relación a las técnicas de análisis 
espacial antes mencionadas. El Análisis de Componentes Principales (ACP) (Hotelling 
1933) suele ser usado para resumir la información molecular, contenida en perfiles 
genotípicos o perfiles de frecuencias alélicas, en pocas variables sintéticas (Jombart et al. 
2009b; Balzarini et al. 2011). Estas nuevas variables, conocidas como Componentes 
Principales (CP), fueron exitosamente utilizadas para realizar mapas sintéticos de 
variabilidad genética desde trabajos pioneros como los de Cavalli-Sforza (1966) hasta 
otros más actuales como el de Laloë et al. (2010). Sin embargo, cuando el ACP es usado 
con datos georreferenciados no incorpora explícitamente la información espacial. El uso 
de la información espacial a priori, es decir, dentro del criterio de optimización de la 
TRD permite obtener las variables sintéticas con mayor capacidad para identificar EGE. 
14 
 
Este tipo de TRD fue aplicada en el contexto de datos ecológicos por Thioulouse et al. 
(1995). Jombart et al. (2008) desarrolló una TRD para datos genéticos 
georreferenciados conocida como ACP espacial, basándose en una modificación del ACP 
que permite optimizar la varianza genética y la autocorrelación espacial 
simultáneamente. Un concepto importante para evaluar la significancia estadística de 
EGE en el contexto de datos espaciales multivariados en un espacio continuo, es el de 
redes de conexión entre unidades de análisis (Legendre y Fortin 1989). Éste permite 
definir vecindarios conformados por un conjunto de entidades que debieran ser 
consideradas próximas y con las cuales se evaluará la similitud genética entre la entidad 
objeto de análisis y aquellas del vecindario. Los recursos metodológicos para definir 
redes de conexión son varios y la selección de uno u otro tipo de red depende 
fuertemente del patrón espacial de las unidades de análisis. 
Como se mencionó anteriormente, existen distintas funciones de estructura que 
permiten cuantificar la dependencia espacial en función de distintas clases de distancia, 
como son los correlogramas y los semivariogramas. Existe también otro grupo de 
métodos que tienen por objetivo detectar barreras de flujo génico. Muchos de estos 
métodos se basan en el agrupamiento de los perfiles genotípicos mediante algoritmos de 
conglomerado o mediante agrupamientos basados en métodos bayesianos que calculan 
para cada entidad la probabilidad de pertenecer a uno u otro conglomerado, como es el 
caso del software STRUCTURE (Pritchard et al. 2000). En la mayoría de estos métodos 
de agrupamiento, la información espacial no se utiliza en el algoritmo. Recientemente, se 
han desarrollado estrategias analíticas para que los agrupamientos consideren 
explícitamente las coordenadas geográficas (Francois y Durand 2010). La idea básica de 
estos últimos métodos es que es más probable que dos individuos cercanos en el espacio 
pertenezcan al mismo grupo que si se toman dos individuos al azar. La aproximación fue 
propuesta inicialmente por Francois et al. (2006) e implementada en distintos software 
como GENECLUST (Ancelet 2010), TESS (Chen et al. 2007), BAPS (Corander et al. 2004) 
y GENELAND (Guillot et al. 2008). Estos métodos de agrupamiento difieren 
sustancialmente de los métodos que analizan la autocorrelación espacial tanto a nivel de 
los algoritmos como en los objetivos finales que persiguen. 
En el presente Capítulo se describen, analizan e ilustran los principales métodos 
utilizados para detectar y cuantificar EGE aplicables a datos genéticos georreferenciados 
a escala espacial fina. Se comparan, desde su aplicación en escenarios de estructura 
15 
 
espacial genética de tipo parche y clina, métodos estadísticos basados en correlaciones y 
regresiones entre matrices de distancia, índices de autocorrelación espacial, 
correlogramas discretos, semivariogramas y técnicas de ordenamiento multivariado. Se 
citan los programas donde están implementados los análisis descriptos y se dan 
ejemplos de la literatura en donde se los aplica a especies arbóreas. Los conjuntos de 
datos utilizados corresponden a los publicados por Jombart et al. (2008). En el Anexo 1 
se describen los datos y los procedimientos utilizados por Jombart para simular ambos 
conjuntos de datos (Anexo 1.1) y se proporcionan las rutinas desarrolladas en lenguaje 
R para realizar los análisis de datos presentados (Anexo 1.2). De esta manera, el 
presente Capítulo constituye una revisión sobre los métodos estadísticos que 
actualmente son más usados en estudios de EGE, con el valor agregado de la ilustración 
simultánea en dos conjuntos de datos que permiten la comparación de los métodos 
analizados haciendo énfasis en los distintos tipos de conclusiones biológicas que se 
pueden obtener. 
 
 
 
16 
 
PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA 
GENÉTICA ESPACIAL (EGE) 
CORRELACIÓN ENTRE DISTANCIAS 
La prueba de Mantel (Mantel 1967) es una de las herramientas estadísticas más 
utilizadas para evaluar la significancia estadística de la dependencia entre distancias 
genéticas y geográficas. Ésta evalúa, vía procedimientos de permutación aleatoria, si la 
relación lineal entre las distancias geográficas y genéticas es significativa, lo cual se 
considera indicativo de la presencia de EGE global. No se basa en teoría genética y no 
requiere de supuestos biológicos, siendo esencialmente exploratoria ya que evalúa el 
nivel de significación de la correlación entre dos matrices de distancias. Las distancias 
de ambos tipos (genéticas y geográficas) se pueden expresar matricialmente ya que 
corresponden a pares de individuos o pares de grupos de individuos identificados a 
priori. El estadístico de la prueba de Mantel es el mismo coeficiente de correlación lineal 
de Pearson: 
( , )
( ). ( )
XY
Cov X Y
Z r
Var X Var Y
= = 
 
donde el numerador representa la covarianza entre las matrices X e Y (suma de 
productos cruzados entre los elementos de la matriz X y la matriz Y) y el denominador la 
raíz cuadrada del producto de la varianza (suma de cuadrados) total en cada matriz. 
El problema de evaluar el nivel de significación de la correlación entre dos 
matrices de distancias no es sencillo debido a la falta de independencia entre los pares 
de distancias. En los primeros desarrollos, Mantel proporcionó una prueba de 
significancia estadística para evaluar la hipótesis de no correlación (correlación cero) 
basada en la propiedad de normalidad asintótica del estimador de la correlación. Luego 
desarrolló otra prueba no asintótica, es decir aplicable a situaciones donde el número de 
individuos en la muestra no necesita ser grande, vía simulación Monte Carlo de los 
valores de correlación. La prueba de permutación de Mantel, deja inalterada una de las 
matrices y permuta filas (y columnas) de la otra matriz de manera de desfigurar, si 
existiera, la correlación entre ambas. Luego de realizar numerosas permutaciones y 
calcular en cada escenario la correlación, obtiene la distribución del estadístico bajo la 
17 
 
hipótesis nula(falta de correlación) y posicionando al valor de correlación encontrado 
en las matrices inalteradas estima la significancia estadística o valor p (probabilidad de 
obtener valores mayores o iguales al valor absoluto del estadístico observado). Cuando 
la correlación entre la matriz de distancias genéticas y la matriz de distancias 
geográficas es estadísticamente significativa, se concluye que existe estructura espacial 
lineal. 
La correlación lineal entre estas distancias podría deberse a distintos modelos 
biológicos como el aislamiento por distancia o a la presencia de barreras del flujo génico, 
los cuales podrían reflejarse en una clina o en una estructura de parches, 
respectivamente. Mientras que la primera situación podría reflejar la capacidad de 
dispersión intrínseca de una especie, la segunda podría resultar del efecto de 
características del paisaje sobre el flujo génico. 
A pesar de su larga historia, las cualidades de la prueba de Mantel siguen siendo 
estudiadas. Un estudio reciente de simulación demuestra que para detectar EGE, la 
prueba de Mantel no produce mejores resultados que otros análisis estadísticos, como 
por ejemplo las regresiones, y que puede tener un exceso de error tipo I (Legendre y 
Fortin 2010). No obstante, la prueba de Mantel sigue siendo muy utilizada para detectar 
y cuantificar estructura espacial genética tanto en bosques (Born et al. 2008; Yeoh et al. 
2011) como en otros ecosistemas. Se encuentra disponible en diversos software: 
InfoGen (Balzarini y Di Rienzo 2011), GenAlEx (Peakall y Smouse 2006), GenPop 
(Rousset 2008b) y R (R Development Core Team 2011). 
APLICACIÓN DE LA PRUEBA DE MANTEL 
Para ilustrar la Prueba de Mantel en los escenarios de parche y clina (Anexo I) se 
calcularon distancias genéticas a partir de las frecuencias alélicas de los perfiles 
genotípicos y distancias geográficas a partir de las coordenadas bidimensionales que 
posicionan en el espacio a los individuos genotipados. En ambos casos se calculó la 
distancia Euclídea. La significancia de la Prueba de Mantel se evaluó utilizando 999 
permutaciones y la librería “vegan” en R (Oksanen et al. 2011). 
En la Figura 1.1 se representan las distancias genéticas en función de las 
distancias geográficas para los datos simulados. Para ambas estructuras espaciales 
(parches y clinas), la prueba de Mantel resultó significativa (p<0.05). 
18 
 
 
 
Figura 1.1: Gráficos de dispersión de las distancias genéticas vs. geográficas para las 
estructuras de parches (izquierda) y clina (derecha). Se indica el coeficiente de correlación y el 
valor p de la Prueba de Mantel. 
 
En ambos casos el coeficiente de correlación fue bajo, aunque fue mayor en la 
estructura de clina que en la estructura de parches (r=0.14 y r=0.09, respectivamente). 
Como el coeficiente mide una correlación de tipo lineal, es decir, un aumento 
proporcional en las distancias genéticas para los incrementos en distancias geográficas, 
es de esperar que los patrones clinales sean mejor recuperados que los patrones de 
parches, ya que en éstos últimos las diferencias en distancias genéticas dentro de un 
mismo parche no siguen un patrón espacial. En muchas circunstancias los coeficientes 
de correlación son relativamente bajos pero aún significativos y este exceso de 
significancia puede atribuirse a la subestimación del error estándar de la estimación, la 
cual es ocasionada por un tamaño muestral alto debido a que el n que se usa en los 
cálculos, es la cantidad de distancias que se generan cuando se consideran todos los 
pares de individuos posibles. 
 
 
 
0 45 90 135 180
Distancias geográficas
5
10
15
20
25
D
is
ta
nc
ia
s 
ge
né
tic
as
r=0.09
p=0.03
0.0 0.5 1.0 1.5 2.0
Distancias geográficas
2
4
6
8
10
12
14
16
D
is
ta
nc
ia
s 
ge
né
tic
as
r=0.14
p=0.001
19 
 
REGRESIÓN ENTRE DISTANCIAS 
El estudio de la relación entre estimadores de diferenciación genética y distancias 
geográficas fue formalizado en base a modelos de aislamiento por distancia para realizar 
estimaciones de flujo génico. En este contexto, se han propuesto modelos de regresión 
para analizar la relación entre distancias geográficas y medidas de diferenciación 
genética entre subpoblaciones o poblaciones en las cuales los individuos se encuentran 
agregados (Rousset 1997) y entre individuos distribuidos en forma continua (Rousset 
2000). En el primer caso, Rousset propone estudiar esta relación mediante regresiones 
entre el cociente: Fst / (1-Fst) entre pares de subpoblaciones y la distancia geográfica. Al 
extender el análisis sobre individuos distribuidos continuamente en el espacio, propone 
la medición de la diferenciación entre individuos mediante un estadístico denominado â 
(Rousset 2000). En este caso, la inversa de pendiente de la recta de regresión entre la 
diferenciación genética y las distancias geográficas estima el tamaño de vecindario, el 
cual se expresa como (4πDσ2), donde D es la densidad de individuos y σ es la distancia 
de dispersión media. Tanto para poblaciones como para individuos, en espacios 
unidimensionales se recomienda utilizar las distancias geográficas sin ninguna 
transformación. Sin embargo, en espacios bidimensionales las distancias geográficas se 
distribuyen exponencialmente, ya que son más frecuentes las distancias más pequeñas y 
poco frecuentes las distancias más grandes. Este tipo de distribución de las distancias 
puede ocasionar problemas en la estimación de los parámetros de regresión ya que la 
densidad de observaciones varía sustancialmente a lo largo del rango de la variable 
regresora, incrementando el efecto palanca o leverage (Draper y Smith 1998) de algunas 
pocas observaciones. La transformación de las distancias geográficas a través de la 
función logaritmo otorga una distribución más simétrica a la variable regresora, con 
menor probabilidad de datos mal condicionados para una estimación por modelo de 
regresión lineal y mejorando la estimación de los coeficientes de regresión. Las 
regresiones de Rousset fueron desarrolladas en base a la teoría de aislamiento por 
distancia y los estimadores de parentesco entre pares de individuos o poblaciones 
utilizados en dichas regresiones fueron pensados para marcadores codominantes. Si se 
usaran marcadores dominantes, deberían calcularse otros estimadores de parentesco 
para estimar tamaño de vecindario en escenarios de aislamiento por distancia, como son 
los propuestos por Hardy (2003). 
20 
 
Las estimaciones realizadas mediante las regresiones de los estimadores de 
diferenciación propuestos por Rousset y las distancias geográficas son aproximadas 
cuando la tasa de mutación (μ) es baja y bajo un cierto rango de distancias (d<σ y 
d>0.5σ/2μ en dos dimensiones). Si bien esta restricción puede dificultar el estudio de la 
EGE de especies con distancias de dispersión (σ) muy altas, diversos trabajos han 
utilizado esta aproximación en especies arbóreas (Heuertz et al. 2003; Hardesty et al. 
2005; Born et al. 2008). La regresiones de Rousset pueden realizarse mediante el 
software GenePop (Raymond y Rousset 1995; Rousset 2008b). 
ESTIMACIÓN DE LAS REGRESIONES PROPUESTAS POR ROUSSET 
Para ilustrar la aplicación de regresiones entre diferenciación genética y distancia 
geográfica se calculó el estimador a propuesto por Rousset para el caso donde las 
unidades de análisis son individuos (Rousset 2000). Dado que el espacio de estudio es 
bidimensional (área), se trabajó con el logaritmo de las distancias geográficas. 
Posteriormente, se ajustó un modelo de regresión lineal entre ambas medidas. La 
magnitud de la relación y el vecindario se estimaron a partir de la pendiente de la recta 
de regresión. El error estándar de la pendiente estimada fue usado para construir un 
intervalo de confianza al 95%, el cual permite detectar si existe o no EGE. Si el intervalo 
de confianza para la pendiente contiene el 0 (no relaciónentre ambas distancias), se 
infiere que no existe estructura espacial. Todos los análisis se realizaron con el 
programa Genepop 4.1 (Rousset 2008b). 
En la Figura 1.2 se observan los gráficos de dispersión entre el logaritmo de la 
distancia geográfica y la diferenciación genética entre individuos para ambas 
estructuras. Para el caso de estructura de parches, la pendiente de la recta de regresión 
(0.0105) fue menor que para la estructura de clina (0.0184), lo cual indica que se detecta 
mayor estructura en la clina. Para los parches, el vecindario estimado es de 95 
individuos, mientras que para el caso de la clina la estimación del vecindario es de 54 
individuos. 
21 
 
 
Figura 1.2: Gráfico de dispersión entre el logaritmo de la distancia geográfica y la 
diferenciación genética entre individuos para las estructuras de parche (izquierda) y clina 
(derecha). Se muestran las rectas de regresión ajustadas. 
 
El principio subyacente supone que a mayor estructuración espacial (mayor 
pendiente), el tamaño del vecindario es menor. Así, éste estadístico es un predictor 
robusto de la diferenciación con la distancia (Rousset 2008a), en el sentido que el 
incremento no depende de la forma de distribución de la dispersión, la cual podría 
afectar la magnitud de la diferenciación genética de un lugar a otro. Los resultados 
obtenidos con las regresiones concuerdan con los obtenidos mediante la prueba de 
Mantel, en el sentido de que ambos detectan mayor estructuración en el caso de la clina. 
 ÍNDICES DE AUTOCORRELACIÓN ESPACIAL 
Dos de los índices más usados para medir autocorrelación espacial son el Índice de 
Moran (Moran 1950) y el Índice de Geary (Geary 1954). La aplicación de índices que 
miden autocorrelación espacial en el ámbito de la genética de poblaciones fue 
inicialmente realizada sobre datos simulados (Sokal y Wartenberg 1983; Barbujani 
1987; Sokal et al. 1989b). En las simulaciones de éstos trabajos se aborda la 
autocorrelación espacial en sentido univariado, es decir para medir la magnitud de la 
autocorrelación en los valores de una única variable. 
 El cálculo del índice o coeficiente de Moran de autocorrelación espacial en un 
espacio continuo requiere la definición de una matriz de ponderación espacial y para 
-4 -3 -2 -1 0 1 2 3
ln(d)
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
a
a =0.00460383 + 0.010483* ln (distancia)
-6 -5 -4 -3 -2 -1 0 1
ln(d)
-0.5
-0.4
-0.3
-0.1
0.0
0.1
0.3
0.4
0.5
a = 0.0421825 + 0.0184058 * ln (distancia)
22 
 
obtener estos ponderadores se pueden seguir distintos procedimientos, entre los que se 
destacan el uso de redes de conexión (Dray 2011). Las redes de conexión o gráficos de 
vecindario se generan conectando individuos vecinos en un mapa (Legendre y Legendre 
1998). La triangulación de Delaunay es un método recomendado para construir gráficos 
de vecindario cuando las entidades se encuentran distribuidas en forma homogénea en 
el espacio. Sin embargo, puede conectar a entidades periféricas que no deberían estar 
relacionadas. El gráfico de Gabriel es un subconjunto del gráfico de Delaunay que no 
incluye las conexiones periféricas. Las redes de conexión pueden ser adaptadas 
manualmente pudiéndose excluir contactos entre puntos cercanos o incluir relaciones 
entre puntos lejanos, siguiendo criterios biológicos como por ejemplo la existencia de 
barreras geográficas o corredores biológicos. 
 Para calcular el índice de Moran se mide la variable en una zona, llamémosla i-
ésima zona y se compara su valor con el valor promedio de la variable en las 
localizaciones de su vecindario. La expresión del índice es: 
,
2
,
( )( )
( ) ( )
i j i ji j
i j ii j i
N W X X X X
I
W X X
− −
=
−
∑ ∑
∑ ∑ ∑
 
donde N es el número total de observaciones, Xi es el valor de la variable en una 
localización particular (posición i) y Xj es el valor de la variable en otra localización 
(posición j). El elemento Wij de la matriz de ponderaciones W, es el peso aplicado a la 
comparación de las observaciones en la posición i y la posición j que puede ser 
entendido como un coeficiente de continuidad. Cuando se utilizan redes de conexión, la 
matriz W está compuesta por ceros y unos ya que si la posición j es adyacente a la 
posición i, el término ij recibe un peso de 1 y si no, de 0. Otra posibilidad para construir 
la matriz W es relacionar los elementos con la distancia d entre las posiciones de manera 
inversamente proporcional, es decir: 1=ij
ij
W d . 
El índice de Moran varía entre –1 y 1 ya que es estandarizado por la variabilidad 
de X. Cuando la autocorrelación es alta, el coeficiente será alto. Un valor cercano a 1 
indica una alta correlación positiva, mientras que valores cercanos a –1 indican 
autocorrelación negativa. Una desventaja de Wij es que su valor se encuentra 
distorsionado por la unidad de medida de la distancia entre posiciones, por lo cual, Wij 
debe ser normalizado. 
23 
 
El Índice C de Geary, es similar al índice de Moran, pero en su numerador no mide 
la interacción a través del producto cruzado de las desviaciones con respecto a la 
media, sino que expresa la magnitud de las desviaciones entre observaciones en las 
diferentes localizaciones. La expresión del índice de Geary es: 
( ) 2,
2
,
1 ( )
2( ) ( )
i j i ji j
i j ii j i
N W X X
C
W X X
− −
=
−
∑ ∑
∑ ∑ ∑
 
El valor índice de Geary se encuentra en el intervalo [0,2]. Si no hay 
autocorrelación espacial, el valor esperado de C es 1. Valores del índice entre uno y dos 
indican autocorrelación espacial negativa. Este índice se relaciona inversamente con el 
índice de Moran. Al enfatizar las diferencias entre pares de observaciones más que la 
covariación entre ellos, el índice de Geary no provee una inferencia biológica idéntica a 
la del índice de Moran. Para evaluar la significancia estadística de estos índices es 
posible usar pruebas basadas en aproximación normal o métodos computacionalmente 
intensivos. 
 El uso del índice de Moran de autocorrelación espacial para estimar distancias de 
dispersión ha sido utilizado en una serie de trabajos realizados por Epperson (1990; 
1993; 1994; 1995a; 1995b; 2003; 2005; 2007; 2010). Epperson considera que el uso del 
índice de Moran para estimar dispersión a distancias pequeñas es muy robusto bajo una 
gran variedad de condiciones. Sin embargo, asume que las consecuencias genéticas de la 
dispersión afectan únicamente a la varianza de la distribución de la dispersión, lo cual es 
seriamente criticado por otros autores. Rousset (2008a) señala que la forma de la 
distribución de dispersión afecta la magnitud de diferenciación entre sitios e incluso 
sugiere que el índice de Moran no debería usarse para estimar dispersión. Otra cuestión 
a tener en cuenta es que el problema de calcular el índice de Moran para varios alelos de 
un locus y a través de loci no es simple (Epperson 2005), por lo cual en general, se usa 
en sentido univariado. 
 Los índices de Moran y de Geary pueden calcularse en R mediante las librerías 
“spdep” (Bivand et al. 2011) y “ape” (Paradis et al. 2004). Su aplicación al estudio de 
patrones espaciales genéticos en árboles puede encontrarse en diversos trabajos 
(Epperson y Allard 1989; Epperson y Gi Chung 2001; Epperson et al. 2001; Epperson et 
al. 2003). 
24 
 
CÁLCULO DE ÍNDICES DE MORAN Y GEARY 
A diferencia de las aplicaciones anteriores, que tienen en cuenta todos los loci, para 
calcular los índices de autocorrelación espacial se utilizaron datos univariados: las 
frecuencias alélicas del alelo 3 del locus 20 (L20.03) para el caso de parches y del alelo 2 
del locus 1 (L01.02) para el caso de la clina (Figura 1.3). Se eligieron estos alelos ya que 
son aquellos con mayor autocorrelación espacial para cada escenario (Jombart et al. 
2009). 
 
 
Figura 1.3: Ubicación en el espacio de las frecuencias alélicas del alelo L20.03 para el patrón 
en parches (izquierda) y del alelo L01.02para el caso de clina (derecha). El tamaño de los 
círculos representa la magnitud de la frecuencia alélica en cada genotipo. 
 
Para determinar la matriz W se definieron los vecindarios para cada entidad 
mediante la red de conexión definida por el método de triangulación de Delaunay y 
mediante el gráfico de Gabriel (Figura 1.4), utilizando la librería “spdep” de R (Bivand et 
al. 2011). Asimismo se calculó una matriz W que contenga la inversa de todas la 
distancias entre pares de puntos. Se calcularon los índices de Moran (I) y de Geary (G) 
para ambas estructuras (parches y clina) usando las tres matrices de ponderación 
descriptas (definidos por la red de conexión de Delaunay, de Gabriel y por el conjunto de 
todas las interdistancias). Los resultados pueden apreciarse en la Tabla 1. A pesar de 
que se usó el alelo con mayor estructuración espacial los resultados muestran que para 
el caso de estructura de parches, tanto el índice de Moran como el de Geary no fueron 
significativos (valores p entre 0.125 y 0.165). No obstante en la Figura 1.3 se observa la 
0 5 10
0
5
10
0.0 0.5 1.0
0.0
0.5
1.0
25 
 
estructuración de este alelo ya que en un sector del espacio (a la derecha del gráfico) las 
frecuencias del alelo son mayores (círculos más grandes). A diferencia de la estructura 
de parches, para la estructura de clinas ambos índices fueron siempre significativos. 
 
 
 
Figura 1.4: Redes de conexión calculadas mediante la triangulación de Delaunay (arriba) y 
el gráfico de Gabriel (abajo) para calcular la autocorrelación espacial mediante los Índices 
de Moran y Geary para la estructura de parches (izquierda) y clina (derecha). 
 
Tabla 1.1. Índices de autocorrelación espacial de frecuencias alélicas en escenarios de 
estructura espacial genética en parches y clina calculados a partir de distintas redes de 
conexión (Matriz W). Se indican también los valores p de la prueba de significancia. 
Patrón Matriz W 
Índice de Moran Índice de Geary 
I valor p G valor p 
Parches 
Red de Delaunay 0.062 0.125 0.933 0.155 
Gráfico de Gabriel 0.001 0.437 0.982 0.419 
Todas las distancias 0.015 0.156 0.971 0.165 
Clina 
Red de Delaunay 0.190 0.001 0.818 0.003 
Gráfico de Gabriel 0.220 0.005 0.764 0.004 
Todas las distancias 0.032 0.029 0.957 0.043 
 
Para el caso de clinas, el índice de Moran fue 0.19 utilizando el vecindario por 
triangulación de Delaunay, 0.22 utilizando el gráfico de Gabriel y 0.03 considerando 
todas las interdistancias. Si bien con este último método para definir vecindario, el 
26 
 
coeficiente cayó en magnitud respecto a la situaciones donde se usó otro vecindario, los 
valores p de la prueba estadística fueron siempre menores al nivel de significación 
usado (0.05), indicando la presencia de autocorrelación espacial positiva y por tanto de 
EGE. El índice de Geary también detectó mayor autocorrelación espacial positiva cuando 
se usó el método de Gabriel para definir el vecindario, y en todos los caso los valores p 
también indicaron la presencia de autocorrelación positiva. Los resultados obtenidos a 
partir de índices de autocorrelación espacial, demuestran la dependencia de los índices 
con el vecindario elegido. Así como cualquier método para estimar tamaño de vecindario 
debería depender de supuestos específicos sobre el modelo de dispersión sobre el cual 
se basa el análisis, los métodos que utilizan un vecindario en su cálculo deben basarse en 
supuestos biológicos sobre el mismo. A diferencia de los métodos anteriores, en este 
caso la EGE no resultó significativa para el caso de parches, siendo que se trabajó con un 
alelo con EGE simulada entre las más altas. 
CORRELOGRAMAS 
El gráfico de coeficientes de correlación, calculados a partir de pares de observaciones 
en un determinado intervalo de distancia geográfica (lag) se denomina correlograma. 
Smouse y Peakall (1999) propusieron un coeficiente de correlación multivariado, 
basado en distancias genéticas y el uso de correlogramas discretos para estudiar la 
estructura espacial genética. Como se mencionó anteriormente, el procedimiento 
requiere definir previamente dos parámetros, el tamaño del intervalo o clase de 
distancia y el número de clases de distancia. Para cada lag se estima el coeficiente de 
correlación entre todos los pares de observaciones que se encuentran a distancias 
geográficas dentro del rango de distancias que incluye dicho lag. 
El coeficiente ( )hr se expresa como: 
( ) ( ) ( )
1
N N
h h h
ij ij ii ii
i j i
r x c x c
≠
   =    
  
∑ ∑
≐ 
donde el numerador es la suma del producto, elemento a elemento, de todos los N(N-1) 
elementos fuera de la diagonal de la matriz de correlaciones genéticas (C) de N 
observaciones y de la matriz de distancias geográficas para un h determinado ( ( )hX ). El 
27 
 
denominador es la suma de los N elementos que se encuentran en la diagonal del 
producto, elemento a elemento, de tales matrices. El coeficiente ( )hr , es un coeficiente de 
correlación que vale cero cuando no hay autocorrelación y que toma valores en el 
intervalo [-1,1]. Smouse y Peakall proponen dos opciones basadas en permutaciones 
para estimar la significancia de estos coeficientes de correlación. En general se calcula la 
correlación para clases de distancia entre la mínima distancia entre muestras hasta la 
máxima distancia entre muestras. 
Recientemente se ha propuesto una prueba no paramétrica de heterogeneidad 
para comparar distintos correlogramas de estructura espacial genética a escala fina, 
obtenidos en diferentes poblaciones (Smouse et al. 2008). Este procedimiento se basa en 
la construcción de un “correlograma medio” de todas las poblaciones juntas y la 
posterior comparación lag a lag del correlograma de cada población con el 
“correlograma poblacional”. A partir de las pruebas realizadas en cada lag, los autores 
desarrollaron una prueba final para evaluar la heterogeneidad entre correlogramas a 
nivel de todos los lag en conjunto. 
Estos análisis están disponibles en el software libre GenAlEx (Peakall y Smouse 
2006) y han sido utilizados para el estudio de EGE en diversas especies de árboles 
(Vornam et al. 2004; Jones y Hubbell 2006; Fuchs y Hamrick 2010b). La prueba de 
heterogeneidad ha sido utilizada, por ejemplo, para comparar la EGE de especies 
arbóreas en zonas con distintos niveles de disturbio (Gonzales et al. 2010). 
ESTIMACIÓN DE CORRELOGRAMAS DISCRETOS 
Para obtener los correlogramas discretos, en primer lugar se calcularon las distancias 
genéticas a partir de las frecuencias alélicas de los perfiles genéticos y las distancias 
geográficas partir de las coordenadas de los individuos. En ambos casos se calcularon las 
distancias Euclídeas y se definieron 8 clases de distancias geográficas distribuidas 
equitativamente (del mismo tamaño). Todos los análisis se realizaron con el software 
GenAlEx 6.4 (Peakall y Smouse 2006). En la Tabla 1.2 se pueden observar los 
coeficientes de correlación (r) para cada clase de distancia, así como el número de pares 
de entidades evaluados (n) y la probabilidad de que el coeficiente de correlación sea 
menor o igual al obtenido por azar (p) para cada clase de distancia. Para ambos tipos de 
EGE, los correlogramas (Figura 1.5) fueron sensibles en detectar estructura espacial. 
28 
 
 
Tabla 1.2. Resultados de las correlaciones entre distancias geográficas y genéticas 
para distintas clases de distancia en escenarios de clina y parche. Se especifican los 
coeficientes de correlación (r), el número de pares de entidades evaluadas (n) y el valor p. 
 
PARCHES CLINA 
Clases de 
distancia n r p 
Clases de 
distancia n r p 
0-1 122 0.003 0.295 0-0.1 84 0.004 0.322 
1-2 235 0.013 0.001* 0.1-0.2 210 0.018 0.001* 
2-3 288 0.004 0.099 0.2-0.3 347 0.000 0.547 
3-4 386 0.002 0.256 0.3-0.4 361 0.005 0.112 
4-5 495 0.003 0.165 0.4-0.5 408 0.001 0.416 
5-6 407 -0.004 0.923 0.5-0.6 413 0.001 0.405 
6-7 356 0.000

Continuar navegando