tesis-n5074-Teich

•

UNCA

Contenidos y mucho más

28/12/2022

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Administración

613.637 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires.
Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293
Co nta cto :Co nta cto : digital@bl.fcen.uba.ar
Tesis Doctoral
Análisis de la estructura genéticaAnálisis de la estructura genética
espacial de especies arbóreas y suespacial de especies arbóreas y su
asociación con la variabilidadasociación con la variabilidad
fenotípica y ambientalfenotípica y ambiental
Teich, Ingrid
2012
Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca
Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser
acompañada por la cita bibliográfica con reconocimiento de la fuente.
This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico
Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding
citation acknowledging the source.
Cita tipo APA:
Teich, Ingrid. (2012). Análisis de la estructura genética espacial de especies arbóreas y su
asociación con la variabilidad fenotípica y ambiental. Facultad de Ciencias Exactas y
Naturales. Universidad de Buenos Aires.
Cita tipo Chicago:
Teich, Ingrid. "Análisis de la estructura genética espacial de especies arbóreas y su asociación
con la variabilidad fenotípica y ambiental". Facultad de Ciencias Exactas y Naturales.
Universidad de Buenos Aires. 2012.
http://digital.bl.fcen.uba.ar
http://digital.bl.fcen.uba.ar
mailto:digital@bl.fcen.uba.ar

UNIV
Facu
Análisis de la e
arbóreas y su a
Tesis presentada pa
Buenos A
Directora de tesis: Dra. M
Consejero de Estudios: D
Lugar de trabajo: Centro
Naturales. Facultad de C

Buenos Aires, 2012

NIVERSIDAD DE BUENOS AIRES
cultad de Ciencias Exactas y Naturales

estructura genética espacial de
u asociación con la variabilidad
y ambiental

para optar al título de Doctora de la Unive
s Aires en el área de Ciencias Biológicas

Lic. Ingrid Teich

. Mónica Balzarini
: Dr. Juan Carlos Reboreda
tro de Relevamiento y Evaluación de Recurs
Ciencias Agropecuarias, Universidad Nacion

e especies
fenotípica
iversidad de

rsos Agrícolas y
onal de Córdoba
ii

Análisis de la estructura genética espacial de especies arbóreas y
su asociación con la variabilidad fenotípica y ambiental

RESUMEN
Este trabajo aborda el análisis de estructura genética espacial (EGE) en especies
arbóreas nativas de importancia para Argentina, y su asociación a otras variables,
desde un enfoque interdisciplinar que incluye perspectivas biológicas y
metodológicas. Mediante la revisión y comparación del desempeño de métodos
estadísticos para detectar y caracterizar EGE, según distintos escenarios biológicos, se
recomiendan estrategias analíticas para el estudio espacial de la variabilidad genética
y su asociación con variables ambientales y fenotípicas. Se analizó la EGE a escala fina
en un enjambre híbrido de Prosopis spp., encontrando significativa asociación de ésta
con la variabilidad morfológica; información relevante para el ordenamiento del
recurso genético algarrobo. También se analizó la correspondencia entre la variación
espacial de la diversidad genética de poblaciones de Polylepis australis, a lo largo de
su rango de distribución, y la inestabilidad del ambiente usando nuevos índices de
heterogeneidad temporal del paisaje derivados de imágenes satelitales. Se concluye,
que sitios ambientalmente más estables albergan mayores niveles de diversidad
genética para esta especie. El estudio de EGE en árboles, y su asociación con
variabilidad fenotípica y ambiental, permite inferir procesos evolutivos-ecológicos,
que aportan conocimiento para mejorar el manejo y conservación de los bosques.

PALABRAS CLAVES: genómica, AFLP, SSR, Prosopis spp., Polylepis australis,
estadística espacial, bosques, conservación.
iii

Analysis of the spatial genetic structure in tree species and its
association to phenotypic and environmental variability

ABSTRACT
In this work, the analysis of spatial genetic structure (SGS) of native tree species and
its association with other variables is investigated with an interdisciplinary approach,
including both the methodological and biological perspectives. Through the revision
and comparison of the performance of statistical methods used to detect and
characterize SGS, under different biological scenarios, we recommend and propose
analytic strategies to spatially analyze genetic variability. We analyzed the SGS at fine
scale of a Prosopis spp. hybrid swarm and found a significant correlation with its
morphological variability, facilitating the differentiation of biological units that are
object of management and improvement of the Algarrobo genetic resource. We also
characterized the spatial pattern of Polylepis australis genetic diversity and
differentiation along its entire distribution range and found that they differ from
historical migration scenarios observed in the northern hemisphere. We found a
significant correlation between genetic diversity and environmental instability
indices derived from satellite imaginary, concluding that more environmentally stable
sites show higher levels of P. australis genetic diversity. The study of SGS in tree
species and its association with other variables allows the inference of ecological and
evolutionary processes, providing relevant information for the management and
conservation of native forests.
KEY WORDS: genomics, SSR, AFLP, Prosopis spp., Polylepis australis, spatial statistics,
forests, conservation.
iv

AGRADECIMIENTOS
Esta tesis ha sido posible gracias a numerosas personas e instituciones que me han
brindado su apoyo a lo largo de los últimos cinco años.
Principalmente quiero agradecer a mi directora, la Dra. Mónica Balzarini, por abrir las
puertas de su inmenso conocimiento y sabiduría con paciencia y buen humor. Es gracias
a su espíritu generoso y positivo que he llegado a estas instancias.
También le agradezco a mi codirectora de beca, la Dra. Ana Planchuelo, por su
minuciosa lectura de la tesis, por su valioso consejo y excelente disposición.
Agradezco a mi consejero de estudios, el Dr. Juan Carlos Reboreda, quien me escuchó
con atención y cuyas recomendaciones resultaron claves en un momento de inflexión en
mi formación y las cuales fortalecieron mi vocación científica.
Agradezco también al Dr. Andrés Ravelo por brindarme la posibilidad de trabajar en el
Centro de Relevamiento y Evaluación de Recursos Agrícolas y Naturales, lo cual fue
fundamental para el desarrollo del trabajo de investigación y a los miembros de la
Cátedra de Estadística por su cordial y generoso recibimiento.
Quiero agradecer al Dr. Aníbal Verga y su grupo del Instituto de Fisiología y Recursos
Genéticos Vegetales del INTA por aportar información y conocimiento imprescindibles
para este trabajo de investigación y por la corrección de la tesis.
Gracias a la Dra. Isabell Hensen y la Universidad Martin-Luther en Halle, Alemania, por
brindarme la posibilidad de realizar los análisis moleculares y conocer la cultura
alemana. También agradezco a Carolien Tote, Else Swinnen y VITO (Bélgica) por su
recibimiento y colaboración en el análisis de series temporales de NDVI.
Agradezco al Dr. Renison, la Dra. Cingolani y el Dr. Grilli por haber dirigido distintas
etapas de mi formación profesional, posibilitando el desarrollo de ésta tesis.
Gracias a la Facultad de Ciencias Exactas y Naturales de la UBA, por haber inculcado en
mí su espíritu de excelencia académica y por brindarme formación de grado y posgrado
de primera calidad en forma gratuita. En particular quisiera agradecer a los
v

integrantes de la Comisión de Doctorado por responder las consultas cordialmentey
posibilitar la evaluación de la tesis.
Agradezco a los Miembros del Jurado por aceptar gentilmente formar parte del tribunal
examinador y por dedicar su valioso tiempo a la revisión de este trabajo.
Gracias a Ana Bondia y a Luis Vazquez quienes colaboraron siempre para que todos los
trámites doctorales puedan realizarse desde Córdoba con eficiencia.
Agradezco también al Consejo Nacional de Investigaciones Científicas y Técnicas
(CONICET) por otorgar las becas de doctorado que permitieron llevara adelante mi
formación doctoral y profesional.
Gracias a mis amigas y amigos, quienes están siempre presentes y me han acompañado
en las buenas y en las malas. A mi mamá que me acompaña en la vida con mimos y
cariños y a mi papá que me brinda su consejo y apoyo. Y por supuesto gracias a César
que me ha acompañado intensamente en las distintas etapas de éste trabajo, desde el
campo y el laboratorio hasta el análisis de datos y escritura de trabajos, poniéndole
sabor a mis días.

A los obstáculos del camino
que templan nuestro espíritu y fortalecen nuestra determinación.
vii

TABLA DE CONTENIDOS

INTRODUCCIÓN GENERAL ........................................................................................................................... 1
OBJETIVOS GENERALES .................................................................................................................................. 6
OBJETIVOS ESPECÍFICOS ................................................................................................................................. 6
CAPÍTULO I: MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL DE LA
VARIABILIDAD GENÉTICA EN ESPECIES ARBÓREAS ................................................................... 8
INTRODUCCIÓN ................................................................................................................................................... 9
PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA GENÉTICA
ESPACIAL (EGE) ................................................................................................................................................ 16
Correlación entre distancias ................................................................................................................... 16
Aplicación de la prueba de Mantel ...................................................................................................... 17
Regresión entre distancias ...................................................................................................................... 19
Estimación de las regresiones propuestas por Rousset ............................................................. 20
Índices de autocorrelación espacial .................................................................................................... 21
Cálculo de índices de Moran y Geary .................................................................................................. 24
Correlogramas ............................................................................................................................................... 26
Estimación de correlogramas discretos ............................................................................................ 27
Semivariogramas ......................................................................................................................................... 29
Estimación de semivariogramas empíricos y teóricos ................................................................ 31
Ordenamientos Multivariados ............................................................................................................... 34
Aplicación de ACP y ACP espacial ........................................................................................................ 38
CONCLUSIÓN ...................................................................................................................................................... 45
CAPÍTULO II: EVALUACIÓN DEL DESEMPEÑO DE MÉTODOS ESTADÍSTICOS PARA
EL ANÁLISIS DE ESTRUCTURA GENÉTICA ESPACIAL ............................................................... 47
INTRODUCCIÓN ................................................................................................................................................ 48
MÉTODOS ............................................................................................................................................................. 51
Diseño del Estudio por Simulación ...................................................................................................... 51
Procedimientos Comparados y Criterios de Evaluación ........................................................... 54
RESULTADOS ...................................................................................................................................................... 56
Tasas de Error Tipo I. Escenario sin EGE ........................................................................................ 56
Tasas de Error Tipo II y caracterización del patrón espacial. Escenarios con EGE. .... 56
DISCUSIÓN ........................................................................................................................................................... 63
CONCLUSIÓN ...................................................................................................................................................... 66
viii

CAPÍTULO III: ANÁLISIS DE ASOCIACIÓN ENTRE LA VARIABILIDAD GENÉTICA Y
FENOTÍPICA EN UN ENJAMBRE HÍBRIDO DE PROSOPIS SPP. ............................................. 67
INTRODUCCIÓN ................................................................................................................................................ 68
MATERIALES Y MÉTODOS ........................................................................................................................... 70
Datos................................................................................................................................................................... 70
Especies de estudio ..................................................................................................................................... 71
Caracteres morfológicos .......................................................................................................................... 72
Caracteres moleculares ............................................................................................................................ 74
Análisis Estadísticos ................................................................................................................................... 76
Análisis espacial de datos genéticos y morfológicos .................................................................... 76
Análisis de asociaciones entre datos genéticos y morfológicos .............................................. 76
RESULTADOS ...................................................................................................................................................... 78
Análisis de estructura espacial de la variabilidad genética y morfológica ....................... 78
Asociación entre datos genéticos y fenotípicos ............................................................................. 82
DISCUSIÓN ........................................................................................................................................................... 86
CONCLUSIÓN ...................................................................................................................................................... 89
CAPÍTULO IV: VARIABILIDAD GENÉTICADE POLYLEPIS AUSTRALIS (ROSACEAE)
A LO LARGO DE SU RANGO DE DISTRIBUCIÓN ............................................................................ 90
INTRODUCCIÓN ................................................................................................................................................ 91
MATERIALES Y MÉTODOS ........................................................................................................................... 94
Sitios de estudio y diseño de muestreo ............................................................................................. 94
Análisis Molecular........................................................................................................................................ 96
Extracción de ADN genómico ................................................................................................................ 96
Restricción del ADN y Ligamiento de adaptadores ...................................................................... 97
Preamplificación ......................................................................................................................................... 97
Amplificación Selectiva ............................................................................................................................ 97
Electroforesis ................................................................................................................................................ 98
Análisis de datos ........................................................................................................................................... 98
Patrones espaciales de Diversidad genética ................................................................................. 99
Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 99
RESULTADOS .................................................................................................................................................... 101
Patrones espaciales de Diversidad genética ................................................................................. 101
Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 103
DISCUSIÓN ......................................................................................................................................................... 107
CONCLUSIÓN .................................................................................................................................................... 110
CAPÍTULO V: ASOCIACIÓN DE LA DIVERSIDAD GENÉTICA Y LA INESTABILIDAD
AMBIENTAL EN BOSQUES DE MONTAÑA DE POLYLEPIS AUSTRALIS ........................... 112
INTRODUCCIÓN ..................................................................................................................................... 113
MATERIALES Y MÉTODOS ................................................................................................................ 115
Diversidad Genética .................................................................................................................................. 115
ix

Variabilidad Ambiental ........................................................................................................................... 115
Series temporales de NDVI .................................................................................................................... 116
Cálculo de Indicadores de Inestabilidad Ambiental ................................................................... 118
Correlación de la diversidad genética poblacional con la inestabilidad ambiental .. 119
RESULTADOS .................................................................................................................................................... 120
Asociación entre inestabilidad ambiental y diversidad genética ....................................... 122
DISCUSIÓN ......................................................................................................................................................... 126
CONCLUSIÓN .................................................................................................................................................... 128
CONCLUSIÓN GENERAL ............................................................................................................................ 129
REFERENCIAS ................................................................................................................................................. 132
ANEXO I: DESCRIPCIÓN DE DATOS UTILIZADOS Y RUTINAS EN LENGUAJE R
DESARROLLADAS PARA LOS ANÁLISIS REALIZADOS EN EL CAPÍTULO I .................. 150
DESCRIPCIÓN DE LOS CONJUNTOS DE DATOS UTILIZADOS ................................................... 151
RUTINAS EN LENGUAJE R DE LOS ANÁLISIS REALIZADOS ...................................................... 157
ANEXO II: RUTINAS, PROGRAMAS Y PARÁMETROS PARA GENERAR Y ANALIZAR
LOS DATOS SIMULADOS EN EL CAPÍTULO II ............................................................................... 165
DISEÑO DE LA SIMULACIÓN ..................................................................................................................... 166
RUTINAS R Y PROGRAMAS PARA CORRER LOS ANÁLISIS ESTADÍSTICOS ....................... 169
1

INTRODUCCIÓN GENERAL
Las variaciones de las condiciones ambientales, como por ejemplo la heterogeneidad
climática o edáfica, diferentes regímenes de disturbios exógenos o endógenos y el
aislamiento geográfico, tanto de origen natural como antrópico, producen respuestas
genéticas en los individuos, que pueden generar la estructuración espacial de la
variabilidad genética. Además, muchos de los procesos evolutivos y ecológicos que
influyen sobre la variación genética, están mediados por el espacio y por tanto es
frecuente la presencia de estructura genética espacial (EGE) en la naturaleza. El estudio
de la variabilidad genética espacial permite hacer distintos tipos de inferencias sobre los
principales procesos que han operado a nivel del conjunto de individuos en un espacio
determinado. De ésta manera, el conocimiento de la EGE es crucial tanto para el uso y
manejo racional de las especies que están en procesos de domesticación y mejora
genética, como para la conservación de especies amenazadas (Escudero et al. 2003;
Teich et al. 2010; Kettle et al. 2011).
Mientras que numerosos trabajos científicos demuestran la importancia que
tiene la cantidad y distribución de la variabilidad genética en la viabilidad y resiliencia
de las especies, comunidades y ecosistemas (Reusch et al. 2005; Crutsinger et al. 2006;
Bailey et al. 2009), cada vez se incrementan más las amenazas a la diversidad genética a
nivel mundial (Laikre 2010; Laikre et al. 2010). Éstas incluyen la manipulación del
conjunto de genes de las especies a través de la explotación comercial (Lee et al. 2002;
Laikre et al. 2005), la fragmentación del hábitat (Young et al. 1996; Vranckx et al. 2011)
y el cambio climático (Balint et al. 2011; Provan y Maggs 2012). En este contexto es
fundamental contar con herramientas analíticas que permitan describir, analizar,
comparar y asociar patrones espaciales de variabilidad genética.
El análisis de la EGE se ha desarrollado desde principios de la década del 40, con
los trabajos pioneros de Wright (1943) y en la actualidad es un campo de investigación
en constante y rápida evolución, que incluye una amplia variedad de conceptos
biológicos y métodos estadísticos específicos para datos referenciados espacialmente
(Balzarini et al. 2011; Safner et al. 2011; Guillot y Rousset 2012). En los últimos se ha
definido a la genética del paisaje como una disciplinaindependiente que incorpora al
2

estudio de la estructura espacial de la variación genética, la variación espacial de las
características del ambiente (Manel et al. 2003; Manel y Segelbacher 2009; Manel et al.
2010; Segelbacher et al. 2010) uniendo a tres disciplinas diferentes: la ecología del
paisaje, la genética de poblaciones y la estadística espacial (Storfer et al. 2007).
La EGE puede exhibir distintos patrones, desde cambios graduales, como las
clinas, (Haldane 1948; Premoli 2003) hasta cambios abruptos como los parches (Turner
et al. 1982; Manel et al. 2007). La identificación de dichos patrones espaciales requiere
de la colecta de información genética de individuos o poblaciones cuya posición
geográfica debe ser conocida. Así, en numerosos estudios, los datos genéticos son
también datos “espaciales” o georreferenciados. Debido a la naturaleza multivariada de
los datos genéticos, provistos en muchos casos por marcadores moleculares, es común
que se intente colapsar la información molecular en medidas de resumen univariadas
como puede ser un índice de diversidad genética o una variable sintética obtenida
mediante una técnica de reducción de la dimensión. Las distancias genéticas también
son comúnmente usadas para sintetizar la información multidimensional de los
genotipos multilocus. Sin embargo, para un mismo conjunto de datos moleculares
pueden calcularse distintos índices de diversidad y métricas de distancia genética, que
no necesariamente tienen una única interpretación a nivel biológico como a nivel
estadístico (Bruno y Balzarini 2010). Los métodos analíticos que permiten detectar y
cuantificar EGE son muy variados y la selección criteriosa del o los procedimientos más
apropiados, para cada situación biológica, demanda el conocimiento del desempeño
relativo de éstos frente a diferentes escenarios de variabilidad genética que pueden
darse en la naturaleza.
En los bosques nativos la modelación espacial de la variabilidad genética y su
correlación con variables ambientales es de vital importancia. Los bosques, además de
ser el hábitat de muchas especies, brindan importantes servicios ecosistémicos. Por ello,
la pérdida de diversidad genética de estos ecosistemas, debido a la creciente
fragmentación del paisaje y al cambio climático global, ha ganado la atención de la
comunidad científica (Hamrick 2004). La fragmentación reduce el tamaño de las
poblaciones arbóreas y aumenta su aislamiento, lo cual aumenta la endogamia y la
deriva génica y reduce el flujo génico (Jump y Peñuelas 2006). La erosión genética puede
aumentar el riesgo de extinción de una especie en el corto tiempo a través de la
depresión por endogamia y, a largo tiempo, a través de la reducción de la habilidad de la
3

población a adaptarse a las condiciones ambientales (Frankham 2005; 2010) y en
consecuencia también disminuir la resiliencia de las comunidades (Reusch et al. 2005).
Sin embargo, no todos los estudios sugieren que la variabilidad genética en bosques
decrece con la reducción del tamaño del parche. En algunos casos la fragmentación
parece aumentar el flujo genético entre poblaciones, rompiendo la estructura genética
local y disminuyendo la variabilidad espacial. La dificultad de detectar los efectos de la
fragmentación en poblaciones de árboles puede deberse a que la mayor parte de la
fragmentación ha ocurrido en un lapso de tiempo corto (100-200 años) en relación al
tiempo generacional de las especies arbóreas. Otros autores (Young et al. 2000; Ortego
et al. 2010) también postulan que es posible que en especies anemófilas la
fragmentación aumente el flujo de polen por el viento a través del paisaje, manteniendo
los niveles de diversidad genética en fragmentos pequeños y aislados (Young et al. 2000;
Ortego et al. 2010). En Argentina se ha perdido el 70% de los bosques nativos originales
(SAyDS 2005) y recientemente se ha declarado la emergencia forestal (Ley Nacional
26.331). Para un diagnóstico correcto del estado, las amenazas y la viabilidad de las
poblaciones remanentes de bosque nativo es crítico el conocimiento de la cantidad de
diversidad genética y su distribución espacial (Escudero et al. 2003).
En la presente tesis se investigan métodos estadísticos para caracterizar la EGE
en bosques, analizando la variabilidad genética espacial en una escala microgeográfica
de un conjunto de algarrobos pertenecientes al género Prosopis spp. y en una escala
macrogeográfica para poblaciones nativas de Polylepis australis Bitt. Las especies de
Prosopis (Fabaceae, Mimosoideae) constituyen un recurso natural importante en zonas
áridas debido al potencial que tienen para proveer un amplio espectro de productos y su
habilidad de crecer en suelos pobres, donde pocas especies pueden sobrevivir. Además
de utilizarse como recurso (leña, frutos, forraje, medicinas), los algarrobos estabilizan el
suelo y previenen la erosión a través de la fijación del nitrógeno (Pasiecznik et al. 2001).
En Argentina, Prosopis es un complejo taxonómico que presenta un gran número de
grupos morfológicos que ocupan diversos nichos ecológicos. Dentro del género las
especies se diferencian tanto a nivel morfológico (Burkart 1976), como a nivel molecular
(Catalano et al. 2008). Sin embargo, dentro de la Sección Algarobia, existe hibridación
entre algunas especies (Palacios y Bravo 1981), lo cual dificulta la diferenciación de
unidades de uso y conservación, es decir, de grupos de individuos que poseen cierta
identidad morfológica y genética, coherencia en sentido biológico y mantenimiento de
4

identidad en el proceso evolutivo. Para el ordenamiento del recurso forestal, se
requieren distintos tipos de conocimiento, entre los que figuran la magnitud de
variabilidad genética, su variación espacial y la correlación con variables morfológicas
que caracterizan los fenotipos de las distintas especies e híbridos que cohabitan el
ambiente.
Respecto al género Polylepis (Rosaceae) se señala que éste contiene las especies
de árboles que crecen a mayores altitudes en el mundo, en zonas climáticas en las cuales
no pueden crecer otras especies arbóreas, como en algunos sitios de la cordillera de
Sudamérica (Rada et al. 2001). Los bosques nativos de este género son de gran
importancia en Argentina, debido al elevado número de endemismos que albergan y por
ser el principal tipo de cobertura en las cabeceras de cuencas hídricas, contribuyendo a
retener el suelo y el agua (Fjeldså 2002). No obstante, se ha observado una severa
reducción de estos bosques, presumiblemente debido a cambios climáticos y antrópicos,
incluyendo fuego, pastoreo, tala y agricultura (Teich et al. 2005; Renison et al. 2006;
Renison et al. 2008), por lo cual se considera que su protección y restauración es una
necesidad.
El presente trabajo de investigación trata, en primer lugar y en virtud de la
multiplicidad de enfoques y análisis estadísticos disponibles, el problema de la
caracterización de EGE desde una perspectiva estadístico-metodológica. Bajo ésta
dimensión, los primeros Capítulos se focalizan en el análisis de datos genéticos
georreferenciados y discuten aspectos de la aplicación de métodos estadísticos
disponibles utilizando bases de datos simulados. En segundo lugar, desde una
perspectiva más biológica, se estudia la EGE y su asociación con variables ambientales y
fenotípicas en especies de bosques nativos de importancia en nuestro país. Así, el
Capítulo I consiste en la revisión e ilustración en distintos escenarios biológicos, de
metodologías de análisis estadístico para detectar y caracterizar EGE en bosques. Los
resultados del Capítulo II permiten una comprensión en mayor profundidad de los
méritos de dos técnicas tradicionalmente usadas en el análisis de variación espacial
genética, como son la prueba de Mantel y las regresiones de Rousset y de dos nuevas
propuestas parael tratamiento de genotipos multilocus basadas en el análisis de
componentes principales, una de ellas específicamente desarrollada para datos
espaciales, conocida como Análisis de Componentes Principales Espacial. Los resultados
de los Capítulos I y II muestran cuán diferentes son las interpretaciones biológicas que
5

se derivan en un estudio particular dependiendo del tipo de estructura estadística que
capta cada análisis (media, varianza, autocorrelación) y proveen herramientas para
quienes deban analizar datos genéticos de especies arbóreas espacialmente
referenciados. En el Capítulo III no sólo se describe la variabilidad genética espacial a
escala fina de un enjambre híbrido de Prosopis spp. del Chaco Árido Argentino, sino que
también se cuantifica la asociación entre la variabilidad genética y morfológica, haciendo
especial énfasis en procedimientos para la incorporación de la información espacial en
el análisis de asociaciones. Los capítulos IV y V integran el primer estudio de la
variabilidad genética de poblaciones de Polylepis australis a lo largo de su rango de
distribución y su relación con indicadores derivados de información satelital que se
proponen como métricas de inestabilidad ambiental. El conocimiento generado sobre
datos reales de especies arbóreas nativas de nuestro país en los Capítulos III, IV y V
provee no sólo una ilustración de los métodos analizados y propuestos, sino también
conocimiento de base para programas de mejoramiento, conservación y estudio de la
ecología evolutiva de Prosopis spp. y de Polylepis australis. Consideramos que el enfoque
plural sobre la problemática es lo que hace a la virtud del presente trabajo de tesis.

OBJETIVOS GENERALES
1. Proponer estrategias metodológicas para el análisis estadístico de la estructura
genética espacial en especies arbóreas.
2. Analizar la estructura genética espacial y su asociación con variables fenotípicas y
ambientales en bosques nativos de Argentina.
OBJETIVOS ESPECÍFICOS
1. Comparar, desde su aplicación en escenarios de estructura espacial genética de tipo
parche y clina, métodos estadísticos basados en correlaciones y regresiones entre
matrices de distancia, índices de autocorrelación espacial, correlogramas discretos,
semivariogramas y técnicas de ordenamiento multivariado.
2. Evaluar, bajo distintos escenarios biológicos, el desempeño relativo para detectar y
caracterizar estructura genética espacial de métodos tradicionales (Prueba de
Mantel, Regresiones propuestas por Rousset) y nuevas propuestas basadas en la
complementación de Análisis de Componentes Principales y Análisis de
Componentes Principales Espacial con métricas de autocorrelación espacial.
3. Analizar la estructura espacial a escala fina de la variabilidad genética, morfológica y
morfométrica en un enjambre híbrido del complejo taxonómico Prosopis spp.
4. Explorar asociaciones multivariadas entre la variabilidad genética y morfológica en
un enjambre híbrido del complejo taxonómico Prosopis spp.
5. Ilustrar la aplicación de aproximaciones basadas en el uso complementario de
análisis multivariados y modelos lineales mixtos en estudios de asociación con datos
autocorrelacionados espacialmente.
6. Caracterizar la diversidad y la estructura genética espacial de poblaciones de
Polylepis australis a lo largo de su rango de distribución.
7

7. Comparar niveles de diversidad genética entre y dentro de las regiones de
distribución de Polylepis australis en función de su posición geográfica.
8. Caracterizar la inestabilidad ambiental de sitios donde se desarrollan poblaciones de
Polylepis australis a través de indicadores derivados de información satelital.
9. Asociar la diversidad genética de Polylepis australis con la heterogeneidad temporal
del ambiente en el paisaje.

CAPÍTULO I

MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL
DE LA VARIABILIDAD GENÉTICA EN ESPECIES
ARBÓREAS

INTRODUCCIÓN
La importancia del análisis espacial de la variabilidad genética se ha incrementado
recientemente dada la necesidad de conservar y restaurar los ecosistemas naturales a
nivel mundial. Sin embargo, las motivaciones que originan los estudios de estructura
genética espacial (EGE) son mucho más amplias. Inicialmente, la dimensión espacial fue
incorporada a los modelos genético poblacionales a través de su impacto en la
reproducción y dispersión de los individuos, dando lugar al modelo de asilamiento por
distancia (IBD, por sus siglas en inglés) desarrollado por Wright (1943; 1946). Otros
desarrollos teóricos posteriores han ampliado y generalizado esta teoría (Kimura y
Weiss 1964; Malécot 1975; Rousset 1997). La motivación original de dichas
aproximaciones fue estimar parámetros relacionados a la reproducción, demografía y
migración de las poblaciones naturales y para eso sus desarrollos se basan en supuestos
biológicos y modelos poblacionales. Sin embargo, en los últimos años, el estudio
combinado de la información espacial y genética se ha ampliado notablemente,
incluyendo nociones de la ecología de paisajes y dando origen a una nueva disciplina, la
genética del paisaje (Manel et al. 2003; Manel y Segelbacher 2009). Estos estudios
persiguen el fin de entender los procesos y patrones de flujo génico y adaptación local,
pero desde una perspectiva diferente, podríamos decir más ecológica. En muchos de los
trabajos, el objetivo del análisis conjunto de la información genética y espacial no es
estimar un parámetro poblacional, como podría ser el tamaño del vecindario de un
individuo en una población, sino, por ejemplo, lograr una buena representación gráfica
de cómo varía en el espacio la diversidad o la identidad genética de los individuos. En
otros casos, se busca modelar la estructura de correlación espacial de la variabilidad
genética para tenerla en cuenta en análisis estadísticos que demandan datos
independientes y, consecuentemente, donde las correlaciones entre observaciones
pueden sesgar los resultados. No sólo las estimaciones de variabilidad pueden cambiar
en un contexto de datos correlacionados espacialmente sino que también se ve afectada
la significancia de las asociaciones que podrían ser de interés entre los datos genéticos
con otros conjuntos de variables como aquellas que describen el ambiente o el fenotipo.
Los procedimientos analíticos que se deben utilizar según los objetivos que se persigan,
son diferentes. Es así, como el cuerpo de análisis estadísticos utilizados en estudios de
datos espaciales o geo-posicionados es muy variado y muchas veces no es claro para el
10

investigador qué método es más conveniente usar para analizar estadísticamente un
problema biológico específico. Esta situación ha conducido a discusiones sobre la
selección de metodologías de análisis espacial en análisis genéticos (Guillot et al. 2009).
La gran cantidad de trabajos biológicos que discuten las aproximaciones metodológicas,
es una evidencia de la necesidad que existe de investigar el uso de técnicas de análisis
espacial en Genética (Vekemans y Hardy 2004; Guillot 2009; Jombart et al. 2009b;
Francois y Durand 2010; Segelbacher et al. 2010; Balzarini et al. 2011). Asimismo,
existen numerosos estudios de simulación que han sido diseñados para responder
preguntas específicas sobre el desempeño, desde criterios estadísticos más que
biológicos, de metodologías que alternativamente pueden utilizarse para un mismo
problema y por tanto para obtener recomendaciones sobre el método más apropiado
para el análisis de una situación específica (Guillot y Santos 2009; Guillot y Rousset
2012).
Para elegir el método analítico más apropiado para contestar una pregunta referida
a EGE es necesario analizar y diferenciar diversos aspectos del problema en cuestión.
Una primera diferenciación a considerares la identificación de la escala espacial, la cual
dependerá del proceso o patrón biológico de estudio (Anderson et al. 2010). A nivel
metodológico la escala puede afectar la capacidad del método para identificar con
precisión el tipo e intensidad del patrón espacial subyacente en los datos genéticos. A
nivel biológico, las conclusiones e inferencias realizadas sobre una escala espacial que
no concuerda con las preguntas y/o la historia natural del objeto de estudio pueden
directamente carecer de sentido o ser incorrectas. En general, se reconocen dos grandes
escalas en estudios de EGE, la escala fina o microgeográfica y la escala macrogeográfica.
Cuando no es posible identificar grupos de individuos como podrían ser poblaciones, las
unidades de análisis (entidades) sobre las cuales se investigan los patrones espaciales
genéticos son los mismos individuos, generalmente distribuidos en forma continua en el
espacio y a escala espacial fina.
Otra cuestión sobre la que es necesario pensar, antes de seleccionar un método de
análisis de EGE, es la naturaleza discreta o continua del patrón espacial presente en los
datos genéticos. Los métodos para el análisis de patrones espaciales pueden agruparse
en dos grandes familias según esta consideración: los análisis de patrones de puntos y
los análisis de patrones de superficies (Legendre 1993). Los análisis de patrones de
puntos buscan detectar si la distribución espacial en las entidades de estudio se
11

distribuyen al azar o no, en cuyo caso es de interés describir si se encuentran agrupadas
o regularmente distribuidas (Ripley 1981; Upton y Fingleton 1985; Ripley 1987;
Schlather et al. 2004). Los análisis de patrones de superficies, en cambio, estudian
variables que se distribuyen en forma continua en el espacio. Si bien comúnmente los
datos provienen de muestreos en espacios discretos, el fenómeno de estudio se suele
suponer como continuo en el espacio. En estos casos, las coordenadas espaciales son el
resultado de una elección del investigador y no reflejan propiedades intrínsecas del
proceso que se está estudiando. Las situaciones en las que tanto la variable como la
posición de las entidades son informativas, han sido muy poco exploradas en el contexto
de la genética espacial, muy probablemente debido a la dificultad de aplicar los análisis
de patrones de puntos a datos multivariados como los genéticos (Guillot et al. 2009). Sin
embargo, algunas veces sucede que la distribución de las entidades de estudio en el
espacio no sigue un patrón aleatorio. Por ejemplo, en especies arbóreas puede suceder
que no todas las regiones del espacio tengan la misma probabilidad de contener un
árbol. En estos casos, la posición en el espacio de los individuos no puede ser
considerada independiente de los genotipos y debería ser analizada y modelada como
parte del mismo proceso. Una aplicación del uso de modelos de patrones de puntos para
describir la distribución de árboles y sus genotipos demostró que esta metodología
puede ser útil en estudios de estructura genética espacial a escala fina (Shimatani 2002;
Shimatani y Takahashi 2003; Shimatani 2004). En este trabajo, nos ocuparemos de
métodos que asumen patrones continuos en el espacio, suponiendo que la distribución
de los genotipos en el espacio, es al azar.
Otra noción importante que es necesario contemplar en la selección de un método
de análisis, es el objeto de la inferencia, el cual está directamente relacionado con el
objetivo principal del estudio. En algunos casos se busca la detección de un cambio
espacial a nivel promedio de la característica genética de interés o en otros casos, la
detección de una estructura de correlación entre las componentes aleatorias de las
observaciones realizadas en sitios más o menos cercanos en el espacio. La detección de
la estructura espacial de correlación de los términos aleatorios suele realizarse tanto
para obtener estimaciones más precisas de variabilidad como para derivar la distancia a
la cual un par de observaciones se considera independiente y así inferir procesos de
dispersión.
12

Si bien el desarrollo de análisis de datos espaciales es muy amplio (Schabenberger y
Gotway 2005), su aplicación en datos genéticos georreferenciados presenta un desafío
particular: la naturaleza categorizada y multivariada del dato genético (Jombart et al.
2009b; Balzarini et al. 2011). Para obtener los datos genéticos es común el uso de
marcadores moleculares o de técnicas de secuenciación que aportan información sobre
ciertas porciones del genoma de cada individuo (loci) favoreciendo la clasificación o
categorización de las entidades en función de las características cualitativas registradas
en cada locus. La caracterización genética de individuos o de poblaciones puede incluir
decenas, cientos, miles o incluso cientos de miles de loci que deben ser considerados en
forma simultánea como una observación multivariada. El cálculo de distancias genéticas
entre entidades (individuos o poblaciones), es una de las aproximaciones más utilizadas
para resumir la información molecular multivariada en indicadores univariados que
permiten estudiar la variabilidad genética. La disponibilidad de métricas para calcular
distancias que cuantifican la diferenciación genética entre dos unidades de análisis, es
amplia (Bruno y Balzarini 2010). Numerosas aproximaciones para detectar y cuantificar
estructura espacial genética, se basan en el estudio de la relación entre alguna de estas
métricas de distancias genéticas con métricas de distancias geográficas. Estas
aproximaciones se basan en la búsqueda de autocorrelación espacial, es decir, la
propiedad de que entidades más cercanas en el espacio sean más parecidas
(autocorrelación positiva) o menos parecidas (autocorrelación negativa) que lo
esperado por azar. La cuantificación de la autocorrelación espacial en datos genéticos ha
sido abordada desde la teoría de la genética de las poblaciones para estimar parámetros
relacionados al flujo génico, como el número de migrantes o el tamaño del vecindario
(Epperson y Allard 1989; Epperson 1990; 2005; 2007).
La prueba de Mantel (Mantel 1967), es una de las herramientas estadísticas más
utilizadas para evaluar la dependencia estadística entre las distancias geográficas y
genéticas. Éste método es esencialmente exploratorio y carece de supuestos sobre los
procesos biológicos o los efectos de otros factores que pueden influenciar el patrón
espacial genético. Otros métodos estadísticamente formales, como aquellos basados en
regresiones, evalúan la relación entre distancias genéticas y geográficas bajo supuestos
biológicos y permiten estimar parámetros como el tamaño de vecindario de cada
entidad (Rousset 1997; 2000). Existen también diversos coeficientes univariados que
permiten cuantificar la autocorrelación espacial como el índice de Moran (Moran 1950)
13

o el índice de Geary (Geary 1954). En general éstos se han aplicado sobre datos
univariados, como puede ser una frecuencia alélica. No obstante, Smouse y Peakall
(1999) proponen el cálculo de un coeficiente de autocorrelación que permite rescatar la
naturaleza multivariada de los perfiles genotípicos obtenidos con marcadores
multilocus-multialélicos. Estos índices miden a través de un coeficiente de correlación y
en base a matrices de distancias genéticas, la similitud genética entre pares de
individuos que se encuentran separados a una determinada distancia geográfica y luego
de evaluar estas correlaciones para un conjunto discreto de clases de distancia se
grafican los coeficientes de correlación en relación a la distancia de separación (lag)
usada, constituyendo correlogramas. Otra herramienta que relaciona las diferencias
genéticas entre entidades separadas a una cierta distancia, pero para un dominio
continuo de lags, es la función conocida en Geoestadísticacomo semivariograma
(Schabenberger y Gotway 2005). La función puede utilizarse para cuantificar la
magnitud de autocorrelación espacial de la variabilidad genética. Esta aproximación
geoestadística ha sido usada para datos genéticos recién en los últimos años (Wagner et
al. 2005).
Las distancias multivariadas son útiles para el estudio de variabilidad genética, pero
dado que el dato de distancia relaciona a un par de unidades de análisis a la vez, surgen
limitaciones cuando se desea visualizar cómo varía la identidad genética de los
individuos en su conjunto. Dentro de las técnicas estadísticas del Análisis Multivariado
(Johnson y Wichern 2007), existen las técnicas de reducción de la dimensión (TRDs) las
cuales permiten resumir la información provista por los datos genéticos en nuevas
variables sintéticas, que luego pueden ser usadas en relación a las técnicas de análisis
espacial antes mencionadas. El Análisis de Componentes Principales (ACP) (Hotelling
1933) suele ser usado para resumir la información molecular, contenida en perfiles
genotípicos o perfiles de frecuencias alélicas, en pocas variables sintéticas (Jombart et al.
2009b; Balzarini et al. 2011). Estas nuevas variables, conocidas como Componentes
Principales (CP), fueron exitosamente utilizadas para realizar mapas sintéticos de
variabilidad genética desde trabajos pioneros como los de Cavalli-Sforza (1966) hasta
otros más actuales como el de Laloë et al. (2010). Sin embargo, cuando el ACP es usado
con datos georreferenciados no incorpora explícitamente la información espacial. El uso
de la información espacial a priori, es decir, dentro del criterio de optimización de la
TRD permite obtener las variables sintéticas con mayor capacidad para identificar EGE.
14

Este tipo de TRD fue aplicada en el contexto de datos ecológicos por Thioulouse et al.
(1995). Jombart et al. (2008) desarrolló una TRD para datos genéticos
georreferenciados conocida como ACP espacial, basándose en una modificación del ACP
que permite optimizar la varianza genética y la autocorrelación espacial
simultáneamente. Un concepto importante para evaluar la significancia estadística de
EGE en el contexto de datos espaciales multivariados en un espacio continuo, es el de
redes de conexión entre unidades de análisis (Legendre y Fortin 1989). Éste permite
definir vecindarios conformados por un conjunto de entidades que debieran ser
consideradas próximas y con las cuales se evaluará la similitud genética entre la entidad
objeto de análisis y aquellas del vecindario. Los recursos metodológicos para definir
redes de conexión son varios y la selección de uno u otro tipo de red depende
fuertemente del patrón espacial de las unidades de análisis.
Como se mencionó anteriormente, existen distintas funciones de estructura que
permiten cuantificar la dependencia espacial en función de distintas clases de distancia,
como son los correlogramas y los semivariogramas. Existe también otro grupo de
métodos que tienen por objetivo detectar barreras de flujo génico. Muchos de estos
métodos se basan en el agrupamiento de los perfiles genotípicos mediante algoritmos de
conglomerado o mediante agrupamientos basados en métodos bayesianos que calculan
para cada entidad la probabilidad de pertenecer a uno u otro conglomerado, como es el
caso del software STRUCTURE (Pritchard et al. 2000). En la mayoría de estos métodos
de agrupamiento, la información espacial no se utiliza en el algoritmo. Recientemente, se
han desarrollado estrategias analíticas para que los agrupamientos consideren
explícitamente las coordenadas geográficas (Francois y Durand 2010). La idea básica de
estos últimos métodos es que es más probable que dos individuos cercanos en el espacio
pertenezcan al mismo grupo que si se toman dos individuos al azar. La aproximación fue
propuesta inicialmente por Francois et al. (2006) e implementada en distintos software
como GENECLUST (Ancelet 2010), TESS (Chen et al. 2007), BAPS (Corander et al. 2004)
y GENELAND (Guillot et al. 2008). Estos métodos de agrupamiento difieren
sustancialmente de los métodos que analizan la autocorrelación espacial tanto a nivel de
los algoritmos como en los objetivos finales que persiguen.
En el presente Capítulo se describen, analizan e ilustran los principales métodos
utilizados para detectar y cuantificar EGE aplicables a datos genéticos georreferenciados
a escala espacial fina. Se comparan, desde su aplicación en escenarios de estructura
15

espacial genética de tipo parche y clina, métodos estadísticos basados en correlaciones y
regresiones entre matrices de distancia, índices de autocorrelación espacial,
correlogramas discretos, semivariogramas y técnicas de ordenamiento multivariado. Se
citan los programas donde están implementados los análisis descriptos y se dan
ejemplos de la literatura en donde se los aplica a especies arbóreas. Los conjuntos de
datos utilizados corresponden a los publicados por Jombart et al. (2008). En el Anexo 1
se describen los datos y los procedimientos utilizados por Jombart para simular ambos
conjuntos de datos (Anexo 1.1) y se proporcionan las rutinas desarrolladas en lenguaje
R para realizar los análisis de datos presentados (Anexo 1.2). De esta manera, el
presente Capítulo constituye una revisión sobre los métodos estadísticos que
actualmente son más usados en estudios de EGE, con el valor agregado de la ilustración
simultánea en dos conjuntos de datos que permiten la comparación de los métodos
analizados haciendo énfasis en los distintos tipos de conclusiones biológicas que se
pueden obtener.

PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA
GENÉTICA ESPACIAL (EGE)
CORRELACIÓN ENTRE DISTANCIAS
La prueba de Mantel (Mantel 1967) es una de las herramientas estadísticas más
utilizadas para evaluar la significancia estadística de la dependencia entre distancias
genéticas y geográficas. Ésta evalúa, vía procedimientos de permutación aleatoria, si la
relación lineal entre las distancias geográficas y genéticas es significativa, lo cual se
considera indicativo de la presencia de EGE global. No se basa en teoría genética y no
requiere de supuestos biológicos, siendo esencialmente exploratoria ya que evalúa el
nivel de significación de la correlación entre dos matrices de distancias. Las distancias
de ambos tipos (genéticas y geográficas) se pueden expresar matricialmente ya que
corresponden a pares de individuos o pares de grupos de individuos identificados a
priori. El estadístico de la prueba de Mantel es el mismo coeficiente de correlación lineal
de Pearson:
( , )
( ). ( )
XY
Cov X Y
Z r
Var X Var Y
= =

donde el numerador representa la covarianza entre las matrices X e Y (suma de
productos cruzados entre los elementos de la matriz X y la matriz Y) y el denominador la
raíz cuadrada del producto de la varianza (suma de cuadrados) total en cada matriz.
El problema de evaluar el nivel de significación de la correlación entre dos
matrices de distancias no es sencillo debido a la falta de independencia entre los pares
de distancias. En los primeros desarrollos, Mantel proporcionó una prueba de
significancia estadística para evaluar la hipótesis de no correlación (correlación cero)
basada en la propiedad de normalidad asintótica del estimador de la correlación. Luego
desarrolló otra prueba no asintótica, es decir aplicable a situaciones donde el número de
individuos en la muestra no necesita ser grande, vía simulación Monte Carlo de los
valores de correlación. La prueba de permutación de Mantel, deja inalterada una de las
matrices y permuta filas (y columnas) de la otra matriz de manera de desfigurar, si
existiera, la correlación entre ambas. Luego de realizar numerosas permutaciones y
calcular en cada escenario la correlación, obtiene la distribución del estadístico bajo la
17

hipótesis nula(falta de correlación) y posicionando al valor de correlación encontrado
en las matrices inalteradas estima la significancia estadística o valor p (probabilidad de
obtener valores mayores o iguales al valor absoluto del estadístico observado). Cuando
la correlación entre la matriz de distancias genéticas y la matriz de distancias
geográficas es estadísticamente significativa, se concluye que existe estructura espacial
lineal.
La correlación lineal entre estas distancias podría deberse a distintos modelos
biológicos como el aislamiento por distancia o a la presencia de barreras del flujo génico,
los cuales podrían reflejarse en una clina o en una estructura de parches,
respectivamente. Mientras que la primera situación podría reflejar la capacidad de
dispersión intrínseca de una especie, la segunda podría resultar del efecto de
características del paisaje sobre el flujo génico.
A pesar de su larga historia, las cualidades de la prueba de Mantel siguen siendo
estudiadas. Un estudio reciente de simulación demuestra que para detectar EGE, la
prueba de Mantel no produce mejores resultados que otros análisis estadísticos, como
por ejemplo las regresiones, y que puede tener un exceso de error tipo I (Legendre y
Fortin 2010). No obstante, la prueba de Mantel sigue siendo muy utilizada para detectar
y cuantificar estructura espacial genética tanto en bosques (Born et al. 2008; Yeoh et al.
2011) como en otros ecosistemas. Se encuentra disponible en diversos software:
InfoGen (Balzarini y Di Rienzo 2011), GenAlEx (Peakall y Smouse 2006), GenPop
(Rousset 2008b) y R (R Development Core Team 2011).
APLICACIÓN DE LA PRUEBA DE MANTEL
Para ilustrar la Prueba de Mantel en los escenarios de parche y clina (Anexo I) se
calcularon distancias genéticas a partir de las frecuencias alélicas de los perfiles
genotípicos y distancias geográficas a partir de las coordenadas bidimensionales que
posicionan en el espacio a los individuos genotipados. En ambos casos se calculó la
distancia Euclídea. La significancia de la Prueba de Mantel se evaluó utilizando 999
permutaciones y la librería “vegan” en R (Oksanen et al. 2011).
En la Figura 1.1 se representan las distancias genéticas en función de las
distancias geográficas para los datos simulados. Para ambas estructuras espaciales
(parches y clinas), la prueba de Mantel resultó significativa (p<0.05).
18

Figura 1.1: Gráficos de dispersión de las distancias genéticas vs. geográficas para las
estructuras de parches (izquierda) y clina (derecha). Se indica el coeficiente de correlación y el
valor p de la Prueba de Mantel.

En ambos casos el coeficiente de correlación fue bajo, aunque fue mayor en la
estructura de clina que en la estructura de parches (r=0.14 y r=0.09, respectivamente).
Como el coeficiente mide una correlación de tipo lineal, es decir, un aumento
proporcional en las distancias genéticas para los incrementos en distancias geográficas,
es de esperar que los patrones clinales sean mejor recuperados que los patrones de
parches, ya que en éstos últimos las diferencias en distancias genéticas dentro de un
mismo parche no siguen un patrón espacial. En muchas circunstancias los coeficientes
de correlación son relativamente bajos pero aún significativos y este exceso de
significancia puede atribuirse a la subestimación del error estándar de la estimación, la
cual es ocasionada por un tamaño muestral alto debido a que el n que se usa en los
cálculos, es la cantidad de distancias que se generan cuando se consideran todos los
pares de individuos posibles.

0 45 90 135 180
Distancias geográficas
5
10
15
20
25
D
is
ta
nc
ia
s
ge
né
tic
as
r=0.09
p=0.03
0.0 0.5 1.0 1.5 2.0
Distancias geográficas
2
4
6
8
10
12
14
16
D
is
ta
nc
ia
s
ge
né
tic
as
r=0.14
p=0.001
19

REGRESIÓN ENTRE DISTANCIAS
El estudio de la relación entre estimadores de diferenciación genética y distancias
geográficas fue formalizado en base a modelos de aislamiento por distancia para realizar
estimaciones de flujo génico. En este contexto, se han propuesto modelos de regresión
para analizar la relación entre distancias geográficas y medidas de diferenciación
genética entre subpoblaciones o poblaciones en las cuales los individuos se encuentran
agregados (Rousset 1997) y entre individuos distribuidos en forma continua (Rousset
2000). En el primer caso, Rousset propone estudiar esta relación mediante regresiones
entre el cociente: Fst / (1-Fst) entre pares de subpoblaciones y la distancia geográfica. Al
extender el análisis sobre individuos distribuidos continuamente en el espacio, propone
la medición de la diferenciación entre individuos mediante un estadístico denominado â
(Rousset 2000). En este caso, la inversa de pendiente de la recta de regresión entre la
diferenciación genética y las distancias geográficas estima el tamaño de vecindario, el
cual se expresa como (4πDσ2), donde D es la densidad de individuos y σ es la distancia
de dispersión media. Tanto para poblaciones como para individuos, en espacios
unidimensionales se recomienda utilizar las distancias geográficas sin ninguna
transformación. Sin embargo, en espacios bidimensionales las distancias geográficas se
distribuyen exponencialmente, ya que son más frecuentes las distancias más pequeñas y
poco frecuentes las distancias más grandes. Este tipo de distribución de las distancias
puede ocasionar problemas en la estimación de los parámetros de regresión ya que la
densidad de observaciones varía sustancialmente a lo largo del rango de la variable
regresora, incrementando el efecto palanca o leverage (Draper y Smith 1998) de algunas
pocas observaciones. La transformación de las distancias geográficas a través de la
función logaritmo otorga una distribución más simétrica a la variable regresora, con
menor probabilidad de datos mal condicionados para una estimación por modelo de
regresión lineal y mejorando la estimación de los coeficientes de regresión. Las
regresiones de Rousset fueron desarrolladas en base a la teoría de aislamiento por
distancia y los estimadores de parentesco entre pares de individuos o poblaciones
utilizados en dichas regresiones fueron pensados para marcadores codominantes. Si se
usaran marcadores dominantes, deberían calcularse otros estimadores de parentesco
para estimar tamaño de vecindario en escenarios de aislamiento por distancia, como son
los propuestos por Hardy (2003).
20

Las estimaciones realizadas mediante las regresiones de los estimadores de
diferenciación propuestos por Rousset y las distancias geográficas son aproximadas
cuando la tasa de mutación (μ) es baja y bajo un cierto rango de distancias (d<σ y
d>0.5σ/2μ en dos dimensiones). Si bien esta restricción puede dificultar el estudio de la
EGE de especies con distancias de dispersión (σ) muy altas, diversos trabajos han
utilizado esta aproximación en especies arbóreas (Heuertz et al. 2003; Hardesty et al.
2005; Born et al. 2008). La regresiones de Rousset pueden realizarse mediante el
software GenePop (Raymond y Rousset 1995; Rousset 2008b).
ESTIMACIÓN DE LAS REGRESIONES PROPUESTAS POR ROUSSET
Para ilustrar la aplicación de regresiones entre diferenciación genética y distancia
geográfica se calculó el estimador a propuesto por Rousset para el caso donde las
unidades de análisis son individuos (Rousset 2000). Dado que el espacio de estudio es
bidimensional (área), se trabajó con el logaritmo de las distancias geográficas.
Posteriormente, se ajustó un modelo de regresión lineal entre ambas medidas. La
magnitud de la relación y el vecindario se estimaron a partir de la pendiente de la recta
de regresión. El error estándar de la pendiente estimada fue usado para construir un
intervalo de confianza al 95%, el cual permite detectar si existe o no EGE. Si el intervalo
de confianza para la pendiente contiene el 0 (no relaciónentre ambas distancias), se
infiere que no existe estructura espacial. Todos los análisis se realizaron con el
programa Genepop 4.1 (Rousset 2008b).
En la Figura 1.2 se observan los gráficos de dispersión entre el logaritmo de la
distancia geográfica y la diferenciación genética entre individuos para ambas
estructuras. Para el caso de estructura de parches, la pendiente de la recta de regresión
(0.0105) fue menor que para la estructura de clina (0.0184), lo cual indica que se detecta
mayor estructura en la clina. Para los parches, el vecindario estimado es de 95
individuos, mientras que para el caso de la clina la estimación del vecindario es de 54
individuos.
21

Figura 1.2: Gráfico de dispersión entre el logaritmo de la distancia geográfica y la
diferenciación genética entre individuos para las estructuras de parche (izquierda) y clina
(derecha). Se muestran las rectas de regresión ajustadas.

El principio subyacente supone que a mayor estructuración espacial (mayor
pendiente), el tamaño del vecindario es menor. Así, éste estadístico es un predictor
robusto de la diferenciación con la distancia (Rousset 2008a), en el sentido que el
incremento no depende de la forma de distribución de la dispersión, la cual podría
afectar la magnitud de la diferenciación genética de un lugar a otro. Los resultados
obtenidos con las regresiones concuerdan con los obtenidos mediante la prueba de
Mantel, en el sentido de que ambos detectan mayor estructuración en el caso de la clina.
ÍNDICES DE AUTOCORRELACIÓN ESPACIAL
Dos de los índices más usados para medir autocorrelación espacial son el Índice de
Moran (Moran 1950) y el Índice de Geary (Geary 1954). La aplicación de índices que
miden autocorrelación espacial en el ámbito de la genética de poblaciones fue
inicialmente realizada sobre datos simulados (Sokal y Wartenberg 1983; Barbujani
1987; Sokal et al. 1989b). En las simulaciones de éstos trabajos se aborda la
autocorrelación espacial en sentido univariado, es decir para medir la magnitud de la
autocorrelación en los valores de una única variable.
El cálculo del índice o coeficiente de Moran de autocorrelación espacial en un
espacio continuo requiere la definición de una matriz de ponderación espacial y para
-4 -3 -2 -1 0 1 2 3
ln(d)
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
a
a =0.00460383 + 0.010483* ln (distancia)
-6 -5 -4 -3 -2 -1 0 1
ln(d)
-0.5
-0.4
-0.3
-0.1
0.0
0.1
0.3
0.4
0.5
a = 0.0421825 + 0.0184058 * ln (distancia)
22

obtener estos ponderadores se pueden seguir distintos procedimientos, entre los que se
destacan el uso de redes de conexión (Dray 2011). Las redes de conexión o gráficos de
vecindario se generan conectando individuos vecinos en un mapa (Legendre y Legendre
1998). La triangulación de Delaunay es un método recomendado para construir gráficos
de vecindario cuando las entidades se encuentran distribuidas en forma homogénea en
el espacio. Sin embargo, puede conectar a entidades periféricas que no deberían estar
relacionadas. El gráfico de Gabriel es un subconjunto del gráfico de Delaunay que no
incluye las conexiones periféricas. Las redes de conexión pueden ser adaptadas
manualmente pudiéndose excluir contactos entre puntos cercanos o incluir relaciones
entre puntos lejanos, siguiendo criterios biológicos como por ejemplo la existencia de
barreras geográficas o corredores biológicos.
Para calcular el índice de Moran se mide la variable en una zona, llamémosla i-
ésima zona y se compara su valor con el valor promedio de la variable en las
localizaciones de su vecindario. La expresión del índice es:
,
2
,
( )( )
( ) ( )
i j i ji j
i j ii j i
N W X X X X
I
W X X
− −
=
−
∑ ∑
∑ ∑ ∑

donde N es el número total de observaciones, Xi es el valor de la variable en una
localización particular (posición i) y Xj es el valor de la variable en otra localización
(posición j). El elemento Wij de la matriz de ponderaciones W, es el peso aplicado a la
comparación de las observaciones en la posición i y la posición j que puede ser
entendido como un coeficiente de continuidad. Cuando se utilizan redes de conexión, la
matriz W está compuesta por ceros y unos ya que si la posición j es adyacente a la
posición i, el término ij recibe un peso de 1 y si no, de 0. Otra posibilidad para construir
la matriz W es relacionar los elementos con la distancia d entre las posiciones de manera
inversamente proporcional, es decir: 1=ij
ij
W d .
El índice de Moran varía entre –1 y 1 ya que es estandarizado por la variabilidad
de X. Cuando la autocorrelación es alta, el coeficiente será alto. Un valor cercano a 1
indica una alta correlación positiva, mientras que valores cercanos a –1 indican
autocorrelación negativa. Una desventaja de Wij es que su valor se encuentra
distorsionado por la unidad de medida de la distancia entre posiciones, por lo cual, Wij
debe ser normalizado.
23

El Índice C de Geary, es similar al índice de Moran, pero en su numerador no mide
la interacción a través del producto cruzado de las desviaciones con respecto a la
media, sino que expresa la magnitud de las desviaciones entre observaciones en las
diferentes localizaciones. La expresión del índice de Geary es:
( ) 2,
2
,
1 ( )
2( ) ( )
i j i ji j
i j ii j i
N W X X
C
W X X
− −
=
−
∑ ∑
∑ ∑ ∑

El valor índice de Geary se encuentra en el intervalo [0,2]. Si no hay
autocorrelación espacial, el valor esperado de C es 1. Valores del índice entre uno y dos
indican autocorrelación espacial negativa. Este índice se relaciona inversamente con el
índice de Moran. Al enfatizar las diferencias entre pares de observaciones más que la
covariación entre ellos, el índice de Geary no provee una inferencia biológica idéntica a
la del índice de Moran. Para evaluar la significancia estadística de estos índices es
posible usar pruebas basadas en aproximación normal o métodos computacionalmente
intensivos.
El uso del índice de Moran de autocorrelación espacial para estimar distancias de
dispersión ha sido utilizado en una serie de trabajos realizados por Epperson (1990;
1993; 1994; 1995a; 1995b; 2003; 2005; 2007; 2010). Epperson considera que el uso del
índice de Moran para estimar dispersión a distancias pequeñas es muy robusto bajo una
gran variedad de condiciones. Sin embargo, asume que las consecuencias genéticas de la
dispersión afectan únicamente a la varianza de la distribución de la dispersión, lo cual es
seriamente criticado por otros autores. Rousset (2008a) señala que la forma de la
distribución de dispersión afecta la magnitud de diferenciación entre sitios e incluso
sugiere que el índice de Moran no debería usarse para estimar dispersión. Otra cuestión
a tener en cuenta es que el problema de calcular el índice de Moran para varios alelos de
un locus y a través de loci no es simple (Epperson 2005), por lo cual en general, se usa
en sentido univariado.
Los índices de Moran y de Geary pueden calcularse en R mediante las librerías
“spdep” (Bivand et al. 2011) y “ape” (Paradis et al. 2004). Su aplicación al estudio de
patrones espaciales genéticos en árboles puede encontrarse en diversos trabajos
(Epperson y Allard 1989; Epperson y Gi Chung 2001; Epperson et al. 2001; Epperson et
al. 2003).
24

CÁLCULO DE ÍNDICES DE MORAN Y GEARY
A diferencia de las aplicaciones anteriores, que tienen en cuenta todos los loci, para
calcular los índices de autocorrelación espacial se utilizaron datos univariados: las
frecuencias alélicas del alelo 3 del locus 20 (L20.03) para el caso de parches y del alelo 2
del locus 1 (L01.02) para el caso de la clina (Figura 1.3). Se eligieron estos alelos ya que
son aquellos con mayor autocorrelación espacial para cada escenario (Jombart et al.
2009).

Figura 1.3: Ubicación en el espacio de las frecuencias alélicas del alelo L20.03 para el patrón
en parches (izquierda) y del alelo L01.02para el caso de clina (derecha). El tamaño de los
círculos representa la magnitud de la frecuencia alélica en cada genotipo.

Para determinar la matriz W se definieron los vecindarios para cada entidad
mediante la red de conexión definida por el método de triangulación de Delaunay y
mediante el gráfico de Gabriel (Figura 1.4), utilizando la librería “spdep” de R (Bivand et
al. 2011). Asimismo se calculó una matriz W que contenga la inversa de todas la
distancias entre pares de puntos. Se calcularon los índices de Moran (I) y de Geary (G)
para ambas estructuras (parches y clina) usando las tres matrices de ponderación
descriptas (definidos por la red de conexión de Delaunay, de Gabriel y por el conjunto de
todas las interdistancias). Los resultados pueden apreciarse en la Tabla 1. A pesar de
que se usó el alelo con mayor estructuración espacial los resultados muestran que para
el caso de estructura de parches, tanto el índice de Moran como el de Geary no fueron
significativos (valores p entre 0.125 y 0.165). No obstante en la Figura 1.3 se observa la
0 5 10
0
5
10
0.0 0.5 1.0
0.0
0.5
1.0
25

estructuración de este alelo ya que en un sector del espacio (a la derecha del gráfico) las
frecuencias del alelo son mayores (círculos más grandes). A diferencia de la estructura
de parches, para la estructura de clinas ambos índices fueron siempre significativos.

Figura 1.4: Redes de conexión calculadas mediante la triangulación de Delaunay (arriba) y
el gráfico de Gabriel (abajo) para calcular la autocorrelación espacial mediante los Índices
de Moran y Geary para la estructura de parches (izquierda) y clina (derecha).

Tabla 1.1. Índices de autocorrelación espacial de frecuencias alélicas en escenarios de
estructura espacial genética en parches y clina calculados a partir de distintas redes de
conexión (Matriz W). Se indican también los valores p de la prueba de significancia.
Patrón Matriz W
Índice de Moran Índice de Geary
I valor p G valor p
Parches
Red de Delaunay 0.062 0.125 0.933 0.155
Gráfico de Gabriel 0.001 0.437 0.982 0.419
Todas las distancias 0.015 0.156 0.971 0.165
Clina
Red de Delaunay 0.190 0.001 0.818 0.003
Gráfico de Gabriel 0.220 0.005 0.764 0.004
Todas las distancias 0.032 0.029 0.957 0.043

Para el caso de clinas, el índice de Moran fue 0.19 utilizando el vecindario por
triangulación de Delaunay, 0.22 utilizando el gráfico de Gabriel y 0.03 considerando
todas las interdistancias. Si bien con este último método para definir vecindario, el
26

coeficiente cayó en magnitud respecto a la situaciones donde se usó otro vecindario, los
valores p de la prueba estadística fueron siempre menores al nivel de significación
usado (0.05), indicando la presencia de autocorrelación espacial positiva y por tanto de
EGE. El índice de Geary también detectó mayor autocorrelación espacial positiva cuando
se usó el método de Gabriel para definir el vecindario, y en todos los caso los valores p
también indicaron la presencia de autocorrelación positiva. Los resultados obtenidos a
partir de índices de autocorrelación espacial, demuestran la dependencia de los índices
con el vecindario elegido. Así como cualquier método para estimar tamaño de vecindario
debería depender de supuestos específicos sobre el modelo de dispersión sobre el cual
se basa el análisis, los métodos que utilizan un vecindario en su cálculo deben basarse en
supuestos biológicos sobre el mismo. A diferencia de los métodos anteriores, en este
caso la EGE no resultó significativa para el caso de parches, siendo que se trabajó con un
alelo con EGE simulada entre las más altas.
CORRELOGRAMAS
El gráfico de coeficientes de correlación, calculados a partir de pares de observaciones
en un determinado intervalo de distancia geográfica (lag) se denomina correlograma.
Smouse y Peakall (1999) propusieron un coeficiente de correlación multivariado,
basado en distancias genéticas y el uso de correlogramas discretos para estudiar la
estructura espacial genética. Como se mencionó anteriormente, el procedimiento
requiere definir previamente dos parámetros, el tamaño del intervalo o clase de
distancia y el número de clases de distancia. Para cada lag se estima el coeficiente de
correlación entre todos los pares de observaciones que se encuentran a distancias
geográficas dentro del rango de distancias que incluye dicho lag.
El coeficiente ( )hr se expresa como:
( ) ( ) ( )
1
N N
h h h
ij ij ii ii
i j i
r x c x c
≠
   =    
  
∑ ∑
≐
donde el numerador es la suma del producto, elemento a elemento, de todos los N(N-1)
elementos fuera de la diagonal de la matriz de correlaciones genéticas (C) de N
observaciones y de la matriz de distancias geográficas para un h determinado ( ( )hX ). El
27

denominador es la suma de los N elementos que se encuentran en la diagonal del
producto, elemento a elemento, de tales matrices. El coeficiente ( )hr , es un coeficiente de
correlación que vale cero cuando no hay autocorrelación y que toma valores en el
intervalo [-1,1]. Smouse y Peakall proponen dos opciones basadas en permutaciones
para estimar la significancia de estos coeficientes de correlación. En general se calcula la
correlación para clases de distancia entre la mínima distancia entre muestras hasta la
máxima distancia entre muestras.
Recientemente se ha propuesto una prueba no paramétrica de heterogeneidad
para comparar distintos correlogramas de estructura espacial genética a escala fina,
obtenidos en diferentes poblaciones (Smouse et al. 2008). Este procedimiento se basa en
la construcción de un “correlograma medio” de todas las poblaciones juntas y la
posterior comparación lag a lag del correlograma de cada población con el
“correlograma poblacional”. A partir de las pruebas realizadas en cada lag, los autores
desarrollaron una prueba final para evaluar la heterogeneidad entre correlogramas a
nivel de todos los lag en conjunto.
Estos análisis están disponibles en el software libre GenAlEx (Peakall y Smouse
2006) y han sido utilizados para el estudio de EGE en diversas especies de árboles
(Vornam et al. 2004; Jones y Hubbell 2006; Fuchs y Hamrick 2010b). La prueba de
heterogeneidad ha sido utilizada, por ejemplo, para comparar la EGE de especies
arbóreas en zonas con distintos niveles de disturbio (Gonzales et al. 2010).
ESTIMACIÓN DE CORRELOGRAMAS DISCRETOS
Para obtener los correlogramas discretos, en primer lugar se calcularon las distancias
genéticas a partir de las frecuencias alélicas de los perfiles genéticos y las distancias
geográficas partir de las coordenadas de los individuos. En ambos casos se calcularon las
distancias Euclídeas y se definieron 8 clases de distancias geográficas distribuidas
equitativamente (del mismo tamaño). Todos los análisis se realizaron con el software
GenAlEx 6.4 (Peakall y Smouse 2006). En la Tabla 1.2 se pueden observar los
coeficientes de correlación (r) para cada clase de distancia, así como el número de pares
de entidades evaluados (n) y la probabilidad de que el coeficiente de correlación sea
menor o igual al obtenido por azar (p) para cada clase de distancia. Para ambos tipos de
EGE, los correlogramas (Figura 1.5) fueron sensibles en detectar estructura espacial.
28

Tabla 1.2. Resultados de las correlaciones entre distancias geográficas y genéticas
para distintas clases de distancia en escenarios de clina y parche. Se especifican los
coeficientes de correlación (r), el número de pares de entidades evaluadas (n) y el valor p.

PARCHES CLINA
Clases de
distancia n r p
Clases de
distancia n r p
0-1 122 0.003 0.295 0-0.1 84 0.004 0.322
1-2 235 0.013 0.001* 0.1-0.2 210 0.018 0.001*
2-3 288 0.004 0.099 0.2-0.3 347 0.000 0.547
3-4 386 0.002 0.256 0.3-0.4 361 0.005 0.112
4-5 495 0.003 0.165 0.4-0.5 408 0.001 0.416
5-6 407 -0.004 0.923 0.5-0.6 413 0.001 0.405
6-7 356 0.000