Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Di r ecci ó n:Di r ecci ó n: Biblioteca Central Dr. Luis F. Leloir, Facultad de Ciencias Exactas y Naturales, Universidad de Buenos Aires. Intendente Güiraldes 2160 - C1428EGA - Tel. (++54 +11) 4789-9293 Co nta cto :Co nta cto : digital@bl.fcen.uba.ar Tesis Doctoral Análisis de la estructura genéticaAnálisis de la estructura genética espacial de especies arbóreas y suespacial de especies arbóreas y su asociación con la variabilidadasociación con la variabilidad fenotípica y ambientalfenotípica y ambiental Teich, Ingrid 2012 Este documento forma parte de la colección de tesis doctorales y de maestría de la Biblioteca Central Dr. Luis Federico Leloir, disponible en digital.bl.fcen.uba.ar. Su utilización debe ser acompañada por la cita bibliográfica con reconocimiento de la fuente. This document is part of the doctoral theses collection of the Central Library Dr. Luis Federico Leloir, available in digital.bl.fcen.uba.ar. It should be used accompanied by the corresponding citation acknowledging the source. Cita tipo APA: Teich, Ingrid. (2012). Análisis de la estructura genética espacial de especies arbóreas y su asociación con la variabilidad fenotípica y ambiental. Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. Cita tipo Chicago: Teich, Ingrid. "Análisis de la estructura genética espacial de especies arbóreas y su asociación con la variabilidad fenotípica y ambiental". Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires. 2012. http://digital.bl.fcen.uba.ar http://digital.bl.fcen.uba.ar mailto:digital@bl.fcen.uba.ar UNIV Facu Análisis de la e arbóreas y su a Tesis presentada pa Buenos A Directora de tesis: Dra. M Consejero de Estudios: D Lugar de trabajo: Centro Naturales. Facultad de C Buenos Aires, 2012 NIVERSIDAD DE BUENOS AIRES cultad de Ciencias Exactas y Naturales estructura genética espacial de u asociación con la variabilidad y ambiental para optar al título de Doctora de la Unive s Aires en el área de Ciencias Biológicas Lic. Ingrid Teich . Mónica Balzarini : Dr. Juan Carlos Reboreda tro de Relevamiento y Evaluación de Recurs Ciencias Agropecuarias, Universidad Nacion e especies fenotípica iversidad de rsos Agrícolas y onal de Córdoba ii Análisis de la estructura genética espacial de especies arbóreas y su asociación con la variabilidad fenotípica y ambiental RESUMEN Este trabajo aborda el análisis de estructura genética espacial (EGE) en especies arbóreas nativas de importancia para Argentina, y su asociación a otras variables, desde un enfoque interdisciplinar que incluye perspectivas biológicas y metodológicas. Mediante la revisión y comparación del desempeño de métodos estadísticos para detectar y caracterizar EGE, según distintos escenarios biológicos, se recomiendan estrategias analíticas para el estudio espacial de la variabilidad genética y su asociación con variables ambientales y fenotípicas. Se analizó la EGE a escala fina en un enjambre híbrido de Prosopis spp., encontrando significativa asociación de ésta con la variabilidad morfológica; información relevante para el ordenamiento del recurso genético algarrobo. También se analizó la correspondencia entre la variación espacial de la diversidad genética de poblaciones de Polylepis australis, a lo largo de su rango de distribución, y la inestabilidad del ambiente usando nuevos índices de heterogeneidad temporal del paisaje derivados de imágenes satelitales. Se concluye, que sitios ambientalmente más estables albergan mayores niveles de diversidad genética para esta especie. El estudio de EGE en árboles, y su asociación con variabilidad fenotípica y ambiental, permite inferir procesos evolutivos-ecológicos, que aportan conocimiento para mejorar el manejo y conservación de los bosques. PALABRAS CLAVES: genómica, AFLP, SSR, Prosopis spp., Polylepis australis, estadística espacial, bosques, conservación. iii Analysis of the spatial genetic structure in tree species and its association to phenotypic and environmental variability ABSTRACT In this work, the analysis of spatial genetic structure (SGS) of native tree species and its association with other variables is investigated with an interdisciplinary approach, including both the methodological and biological perspectives. Through the revision and comparison of the performance of statistical methods used to detect and characterize SGS, under different biological scenarios, we recommend and propose analytic strategies to spatially analyze genetic variability. We analyzed the SGS at fine scale of a Prosopis spp. hybrid swarm and found a significant correlation with its morphological variability, facilitating the differentiation of biological units that are object of management and improvement of the Algarrobo genetic resource. We also characterized the spatial pattern of Polylepis australis genetic diversity and differentiation along its entire distribution range and found that they differ from historical migration scenarios observed in the northern hemisphere. We found a significant correlation between genetic diversity and environmental instability indices derived from satellite imaginary, concluding that more environmentally stable sites show higher levels of P. australis genetic diversity. The study of SGS in tree species and its association with other variables allows the inference of ecological and evolutionary processes, providing relevant information for the management and conservation of native forests. KEY WORDS: genomics, SSR, AFLP, Prosopis spp., Polylepis australis, spatial statistics, forests, conservation. iv AGRADECIMIENTOS Esta tesis ha sido posible gracias a numerosas personas e instituciones que me han brindado su apoyo a lo largo de los últimos cinco años. Principalmente quiero agradecer a mi directora, la Dra. Mónica Balzarini, por abrir las puertas de su inmenso conocimiento y sabiduría con paciencia y buen humor. Es gracias a su espíritu generoso y positivo que he llegado a estas instancias. También le agradezco a mi codirectora de beca, la Dra. Ana Planchuelo, por su minuciosa lectura de la tesis, por su valioso consejo y excelente disposición. Agradezco a mi consejero de estudios, el Dr. Juan Carlos Reboreda, quien me escuchó con atención y cuyas recomendaciones resultaron claves en un momento de inflexión en mi formación y las cuales fortalecieron mi vocación científica. Agradezco también al Dr. Andrés Ravelo por brindarme la posibilidad de trabajar en el Centro de Relevamiento y Evaluación de Recursos Agrícolas y Naturales, lo cual fue fundamental para el desarrollo del trabajo de investigación y a los miembros de la Cátedra de Estadística por su cordial y generoso recibimiento. Quiero agradecer al Dr. Aníbal Verga y su grupo del Instituto de Fisiología y Recursos Genéticos Vegetales del INTA por aportar información y conocimiento imprescindibles para este trabajo de investigación y por la corrección de la tesis. Gracias a la Dra. Isabell Hensen y la Universidad Martin-Luther en Halle, Alemania, por brindarme la posibilidad de realizar los análisis moleculares y conocer la cultura alemana. También agradezco a Carolien Tote, Else Swinnen y VITO (Bélgica) por su recibimiento y colaboración en el análisis de series temporales de NDVI. Agradezco al Dr. Renison, la Dra. Cingolani y el Dr. Grilli por haber dirigido distintas etapas de mi formación profesional, posibilitando el desarrollo de ésta tesis. Gracias a la Facultad de Ciencias Exactas y Naturales de la UBA, por haber inculcado en mí su espíritu de excelencia académica y por brindarme formación de grado y posgrado de primera calidad en forma gratuita. En particular quisiera agradecer a los v integrantes de la Comisión de Doctorado por responder las consultas cordialmentey posibilitar la evaluación de la tesis. Agradezco a los Miembros del Jurado por aceptar gentilmente formar parte del tribunal examinador y por dedicar su valioso tiempo a la revisión de este trabajo. Gracias a Ana Bondia y a Luis Vazquez quienes colaboraron siempre para que todos los trámites doctorales puedan realizarse desde Córdoba con eficiencia. Agradezco también al Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) por otorgar las becas de doctorado que permitieron llevara adelante mi formación doctoral y profesional. Gracias a mis amigas y amigos, quienes están siempre presentes y me han acompañado en las buenas y en las malas. A mi mamá que me acompaña en la vida con mimos y cariños y a mi papá que me brinda su consejo y apoyo. Y por supuesto gracias a César que me ha acompañado intensamente en las distintas etapas de éste trabajo, desde el campo y el laboratorio hasta el análisis de datos y escritura de trabajos, poniéndole sabor a mis días. vi A los obstáculos del camino que templan nuestro espíritu y fortalecen nuestra determinación. vii TABLA DE CONTENIDOS INTRODUCCIÓN GENERAL ........................................................................................................................... 1 OBJETIVOS GENERALES .................................................................................................................................. 6 OBJETIVOS ESPECÍFICOS ................................................................................................................................. 6 CAPÍTULO I: MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL DE LA VARIABILIDAD GENÉTICA EN ESPECIES ARBÓREAS ................................................................... 8 INTRODUCCIÓN ................................................................................................................................................... 9 PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA GENÉTICA ESPACIAL (EGE) ................................................................................................................................................ 16 Correlación entre distancias ................................................................................................................... 16 Aplicación de la prueba de Mantel ...................................................................................................... 17 Regresión entre distancias ...................................................................................................................... 19 Estimación de las regresiones propuestas por Rousset ............................................................. 20 Índices de autocorrelación espacial .................................................................................................... 21 Cálculo de índices de Moran y Geary .................................................................................................. 24 Correlogramas ............................................................................................................................................... 26 Estimación de correlogramas discretos ............................................................................................ 27 Semivariogramas ......................................................................................................................................... 29 Estimación de semivariogramas empíricos y teóricos ................................................................ 31 Ordenamientos Multivariados ............................................................................................................... 34 Aplicación de ACP y ACP espacial ........................................................................................................ 38 CONCLUSIÓN ...................................................................................................................................................... 45 CAPÍTULO II: EVALUACIÓN DEL DESEMPEÑO DE MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS DE ESTRUCTURA GENÉTICA ESPACIAL ............................................................... 47 INTRODUCCIÓN ................................................................................................................................................ 48 MÉTODOS ............................................................................................................................................................. 51 Diseño del Estudio por Simulación ...................................................................................................... 51 Procedimientos Comparados y Criterios de Evaluación ........................................................... 54 RESULTADOS ...................................................................................................................................................... 56 Tasas de Error Tipo I. Escenario sin EGE ........................................................................................ 56 Tasas de Error Tipo II y caracterización del patrón espacial. Escenarios con EGE. .... 56 DISCUSIÓN ........................................................................................................................................................... 63 CONCLUSIÓN ...................................................................................................................................................... 66 viii CAPÍTULO III: ANÁLISIS DE ASOCIACIÓN ENTRE LA VARIABILIDAD GENÉTICA Y FENOTÍPICA EN UN ENJAMBRE HÍBRIDO DE PROSOPIS SPP. ............................................. 67 INTRODUCCIÓN ................................................................................................................................................ 68 MATERIALES Y MÉTODOS ........................................................................................................................... 70 Datos................................................................................................................................................................... 70 Especies de estudio ..................................................................................................................................... 71 Caracteres morfológicos .......................................................................................................................... 72 Caracteres moleculares ............................................................................................................................ 74 Análisis Estadísticos ................................................................................................................................... 76 Análisis espacial de datos genéticos y morfológicos .................................................................... 76 Análisis de asociaciones entre datos genéticos y morfológicos .............................................. 76 RESULTADOS ...................................................................................................................................................... 78 Análisis de estructura espacial de la variabilidad genética y morfológica ....................... 78 Asociación entre datos genéticos y fenotípicos ............................................................................. 82 DISCUSIÓN ........................................................................................................................................................... 86 CONCLUSIÓN ...................................................................................................................................................... 89 CAPÍTULO IV: VARIABILIDAD GENÉTICADE POLYLEPIS AUSTRALIS (ROSACEAE) A LO LARGO DE SU RANGO DE DISTRIBUCIÓN ............................................................................ 90 INTRODUCCIÓN ................................................................................................................................................ 91 MATERIALES Y MÉTODOS ........................................................................................................................... 94 Sitios de estudio y diseño de muestreo ............................................................................................. 94 Análisis Molecular........................................................................................................................................ 96 Extracción de ADN genómico ................................................................................................................ 96 Restricción del ADN y Ligamiento de adaptadores ...................................................................... 97 Preamplificación ......................................................................................................................................... 97 Amplificación Selectiva ............................................................................................................................ 97 Electroforesis ................................................................................................................................................ 98 Análisis de datos ........................................................................................................................................... 98 Patrones espaciales de Diversidad genética ................................................................................. 99 Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 99 RESULTADOS .................................................................................................................................................... 101 Patrones espaciales de Diversidad genética ................................................................................. 101 Diferenciación y Estructura Genética a escala macrogeográfica ........................................ 103 DISCUSIÓN ......................................................................................................................................................... 107 CONCLUSIÓN .................................................................................................................................................... 110 CAPÍTULO V: ASOCIACIÓN DE LA DIVERSIDAD GENÉTICA Y LA INESTABILIDAD AMBIENTAL EN BOSQUES DE MONTAÑA DE POLYLEPIS AUSTRALIS ........................... 112 INTRODUCCIÓN ..................................................................................................................................... 113 MATERIALES Y MÉTODOS ................................................................................................................ 115 Diversidad Genética .................................................................................................................................. 115 ix Variabilidad Ambiental ........................................................................................................................... 115 Series temporales de NDVI .................................................................................................................... 116 Cálculo de Indicadores de Inestabilidad Ambiental ................................................................... 118 Correlación de la diversidad genética poblacional con la inestabilidad ambiental .. 119 RESULTADOS .................................................................................................................................................... 120 Asociación entre inestabilidad ambiental y diversidad genética ....................................... 122 DISCUSIÓN ......................................................................................................................................................... 126 CONCLUSIÓN .................................................................................................................................................... 128 CONCLUSIÓN GENERAL ............................................................................................................................ 129 REFERENCIAS ................................................................................................................................................. 132 ANEXO I: DESCRIPCIÓN DE DATOS UTILIZADOS Y RUTINAS EN LENGUAJE R DESARROLLADAS PARA LOS ANÁLISIS REALIZADOS EN EL CAPÍTULO I .................. 150 DESCRIPCIÓN DE LOS CONJUNTOS DE DATOS UTILIZADOS ................................................... 151 RUTINAS EN LENGUAJE R DE LOS ANÁLISIS REALIZADOS ...................................................... 157 ANEXO II: RUTINAS, PROGRAMAS Y PARÁMETROS PARA GENERAR Y ANALIZAR LOS DATOS SIMULADOS EN EL CAPÍTULO II ............................................................................... 165 DISEÑO DE LA SIMULACIÓN ..................................................................................................................... 166 RUTINAS R Y PROGRAMAS PARA CORRER LOS ANÁLISIS ESTADÍSTICOS ....................... 169 1 INTRODUCCIÓN GENERAL Las variaciones de las condiciones ambientales, como por ejemplo la heterogeneidad climática o edáfica, diferentes regímenes de disturbios exógenos o endógenos y el aislamiento geográfico, tanto de origen natural como antrópico, producen respuestas genéticas en los individuos, que pueden generar la estructuración espacial de la variabilidad genética. Además, muchos de los procesos evolutivos y ecológicos que influyen sobre la variación genética, están mediados por el espacio y por tanto es frecuente la presencia de estructura genética espacial (EGE) en la naturaleza. El estudio de la variabilidad genética espacial permite hacer distintos tipos de inferencias sobre los principales procesos que han operado a nivel del conjunto de individuos en un espacio determinado. De ésta manera, el conocimiento de la EGE es crucial tanto para el uso y manejo racional de las especies que están en procesos de domesticación y mejora genética, como para la conservación de especies amenazadas (Escudero et al. 2003; Teich et al. 2010; Kettle et al. 2011). Mientras que numerosos trabajos científicos demuestran la importancia que tiene la cantidad y distribución de la variabilidad genética en la viabilidad y resiliencia de las especies, comunidades y ecosistemas (Reusch et al. 2005; Crutsinger et al. 2006; Bailey et al. 2009), cada vez se incrementan más las amenazas a la diversidad genética a nivel mundial (Laikre 2010; Laikre et al. 2010). Éstas incluyen la manipulación del conjunto de genes de las especies a través de la explotación comercial (Lee et al. 2002; Laikre et al. 2005), la fragmentación del hábitat (Young et al. 1996; Vranckx et al. 2011) y el cambio climático (Balint et al. 2011; Provan y Maggs 2012). En este contexto es fundamental contar con herramientas analíticas que permitan describir, analizar, comparar y asociar patrones espaciales de variabilidad genética. El análisis de la EGE se ha desarrollado desde principios de la década del 40, con los trabajos pioneros de Wright (1943) y en la actualidad es un campo de investigación en constante y rápida evolución, que incluye una amplia variedad de conceptos biológicos y métodos estadísticos específicos para datos referenciados espacialmente (Balzarini et al. 2011; Safner et al. 2011; Guillot y Rousset 2012). En los últimos se ha definido a la genética del paisaje como una disciplinaindependiente que incorpora al 2 estudio de la estructura espacial de la variación genética, la variación espacial de las características del ambiente (Manel et al. 2003; Manel y Segelbacher 2009; Manel et al. 2010; Segelbacher et al. 2010) uniendo a tres disciplinas diferentes: la ecología del paisaje, la genética de poblaciones y la estadística espacial (Storfer et al. 2007). La EGE puede exhibir distintos patrones, desde cambios graduales, como las clinas, (Haldane 1948; Premoli 2003) hasta cambios abruptos como los parches (Turner et al. 1982; Manel et al. 2007). La identificación de dichos patrones espaciales requiere de la colecta de información genética de individuos o poblaciones cuya posición geográfica debe ser conocida. Así, en numerosos estudios, los datos genéticos son también datos “espaciales” o georreferenciados. Debido a la naturaleza multivariada de los datos genéticos, provistos en muchos casos por marcadores moleculares, es común que se intente colapsar la información molecular en medidas de resumen univariadas como puede ser un índice de diversidad genética o una variable sintética obtenida mediante una técnica de reducción de la dimensión. Las distancias genéticas también son comúnmente usadas para sintetizar la información multidimensional de los genotipos multilocus. Sin embargo, para un mismo conjunto de datos moleculares pueden calcularse distintos índices de diversidad y métricas de distancia genética, que no necesariamente tienen una única interpretación a nivel biológico como a nivel estadístico (Bruno y Balzarini 2010). Los métodos analíticos que permiten detectar y cuantificar EGE son muy variados y la selección criteriosa del o los procedimientos más apropiados, para cada situación biológica, demanda el conocimiento del desempeño relativo de éstos frente a diferentes escenarios de variabilidad genética que pueden darse en la naturaleza. En los bosques nativos la modelación espacial de la variabilidad genética y su correlación con variables ambientales es de vital importancia. Los bosques, además de ser el hábitat de muchas especies, brindan importantes servicios ecosistémicos. Por ello, la pérdida de diversidad genética de estos ecosistemas, debido a la creciente fragmentación del paisaje y al cambio climático global, ha ganado la atención de la comunidad científica (Hamrick 2004). La fragmentación reduce el tamaño de las poblaciones arbóreas y aumenta su aislamiento, lo cual aumenta la endogamia y la deriva génica y reduce el flujo génico (Jump y Peñuelas 2006). La erosión genética puede aumentar el riesgo de extinción de una especie en el corto tiempo a través de la depresión por endogamia y, a largo tiempo, a través de la reducción de la habilidad de la 3 población a adaptarse a las condiciones ambientales (Frankham 2005; 2010) y en consecuencia también disminuir la resiliencia de las comunidades (Reusch et al. 2005). Sin embargo, no todos los estudios sugieren que la variabilidad genética en bosques decrece con la reducción del tamaño del parche. En algunos casos la fragmentación parece aumentar el flujo genético entre poblaciones, rompiendo la estructura genética local y disminuyendo la variabilidad espacial. La dificultad de detectar los efectos de la fragmentación en poblaciones de árboles puede deberse a que la mayor parte de la fragmentación ha ocurrido en un lapso de tiempo corto (100-200 años) en relación al tiempo generacional de las especies arbóreas. Otros autores (Young et al. 2000; Ortego et al. 2010) también postulan que es posible que en especies anemófilas la fragmentación aumente el flujo de polen por el viento a través del paisaje, manteniendo los niveles de diversidad genética en fragmentos pequeños y aislados (Young et al. 2000; Ortego et al. 2010). En Argentina se ha perdido el 70% de los bosques nativos originales (SAyDS 2005) y recientemente se ha declarado la emergencia forestal (Ley Nacional 26.331). Para un diagnóstico correcto del estado, las amenazas y la viabilidad de las poblaciones remanentes de bosque nativo es crítico el conocimiento de la cantidad de diversidad genética y su distribución espacial (Escudero et al. 2003). En la presente tesis se investigan métodos estadísticos para caracterizar la EGE en bosques, analizando la variabilidad genética espacial en una escala microgeográfica de un conjunto de algarrobos pertenecientes al género Prosopis spp. y en una escala macrogeográfica para poblaciones nativas de Polylepis australis Bitt. Las especies de Prosopis (Fabaceae, Mimosoideae) constituyen un recurso natural importante en zonas áridas debido al potencial que tienen para proveer un amplio espectro de productos y su habilidad de crecer en suelos pobres, donde pocas especies pueden sobrevivir. Además de utilizarse como recurso (leña, frutos, forraje, medicinas), los algarrobos estabilizan el suelo y previenen la erosión a través de la fijación del nitrógeno (Pasiecznik et al. 2001). En Argentina, Prosopis es un complejo taxonómico que presenta un gran número de grupos morfológicos que ocupan diversos nichos ecológicos. Dentro del género las especies se diferencian tanto a nivel morfológico (Burkart 1976), como a nivel molecular (Catalano et al. 2008). Sin embargo, dentro de la Sección Algarobia, existe hibridación entre algunas especies (Palacios y Bravo 1981), lo cual dificulta la diferenciación de unidades de uso y conservación, es decir, de grupos de individuos que poseen cierta identidad morfológica y genética, coherencia en sentido biológico y mantenimiento de 4 identidad en el proceso evolutivo. Para el ordenamiento del recurso forestal, se requieren distintos tipos de conocimiento, entre los que figuran la magnitud de variabilidad genética, su variación espacial y la correlación con variables morfológicas que caracterizan los fenotipos de las distintas especies e híbridos que cohabitan el ambiente. Respecto al género Polylepis (Rosaceae) se señala que éste contiene las especies de árboles que crecen a mayores altitudes en el mundo, en zonas climáticas en las cuales no pueden crecer otras especies arbóreas, como en algunos sitios de la cordillera de Sudamérica (Rada et al. 2001). Los bosques nativos de este género son de gran importancia en Argentina, debido al elevado número de endemismos que albergan y por ser el principal tipo de cobertura en las cabeceras de cuencas hídricas, contribuyendo a retener el suelo y el agua (Fjeldså 2002). No obstante, se ha observado una severa reducción de estos bosques, presumiblemente debido a cambios climáticos y antrópicos, incluyendo fuego, pastoreo, tala y agricultura (Teich et al. 2005; Renison et al. 2006; Renison et al. 2008), por lo cual se considera que su protección y restauración es una necesidad. El presente trabajo de investigación trata, en primer lugar y en virtud de la multiplicidad de enfoques y análisis estadísticos disponibles, el problema de la caracterización de EGE desde una perspectiva estadístico-metodológica. Bajo ésta dimensión, los primeros Capítulos se focalizan en el análisis de datos genéticos georreferenciados y discuten aspectos de la aplicación de métodos estadísticos disponibles utilizando bases de datos simulados. En segundo lugar, desde una perspectiva más biológica, se estudia la EGE y su asociación con variables ambientales y fenotípicas en especies de bosques nativos de importancia en nuestro país. Así, el Capítulo I consiste en la revisión e ilustración en distintos escenarios biológicos, de metodologías de análisis estadístico para detectar y caracterizar EGE en bosques. Los resultados del Capítulo II permiten una comprensión en mayor profundidad de los méritos de dos técnicas tradicionalmente usadas en el análisis de variación espacial genética, como son la prueba de Mantel y las regresiones de Rousset y de dos nuevas propuestas parael tratamiento de genotipos multilocus basadas en el análisis de componentes principales, una de ellas específicamente desarrollada para datos espaciales, conocida como Análisis de Componentes Principales Espacial. Los resultados de los Capítulos I y II muestran cuán diferentes son las interpretaciones biológicas que 5 se derivan en un estudio particular dependiendo del tipo de estructura estadística que capta cada análisis (media, varianza, autocorrelación) y proveen herramientas para quienes deban analizar datos genéticos de especies arbóreas espacialmente referenciados. En el Capítulo III no sólo se describe la variabilidad genética espacial a escala fina de un enjambre híbrido de Prosopis spp. del Chaco Árido Argentino, sino que también se cuantifica la asociación entre la variabilidad genética y morfológica, haciendo especial énfasis en procedimientos para la incorporación de la información espacial en el análisis de asociaciones. Los capítulos IV y V integran el primer estudio de la variabilidad genética de poblaciones de Polylepis australis a lo largo de su rango de distribución y su relación con indicadores derivados de información satelital que se proponen como métricas de inestabilidad ambiental. El conocimiento generado sobre datos reales de especies arbóreas nativas de nuestro país en los Capítulos III, IV y V provee no sólo una ilustración de los métodos analizados y propuestos, sino también conocimiento de base para programas de mejoramiento, conservación y estudio de la ecología evolutiva de Prosopis spp. y de Polylepis australis. Consideramos que el enfoque plural sobre la problemática es lo que hace a la virtud del presente trabajo de tesis. 6 OBJETIVOS GENERALES 1. Proponer estrategias metodológicas para el análisis estadístico de la estructura genética espacial en especies arbóreas. 2. Analizar la estructura genética espacial y su asociación con variables fenotípicas y ambientales en bosques nativos de Argentina. OBJETIVOS ESPECÍFICOS 1. Comparar, desde su aplicación en escenarios de estructura espacial genética de tipo parche y clina, métodos estadísticos basados en correlaciones y regresiones entre matrices de distancia, índices de autocorrelación espacial, correlogramas discretos, semivariogramas y técnicas de ordenamiento multivariado. 2. Evaluar, bajo distintos escenarios biológicos, el desempeño relativo para detectar y caracterizar estructura genética espacial de métodos tradicionales (Prueba de Mantel, Regresiones propuestas por Rousset) y nuevas propuestas basadas en la complementación de Análisis de Componentes Principales y Análisis de Componentes Principales Espacial con métricas de autocorrelación espacial. 3. Analizar la estructura espacial a escala fina de la variabilidad genética, morfológica y morfométrica en un enjambre híbrido del complejo taxonómico Prosopis spp. 4. Explorar asociaciones multivariadas entre la variabilidad genética y morfológica en un enjambre híbrido del complejo taxonómico Prosopis spp. 5. Ilustrar la aplicación de aproximaciones basadas en el uso complementario de análisis multivariados y modelos lineales mixtos en estudios de asociación con datos autocorrelacionados espacialmente. 6. Caracterizar la diversidad y la estructura genética espacial de poblaciones de Polylepis australis a lo largo de su rango de distribución. 7 7. Comparar niveles de diversidad genética entre y dentro de las regiones de distribución de Polylepis australis en función de su posición geográfica. 8. Caracterizar la inestabilidad ambiental de sitios donde se desarrollan poblaciones de Polylepis australis a través de indicadores derivados de información satelital. 9. Asociar la diversidad genética de Polylepis australis con la heterogeneidad temporal del ambiente en el paisaje. 8 CAPÍTULO I MÉTODOS ESTADÍSTICOS PARA EL ANÁLISIS ESPACIAL DE LA VARIABILIDAD GENÉTICA EN ESPECIES ARBÓREAS 9 INTRODUCCIÓN La importancia del análisis espacial de la variabilidad genética se ha incrementado recientemente dada la necesidad de conservar y restaurar los ecosistemas naturales a nivel mundial. Sin embargo, las motivaciones que originan los estudios de estructura genética espacial (EGE) son mucho más amplias. Inicialmente, la dimensión espacial fue incorporada a los modelos genético poblacionales a través de su impacto en la reproducción y dispersión de los individuos, dando lugar al modelo de asilamiento por distancia (IBD, por sus siglas en inglés) desarrollado por Wright (1943; 1946). Otros desarrollos teóricos posteriores han ampliado y generalizado esta teoría (Kimura y Weiss 1964; Malécot 1975; Rousset 1997). La motivación original de dichas aproximaciones fue estimar parámetros relacionados a la reproducción, demografía y migración de las poblaciones naturales y para eso sus desarrollos se basan en supuestos biológicos y modelos poblacionales. Sin embargo, en los últimos años, el estudio combinado de la información espacial y genética se ha ampliado notablemente, incluyendo nociones de la ecología de paisajes y dando origen a una nueva disciplina, la genética del paisaje (Manel et al. 2003; Manel y Segelbacher 2009). Estos estudios persiguen el fin de entender los procesos y patrones de flujo génico y adaptación local, pero desde una perspectiva diferente, podríamos decir más ecológica. En muchos de los trabajos, el objetivo del análisis conjunto de la información genética y espacial no es estimar un parámetro poblacional, como podría ser el tamaño del vecindario de un individuo en una población, sino, por ejemplo, lograr una buena representación gráfica de cómo varía en el espacio la diversidad o la identidad genética de los individuos. En otros casos, se busca modelar la estructura de correlación espacial de la variabilidad genética para tenerla en cuenta en análisis estadísticos que demandan datos independientes y, consecuentemente, donde las correlaciones entre observaciones pueden sesgar los resultados. No sólo las estimaciones de variabilidad pueden cambiar en un contexto de datos correlacionados espacialmente sino que también se ve afectada la significancia de las asociaciones que podrían ser de interés entre los datos genéticos con otros conjuntos de variables como aquellas que describen el ambiente o el fenotipo. Los procedimientos analíticos que se deben utilizar según los objetivos que se persigan, son diferentes. Es así, como el cuerpo de análisis estadísticos utilizados en estudios de datos espaciales o geo-posicionados es muy variado y muchas veces no es claro para el 10 investigador qué método es más conveniente usar para analizar estadísticamente un problema biológico específico. Esta situación ha conducido a discusiones sobre la selección de metodologías de análisis espacial en análisis genéticos (Guillot et al. 2009). La gran cantidad de trabajos biológicos que discuten las aproximaciones metodológicas, es una evidencia de la necesidad que existe de investigar el uso de técnicas de análisis espacial en Genética (Vekemans y Hardy 2004; Guillot 2009; Jombart et al. 2009b; Francois y Durand 2010; Segelbacher et al. 2010; Balzarini et al. 2011). Asimismo, existen numerosos estudios de simulación que han sido diseñados para responder preguntas específicas sobre el desempeño, desde criterios estadísticos más que biológicos, de metodologías que alternativamente pueden utilizarse para un mismo problema y por tanto para obtener recomendaciones sobre el método más apropiado para el análisis de una situación específica (Guillot y Santos 2009; Guillot y Rousset 2012). Para elegir el método analítico más apropiado para contestar una pregunta referida a EGE es necesario analizar y diferenciar diversos aspectos del problema en cuestión. Una primera diferenciación a considerares la identificación de la escala espacial, la cual dependerá del proceso o patrón biológico de estudio (Anderson et al. 2010). A nivel metodológico la escala puede afectar la capacidad del método para identificar con precisión el tipo e intensidad del patrón espacial subyacente en los datos genéticos. A nivel biológico, las conclusiones e inferencias realizadas sobre una escala espacial que no concuerda con las preguntas y/o la historia natural del objeto de estudio pueden directamente carecer de sentido o ser incorrectas. En general, se reconocen dos grandes escalas en estudios de EGE, la escala fina o microgeográfica y la escala macrogeográfica. Cuando no es posible identificar grupos de individuos como podrían ser poblaciones, las unidades de análisis (entidades) sobre las cuales se investigan los patrones espaciales genéticos son los mismos individuos, generalmente distribuidos en forma continua en el espacio y a escala espacial fina. Otra cuestión sobre la que es necesario pensar, antes de seleccionar un método de análisis de EGE, es la naturaleza discreta o continua del patrón espacial presente en los datos genéticos. Los métodos para el análisis de patrones espaciales pueden agruparse en dos grandes familias según esta consideración: los análisis de patrones de puntos y los análisis de patrones de superficies (Legendre 1993). Los análisis de patrones de puntos buscan detectar si la distribución espacial en las entidades de estudio se 11 distribuyen al azar o no, en cuyo caso es de interés describir si se encuentran agrupadas o regularmente distribuidas (Ripley 1981; Upton y Fingleton 1985; Ripley 1987; Schlather et al. 2004). Los análisis de patrones de superficies, en cambio, estudian variables que se distribuyen en forma continua en el espacio. Si bien comúnmente los datos provienen de muestreos en espacios discretos, el fenómeno de estudio se suele suponer como continuo en el espacio. En estos casos, las coordenadas espaciales son el resultado de una elección del investigador y no reflejan propiedades intrínsecas del proceso que se está estudiando. Las situaciones en las que tanto la variable como la posición de las entidades son informativas, han sido muy poco exploradas en el contexto de la genética espacial, muy probablemente debido a la dificultad de aplicar los análisis de patrones de puntos a datos multivariados como los genéticos (Guillot et al. 2009). Sin embargo, algunas veces sucede que la distribución de las entidades de estudio en el espacio no sigue un patrón aleatorio. Por ejemplo, en especies arbóreas puede suceder que no todas las regiones del espacio tengan la misma probabilidad de contener un árbol. En estos casos, la posición en el espacio de los individuos no puede ser considerada independiente de los genotipos y debería ser analizada y modelada como parte del mismo proceso. Una aplicación del uso de modelos de patrones de puntos para describir la distribución de árboles y sus genotipos demostró que esta metodología puede ser útil en estudios de estructura genética espacial a escala fina (Shimatani 2002; Shimatani y Takahashi 2003; Shimatani 2004). En este trabajo, nos ocuparemos de métodos que asumen patrones continuos en el espacio, suponiendo que la distribución de los genotipos en el espacio, es al azar. Otra noción importante que es necesario contemplar en la selección de un método de análisis, es el objeto de la inferencia, el cual está directamente relacionado con el objetivo principal del estudio. En algunos casos se busca la detección de un cambio espacial a nivel promedio de la característica genética de interés o en otros casos, la detección de una estructura de correlación entre las componentes aleatorias de las observaciones realizadas en sitios más o menos cercanos en el espacio. La detección de la estructura espacial de correlación de los términos aleatorios suele realizarse tanto para obtener estimaciones más precisas de variabilidad como para derivar la distancia a la cual un par de observaciones se considera independiente y así inferir procesos de dispersión. 12 Si bien el desarrollo de análisis de datos espaciales es muy amplio (Schabenberger y Gotway 2005), su aplicación en datos genéticos georreferenciados presenta un desafío particular: la naturaleza categorizada y multivariada del dato genético (Jombart et al. 2009b; Balzarini et al. 2011). Para obtener los datos genéticos es común el uso de marcadores moleculares o de técnicas de secuenciación que aportan información sobre ciertas porciones del genoma de cada individuo (loci) favoreciendo la clasificación o categorización de las entidades en función de las características cualitativas registradas en cada locus. La caracterización genética de individuos o de poblaciones puede incluir decenas, cientos, miles o incluso cientos de miles de loci que deben ser considerados en forma simultánea como una observación multivariada. El cálculo de distancias genéticas entre entidades (individuos o poblaciones), es una de las aproximaciones más utilizadas para resumir la información molecular multivariada en indicadores univariados que permiten estudiar la variabilidad genética. La disponibilidad de métricas para calcular distancias que cuantifican la diferenciación genética entre dos unidades de análisis, es amplia (Bruno y Balzarini 2010). Numerosas aproximaciones para detectar y cuantificar estructura espacial genética, se basan en el estudio de la relación entre alguna de estas métricas de distancias genéticas con métricas de distancias geográficas. Estas aproximaciones se basan en la búsqueda de autocorrelación espacial, es decir, la propiedad de que entidades más cercanas en el espacio sean más parecidas (autocorrelación positiva) o menos parecidas (autocorrelación negativa) que lo esperado por azar. La cuantificación de la autocorrelación espacial en datos genéticos ha sido abordada desde la teoría de la genética de las poblaciones para estimar parámetros relacionados al flujo génico, como el número de migrantes o el tamaño del vecindario (Epperson y Allard 1989; Epperson 1990; 2005; 2007). La prueba de Mantel (Mantel 1967), es una de las herramientas estadísticas más utilizadas para evaluar la dependencia estadística entre las distancias geográficas y genéticas. Éste método es esencialmente exploratorio y carece de supuestos sobre los procesos biológicos o los efectos de otros factores que pueden influenciar el patrón espacial genético. Otros métodos estadísticamente formales, como aquellos basados en regresiones, evalúan la relación entre distancias genéticas y geográficas bajo supuestos biológicos y permiten estimar parámetros como el tamaño de vecindario de cada entidad (Rousset 1997; 2000). Existen también diversos coeficientes univariados que permiten cuantificar la autocorrelación espacial como el índice de Moran (Moran 1950) 13 o el índice de Geary (Geary 1954). En general éstos se han aplicado sobre datos univariados, como puede ser una frecuencia alélica. No obstante, Smouse y Peakall (1999) proponen el cálculo de un coeficiente de autocorrelación que permite rescatar la naturaleza multivariada de los perfiles genotípicos obtenidos con marcadores multilocus-multialélicos. Estos índices miden a través de un coeficiente de correlación y en base a matrices de distancias genéticas, la similitud genética entre pares de individuos que se encuentran separados a una determinada distancia geográfica y luego de evaluar estas correlaciones para un conjunto discreto de clases de distancia se grafican los coeficientes de correlación en relación a la distancia de separación (lag) usada, constituyendo correlogramas. Otra herramienta que relaciona las diferencias genéticas entre entidades separadas a una cierta distancia, pero para un dominio continuo de lags, es la función conocida en Geoestadísticacomo semivariograma (Schabenberger y Gotway 2005). La función puede utilizarse para cuantificar la magnitud de autocorrelación espacial de la variabilidad genética. Esta aproximación geoestadística ha sido usada para datos genéticos recién en los últimos años (Wagner et al. 2005). Las distancias multivariadas son útiles para el estudio de variabilidad genética, pero dado que el dato de distancia relaciona a un par de unidades de análisis a la vez, surgen limitaciones cuando se desea visualizar cómo varía la identidad genética de los individuos en su conjunto. Dentro de las técnicas estadísticas del Análisis Multivariado (Johnson y Wichern 2007), existen las técnicas de reducción de la dimensión (TRDs) las cuales permiten resumir la información provista por los datos genéticos en nuevas variables sintéticas, que luego pueden ser usadas en relación a las técnicas de análisis espacial antes mencionadas. El Análisis de Componentes Principales (ACP) (Hotelling 1933) suele ser usado para resumir la información molecular, contenida en perfiles genotípicos o perfiles de frecuencias alélicas, en pocas variables sintéticas (Jombart et al. 2009b; Balzarini et al. 2011). Estas nuevas variables, conocidas como Componentes Principales (CP), fueron exitosamente utilizadas para realizar mapas sintéticos de variabilidad genética desde trabajos pioneros como los de Cavalli-Sforza (1966) hasta otros más actuales como el de Laloë et al. (2010). Sin embargo, cuando el ACP es usado con datos georreferenciados no incorpora explícitamente la información espacial. El uso de la información espacial a priori, es decir, dentro del criterio de optimización de la TRD permite obtener las variables sintéticas con mayor capacidad para identificar EGE. 14 Este tipo de TRD fue aplicada en el contexto de datos ecológicos por Thioulouse et al. (1995). Jombart et al. (2008) desarrolló una TRD para datos genéticos georreferenciados conocida como ACP espacial, basándose en una modificación del ACP que permite optimizar la varianza genética y la autocorrelación espacial simultáneamente. Un concepto importante para evaluar la significancia estadística de EGE en el contexto de datos espaciales multivariados en un espacio continuo, es el de redes de conexión entre unidades de análisis (Legendre y Fortin 1989). Éste permite definir vecindarios conformados por un conjunto de entidades que debieran ser consideradas próximas y con las cuales se evaluará la similitud genética entre la entidad objeto de análisis y aquellas del vecindario. Los recursos metodológicos para definir redes de conexión son varios y la selección de uno u otro tipo de red depende fuertemente del patrón espacial de las unidades de análisis. Como se mencionó anteriormente, existen distintas funciones de estructura que permiten cuantificar la dependencia espacial en función de distintas clases de distancia, como son los correlogramas y los semivariogramas. Existe también otro grupo de métodos que tienen por objetivo detectar barreras de flujo génico. Muchos de estos métodos se basan en el agrupamiento de los perfiles genotípicos mediante algoritmos de conglomerado o mediante agrupamientos basados en métodos bayesianos que calculan para cada entidad la probabilidad de pertenecer a uno u otro conglomerado, como es el caso del software STRUCTURE (Pritchard et al. 2000). En la mayoría de estos métodos de agrupamiento, la información espacial no se utiliza en el algoritmo. Recientemente, se han desarrollado estrategias analíticas para que los agrupamientos consideren explícitamente las coordenadas geográficas (Francois y Durand 2010). La idea básica de estos últimos métodos es que es más probable que dos individuos cercanos en el espacio pertenezcan al mismo grupo que si se toman dos individuos al azar. La aproximación fue propuesta inicialmente por Francois et al. (2006) e implementada en distintos software como GENECLUST (Ancelet 2010), TESS (Chen et al. 2007), BAPS (Corander et al. 2004) y GENELAND (Guillot et al. 2008). Estos métodos de agrupamiento difieren sustancialmente de los métodos que analizan la autocorrelación espacial tanto a nivel de los algoritmos como en los objetivos finales que persiguen. En el presente Capítulo se describen, analizan e ilustran los principales métodos utilizados para detectar y cuantificar EGE aplicables a datos genéticos georreferenciados a escala espacial fina. Se comparan, desde su aplicación en escenarios de estructura 15 espacial genética de tipo parche y clina, métodos estadísticos basados en correlaciones y regresiones entre matrices de distancia, índices de autocorrelación espacial, correlogramas discretos, semivariogramas y técnicas de ordenamiento multivariado. Se citan los programas donde están implementados los análisis descriptos y se dan ejemplos de la literatura en donde se los aplica a especies arbóreas. Los conjuntos de datos utilizados corresponden a los publicados por Jombart et al. (2008). En el Anexo 1 se describen los datos y los procedimientos utilizados por Jombart para simular ambos conjuntos de datos (Anexo 1.1) y se proporcionan las rutinas desarrolladas en lenguaje R para realizar los análisis de datos presentados (Anexo 1.2). De esta manera, el presente Capítulo constituye una revisión sobre los métodos estadísticos que actualmente son más usados en estudios de EGE, con el valor agregado de la ilustración simultánea en dos conjuntos de datos que permiten la comparación de los métodos analizados haciendo énfasis en los distintos tipos de conclusiones biológicas que se pueden obtener. 16 PROCEDIMIENTOS ESTADÍSTICOS PARA DETECTAR ESTRUCTURA GENÉTICA ESPACIAL (EGE) CORRELACIÓN ENTRE DISTANCIAS La prueba de Mantel (Mantel 1967) es una de las herramientas estadísticas más utilizadas para evaluar la significancia estadística de la dependencia entre distancias genéticas y geográficas. Ésta evalúa, vía procedimientos de permutación aleatoria, si la relación lineal entre las distancias geográficas y genéticas es significativa, lo cual se considera indicativo de la presencia de EGE global. No se basa en teoría genética y no requiere de supuestos biológicos, siendo esencialmente exploratoria ya que evalúa el nivel de significación de la correlación entre dos matrices de distancias. Las distancias de ambos tipos (genéticas y geográficas) se pueden expresar matricialmente ya que corresponden a pares de individuos o pares de grupos de individuos identificados a priori. El estadístico de la prueba de Mantel es el mismo coeficiente de correlación lineal de Pearson: ( , ) ( ). ( ) XY Cov X Y Z r Var X Var Y = = donde el numerador representa la covarianza entre las matrices X e Y (suma de productos cruzados entre los elementos de la matriz X y la matriz Y) y el denominador la raíz cuadrada del producto de la varianza (suma de cuadrados) total en cada matriz. El problema de evaluar el nivel de significación de la correlación entre dos matrices de distancias no es sencillo debido a la falta de independencia entre los pares de distancias. En los primeros desarrollos, Mantel proporcionó una prueba de significancia estadística para evaluar la hipótesis de no correlación (correlación cero) basada en la propiedad de normalidad asintótica del estimador de la correlación. Luego desarrolló otra prueba no asintótica, es decir aplicable a situaciones donde el número de individuos en la muestra no necesita ser grande, vía simulación Monte Carlo de los valores de correlación. La prueba de permutación de Mantel, deja inalterada una de las matrices y permuta filas (y columnas) de la otra matriz de manera de desfigurar, si existiera, la correlación entre ambas. Luego de realizar numerosas permutaciones y calcular en cada escenario la correlación, obtiene la distribución del estadístico bajo la 17 hipótesis nula(falta de correlación) y posicionando al valor de correlación encontrado en las matrices inalteradas estima la significancia estadística o valor p (probabilidad de obtener valores mayores o iguales al valor absoluto del estadístico observado). Cuando la correlación entre la matriz de distancias genéticas y la matriz de distancias geográficas es estadísticamente significativa, se concluye que existe estructura espacial lineal. La correlación lineal entre estas distancias podría deberse a distintos modelos biológicos como el aislamiento por distancia o a la presencia de barreras del flujo génico, los cuales podrían reflejarse en una clina o en una estructura de parches, respectivamente. Mientras que la primera situación podría reflejar la capacidad de dispersión intrínseca de una especie, la segunda podría resultar del efecto de características del paisaje sobre el flujo génico. A pesar de su larga historia, las cualidades de la prueba de Mantel siguen siendo estudiadas. Un estudio reciente de simulación demuestra que para detectar EGE, la prueba de Mantel no produce mejores resultados que otros análisis estadísticos, como por ejemplo las regresiones, y que puede tener un exceso de error tipo I (Legendre y Fortin 2010). No obstante, la prueba de Mantel sigue siendo muy utilizada para detectar y cuantificar estructura espacial genética tanto en bosques (Born et al. 2008; Yeoh et al. 2011) como en otros ecosistemas. Se encuentra disponible en diversos software: InfoGen (Balzarini y Di Rienzo 2011), GenAlEx (Peakall y Smouse 2006), GenPop (Rousset 2008b) y R (R Development Core Team 2011). APLICACIÓN DE LA PRUEBA DE MANTEL Para ilustrar la Prueba de Mantel en los escenarios de parche y clina (Anexo I) se calcularon distancias genéticas a partir de las frecuencias alélicas de los perfiles genotípicos y distancias geográficas a partir de las coordenadas bidimensionales que posicionan en el espacio a los individuos genotipados. En ambos casos se calculó la distancia Euclídea. La significancia de la Prueba de Mantel se evaluó utilizando 999 permutaciones y la librería “vegan” en R (Oksanen et al. 2011). En la Figura 1.1 se representan las distancias genéticas en función de las distancias geográficas para los datos simulados. Para ambas estructuras espaciales (parches y clinas), la prueba de Mantel resultó significativa (p<0.05). 18 Figura 1.1: Gráficos de dispersión de las distancias genéticas vs. geográficas para las estructuras de parches (izquierda) y clina (derecha). Se indica el coeficiente de correlación y el valor p de la Prueba de Mantel. En ambos casos el coeficiente de correlación fue bajo, aunque fue mayor en la estructura de clina que en la estructura de parches (r=0.14 y r=0.09, respectivamente). Como el coeficiente mide una correlación de tipo lineal, es decir, un aumento proporcional en las distancias genéticas para los incrementos en distancias geográficas, es de esperar que los patrones clinales sean mejor recuperados que los patrones de parches, ya que en éstos últimos las diferencias en distancias genéticas dentro de un mismo parche no siguen un patrón espacial. En muchas circunstancias los coeficientes de correlación son relativamente bajos pero aún significativos y este exceso de significancia puede atribuirse a la subestimación del error estándar de la estimación, la cual es ocasionada por un tamaño muestral alto debido a que el n que se usa en los cálculos, es la cantidad de distancias que se generan cuando se consideran todos los pares de individuos posibles. 0 45 90 135 180 Distancias geográficas 5 10 15 20 25 D is ta nc ia s ge né tic as r=0.09 p=0.03 0.0 0.5 1.0 1.5 2.0 Distancias geográficas 2 4 6 8 10 12 14 16 D is ta nc ia s ge né tic as r=0.14 p=0.001 19 REGRESIÓN ENTRE DISTANCIAS El estudio de la relación entre estimadores de diferenciación genética y distancias geográficas fue formalizado en base a modelos de aislamiento por distancia para realizar estimaciones de flujo génico. En este contexto, se han propuesto modelos de regresión para analizar la relación entre distancias geográficas y medidas de diferenciación genética entre subpoblaciones o poblaciones en las cuales los individuos se encuentran agregados (Rousset 1997) y entre individuos distribuidos en forma continua (Rousset 2000). En el primer caso, Rousset propone estudiar esta relación mediante regresiones entre el cociente: Fst / (1-Fst) entre pares de subpoblaciones y la distancia geográfica. Al extender el análisis sobre individuos distribuidos continuamente en el espacio, propone la medición de la diferenciación entre individuos mediante un estadístico denominado â (Rousset 2000). En este caso, la inversa de pendiente de la recta de regresión entre la diferenciación genética y las distancias geográficas estima el tamaño de vecindario, el cual se expresa como (4πDσ2), donde D es la densidad de individuos y σ es la distancia de dispersión media. Tanto para poblaciones como para individuos, en espacios unidimensionales se recomienda utilizar las distancias geográficas sin ninguna transformación. Sin embargo, en espacios bidimensionales las distancias geográficas se distribuyen exponencialmente, ya que son más frecuentes las distancias más pequeñas y poco frecuentes las distancias más grandes. Este tipo de distribución de las distancias puede ocasionar problemas en la estimación de los parámetros de regresión ya que la densidad de observaciones varía sustancialmente a lo largo del rango de la variable regresora, incrementando el efecto palanca o leverage (Draper y Smith 1998) de algunas pocas observaciones. La transformación de las distancias geográficas a través de la función logaritmo otorga una distribución más simétrica a la variable regresora, con menor probabilidad de datos mal condicionados para una estimación por modelo de regresión lineal y mejorando la estimación de los coeficientes de regresión. Las regresiones de Rousset fueron desarrolladas en base a la teoría de aislamiento por distancia y los estimadores de parentesco entre pares de individuos o poblaciones utilizados en dichas regresiones fueron pensados para marcadores codominantes. Si se usaran marcadores dominantes, deberían calcularse otros estimadores de parentesco para estimar tamaño de vecindario en escenarios de aislamiento por distancia, como son los propuestos por Hardy (2003). 20 Las estimaciones realizadas mediante las regresiones de los estimadores de diferenciación propuestos por Rousset y las distancias geográficas son aproximadas cuando la tasa de mutación (μ) es baja y bajo un cierto rango de distancias (d<σ y d>0.5σ/2μ en dos dimensiones). Si bien esta restricción puede dificultar el estudio de la EGE de especies con distancias de dispersión (σ) muy altas, diversos trabajos han utilizado esta aproximación en especies arbóreas (Heuertz et al. 2003; Hardesty et al. 2005; Born et al. 2008). La regresiones de Rousset pueden realizarse mediante el software GenePop (Raymond y Rousset 1995; Rousset 2008b). ESTIMACIÓN DE LAS REGRESIONES PROPUESTAS POR ROUSSET Para ilustrar la aplicación de regresiones entre diferenciación genética y distancia geográfica se calculó el estimador a propuesto por Rousset para el caso donde las unidades de análisis son individuos (Rousset 2000). Dado que el espacio de estudio es bidimensional (área), se trabajó con el logaritmo de las distancias geográficas. Posteriormente, se ajustó un modelo de regresión lineal entre ambas medidas. La magnitud de la relación y el vecindario se estimaron a partir de la pendiente de la recta de regresión. El error estándar de la pendiente estimada fue usado para construir un intervalo de confianza al 95%, el cual permite detectar si existe o no EGE. Si el intervalo de confianza para la pendiente contiene el 0 (no relaciónentre ambas distancias), se infiere que no existe estructura espacial. Todos los análisis se realizaron con el programa Genepop 4.1 (Rousset 2008b). En la Figura 1.2 se observan los gráficos de dispersión entre el logaritmo de la distancia geográfica y la diferenciación genética entre individuos para ambas estructuras. Para el caso de estructura de parches, la pendiente de la recta de regresión (0.0105) fue menor que para la estructura de clina (0.0184), lo cual indica que se detecta mayor estructura en la clina. Para los parches, el vecindario estimado es de 95 individuos, mientras que para el caso de la clina la estimación del vecindario es de 54 individuos. 21 Figura 1.2: Gráfico de dispersión entre el logaritmo de la distancia geográfica y la diferenciación genética entre individuos para las estructuras de parche (izquierda) y clina (derecha). Se muestran las rectas de regresión ajustadas. El principio subyacente supone que a mayor estructuración espacial (mayor pendiente), el tamaño del vecindario es menor. Así, éste estadístico es un predictor robusto de la diferenciación con la distancia (Rousset 2008a), en el sentido que el incremento no depende de la forma de distribución de la dispersión, la cual podría afectar la magnitud de la diferenciación genética de un lugar a otro. Los resultados obtenidos con las regresiones concuerdan con los obtenidos mediante la prueba de Mantel, en el sentido de que ambos detectan mayor estructuración en el caso de la clina. ÍNDICES DE AUTOCORRELACIÓN ESPACIAL Dos de los índices más usados para medir autocorrelación espacial son el Índice de Moran (Moran 1950) y el Índice de Geary (Geary 1954). La aplicación de índices que miden autocorrelación espacial en el ámbito de la genética de poblaciones fue inicialmente realizada sobre datos simulados (Sokal y Wartenberg 1983; Barbujani 1987; Sokal et al. 1989b). En las simulaciones de éstos trabajos se aborda la autocorrelación espacial en sentido univariado, es decir para medir la magnitud de la autocorrelación en los valores de una única variable. El cálculo del índice o coeficiente de Moran de autocorrelación espacial en un espacio continuo requiere la definición de una matriz de ponderación espacial y para -4 -3 -2 -1 0 1 2 3 ln(d) -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 a a =0.00460383 + 0.010483* ln (distancia) -6 -5 -4 -3 -2 -1 0 1 ln(d) -0.5 -0.4 -0.3 -0.1 0.0 0.1 0.3 0.4 0.5 a = 0.0421825 + 0.0184058 * ln (distancia) 22 obtener estos ponderadores se pueden seguir distintos procedimientos, entre los que se destacan el uso de redes de conexión (Dray 2011). Las redes de conexión o gráficos de vecindario se generan conectando individuos vecinos en un mapa (Legendre y Legendre 1998). La triangulación de Delaunay es un método recomendado para construir gráficos de vecindario cuando las entidades se encuentran distribuidas en forma homogénea en el espacio. Sin embargo, puede conectar a entidades periféricas que no deberían estar relacionadas. El gráfico de Gabriel es un subconjunto del gráfico de Delaunay que no incluye las conexiones periféricas. Las redes de conexión pueden ser adaptadas manualmente pudiéndose excluir contactos entre puntos cercanos o incluir relaciones entre puntos lejanos, siguiendo criterios biológicos como por ejemplo la existencia de barreras geográficas o corredores biológicos. Para calcular el índice de Moran se mide la variable en una zona, llamémosla i- ésima zona y se compara su valor con el valor promedio de la variable en las localizaciones de su vecindario. La expresión del índice es: , 2 , ( )( ) ( ) ( ) i j i ji j i j ii j i N W X X X X I W X X − − = − ∑ ∑ ∑ ∑ ∑ donde N es el número total de observaciones, Xi es el valor de la variable en una localización particular (posición i) y Xj es el valor de la variable en otra localización (posición j). El elemento Wij de la matriz de ponderaciones W, es el peso aplicado a la comparación de las observaciones en la posición i y la posición j que puede ser entendido como un coeficiente de continuidad. Cuando se utilizan redes de conexión, la matriz W está compuesta por ceros y unos ya que si la posición j es adyacente a la posición i, el término ij recibe un peso de 1 y si no, de 0. Otra posibilidad para construir la matriz W es relacionar los elementos con la distancia d entre las posiciones de manera inversamente proporcional, es decir: 1=ij ij W d . El índice de Moran varía entre –1 y 1 ya que es estandarizado por la variabilidad de X. Cuando la autocorrelación es alta, el coeficiente será alto. Un valor cercano a 1 indica una alta correlación positiva, mientras que valores cercanos a –1 indican autocorrelación negativa. Una desventaja de Wij es que su valor se encuentra distorsionado por la unidad de medida de la distancia entre posiciones, por lo cual, Wij debe ser normalizado. 23 El Índice C de Geary, es similar al índice de Moran, pero en su numerador no mide la interacción a través del producto cruzado de las desviaciones con respecto a la media, sino que expresa la magnitud de las desviaciones entre observaciones en las diferentes localizaciones. La expresión del índice de Geary es: ( ) 2, 2 , 1 ( ) 2( ) ( ) i j i ji j i j ii j i N W X X C W X X − − = − ∑ ∑ ∑ ∑ ∑ El valor índice de Geary se encuentra en el intervalo [0,2]. Si no hay autocorrelación espacial, el valor esperado de C es 1. Valores del índice entre uno y dos indican autocorrelación espacial negativa. Este índice se relaciona inversamente con el índice de Moran. Al enfatizar las diferencias entre pares de observaciones más que la covariación entre ellos, el índice de Geary no provee una inferencia biológica idéntica a la del índice de Moran. Para evaluar la significancia estadística de estos índices es posible usar pruebas basadas en aproximación normal o métodos computacionalmente intensivos. El uso del índice de Moran de autocorrelación espacial para estimar distancias de dispersión ha sido utilizado en una serie de trabajos realizados por Epperson (1990; 1993; 1994; 1995a; 1995b; 2003; 2005; 2007; 2010). Epperson considera que el uso del índice de Moran para estimar dispersión a distancias pequeñas es muy robusto bajo una gran variedad de condiciones. Sin embargo, asume que las consecuencias genéticas de la dispersión afectan únicamente a la varianza de la distribución de la dispersión, lo cual es seriamente criticado por otros autores. Rousset (2008a) señala que la forma de la distribución de dispersión afecta la magnitud de diferenciación entre sitios e incluso sugiere que el índice de Moran no debería usarse para estimar dispersión. Otra cuestión a tener en cuenta es que el problema de calcular el índice de Moran para varios alelos de un locus y a través de loci no es simple (Epperson 2005), por lo cual en general, se usa en sentido univariado. Los índices de Moran y de Geary pueden calcularse en R mediante las librerías “spdep” (Bivand et al. 2011) y “ape” (Paradis et al. 2004). Su aplicación al estudio de patrones espaciales genéticos en árboles puede encontrarse en diversos trabajos (Epperson y Allard 1989; Epperson y Gi Chung 2001; Epperson et al. 2001; Epperson et al. 2003). 24 CÁLCULO DE ÍNDICES DE MORAN Y GEARY A diferencia de las aplicaciones anteriores, que tienen en cuenta todos los loci, para calcular los índices de autocorrelación espacial se utilizaron datos univariados: las frecuencias alélicas del alelo 3 del locus 20 (L20.03) para el caso de parches y del alelo 2 del locus 1 (L01.02) para el caso de la clina (Figura 1.3). Se eligieron estos alelos ya que son aquellos con mayor autocorrelación espacial para cada escenario (Jombart et al. 2009). Figura 1.3: Ubicación en el espacio de las frecuencias alélicas del alelo L20.03 para el patrón en parches (izquierda) y del alelo L01.02para el caso de clina (derecha). El tamaño de los círculos representa la magnitud de la frecuencia alélica en cada genotipo. Para determinar la matriz W se definieron los vecindarios para cada entidad mediante la red de conexión definida por el método de triangulación de Delaunay y mediante el gráfico de Gabriel (Figura 1.4), utilizando la librería “spdep” de R (Bivand et al. 2011). Asimismo se calculó una matriz W que contenga la inversa de todas la distancias entre pares de puntos. Se calcularon los índices de Moran (I) y de Geary (G) para ambas estructuras (parches y clina) usando las tres matrices de ponderación descriptas (definidos por la red de conexión de Delaunay, de Gabriel y por el conjunto de todas las interdistancias). Los resultados pueden apreciarse en la Tabla 1. A pesar de que se usó el alelo con mayor estructuración espacial los resultados muestran que para el caso de estructura de parches, tanto el índice de Moran como el de Geary no fueron significativos (valores p entre 0.125 y 0.165). No obstante en la Figura 1.3 se observa la 0 5 10 0 5 10 0.0 0.5 1.0 0.0 0.5 1.0 25 estructuración de este alelo ya que en un sector del espacio (a la derecha del gráfico) las frecuencias del alelo son mayores (círculos más grandes). A diferencia de la estructura de parches, para la estructura de clinas ambos índices fueron siempre significativos. Figura 1.4: Redes de conexión calculadas mediante la triangulación de Delaunay (arriba) y el gráfico de Gabriel (abajo) para calcular la autocorrelación espacial mediante los Índices de Moran y Geary para la estructura de parches (izquierda) y clina (derecha). Tabla 1.1. Índices de autocorrelación espacial de frecuencias alélicas en escenarios de estructura espacial genética en parches y clina calculados a partir de distintas redes de conexión (Matriz W). Se indican también los valores p de la prueba de significancia. Patrón Matriz W Índice de Moran Índice de Geary I valor p G valor p Parches Red de Delaunay 0.062 0.125 0.933 0.155 Gráfico de Gabriel 0.001 0.437 0.982 0.419 Todas las distancias 0.015 0.156 0.971 0.165 Clina Red de Delaunay 0.190 0.001 0.818 0.003 Gráfico de Gabriel 0.220 0.005 0.764 0.004 Todas las distancias 0.032 0.029 0.957 0.043 Para el caso de clinas, el índice de Moran fue 0.19 utilizando el vecindario por triangulación de Delaunay, 0.22 utilizando el gráfico de Gabriel y 0.03 considerando todas las interdistancias. Si bien con este último método para definir vecindario, el 26 coeficiente cayó en magnitud respecto a la situaciones donde se usó otro vecindario, los valores p de la prueba estadística fueron siempre menores al nivel de significación usado (0.05), indicando la presencia de autocorrelación espacial positiva y por tanto de EGE. El índice de Geary también detectó mayor autocorrelación espacial positiva cuando se usó el método de Gabriel para definir el vecindario, y en todos los caso los valores p también indicaron la presencia de autocorrelación positiva. Los resultados obtenidos a partir de índices de autocorrelación espacial, demuestran la dependencia de los índices con el vecindario elegido. Así como cualquier método para estimar tamaño de vecindario debería depender de supuestos específicos sobre el modelo de dispersión sobre el cual se basa el análisis, los métodos que utilizan un vecindario en su cálculo deben basarse en supuestos biológicos sobre el mismo. A diferencia de los métodos anteriores, en este caso la EGE no resultó significativa para el caso de parches, siendo que se trabajó con un alelo con EGE simulada entre las más altas. CORRELOGRAMAS El gráfico de coeficientes de correlación, calculados a partir de pares de observaciones en un determinado intervalo de distancia geográfica (lag) se denomina correlograma. Smouse y Peakall (1999) propusieron un coeficiente de correlación multivariado, basado en distancias genéticas y el uso de correlogramas discretos para estudiar la estructura espacial genética. Como se mencionó anteriormente, el procedimiento requiere definir previamente dos parámetros, el tamaño del intervalo o clase de distancia y el número de clases de distancia. Para cada lag se estima el coeficiente de correlación entre todos los pares de observaciones que se encuentran a distancias geográficas dentro del rango de distancias que incluye dicho lag. El coeficiente ( )hr se expresa como: ( ) ( ) ( ) 1 N N h h h ij ij ii ii i j i r x c x c ≠ = ∑ ∑ ≐ donde el numerador es la suma del producto, elemento a elemento, de todos los N(N-1) elementos fuera de la diagonal de la matriz de correlaciones genéticas (C) de N observaciones y de la matriz de distancias geográficas para un h determinado ( ( )hX ). El 27 denominador es la suma de los N elementos que se encuentran en la diagonal del producto, elemento a elemento, de tales matrices. El coeficiente ( )hr , es un coeficiente de correlación que vale cero cuando no hay autocorrelación y que toma valores en el intervalo [-1,1]. Smouse y Peakall proponen dos opciones basadas en permutaciones para estimar la significancia de estos coeficientes de correlación. En general se calcula la correlación para clases de distancia entre la mínima distancia entre muestras hasta la máxima distancia entre muestras. Recientemente se ha propuesto una prueba no paramétrica de heterogeneidad para comparar distintos correlogramas de estructura espacial genética a escala fina, obtenidos en diferentes poblaciones (Smouse et al. 2008). Este procedimiento se basa en la construcción de un “correlograma medio” de todas las poblaciones juntas y la posterior comparación lag a lag del correlograma de cada población con el “correlograma poblacional”. A partir de las pruebas realizadas en cada lag, los autores desarrollaron una prueba final para evaluar la heterogeneidad entre correlogramas a nivel de todos los lag en conjunto. Estos análisis están disponibles en el software libre GenAlEx (Peakall y Smouse 2006) y han sido utilizados para el estudio de EGE en diversas especies de árboles (Vornam et al. 2004; Jones y Hubbell 2006; Fuchs y Hamrick 2010b). La prueba de heterogeneidad ha sido utilizada, por ejemplo, para comparar la EGE de especies arbóreas en zonas con distintos niveles de disturbio (Gonzales et al. 2010). ESTIMACIÓN DE CORRELOGRAMAS DISCRETOS Para obtener los correlogramas discretos, en primer lugar se calcularon las distancias genéticas a partir de las frecuencias alélicas de los perfiles genéticos y las distancias geográficas partir de las coordenadas de los individuos. En ambos casos se calcularon las distancias Euclídeas y se definieron 8 clases de distancias geográficas distribuidas equitativamente (del mismo tamaño). Todos los análisis se realizaron con el software GenAlEx 6.4 (Peakall y Smouse 2006). En la Tabla 1.2 se pueden observar los coeficientes de correlación (r) para cada clase de distancia, así como el número de pares de entidades evaluados (n) y la probabilidad de que el coeficiente de correlación sea menor o igual al obtenido por azar (p) para cada clase de distancia. Para ambos tipos de EGE, los correlogramas (Figura 1.5) fueron sensibles en detectar estructura espacial. 28 Tabla 1.2. Resultados de las correlaciones entre distancias geográficas y genéticas para distintas clases de distancia en escenarios de clina y parche. Se especifican los coeficientes de correlación (r), el número de pares de entidades evaluadas (n) y el valor p. PARCHES CLINA Clases de distancia n r p Clases de distancia n r p 0-1 122 0.003 0.295 0-0.1 84 0.004 0.322 1-2 235 0.013 0.001* 0.1-0.2 210 0.018 0.001* 2-3 288 0.004 0.099 0.2-0.3 347 0.000 0.547 3-4 386 0.002 0.256 0.3-0.4 361 0.005 0.112 4-5 495 0.003 0.165 0.4-0.5 408 0.001 0.416 5-6 407 -0.004 0.923 0.5-0.6 413 0.001 0.405 6-7 356 0.000
Compartir