Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística descriptiva para combinaciones de variables (una cuantitativa y una categórica o dos cuantitativas) En esta nueva sección presentaremos estrategias de la estadística descriptiva que permitan plasmar o representar datos derivados de la combinación de dos variables. Recuerden que ya vimos como graficar y tabular datos derivados de dos variables categóricas. Para ello usamos tablas de contingencia y gráficos de barras (lado a lado y apiladas) y de torta. Pero en el caso de variables cuantitativas, hasta ahora solo hemos considerado estrategias para describir los datos derivados de una variable de este tipo. Aquí retomaremos esto, pero ahora considerando aquellos casos en los que tenemos una variable cuantitativa y una categórica o dos cuantitativas. Aún más, veremos qué pasa cuando podemos clasificar dichas variables en “variable dependiente (o de respuesta)” y “variable independiente (o explicativa)”. Finalmente, presentaremos los conceptos de “asociación” y “causalidad”, sumamente importantes cuando pretendemos hacer inferencia estadística. Una variable cuantitativa y una categórica Si tenemos una variable cuantitativa medida en dos grupos o dos muestras diferentes, cada grupo sería un criterio de clasificación, una variable categórica. De este modo, podemos estar interesados en ver cómo se comporta esa variable cuantitativa en los distintos grupos. Entonces, los gráficos a realizar son los mismos que hemos visto para variables cuantitativas: histogramas, polígonos de frecuencia, boxplots. Veámoslo con un ejemplo. Ejemplo Estamos interesados en estudiar el tamaño del genoma de dos géneros de virus: los Alphaflexivirus (virus que infectan plantas y hongos) y los Flavivirus (arbovirus, virus que se propagan por vectores artrópodos, principalmente mosquitos y garrapatas; uno de los más conocidos es el dengue). Como vimos en un ejemplo de la sección anterior, una forma de obtener esta información es buscándola en bases de datos públicas, como el NCBI (https://www.ncbi.nlm.nih.gov/, Figura 1). Figura 1. Captura de pantalla de la búsqueda de genomas completos disponibles en la base de datos biológica NCBI (https://www.ncbi.nlm.nih.gov/) para Flavivirus y Alphaflexivirus. Asumamos que pasamos por alto que estos datos de largo (en bases) de genomas provienen de dos géneros virales diferentes, y decidimos graficar todo junto, como hemos hecho hasta ahora. Obtendríamos lo siguiente: Figura 2. Histograma y polígono de frecuencias absolutas para el largo de los genomas de Flavivirus y Alphaflexivirus descargados de NCBI (sin discriminar por géneros, todos los datos juntos). Notar que como estamos graficando frecuencias absolutas, indicar el tamaño muestral (n) no es necesario. Notar lo importante que es graficar los datos que tenemos, antes de proceder a cualquier análisis! Aun si no supiéramos que estos datos provienen de dos géneros diferentes, observar la figura 2 ya nos da una idea de eso: vean como parecieran existir dos grupos de datos diferentes. Claramente es una distribución bimodal, una centrada en el rango ~6500-7000 bases y otra centrada en el rango ~10500-11000 bases. Vamos ahora a graficar dos histogramas (y sus polígonos de frecuencias), dividiéndolo por género viral. Notar que para poder comparar efectivamente es necesario que la escala del eje “Y” sea la misma para ambos histogramas. Acá como son aproximadamente la misma cantidad de datos (nalfa=59 y nflavi=74) da casi lo mismo usar frecuencias absolutas (conteos) que relativas (Figura 3). Pero si los tamaños muestrales fueran muy diferentes, para poder comparar necesitaríamos hacer gráficos de frecuencias relativas (proporciones). Figura 3. Histogramas y polígonos de frecuencias para los datos de “largo del genoma (bases) por género. Izquierda: Flavivirus. Derecha: Alphaflexivirus. Otro tipo de gráfico que podemos hacer para representar una variable cuantitativa y una categórica es gráfico de cajas y bigotes (Figura 4). Ya vimos que estos nos permiten también ver si hay datos atípicos en nuestras muestras. Figura 4. Boxplots. Izquierda: usando todos los datos de largo (bases) de genomas virales, sin discriminar por familia. Derecha: gráfico combinando los boxplots de largo (bases) de genomas, discriminado por género. Notar que indicar el tamaño muestral es obligatorio Una observación de estos gráficos nos da algunas ideas sobre nuestros dos conjuntos de datos, como por ejemplo: a) No hay datos atípicos en ninguno de los dos conjuntos (Alphaflexivirus, Flavivirus) b) El largo de los genomas de Alphaflexivirus parece tener mayor dispersión que el de Flavivirus (se ve que el rango, es decir la diferencia entre el mayor largo observado y el menor valor observado es mayor en Alfaflexivirus que en Flavivirus). c) El tamaño medio de largo de genoma (bases) parece ser mayor en Flavivirus que en Alfaflexivirus. d) El largo de genomas en Alfaflexivirus pareciera ser asimétrico a la derecha (es decir, con una cola a la derecha… la pauta para notar eso en este caso es que la mediana, en vez de estar en el centro de la caja, está más cerca del Q1). Esperaríamos un coeficiente de asimetría mayor a cero. e) El largo de genomas en Flavivirus pareciera ser asimétrico a la izquierda (de decir, con una cola a la izquierda… la pauta para notar eso en este caso es que la mediana, en vez de estar en el centro de la caja, está más cerca del Q3). Esperaríamos un coeficiente de asimetría menor a cero. Para confirmar todas estas observaciones que hemos hecho sobre la distribución de nuestros datos, podemos calcular los distintos descriptores (centralización, posición, forma) para estos datos, y compararlos. Aquí se presentan las distintas medidas descriptoras, estimadas usando software: Min. Q1 Mediana Media Q3 Max Var (s2) DS (s) CV(%) Asimet Kurtosis Alfaflexivirus 5470 6286 6677 6888 7370 8832 674889 821,5163 11,93 0.659 2,64 Flavivirus 10053 10272 10745 10628 10869 11375 109938.7 331,57 3,12 -0,26 1,81 Relación entre dos variables cuantitativas En el caso en que, para la misma unidad muestral registremos dos variables cuantitativas (algunos ejemplos: peso y altura; largo de pico y largo de cola; número de intrones y exones, entre otras) nos encontramos ante un estudio de la relación entre dos variables cuantitativas. Esto conlleva un tratamiento especial de los datos, por eso dedicaremos gran parte de esta sección a esto. Tablas y gráficos para plasmar la relación entre dos (o más) variables cuantitativas Por lo general, cuando tenemos dos (o más) variables cuantitativas registradas sobre la misma unidad muestral (si no recuerda la definición de unidad muestral, es la mínima unidad de la cual podemos obtener una observación o valor de la variable independiente), los datos se plasman en tablas en los cuales cada fila contiene la información de una unidad muestral y hay tantas columnas como variables hayamos medido. Ejemplo, si volvemos a la base de datos NCBI y buscamos el largo del genoma (en millones de bases, Mb), contenido de GC (citosina, guanina, en porcentaje), el número de regiones codificantes (CDS), la cantidad de genes anotados y la cantidad de RNA de transferencia (tRNA) anotados en genomas de proteobacteria del género Rhizobium, obtendríamos una tabla de este tipo: Especie largo genoma (Mb) GC% CDS Nro_Genes tRNA Rhizobium sp. Khangiran2 4.25979 61.9471 3969 4105 50 Rhizobium sp. TCK 4.27544 61.8842 3991 4102 50 Rhizobium sp.S41 5.52437 59.3 5141 5417 61 Rhizobium grahamii 5.88932 60.3002 5168 5537 53 Rhizobium sp. JKLM12A2 7.53305 60.7926 6980 7234 51 Rhizobium acidisoli 7.49768 61.0382 6721 7190 50 Como se puede observar, cada fila es una unidad muestral independiente, la primera columna sería el ID (identificador) de cada unidad muestral (en ese caso el nombre de la especie) y hay 5 columnas (una por cada variable medida). Lo primero que podemos preguntarnos es de qué tipo es cada variable. Vemos que todas ellas son cuantitativas; largo del genoma (en MB) y %GC son cuantitativas continuas mientras que las restantes son cuantitativas discretas. Gráficos para variables cuantitativas El gráfico que se usa para representar la relación entre dos (o más) variables cuantitativas es el gráfico de dispersión. Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de distintas variables para un conjunto de datos. Seguramente todos han hecho alguna vez un gráfico de este tipo! Dado que se usa una coordenada cartesiana por cada variable a graficar, lo más común es que s grafiquen dos variables, aunque hay algunos casos de representación de 3 variables (gráfico 3D). A continuación se presentan 4 gráficos (de dos coordenadas cada uno) que muestran la relación entre largo (Mb) de los genomas vs su porcentaje de GC, Cantidad de regiones codificantes (CDS), número de genes y número de tRNA anotados (Figura 5). Figura 5. Gráficos de dispersión. De izquierda a derecha tenemos: largo del genoma (en millones de bases, Mb) versus contenido de Citocina:Guanina (%GC), largo del genoma (Mb) vs número de regiones codificantes, largo del genoma (Mb) vs número de genes anotados y largo del genoma (Mb) vs número de RNA de transferencia (tRNA) anotados. Las flechas azules señalan posibles datos atípicos. Cómo interpretar los gráficos de dispersión Al observar críticamente un diagrama de dispersión, tenemos que tener en mente algunas preguntas. Entre ellas: a) Los puntos se distribuyen siguiendo un patrón general o una cierta dirección, o no hay un patrón evidente de distribución de los puntos. b) Si observamos un patrón, este es creciente o decreciente? Es decir, se observa que van “subiendo” de izquierda a derecha, o van “bajando” de derecha a izquierda? c) Si observamos un patrón, este es en forma lineal, o forman algún otro tipo de curva? d) Existe algún dato “atípico”, que sea claramente diferente del patrón general de los datos? En los gráficos de nuestro ejemplo, podemos ver como en los dos gráficos del medio los puntos siguen una clara línea ascendente. Esto nos da una idea de que hay una asociación positiva (o creciente) entre las variables “largo del genoma (Mb)” y “número de genes”, y que también hay una asociación positiva (o creciente) entre las variables “largo del genoma (Mb)” y “número de genes”. A grandes rasgos podríamos decir que, para la especie Rhizobium, a mayor tamaño de genoma, más genes (o regiones codificantes) se identifican. Por su parte, el gráfico de la izquierda muestra una mayor dispersión de los puntos, aunque esta parece no ser aleatoria: se observa dispersión en el %GC en genomas de tamaño más pequeño, mientras que en genomas de mayor tamaño la dispersión en %GC parece ser menor. Este gráfico presenta una forma de cono o embudo. En el gráfico de la derecha, el número de tRNA parece mantenerse constante a distintos tamaños de genoma; esto nos da una idea de que, independientemente del largo (en Mb) del genoma de individuos de la especie Rhizobium, el número de tRNA es aproximadamente el mismo. Hay un dato que parece diferenciarse del resto en algunos casos, está señalado con flechas. Correlación La correlación es valor de que sintetiza la relación entre dos variables cuantitativas. La correlación es una medida de la fuerza y dirección de la asociación entre dos variables cuantitativas. El coeficiente de correlación (r) tiene las siguientes propiedades: - La correlación es un número entre -1 y 1, es decir que -1 ≤ r ≤ 1 - El signo de r (positivo o negativo) indica la dirección de la asociación: si r < 0, la asociación entre dos variables será negativa, mientras que si r > 0 la asociación entre dos variables será positiva - Valores de r cercanos a -1 o a +1 nos dan idea de que existe una asociación lineal muy fuerte entre las dos variables cuantitativas, mientras que coeficientes de correlación cercanos a cero nos hablan de ausencia de asociación lineal. - El coeficiente de correlación r no tiene unidades - La correlación es simétrica. Es decir, el coeficiente de correlación r entre las variables X e Y es el mismo que el coeficiente de correlación entre las variables Y y X. A continuación se presenta una gráfica con numerosas posibles gráficas de dispersión entre dos variables cuantitativas y sus coeficientes de correlación (r). Notar que mientras más se acerca el coeficiente de correlación a cero, más dispersos (formando una “nube”) se ven los datos (Figura 6). Figura 6. Distintas gráficas de dispersión y sus coeficientes de correlación asociados. Notación para la correlación Ya hemos visto que es sumamente importante distinguir cuando estamos hablando de valores calculados para una muestra de valores calculados para una población. Para el caso del coeficiente de correlación, tenemos que: - Si el coeficiente de correlación se calculó para una muestra, se denota r (r minúscula) - Si el coeficiente de correlación se obtuvo para toda una población, se denota ρ (la letra griega Rho). Notar que todas las propiedades que especificamos para el coeficiente de correlación muestral r también son válidas para el coeficiente de correlación poblacional ρ. Cuidados al interpretar el coeficiente de correlación Hay errores muy comunes de interpretación que suelen hacerse al estimar un coeficiente de correlación, y que deben ser evitados: a) Que dos variables estén correlacionadas (por más fuerte que sea esa correlación) no necesariamente implica que exista una relación causa:efecto entre estas dos variables. Una relación causa:efecto implica que, si yo vario una de las variables, la otra variará también. Esto no siempre sucede en variables correlacionadas. Acá se presentan dos ejemplos extremos de correlaciones espurias, hechas en base a datos reales (https://tylervigen.com/spurious-correlations), que ejemplifican esta idea de que correlación no implica causalidad (Figura 7). Figura 7. Ejemplos de correlaciones espurias. A la izquierda, vemos un estudio de correlación positiva (r=0,66) entre el número de películas por año en las que participó Nicolas Cage (período 1999-2009) y el número de muertos ahogados en piscinas por año, registrados en el mismo período (1999-2009). La figura de la derecha nos muestra otra correlación positiva y muy cercana a 1 (r=0,98) entre el consumo de margarina, en libras per cápita (período 2000-2009) y la tasa de divorcio por año en Maine, Estados Unidos en el mismo período (2000-2009). Nadie se atrevería a decir, en su sano juicio, que hay una relación causa efecto entre estas variables. Si les interesa, pueden entrar y revisar esta página web (https://tylervigen.com/spurious-correlations) que compila múltiples correlaciones espurias. Es decir, datos de dos variables cuantitativas que tienen un coeficiente de correlación fuerte (cercano a -1 o +1) pero que jamás podríamos decir que tienen una relación causa: efecto. Reciten esto como un mantra: “Correlación no implica causalidad”. b) Una correlación cercana a cero no implica (necesariamente)que las variables no estén asociadas. Hay que tener siempre en mente que el coeficiente de correlación mide la fuerza y dirección de asociación LINEAL entre dos variables. Si la asociación sigue otra forma (no lineal), este coeficiente no nos dice nada. A modo de ejemplo, observar la siguiente gráfica que nos muestras múltiples diagramas de dispersión de datos que siguen un patrón evidente (no aleatorio) pero con valores de correlación iguales o próximos a cero (Figura 8): Figura 8. Gráficos de dispersión no aleatorios que tienen coeficiente de correlación cercanos a cero (el coeficiente de correlación es el valor especificado encima de cada gráfica de puntos). Wikipedia. c) Al igual que la media y rango, la correlación es una medida fuertemente influenciada por la presencia de datos atípicos. Es por ello que, antes de calcular un coeficiente de correlación, hay que graficar los datos, para poder detectar estos datos fuera de tipo. Regresión lineal Vimos que el coeficiente de correlación nos permite estimar la relación entre dos variables. Aquí discutiremos cómo usar una de las variables para predecir otra, siempre que las mismas se encuentren linealmente asociadas. El proceso de ajustar una línea a un conjunto de datos se llama regresión lineal y la línea de mejor ajuste se llama recta de regresión. La recta de regresión proporciona un modelo de la asociación lineal entre dos variables. Podemos usar la ecuación de dicha recta para dar un valor predicho de la variable de respuesta, basado en un valor dado de la variable explicativa. A modo de repaso, sabemos que la ecuación para una recta es y = bx + a donde “a” es una constante, llamada “ordenada al origen” que representa la intersección de la recta en el eje Y (es decir, cuando el valor de x = 0), mientras que “b” representa la pendiente de la recta. De este modo, encontrar la recta de regresión para un conjunto de datos implica hallar los valores para la pendiente y ordenada al origen de la recta que mejor se ajusta a la disposición lineal de nuestros datos. Por lo general esto se hace con software. Como la recta de regresión suele usarse para hacer predicciones de valores, para ayudar a distinguir entre los valores predichos y los observados de la variable de respuesta, a menudo agregamos un "sombrerito" al nombre de la variable de respuesta para indicar el valor predicho. Por lo tanto, si nuestros pares de datos son (x, y) con x como variable explicativa e y como variable de respuesta, la línea de regresión viene dada por 𝑦 = bx + a Ejemplo Retomemos la relación entre las variables “largo del genoma (Mb)” y “número de genes”. Como mencionamos previamente, se observa una clara asociación positiva entre variables. De hecho, si calculamos el coeficiente de correlación obtenemos: r = 0,995 (muy cercano a 1) La gráfica, conteniendo la recta de regresión, es la siguiente (Figura 9): Figura 9. Gráficos de dispersión de largo del genoma (Mb) vs número de genes anotados. Se presenta también la recta de regresión. La recta vertical roja indica un residuo (distancia entre un datos y la recta de regresión). residuo Es importante remarcar que, cuando se grafica un diagrama de dispersión para dos variables cuantitativas, de las cuales una depende de la otra (es decir, hay una variable explicativa y una respuesta), la variable explicativa (en este caso el largo del genoma en Mb) va siempre en el eje X, mientras que la variable respuesta va siempre en el ele Y. Esto es una convención que debe respetarse. Calculando (con software) la ecuación de la recta de regresión para predecir el número de genes que contiene un genoma, conociendo el largo (en Mb) de dicho genoma en Rhizobium es: 𝑦 = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠= 978,02x - 83,19 Es decir, si tenemos un genoma ensamblado de un individuo de esta especie que mide 6,776 Mb, podemos predecir que contendrá: 𝑦 = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠= 978,02*(6,776) - 83,19 ~6543 genes Hay que tener siempre en cuenta que este valor es una predicción hecha en base a un modelo lineal. De hecho, veamos que pasa cuando predecimos un valor que ya conocemos. Tomemos el ejemplo del genoma de Rhizobium grahamii: este es un dato de la lista, que sabemos que mide 5,88932 Mb y tiene 5537 genes. Si usamos los datos de tamaño de genoma (Mb) para predecir el contenido de genes obtendremos: 𝑦 = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠= 978,02*(5,88932) - 83,19 ~ 5677 genes Como ven, la predicción no es perfecta (porque el r no es exactamente 1!) pero se le acerca bastante. Residuo Como vimos recién, las predicciones son eso: predicciones. Pueden coincidir con el valor real o no, ser un valor cercano pero no exactamente el mismo. Esa diferencia entre el dato observado (real) y el predicho se llama “residuo”. Un residuo entonces se calcula como: Residuo = valor observado – valor predicho = y - 𝑦 En el gráfico de dispersión, un residuo es la distancia vertical entre cualquier punto (dato) y la recta de regresión (ver la pequeña línea vertical roja que marca la distancia entre un punto y la recta en la Figura 9). En nuestro ejemplo, el residuo para x = tamaño del genoma = 5,88932 Mb Residuo = 5537 genes – 5677 genes = - 140 genes (ver que los residuos pueden ser positivos o negativos) Como podrán imaginar, mientras más fuerte sea la asociación entre dos variables cuantitativas (es decir, mientras más cercano a -1 o a +1 esté el coeficiente de correlación) más cerca estarán los puntos de la recta de regresión, y más chicos serán los residuos. En caso contrario, mientras más lejos estén los puntos (datos) de la recta de regresión, más grandes serán los residuos. Los residuos no son otra cosa más que los errores en la predicción. Interpretando los coeficientes de la recta de regresión Para la recta de regresión y = mx + b, tenemos que: - La pendiente “m” representa el cambio predicho en la variable de respuesta (y) dado un aumento de una unidad en la variable explicativa (x). - La ordenada al origen b representa el valor predicho de la variable de respuesta (y) cuando la variable explicativa (x) vale cero. La interpretación puede no tener sentido ya que a menudo no es razonable que la variable explicativa sea cero. Entonces si tomamos nuestro ejemplo: 𝑦 = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠= 978,02x -83,19, podemos decir que: - Por cada aumento de 1 Mb en el largo del genoma de Rhizobacterium, se espera que el número de genes aumente 978,02 - Cuando el largo del genoma de Rhizobacterium es igual a 0, tendríamos -83,19 genes (lo cual claramente es un sinsentido). Notación para la pendiente La pendiente de la recta de regresión también puede ser calculada a partir de una muestra o para toda una población, entonces es necesario distinguir cuando se trata de un caso y cuando del otro. - Si la pendiente fue calculada para una muestra, se denota “b” - Si la pendiente fue obtenida para toda una población, se denota β (la letra griega Beta) Precauciones a tener en cuenta con la recta de regresión Hay cosas que deben tener en cuenta cuando estén trabajando con regresión lineal, para no cometer errores. a) La ecuación de la recta de regresión sólo puede ser usada para predecir valores en el rango de los usados para generar la recta. O sea, nunca extrapolen a valores más altos o más bajos, ya que allí no se garantiza que la asociación lineal entre variables se mantenga b) Al igual que lo que vimos con la correlación, la recta de regresión puede verse fuertemente influenciada por datos atípicos. Siempre grafiquen los datos antes de calcular una recta de regresión. c) Hay que tener mucho cuidado con cuál es la variable explicativa que estamos usando (x) y cuál la respuesta.A diferencia de lo que sucede con el coeficiente de correlación (que es simétrico), la recta de regresión para predecir (y) a partir de (x) no es igual a la recta de regresión para predecir (x) a partir de (y). d) Recordar, como se mencionó previamente, que al graficar estas variables, la variable explicativa va siempre sobre el eje X y la variable respuesta sobre el eje Y.
Compartir