Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística descriptiva para combinaciones de variables (una cuantitativa y una categórica o dos cuantitativas) Bioestadística 2021 Estadística descriptiva para combinaciones de variables • Ya vimos como graficar y tabular datos derivados de dos variables categóricas (tablas de contingencia, gráficos de barras y de torta). • Para el caso de variables cuantitativas, hasta ahora solo hemos considerado estrategias para describir los datos derivados de una única variable de este tipo. • Aquí consideraremos aquellos casos en los que tenemos una variable cuantitativa y una categórica o dos cuantitativas Usuario1 Highlight Una variable cuantitativa y una categórica • Si tenemos una variable cuantitativa medida en dos grupos o dos muestras diferentes, cada grupo sería un criterio de clasificación, una variable categórica. • Los gráficos a realizar son los mismos que hemos visto para variables cuantitativas: histogramas, polígonos de frecuencia, boxplot. Usuario1 Highlight Ejemplo: una variable cuantitativa y una categórica • Estamos interesados en estudiar el tamaño del genoma de dos géneros de virus: los Alphaflexivirus (virus que infectan plantas y hongos) y los Flavivirus (arbovirus, virus que se propagan por vectores artrópodos, principalmente mosquitos y garrapatas; uno de los más conocidos es el dengue). • Descargamos los datos de NCBI (https://www.ncbi.nlm.nih.gov/) ) Usuario1 Highlight Usuario1 Highlight Ejemplo: una variable cuantitativa y una categórica • Asumamos que pasamos por alto que estos datos de largo (en bases) de genomas provienen de dos géneros virales diferentes, y decidimos graficar todo junto: Histograma y polígono de frecuencias absolutas para el largo de los genomas de Flavivirus y Alphaflexivirus descargados de NCBI (sin discriminar por géneros, todos los datos juntos). Notar que como estamos graficando frecuencias absolutas, indicar el tamaño muestral (n) no es necesario. Ejemplo: una variable cuantitativa y una categórica • Asumamos que pasamos por alto que estos datos de largo (en bases) de genomas provienen de dos géneros virales diferentes, y decidimos graficar todo junto: Aun si no supiéramos que estos datos provienen de dos géneros diferentes, el histograma ya nos da una idea de eso: vean como parecieran existir dos grupos de datos diferentes. Claramente es una distribución bimodal, una centrada en el rango ~6500-7000 bases y otra centrada en el rango ~10500-11000 bases (flechas). Ejemplo: una variable cuantitativa y una categórica • Dos histogramas (y sus polígonos de frecuencias), dividiéndolo por género viral • Para poder comparar efectivamente es necesario que la escala del eje “Y” sea la misma para ambos histogramas. Histogramas y polígonos de frecuencias para los datos de “largo del genoma (bases) por género. Izquierda: Flavivirus. Derecha: Alphaflexivirus. En ambos el eje Y va de 0 a 25 Ejemplo: una variable cuantitativa y una categórica • Otro tipo de gráfico para representar una variable cuantitativa y una categórica es gráfico de cajas y bigotes • Ya vimos que estos nos permiten también ver si hay datos atípicos en nuestras muestras Boxplots. Izquierda: usando todos los datos de largo (bases) de genomas virales, sin discriminar por familia. Derecha: gráfico combinando los boxplots de largo (bases) de genomas, discriminado por género. Notar que indicar el tamaño muestral es obligatorio Ejemplo: una variable cuantitativa y una categórica Interpretando estos gráficos: • No hay datos atípicos en ninguno de los dos conjuntos (Alphaflexivirus, Flavivirus) • El largo de los genomas de Alphaflexivirus parece tener mayor dispersión que el de Flavivirus (el rango, es decir la diferencia entre el mayor largo observado y el menor valor observado es mayor en Alfaflexivirus que en Flavivirus). • El tamaño medio de largo de genoma (bases) parece ser mayor en Flavivirus que en Alfaflexivirus. Ejemplo: una variable cuantitativa y una categórica Interpretando estos gráficos: • El largo de genomas en Alfaflexivirus pareciera ser asimétrico a la derecha (es decir, con una cola a la derecha… la pauta para notar eso en este caso es que la mediana, en vez de estar en el centro de la caja, está más cerca del Q1). Esperaríamos un coeficiente de asimetría mayor a cero. • El largo de genomas en Flavivirus pareciera ser asimétrico a la izquierda (de decir, con una cola a la izquierda… la pauta para notar eso en este caso es que la mediana, en vez de estar en el centro de la caja, está más cerca del Q3). Esperaríamos un coeficiente de asimetría menor a cero. Ejemplo: una variable cuantitativa y una categórica Podemos confirmar esas observaciones calculando los descriptores que vimos la semana pasada y compararlos entre grupos (además con esos valores pueden calcular otras medias como rango y RIC): Min. Q1 Mediana Media Q3 Max Var (s2) DS (s) CV(%) Asimet Kurtosis Alfaflexiv irus 5470 6286 6677 6888 7370 8832 674889 821,5163 11,93 0.659 2,64 Flavivirus 10053 10272 10745 10628 10869 11375 109938.7 331,57 3,12 -0,26 1,81 Relación entre dos variables cuantitativas • En el caso en que, para la misma unidad muestral registremos dos variables cuantitativas (algunos ejemplos: peso y altura; largo de pico y largo de cola; número de intrones y exones, entre otras) nos encontramos ante un estudio de la relación entre dos variables cuantitativas. • Esto conlleva un tratamiento especial de los datos, Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Tablas para datos de dos (o más) variables cuantitativas • Cuando tenemos dos (o más) variables cuantitativas registradas sobre la misma unidad muestral (si no recuerda la definición de unidad muestral, es la mínima unidad de la cual podemos obtener una observación o valor de la variable independiente), los datos se plasman en tablas en los cuales cada fila contiene la información de una unidad muestral y hay tantas columnas como variables hayamos medido. Usuario1 Highlight Usuario1 Highlight Ejemplo: Tablas para datos de dos (o más) variables cuantitativas • Si volvemos a la base de datos NCBI y buscamos el largo del genoma (en millones de bases, Mb), contenido de GC (citosina, guanina, en porcentaje), el número de regiones codificantes (CDS), la cantidad de genes anotados y la cantidad de RNA de transferencia (tRNA) anotados en genomas de proteobacteriadel género Rhizobium, obtendríamos una tabla de este tipo (pero más larga, esto solo son las primeras 6 líneas): Especie largo genoma (Mb) GC% CDS Nro_Genes tRNA Rhizobium sp. Khangiran2 4.25979 61.9471 3969 4105 50 Rhizobium sp. TCK 4.27544 61.8842 3991 4102 50 Rhizobium sp. S41 5.52437 59.3 5141 5417 61 Rhizobium grahamii 5.88932 60.3002 5168 5537 53 Rhizobium sp. JKLM12A2 7.53305 60.7926 6980 7234 51 Rhizobium acidisoli 7.49768 61.0382 6721 7190 50 Ejemplo: Tablas para datos de dos (o más) variables cuantitativas • Como se puede observar, cada fila es una unidad muestral independiente. • La primera columna sería el ID (identificador) de cada unidad muestral (en ese caso el nombre de la especie) y hay 5 columnas (una por cada variable medida). • Pregunta ¿de qué tipo es cada variable? Especie largo genoma (Mb) GC% CDS Nro_Genes tRNA Rhizobium sp. Khangiran2 4.25979 61.9471 3969 4105 50 Rhizobium sp. TCK 4.27544 61.8842 3991 4102 50 Rhizobium sp. S41 5.52437 59.3 5141 5417 61 Rhizobium grahamii 5.88932 60.3002 5168 5537 53 Rhizobium sp. JKLM12A2 7.53305 60.7926 6980 7234 51 Rhizobium acidisoli 7.49768 61.0382 6721 7190 50 Ejemplo: Tablas para datos de dos (o más) variables cuantitativas • Pregunta ¿de qué tipo es cada variable? Vemos que todas ellas son cuantitativas; largo del genoma (en MB) y %GC son cuantitativas continuas mientras que las restantes son cuantitativas discretas. Especie largo genoma (Mb) GC% CDS Nro_Genes tRNA Rhizobium sp. Khangiran2 4.25979 61.9471 3969 4105 50Rhizobium sp. TCK 4.27544 61.8842 3991 4102 50 Rhizobium sp. S41 5.52437 59.3 5141 5417 61 Rhizobium grahamii 5.88932 60.3002 5168 5537 53 Rhizobium sp. JKLM12A2 7.53305 60.7926 6980 7234 51 Rhizobium acidisoli 7.49768 61.0382 6721 7190 50 Gráficos para variables cuantitativas: diagramas de dispersión • Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de distintas variables para un conjunto de datos. • Seguramente todos han hecho alguna vez un gráfico de este tipo! • Dado que se usa una coordenada cartesiana por cada variable a graficar, lo más común es que s grafiquen dos variables, aunque hay algunos casos de representación de 3 variables (gráfico 3D). NOTA: Este “nuevo” tipo de diagrama, se suma a los que ya vimos para variables cuantitativas (boxplot, histogramas, etc). Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Ej: Gráficos para variables cuantitativas: diagramas de dispersión • A continuación se presentan 4 gráficos (de dos coordenadas cada uno) que muestran la relación entre largo (Mb) de los genomas vs su porcentaje de GC, Cantidad de regiones codificantes (CDS), número de genes y número de tRNA anotados Cómo interpretar los gráficos de dispersión • Al observar críticamente un diagrama de dispersión, tenemos que tener en mente algunas preguntas. Entre ellas: 1. Los puntos se distribuyen siguiendo un patrón general o una cierta dirección, o no hay un patrón evidente de distribución de los puntos. 2. Si observamos un patrón, este es creciente o decreciente? Es decir, se observa que van “subiendo” de izquierda a derecha, o van “bajando” de derecha a izquierda? 3. Si observamos un patrón, este es en forma lineal, o forman algún otro tipo de curva? 4. Existe algún dato “atípico”, que sea claramente diferente del patrón general de los datos? Usuario1 Highlight Usuario1 Highlight Ej: Cómo interpretar los gráficos de dispersión • Los puntos siguen una clara línea ascendente. Esto nos da una idea de que hay una asociación positiva (creciente) entre las variables “largo del genoma (Mb)” y “número de genes”, y que también hay una asociación positiva (o creciente) entre las variables “largo del genoma (Mb)” y “número de genes”. • Podríamos decir que, para la especie Rhizobium, a mayor tamaño de genoma, más genes (o regiones codificantes) se identifican. La flecha azul marca un dato atipico, que se aparta del patrón general Ej: Cómo interpretar los gráficos de dispersión • Este gráfico muestra una mayor dispersión de los puntos respecto de los anteriores, aunque esta parece no ser aleatoria: se observa dispersión en el %GC en genomas de tamaño más pequeño, mientras que en genomas de mayor tamaño la dispersión en %GC parece ser menor. • Este gráfico presenta una forma de cono o embudo (marcada por las líneas azules). Ej: Cómo interpretar los gráficos de dispersión • En este gráfico, el número de tRNA parece mantenerse constante a distintos tamaños de genoma (ver línea azul); esto nos da una idea de que, independientemente del largo (en Mb) del genoma de individuos de la especie Rhizobium, el número de tRNA es aproximadamente el mismo. • Hay un dato que parece diferenciarse del resto, está señalado con flecha. Correlación • La correlación es valor de que sintetiza la relación entre dos variables cuantitativas. • La correlación es una medida de la fuerza y dirección de la asociación entre dos variables cuantitativas. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Propiedades del coeficiente de correlación El coeficiente de correlación (r) tiene las siguientes propiedades: 1. La correlación es un número entre -1 y 1, es decir que -1 ≤ r ≤ 1 2. El signo de r (positivo o negativo) indica la dirección de la asociación: si r < 0, la asociación entre dos variables será negativa, mientras que si r > 0 la asociación entre dos variables será positiva 3. Valores de r cercanos a -1 o a +1 nos dan idea de que existe una asociación lineal muy fuerte entre las dos variables cuantitativas, mientras que coeficientes de correlación cercanos a cero nos hablan de ausencia de asociación lineal. Usuario1 Highlight Propiedades del coeficiente de correlación El coeficiente de correlación (r) tiene las siguientes propiedades: 4. El coeficiente de correlación r no tiene unidades 5. La correlación es simétrica. Es decir, el coeficiente de correlación r entre las variables X e Y es el mismo que el coeficiente de correlación entre las variables Y y X. Vinculando valores de correlación con gráficas de dispersión • A continuación se presenta una gráfica con numerosas posibles gráficas de dispersión entre dos variables cuantitativas y sus coeficientes de correlación (r). • Notar que mientras más se acerca el coeficiente de correlación a cero, más dispersos (formando una “nube”) se ven los datos Usuario1 Highlight Notación para la correlación • Ya hemos visto que es sumamente importante distinguir cuando estamos hablando de valores calculados para una muestra de valores calculados para una población. Para el caso del coeficiente de correlación, tenemos que: 1. Si el coeficiente de correlación se calculó para una muestra, se denota r (r minúscula) 2. Si el coeficiente de correlación se obtuvo para toda una población, se denota ρ (la letra griega Rho). • Notar que todas las propiedades que especificamos para el coeficiente de correlación muestral r también son válidas para el coeficiente de correlación poblacional ρ. Usuario1 Highlight Tres (3) cuidados al interpretar el coeficiente de correlación Hay errores muy comunes de interpretación que suelen hacerse al estimar un coeficiente de correlación, y que deben ser evitados: 1) Que dos variables estén correlacionadas (por más fuerte que sea esa correlación) no necesariamente implica que exista una relación causa:efecto entre estas dos variables. Una relación causa:efecto implica que, si yo vario una de las variables, la otra variará también. Esto no siempre sucede en variables correlacionadas. Es decir, “Correlación no implica causalidad”. Usuario1 Highlight Tres (3) cuidados al interpretar el coeficiente de correlación Ejemplo de que “correlación no implica causalidad” Ejemplos de correlaciones espurias. A la izquierda, vemos un estudio de correlación positiva (r=0,66) entre el número de películas por año en las que participó Nicolas Cage (período 1999-2009) y el número de muertos ahogados en piscinas por año, registrados en el mismo período (1999-2009). La figura de la derecha nos muestra otra correlación positiva y muy cercana a 1 (r=0,98) entre el consumo de margarina, en libras per cápita (período 2000-2009) y la tasa de divorcio por año en Maine, Estados Unidos en el mismo período (2000-2009). Nadie se atrevería a decir que hay una relación causa efecto entre estas variables!!! Es mera coincidencia Tres (3) cuidados al interpretar el coeficiente de correlación Hay errores muy comunes de interpretación que suelen hacerse al estimar un coeficiente de correlación, y que deben ser evitados: 2) Una correlación cercana a cero no implica (necesariamente) que las variables no estén asociadas. Hay que tener siempre en mente que el coeficiente de correlación mide la fuerza y dirección de asociación LINEAL entre dos variables. Si la asociación sigue otra forma (no lineal), este coeficiente no nos dice nada. Veamos un ejemplo en la próxima diapositiva: Tres (3) cuidados al interpretar el coeficiente de correlación Ejemplo de gráficos de dispersión no aleatorios que tienen coeficiente de correlación cercanos a cero: Tres (3) cuidados al interpretar el coeficiente de correlación Hay errores muy comunes de interpretación que suelen hacerse al estimar un coeficiente de correlación, y que deben ser evitados: 3) Al igual que la media y rango, la correlación es una medida fuertementeinfluenciada por la presencia de datos atípicos. Es por ello que, antes de calcular un coeficiente de correlación, hay que graficar los datos, para poder detectar estos datos fuera de tipo. Regresión lineal • Vimos que el coeficiente de correlación nos permite estimar la relación entre dos variables. Aquí discutiremos cómo usar una de las variables para predecir otra, siempre que las mismas se encuentren linealmente asociadas. • El proceso de ajustar una línea a un conjunto de datos se llama regresión lineal y la línea de mejor ajuste se llama recta de regresión. • La recta de regresión proporciona un modelo de la asociación lineal entre dos variables. Usuario1 Highlight Regresión lineal • Podemos usar la ecuación de una recta para dar un valor predicho de la variable de respuesta, basado en un valor dado de la variable explicativa. • A modo de repaso, sabemos que la ecuación para una recta es y = bx + a • donde “a” es una constante, llamada “ordenada al origen” que representa la intersección de la recta en el eje Y (es decir, cuando el valor de x = 0), mientras que “b” representa la pendiente de la recta. Regresión lineal • Como la recta de regresión suele usarse para hacer predicciones de valores, para ayudar a distinguir entre los valores predichos y valores observados de la variable de respuesta, a menudo agregamos un "sombrerito" al nombre de la variable de respuesta para indicar el valor predicho. • Por lo tanto, si nuestros pares de datos son (x, y) con x como variable explicativa e y como variable de respuesta, la línea de regresión viene dada por 𝑦" = bx + a Ejemplo: Regresión lineal • Retomemos la relación entre las variables “largo del genoma (Mb)” y “número de genes”. • Como mencionamos previamente, se observa una clara asociación positiva entre variables. • De hecho, si calculamos el coeficiente de correlación obtenemos: r = 0,995 (muy cercano a 1) • La gráfica, conteniendo la recta de regresión, es Ejemplo: Regresión lineal • Al graficar un diagrama de dispersión para dos variables cuantitativas, de las cuales una depende de la otra (es decir, hay una variable explicativa y una respuesta), la variable explicativa (en este caso el largo del genoma en Mb) va siempre en el eje X, mientras que la variable respuesta va siempre en el eje Y. • Esto es una convención que debe respetarse. Ejemplo: Regresión lineal • Calculando (con software) la ecuación de la recta de regresión para predecir el número de genes que contiene un genoma, conociendo el largo (en Mb) de dicho genoma en Rhizobium es: 𝑦" = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠* = 978,02x - 83,19 • Esa recta podemos usarla para hacer predicciones. Ejemplo: si tenemos un genoma ensamblado de un individuo de esta especie que mide 6,776 Mb, podemos predecir que contendrá: 𝑦" = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠* = 978,02*(6,776) - 83,19 ~6543 genes Ejemplo: Regresión lineal • Hay que tener siempre en cuenta que este valor es una predicción hecha en base a un modelo. • Veamos que pasa cuando predecimos un valor que ya conocemos. • Tomemos el ejemplo del genoma de Rhizobium grahamii: este es un dato de la lista, que sabemos que mide 5,88932 Mb y tiene 5537 genes. • Si usamos los datos de tamaño de genoma (Mb) para predecir el contenido de genes obtendremos: 𝑦" = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠* = 978,02*(5,88932) - 83,19 ~ 5677 genes • Como ven, la predicción no es perfecta, pero se le acerca bastante. Residuo • Como vimos recién, las predicciones son eso: predicciones. • Pueden coincidir con el valor real o no: lo más probable es que sea un valor cercano, pero no exactamente el mismo. • Esa diferencia entre el dato observado (real) y el predicho se llama “residuo”. • Un residuo entonces se calcula como: Residuo = valor observado – valor predicho = y - 𝑦" Usuario1 Highlight Residuo • En el gráfico de dispersión, un residuo es la distancia vertical entre cualquier punto (dato) y la recta de regresión (ver la pequeña línea vertical roja que marca la distancia entre un punto y la recta). residuo Residuo • Como podrán imaginar, mientras más fuerte sea la asociación entre dos variables cuantitativas (es decir, mientras más cercano a -1 o a +1 esté el coeficiente de correlación) más cerca estarán los puntos de la recta de regresión, y más chicos serán los residuos. • En caso contrario, mientras más lejos estén los puntos (datos) de la recta de regresión, más grandes serán los residuos. • Los residuos no son otra cosa más que los errores en la predicción. Interpretando los coeficientes de la recta de regresión Para la recta de regresión y = bx + a, tenemos que: • La pendiente “b” representa el cambio predicho en la variable de respuesta (y) dado un aumento de una unidad en la variable explicativa (x). • La ordenada al origen “a” representa el valor predicho de la variable de respuesta (y) cuando la variable explicativa (x) vale cero. La interpretación puede no tener sentido ya que a menudo no es razonable que la variable explicativa sea cero. Usuario1 Highlight Ejemplo: Interpretando los coeficientes de la recta de regresión Si tomamos nuestro ejemplo: 𝑦" = #𝑑𝑒 𝑔𝑒𝑛𝑒𝑠* = 978,02x -83,19, podemos decir que: • Por cada aumento de 1 Mb en el largo del genoma de Rhizobacterium, se espera que el número de genes aumente 978,02 • Cuando el largo del genoma de Rhizobacterium es igual a 0, tendríamos -83,19 genes (lo cual claramente es un sinsentido). Notación para la pendiente La pendiente de la recta de regresión también puede ser calculada a partir de una muestra o para toda una población, entonces es necesario distinguir cuando se trata de un caso y cuando del otro. 1. Si la pendiente fue calculada para una muestra, se denota “b” 2. Si la pendiente fue obtenida para toda una población, se denota β (la letra griega Beta) Usuario1 Highlight Cuatro (4) precauciones a tener en cuenta con la recta de regresión Hay cosas que deben tener en cuenta cuando estén trabajando con regresión lineal, para no cometer errores. 1. La ecuación de la recta de regresión sólo puede ser usada para predecir valores en el rango de los usados para generar la recta. O sea, nunca extrapolen a valores más altos o más bajos, ya que allí no se garantiza que la asociación lineal entre variables se mantenga 2. Al igual que lo que vimos con la correlación, la recta de regresión puede verse fuertemente influenciada por datos atípicos. Siempre grafiquen los datos antes de calcular una recta de regresión. Usuario1 Highlight Cuatro (4) precauciones a tener en cuenta con la recta de regresión Hay cosas que deben tener en cuenta cuando estén trabajando con regresión lineal, para no cometer errores. 3. Hay que tener mucho cuidado con cuál es la variable explicativa que estamos usando (x) y cuál la respuesta. A diferencia de lo que sucede con el coeficiente de correlación (que es simétrico), la recta de regresión para predecir (y) a partir de (x) no es igual a la recta de regresión para predecir (x) a partir de (y). 4. Recordar, como se mencionó previamente, que al graficar estas variables, la variable explicativa va siempre sobre el eje X y la variable respuesta sobre el eje Y.
Compartir