Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Variables cuantitativas Bioestadística 2021 Variables cuantitativas (repaso de la clase anterior) • Las variables cuantitativas son aquellas características o cualidades que sí pueden expresarse o medirse a través de números. • Es decir, son aquellas variables estadísticas que otorgan, como resultado, un valor numérico. • Este tipo de variables, a su vez, se dividen en: àCuantitativa discreta (lo que se puede “contar”) àCuantitativa contínua(lo que se puede “medir”) Estadística descriptiva (repaso de la clase anterior) • La estadística descriptiva es la rama de la estadística que recolecta, analiza y caracteriza datos • Objetivo: describir las características y comportamientos de este conjunto mediante medidas de resumen, tablas o gráficos Tablas de frecuencias agrupadas • Cuando trabajamos con pocos datos discretos, podemos hacer una tabla de frecuencias como la que ya conocemos • Sin embargo, cuando se trabaja con muchos datos y/o datos cuantitativos contínuos, suelen usarse tablas de frecuencias agrupadas. • La clave es agrupar a los datos en un número limitado de intervalos o clases. • Para hacer este tipo de tablas hay que seguir varios pasos. • Ejemplo: tomemos los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33. Usuario1 Highlight Usuario1 Highlight Construcción de una tabla de frecuencias agrupadas: pasos 1. Ordenar el conjunto de datos en forma ascendente (de menor a mayor). Por ejemplo, si se se tienen los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33; los datos ordenados quedan: 2, 5, 8, 8, 9, 12, 25, 33 y 62. 2. Calcular el rango. El rango es la diferencia entre el dato menor y el dato mayor (la diferencia entre el límite inferior y el límite superior del conjunto de datos). En nuestro ejemplo, el menor valor es 2 y el mayor 62, entonces: Rango = 62-2: 60 Usuario1 Highlight Usuario1 Highlight Construcción de una tabla de frecuencias agrupadas: pasos 3. Estimar en cuántos intervalos o clases se dividirán los datos. Existen dos reglas: a) para tamaños muestrales bajos (n<100) el número de intervalos puede calcularse como 𝑛 (siendo n el número de datos). En el ejemplo, dado que n=9 datos, 𝑛 = 3. b) Para otros tamaños muestrales (n > 100), se usa la regla de Sturges, que plantea que Número de intervalos = 1 + log2(n) (siendo n es el numero total de datos) 4. Calcular el tamaño de dichos intervalos o clases. Para esto, se divide el rango por la cantidad de intervalos. En el ejemplo, rango = 60; cantidad de intervalos = 3, 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑐𝑎𝑑𝑎 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 = 123 = 20). Usuario1 Highlight Usuario1 Highlight Construcción de una tabla de frecuencias agrupadas: pasos 5. Definir los límites de cada uno de los intervalos (límites de clase). El primer intervalo irá desde el menor valor de la lista (límite inferior) hasta ese valor más el tamaño del intervalo (en el ejemplo, desde 2 a 2+20=22); el siguiente intervalo desde el valor superior del intervalo anterior (22 en el ejemplo) hasta ese valor más el tamaño del intervalo (22+20=42) y así sucesivamente hasta llegar al límite superior. 6. Calcular la marca de clase (MC). Es el punto medio de cada intervalo. En nuestro ejemplo, MC (intervalo 1) = 2 + 45 (22-2) = 12; MC (intervalo 2) = 22 + 4 5 (42-22) = 32; MC (intervalo 3) = 42 + 45 (62-42) = 52 Usuario1 Highlight Usuario1 Highlight Construcción de una tabla de frecuencias agrupadas: pasos 7. Calcular las frecuencias absolutas. Esto se hace igual que como lo hemos hecho anteriormente: es la cantidad de datos que pertenecen a cada clase o intervalo (en nuestro ejemplo, en el intervalo 1 entran 6 datos (2,5,8,8,9,12); en el intervalo 2, dos datos (25 y 33) y en el intervalo 3 un dato (62)). 8. Calcular las frecuencias relativas. Es decir, dividir las frecuencias absolutas de cada clase o intervalo por el número total de datos. Recordar siempre que las frecuencias relativas son valores positivos comprendidos entre 0 y 1, y que la suma de todas las frecuencias relativas da 1. Usuario1 Highlight Usuario1 Highlight Nuestra tabla de frecuencias agrupadas • Así se vería nuestra tabla de distribución de frecuencias para los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33: Rangos Marca de clase (MC) Frecuencias absolutas Frecuencias relativas [2-22] 12 6 6/9=0,666 (22-42] 32 2 2/9=0,222 (42-62] 52 1 1/9=0,111 Total 9 1 Gráficos para una variable cuantitativa: Histograma • Un histograma representa la distribución de frecuencias (relativas o absolutas) de una variable continua cuya escala es dividida en clases. • Básicamente,es la gráfica de la tabla de distribuciones de frecuencias. • Para construirlo se dibuja un eje horizontal con la escala de la variable en cuesión y se marcan los límites de clase. • Luego, tomando como base el segmento entre los límites de cada clase, se dibujan rectángulos de altura proporcional a la frecuencia de la clase correspondiente. • No puedequedar espacio entre las barras! Usuario1 Highlight Usuario1 Highlight Gráficos para una variable cuantitativa: Histograma • Así se verían nuestros histogramas (de frecuencias absolutas y relativas) para los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33: 0 1 2 3 4 5 6 7 12 32 52 Fr ec ue nc ia s ab so lu ta s Marcas de clase histograma de frecuencias absolutas 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 12 32 52 Fr ec ue nc ia s re la tiv as Marcas de clase histograma de frecuencias relativas (n=9) Gráficos para una variable cuantitativa: Polígonos de frecuencias • También permiten representar la distribuciónde frecuencias (relativas o absolutas) de variables continuas con escalas divididas en clases. • Para construir estos gráficos se dibuja un eje horizontal como el de un histograma y se señalan las marcas de clase. • Luego se dibuja un punto sobre cada marca de clase a altura proporcional a la correspondiente frecuencia de clase. • Por último, se unen los puntos consecutivos con líneas rectas. Usuario1 Highlight Usuario1 Highlight Gráficos para una variable cuantitativa: Polígonos de frecuencias • Así se verían nuestros polígonos (de frecuencias absolutas y relativas) para los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33: 0 1 2 3 4 5 6 7 2 12 22 32 42 52 62 Fr ec ue nc ia s ab so lu ta s polígono de frecuencias absolutas 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 2 12 22 32 42 52 62 Fr ec ue nc ia s re la tiv as polígono de frecuencias relativas (n=9) Medidas numéricas descriptivas derivadas de variables cuantitativas • Dado que los datos de variables cuantitativas son numéricos, es posible realizar operaciones con ellos, para estimar parámetros que permitan describirlos. • Estos valores nos permiten responder preguntas como: 1. Centro: Dónde se centran esos datos? 2. Posición: Cómo se agrupan estos datos? 3. Dispersión: Cómo varían esos datos? (están todos agrupados o están dispersos?) 4. Forma: cómo es la forma general de esos datos (tienen forma de campana? aparecen dos o más picos? Son simétricos? Los datos parecen estar acumulados hacia la derecha o hacia la izquierda?) Usuario1 Highlight Medidas de centralización: Media • Hay tres valores que nos hablan de dónde (o alrededor de qué valor) se ubican los datos: media, mediana y moda. MEDIA • Es la medida de centralización más conocida. • Es lo que comúnmente llamamos “promedio” • La media de un conjunto de valores de una variable se calcula como el cociente entre la suma y el número de dichos valores. • En notación se escribe así: 𝑋7 = 48 ∑ 𝑥𝑖 8 ;<4 Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Media • Si tomamos nuestro ejemplo anterior, y queremos calcular la media del conjunto de valores 12, 8, 62, 5, 8, 2, 25, 9 y 33, tenemos que 𝑋7 = (12 + 8 + 62 + 5 + 8 + 2 + 25 + 9 + 33)/9 𝑋7 = 18,22 • La media del conjunto de datos (12, 8, 62, 5, 8, 2, 25, 9 y 33) es 𝑋7 = 18,22 • Notar que se usa la notación 𝑋7 (equis con una rayaencima) para indicar una media calculada para una muestra (una media muestral) Usuario1 Highlight Medidas de centralización: Media Propiedades a) La media es única, es un único valor (un conjunto de datos no puede tener dos o más medias, solo tiene una). b) La media puede o no ser un valor de la variable (en nuestro ejemplo, 𝑋7 = 18,22 no es un valor de la variable; ninguno de los datos del ejemplo tenía ese valor). c) Siempre será posible calcular la media para un conjunto de datos. No hay datos “sin media” d) La media es muy sensible a datos extremos. A modo de ejemplo, si a nuestros valores le sumamos un valor mucho más grande (150), la nueva media va a ser bastante más grande que la anterior: 𝑋7 = (12 + 8 + 62 + 5 + 8 + 2 + 25 + 9 + 33 + 150)/10 𝑋7 = 31,4 Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Media Propiedades e) Para cada conjunto de datos, se cumple siempre que: ∑ (𝒙𝒊− 𝒙A𝒏𝒊<𝟏 ) = 0 • Las cantidades (𝑥𝑖 − 𝑥 ̅) se denominan desvíos. • El valor de la media es tal que la suma de los desvíos es nula: los desvíos positivos compensan a los desvíos negativos y la media queda, justamente, en el medio de los diferentes valores. • En nuestro ejemplo, dados los datos (12, 8, 62, 5, 8, 2, 25, 9 y 33) y la media (𝑋7 = 18,22), tenemos que: (12-18,22) + (8-18,22) + (62-18,22) + (5-18,22) + (8-18,22) + (2-18,22) + (25-18,22) + (9-18,22) + (33-18,22) = -6,22 -10,22 + 43,78 -13,22 -10,22 – 16,22 + 6,78 -9,22 + 14,78 ≃ 0 Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Media Propiedades f) La media informa únicamente sobre la posición central de la distribución de frecuencias sin dar idea alguna sobre la dispersión de los datos. • Retomando nuestro ejemplo, hemos calculado la media para el conjunto de datos (2, 5, 8, 8, 9, 12, 25, 33 y 62), obteniendo 𝑋7 = 18,22. • Tomemos ahora otro conjunto de datos (16, 17, 17, 18, 19, 19, 19, 19, 20) y calculemos su media: obtenemos también 𝑋7 = 18,22!! • Vemos que para ambos conjuntos de datos la media es la misma, pero sin lugar a dudas el segundo conjunto de datos (que tiene valores de 17 a 20) es mucho menos disperso que el primer conjunto de datos (que tiene valores que van de 2 a 62!). • Necesitamos otras medidas para caracterizar los datos, como las de posición y las de dispersión. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Mediana • Es otro valor de centralización de los datos. • Para calcularlo, se deben ordenar los datos en forma creciente (es decir, de menor a mayor) y buscar el dato que queda justo al medio. • El valor de ese dato es la mediana. • En nuestro ejemplo, si se se tienen los datos 12, 8, 62, 5, 8, 2, 25, 9 y 33; al ordenarlos queda: 2, 5, 8, 8, 9, 12, 25, 33 y 62. • El valor del dato que queda al medio es 9 (pintado color rojo). De este modo, el valor de la mediana es 9. Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Mediana Propiedades a) Si el número de datos es impar (como en nuestro ejemplo, que teníamos nueve datos), la mediana es el valor del dato del medio b) Si el número de datos es par, la mediana es el promedio de los dos datos que quedan en el medio. A modo de ejemplo sumemos otro dato (150) a la lista: 2, 5, 8, 8, 9, 12, 25, 33, 62 y 150. Ahora tenemos 10 datos (número par de datos), así que la mediana se calcula como el promedio de los dos datos del medio (en color rojo): Med = D E 455 = 10,5 Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Mediana Propiedades c) Si el número de datos es IMPAR, la mediana será SIEMPRE un valor de la variable. Si el número de datos es par, no. d) Al igual que la media, la mediana es única, es un único valor. e) Nuevamente al igual que la media, siempre es posible obtener un valor mediana para cualquier conjunto de datos. No existen “datos sin mediana”. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Mediana Propiedades f) A diferencia de la media, la mediana no se ve afectada por valores sensiblemente altos o bajos. De hecho, acabamos de ver que sumar un dato alto (150) hizo que la mediana pasara de valer 9 a valer 10,5!! g) De este modo, cuando tenemos un conjunto de datos que contiene datos extremos (mucho más grandes o mucho más pequeños que el resto de los datos) la mediana es una mejor medida de centralización que la media. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Moda • Es el valor más frecuente, el que más se repite. • O, si estamos mirando un histograma o una tabla de distribución de frecuencias, es la clase o categoría con frecuencia más alta (“Clase Modal”). • Si miramos nuestros datos (2, 5, 8, 8, 9, 12, 25, 33, 62) la moda es 8, ya que 8 es el valor que más se repite (aparece dos veces, mientras que el resto de los valores aparece solo una vez). • Si en cambio miramos nuestros datos agrupados en tabla de distribución de frecuencias (ver tabla de frecuencias agrupadas), la “clase o intervalo modal” (es decir aquella que tiene frecuencia máxima) es la clase o intervalo que va de 2 a 22 (ya que contiene 6 datos). Rangos Marca de clase (MC) Frecuencias absolutas Frecuencias relativas [2-22] 12 6 6/9=0,666 (22-42] 32 2 2/9=0,222 (42-62] 52 1 1/9=0,111 Total 9 1 Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de centralización: Moda Propiedades • Como no necesariamente un valor es más frecuente que todos los demás, algunas distribuciones de frecuencias pueden tener una moda, dos o más o, cuando todos los valores tienen igual frecuencia, carecen de moda. • Es decir, hay distribuciones sin moda • Hay distribuciones con más de una moda 84 C H A P T E R 2 Describing Data (a) Histogram A −5 0 5 10 15 20 25 (c) Histogram C −5 0 5 10 15 20 25 (b) Histogram B −5 0 5 10 15 20 25 Figure 2.22 Three histograms for Exercise 2.73 2.72 The variable TV, number of hours spent watching television per week, in the StudentSurvey dataset SKILL BUILDER 2 In Exercises 2.73 and 2.74, match the standard devi- ations with the histograms. 2.73 Match the three standard deviations s = 1, s = 3, and s = 5 with the three histograms in Figure 2.22. 2.74 Match each standard deviation with one of the histograms in Figure 2.23. (a) s = 0.5 (b) s = 10 (c) s = 50 (d) s = 1 (e) s = 1000 (f) s = 0.29 10 20 30 40 0 −3 −1 1 2 3 Value I Fr eq ue nc y V 10 20 30 0 −1.0 0.0 1.0 Value Fr eq ue nc y VI 20 60 10 0 0 −1500 −500 500 1500 Value Fr eq ue nc y IV 0 20 60 500 150 250 Value Fr eq ue nc y II 40 0 80 0.0 0.4 0.8 Value Fr eq ue nc y III 0 10 0 20 0 50 70 90 110 130 Value Fr eq ue nc y Figure 2.23 Histograms for Exercises 2.74 and 2.75 SKILL BUILDER 3 In Exercises 2.75 and 2.76, match each five number summary with the corresponding histogram. 2.75 Match each five number summary with one of the histograms in Figure 2.23. (a) (0, 0.25, 0.5, 0.75, 1) (b) (−1.08, −0.30, 0.01, 0.35, 1.27) (c) (0.64, 27.25, 53.16, 100, 275.7) (d) (−3.5, −0.63, −0.11, 0.59, 2.66) (e) (71.45, 92.77, 99.41, 106.60, 129.70) (f) (−1296, −1005, −705, 998, 1312) 2.76 Match each five number summary with one of the histograms in Figure 2.24. The scale is the same on all four histograms. (a) (1, 3, 5, 7, 9) (b) (1, 4, 5, 6, 9) (c) (1, 5, 7, 8, 9) (d) (1, 1, 2, 4, 9) Usuario1 Highlight Usuario1 Highlight Medidas de posición: percentiles, deciles… • ¿Qué es un percentil? El percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de datos. Por ejemplo, el percentil 20º es el valor bajo el cualse encuentran el 20 por ciento de las observaciones (definición de Wikipedia). Los percentiles van de 0 a 100. • Lo mismo pasa con los cuantiles, solo que en vez de hablar de porcentaje hablamos de proporciones. Por ejemplo, el cuantil 0,15 es el valor de la variable bajo el cual se encuentra el 0,15 de los datos. Es decir, los cuantiles van de 0 a 1. Usuario1 Highlight Usuario1 Highlight Medidas de posición: percentiles, deciles… • Percentiles, cuantiles y otros “iles” que existen (deciles, quintiles, etc) representan valores de la variable. • Si por ejemplo la variables es largo (en cm) de pico a cola de aves, y nos dicen “el percentil 45 es 15 cm”, automáticamente tenemos que entender de esto que el 45% de las aves estudiadas median 15 cm o menos de pico a cola, mientras que el 55% restante de las aves medidas medía más. Usuario1 Highlight Usuario1 Highlight Medidas de posición Percentiles especiales: los cuartiles • Los cuartiles, tal cual su nombre lo indica, dividen a los datos en 4 partes iguales (es decir, en cada parte queda la misma cantidad de datos). • Como se imaginarán, estos cuartiles se corresponden con los percentiles 25%, 50% y 75%. Usuario1 Highlight Medidas de posición Percentiles especiales: los cuartiles • De esta forma, si tenemos una lista de datos ordenados en forma creciente (de menor a mayor), tenemos que: • El primer cuartil (Q1) equivale al percentil 25%. El 25% de los datos tiene un valor igual o menor al de Q1. • El segundo cuartil (Q2) equivale al percentil 50%. El 50% de los datos tiene un valor igual o menor al de Q2. Como el es valor que divide a los datos en dos partes iguales, es igual a la mediana (si se acuerdan de la definición de la mediana es esto mismo: el dato del medio, si consideramos los datos ordenados de menor a mayor). • El tercer cuartil (Q3) equivale al percentil 75%. El 75% de los datos tiene un valor igual o menor al de Q3. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de posición Los 5 números resumen • Es posible describir un gran conjunto de datos utilizando sólo 5 valores de posición, calculados a partir de ellos. Estos son: 1. Dato mínimo (el menor valor observado en nuestro conjunto de datos) 2. Dato máximo (el mayor valor observado en nuestro conjunto de datos) 3. Primer cuartil (Q1) 4. Mediana (Q2) 5. Tercer cuartil (Q3) • Estos “5 números resumen” nos pueden dar una idea de cómo es nuestro conjunto general de datos, sin tener que mirarlos uno por uno, e incluso sin graficarlos. Usuario1 Highlight Usuario1 Highlight Medidas de dispersión: rango • El rango (o amplitud total) de un conjunto de datos es la diferencia entre el dato mayor y el dato menor. Es decir: Rango = dato mayor – dato menor • A modo de ejemplo, si tomamos nuestros datos previos ordenados de menor a mayor (2, 5, 8, 8, 9, 12, 25, 33 y 62), el rango será: 62-2=60 • Como se imaginarán, el rango se ve muy afectado por la presencia, en el conjunto de datos, de valores extremadamente grandes o extremadamente chicos. Usuario1 Highlight Medidas de dispersión: rango intercuartílico (RIC) • Se calcula como la diferencia entre los valores del tercer cuartil (Q3 = percentil 75%) y del primer cuartil (Q1 = percentil 25%). RIC = valor (Q3) – valor (Q1) • Como podrán imaginarse, y a diferencia del rango (amplitud total), su calculo no se ve afectado por la presencia, en el conjunto de datos, de valores extremadamente grandes o extremadamente chicos. Usuario1 Highlight Usuario1 Highlight Medidas de dispersión: varianza (s2) • Vimos en las propiedades de la media que las cantidades (𝑥𝑖 − 𝑥 ̅) se denominan desvíos. • La varianza es el promedio de esos desvíos al cuadrado. • De este modo, y en notación, tenemos que la varianza de un conjunto de n valores x1, x2, …, xn se calcula como: s2 = Var (x) = 4 8 ∑ (𝑥𝑖 − �̅�8;<4 )2 • Dado que estamos sumando desvíos al cuadrado, podemos estar seguros de que la varianza va a ser un valor ≥ 0 (porque cualquier número al cuadrado es un valor positivo). Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de dispersión: varianza (s2) • Dado que los cuadrados de los desvíosmiden las distancias cuadráticas entre los valores de la variable y su media, la varianza es el promedio de dichas distancias. • Cuanto más distantes de la media quedan los valores de una variable, mayor es su varianza. • Una cosa a tener en cuenta es que, dado que la varianza es el promedio de los desvíos elevados al cuadrado, se expresa en la unidad de la variable elevada al cuadrado (ej, si la variable es “altura” (en centímetros) la varianza va a tener unidades cm2). Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de dispersión: varianza (s2) • Ejemplo, para nuestro set de datos (12, 8, 62, 5, 8, 2, 25, 9 y 33), con 𝑋7 = 18,33, s2 será: S2 = [(12-18,22)2 + (8-18,22) 2 + (62-18,22) 2 + (5-18,22) 2 + (8-18,22) 2 + (2-18,22) 2 + (25-18,22) 2 + (9-18,22) 2 + (33-18,22) 2 ]/9= [(-6,22)2 + (-10,22)2 + (43,78)2 + (-13,22)2 + (-10,22)2 + (–16,22)2 + (6,78)2 + (-9,22)2 + (14,78)2 ]/9= 327,95 • Mientras que, para el otro set de datos que tenía la misma media (16, 17, 17, 18, 19, 19, 19, 19, 20): S2 = [(16-18,22)2 + (17-18,22) 2 + (17-18,22) 2 + (18-18,22) 2 + (19-18,22) 2 + (19-18,22) 2 + (19-18,22) 2 + (19- 18,22) 2 + (20-18,22) 2 ]/9= [(-2,22)2 + (-1,22)2 + (-1,22)2 + (-0,22)2 + (0,78)2 + (0,78)2 + (0,78)2 + (0,78)2 + (1,78)2 ]/9 = 1,5 Medidas de dispersión: desvío estándar (s) • Es otra medida de dispersión, que se obtiene como la raíz cuadrada de la varianza. • Esta medida de dispersión tiene las mismas unidades que la variable (nuevamente, si la variable es “altura” (en centímetros), el desvío estándar va a tener como unidad “centímetro”). • En notación: s = Desvío estándar (x) = 𝑣𝑎𝑟(𝑥) Usuario1 Highlight Medidas de dispersión: desvío estándar (s) • Ejemplo, para nuestro set de datos (12, 8, 62, 5, 8, 2, 25, 9 y 33), con 𝑋7 = 18,22, s será: s = Desvío estándar (x) = 327,95 =18,11 • Mientras que, para el otro set de datos que tenía la misma media (16, 17, 17, 18, 19, 19, 19, 19, 20): s = Desvío estándar (x) = 1,5 = 1,22 Vean como estos dos sets de datos tienen igual media pero distinta dispersión Medidas de dispersión: Coeficiente de variación (CV) • El coeficiente de variación es el cociente entre el desvío estándar (s) y la media (�̅�): CV = N O̅ • Es útil cuando buscamos evaluar la dispersión de una variable en comparación con su media. • Como vimos, el desvío estándar (s) y la media (�̅�) tienen las mismas unidades. Al estar como cociente, las unidades se anulan! • De este modo, tenemos que el coeficiente de variación (CV) es una medida sin unidades. • Resulta muy útil cuando queremos comparar la dispersión de dos conjuntos de datos muy diferentes, o que tienen unidades diferentes. Usuario1 Highlight Medidas de dispersión: Coeficiente de variación (CV) • El coeficiente de variación es el cociente entre el desvío estándar (s) y la media (�̅�): CV = N O̅ • Ejemplo, para nuestro set de datos (2, 5, 8, 8, 9, 12, 25, 33, 62), con 𝑋7 = 18,22 y s = 18: CV = NO̅ = 4P,44 4P,55 = 0,99 • Para el otro set de datos (16, 17, 17, 18, 19, 19, 19, 19, 20) que tenía la misma media y s=1,33: CV = NO̅ = 4,55 4P,55 = 0,067 Medidas de forma • Estas nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. • Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. • Sus principales medidas son la Asimetría y la Curtosis. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de forma: Asimetría • Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media). • La asimetría presenta tres estados diferentes,cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 8 0 4 0 0 1 5 0 5 0 0 3 0 0 1 5 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 1 5 0 5 0 0 −1 1 3 B 0 1 0 0 2 0 0 0 1 0 0 2 5 0 0 1 0 0 2 5 0 −3 −1 1 E 0 1 0 0 2 5 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 8 0 4 0 0 1 5 0 5 0 0 3 0 0 1 5 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 1 5 0 5 0 0 −1 1 3 B 0 1 0 0 2 0 0 0 1 0 0 2 5 0 0 1 0 0 2 5 0 −3 −1 1 E 0 1 0 0 2 5 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 8 0 4 0 0 1 5 0 5 0 0 3 0 0 1 5 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 1 5 0 5 0 0 −1 1 3 B 0 1 0 0 2 0 0 0 1 0 0 2 5 0 0 1 0 0 2 5 0 −3 −1 1 E 0 1 0 0 2 5 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? Histogramas mostrando tres tipos de simetría. Izquierda: asimetría negativa (ver que tiene una “cola” a la izquierda), derecha: asimetría positiva (ver que tiene una “cola” a la derecha), centro: simétrico (y con forma de campana). Fr ec ue nc ia Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de forma: Asimetría • Podemos calcular coeficientes de asimetría, que se interpretan como: A. As < 0, si tenemos una distribución asimétrica negativa (con cola hacia la izquierda) B. As ≈0, si tenemos una distribución simétrica C. As > 0, si tenemos una distribución asimétrica positiva (con cola hacia la derecha) • De forma práctica, decimos que si As = ±0,50, los datos se distribuyen en forma simétrica. • Notar también que, mientras mayor sea el coeficiente de asimetría, más asimétrica será la distribución de los datos. 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 80 40 0 15 0 50 0 30 0 15 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 15 0 50 0 −1 1 3 B 0 10 0 20 0 0 10 0 25 0 0 10 0 25 0 −3 −1 1 E 0 10 0 25 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 80 40 0 15 0 50 0 30 0 15 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 15 0 50 0 −1 1 3 B 0 10 0 20 0 0 10 0 25 0 0 10 0 25 0 −3 −1 1 E 0 10 0 25 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximatelyequal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? 70 C H A P T E R 2 Describing Data S E C T I O N L E A R N I N G G O A L S You should now have the understanding and skills to: • Use a dotplot or histogram to describe the shape of a distribution • Calculate the mean and the median for a set of data values, with appropriate notation • Identify the approximate locations of the mean and the median on a dotplot or histogram • Explain how outliers and skewness affect the values for the mean and median Exercises for Section 2.2 SKILL BUILDER 1 Exercises 2.32 to 2.38 refer to histograms A through H in Figure 2.12. 2.32 Which histograms are skewed to the left? 2.33 Which histograms are skewed to the right? 2.34 Which histograms are approximately sym- metric? 2.35 Which histograms are approximately symmet- ric and bell-shaped? 80 40 0 15 0 50 0 30 0 15 0 0 0.0 1.0 2.0 A −50 150 C 5 15 25 D 15 0 50 0 −1 1 3 B 0 10 0 20 0 0 10 0 25 0 0 10 0 25 0 −3 −1 1 E 0 10 0 25 0 0 4 148 F 0 5 G −7 −4 −1 H Figure 2.12 Eight histograms 2.36 For each of the four histograms A, B, C, and D, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.37 For each of the four histograms E, F, G, and H, state whether the mean is likely to be larger than the median, smaller than the median, or approximately equal to the median. 2.38 Which of the distributions is likely to have the largest mean? The smallest mean? Histogramas mostrando tres tipos de simetría. Izquierda: asimetría negativa (As <0), derecha: asimetría positiva (As > 0), centro: simétrico (As ~ 0). Usuario1 Highlight Medidas de forma: Asimetría Propiedades • Cuando As < 0, la media < mediana (ya que la media se ve más afectada en su cálculo que la mediana por datos extremos). La moda será siempre el valor donde la distribución alcance su máximo (en un histograma será la barra más alta, y en una curva el punto más alto) • Cuando As ≈0, media = mediana. Y, si además de ser simétrico, la distribución tiene forma de campana de Gauss, se cumple que media = mediana = moda • Cuando As > 0, la media > mediana (nuevamente, esto se debe a que la media se ve más afectada en su cálculo que la mediana por datos extremos). La moda será siempre el valor donde la distribución alcance su máximo. Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Medidas de forma: Asimetría Propiedades • Cuando As < 0, la media < mediana (ya que la media se ve más afectada en su cálculo que la mediana por datos extremos). La moda será siempre el valor donde la distribución alcance su máximo (en un histograma será la barra más alta, y en una curva el punto más alto) • Cuando As ≈0, media = mediana. Y, si además de ser simétrico, la distribución tiene forma de campana de Gauss, se cumple que media = mediana = moda • Cuando As > 0, la media > mediana (nuevamente, esto se debe a que la media se ve más afectada en su cálculo que la mediana por datos extremos). La moda será siempre el valor donde la distribución alcance su máximo. Medidas de forma: Asimetría • Cómo se imaginan que será la el coeficiente de asimetría del histograma de nuestros datos ejemplo? 0 1 2 3 4 5 6 7 12 32 52 Fre cu en cia s a bs olu tas Marcas de clase histograma de frecuencias absolutas Medidas de forma: Curtosis • La curtosis (o apuntamiento) es una medida de forma que mide cuán apuntada o achatada está una curva o distribución. • La curtosis nos da una idea de la cantidad de datos que están cercanos a la media, de manera que a mayor grado de curtosis, más apuntada será la forma de la distribución Curtosis. izquierda curva platicúrtica (aplastada, con Curtosis<0); centro: curva mesocúrtica, normal (se parece a una campana de Gauss, Curtosis ≈ 0); derecha: curva Leptocúrtica (apuntada, con Curtosis > 0). Usuario1 Highlight Usuario1 Highlight Medidas de forma: Curtosis • Al igual que pasa con asimetría, la forma de distribución de los datos también se puede clasificar en tres grupos según el signo de su curtosis: A. Leptocúrtica: la Curtosis>0. Los datos están muy concentrados en la media, siendo una curva muy apuntada. B. Mesocúrtica: la Curtosis≈ 0. Distribución normal, con forma de campana de Gauss. C. Platicúrtica: la Curtosis<0. Muy poca concentración de datos en la media, presentando una forma muy achatada. • De forma práctica, decimos que si curtosis = ±0,50, los datos se distribuyen en forma normal. Usuario1 Highlight Medidas de forma Un caso especial: la curva nornal • Cuando la distribución de los datos cuenta con un coeficiente de asimetría cercano a cero (As ≈ 0) y un coeficiente de Curtosis también cercano a cero (curtosis ≈ 0), se la denomina Curva Normal. • La curva normal tiene forma de campana de Gauss, y es asintótica al eje X (es decir se acerca mucho, pero nunca corta el eje x). • Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente. Usuario1 Highlight Usuario1 Highlight Medidas de forma Un caso especial: la curva nornal • La principal ventaja de la distribución normal radica en el supuesto que aproximadamente el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media. • Es decir, si tomamos la media y le sumamos dos veces la desviación estándar y después le restamos a la media dos desviaciones estándar, aproximadamente el 95% de los casos se encontraría dentro del rango que compongan estos valores (aclaramos “aproximadamente” porque el verdadero valor que hay que sumar y restar a la media para obtener el 95% de los datos no es ±2 desvíos estándar, sino ±1,96 desvíos estándar). Medidas de forma Un caso especial: la curva nornal • Otras propiedades de la curva normal es que a ± 1 desvío estándar de la media se encontraría aproximadamente el 68 % de los datos, y a ± 3 desvíos estándar de la media se encontraría el 99,7% de los datos. • Esto es lo que se postula en el teorema de Chebyshev. Ejemplo de histograma aproximadamente normal, mostrando dónde se ubicaría la media muestral (�̅�), y los distintos valores de media ± 1, 2, 3 desvíos estándar (s). También se marca el porcentaje aproximado de datos que, por teorema de Chebyshev esperamos encontrar a ± 1 desvío estándar de la media (~68% de los datos), a ± 2 desvíos estándar de la media (~95% de los datos) y a ± 3 desvíos estándar de la media (~99,7% de los datos). Usuario1 Highlight Datos atípicos • Un dato atípico es una observación extrañamente grande o pequeña. • Los valores atípicos pueden tener un efecto desproporcionado en los resultados estadísticos, como la media, lo que puede conducir a interpretaciones engañosas. • Por regla general, decimos que un dato será atípico si: A. Es mayor que el cuartil 3 + 1,5 veces el rango intercuartílico (RIC). Es decir, si un dato es mayor que Q3 + 1,5 RIC, será considerado dato atípico, raro, extremo. B. Es menor que que el cuartil 1 - 1,5 veces el rango intercuartílico (RIC). Es decir, si un dato es menor que Q1 - 1,5 RIC, será considerado dato atípico, raro, extremo. Usuario1 Highlight Usuario1 Highlight Otro tipo de gráficos para variables cuantitativas: Boxplot • El boxplot, o gráfico de cajas y bigotes, es uno de los recursos más usados para graficar variables cuantitativas, ya que nos da una idea muy clara de cómo se distribuyen los datos, pero además tiene una característica extra: permite detectar rápidamente la presencia de datos atípicos. • Para armar este tipo de gráficos tenemos que construir sus partes: una caja y dos bigotes (líneas):uno superior y otro inferior. 1. La caja se construye con tres valores: Q1, Q2 (mediana) y Q3. 2. Los bigotes se pueden construir de distintas maneras, dependiendo de si nuestro conjunto de datos tiene o no datos atípicos, y de cómo son esos datos atípicos (más pequeños que el resto de los datos, o más grandes). Usuario1 Highlight Usuario1 Highlight Usuario1 Highlight Otro tipo de gráficos para variables cuantitativas: Boxplot – Cómo graficar • Si nuestro conjunto de datos tiene datos atípicos más grandes que el resto de los datos (es decir, mayores que Q3 + 1,5 RIC), el bigote superior será Q3 + 1,5 RIC y el bigote menor será el menor valor observado en los datos. Los datos atípicos se dibujarán arriba del bigote superior, como puntitos (un punto por dato atípico). Menor valor observado Q1 Q2 = Med Q3 Q3 + 1,5 RIC Atípico (mayor valor observado) Usuario1 Highlight Otro tipo de gráficos para variables cuantitativas: Boxplot – Cómo graficar • Si nuestro conjunto de datos tiene datos atípicos más pequeños que el resto de los datos (es decir, menores que Q1 - 1,5 RIC), el bigote inferior será Q1 - 1,5 RIC y el bigote mayor será el mayor valor observado en los datos. Los datos atípicos se dibujarán debajo del bigote inferior, como puntitos (un punto por dato atípico) Mayor valor observado Q1 Q2 = Med Q3 Q1 - 1,5 RIC Atípico. Menor valor observado Usuario1 Highlight Otro tipo de gráficos para variables cuantitativas: Boxplot – Cómo graficar • Si nuestro conjunto de datos tiene datos atípicos más grandes y más pequeños que el resto de los datos (es decir, menores que Q1 - 1,5 RIC y mayores que Q3 + 1,5 RIC), el bigote inferior será Q1 - 1,5 RIC y el bigote mayor será será Q3 + 1,5 RIC. Los datos atípicos se dibujarán arriba del bigote superior y abajo del bigote inferior, como puntitos (un punto por dato atípico) Atípico. Mayor valor observado Q1 Q2 = Med Q3 Q1 - 1,5 RIC Atípico. Menor valor observado Q3 + 1,5 RIC Usuario1 Highlight Otro tipo de gráficos para variables cuantitativas: Boxplot – Cómo graficar • Si nuestro conjunto de datos no tiene datos atípicos, los bigotes serán el menor y el mayor valor observado en nuestros datos (Ver Figura 7, cuarto recuadro). • Notar que, cuando NO tenemos datos atípicos, los datos con los que se construye el boxplot son los mismos de los “5 números resumen”. En cambio cuando sí tenemos datos atípicos, no son los mismos. Q1 Q2 = Med Q3 Menor valor observado Mayor valor observado Usuario1 Highlight Ejemplo general aplicando todo lo visto hoy • Estamos trabajando con la familia de virus Coronaviridae, • Queremos estudiar cuál es el tamaño de los genomas de los distintos miembros de la familia. • Para encarar este estudio, vamos a la base de datos del NCBI (https://www.ncbi.nlm.nih.gov/) y buscamos todos los virus de esta familia que tienen genoma secuenciado y ensamblado. • En total tenemos 64 datos (es decir, 64 genomas de la familia secuenciados). Ejemplo general aplicando todo lo visto hoy • Las primeras preguntas de rigor que siempre debemos hacernos, antes de encarar cualquier estudio estadístico son: 1. Cuál es la muestra? 2. Cuál la población de estudio? 3. Cuál es la variable que quiero determinar? 4. De qué tipo es esa variable? Ejemplo general aplicando todo lo visto hoy • Las primeras preguntas de rigor que siempre debemos hacernos, antes de encarar cualquier estudio estadístico son: 1. Cuál es la muestra? Los 64 virus pertenecientes a esta familia que tienen genoma secuenciado y depositado en la base de datos del NCBI. 2. Cuál la población de estudio? Todos los miembros de la familia coronaviridae. 3. Cuál es la variable que quiero determinar? Largo (bases) del genoma 4. De qué tipo es esa variable? cuantitativa discreta Ejemplo general aplicando todo lo visto hoy • Ahora podemos organizar los datos en tabla de frecuencias agrupadas. • Primero tenemos que decidir en cuantos intervalos agrupar los datos. • Si usamos la fórmula de la raíz, tenemos que: Número de intervalos = 64= 8 intervalos • Si usamos la fórmula de Sturges, tenemos que: Número de intervalos = 1+log2(64) = 7 intervalos Ejemplo general aplicando todo lo visto hoy • Para armar la tabla de frecuencias agrupadas, debemos saber que el menor genoma tiene 25000 bases y el mayor 32000. Entonces, el rango es: Rango = 32000 bases -25000 bases = 7000 bases • Para saber el tamaño de cada intervalo, debemos hacer: rango/número de intervalos. Tamaño de cada intervalo = 7000/7 = 1000 bases • Entonces ya con esos datos podemos armar la tabla, sabiendo que el primer intervalo va desde el menor valor observo hasta ese valor + el tamaño del intervalo y así en adelante. Siempre recordar el manejo de corchetes y paréntesis al especificar los intervalos Ejemplo general aplicando todo lo visto hoy Intervalos MC Frecuencia Absoluta Frecuencia Relativa [25000-26000] 25500 3 0.05 (26000-27000] 26500 10 0.16 (27000-28000] 27500 13 0.20 (28000-29000] 28500 16 0.25 (29000-30000] 29500 6 0.09 (30000-31000] 30500 7 0.11 (31000-32000] 31500 9 0.14 64 1.00 Ejemplo general aplicando todo lo visto hoy • Luego esa misma información de la tabla puede usarse para graficar estos datos en un histograma, ya sea de frecuencias absolutas o de frecuencias relativas. • Si es de frecuencias relativas, recordar indicar el n! Ejemplo general aplicando todo lo visto hoy • Una vez plasmados los datos en tablas de frecuencias y gráficos, podemos también calcular algunas medidas descriptivas para variables cuantitativas: 1) Medidas de centralización Media: Vimos que la media es el promedio de todos los datos. En este caso, hay que sumar el largo (en bases) de todos los genomas y luego dividirlos por 64 (tamaño muestral): 𝒙A = (25000 + 25984 + 25995 + 26041 + …. + 32000)/64 𝒙A = 28522 bases Ejemplo general aplicando todo lo visto hoy 1) Medidas de centralización • Mediana: se calcula ordenando los datos de menor a mayor, y buscando cuál es el valor del dato que queda justo en la mitad de la lista. • Dado que tenemos un número par de genomas (64) no tendremos un dato al medio, sino dos (los correspondientes a las posiciones 32 y 33 de la lista). • El genoma que queda en la posición 32 tiene 28326 bases y el que queda en la posición 33 tiene 28363 bases. • Entonces, la mediana será Med= (28326 + 28363)/2 = 28344,5 bases Ejemplo general aplicando todo lo visto hoy 1) Medidas de centralización • Moda: la moda es el dato más frecuente o, en el caso de tener datos agrupados, aquel intervalo o clase que tiene la frecuencia más alta (“clase modal”). • En nuestro caso, la “clase modal” es aquella que va de 28000 a 29000 bases (ya que tiene la frecuencia más alta). • Ver flechas y fila naranjas Intervalos MC Frecuencia Absoluta Frecuencia Relativa [25000-26000] 25500 3 0.05 (26000-27000] 26500 10 0.16 (27000-28000] 27500 13 0.20 (28000-29000] 28500 16 0.25 (29000-30000] 29500 6 0.09 (30000-31000] 30500 7 0.11 (31000-32000] 31500 9 0.14 64 1.00 Ejemplo general aplicando todo lo visto hoy 2) Medidas de posición Podemos estar interesados en cualquier medida de posición, pero tomemos solo algunas: • Primer cuartil = Q1 = percentil 25% = 27376 bases. Esto quiere decir que el 25% de los genomas de coronavirus secuenciados tienen 27376 bases o menos. • Tercer cuartil = Q3 = percentil 27% = 29972 bases. Esto quiere decir que el 75% de los genomas de coronavirus secuenciados tienen 29972 bases o menos. Ejemplo general aplicando todo lo visto hoy 3) Medidas de dispersión Rango: Ya lo calculamos previamente, cuando hicimos el armado de la tabla de frecuencias agrupadas, pero lo repetimos. Dado que el menor genoma tiene 25000 bases y el mayor 32000, el rango es: Rango = 32000 bases -25000 bases = 7000 bases Rango intercuartílico (RIC): Es la diferencia entre el tercercuartil (29972 bases) y el primer cuartil (27376 bases) RIC = 29972 bases - 27376 bases = 2596 bases Ejemplo general aplicando todo lo visto hoy 3) Medidas de dispersión Varianza (s2): Se calcula sumando todos los desvíos (diferencia entre cada dato y la media) al cuadrado. Var (x) = s2= [(25500 - 28522)2 + ( 25984 - 28522)2 + ( 25995 - 28522)2 + … + (32000 - 28522)2]/64 Var (x) = s2= 2989487 bases2 Desvío estándar (s): Es la raíz de la varianza. Tiene las mismas unidades que la media (en este caso, bases). s = 2989487 = 1729,013 bases Ejemplo general aplicando todo lo visto hoy 4) Medidas de Forma Calcularemos (con software) coeficientes de asimetría y curtosis. • Asimetría: 0,194. Es un valor positivo, pero bastante cercano a cero. Esto ya lo esperábamos, dado que la media (28522 bases) es ligeramente mayor que la mediana (28344,5 bases). • Curtosis: 2,13502. Este coeficiente, al ser positivo, nos da la idea de que hay muchos datos agrupados alrededor de la media. Ejemplo general aplicando todo lo visto hoy Podemos preguntarnos si en ese conjunto de 64 datos hay datos atípicos. Sabemos que son datos atípicos aquellos que: a) son mayores a Q3 + 1,5 RIC b) son menores a Q1 – 1,5 RIC Entonces calculemos esos valores y veamos si nuestros datos cumplen esas condiciones. a) Q3 + 1,5 RIC = 29972 + 1,5 x 2596 = 33866 bases b) Q1 - 1,5 RIC = 27376 - 1,5 x 2596 = 23482 bases Dado que el menor genoma tiene 25000 bases y el mayor 32000, no tenemos datos atípicos. Ejemplo general aplicando todo lo visto hoy • Boxplot: Dado que no esperamos datos atípicos, el bigote inferior será el menor valor observado (25000 bases), y el bigote superior el mayor valor observado (32000 bases). • Es decir, en este caso los datos del boxplot son los mismos de los “5 números resumen”. • Al hacer un Boxplot, recordar siempre indicar el n (tamaño muestral)!
Compartir