Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Lección 2.1: Medidas de posición 1. Media aritmética geométrica armónica y cuadrática Media aritmética geométrica armónica y cuadrática Media aritmética La media aritmética es el valor promedio de las muestras y es independiente de las amplitudes de los intervalos. Se simboliza como o M(x) y se encuentra sólo para variables cuantitativas. Se encuentra sumando todos los valores y dividiendo por el número total de datos. La fórmula general para elementos es También se puede expresar de la siguiente forma: Ejemplo En un partido de baloncesto, se tiene la siguiente anotación en los jugadores de un equipo: 0, 2, 4, 5, 8, 8, 10, 15, 38 Calcular la media de anotación del equipo. Aplicando la fórmula tenemos Respuesta: El promedio o la media de anotación del equipo en un partido de baloncesto es igual a 10 2. La media para datos tabulados (agrupados) La media para datos tabulados (agrupados) Si los datos han sido clasificados en clases en una tabla de frecuencias la marca de la clase y , y la frecuencia absoluta ni o fi donde i=1,2,…….. , m, la media aritmética de estos datos esta defina por: Ejemplo. Calcular la media aritmética de los datos agrupados que se encuentran en la siguiente tabla de distribución de frecuencias número de hijos por familia Aplicando la formula tenemos Ejemplo. La altura en cm de los jugadores de un equipo de baloncesto está en la siguiente tabla. Calcular la media. 3. Media de la Población Media de la Población La media aritmética de una población finita de N elementos x1, x2, ……Xn, se denota por el símbolo “µ” y se define por: Propiedades de la media aritmética 1. Se puede calcular en relación con un conjunto cualquiera de datos numéricos, de manera que siempre existe. 2. Un conjunto de datos numéricos tiene una y sólo una media, de modo que siempre es única. 3. Se presta a un tratamiento estadístico más profundo (por ejemplo, las medias de varios conjuntos de datos se pueden combinar el total de los datos). 4. Es relativamente confiable en el sentido de que las medias de muchas muestras tomadas de la misma población por lo general no fluctúan, o varían, tan ampliamente como otras medidas estadísticas que se emplean para estimar la media de una población m 5. Toma en cuenta todos y cada uno de los elementos de los datos 6. La media no es confiable en reportes. Media geométrica La media geométrica ( de un conjunto de n datos es el resultado de multiplicarlos entre si y aplicar la n-enésima raíz. Si en la media aritmética sumábamos los valores para luego dividirlos, ahora debemos multiplicarlos para luego aplicar la n-enésima raíz pertinente. Es decir, Cabe destacar que la media geométrica necesita que no haya números negativos o que estos sean un número par. Si los valores contienen un número impar de números negativos estaríamos intentando aplicar una raíz a un número negativo, no pudiendo encontrar solución entre los números reales. Ejemplo Calcular la media geométrica del número de hermanos que tienen Berta, Borja y Diana si tienen y respectivamente 2, 2 y 4 respectivamente Aplicando la formula tenemos Media geométrica para datos tabulados Si los datos están agrupados en clases la media geométrica ponderada, es la raíz, enésima del producto de las marcas de clase elevadas a sus respectivas frecuencias, es decir. Donde número de clases. Aplicando logaritmo a ambos miembros de la ecuación anterior se tiene Luego Ejemplo. Hallar la media geométrica de la siguiente distribución de frecuencias Tabla de operaciones Aplicando Luego, aplicando Ventajas y Desventajas Considera todos los valores de la distribución Es menos sensible que la media aritmética a los valores extremos Su calculo es muy engorroso Esta limitado para valores positivos para que pueda ser interpretado Si algún valor de la variable es cero, la media geométrica será cero Si aparece algún valor negativo, el estadígrafo toma un valor imaginario Media armónica La media armónica (designada usualmente mediante H, MH o H de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades. Ejemplo La media armónica de los números 3, 4, 6, y 8 es: Media armónica de datos agrupados La media armónica para datos tabulados (media armónica ponderada) se define por Dónde: m = número de clases, yi = marca de clase, ni frecuencia de clase con i=1, 2, ……, m Ejemplo Suponga que ha gastado usted, 1 bolivianos por 3 docenas de alfileres, comprados en una tienda, otro boliviano por 4 docenas de alfileres en una segunda tienda y otro boliviano más por 5 docenas en una tercera tienda. Cuál es el precio promedio por una docena de alfileres. Para dar solución al problema se inicia obteniendo el precio pagado por docena de alfileres. En la primera ha gastado 1 boliviano por 3 docenas de alfileres o sea 1/3 de bolivianos por docena, en la segunda gasto 1 boliviano po 4 docenas, es decir, ¼ de boliviano por docena, y en la tercera tienda gasto 1 boliviano por 5 docenas, o sea 1/5 por cada docena. Para calcular la media armónica tenemos que n =3 ; x1 = 1/3; x2 = 1/4 y X3 = 1/5 Aplicando la formula tenemos Por lo tanto el promedio el precio promedio por docena de alfileres es 0,25 bolivianos. 4. Media cuadrática Media cuadrática La media cuadrática denotada como Mc o de las observaciónes X1, X2, …….. Xn, es la raíz cuadrada de la media aritmética de los cuadrados de las observaciones. Es decir. Para Datos No tabulados Para Datos tabulados y Dónde: Mediana y Moda Mediana La mediana de un conjunto de datos, es el valor que cumple que la mitad de valores están por encima y la otra mitad por debajo. Así pues, para encontrarla basta con ordenar los elementos de menor a mayor y escoger el valor central. Definido de otra forma tenemos: Dado el conjunto de n observación x1, x2, ……, xn; de la variable o característica x, se define la mediana de este conjunto de valores como aquel valor que no es superado ni supera a ms de la mitad de las n observaciones, arregladas en orden de magnitud creciente o decreciente. En el cálculo de la mediana hay que distinguir dos casos: datos no tabulados y datos tabulados. Para datos no tabulados, en el cálculo de la mediana hay que distinguir dos situaciones: número de observaciones impar y numero de observaciones par Caso 1: El número de valores es impar. Esto es válido tanto para variables continuas como para variables discretas Ejemplo. Se tienen los siguientes 5 valores: x1=19, x2=5, x3=12, x4=3, x5=14 Se ordenan de menor a mayor quedando 3, 5, 12, 14, 19 y se toma el valor central que es el 12 y cumple que hay dos valores por encima y dos por debajo. Caso 2: El número de valores es par Ejemplo. Los 6 valores son: 4, 6, 5, 7, 3, 9, Se ordenan de menor a mayor quedando 3, 4, 5, 6, 7, 9 y se toman los dos valores centrales, 5 y 6 . La mediana será el promedio de ambos: (5+6)/2 = 5,5 Mediana para datos tabulados Cuando se dispone de muchos datos es mucho más cómodo utilizar tablas para el cálculo de la mediana, estos datos deben estar agrupados en clases, es decir, cuando existe una tabla de frecuencias, para determinar la mediana se sigue otro procedimiento, distinguiendo si la variable es discreta o continua. Variable discreta: El procedimiento para el cálculo es el siguiente a) S construye la tabla de distribución de frecuencias absolutas acumuladas menor que b) Se determina la menor frecuencia absoluta acumulada Ni que supera a n/2, es decir . En esta situación puede ocurrir que: O sea que se puede tener: Cuando n/2>Nj-1•, entonces la mediana es En efecto: Nj es el número de observaciones menores o iguales a yj, de donde yj solo supera a Nj-1 observaciones. Pero comoNj-1<n/2, entonces yj no supera a más de la mitad de las observaciones. Por otro lado si yj es superado por n-Nj observaciones y n-N<n-n/2=n/2, luego yj es superado por no más de la mitad de las observaciones. Cuando n/2 = Nj-1, entonces yj-1, yj y cualquier valor entre estos dos se puede considerar como mediana Eb efecto si yj supera a Nj-1 = n/2 observaciones, luego no supera a más de la mitad de las observaciones, y es superado por n-Nj<n-n/2 = n/2 observaciones que no son más de la mitad de los datos. Similarmente, y-1 supera a Nj-2 observaciones, y como Nj-2≤Nj-1=n/2, entonces supera a no más la mitad de las observaciones, y además, y-1 es superado por n-Nj-1 = n-n/2=n/2, que tampoco es más de la mitad de los datos, en esta situación se acostumbra a tomar como valor de la mediana. Ejemplo Dada la tabla de frecuencia de datos discretos, hallar la mediana Construimos la tabla de distribución de frecuencias absolutas acumuladas menor que. Entonces la frecuencia absoluta que supera a 46 es N4 = 60 >46 Luego m j=4 y j-1 = 3. Entonces, de acuerdo con (j) la mediana es Ejemplo Las notas del examen de biología de los 30 alumnos de la clase de 2º de Bachillerato son las siguientes: 3,3,4,4,4,4,4,5,5,5,5,5,5,5,5,6,6,6,6,6,6,7,7,7,7,8,8,8,10,10 Al tener un número par de elementos, serán dos los valores centrales, el 15 y el 16. Así pues, hay que encontrar a que nota corresponden dichas posiciones. La posición 15 es la última nota con un 5 la 16 es la primera con un 6 . Entonces la mediana es: Mediana = (6+5)/2 = 5.5 Ejemplo Hallar la mediana de los datos agrupados que se encuentran en la siguiente tabla Construimos la tabla de distribución de frecuencias menor que Como n=30 entonces n/2 = 30/2 = 15, Luego, la menor frecuencia absoluta acumulada que supera a 15 es N8 =17>15 = N7, por tanto j=8 y j-1=7 Luego n/2 = 15 =Nj-1= N7, entonces de acuerdo con (ii) la mediana es 5. Variable continua Variable continua El procedimiento es el siguiente: a) Construir la distribución de frecuencias absolutas acumuladas menor que b) Determinar la menor de las frecuencias absolutas acumuladas Nj tal que Donde es el limite inferior de la clase mediana. En efecto Luego bastara determinar “d” para que quede determinada la mediana. El cálculo de “d” es posible mediante una regla de tres simple, suponiendo que las observaciones están uniformemente distribuidas en todo el intervalo de clase, de la siguiente manera. Si en una amplitud cj existe nj = Nj – Nj-1, observaciones, en que amplitud “d” existirá n/2 – Nj-1 observaciones. Donde d es igual a: Donde finalmente la media seria: Donde Cj= amplitud de la clase mediana Nj= Frecuencia absoluta acumulada de la clase mediana n= número de observaciones limite inferior de la clase mediana Ejemplo Las notas de 50 alumnos se clasificaron en una tabla de frecuencias con cuatro intervalos de clase de igual amplitud. Se pide calcular la mediana sabiendo además que y2=50; n1=4; N2=20; n3=25 y =62,4 Se construye la tabla de frecuencias Sea “c” la amplitud de cada clase, entonces escribimos las marcas de clase en función de “c”, luego efectuamos el producto de los ni por yi, y se suman obteniendo 2500+31c. Entonces De donde: 31c = 62,4 x 50 – 2500 = 620 Por tanto “c” = 20, con este valor se obtiene las marcas de clases Por otro lado A partir de este resultado se puede interpretar que de las 50 notas analizadas no más de 25 son menores de 64 puntos y que también no más de 25 son mayores de 64 puntos. 6. Ventajas de la mediana Ventajas de la mediana La mediana es fácil de entender y puede ser calculada a partir de cualquier clase de datos; aun para datos agrupados. En clases abiertas en los extremos, no será posible calcular la mediana en este tipo datos cuando la mediana corresponda a una clase abierta en los extremos. La mediana está calculada por el número de observaciones y no por la magnitud de cualquier valor extremo Se puede encontrar la mediana inclusive de datos cualitativos ordinal Desventajas de la mediana Se deben organizar los datos antes de realizar cualquier tipo de cálculo para determinar la mediana Ciertos procedimientos estadísticos que usan la mediana son mucho mas complejos que aquellos que usan la media La mediana no es adecuado a manipulaciones algebraicas posteriores Moda La moda de una muestra x1, x2, …….x3. es aquel valor de la variable que se presenta con mayor frecuencia, es decir, el valor que más se repite y se denomina por “Mo” o “X mo”. La moda puede no existir para un conjunto de datos, incluso si existe puede no ser única Si, el conjunto de datos tiene una sola moda se llama unimodal, si tiene dos se llama bimodal y si tiene más de dos modas se llama multimodal Ejemplo Determine y represente gráficamente de los datos de los siguientes conjuntos Moda en datos agrupados Variable discreta En este caso la moda se determina fijándose en el valor de la variable que mas se repite Ejemplo Determine la moda de la siguiente distribución La frecuencia absoluta máxima es n4 = 360 La moda es el valor de la variable que corresponde a la frecuencia n4 = 360 ; Mo =3 Variable continua Si las densidades de frecuencia de la clase inmediatamente antes de la clase modal (clase pre modal) e inmediatamente después de la clase modal (clase pos modal) son aproximadamente iguales, la moda se aproxima satisfactoriamente por el punto medio de la clase modal o sea la marca de la clase y. Moda de una distribución simétrica Es una distribución simétrica si cumple con: Hallar la moda de la distribución siguiente Se identifica el intervalo de la clase modal, observando, la tabla de frecuencia absolutas, vemos que el intervalo de clase de mayor frecuencia absoluta luego j=4; j-1=3 , tenemos entonces que Aplicando Ejemplo La siguiente información, se refiere a una muestra aleatoria de ventas de un fabricante d calzados, durante un periodo de tiempo, cuya distribución es como sigue; la suma de las cuatro frecuencias absolutas simples, que están en progresión aritmética (creciente) es 56, y el producto de n1 y n4 es igual al producto n2 y n3 como 5 es a 6. Además, n5 = 2 n2; 2n6 = n4; el límite inferior del primer intervalo de clase es 14 y la tercera marca de clase es 69. Si la amplitud de los intervalos es constante. Calcular: a) la moda; b) el valor de la serie que es superado por el 13% de la información. 1.- Primero haremos el cálculo de las frecuencias absolutas; las cuatro primeras frecuencias absolutas que están en progresión aritmética creciente serán: n1, n2 + k, n1 + 2k n1 + 3k, con k >0 la suma de estas cuatro primeras frecuencias es 56, entonces n1 + n1 + k + n1+ 2k + n1 + 3k = 4n1 +6k =56 de donde: 2n1 +k =28 ecuación (1) por otro lado, tenemos las relación de n1n3 y n2n3 Efectuando las operaciones se tiene 282 – 6 x 28 k + 9 k2 + 6 x 28 k – 18 k2 – 40 k2 = 0 282 – 49 k2 = 0 49 k2 = 282 7k = ± 28 K = ± 4 Como k > 0 Reemplazando este valor de k en (1) tenemos Con este valor se completa la tabla de frecuencias absolutas Calculo de la moda La clase de mayor frecuencia (24) es 102-124 = , la cual es la clase modal. Entonces j=5; j-1=4; nj=n5=24; n j-1 = n4 = 20; n j+1 = n6 =10 El valor de la serie que es superado por el 13% de la información, corresponde 87avo percentil, es decir P87. Entonces. La moda tiene una característica especial, pues es la única medida de posición que se puede utilizar sin restricciones a datos cualitativos. 7. Ventajas de la moda Ventajas de la moda La moda se puede usar como una localización tanto para datos cualitativos como cuantitativos La moda no está indebidamente afectada por valores extremos, aun si los valores altos son muy altos y los valores pequeños muy pequeños, se escoge el valor ms frecuente del conjunto de datos como el valor modal La moda puede calcular aun cuando una más de las clases sean abiertas en los extremosDesventajas de la moda Muy a menudo, no hay un valor modal, porque el conjunto de datos no contiene valores que se repitan más de una vez. Otras veces, cada valor es la moda, porque cada uno aparece el mismo número de veces. Claramente, la moda no es una medida útil en estos casos. Cuando el conjunto de observaciones contiene dos, tres o más modas, estas son difíciles de interpretar y comparar. 8. Relación entre moda, mediana y mediana Relación entre moda, media y mediana En una distribución de frecuencia simétrica cuya representación gráfica es acampanada y además unimodal, coinciden exactamente en el mismo valor la media, mediana y moda es decir. Si la distribución tiene la forma acampanada, es unimodal, pero no tiene simetría, las tres medidas toman valores diferentes y la mediana queda comprendida generalmente entre la moda y la media aritmética. Si la distribución es más alargada para valores grandes de la variable (asimetría a la derecha o positiva), entonces la situación general es. Si la distribución es más alargada para valores pequeños de la variable (asimetría a la izquierda o negativa), la situación general es. De las curvas asimétricas a la izquierda o a la derecha se puede concluir que cuando la población tiene un sesgo, la mediana es la mejor medida de la ubicación puesto que siempre se encuentra entra la moda y la media Si la distribución es moderadamente asimétrica y unimodal, se cumple aproximadamente la siguiente relación. Para otro tipo de distribuciones de formas más complicadas, no existen reglas fijas “a priori” sobre la distribución relativa de las tres medidas. Debiéndose estudiar aisladamente cada caso. 9. Cuantiles: cuartiles, deciles y percentiles Cuantiles: cuartiles, deciles y percentiles Las medidas de posición, también llamadas cuantiles, son aquellas que permiten calcular valores en la distribución de los datos y que la dividen en partes iguales, de tal forma que los intervalos generados por los cuantiles contienen el mismo número de datos. Los cuantiles más usados son los cuartiles, deciles y percentiles. Cuando se tienen datos agrupados en intervalos, estas medidas se consideran en cierta forma como una extensión de la mediana. Cuartiles Los cuartiles ( ) son valores que fraccionan la distribución de los datos en cuatro partes iguales (Ruíz Muñoz, 2005). Existen tres cuartiles y cada una de las partes representa un 25% de los datos. El primer cuartil Q1 deja por debajo el 25% de la distribución de los datos o el 75% por encima de él. El segundo cuartil (Q2) acumula el 50% de los datos por debajo y el otro 50% por encima de él (por tal razón es igual a la mediana); y el tercer cuartil (Q3) deja por debajo el 75% de los datos y por encima el 25% (Ruíz Muñoz, 2005). El cálculo de los cuartiles se realiza mediante el siguiente procedimiento: Ejemplo Se le consultó a un grupo de siete estudiantes el número de horas semanal que dedican para el repaso de los temas vistos en clase, obteniendo los siguientes resultados: 3, 5, 2, 7, 6, 4, 9 horas. Para el cálculo de los cuartiles, se empleará el procedimiento descrito anteriormente. 1. Ordenar los datos en forma ascendente: 2, 3, 4, 5, 6, 7, 9. 2. Para el cuartil Q1 la posición sería: 1. Dado que “i” no es un entero, se redondea al entero siguiente, es decir a 2. En Este caso, el cuartil Q1 corresponde al valor ubicado en la posición 2, el cual es 3 horas. Su interpretación significa que el 25% de los estudiantes dedican máximo 3 horas semanales para el repaso a los temas vistos en clase. De forma similar, para el cuartil Q2 la posición i sería: i Como i no es un entero, se redondea al entero siguiente, es decir a 4. Por tanto, el cuartil Q2 será el valor correspondiente a la posición 4, el cual es 5 horas. Esto es, el 50% de los estudiantes dedican máximo 5 horas semanales para el repaso a los temas vistos en clase. Nótese que este valor corresponde a la mediana. En este caso, para el cuartil Q3 la posición sería: i Al redondearla quedaría en 6, y el valor del cuartil Q3 es 7 horas Indica que el 75% de los estudiantes dedican máximo 7 horas semanales para el repaso a los temas vistos en clase. Ejemplo Las tallas de los neonatos prematuros nacidos en los partos durante una noche en un hospital fueron: 40, 37, 29, 31, 32, 38, 38, 38 cm.; para el cálculo de los cuartiles se empleará el procedimiento del ejemplo anterior, teniendo en cuenta el resultado obtenido al calcular la posición i. Ordenar los datos en forma ascendente: 29, 31, 32, 37, 38, 38, 38, 40. Para el cuartil Q1 la posición sería: Donde: k : número del cuartil, k= 1, 2, 3. n : número total de datos. li: límite inferior del intervalo que contiene a k(n/4). Ni-1: frecuencia absoluta acumulada anterior al intervalo que contiene a k(n /4). ni : frecuencia absoluta del intervalo que contiene a k(n /4). C: amplitud del intervalo. Ejemplo: En la siguiente tabla se presentan los datos ordenados de la estatura, en centímetros, de un grupo de mujeres que asisten al gimnasio. El cuartil uno se calcula mediante el siguiente procedimiento: Se halla k(n/4) = 1(35/4) = 87,5 Se ubica el intervalo que contiene a k(n /4) en la frecuencia absoluta acumulada Ni. (El segundo intervalo contiene a 8,75 en la frecuencia absoluta acumulada). Sea aplica la formula Se estima que el 25% de las mujeres que asisten al gimnasio presentan una estatura máxima de 159,4 cm. De forma similar se obtienen los cuartiles dos y tres. El 50% de las mujeres presentan una estatura máxima de 162,1 cm (cuartil dos) y el 75% tienen una estatura máxima de 166 cm (cuartil tres). Deciles Los deciles (Dk) son valores que fraccionan la distribución de los datos en diez partes iguales (Ruíz Muñoz, 2005). En la distribución se presentan nueve deciles: el D1 acumula el 10% del conjunto de datos, el D2 deja el 20%, y así sucesivamente hasta el D9, que acumula el 90% de los datos. Para el cálculo de los deciles se usa un procedimiento similar al de los cuartiles: 1. Ordenar los datos de forma ascendente. Calcular la posición i con la ecuación: 2. Donde K es el número del decil (k = 1, 2, 3, 4, 5, 6, 7, 8, 9) y n el número total de datos. 3. Si la posición no es un número entero, se debe redondear al entero siguiente y el valor que ocupa esta posición será el cuartil requerido. Si la posición es un número entero, el decil es el promedio de los valores i e i +1 4. Para datos agrupados en intervalos: Percentiles Los percentiles (Pk) son valores que fraccionan la distribución de los datos en cien partes iguales (Ruíz Muñoz, 2005). En la distribución se presentan 99 percentiles: el primer percentil P1 acumula el 1% del conjunto de datos, el percentil P2 deja el 2%, y de forma similar los demás percentiles hasta llegar al percentil P99 que acumula el 99% de los datos. Para el cálculo de los percentiles se usa un procedimiento similar al empleado para los cuartiles y deciles: 1. Ordenar los datos de forma ascendente. 2. Calcular la posición i con la ecuación: . Donde K es el número del percentil (k = 1, 2, 3, 4, 5, ………..34, 35, 36, …….98, 99) y n el número total de datos. 3. Si no es un número entero, se debe redondear al entero siguiente el valor que ocupa esta posición será el cuartil requerido. Si i es un número entero, el percentil es el promedio de los valores i e i +1. 4. Para datos agrupados en intervalos se utiliza la siguiente formula Al analizar los cuartiles, deciles y percentiles se pueden deducir las siguientes relaciones: Q2 = D5 = P50 = Me Q1 = P25 ; Q3 = P75 ; D1 = P10 ; D2 = P20 ; D3 = P30 ; D4 = P40 ; D6 = P60 ; D7 = P70 ; D8 = P80 ; D9 = P90
Compartir