Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Trabajamos con Datos Agrupados por Intervalos En esta oportunidad vamos a desarrollar el análisis estadístico descriptivo de los datos que están agrupados por intervalos. Empezando por las medidas de Tendencia Central, de posición y terminando con las medidas de dispersión o variabilidad. Datos agrupados en intervalos: Se utiliza por lo general para variables cuantitativas continuas donde existen muchos valores observados y, en función al tamaño de la muestra, puede ser único o poseer muy pocas repeticiones. Para esto se determina un límite inferior y uno superior para cada intervalo, rango en el cual se cuentan las observaciones que pertenecen al mismo. La característica fundamental de este tipo de agrupación es que permite una mayor claridad de la observación analizada, pero todas las medidas calculadas pierden exactitud. Esto sucede ya que conocemos cuantas observaciones pertenecen al rango, pero no sabemos exactamente qué valor tiene cada observación individual, por esto, es necesario la creación de una medida auxiliar para cada intervalo llamado “Punto Medio” o “Marca de Clase”, que es el valor promedio de intervalo. Entonces, podemos utilizar los datos no agrupados y ordenarlos tanto en frecuencias o por intervalos. A fin de trabajar con las medidas estadísticas, con más facilidad. Por ejemplo, Se consultó a 50 personas sobre su edad y estos fueron los resultados que representamos en una tabla de frecuencias para datos agrupados. El análisis si quisiéramos agrupar los datos, consta de 3 pasos: 1. Comenzamos definiendo la cantidad de intervalos: 𝑄 = √𝑛 ⟹ 𝑄 = √50 ⟹ 𝑄 = 7,07 ≅ 7 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 Tratándose de la cantidad de intervalos el redondeo puede ser hacia abajo o hacia arriba. Recordá que la amplitud, en cambio, siempre se redondea hacia arriba. 2. Calculamos la amplitud de los intervalos: 𝑥𝑚𝑎𝑥𝑖𝑚𝑜 = 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑠 𝑔𝑟𝑎𝑛𝑑𝑒 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑥𝑚𝑖𝑛𝑖𝑚𝑜 = 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑠 𝑝𝑒𝑞𝑢𝑒ñ𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑎 = 𝑥𝑚𝑎𝑥𝑖𝑚𝑜 − 𝑥𝑚𝑖𝑛𝑖𝑚𝑜 𝑄 ⟹ 𝑎 = 𝟕𝟑 − 𝟏𝟎 7 = 9 Redondeando la amplitud hacia arriba, en este caso no es necesario dado que el resultado es un número entero sin decimales. Cuidado con el redondeo. Tratar de que sea mínimo para minimizar el error por agrupar los datos. 3. Por ultimo con estos datos podemos armar la tabla de frecuencias. Donde partiendo del valor mínimo, sumando la amplitud hasta llegar a completar los 7 intervalos, podemos representar de esta manera los datos en forma agrupada por intervalos: El cálculo del Punto Medio o también denominado Marca de Clase se obtiene de: Intervalos Marca de Clase 10 ≤ 𝑥 ≤ 19 (10 + 19)/2 = 14,5 19 ≤ 𝑥 ≤ 28 (19 + 28)/2 = 23,5 28 ≤ 𝑥 ≤ 37 (28 + 37)/2 = 32,5 37 ≤ 𝑥 ≤ 46 (37 + 46)/2 = 41,5 46 ≤ 𝑥 ≤ 55 (46 + 55)/2 = 50,5 55 ≤ 𝑥 ≤ 64 (55 + 64)/2 = 59,5 64 ≤ 𝑥 ≤ 73 (64 + 73)/2 = 68,5 Con respecto a la tabla de frecuencias, podemos por ejemplo analizar dos intervalos. Analicemos el primer intervalo de nuestro ejemplo: Debemos asumir que esas 5 personas tienen 14.5 años Analicemos el segundo intervalo de nuestro ejemplo: Debemos asumir que esas 11 personas tienen 23.5 años PROMEDIO PARA DATOS AGRUPADOS La media aritmética también se conoce como PROMEDIO, y básicamente se calcula como la suma de todos los datos dividida entre el número total de datos. Pero esto aplica para datos sueltos… es decir… NO AGRUPADOS… Para los datos agrupados debemos considerar con un valor REPRESENTATIVO de cada intervalo que se denomina MARCA DE CLASE y asumir que TODAS las cantidades de la frecuencia absoluta se ven representadas por ese valor. Para calcular el promedio, ya sea de una población o muestra, vamos a emplear: Si a la tabla de frecuencias le añadimos una columna donde se pueda obtener el valor total de la suma de la cada marca de clase multiplicado por su correspondiente frecuencia simple, se facilita el cálculo del valor promedio: �̅� = ∑ 𝑃𝑚𝑒 ∗ 𝑓𝑖 𝑛 = 2039 50 = 40,78 𝑎ñ𝑜𝑠 En este caso ya podemos afirmar que, de las 50 personas encuestadas, el promedio de edad es de 40,78 años. MODA PARA DATOS AGRUPADOS La moda es una medida de tendencia central diferente de la media, pero un tanto parecida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético ordinario. La moda es el valor que más se repite en el conjunto de datos (o el valor con mayor frecuencia). Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no resulta de mucha ayuda para describir la localización de los datos. Al igual que en la mediana y a diferencia de la media, los valores extremos no afectan a la moda. Si fuesen datos NO AGRUPADOS, fácilmente diríamos que la moda es el dato que más se repite sin realizar ningún cálculo ni operación matemática. Pero como nuestro interés es calcular la moda para datos agrupados, debemos utilizar la siguiente fórmula: 𝑀𝑜 = 𝐿𝑖 + 𝑑1 𝑑1 + 𝑑2 ∗ 𝑎 Pero para poder aplicar dicha fórmula, primero debemos determinar la clase de la moda (o también denominado intervalo modal). La cual se localiza en aquella frecuencia simple de mayor valor: Para nuestro ejemplo la clase de la moda sería el segundo intervalo ya que tiene frecuencia absoluta de 11. 𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝑑1 = 𝑓𝑎𝑖 − 𝑓𝑎𝑖−1 𝑓𝑎𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝑓𝑎𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝑓𝑎𝑖+1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒 𝑎 𝑙𝑎 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝑑2 = 𝑓𝑎𝑖 − 𝑓𝑎𝑖+1 𝑎 = 𝐿𝑠 − 𝐿𝑖 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝐿𝑖 = 19 𝑑1 = 11 − 5 = 6 𝑑2 = 11 − 8 = 3 𝑎 = 28 − 19 = 9 𝑀𝑜 = 19 + 6 6 + 3 ∗ 9 = 25 𝑎ñ𝑜𝑠 Es más frecuente que los encuestados posean una edad de 25 años. MEDIANA PARA DATOS AGRUPADOS Valor de la variable que está en el centro exacto de la distribución. La mediana es un solo valor del conjunto de datos que mide la observación central del conjunto. Esta sola observación es el elemento que está más al centro del conjunto de números. La mitad de los elementos están por arriba de este punto y la otra mitad está por debajo. El 50% de los valores son menores que la mediana y el otro 50% son mayores. De nuestro ejemplo sabemos que las 50 personas se mueven en un rango de edad que va desde 10 años el más joven y hasta 73 años el más adulto. La mediana sería esa edad hasta la cual acumulo el 50% de las personas y después de la cuál tengo el otro 50% Para determinar la mediana, aplicamos la siguiente formula: 𝑀𝑎 = 𝐿𝑖 + 𝑛 2 − 𝐹𝑎𝑖−1 𝑓𝑖 ∗ 𝑎 Pero para poder aplicar dicha fórmula, primero debemos determinar la clase de la mediana (o también denominado intervalo de la mediana). La cual se localiza primero al determinar la posición de la mediana, a través de: 𝑁 2 = 50 2 = 25 (𝐹𝑖) Vamos a apoyarnos en la columna de frecuencias absolutas acumuladas para descubrir en cuál intervalo tenemos metida a la persona número 25 Entonces, desde los 10 años hasta la Mediana hay 25 personas y desde la Mediana hasta los 73 años están las otras 25 personas… En el tercer intervalo teníamos hasta la persona número 24, en cambio en el cuarto intervalo tenemos a las personas 25, 26, 27, 28 y 29, por lo tanto, ese es el que nos sirve. 𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑛 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑓𝑎𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝐹𝑎𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑛𝑎 𝑎 = 𝐿𝑠 − 𝐿𝑖 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 𝐿𝑖 = 37 𝐿𝑠 = 46 𝑛 = 50 𝑓𝑎𝑖 = 5 𝐹𝑎𝑖−1 = 24 𝑎 = 46 − 37 = 9 𝑀𝑎 = 37 + 25 − 24 5 ∗ 9 = 38,8 𝑎ñ𝑜𝑠 Esto significa que desde los 10 años hasta los 38.8 años hay 25 personas y desde los 38.8 años hasta los 73 años están las otras 25 personas Medidas de Posición Las medidas de posición son valores que permiten dividir el conjunto de datos en partes porcentuales iguales y se usan para clasificar una observación dentro de una población o muestra. Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles. A continuación, haremos una pequeña descripción de cada uno de ellos. CUARTILES PARA DATOS AGRUPADOS Los cuartiles básicamente son aquellos datos que permiten dividir o separar la muestra en cuatro partes iguales. Entre cuartil y cuartil se delimita un 25%. 𝑄1 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 25% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑄2 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 50% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑦 𝑎𝑑𝑒𝑚𝑎𝑠 𝑐𝑜𝑖𝑛𝑐𝑖𝑑𝑒 𝑐𝑜𝑛 𝑙𝑎 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 𝑄3 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 75% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 Para calcular cualquier cuartil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión: N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del cuartil. Si vamos a calcular el cuartil tres (Q3) entonces K vale 3; si vamos a calcular el cuartil dos (Q2) entonces K vale 2, y si vamos a calcular el cuartil uno (Q1) entonces K vale 1. En algunas cátedras la posición del intervalo de trabajo se determina sumándole siempre al valor de N el uno (1): 𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄1 = (𝑛 + 1)/4 𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄2 = 2 ∗ (𝑛 + 1)/4 𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄3 = 3 ∗ (𝑛 + 1)/4 Por el momento nos limitaremos a obtener la posición del intervalo de trabajo según la primera expresión. De los datos del ejemplo práctico se desprende, Se consultó a 50 personas sobre su edad y estos fueron los resultados que representamos en una tabla de frecuencias para datos agrupados. Vamos a calcular el cuartil 3 (𝑄3) El cuartil debe estar ubicado en el dato número 37.5, vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 37.5 datos. Revisemos la tabla de frecuencias: No sirve el intervalo [46 – 55) porque el acumulado es 37 y necesitamos que quepan hasta 37.5 por eso el intervalo que nos SIRVE es el de [55 – 64) donde caben hasta 43 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de trabajo Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los cuartiles: 𝑄𝑘 = 𝐿𝑖 + ( 𝑘 ∗ 𝑁 4 − 𝐹𝑖−1 𝑓𝑖 ) ∗ 𝑎 𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 3 𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 37 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 6 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 𝑄𝑘 = 55 + ( 3 ∗ 50 4 − 37 6 ) ∗ 9 = 55,75 𝑎ñ𝑜𝑠 DECILES PARA DATOS AGRUPADOS Los deciles básicamente son aquellos datos que permiten dividir o separar la muestra en diez partes iguales. Entre decil y decil se delimita un 10%. El quinto decil corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y lado. Para calcular cualquier decil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión: N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del decil. Si vamos a calcular el decil uno (D1) entonces K vale 1; si vamos a calcular el decil dos (D2) entonces K vale 2, y si vamos a calcular el decil tres (D3) entonces K vale 3 y así sucesivamente con cualquier decil que desees calcular. Recuerda que son NUEVE deciles. Vamos a calcular el Decil 4 (𝐷4) El decil debe estar ubicado en el dato número 20 vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 20 datos: No sirve el intervalo [19 – 28) porque el acumulado es 16 y necesitamos que quepan hasta 20 por eso el intervalo que nos SIRVE es el de [28 – 37) donde caben hasta 24 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de trabajo. Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los deciles: 𝐷𝑘 = 𝐿𝑖 + ( 𝑘 ∗ 𝑁 10 − 𝐹𝑖−1 𝑓𝑖 ) ∗ 𝑎 𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙 𝑑𝑒𝑐𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 4 𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 16 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 8 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 𝐷𝑘 = 28 + ( 4 ∗ 50 10 − 16 8 ) ∗ 9 = 32,5 𝑎ñ𝑜𝑠 PERCENTILES PARA DATOS AGRUPADOS Los percentiles básicamente son aquellos datos que permiten dividir o separar la muestra en cien partes iguales. Entre percentil y percentil se delimita un 1% de la muestra. El percentil cincuenta (P50) corresponde al mismo valor de la mediana ya que divide los datos en un 50% a lado y lado. Para calcular cualquier percentil debemos identificar el intervalo de trabajo. Para ello utilizamos la siguiente expresión: N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos analizando las edades de 50 personas. K corresponde al número del percentil. Si vamos a calcular el percentil uno (P1) entonces K vale 1; si vamos a calcular el percentil dos (P2) entonces K vale 2, y si vamos a calcular el percentil tres (P3) entonces K vale 3 y así sucesivamente con cualquier percentil que desees calcular. Recuerda que son NOVENTA Y NUEVE percentiles. Vamos a calcular el percentil 70 (𝑃70) El percentil debe estar ubicado en el dato número 35 vamos a UBICAR en cuál intervalo tendríamos un acumulado en el cuál cabrían 35 datos. No sirve el intervalo [37 – 46) porque el acumulado es 29… y necesitamos que quepan hasta 35 por eso el intervalo que nos SIRVE es el de [46 – 55) donde caben hasta 37 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de trabajo. Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula de los percentiles: 𝑃𝑘 = 𝐿𝑖 + ( 𝑘 ∗ 𝑁 100 − 𝐹𝑖−1 𝑓𝑖 ) ∗ 𝑎 𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 70 𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 29 𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 8 𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 𝑃𝑘 = 46 + ( 70 ∗ 50 100 − 29 8 ) ∗ 9 = 52,75 𝑎ñ𝑜𝑠
Compartir