Datos Agrupados por Intervalos 2022 - Daiana Aylén Ramirez

•
Outros

0
Desafío COL y ARG Veintitrés
9/5/2023
¡Este material tiene más páginas!
Entonces, ¿te gustó este material?
Ayude a animar a otros estudiantes a mejorar el contenido
¿Te gustó este material? ¡Compartir! 🧡
Otros

101.691 Materiales compartidos
Descarga la aplicación para disfrutar aún más
Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!
Vista previa del material en texto
Trabajamos con Datos Agrupados por Intervalos 
En esta oportunidad vamos a desarrollar el análisis estadístico descriptivo de los datos 
que están agrupados por intervalos. Empezando por las medidas de Tendencia Central, 
de posición y terminando con las medidas de dispersión o variabilidad. 
Datos agrupados en intervalos: 
Se utiliza por lo general para variables cuantitativas continuas donde existen muchos 
valores observados y, en función al tamaño de la muestra, puede ser único o poseer 
muy pocas repeticiones. Para esto se determina un límite inferior y uno superior para 
cada intervalo, rango en el cual se cuentan las observaciones que pertenecen al mismo. 
La característica fundamental de este tipo de agrupación es que permite una mayor 
claridad de la observación analizada, pero todas las medidas calculadas pierden 
exactitud. Esto sucede ya que conocemos cuantas observaciones pertenecen al 
rango, pero no sabemos exactamente qué valor tiene cada observación individual, 
por esto, es necesario la creación de una medida auxiliar para cada intervalo llamado 
“Punto Medio” o “Marca de Clase”, que es el valor promedio de intervalo. 
Entonces, podemos utilizar los datos no agrupados y ordenarlos tanto en frecuencias o 
por intervalos. A fin de trabajar con las medidas estadísticas, con más facilidad. Por 
ejemplo, Se consultó a 50 personas sobre su edad y estos fueron los resultados que 
representamos en una tabla de frecuencias para datos agrupados. 
 
El análisis si quisiéramos agrupar los datos, consta de 3 pasos: 
1. Comenzamos definiendo la cantidad de intervalos: 
𝑄 = √𝑛 ⟹ 𝑄 = √50 ⟹ 𝑄 = 7,07 ≅ 7 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑠 
Tratándose de la cantidad de intervalos el redondeo puede ser hacia abajo o hacia 
arriba. Recordá que la amplitud, en cambio, siempre se redondea hacia arriba. 
2. Calculamos la amplitud de los intervalos: 
𝑥𝑚𝑎𝑥𝑖𝑚𝑜 = 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑠 𝑔𝑟𝑎𝑛𝑑𝑒 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 
𝑥𝑚𝑖𝑛𝑖𝑚𝑜 = 𝑒𝑠 𝑒𝑙 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑠 𝑝𝑒𝑞𝑢𝑒ñ𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 
𝑎 =
𝑥𝑚𝑎𝑥𝑖𝑚𝑜 − 𝑥𝑚𝑖𝑛𝑖𝑚𝑜
𝑄
⟹ 𝑎 =
𝟕𝟑 − 𝟏𝟎
7
= 9 
Redondeando la amplitud hacia arriba, en este caso no es necesario dado que el 
resultado es un número entero sin decimales. 
Cuidado con el redondeo. Tratar de que sea mínimo para minimizar el error por agrupar 
los datos. 
3. Por ultimo con estos datos podemos armar la tabla de frecuencias. 
Donde partiendo del valor mínimo, sumando la amplitud hasta llegar a completar los 7 
intervalos, podemos representar de esta manera los datos en forma agrupada por 
intervalos: 
 
El cálculo del Punto Medio o también denominado Marca de Clase se obtiene de: 
Intervalos Marca de Clase 
10 ≤ 𝑥 ≤ 19 (10 + 19)/2 = 14,5 
19 ≤ 𝑥 ≤ 28 (19 + 28)/2 = 23,5 
28 ≤ 𝑥 ≤ 37 (28 + 37)/2 = 32,5 
37 ≤ 𝑥 ≤ 46 (37 + 46)/2 = 41,5 
46 ≤ 𝑥 ≤ 55 (46 + 55)/2 = 50,5 
55 ≤ 𝑥 ≤ 64 (55 + 64)/2 = 59,5 
64 ≤ 𝑥 ≤ 73 (64 + 73)/2 = 68,5 
 
 
Con respecto a la tabla de frecuencias, 
podemos por ejemplo analizar dos intervalos. 
 
Analicemos el primer intervalo de nuestro 
ejemplo: Debemos asumir que esas 5 
personas tienen 14.5 años 
Analicemos el segundo intervalo de 
nuestro ejemplo: Debemos asumir que esas 
11 personas tienen 23.5 años 
 
PROMEDIO PARA DATOS AGRUPADOS 
La media aritmética también se conoce como PROMEDIO, y básicamente se calcula 
como la suma de todos los datos dividida entre el número total de datos. Pero esto 
aplica para datos sueltos… es decir… NO AGRUPADOS… 
Para los datos agrupados debemos considerar con un valor REPRESENTATIVO de 
cada intervalo que se denomina MARCA DE CLASE y asumir que TODAS las 
cantidades de la frecuencia absoluta se ven representadas por ese valor. 
Para calcular el promedio, ya sea de una población o muestra, vamos a emplear: 
 
Si a la tabla de frecuencias le añadimos una columna donde se pueda obtener el valor 
total de la suma de la cada marca de clase multiplicado por su correspondiente 
frecuencia simple, se facilita el cálculo del valor promedio: 
 
�̅� =
∑ 𝑃𝑚𝑒 ∗ 𝑓𝑖
𝑛
=
2039
50
= 40,78 𝑎ñ𝑜𝑠 
En este caso ya podemos afirmar que, de las 50 personas encuestadas, el promedio 
de edad es de 40,78 años. 
 
MODA PARA DATOS AGRUPADOS 
La moda es una medida de tendencia central diferente de la media, pero un tanto 
parecida a la mediana, pues en realidad no se calcula mediante algún proceso aritmético 
ordinario. La moda es el valor que más se repite en el conjunto de datos (o el valor 
con mayor frecuencia). 
Hay situaciones en que la frecuencia mayor se presenta con dos o más valores distintos. 
Cuando esto ocurre hay más de una moda. Si los datos contienen más de una moda se 
dice que los datos son bimodales. Si contienen más de dos modas, son multimodales. 
En los casos multimodales casi nunca se da la moda, porque dar tres o más modas no 
resulta de mucha ayuda para describir la localización de los datos. 
Al igual que en la mediana y a diferencia de la media, los valores extremos no afectan 
a la moda. 
Si fuesen datos NO AGRUPADOS, fácilmente diríamos que la moda es el dato que 
más se repite sin realizar ningún cálculo ni operación matemática. Pero como nuestro 
interés es calcular la moda para datos agrupados, debemos utilizar la siguiente 
fórmula: 
𝑀𝑜 = 𝐿𝑖 +
𝑑1
𝑑1 + 𝑑2
∗ 𝑎 
Pero para poder aplicar dicha fórmula, primero debemos determinar la clase de la moda 
(o también denominado intervalo modal). La cual se localiza en aquella frecuencia 
simple de mayor valor: Para nuestro ejemplo la clase de la moda sería el segundo 
intervalo ya que tiene frecuencia absoluta de 11. 
 
𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝑑1 = 𝑓𝑎𝑖 − 𝑓𝑎𝑖−1 
𝑓𝑎𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝑓𝑎𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝑓𝑎𝑖+1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑠𝑖𝑔𝑢𝑖𝑒𝑛𝑡𝑒 𝑎 𝑙𝑎 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝑑2 = 𝑓𝑎𝑖 − 𝑓𝑎𝑖+1 
𝑎 = 𝐿𝑠 − 𝐿𝑖 
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝐿𝑖 = 19 
𝑑1 = 11 − 5 = 6 
𝑑2 = 11 − 8 = 3 
𝑎 = 28 − 19 = 9 
𝑀𝑜 = 19 +
6
6 + 3
∗ 9 = 25 𝑎ñ𝑜𝑠 
Es más frecuente que los encuestados posean una edad de 25 años. 
 
MEDIANA PARA DATOS AGRUPADOS 
Valor de la variable que está en el centro exacto de la distribución. 
La mediana es un solo valor del conjunto de datos que mide la observación central del 
conjunto. Esta sola observación es el elemento que está más al centro del conjunto de 
números. La mitad de los elementos están por arriba de este punto y la otra mitad está 
por debajo. 
El 50% de los valores son menores que la mediana y el otro 50% son mayores. 
De nuestro ejemplo sabemos que las 50 personas se mueven en un rango de edad que 
va desde 10 años el más joven y hasta 73 años el más adulto. La mediana sería esa 
edad hasta la cual acumulo el 50% de las personas y después de la cuál tengo el 
otro 50% 
 
Para determinar la mediana, aplicamos la siguiente formula: 
𝑀𝑎 = 𝐿𝑖 +
𝑛
2 − 𝐹𝑎𝑖−1
𝑓𝑖
∗ 𝑎 
Pero para poder aplicar dicha fórmula, primero debemos determinar la clase de la 
mediana (o también denominado intervalo de la mediana). La cual se localiza 
primero al determinar la posición de la mediana, a través de: 
 
𝑁
2
=
50
2
= 25 (𝐹𝑖) 
 
Vamos a apoyarnos en la columna de frecuencias absolutas acumuladas para 
descubrir en cuál intervalo tenemos metida a la persona número 25 
Entonces, desde los 10 años 
hasta la Mediana hay 25 
personas y desde 
la Mediana hasta los 73 años 
están las otras 25 personas… 
 
En el tercer intervalo teníamos hasta la persona número 24, en cambio en el cuarto 
intervalo tenemos a las personas 25, 26, 27, 28 y 29, por lo tanto, ese es el que nos 
sirve. 
𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 
𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 
𝑛 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 
𝑓𝑎𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 
𝐹𝑎𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑛𝑎 
𝑎 = 𝐿𝑠 − 𝐿𝑖 
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑚𝑜𝑑𝑎𝑙 
𝐿𝑖 = 37 
𝐿𝑠 = 46 
𝑛 = 50 
𝑓𝑎𝑖 = 5 
𝐹𝑎𝑖−1 = 24 
𝑎 = 46 − 37 = 9 
𝑀𝑎 = 37 +
25 − 24
5
∗ 9 = 38,8 𝑎ñ𝑜𝑠 
 
Esto significa que desde 
los 10 años hasta 
los 38.8 años hay 25 
personas y desde 
los 38.8 años hasta 
los 73 años están las otras 
25 personas 
 
Medidas de Posición 
Las medidas de posición son valores que permiten dividir el conjunto de datos en partes 
porcentuales iguales y se usan para clasificar una observación dentro de una población 
o muestra. 
Las medidas de posición más usuales son los cuartiles, los deciles y los percentiles. 
A continuación, haremos una pequeña descripción de cada uno de ellos. 
 
CUARTILES PARA DATOS AGRUPADOS 
Los cuartiles básicamente son aquellos datos que permiten dividir o separar la 
muestra en cuatro partes iguales. Entre cuartil y cuartil se delimita un 25%. 
 𝑄1 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 25% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 
 𝑄2 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 50% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑦 𝑎𝑑𝑒𝑚𝑎𝑠 𝑐𝑜𝑖𝑛𝑐𝑖𝑑𝑒 𝑐𝑜𝑛 𝑙𝑎 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 
 𝑄3 = 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑒𝑙 75% 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 
 
 
Para calcular cualquier cuartil debemos identificar el intervalo de trabajo. Para ello 
utilizamos la siguiente expresión: 
 
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos 
analizando las edades de 50 personas. 
K corresponde al número del cuartil. Si vamos a calcular el cuartil tres (Q3) entonces K 
vale 3; si vamos a calcular el cuartil dos (Q2) entonces K vale 2, y si vamos a calcular 
el cuartil uno (Q1) entonces K vale 1. 
 
 
 
En algunas cátedras la posición del intervalo de trabajo se determina 
sumándole siempre al valor de N el uno (1): 
𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄1 = (𝑛 + 1)/4 
𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄2 = 2 ∗ (𝑛 + 1)/4 
𝐿𝑎 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛 𝑑𝑒𝑙 𝑄3 = 3 ∗ (𝑛 + 1)/4 
 
Por el momento nos limitaremos a obtener la posición del intervalo de trabajo según la 
primera expresión. De los datos del ejemplo práctico se desprende, Se consultó a 50 
personas sobre su edad y estos fueron los resultados que representamos en una tabla 
de frecuencias para datos agrupados. 
 
Vamos a calcular el cuartil 3 (𝑄3) 
 
El cuartil debe estar ubicado en el dato número 37.5, vamos a UBICAR en cuál intervalo 
tendríamos un acumulado en el cuál cabrían 37.5 datos. Revisemos la tabla de 
frecuencias: 
 
No sirve el intervalo [46 – 55) porque el acumulado es 37 y necesitamos que quepan 
hasta 37.5 por eso el intervalo que nos SIRVE es el de [55 – 64) donde caben 
hasta 43 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de 
trabajo 
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula 
de los cuartiles: 
𝑄𝑘 = 𝐿𝑖 + (
𝑘 ∗ 𝑁
4
− 𝐹𝑖−1
𝑓𝑖
) ∗ 𝑎 
𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 
𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙 𝑐𝑢𝑎𝑟𝑡𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 3 
𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 37 
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 6 
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 
 
𝑄𝑘 = 55 + (
3 ∗ 50
4 − 37
6
) ∗ 9 = 55,75 𝑎ñ𝑜𝑠 
 
 
 
 
DECILES PARA DATOS AGRUPADOS 
Los deciles básicamente son aquellos datos que permiten dividir o separar la 
muestra en diez partes iguales. Entre decil y decil se delimita un 10%. 
 
 
El quinto decil corresponde al mismo valor de la mediana ya que divide los datos en 
un 50% a lado y lado. 
Para calcular cualquier decil debemos identificar el intervalo de trabajo. Para ello 
utilizamos la siguiente expresión: 
 
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos 
analizando las edades de 50 personas. 
K corresponde al número del decil. Si vamos a calcular el decil uno (D1) entonces K 
vale 1; si vamos a calcular el decil dos (D2) entonces K vale 2, y si vamos a calcular 
el decil tres (D3) entonces K vale 3 y así sucesivamente con cualquier decil que desees 
calcular. Recuerda que son NUEVE deciles. 
 
Vamos a calcular el Decil 4 (𝐷4) 
 
 
El decil debe estar ubicado en el dato número 20 vamos a UBICAR en cuál intervalo 
tendríamos un acumulado en el cuál cabrían 20 datos: 
 
No sirve el intervalo [19 – 28) porque el acumulado es 16 y necesitamos que quepan 
hasta 20 por eso el intervalo que nos SIRVE es el de [28 – 37) donde caben 
hasta 24 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de 
trabajo. 
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula 
de los deciles: 
 
𝐷𝑘 = 𝐿𝑖 + (
𝑘 ∗ 𝑁
10
− 𝐹𝑖−1
𝑓𝑖
) ∗ 𝑎 
𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 
𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑒𝑙 𝑑𝑒𝑐𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 4 
𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 16 
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 8 
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 
 
𝐷𝑘 = 28 + (
4 ∗ 50
10 − 16
8
) ∗ 9 = 32,5 𝑎ñ𝑜𝑠 
 
 
 
PERCENTILES PARA DATOS AGRUPADOS 
Los percentiles básicamente son aquellos datos que permiten dividir o separar la 
muestra en cien partes iguales. Entre percentil y percentil se delimita un 1% de la 
muestra. 
 
 
El percentil cincuenta (P50) corresponde al mismo valor de la mediana ya que divide 
los datos en un 50% a lado y lado. 
Para calcular cualquier percentil debemos identificar el intervalo de trabajo. Para ello 
utilizamos la siguiente expresión: 
 
N es la cantidad de datos de la muestra. En este caso N vale 50 porque estamos 
analizando las edades de 50 personas. 
K corresponde al número del percentil. Si vamos a calcular el percentil uno 
(P1) entonces K vale 1; si vamos a calcular el percentil dos (P2) entonces K vale 2, y 
si vamos a calcular el percentil tres (P3) entonces K vale 3 y así sucesivamente con 
cualquier percentil que desees calcular. Recuerda que son NOVENTA Y NUEVE 
percentiles. 
Vamos a calcular el percentil 70 (𝑃70) 
 
El percentil debe estar ubicado en el dato número 35 vamos a UBICAR en cuál intervalo 
tendríamos un acumulado en el cuál cabrían 35 datos. 
 
No sirve el intervalo [37 – 46) porque el acumulado es 29… y necesitamos que quepan 
hasta 35 por eso el intervalo que nos SIRVE es el de [46 – 55) donde caben 
hasta 37 acumulados hasta él. De modo que en ese lugar se encuentra el intervalo de 
trabajo. 
Ya tenemos el intervalo de trabajo, ahora vamos a reemplazar los datos en la fórmula 
de los percentiles: 
𝑃𝑘 = 𝐿𝑖 + (
𝑘 ∗ 𝑁
100 − 𝐹𝑖−1
𝑓𝑖
) ∗ 𝑎 
𝐿𝑖 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝐿𝑠 = 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 
𝑁 = 𝑐𝑎𝑛𝑡𝑖𝑑𝑎𝑑 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 
𝑘 = 𝑒𝑠 𝑒𝑙 𝑛𝑢𝑚𝑒𝑟𝑜𝑑𝑒𝑙 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑒𝑠 70 
𝐹𝑖−1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑐𝑢𝑚𝑢𝑙𝑎𝑑𝑎 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 29 
𝑓𝑖 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑠𝑖𝑚𝑝𝑙𝑒 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜. 𝐸𝑛 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 𝑣𝑎𝑙𝑒 8 
𝑎 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒𝑙 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑡𝑟𝑎𝑏𝑎𝑗𝑜 (𝐿𝑠 − 𝐿𝑖) 
 
𝑃𝑘 = 46 + (
70 ∗ 50
100
− 29
8
) ∗ 9 = 52,75 𝑎ñ𝑜𝑠