Logo Studenta
¡Este material tiene más páginas!

Vista previa del material en texto

UNIDAD 3: Medidas estadísticas 
 
Las medidas estadísticas o parámetros estadísticos son valores 
representativos de una colección de datos y que resumen en unos 
pocos valores la información del total de datos. Estas medidas 
estadísticas nos darán información sobre la situación, dispersión y 
otros patrones de comportamiento de los datos, de manera que sea 
posible captar rápidamente la estructura de los mismos y también la 
comparación entre distintos conjuntos de datos. Las más importantes 
son: las de tendencia central o centralización, que indican el valor 
medio de los datos, las de dispersión que miden la variabilidad de los 
datos respecto a los parámetros de centralización y las de forma: 
simetría y apuntamiento, que nos indican la forma de distribución de 
los datos. 
 
Estas medidas serán más significativas cuanto más homogéneos sean 
los datos y pueden ser engañosas cuando mezclamos poblaciones 
distintas. 
 
3.1. Medidas de centralización 
 
Nos dan los valores centrales de los datos obtenidos. Las más usuales 
son: la media, la moda y la mediana. 
 
• Media ( x ) 
 
Es el resultado de sumar el valor de la variable de todos los 
individuos y dividir por el total de individuos. 
N
X
x
n
i
i∑
== 1 
 
Supondremos que toma la variable X toma k valores distintos 
kxxxx ...,,, 321 que se repiten el número de veces que indica la 
frecuencia relativa if , sustituyendo en la fórmula, la expresión de la 
media quedaría como: 
 
N
fx
f
fx
x ii
i
ii ⋅Σ=
Σ
⋅Σ
= 
Para datos agrupados el valor de ix será el de la marca de clase. 
 
Ejemplo. Variable discreta 
Vamos a calcular la media de edad de los alumnos entrevistados. 
Añadimos a la tabla de frecuencias absolutas la columna con el 
producto de cada valor de la 
varaible por su frecuencia ii fx ⋅ 
 
33,14
100
1433
==
Σ
⋅Σ
=
i
ii
f
fx
x 
La media de edad de los alumnos 
del centro entrevistados es de 14,33 
años. 
Valores 
Frecuencia 
absoluta ii
fx ⋅
 
12 9 108 
13 25 325 
14 27 378 
15 16 240 
16 12 192 
17 8 136 
18 3 54 
TOTAL N=100 1433 
 
Características de la media: 
 
- La media aritmética sólo se puede calcular para variables 
numéricas. 
- Un conjunto de datos numéricos sólo tiene una media. 
- La media es un parámetro sensible a la presencia de valores 
muy separados del resto de datos. 
 
Por ejemplo, la serie de valores, 1, 1, 2, 3, 3, 5, 7, 8, 8, 50 
posee un valor extremo que es el 50. La media aritmética 
calculada con los 9 primeros valores es 4.2, lo que 
constituye un valor central razonable. Por el contrario, si se 
considera también el último valor, la media aritmética 
resulta ser 8.8, que es un valor muy poco indicativodel 
conjunto pues está muy influido por ese valor extremo. 
 
 
• Moda (Mo) 
 
La moda es el valor más frecuente de la variable estadística. La 
moda, como la media, representa un valor central de la distribución 
de datos y su determinación visual la podemos obtener a partir de la 
tabla de frecuencias o de su gráfico, en el caso de ser de columnas 
corresponde con la columna más alta. 
 
Este parámetro se puede calcular para cualquier tipo de variable. 
Ejemplo. Variable cualitativa 
Podemos identificar la moda de la actividades del tiempo libre 
preferida de los alumnos observando la tabla de frecuencias: 
Valores 
Frecuencia 
absoluta 
Deportes 51 
Mantenimiento 8 
Música 17 
Cine 10 
Lectura 6 
Otros 5 
TOTAL N=97 
 
El conjunto de datos puede ser unimodal (1 moda), bimodal (2 
modas) o amodal (sin moda), gráficamente sería: 
 
 
 
 
 
 
 
 
 
 
 
Para datos agrupados 
Para datos agrupados no se puede calcular exactamente el valor de la 
moda. Sin embargo, se puede estimar utilizando los siguientes pasos: 
Para obtener la moda en datos agrupados, se buscará la clase o 
intervalo que tenga el mayor cociente entre frecuencia y amplitud, es 
decir, valor máximo de 
i
i
i
c
f
h = . 
Tal y como vimos en la construcción de los histogramas, esta clase 
estará asociada al rectángulo de mayor altura. Si todos los intervalos 
tienen la misma amplitud, dicho intervalo será el de mayor 
frecuencia. 
1 2 3 4 5 6 7
Unimodal
1 2 3 4 5 6 7
Bimodal
5
8
11
14
17
20
23
26
1 2 3 4 5 6 7
Amodal
 
Esta clase o intervalo se denomina intervalo modal, y una vez 
hallado, se aplica la siguiente expresión derivada del cálculo de 
proporciones para calcular la moda: 
 
ii c
DD
D
LMo ⋅
+
+= − )(
21
1
1 
 
Donde: 
Li − 1 = Límite inferior de la clase modal. 
11 −−= ii hhD 
12 +−= ii hhD 
i
i
i
c
f
h = 
ic = amplitud del intervalo. 
if = frecuencia absoluta de la clase modal. 
11 +− ii fyf = frecuencia absoluta de la clase inferior y superior 
respectivamente. 
En el caso de trabajar con intervalos de igual amplitud se puede 
trabajar directamente con las frecuencias absolutas. 
Ejemplo. Para datos agrupados 
Vamos a calcular la moda del número de horas semanales que pasan 
los alumnos del centro anterior viendo la televisión 
 
 
 
 
 
 
 
 
 
 
 
 
La clase modal es [4,8), la de mayor frecuencia absoluta. Al tratarse 
de intervalos de igual amplitud podemos sustituir en la fórmula las 
Valores 
Frecuencia 
absoluta 
Frecuencia 
acumulada 
[0,4) 4 4 
[4,8) 28 32 
[8,12) 21 53 
[12,16) 15 68 
[16,20) 9 77 
[20,24) 5 82 
TOTAL N=82 
 
frecuencias absolutas: 
Li − 1 = 4 
11 −−= ii ffD =28-4=24 
12 +−= ii ffD =28-21=7 
ic = amplitud del intervalo=4 
1.74
724
24
4 =⋅
+
+=Mo 
 
Características de la moda: 
- La moda es de fácil interpretación. 
- Su cálculo es sencillo para variables discretas y cualitativas 
pero la expresión para variables agrupadas se complica. 
- No intervienen en su determinación todas las observaciones. 
- Es útil para detectar posibles mezclas de distintas 
poblaciones en una misma masa de datos. 
- Se puede calcular para todo tipo de variable. 
 
• Mediana (Me) 
La mediana es el valor de la variable que divide la serie estadística 
ordenada en dos partes iguales, dejando tantos valores por encima 
como por debajo y por consiguiente la frecuencia a uno y a otro lado 
de la mediana también son iguales. 
Si los n datos no están agrupados y están enumerados del 1 al N el 
valor de la mediana será: 
- Si N es impar, el valor que ocupa el lugar 
2
1+N
 
- Si N es par, la media aritmética de los valores que ocupan el 
lugar 
2
N
 y 1
2
+
N
. 
Este procedimiento es útil cuando disponemos de pocos datos, pero 
cuando el número de estos es elevado es mejor incluir en la tabla de 
frecuencias las frecuencias acumuladas. 
 
Datos no agrupados: La mediana será el primer valor cuya 
frecuencia acumulada es 
2
N
Fi ≥ . 
Datos agrupados: Se buscará la primera clase cuya frecuencia 
acumulada supere la mitad de las observaciones. Esta clase se 
denomina clase mediana y su marca de clase, se podría dar como una 
aproximación de la mediana. Sin embargo podemos obtener un valor 
más aproximado empleando la fórmula siguiente: 
i
i
i
i c
f
F
N
LMe ⋅
−
+=
−
−
1
1
2 
Donde: 
Li − 1 = Límite inferior de la clase mediana. 
ic = amplitud del intervalo. 
if = frecuencia absoluta de la clase mediana. 
1−iF = frecuencia absoluta acumulada de la clase inferior a la 
clase mediana. 
 
Ejemplo. Variable continua 
Vamos a calcular la mediana del número de horas semanales que pasan 
los alumnos del centro anterior viendo la televisión 
 
 
 
 
 
 
 
 
 
 
 
41
2
82
= . La primera frecuencia acumulada que supera N/2 es 53, por tanto 
la clase mediana es el intervalo [8,12). Para calcular el valor de la 
mediana aplicamos la fórmula definida: 
71.94
21
3241
8 =⋅
−
+=Me 
Valores 
Frecuencia 
absoluta 
Frecuencia 
acumulada 
[0,4) 4 4 
[4,8) 28 32 
[8,12) 21 53 
[12,16) 15 68 
[16,20) 9 77 
[20,24) 5 82 
TOTAL N=82 
 
 
Características de la mediana: 
 
- La mediana es sencilla de calcular y de interpretar. 
- Por depender de los valores a través de su orden, la 
mediana no varía demasiado por los valores extremos, por 
ello, si nuestros datos contienenvalores de este tipo, será 
preferible usar la mediana en vez de la media aritmética 
como medida central. 
 
• Relación entre media, mediana y moda. 
 
Es recomendable comparar los valores obtenidos para la moda, media 
y mediana, para conocer mejor la distribución de los datos que 
estamos analizando. Diferencias importantes entre la media y la 
moda o la media y la mediana indican que la distribución de los datos 
es asimétrica, y si son iguales o muy cercanos la distribución de los 
datos será simétrica. Observa los siguientes gráficos: 
 
 
 
3.2. Otras medidas. Medidas de posición 
 
Para describir otros aspectos relevantes de la distribución de 
frecuencia se utilizan las medidas de posición: los cuartiles y los 
percentiles. Son valores que dividen la distribución en partes iguales: 
 
− Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 
partes iguales: primero, segundo y tecer cuartil. 
− Percentiles: Hay 99 percentiles que dividen a una serie en 100 
partes iguales: (primero al noventa y nueve percentil). 
 
• Cuartiles 
Los cuartiles son los tres valores de la variable que dividen a un 
conjunto de datos ordenados en cuatro partes iguales. 321 , QyQQ 
determinan los valores correspondientes al 25%, 50% y 75% de los 
datos. 2Q coincide con la mediana. 
 
Si tenemos n datos, para hallar el primer cuartil, se ordenan los 
valores de menor a mayor y a continuación se busca en dicha serie 
ordenada el primer valor cuyo orden de lugar supere n/4. 
 
Puede ocurrir que el valor coincida exactamente con n/4 (sucede 
cuando n es múltiplo de 4), en tal caso, el primer cuartil se obtiene 
tomando dicha observación y la siguiente, y calculando su media 
aritmética, tal y como hacíamos para la mediana. Veamos el siguiente 
ejemplo. 
 
 
Ejemplo. Variable discreta 
Vamos a calcular el primer y tercer cuartil de la distribución de las edades 
de los alumnos del centro 
 
 
 
 
 
 
 
 
 
 
 
 
1Q � N/4=25 buscamos aquél valor que su frecuencia acumulada sea 
mayor que 25, en este caso 1Q =13, es decir el 25% de los datos están 
por debajo de esa cantidad. 
3Q � 3N/4=75 buscamos aquél valor que su frecuencia acumulada sea 
mayor que 75, en este caso 3Q =15, es decir el 75% de los datos están 
por debajo de esa cantidad. 
 
 
Valores Frecuencia 
absoluta 
Frecuencias 
acumuladas 
12 9 9 
13 25 34 
14 27 61 
15 16 77 
16 12 89 
17 8 97 
18 3 100 
TOTAL N=100 
 
Para datos agrupados 
 
En este caso los cuartiles se buscará la primera clase cuya frecuencia 
acumulada supere N/4, 2N/4 o 3N/4 de las observaciones, según 
estemos hallando el primer, segundo o tercer cuartil. La marca de 
clase de dicho intervalo, se podría dar como una aproximación de la 
mediana. Sin embargo podemos obtener un valor más aproximado 
empleando la fórmula siguiente, similar a la empleada para hallar la 
mediana: 
i
i
i
ik c
f
FK
N
LQ ⋅
−⋅
+=
−
−
1
1
4 
Donde: 
K= número del cuartil que queremos hallar 
Li − 1 = Límite inferior de la clase del cuartil que queremos 
hallar. 
ic = amplitud del intervalo. 
if = frecuencia absoluta de la clase del cuartil. 
1−iF = frecuencia absoluta acumulada de la clase inferior a la 
clase del cuartil. 
 
• Percentiles 
Los percentiles son los valores de la variable que dividen a un 
conjunto de datos ordenados en cien partes iguales. 10021 ..., PPP 
determinan los valores correspondientes al 1%, 2%...100% de los 
datos. 50P coincide con la mediana. 
 
Su cálculo es similar al de los cuartiles, veamos el siguiente ejemplo 
para datos agrupados 
Ejemplo. Variable continua 
Vamos a calcular el percentil 25 ( 25P ) del número de horas semanales que 
pasan los alumnos del centro anterior viendo la televisión. Usamos la 
frecuencia acumulada en porcentajes para hallar los percentiles. 
 
 
 
 
 
 
 
 
 
50,2025
100
82
=⋅ . La primera frecuencia porcentual que supera 25N/100 es 
39,02%, por tanto la clase del percentil 25 es el intervalo [4,8). Para 
calcular el valor aplicamos la fórmula: 
Valores 
Frecuencia 
absoluta 
Frecuencia 
acumulada 
Porcentajes 
acumulados 
[0,4) 4 4 4,87% 
[4,8) 28 32 39,02% 
[8,12) 21 53 64,63% 
[12,16) 15 68 82,93% 
[16,20) 9 77 93,90% 
[20,24) 5 82 100% 
TOTAL N=82 
 
i
i
i
ik c
f
FK
N
LP ⋅
−⋅
+=
−
−
1
1
100
 
36,64
28
450,20
425 =⋅
−
+=P 
Podemos decir que el 75% de los alumnos ve la televisión más de 6 horas 
semanales 
 
3.3. Medidas de dispersión 
Mediante la media, la mediana y la moda conocemos una parte de la 
información acerca de las características de los datos, pero para 
completar esa información necesitaríamos saber si todos los están 
próximos o no a estas medidas. Para medir esta desviación respecto 
a los valores centrales utilizamos los parámetros de dispersión. 
 
• Rango (R). 
Es la diferencia entre el mayor y el menor de los valores que toma la 
variable. 
 
Características del rango: 
- El rango es sencillo de calcular y de interpretar. 
- No es una medida muy significativa. 
 
• Varianza (V) y desviación típica. 
La varianza es una medida de dispersión que se basa en la desviación 
de las observaciones con respecto a la media aritmética, y se denota 
por V o 2σ . 
 
Para su cálculo seguimos los siguientes pasos: 
1) hallamos la «distancia» de cada valor observado con respecto a la 
media, xxi − 
2) la elevamos al cuadrado ( )2xxi − , con el fin de convertirlas en 
positivas; 
3) multiplicamos por su frecuencia absoluta ( ) ii fxx ⋅−
2
 para tener en 
cuenta las veces que se repite cada dato, 
4) sumamos todos los valores obtenidos hasta ahora para conseguir 
una 
medida global 
5) dividimos el resultado anterior por N (número de datos), para 
conocer 
el valor medio, 
 
Con estos pasos llegamos a la expresión: 
 
( )
N
fxx
V ii
⋅−Σ
==
2
2σ 
si desarrollamos el cuadrado de esta expresión, obtenemos: 
2
2
2 x
N
fx
V ii −
⋅Σ
== σ 
que es una expresión más sencilla de manejar. 
 
Si hallamos la raíz cuadrada de la expresión de la varianza 
compensamos el cuadrado tomado inicialmente. A este valor se le 
denomina desviación típica y es la medida de desviación más usual. 
2
2
x
N
fx ii −
⋅Σ
=σ 
Ejemplo. Variable discreta 
Habíamos obtenido que la media de edad de los alumnos del colegio 
entrevistados era de 14,33. Vamos a calcular la desviación típica para 
saber si las edades están dispersas o concetradas respecto a la media. 
Valores 
Frecuencia 
absoluta 
2
ix ii fx ⋅
2 
12 9 144 1296 
13 25 169 4225 
14 27 196 5292 
15 16 225 3600 
16 12 256 3072 
17 8 289 2312 
18 3 324 972 
 
Sutituyendo los valores obtenemos 53,133,14
100
20769 2 =−=σ 
 
Y vemos que las edades difieren de la media en un año y medio por 
encima y por debajo. Teniendo en cuenta que el rango de edades es de 6 
años, los datos presentan poca dispersión, aunque la conclusión de 
“mucha o poca” depende del contexto del problema y de la comparación 
con otras poblaciones o muestras. 
 
 
Características de la desviación típica: 
 
- La desviación típica tiene más significado si usa para 
comparar dos o más poblaciones. 
- Es más sensible que la media a valores erróneos al usar el 
cuadrado en su expresión. 
- No es sensible al cambio de escala a diferencia de la 
varianza, es decir, si medimos en metros o en kilómetros 
obtendremos valores similares.

Más contenidos de este tema