Logo Studenta

4-Medidas descriptivas - Gonzalo Sosa_

¡Este material tiene más páginas!

Vista previa del material en texto

Estadística y Análisis de Datos 
 
 
1 
MEDIDAS ESTADISTICAS DE RESUMEN 
 
Objetivo: Caracterizar una distribución de frecuencias por medio de un cantidad reducida de medidas 
numéricas que complementan la información aportada por tablas de distribución y gráficos. 
Los tipos de medidas que podemos calcular para poder describir el comportamiento de un conjunto de 
datos son: 
1. Medidas de tendencia central. Son medidas que “tienden” a estar en el centro de la distribución 
de datos. Caracterizan el centro de la distribución, esto es: alrededor de qué valor se agrupan los 
datos. 
2. Medidas de posición, fractiles o cuantiles. Son medidas cuyos valores dividen en fracciones al 
conjunto ordenado de unidades elementales según el valor de la variable. 
3. Medidas de dispersión o variabilidad. Son las que describen cuán dispersos están los datos. La 
dispersión se puede medir respecto a alguna medida de tendencia central o no. 
4. Medidas de forma: Como su nombre lo indica describen la forma de la distribución de datos. Se 
pueden clasificar en dos grandes grupos o bloques: medidas de asimetría y medidas de curtosis. 
ASIMETRÍA: Estas medidas describen el grado de asimetría respecto al punto máximo de 
concentración de la variable en estudio. 
CURTOSIS: Mide la agudeza (elevación o achatamiento) de una distribución de datos comparada 
con la distribución normal. 
Tener en cuenta que: 
o Cada una de estas Medidas de Resumen describen de una manera única al conjunto de datos. 
o Una misma Medida de Resumen, puede ser calculada de distintas maneras (en cuanto a la 
estructura de la fórmula, si la tiene), porque depende del tipo de variable que se está analizando, 
del Nivel de Medición Estadístico alcanzado y del Tipo de agrupación de datos. 
o También poseen propiedades, ventajas y desventajas que se deben considerar. 
 
MEDIDAS DE TENDENCIA CENTRAL (MTC) 
 
MODO o MODA (Mo) 
Definición: Es aquel valor de la variable en estudio que se presenta con mayor frecuencia. Es la más 
elemental de las MTC. Su determinación es independiente del Nivel de Medición Estadístico alcanzado. 
 
Ventajas 
 No requiere cálculos. 
 Puede usarse para datos tanto cuantitativos como cualitativos. 
 Fácil de interpretar. 
 No se ve influenciada por valores extremos. 
 
Desventajas 
 Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo 
tiene significado en el caso de una gran cantidad de datos. 
 No utiliza toda la información disponible. 
 No siempre existe, si los datos no se repiten. 
 En ocasiones, el azar hace que una sola observación no representativa sea el valor más frecuente 
del conjunto de datos. 
 Puede suceder que una distribución de datos no tenga Mo, o tenga más de un Mo, en cuyo caso 
esta Medida no es representativa. 
 Es la más inestable de las MTC. (un dato que se agregue o quite puede hacer cambiar 
significativamente su valor) 
 
CÁLCULO DEL MODO O MODA 
DS/A: DATOS SIN AGRUPAR 
 NO TIENE FÓRMULA. Simplemente se observa el valor de la variable que se repite con mayor 
frecuencia. 
 
Estadística y Análisis de Datos 
 
 
2 
Ejemplo: Cantidad de materias aprobadas por 5 alumnos de segundo año de la carrera Licenciatura en 
Ciencias Físicas. FaCENA – UNNE. Año 2012. 
 
 
 
Mo = 2 materias 
 
Interpretación: La cantidad de materias aprobadas que se repite con mayor frecuencia entre estos 5 
alumnos de segundo año de la carrera Licenciatura en Ciencias Físicas es 2 materias. 
 
¡OJO!: NO SE DICE “LA MAYORIA” DE ALUMNOS TIENE 2 MATERIAS (esto es un error común) 
 
DAS: DATOS EN AGRUPACIÓN SIMPLE 
NO TIENE FÓRMULA. Se busca la mayor frecuencia SIMPLE, y luego se detecta el valor de la variable a 
la que corresponde. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Ejemplo 
Tabla I 
Materias aprobadas por estudiantes de segundo año de la carrera de Licenciatura en Física de 
FaCENA. Año 2012. 
(Muestra: 300 estudiantes) 
Cantidad de materias 
aprobadas 
Frecuencias Simples Frecuencias Acumuladas 
xi fi ri pi Fi Ri Pi 
0 74 0,2467 24,67 74 0,2467 24,67 
1 97 0,3233 32,33 171 0,57 57 
2 64 0,2133 21,33 235 0,7833 78,33 
3 25 0,0833 8,33 260 0,8666 86,66 
4 26 0,0867 8,67 286 0,9533 95,33 
5 14 0,0467 4,67 300 1 100 
TOTAL 300 1 100 
 
 
Mo = 1 materia 
Interpretación: La cantidad de materias aprobadas que se presentó con mayor frecuencia es 1. 
 
 
cantidad de materias aprobadas 1 2 2 3 5 
 FRECUENCIAS SIMPLES 
Variable fi ri pi 
x1 
x2 
 …… 
Mo = xi > fi > ri > pi 
….. 
xk 
TOTALES n 1 100 
Estadística y Análisis de Datos 
 
 
3 
DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE 
Para aplicar la fórmula, primero se debe determinar el Intervalo que contiene al Mo, ingresando por 
alguna frecuencia SIMPLE. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor 
del Mo. 
Mo = Li(Mo)+ 
 Δ1 
Δ1+Δ2
 ∙ ai 
donde: 
Li : límite inferior de la clase modal (intervalo que contiene la moda). 
1: es la diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo premodal. 
1 = fi  fi1 
2: es la diferencia entre la frecuencia del intervalo modal y la frecuencia del intervalo posmodal. 
2 = fi  fi+1 
ai : la amplitud del intervalo de clase modal. 
 
Ejemplo 
Tabla II 
Tiempo de duración de los distintos procesos que se realizaron en un departamento de cómputos, en 
un día de trabajo 
Tiempo de 
duración 
(en minutos) 
Marca de 
clase 
fi ri pi Fi Ri Pi 
(0 – 2] 1 20 0.2083 20.83 20 0.2083 20.83 
(2 – 4] 3 33 0.3438 34.38 53 0.5521 55.21 
(4 – 6] 5 21 0.2188 21.88 74 0.7708 77.08 
(6 – 8] 7 14 0.1458 14.58 88 0.9167 91.67 
(8 – 10] 9 8 0.0833 8.33 96 1 100 
 
n=∑ fi=96 ∑ri=1 ∑pi=100 
 
𝐌𝐨 = Li(Mo) +
fi − fi−1
(fi − fi−1) + (fi − fi+1)
∙ ai = 2 +
33 − 20
(33 − 20) + (33 − 21)
∙ 2 = 3,04 minutos 
 
Interpretación: El tiempo de duración que se repite con mayor frecuencia en los procesos realizados es 
3,04 minutos 
 
MEDIA ARITMÉTICA (�̅�) 
Definición: La media aritmética es la suma de las observaciones en una muestra dividida entre el 
número de observaciones efectuadas en ella. 
Es la medida de resumen más conocida como “promedio”. Es un valor que representa a cada uno de los 
valores de la variable en estudio. (para variables cuantitativas). 
X̅ = 
∑ xi
n
i=1
n
 
VARIABLE FRECUENCIAS SIMPLES 
Li < x i ≤ Ls fi ri pi 
IC1 
IC2 
…… fi 1 ri1 pi1 
Li(Mo) - Ls(Mo) > fi > ri > pi 
……. fi +1 ri+1 pi+1 
ICK 
TOTALES n 1 100 
Intervalo que 
contiene al 
Mo 
Estadística y Análisis de Datos 
 
 
4 
 x 
 x x x x 
Cantidad de materias aprobadas 
 x = 2,8 materias 
 0 1 2 3 4 5 
Propiedades: 
1) La media aritmética es un valor representativo del conjunto de valores observados puesto que 
puede reemplazar a cada uno de los valores sin que el total se altere. 
 
 
 
 
Total = ∑ xi = 2 + 1 + 3 + 5 + 3 = 14 
5
i=1 materias 
Pero, n ∙ X̅ = 5 ∙ 2,8 = 14 materias = Total 
Por lo que: n ∙ X̅ = ∑ xi 
5
i=1 
Justificación: Por definición, X̅ =
∑ xi
n
i=1
n
→ n ∙ X̅ = ∑ xi
n
i=1 
2) La suma de los desvíos de las observaciones respecto a la media aritmética es igual a cero. 
Desvío: di = xi − X̅ 
Justificación 
∑di = ∑(xi − X̅) = ∑xi − ∑X̅
n
i=1
n
i=1
n
i=1
n
i=1
= n ∙ X̅ − n ∙ X̅ = 0 
3) Si a un conjunto de datos le sumamos o restamos una constante k, la media del nuevo conjunto va a 
quedar afectada por esta constante y va a se igual a la media del conjunto anterior más o menos 
esa constante. 
xi  X̅ 
zi = xi ± k 
Justificación 
Z =
∑ zi
n
i=1
n
=
∑ (xi ± k)
n
i=1
n
=
∑ xi ± ∑ k
n
i=1
n
i=1
n
=
∑ xi
n
i=1
n
±
nk
n
= X̅ ± k 
4) Si a los datos de un conjunto los multiplicoo divido por una constante k, la media del nuevo 
conjunto será igual a la media del conjunto anterior multiplicada o dividida por esa constante k. 
xi  X̅ 
zi = k ∙ xi 
Justificación 
Z =
∑ zi
n
i=1
n
=
∑ (k ∙ xi)
n
i=1
n
=
k ∙ ∑ xi
n
i=1
n
= k ∙
∑ xi
n
i=1
n
= k ∙ X̅ 
5) La media aritmética es el punto de equilibrio o centro de gravedad del conjunto de datos 
observados. Podemos imaginar a los datos como un sistema físico, en el que cada dato tiene una 
“masa” unitaria y lo ubicamos sobre una barra en la posición correspondiente a su valor. La media 
representa la posición en que deberíamos ubicar el punto de apoyo para que el sistema esté en 
equilibrio. 
 
 
 
 
 
 
 
 
 
 
De esta propiedad se deriva la principal desventaja que tiene esta medida. Los valores muy 
extremos ya sea muy grandes o muy pequeños afectan notablemente al valor de la media 
aritmética, haciéndola desplazar hacia el lado donde se encuentra ese valor extremo, de allí que 
cuando existen valores extremos en un conjunto de datos, esta medida no es recomendable. Por 
ejemplo, para la muestra: 4, 2, 2, 1, 4, 1, 2, 70, 4 es x = 10. Si no tenemos en cuenta el valor 70, la 
media sería x = 2,5, que es un valor mucha más razonable. Por eso, si una muestra contiene algún 
valor fuera de lo común la media aritmética vale de poco, a menos que ese valor no sea tenido en 
cuenta. 
Cantidad de materias aprobadas 2 1 3 5 3 
Reemplazo por el valor de X̅ 2,8 2,8 2,8 2,8 2,8 
Estadística y Análisis de Datos 
 
 
5 
No obstante, es una medida muy fácil de calcular, de interpretar, también es fácil su manejo 
algebraico, y es conocida en general por las personas comunes, por eso es una de las medidas más 
usadas. 
 
Ventajas 
 Emplea en su cálculo toda la información disponible. 
 Se expresa en las mismas unidades que la variable en estudio. 
 Es el centro de gravedad de toda la distribución, representando a todos los valores observados. 
 Es un valor único. 
 Se trata de un concepto familiar para la mayoría de las personas. 
 Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios 
conjuntos de datos. 
 
Desventajas 
 Es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen 
en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace 
en esa dirección, perdiendo representatividad. En consecuencia, 
 no es recomendable usar la media como medida central en las distribuciones muy asimétricas. 
 
CÁLCULO DE LA MEDIA ARITMÉTICA 
DS/A: DATOS SIN AGRUPAR 
X̅ =
∑ xi
n
i=1
n
 
DAS: DATOS EN AGRUPACIÓN SIMPLE 
X̅ =
∑ xi ∙ fi
k
i=1
n
 
k: Cantidad de clases que se generan de acuerdo a los distintos valores que asumió la variable 
en estudio. 
DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE 
X̅ =
∑ xi ∙ fi
k
i=1
n
 
k: Cantidad de intervalos de clase generados. 
xi: (MARCA DE CLASE) valor que representa al intervalo de clase. 
 
De la TABLA I 
x =
0×74+1×97+2×64+3×25+4×26+5×14
300
= 1,58 materias 
Interpretación: En promedio, los 300 estudiantes de segundo año de la carrera de Licenciatura en 
Física de FaCENA, aprobaron 1,58 materias 
 
De la TABLA II 
x = 4,20 minutos 
Interpretación: En promedio se utilizaron 4,20 minutos en los distintos procesos que se realizaron en 
un departamento de cómputos, en un día de trabajo. 
 
 
MEDIANA (Me) 
Definición: Es aquel valor de la variable en estudio que divide al conjunto de datos ordenados en dos 
partes iguales, de tal forma que el 50% de las unidades elementales tienen un valor menor o igual a 
dicho valor y el otro 50% un valor superior o a lo sumo igual. 
Al requerir datos ordenados, esta Medida se aplica a variables cuya clasificación tengan al menos un 
Nivel de Medición Estadístico: Ordinal o Jerárquico. 
 
 
Estadística y Análisis de Datos 
 
 
6 
Ventajas 
 Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya 
que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es 
adecuado su uso en distribuciones asimétricas. 
 Es de cálculo rápido y de interpretación sencilla. 
 
Desventajas 
 No utiliza en su “cálculo” toda la información disponible. 
 No pondera cada valor por el número de veces que se ha repetido. 
 Hay que ordenar los datos antes de determinarla. 
 
CÁLCULO DE LA MEDIANA 
DS/A: DATOS SIN AGRUPAR Y DAS: DATOS EN AGRUPACION SIMPLE 
1) Se ordenan los datos: 
2) Calculamos el siguiente índice i =
n
2
 como primera aproximación de la posición buscada. 
3) Analizamos el resultado del índice: 
4.1) Si el índice i es un número entero, entonces la Me es el promedio entre dos valores 
consecutivos: 𝐌𝐞 = 
xi + xi+1
2
 
4.2) Si el índice i es un número no entero, entones la Me coincide con un valor observado. 
Donde el i buscado será igual al entero más próximo por exceso: 𝐌𝐞 = xi 
Para encontrar los valores necesarios se ingresa por alguna frecuencia ACUMULADA. 
 
De la TABLA I: 
n = 300 i = n /2 = 300/2 = 150 
 
Entonces, Me = 
xi+ xi+1
2
 = 
x150+x151
2
 = 
1 materia+1 materia
2
 = 1 materia 
Interpretación: El 50% de los estudiantes tiene a lo sumo 1 materia aprobada. 
 
DAIC: DATOS AGRUPADOS EN INTERVALOS DE CLASE 
Una vez calculado el índice que determina la posición (sin realizar ninguna transformación), 
ingresamos por alguna frecuencia ACUMULADA para determinar qué clase de intervalo contiene el 
valor buscado. 
Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor 
de la Me. 
 Me = Li(Me) + 
n
2 − F(i−1)
fi
 . ai 
donde: 
Li : límite inferior del intervalo que contiene la mediana. 
n: número de individuos que forman la muestra. 
Fi1: frecuencia acumulada hasta el intervalo anterior al que contiene la mediana. 
fi : frecuencia absoluta del intervalo que contiene la mediana. 
ai : la amplitud del intervalo donde cae la mediana. 
 
De la TABLA II: 
Me = Li(Me) +
n
2
 − Fi−1
fi
∙ ai = 2 +
48−20
33
∙ 2 = 3,70 minutos 
Interpretación: el 50% de los procesos realizados duraron 3,70 minutos o menos y el 50% restante de 
los procesos 3,70 minutos o más. 
 
 
Estadística y Análisis de Datos 
 
 
7 
CUARTILES: (Q1, Q2 y Q3) Dividen al conjunto ordenado de unidades elementales según la variable 
en estudio en 4 partes iguales. 
 
 Q1 Q2 Q3 
Se observa que Q2 = Me 
 
QUINTILES: Ki con i = 1, 2, 3, 4 (Idem anterior: en 5 partes iguales) 
 
DECILES: Di; con i = 1, 2, ..., 9 (Idem anterior: en 10 partes iguales) 
 
PERCENTILES: PK ; con k = 1, 2, …, 99 (Ídem anterior: en100 partes iguales) 
MEDIDAS DE POSICIÓN, FRACTILES o CUANTILES 
Definición: Son valores de la variable en estudio que dividen al conjunto ordenado de datos 
observados en fracciones de tal manera que deja un porcentaje h% de unidades elementales por 
debajo de ese valor y un (100  h) % de unidades elementales por encima del mismo. 
 
CÁLCULO DE CUANTILES 
DS/A o DAS 
1) Se ordenan los datos: 
2) Definimos: 
h: fracción de unidades elementales en porcentaje que deja por debajo del valor buscado. 
3) Calculamos el siguiente índice i =
n∙h
100
 como primera aproximación de la posición buscada. 
4) Analizamos el resultado del índice: 
4.1) Si el índice i es un número entero, entonces el cuantil es el promedio entre dos valores 
consecutivos: Cuantil =
xi + xi+1
2
 
4.2) Si el índice i es un número no entero, entones el cuantil coincide con un valor observado. 
Donde el i buscado será igual al entero más próximo por exceso: Cuantil = xi 
Para encontrar los valores necesarios se ingresa por alguna frecuencia ACUMULADA. 
 
De la Tabla I 
Cuantil n h i = (n. h)/100 Entonces 
D5=Me=P50 300 50 i= (300.50)/100= =150 
Me=(x150+x151)/2=(1+1)/2 = 
1 materia 
Q3 300 75 i = (300.75)/100= =225 
Q3 = (x225+x226)/2=(2+2)/2 = 
2 materiasQ3 = 2 materias 
Interpretación: El 75% de los estudiantes tiene 2 o menos materias aprobadas y el resto (25%) de los 
estudiantes tiene 2 o más materias aprobadas. 
Estadística y Análisis de Datos 
 
 
8 
Otra interpretación: De cada 100 estudiantes, 75 tiene 2 o menos materias aprobadas y los restantes 
25 estudiantes tiene 2 o más materias 
 
DAIC 
Una vez calculado el índice que determina la posición (sin realizar ninguna transformación), 
ingresamos por alguna frecuencia ACUMULADA para determinar qué clase de intervalo contiene el 
valor buscado. 
Luego se reemplaza los datos necesarios en la fórmula y lo que obtenemos es una estimación del valor 
del cuantil. 
Cuantil = Li(cuantil o fractil) + 
n ∙ h
100 − F(i−1)
fi
 . ai 
 
De la Tabla II 
Q3 → 75% de 96 =
75.96
100
= 72 
Q3 = 4 +
72 − 53
21
∙ 2 = 5,81 minutos 
Interpretación: El 75% de los procesos realizados duraron 5,81 minutos o menos y el 25% restante de 
los procesos 5,81 minutos o más. 
 
MEDIDAS DE VARIABILIDAD O DISPERSIÓN 
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), 
procederemos al análisis descriptivo de los mismos. Para variables categóricas o cualitativas, como el 
sexo por ejemplo, se quiere conocer el número de casos en cada una de las categorías, reflejando 
habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. 
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se 
ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: 
a. ¿Alrededor de qué valor se agrupan los datos? 
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy 
dispersos? 
Las medidas de tendencia central vienen a responder a la primera pregunta. La medida más evidente 
que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. Otra 
medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante 
de los extremos. Si la media y la mediana son iguales, la distribución de la variable es simétrica. La 
media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a 
dichos cambios. Por último, otra medida de tendencia central, no tan usual como las anteriores, es la 
moda. 
Es decir que estas medidas de centralización, sirven para describir un aspecto de los datos, pero no 
nos dicen nada acerca de otro aspecto de igual importancia: la dispersión de los valores observados. 
Un promedio como la Media o la Mediana sólo localizan el centro de los datos. Eso es valioso desde ese 
punto de vista, pero un promedio no nos dice nada acerca de la dispersión de los datos, para esto 
utilizaremos las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión es 
pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces la 
media se considera representativa de los datos, la Media es un promedio confiable. Inversamente, una 
medida de dispersión grande indica que la Media no es confiable, no es representativa de los datos. 
Para entender mejor esto, supongamos que tenemos dos muestras de tamaño tres: 
10, 20 y 60 28,29 y 33 
La media aritmética de ambas muestras es 30. Sin embargo, existe una diferencia esencial entre ellas, 
puesto que los valores de la primera muestra se encuentran más separados que los de la segunda. Es 
por esto, que es necesario que introduzcamos alguna medida de variabilidad que distinga a las dos 
muestras. La importancia práctica de tales medidas, se evidencia por ejemplo, en que una muy 
pequeña variabilidad en un proceso de producción de cierto producto, puede indicar alta calidad. 
Por lo tanto toda MTC, para que brinde una información eficaz, debe ir acompañado de alguna Medida 
de Variabilidad. 
 
Estadística y Análisis de Datos 
 
 
9 
 
 
RANGO o AMPLITUD MÁXIMA 
Definición: es la diferencia entre el máximo y el mínimo valor del conjunto de datos. 
R = X
máx
 – X
mín
 
Ventajas 
• Útil cuando se quiere conocer la extensión de las variaciones extremas (valor máximo de la 
dispersión). 
• Fácil de calcular. 
Desventajas 
• No es una medida de dispersión con respecto al centro de la distribución. 
• En su cálculo intervienen sólo 2 valores observados. Por lo tanto no nos dice nada respecto de 
la variabilidad del resto del conjunto, 
• No se puede calcular en distribuciones con límite de clase abierto. 
• Está influenciada por los valores extremos, por lo que resulta ser una medida inestable que 
queda afectada por el tamaño de la muestra. (si se agrega o se quita un dato, puede variar su 
resultado en forma significativa). 
 
De la Tabla I 
R= (5 – 0) = 5 materias 
Interpretación: Existe una amplitud máxima de 5 materias aprobadas entre los estudiantes 
observados. 
 
Rango intercuartílico ó Desviación Intercuartil 
Definición: es la variación máxima que sufre el 50% de los valores de la variable (las ¾ partes menos 
¼). Este desvío deja mucho a cada lado (el 25% de la información). 
DI = Q3 – Q1 
La mediana parte a la distribución en dos partes iguales, pero a veces es más significativo el 50% entre 
Q3 y Q1 porque es un 50% más puro, más homogéneo por ser el 50% central (no toma valores 
extremos, deja de lado el 25% que concentra muy poco y el 25% que concentra mucho). Es decir, hay 
más homogeneidad en el 50% central que entre los dos 50% que divide la mediana (porque éstos 
incluyen los extremos). 
 
 
Medidas de 
Variabilidad o 
Dispersión 
Absolutas 
Rango o Amplitud 
Máxima 
Desvío 
Intercuartil 
Varianza 
Desviación típica 
o estándar 
Relativa 
Coeficiente de 
Variación 
Estadística y Análisis de Datos 
 
 
10 
Ventaja 
• La principal ventaja que presenta el rango intercuartílico frente al rango es que este último se 
suele ver bastante afectado por la presencia de cualquier valor anómalo (anormalmente alto o 
bajo), mientras que el rango intercuartílico es bastante menos sensible a ese tipo de observaciones. 
Por tanto, en ocasiones suele ser preferible utilizar el rango intercuartílico en lugar del rango como 
medida de dispersión de los datos 
• Nos indica la amplitud del 50% central de la distribución, donde se concentran los datos y se 
ubican las MTC. 
Desventaja 
• En su cálculo NO intervienen todos los datos observados. 
 
De la Tabla I 
DI = Q3 – Q1 = (2 materias – 1 materia) = 1 materia 
Interpretación: la diferencia entre el dato que ocupa la posición 75 y el dato que ocupa la posición 
225, previa ordenación de los datos es 1 materia o que la diferencia entre el mayor y el menor del 50% 
de los datos centrales, previa ordenación de los mismos es 1 materia. 
Otra interpretación: El 50% de los alumnos que ocupan la posición central de la distribución de datos, 
según la cantidad de materias aprobadas, tiene una amplitud de 1 materia. 
 
VARIANZA 
Definición: es el promedio de los cuadrados de las desviaciones de los valores muestrales respecto de 
la media aritmética X̅. Se representa por S2. 
S2 =
∑ (xi − X̅)
2n
i=1
n
 
Esta varianza muestral se obtiene como la suma de las diferencias de cuadrados y por tanto tiene como 
unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada. 
Aunque esta fórmula de la varianza muestral es correcta, en la práctica, el denominador que se utiliza, 
en lugar de n, es el valor n1. 
Por tanto, la medida que se utiliza es: 
�̂�𝟐 =
∑ (xi − X̅)
2n
i=1
n − 1
 
El haber cambiado el denominador de n por n1 está en relación al hecho de que esta segunda fórmula 
es una estimación más precisa de la varianza poblacional y posee las propiedades que necesitamos 
para realizar inferencias a la población. Suele denominarse varianza insesgada o cuasi-varianza. De 
ahora en adelante, si no se especifica lo contrario, cada vez que hablemos de varianza nos estaremos 
refiriendo a la insesgada (n  1). El hecho de dividirpor n  1 en lugar de n es apenas apreciable 
cuando n es grande. 
 
Propiedades 
• La varianza es mayor o igual a cero. 
• Si a los datos de un conjunto, le sumamos o restamos una constante k, la varianza del nuevo 
conjunto será igual a la varianza del conjunto anterior. 
• Si a los datos de un conjunto, le multiplicamos o dividimos por una constante k, la varianza del 
nuevo conjunto será igual a la varianza del conjunto anterior multiplicada o dividida por k2. 
 
Ventajas 
 En su cálculo intervienen todos los datos observados. 
 Es una medida de variabilidad promedio respecto a una MTC (X̅). 
Desventaja 
 Se pierde la unidad de medida original (queda afectada al cuadrado). 
 
DESVIACIÓN TÍPICA o DESVIACIÓN ESTÁNDAR 
Definición: es la raíz cuadrada de la varianza, y se representa por S. Expresa la dispersión de la 
distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la 
medida de dispersión más utilizada en estadística. 
Estadística y Análisis de Datos 
 
 
11 
S = √
∑ (xi − X̅)
2n
i=1
n
 
Aunque esta fórmula de la desviación estándar muestral es correcta, en la práctica, el denominador 
que se utiliza, en lugar de n, es el valor n1. 
Por tanto, la medida que se utiliza es: 
S = √
∑ (xi − X̅)
2n
i=1
n − 1
 
El haber cambiado el denominador de n por n1 está en relación al hecho de que esta segunda fórmula 
es una estimación más precisa de la desviación estándar verdadera de la población y posee las 
propiedades que necesitamos para realizar inferencias a la población. 
 
Ventajas 
 En su cálculo intervienen todos los datos observados. 
 Es una medida de variabilidad promedio respecto a una MTC (X̅). 
 Esta expresada en las mismas unidades que la variable en estudio. 
 
Como medidas de variabilidad más importantes, conviene destacar algunas características de la 
varianza y el desvío estándar: 
 Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy 
alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación estándar 
también lo serán. 
 Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación estándar. 
 Cuando todos los datos de la distribución son iguales, la varianza y el desvío estándar son iguales a 
0. 
 Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor 
será detectado. 
 Ambas son sensibles a la variación de cada una de los datos, es decir, si un dato cambia, cambia con 
ella la varianza. La razón es que si miramos su definición, la varianza es función de cada una de las 
observaciones. 
 La desviación típica tiene la propiedad de que en el intervalo (X̅ − 2S, X̅ + 2S) se encuentra, al 
menos, el 75% de las observaciones Incluso si tenemos muchos datos y estos provienen de una 
distribución normal (se definirá este concepto más adelante), podremos llegar al 95 %. 
 
De la tabla I 
Varianza 
Ŝ2 = 1,990234114 materias2 
Interpretación: La variabilidad promedio del número de materias aprobadas respecto a su media al 
cuadrado es de 1,990234114 materias2 
 
Desviación típica 
Ŝ= 1,410756575 materias 
Interpretación: La variabilidad promedio del número de materias aprobadas respecto a su media es 
de 1,410756575 materias 
 
COEFICIENTE DE VARIACIÓN 
Es una medida de dispersión relativa que se expresa generalmente en porcentajes. Las medidas de 
dispersión que vimos anteriormente, son “absolutas” y son útiles para describir la dispersión de un 
solo conjunto de datos. Si dos conjuntos van a ser comparados, los valores absolutos son convenientes 
para éste fin, únicamente si los promedios de dichos conjuntos son más o menos iguales y si por otra 
parte se refieren a un mismo fenómeno. Por ejemplo, no tiene sentido comparar cual entre dos 
compañías A y B presenta mayor dispersión en los salarios, si la primera paga en dólares y la segunda 
paga en pesos argentinos. Tampoco tiene sentido comparar, por ejemplo, cual de dos productos de la 
Estadística y Análisis de Datos 
 
 
12 
competencia presenta mayor dispersión en su contenido, si uno de ellos tiene una presentación en 
onzas, mientras que el otro tiene una presentación en gramos. 
Es necesario por lo tanto, disponer de una medida que nos permita comparar qué tan pequeña o qué 
tan grande es una medida de dispersión absoluta como la desviación estándar. El coeficiente de 
variación que simbolizamos por CV, es una medida de dispersión relativa que resulta de comparar la S 
con la X̅ del conjunto, así: CV = 
S
X̅
 
Ejemplo: 
Si tenemos dos conjuntos de estudiantes A y B, cuyo peso presenta la misma dispersión: S = 12 kilos, 
pero el conjunto A tiene un peso promedio de 72 kilos, mientras que el conjunto B tiene un peso 
promedio de 61 kilos; es claro, que desde el punto de vista de la dispersión absoluta, la variabilidad en 
ambos conjuntos es idéntica. No obstante, también es claro, que relativamente, el conjunto A presenta 
mayor homogeneidad en sus pesos, ya que 12 respecto a 72, es relativamente menor que 12 respecto 
a 61, puesto que como observamos a continuación, CV
A 
< CV
B
 
CVA = 
12
72
∙ 100 = 16,67% CVB = 
12
61
∙ 100 = 19,67% 
Siguiendo el análisis, el coeficiente de variación, podría ser muy importante, para conocer cómo 
evoluciona un conjunto desde el punto de vista de su dispersión, a través del tiempo. 
 
Propiedades 
• Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es 
esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad 
debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para la que 
tenemos con seguridad que X̅ > 0. 
• No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos 
una cantidad positiva, b > 0, para tener Y = X + b, entonces CVY < CVX. 
• Es invariante a cambios de escala. Así, por ejemplo, el coeficiente de variación de una variable 
medida en metros es una cantidad adimensional que no cambia si la medición se realiza en 
centímetros. 
 
Ventajas 
• Es la única medida de dispersión que permite comparar el nivel de dispersión de dos muestras de 
variables diferentes. 
• Emplea toda la información disponible en su cálculo. 
• Fácil de calcular. 
Desventaja 
• No es una medida de dispersión con respecto al centro de la distribución de los datos. 
 
DISTRIBUCIÓN NORMAL, CAMPANA DE GAUSS 
Esta distribución será ampliada con más detalles en el transcurso del desarrollo de la Asignatura. 
Es la distribución teórica más conocida y utilizada en Estadística. Fue creada por el matemático GAUSS 
con el objeto de generalizar muchas distribuciones referidas a ciertos fenómenos de la naturaleza (por 
ejemplo: estatura y peso por sexo) que presentaban características similares. 
Características generales de una distribución normal: 
o Relaciona la media con la desviación estándar que son sus parámetros: µ y σ 
o Tiene forma de campana. Es una curva simétrica: tiene un pico máximo en el centro y 
decrece constantemente hacia los extremos. 
o No tiene límites hacia sus extremos, es decir, no corta nunca el eje de abcisas. 
o La media aritmética coincide con el modo y la mediana. 
o El área bajo la curva representa del tamaño de la muestra. 
Es una distribución que se utiliza para describir otras características de una distribución en particular 
comparándola con ella (por ejemplo asimetría y curtosis). También para determinar valores de datos 
atípicos. 
Cuando estamos en presencia de una distribución de datos que se aproxima a la distribución normal 
podemos también obtener fracciones de datos que caen dentro de ciertos límites. La más usada es la 
regla (68-95-99). 
 
Estadística y Análisis de Datos 
 
 
13 
Mo = Me = X̅ X̅ Me Mo Mo Me X̅ 
Simétrica Asimétrica a derecha Asimétrica a izquierda 
 (X̅  Mo) = 0 
 𝜇 ± 𝜎 = 68% 
xi 
- 𝜇 ± 𝜎 
Seencuentra aproximadamente el 
68% de los valores de datos. 
 
- 𝜇 ± 2𝜎 
Se encuentra aproximadamente el 
95 % de los valores de datos. 
 
- 𝜇 ± 3𝜎 
Se encuentra aproximadamente el 
99,7% de los valores de datos. 
 
𝜇 ± 3𝜎 = 99,7% 
𝜇 ± 2𝜎 = 95% 
 μ 
Regla empírica para datos: (68 – 95 – 99) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
MEDIDAS DE FORMA 
Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características 
especiales como simetría, asimetría y nivel de apuntamiento que la clasifiquen en un tipo particular de 
distribución. Las medidas de forma son necesarias para determinar el comportamiento de los datos y 
así, poder adaptar herramientas para el análisis probabilístico. Algunas medidas de forma son: 
• Asimetría: coeficientes de asimetría de Fisher y Pearson. 
• La ley normal. 
• Curtosis o aplastamiento: coeficiente de Fisher. 
 
ASIMETRIA: Con estas medidas se trata de establecer si una distribución de datos es sesgada o no (si 
es asimétrica o no). 
 
 
 
 
 
 
 
 
 
 
 
 
 
Podemos establecer que: 
 < 0 Asimétrica a izquierda, sesgada a la izquierda 
 (X̅  Mo) = 0 Simétrica 
 > 0 Asimétrica a derecha, sesgada a la derecha 
Inconvenientes: 
1. Como es una medida absoluta, el resultado se expresa en unidades originales de la 
distribución. 
2. La misma cantidad absoluta de asimetría tiene un diferente significado para distintas series 
con distintos grados de variabilidad 
Se eliminan los inconvenientes anteriores, obteniendo el Coeficiente de Asimetría de PEARSON. 
AP =
X̅ − Mo
Ŝ
 
Pearson comprobó que en distribuciones moderadamente asimétricas: X̅ − Mo ≈ 3 ∙ (X̅ − Me) 
Por lo tanto 
AP =
3 ∙ (X̅ − Me)
Ŝ
 
 (X̅  Mo) > 0 (X̅  Mo) < 0 
Estadística y Análisis de Datos 
 
 
14 
 Si Ap > 0  la distribución será asimétrica positiva o a derecha (desplazada hacia la derecha). 
 Si Ap < 0  la distribución será asimétrica negativa o a izquierda (desplazada hacia la izquierda). 
 Si Ap = 0  la distribución será simétrica. 
La 2da expresión es la más usada, dado que la Me es más estable que el Mo. 
Una distribución es sesgada, si NO es simétrica. 
En algunas bibliografías establecen que si: Ap ≤ 1 o Ap ≥ 1 puede considerarse que la distribución 
de datos es significativamente sesgada. 
Otra forma de calcular la asimetría, es utilizar el llamado coeficiente de FISHER que representaremos 
como AF y responderá a la siguiente expresión matemática: 
AF =
∑ (xi − X̅)
3n
i=1
n. Ŝ3
 
Según sea el valor de AF, diremos que la distribución es asimétrica a derecha o positiva, a izquierda o 
negativa, o simétrica, o sea: 
 Si AF > 0  la distribución será asimétrica positiva o a derecha (desplazada hacia la derecha). 
 Si AF < 0  la distribución será asimétrica negativa o a izquierda (desplazada hacia la izquierda). 
 Si AF = 0  la distribución será simétrica. 
 
De la Tabla I 
Ap = 3.(X̅  Me)/Ŝ = 3. (1,58 − 1)/1,410756575 = 1,233381 
Interpretación: La distribución de materias aprobadas de los 300 estudiantes observados es 
asimétrica a derecha. 
En la representación gráfica podemos observar la asimetría de la distribución de los datos 
 
COEFICIENTE DE CURTOSIS 
Es un coeficiente que nos permite determinar la agudeza de una distribución, comparándola con la 
distribución normal. 
Se aplica a distribuciones unimodales y simétricas o ligeramente asimétricas. 
Coeficiente de curtosis de Fisher 
Para calcularlo utilizaremos la expresión 
CF =
∑ (xi − X̅)
4n
i=1
n. Ŝ4 
− 3 
• Si CF > 0 la distribución será leptocúrtica o apuntada, los datos están muy concentrados en la media, 
siendo una curva muy apuntada. 
• Si CF = 0 la distribución será mesocúrtica o normal 
• Si CF < 0 la distribución será platicúrtica o menos apuntada que lo normal, muy poca concentración 
de datos en la media, presentando una forma muy achatada. 
 
 
Bibliografía 
 John Neter , William Wasserman y Whitmor . Fundamento de Estadística. Compañía Editorial 
Continental, 1980 
 Mendenhall, W. ; Wackerly D.; Scheaffer, Richard - Estadística Matemática con Aplicaciones Grupo 
Editorial Iberoamericana – 1994 
 Triola,M. – Estadística Elemental- Addison Wesley – 2000.

Continuar navegando

Otros materiales