Logo Studenta

80P Fundamentos De Estadistica Basica - Pablo Cazau

¡Este material tiene más páginas!

Vista previa del material en texto

Fundamentos de Estadística 
Pablo Cazau 
 
Alejandro
Nota adhesiva
www.ALEIVE.org
Prefacio 
 
Capítulo 1: Introducción a la estadística 
1.1 Definición y utilidad de la estadística 
1.2 Clasificaciones de la estadística 
1.3 Población y muestra 
1.4 Estructura del dato 
1.5 La medición 
 
Capítulo 2: Estadística descriptiva 
2.1 Generalidades 
2.2 Ordenamiento y agrupación de los datos: matrices y tablas 
2.3 Visualización de los datos: gráficos 
2.4 Síntesis de los datos: medidas estadísticas de posición 
2.5 Síntesis de los datos: medidas estadísticas de dispersión 
2.6 Síntesis de los datos: asimetría y curtosis 
Notas 
 
Capítulo 3: Probabilidad y curva normal 
3.1 El concepto de probabilidad 
3.2 Definición y características de la curva normal 
3.3 Puntajes brutos y puntajes estandarizados 
3.4 Aplicaciones de la curva normal 
Notas 
 
Capítulo 4: Correlación y regresión 
4.1 Introducción 
4.2 El análisis de correlación 
4.3 Cálculo gráfico de la correlación 
4.4 Cálculo analítico de la correlación 
4.5 Un ejemplo: construcción y validación de tests 
4.6 El análisis de regresión 
4.7 Cálculo analítico de la regresión 
4.8 Cálculo gráfico de la correlación 
Notas 
 
Capítulo 5: Estadística inferencial 
5.1 Introducción 
5.2 Estimación de parámetros 
5.3 Prueba de hipótesis 
5.4 Ejemplos de pruebas de hipótesis 
5.5 El concepto de significación estadística 
Notas 
 
Referencias bibliográficas 
Otras fuentes consultadas 
 
Anexos 
ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUÍA 
ANEXO 2: TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA 
Tabla 1 – Áreas desde z hacia la izquierda 
Tabla 2 – Áreas desde z = 0 hacia la izquierda o hacia la derecha 
ANEXO 3: TABLA DE LA DISTRIBUCIÓN t 
 
 
Fundamentos de estadística 
Pablo Cazau 
 
PREFACIO
 
El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras 
universitarias de grado y posgrado que cursan asignaturas donde se enseña la estadística como 
herramienta de la metodología de la investigación científica. 
Se brinda aquí un panorama general e introductorio de los principales temas de una disciplina que opera 
en dos grandes etapas: la estadística descriptiva y la estadística inferencial. También se desarrollan los 
conceptos de probabilidad y curva normal, básicos para la comprensión de la estadística inferencial, y los 
conceptos de correlación y regresión vinculados, respectivamente, con las etapas descriptiva e 
inferencial. 
 
Pablo Cazau. Licenciado en Psicología y Profesor de Enseñanza Media y Superior en Psicología (UBA). 
Buenos Aires, Enero 2006. 
 
Todos los derechos reservados 
 
 
CAPÍTULO 1: INTRODUCCION A LA ESTADISTICA 
 
1.1 DEFINICIÓN Y UTILIDAD DE LA ESTADÍSTICA 
 
La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran 
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos. 
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de 
ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística 
describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto 
de la población. Por ejemplo, aplicada a la investigación científica, hace inferencias cuando emplea 
medios matemáticos para establecer si una hipótesis debe o no ser rechazada. 
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química, 
biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc. 
Cuando en cualquiera de estas disciplinas se trata de establecer si una hipótesis debe o no ser rechazada, 
no siempre es indispensable la estadística inferencial. 
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadística 
para rechazar la hipótesis “el dado está cargado”. Si sale un dos en 58 ocasiones sobre 60, tampoco se 
necesita la estadística para aceptar la hipótesis “el dado está cargado”. 
Pero, ¿qué ocurre si el número dos sale 20, 25 o 30 veces? En estos casos de duda, la estadística 
interviene para determinar hasta qué cantidad de veces se considerará rechazada la hipótesis (o bien 
desde qué cantidad de veces se la considerará aceptada). En otras palabras, la estadística interviene 
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado 
cargado. 
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se 
puede rechazar la hipótesis “la persona es adivina”. Si, en cambio, acierta en el 99% de los casos el color 
de las cartas, se puede aceptar la mencionada hipótesis. Los casos de duda corresponden a porcentajes 
de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadística para 
despejarlos. 
La importancia de la estadística en la investigación científica radica en que la gran mayoría de las 
investigaciones son „casos de duda‟. 
 
1.2 CLASIFICACIONES DE LA ESTADÍSTICA 
 
Existen varias formas de clasificar los estudios estadísticos. 
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se 
ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen 
la muestra (por ejemplo, conclusiones con respecto a la población). 
Tanto la estadística descriptiva como la estadística inferencial se ocupan de obtener datos nuevos. La 
diferencia radica en que la estadística descriptiva procede a resumir y organizar esos datos para facilitar 
su análisis e interpretación, y la estadística inferencial procede a formular estimaciones y probar hipótesis 
acerca de la población a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas 
últimas operaciones llevarán siempre a conclusiones que tienen algún grado de probabilidad, la teoría de 
la probabilidad constituye una de sus herramientas principales. Téngase presente que en sí misma la 
teoría de la probabilidad no forma parte de la estadística porque es otra rama diferente de la matemática, 
pero es utilizada por la estadística como instrumento para lograr sus propios objetivos. 
La estadística descriptiva también incluye –explícita o implícitamente- consideraciones probabilísticas, 
aunque no resultan ser tan importantes como en la estadística inferencial. Por ejemplo, la elección de un 
determinado estadístico para caracterizar una muestra (modo, mediana o media aritmética) se funda 
sobre ciertas consideraciones implícitas acerca de cuál de ellos tiene más probabilidades de representar 
significativamente el conjunto de los datos que se intenta resumir. 
Tanto la estadística descriptiva como la inferencial implican, entonces, el análisis de datos. “Si se realiza 
un análisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el 
área de la estadística descriptiva… Por otro lado, la estadística inferencial no se refiere a la simple 
descripción de los datos obtenidos, sino que abarca las técnicas que nos permiten utilizar los datos 
muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extraídos dichos 
datos” (Pagano, 1998:19). 
Kohan, por su parte, sintetiza así su visión de las diferencias entre ambos tipos de estadística: “Si 
estudiamos una característica de un grupo, sea en una población o en una muestra, por ejemplo talla, 
peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones 
estamos en la etapa de la estadística descriptiva. Si estudiamos en una muestra una característica 
cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población 
correspondiente, estamos haciendo estadística inductiva o inferencial, y como estas inferencias no 
pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones”(Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de 
estadística son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusión 
es sólo probable. 
2) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada 
(estudia una sola variable, como por ejemplo la inteligencia), una estadística bivariada (estudia la 
relación entre dos variables, como por ejemplo inteligencia y alimentación), y una estadística 
multivariada (estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y 
la alimentación con la inteligencia). 
El siguiente esquema ilustra la relación entre dos clasificaciones de la estadística: descriptiva / inferencial 
y univariada / bivariada. 
 
 
 
La estadística descriptiva se ocupa de muestras, y la estadística inferencial infiere características de la 
población a partir de muestras. 
A su vez, ambas etapas de la estadística pueden estudiar una variable por vez o la relación entre dos o 
más variables. Por ejemplo, a) en el caso de la estadística univariada, el cálculo de medidas de posición y 
dispersión en una muestra corresponde a la estadística descriptiva, mientras que la prueba de la media 
corresponde a la estadística inferencial; b) en el caso de la estadística bivariada, el análisis de correlación 
de variables en una muestra corresponde estrictamente hablando a la estadística descriptiva, mientras 
que el análisis de regresión o las pruebas de hipótesis para coeficientes de correlación (Kohan N, 
1994:234) corresponden a la estadística inferencial. 
3) Según el tiempo considerado.- Si se considera a la estadística descriptiva, se distingue la estadística 
estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de 
nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va 
cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos). 
 
1.3 POBLACIÓN Y MUESTRA 
 
Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles 
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se 
llama población. 
No debe confundirse la población en sentido demográfico y la población en sentido estadístico. 
La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas 
las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos 
referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de 
un país, el color de todas las ratas de una ciudad). 
Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población 
estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus 
estudios universitarios. 
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, según 
que correspondan a muchas personas o a una sola, y también según que hayan sido recolectados en un 
instante de tiempo determinado, o bien a lo largo del tiempo. 
 
 De muchos individuos De un solo individuo 
En un instante de tiempo Notas de todos los alumnos en el 
primer parcial de tal mes y tal año. 
Notas de un solo alumno en el 
primer parcial de las materias que 
POBLACION 
 
 
MUESTRA 
 
 
Parámetros 
 
 
x1 x2 xn 
 
 
Estadísticos 
 
 
x1 y1 
 
 
x  y 
 
 
x  y 
 
 
Una variable 
 
 
Dos (o más) variables 
 
 
cursa en ese momento. 
A lo largo del tiempo Notas de todos los alumnos durante 
los 6 años de carrera. 
Notas de un alumno a lo largo de 
los 6 años de carrera. 
 
Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la 
mayoría de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razón por la cual se 
extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a 
un subconjunto de la población, y que puede o no ser representativa de la misma. 
Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de 
Buenos Aires, una muestra podría ser el conjunto de edades de 2000 estudiantes de la provincia de 
Buenos Aires tomados al azar. 
 
1.4 ESTRUCTURA DEL DATO 
 
Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la 
materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener 
un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil. 
Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está 
en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar. 
De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable 
de una unidad de análisis. Por ejemplo, “Luis tiene 1.70 metros de estatura” es un dato, donde „Luis‟ es 
la unidad de análisis, „estatura‟ es la variable, y „1.70 metros‟ es la categoría asignada. 
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una 
variable y una categoría. 
 
La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una 
persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa. 
La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo 
puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje 
alcanzado para un animal, el peso específico para una sustancia química, el nivel de „salud‟ para una 
dentadura, y el tamaño para una mesa. 
Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de 
datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica, 
propiedad o atributo (variable). 
Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada 
variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse 
una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable 
ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones 
de sexo de los habitantes). 
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son 
masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad 
pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se 
expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también 
una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de 
piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una 
variable cuantitativa. 
 
Datos individuales y datos estadísticos.- Un dato individual es un dato de un solo individuo, mientras 
que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la 
edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de 
personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede 
ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón 
un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o 
población. 
Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el 
promedio de ingresosmensuales de las personas de una muestra), mientras que los datos estadísticos 
descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos 
mensuales de las personas de una población) (Kohan N, 1994:143). 
 
1.5 LA MEDICIÓN 
 
Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse 
medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para 
determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una 
medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de 
análisis (Martín). 
 
A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparación: 1) 
comparar una cantidad con otra tomada como unidad Sentido clásico de comparación); 2) comparar dos 
categorías de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categorías de una misma 
variable en distintos sujetos al mismo tiempo; y 4) categorías de variables distintas (debe usarse puntaje 
estandarizado), en el mismo sujeto o en sujetos distintos. 
 
Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición, 
más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo 
mismo decir que una persona es alta, a decir que mide 1,83 metros. 
Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar 
como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la 
obtención del dato o resultado de la medición será diferente: 
 
Ejemplos de datos en diferentes niveles de medición 
 
Nivel de 
medición 
Nivel nominal Nivel ordinal Nivel cuantitativo 
discreto 
Nivel cuantitativo 
continuo 
DATO Martín es 
electricista 
Elena terminó la 
secundaria 
Juan tiene 32 
dientes 
María tiene 70 
pulsaciones por 
minuto 
Unidad de 
análisis 
Martín Elena Juan María 
Variable Oficio Nivel de 
instrucción 
Cantidad de piezas 
dentarias 
Frecuencia cardíaca 
Categoría o 
valor 
Electricista Secundaria 
completa 
32 70 
Unidad de 
medida 
------------- ------------ Diente Pulsaciones por 
minuto 
 
En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es 
electricista). 
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden 
ser ordenadas en una serie creciente o decreciente (la categoría „secundaria completa‟ puede ordenarse 
en una serie, pues está entre „secundaria incompleta‟ y „universitaria incompleta‟). 
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal 
que la categoría asignada permita saber „cuánto‟ mayor o menor es respecto de otra categoría, es decir, 
especifica la distancia o intervalo entre categorías (por ejemplo, la categoría 70 es el doble de la 
categoría 35). 
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es 
aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por 
ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua 
cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por 
ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles). 
Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la 
variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc), 
mientras que será continua si interesan también los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg, 
etc). Obviamente, al considerar una variable como continua se obtendrá mayor precisión, es decir, mayor 
información. 
 
La precisión es una cualidad importante de la medición. Se pueden hacer mediciones más precisas y menos 
precisas, o tan precisas como lo permita el instrumento de medición. El primer nivel de medición es el menos 
preciso, y el último el más preciso. Por ejemplo, una mujer puede estar interesada en „medir‟ el amor de su 
pareja, para lo cual podrá interrogarla solicitándole diferentes grados de precisión: ¿me querés? (nivel nominal), 
¿me querés más que a la otra? (nivel ordinal), ¿Cuánto me querés, del 1 al 10? (nivel cuantitativo). 
De la misma manera, diferentes grados de precisión para la variable temperatura pueden ser: A es un objeto 
caliente (nivel nominal), A es más caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los 
ejemplos del amor y de la temperatura ilustran también el hecho de que una variable puede en principio medirse 
en cualquiera de los niveles de medición. 
 
Los niveles de medición pueden también ser clasificados de acuerdo a un criterio diferente, que afecta 
específicamente a los dos últimos. Así, los niveles de medición pueden ser clasificados como nominal, 
ordinal, de intervalos iguales y de cocientes o razones. 
Más allá de sus diferentes propiedades matemáticas, el nivel de intervalos iguales incluye un cero relativo 
o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero 
absoluto o real representa la ausencia „real‟ de la variable (cero metros implica ausencia de longitud), 
mientras que un cero relativo o arbitrario no (cero grado centígrados no implica ausencia de 
temperatura). 
Existen ciertas variables a las cuales no puede asignársele un „cero real‟, por cuanto no se considera que 
esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por 
menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas. 
 
CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA 
 
2.1 GENERALIDADES 
 
El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de 
datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos 
y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y, 
eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos. 
Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas 
descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución 
de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las 
medidas de asimetría y curtosis permiten resumirlos reduciéndolos a un solo dato. 
 
Secuencia para organizar y resumir datos individuales 
 
A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y 
organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden 
determinado, como puede apreciarse en el siguiente esquema: 
 
 
 
Como puede verse: 
a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc. 
b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en 
unas pocas páginas). 
c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en 
una sola página). 
d) Los datos quedan visualizados mediante gráficos. 
e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la 
información en uno o dos renglones). 
Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o 
con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar 
adecuadamente descrita. 
Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda 
guardada la nueva información, y b) la desaparición de considerable informaciónirrelevante. 
Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para 
ello, que e la técnica descriptiva (por ejemplo, la matriz de datos). 
 
2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS 
 
Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de 
datos y luego a agruparlos en una tabla de frecuencias. 
DATOS RECOLECTADOS 
(entrevistas, cuestionarios, tests, etc) 
 
DATOS ORDENADOS 
(matriz de datos) 
 
DATOS AGRUPADOS POR 
FRECUENCIA 
(tabla de frecuencias) 
 
DATOS AGRUPADOS POR 
INTERVALOS 
(tabla de frecuencias por intervalos) 
 
DATOS VISUALIZADOS 
(gráficos) 
 
DATOS SINTETIZADOS 
(medidas estadísticas y medidas de asimetría y curtosis) 
 
La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son 
datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar 
tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y 
agrupar los datos según cada nivel de medición de la variable: 
 
Ejemplos de organización de los datos según el nivel de medición 
 
 Datos ordenados Datos agrupados por frecuencia Datos agrupados por 
intervalos 
Nivel nominal 
(Ejemplo: 
variable 
religión) 
Matriz de datos 
Sujeto x (religión) 
Juan Católica 
Pedro Católica 
María Judía 
Antonio Protestante 
Luis Protestante 
José Protestante 
 
Tabla de frecuencias 
x (religión) f 
Católica 2 
Judía 1 
Protestante 3 
 n = 6 
 
f = frecuencia 
n = tamaño de la muestra 
 
 
Nivel ordinal 
(Ejemplo: 
variable clase 
social) 
Matriz de datos 
Sujeto x (clase 
social) 
Juan Alta 
Pedro Media 
María Media 
Antonio Media 
Luis Baja 
José Baja 
 
Tabla de frecuencias 
x (clase social) f 
Alta 1 
Media 3 
Baja 2 
 n = 6 
 
f = frecuencia 
n = tamaño de la muestra 
 
Nivel 
cuantitativo 
(Ejemplo: 
variable edad) 
Matriz de datos 
Sujeto x (edad) 
Juan 15 
Pedro 15 
María 15 
Antonio 16 
Luis 16 
José 16 
Ana 16 
Gabriela 16 
Susana 17 
Martín 17 
Sergio 17 
Pablo 17 
Daniel 17 
Graciela 17 
Daniela 17 
Beatriz 17 
Oscar 18 
Felipe 18 
Alberto 18 
Mónica 19 
Marta 19 
Mariana 20 
 
Tabla de frecuencias 
x (edad) f 
15 3 
16 5 
17 8 
18 3 
19 2 
20 1 
 n = 22 
 
f = frecuencia 
n = tamaño de la muestra 
Tabla de frecuencias por 
intervalos 
x (edad) f 
15-16 8 
17-18 11 
19-20 3 
 n = 22 
 
f = frecuencia 
n = tamaño de la muestra 
 
Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información 
mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de 
este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de 
difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus 
frecuencias suelen denominarse distribución de frecuencias (13). 
 
Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra 
y los intervalos (en este último caso sólo para variables cuantitativas). 
 
a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por 
ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato 
“clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces. 
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente 
tabla ilustrativa: 
 
Tipos de frecuencias que pueden indicarse en una tabla de frecuencias 
 
x (edad) f f% F F% fr Fr 
15 3 15% 3 15% 0.15 0.15 
16 7 35% 10 50% 0.35 0.50 
17 8 40% 18 90% 0.40 0.90 
18 2 10% 20 100% 0.10 1 
 n = 20 n = 100% ------ ------ n = 1 ------ 
 
Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que 
hay tres personas de 15 años. La suma de todas las frecuencias absolutas equivale al tamaño de la 
muestra. 
Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia 
porcentual 15% indica que el 15% de la muestra tiene la edad de 15 años. La suma de todas las 
frecuencias porcentuales es 100%. 
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la 
frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades 
16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el 
tamaño de la muestra. 
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas. 
Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un 
dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera 
como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%. 
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas 
anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están 
comprendidas entre 15 y 17 años. 
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las 
relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas 
frecuencias parciales. 
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia 
total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra 
de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en 
términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir 
200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta 
parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias 
porcentuales o en frecuencias relativas (o proporciones). 
 
2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la 
cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el 
tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total. 
 
3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores 
ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila 
se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual 
a la suma de frecuencias de los valores en él incluídos (2). Los intervalos presentan algunas 
características, que son las siguientes: 
Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores 
de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años 
tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-
25 años tiene una amplitud de 6, puesto que se consideran seis valores. 
En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando 
al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6. 
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse 
valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se 
encontrarán valores intermedios entre 16 y 17 años. 
Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal 
que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los 
intervalos han de ser mutuamente excluyentes,de manera tal que cuando se trata de variables discretas, 
no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no 
se podrá saber con seguridad en qué intervalo ubicar dicho valor. 
El problema se puede presentar con las variables continuas, donde, por definición, podría aparecer algún 
valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua „ingresos 
mensuales‟ y se consideran en ella los intervalos 1000-2000 dólares y 3000-4000 dólares, puede ocurrir 
que un dato obtenido de la realidad sea 2500 dólares, con lo cual no podrá ser registrado en ningún 
intervalo. En tal caso se deberían reorganizar los intervalos como 1000-2999 dólares y 3000-4999 
dólares, con lo cual el problema estaría resuelto. 
Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dólares, en cuyo caso en principio 
deberían reorganizarse nuevamente los intervalos como 1000-2999,50 dólares y 2999,51-4999 dólares. 
La forma de reorganizar los intervalos dependerá entonces del grado de precisión que pretenda el 
investigador o del grado de precisión del instrumento de medición disponible. 
Límites del intervalo.- Todo intervalo debe quedar definido por dos límites: un límite inferior y un límite 
superior. Estos límites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considérese el 
siguiente ejemplo: 
 
Límites aparentes Límites reales 
95-99 94.5-99.5 
90-94 89.5-94.5 
85-89 84.5-89.5 
80-84 79.5-84.5 
75-79 74.5-79.5 
 
Si la variable considerada es discreta, carecerá de sentido la distinción entre límites reales o aparentes. 
Si se conviene que los valores que la variable puede adoptar son números enteros, se considerarán 
solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los 
valores „reales‟ que puedan haber, que no son fraccionarios. 
Sólo en el caso de las variables continuas adquiere sentido la distinción entre límites reales y aparentes. 
Si la variable es continua, deberían tenerse en cuenta los límites reales. Por ejemplo, si un valor resulta 
ser 94.52, entonces será ubicado en el intervalo 94.5-99.5. Sin embargo, aún en estos casos, lo usual es 
omitir los límites reales y presentar sólo los límites aparentes (Pagano, 1998:39). En todo caso, los 
límites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en 
un gráfico. 
En principio, en ningún caso deberá haber una superposición de valores, como en el caso de los 
intervalos 20-21 y 21-22, donde el valor 21 está incluído en ambos intervalos, violándose así la regla de 
la mutua exclusión. Si acaso se presentara esta situación, o bien podrá ser adjudicada a un error del 
autor de la tabla, o bien deberá traducírsela como 20-20.99 y 21-22.99. 
Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los límites superior e inferior, 
es decir, el punto medio del intervalo se calcula sumando ambos límites y dividiendo el resultado por dos. 
Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular 
la media aritmética. 
Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberían ser cerrados, es decir, deberían 
estar especificados un límite superior y uno inferior de manera definida. Sin embargo, en algunos casos 
se establecen también intervalos abiertos, donde uno de los límites queda sin definir. En el siguiente 
ejemplo, ‟18 o menos‟ y ‟29 o más‟ son intervalos abiertos. Obviamente, en este tipo de distribución los 
intervalos dejan de ser de tamaño constante. 
 
Intervalos 
18 o menos 
19-23 
24-28 
29 o más 
 
Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamaño de los 
mismos: cuanto menor tamaño tienen los intervalos, más numerosos serán. 
El solo hecho de emplear intervalos supone una cierta pérdida de la información. Por ejemplo, si se 
considera el intervalo 15-18 años, quedará sin saber cuántas personas de 16 años hay. Para reducir esta 
incertidumbre, podría establecerse un intervalo menor (15-16 años), pero con ello habrá aumentado la 
cantidad de intervalos hasta un punto donde la información se procesará de manera más difícil. 
Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder información y presentar 
los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo 
equilibrio entre el tamaño de los intervalos y su cantidad. 
En la práctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la 
experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones 
de datos (3). 
 
Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente 
manera: 
a) Los intervalos deben ser mutuamente excluyentes. 
b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño). 
c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluídos en algún 
intervalo). 
d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54). 
e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54). 
f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites 
reales. 
 
2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS 
 
Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando 
organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras 
es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables 
cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas 
visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida. 
 
Diagrama de tallo y hojas 
 
Esta técnica de visualización de datos es aquí mencionada en primer lugar porque puede ser considerada 
un procedimiento intermedio entre la tabla de frecuencias y el gráfico. Fue creada por Tukey en 1977 
(citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada 
puntuación individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos); 
y b) puede ser considerada un „gráfico‟ si hacemos girar 90° el listado de puntuaciones o datos. 
 
A continuación se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la 
siguiente distribución de datos ordenados: 
 
32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93 
 
Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas 
 
a) Se construye una tabla como la de la izquierda con dos columnas: tallos y 
hojas. 
b) Se identifican cuáles son los valores extremos: 32 y 93. 
c) Se consideran los primeros dígitos de cada valor: 3 y 9. 
d) En la columna “tallos” se colocan los números desde el 3 hasta el 9. 
e) En la columna “hojas” se colocan los segundos dígitos de cada valor que 
empiece con 3, con 4, con 5, etc. 
3 237 
4 269 
5 14578 
6 13358 
7 123335778 
8 355 
9 13 
 
Girando la tabla obtenida 90° hacia la izquierda, se obtendrá algo similar a un gráfico de barras, que 
muestra por ejemplo que la mayor concentración de valores es la que comienza con 7. 
 
Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables, 
es decir, dos conjuntos de datos en los análisis de correlación, como puede apreciarse en el siguiente 
ejemplo: 
 
Hojas (Grupo control) Tallo Hojas (Grupo experimental) 
87655 1 9 
44322110 2 124 
876655 3 5667788899 
111000 4 00023344 
 5 555 
 
Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo 
experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valoresbajos. 
 
Pictograma 
 
Es una representación gráfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada 
cara puede representar 100 personas: 
 
 
 
Sector circular 
 
Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para 
confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados 
(f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas 
(f). 
Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un 
resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°. 
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares 
distintos, uno para varones y otro para mujeres: 
 
x 
(patología) 
Sexo Total f° 
(varones) 
f° 
(mujeres) Varones Mujeres 
Angina 310 287 597 135° 113° 
Bronquitis 297 429 726 130° 169° 
Sarampión 123 120 243 54° 47° 
Otras 95 80 175 41° 31° 
Total 825 916 1691 360° 360° 
 
 
 
Para realizar estos sectores se traza un ángulo de por ejemplo 130° y dentro de coloca la palabra 
“bronquitis”, y así sucesivamente. 
El círculo para mujeres es algo mayor que el círculo para hombres, porque en la muestra hay más 
mujeres que hombres. Para lograr estos tamaños debe calcularse el radio. Por ejemplo, si se ha elegido 
un radio masculino de 4 cm, el radio femenino puede calcularse mediante la fórmula siguiente: 
El radio femenino es igual al radio masculino multiplicado por la raíz cuadrada del n femenino, resultado 
que se dividirá por la raíz cuadrada del n masculino, donde n = tamaño de la muestra de cada sexo. Si el 
radio masculino es 4 cm, con esta fórmula se obtendrá un radio femenino de 4,22 cm. 
 
Diagrama de barras 
 
Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se 
indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De 
esta manera, las barras „más altas‟ tienen mayor frecuencia. 
Varones 
 
Mujeres 
 
100 personas 
 
Varones 
 
Mujeres 
 
Bronquitis 
 
Angina 
 Saram 
pión 
 
Otras 
 
Bronquitis 
 
Angina 
 
Saram 
pión 
 
Otras 
 
Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las 
barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables 
al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen: 
 
 
 
Las barras también pueden disponerse horizontalmente. 
Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas. 
 
Histograma de Pearson 
 
Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se 
compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el 
ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente: 
 
x (longitud) f 
1-1.99 3 
2-2.99 5 
3-3.99 2 
Total 10 
 
 
f 
 
25 
 
20 
 
15 
 
10 
 
5 
 
 
Barras simples 
 
f 
 
25 
 
20 
 
15 
 
10 
 
5 
 
 
Solteros Casados Separados 
x 
 
Barras superpuestas 
 
f 
 
25 
 
20 
 
15 
 
10 
 
5 
 
 
Solteros Casados Separados x 
 
Barras adyacentes 
 
Solteros Casados Separados x 
 
Adolescentes 
 
Adultos 
 
 
 
Como pude apreciarse, en las absisas se indican los límites inferiores de los intervalos. 
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las 
alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo 
correspondiente. 
 
Polígono de frecuencias 
 
Es un gráfico de líneas rectas que unen puntos, siendo cada punto la intersección del punto medio del 
intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el 
polígono de frecuencias sería el siguiente: 
 
 
 
Un polígono de frecuencias puede obtenerse también a partir del histograma correspondiente. Para ello 
basta con indicar los puntos medios de cada línea horizontal superior de cada barra del histograma, y 
luego unirlos con líneas rectas. 
Otra alternativa para este tipo de diagrama es el polígono de frecuencias acumuladas, donde se indican 
las frecuencias acumuladas en lugar de las frecuencias habituales. 
 
Ojiva de Galton 
 
Gráfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los límites 
superiores de cada intervalo (aunque también pueden indicarse los puntos medios de cada intervalo). Por 
ejemplo: 
 
x (longitud) f F 
1-1.99 3 3 
2-2.99 5 8 
3-3.99 2 10 
Total 10 
 
f 
 
5 
 
4 
 
3 
 
2 
 
1 
 
 
1 2 3 4 
x 
 
f 
 
5 
 
4 
 
3 
 
2 
 
1 
 
 
1.5 2.5 3.5 punto medio (xm) 
 
 
 
La ojiva de Galton también puede representar frecuencias acumuladas decrecientes. 
 
2.4 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE POSICIÓN 
 
Los datos individuales pueden ser sintetizados mediante medidas de posición, medidas de dispersión 
(ambas se llaman medidas estadísticas), medidas de asimetría y medidas de curtosis. En este ítem se 
describen las medidas de posición. 
 
Definición 
 
Las medidas de posición pueden ser definidas de diversas formas (4). En esta nota proponemos la 
siguiente definición: Las medidas de posición son datos estadísticos que intentan representar un conjunto 
de datos individuales respecto de una variable. 
Esta definición se refiere a tres cuestiones: 
 
1) Son medidas estadísticas, es decir, no son medidas individuales. Una medida de posición representa a 
todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades 
representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque 
pueda coincidir numéricamente con ella. Así, si el promedio de edades es 20 años y una de las personas 
del grupo tiene 20 años, el primer dato es una medida estadística y el segundo una medida individual. 
En otros términos, las medidas estadísticas no describen individuos, sino poblaciones o muestras. Por 
ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una población cuyo 
promedio de edad es 70 años. 
2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas 
individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como 
muestra y población, con lo cual tiene sentido afirmar proposiciones tales como „una medida de posición 
representa una muestra o una población‟. 
Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras: 
a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posición llamada 
media aritmética). 
b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra 
medida de posición llamada mediana). 
c) La nota que más se ha repetido fue 7 puntos (en este caso usamos la medida de posición llamada 
modo). 
La pregunta acerca de cuál de las tres medidas de posición representa „mejor‟ al conjunto de datos 
individuales es el problema de la representatividad de la medida de posición, y la estadística suministra, 
F 
 
10 
 
9 
 
8 
 
7 
 
6 
 
5 
 
4 
 
3 
 
2 
 
1 
 
1.99 2.99 3.99 lím superior (Ls) 
 
como se verá, diversos criterios para evaluar la mejor forma de representar un cierto número de datos 
individuales. 
3) Son medidas que miden una variable, es decir, algún atributo o propiedad de los objetos. En el 
ejemplo anterior la variable medida es el rendimiento académico, pero también pueden obtenersemedidas de posición representativas de un conjunto de edades, de profesiones, de clases sociales, de 
puntuaciones de un test, de cantidad de dientes, etc. 
De otra manera: no tiene sentido decir que una medida de posición represente un conjunto de personas, 
pero sí tiene sentido decir que representan las edades de un conjunto de personas. 
 
Características de las principales medidas de posición 
 
Las medidas de posición pueden ser de tendencia central y de tendencia no central. Las primeras “se 
refieren a los valores de la variable que suelen estar en el centro de la distribución” (Kohan, 1994:69). 
Por ejemplo: la media aritmética, la mediana y el modo son las más conocidas, pero también está la 
media aritmética ponderada (útil cuando hay valores que se repiten y que requieren atención diferencial), 
la media geométrica (Kohan, 1994:71-72), la media armónica, la media antiarmónica, la media 
cuadrática, la media cúbica, etc. 
Las medidas de posición no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que 
reciben genéricamente el nombre de cuantiles o fractiles (5). 
De acuerdo a Botella (1993:99), las medidas de posición no centrales son datos o valores que ocupan 
una posición especial en la serie de datos. Cuando una medida de posición es un dato que ocupa un lugar 
central, la llamamos medida de tendencia central. 
 
En el siguiente cuadro se especifican las definiciones y características principales de las medidas de 
posición. 
 
Medida Definición Características 
MODO Es el dato o 
valor que más 
se repite, o 
sea, el de 
mayor 
frecuencia. 
Resulta útil si hay muchos datos repetidos (altas frecuencias). 
Puede calcularse cuando hay valores muy extremos. 
El modo muestral no es un estimador suficiente del modo poblacional 
porque no incluye todos los datos. 
En distribuciones multimodales es posible que la muestra no sea 
homogénea, y que esté constituída por varios estratos. 
Es posible convertir una distribución multimodal en una modal 
reorganizando los intervalos. 
Si una distribución no tiene modo, podría obtenerse reorganizando los 
datos en intervalos. 
MEDIANA Es el dato o 
valor que 
divide por la 
mitad la serie 
de datos 
ordenados 
creciente o 
decrecienteme
nte, es decir, 
es el valor 
central de la 
serie. 
Es la medida más útil en escalas ordinales siempre que los valores 
centrales sean iguales. 
No está influenciada por los valores extremos (por ello por ejemplo 
puede aplicarse desconociendo estos o sea cuando hay límites 
superiores o inferiores abiertos). 
Puede usarse cuando hay intervalos abiertos, siempre que el orden de 
la mediana no se corresponda con ellos. 
Es útil cuando unos pocos datos difieren mucho del resto. 
No es útil si hay muchos datos repetidos (altas frecuencias). 
La mediana muestral no es un estimador suficiente de la mediana 
poblacional porque no incluye todos los datos. 
Es útil es distribuciones muy asimétricas (extremos no compensados). 
La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50 
(percentil 50) (8). 
MEDIA 
ARITMÉTICA 
Es el promedio 
aritmético de 
todos los 
datos o 
valores. 
Está influenciada por los valores extremos (por ejemplo, no puede 
utilizarse cuando hay valores extremos desconocidos o intervalos 
abiertos, salvo que estos puedan cerrarse). 
No conviene cuando los valores extremos son muy altos o muy bajos. 
Es útil en distribuciones simétricas (con extremos compensados). 
No puede usarse en escalas nominales ni ordinales. 
Es siempre superior a la media geométrica y a la media armónica. 
La media muestral es un estimador suficiente de la media poblacional 
porque incluye todos los datos. 
No necesariamente coincide con alguno de los valores. 
La media aritmética tiene varios otras propiedades (7). 
CUANTIL Es el dato o 
valor que 
divide la serie 
ordenada de 
Es útil cuando hay gran cantidad de valores. 
Puede también utilizarse como medida de dispersión. 
Suelen utilizarse los cuartiles, los deciles y los percentiles. 
datos en 
partes iguales. 
-Cuartiles Valores que 
dividen la 
serie en 
cuatro partes 
iguales. 
Tres cuartiles dividen la serie en cuatro partes iguales. 
-Deciles Valores que 
dividen la 
serie en diez 
partes iguales. 
Nueve deciles dividen la serie en diez partes iguales. 
 
-Percentiles Valores que 
dividen la 
serie en cien 
partes iguales. 
Noventa y nueve percentiles dividen la serie en cien partes iguales. 
También se llaman centiles. 
 
 
Relación entre modo, mediana y media aritmética.- a) La experiencia indica que la relación entre estas 
tres medidas es: 
Modo = (3 . Mediana) – (2 . Media aritmética). Esta relación es conocida como la fórmula de Pearson. b) 
Cuanto más simétrica es una distribución (por ejemplo en una curva normal), más tienden a coincidir los 
valores de las tres medidas. 
 
Cálculo analítico de las medidas de posición: fórmulas 
 
Para calcular una determinada medida de posición puede haber diversas fórmulas. La elección de la 
fórmula adecuada dependerá de la forma en que estén organizados los datos individuales. 
En principio, los datos pueden estar organizados de cuatro maneras: 
1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14. 
Cuando se recolecta información, generalmente se obtienen datos desordenados, frente a lo cual 
convendrá ordenarlos. 
2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos 
decidido ordenarlas en forma creciente, aunque también podemos ordenarlas decrecientemente. 
3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 años, una edad de 14 años y una 
edad de 29 años. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes 
edades es 1. 
4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 años, 
y una edad comprendida en el intervalo 18-29 años. 
La estadística va agrupando los datos siguiendo el orden anterior. Cuanto más avance en este proceso, 
más habrá logrado sintetizar y organizar los datos individuales. 
En el siguiente cuadro se sintetizan las diversas reglas o fórmulas para calcular las medidas de posición, 
según como estén organizados los datos individuales y según los niveles de medición que admiten. 
Nótese que en algunos casos no es posible especificar ninguna fórmula, y entonces el cálculo se hará 
siguiendo la regla indicada para los mismos. Por ejemplo: “para calcular el modo de un conjunto de datos 
ordenados, debe buscarse el dato o valor que más se repite” (6). 
 
Cálculo de medidas de posición según los niveles de medición que admiten y según la forma de organización de los datos individuales. 
Preparado por: Pablo Cazau 
 
Medida de 
posición 
Nivel de 
medición 
Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos 
Modo Nominal Valor que más se repite Valor con la mayor frecuencia ------------ 
Ordinal Valor que más se repite Valor con la mayor frecuencia ------------ 
Cuantitativo Valor que más se repite Valor con la mayor frecuencia f - fant 
Mo = Li + ---------------------- . a 
 (f - fant) + (f- fpos) 
Mediana Ordinal Valor central de la serie 
ordenada de valores 
Valor que corresponde a la frecuencia acumulada n/2 ------------ 
Cuantitativo Valor central de la serie 
ordenada de valores 
Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant 
Mn = Li + ---------------------- . a 
 f 
Media 
aritmética 
Cuantitativo x 
X = ----- 
 n 
x.f) 
X = --------- 
 n 
xm.f) 
X = --------- 
 n 
Cuartil Cuantitativo Valores que dividen la serie 
en cuatro partes iguales. 
Por tanto, hay 3 cuartiles: Q1, 
Q2 y Q3 
Valor que corresponde a la frecuencia acumulada t.n/4, expresión 
llamada cuartil de orden o Q
0
 (1) 
Donde t puede valer 1, 2 o 3. 
Por tanto, hay 3 cuartiles: Q1,Q2 y Q3 
 t.n/4 - Fant 
Qt = Li + ---------------- . a 
 f 
Decil Cuantitativo Valores que dividen la serie 
en diez partes iguales. 
Por tanto, hay 9 deciles: 
desde el D1 hasta el D9 
Valor que corresponde a la frecuencia acumulada t.n/10, expresión 
llamada decil de orden o D
0
 (1) 
Donde t puede valer entre 1 y 9. 
Por tanto, hay 9 deciles: desde el D1 hasta el D9 
 t.n/10 - Fant 
Dt = Li + ---------------- . a 
 f 
Percentil Cuantitativo Valores que dividen la serie 
en cien parte iguales. 
Por tanto, hay 99 percentiles: 
desde el P1 hasta el P99 
Valor que corresponde a la frecuencia acumulada t.n/100, expresión 
llamada percentil de orden o P
0
 (1) 
Donde t puede valer entre 1 y 99. 
Por tanto, hay 99 percentiles: desde el P1 hasta el P99 
 t.n/100 - Fant 
Pt = Li + ---------------- . a 
 f 
 
(1) Si no puede identificarse unívocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolación. En realidad, los cuantiles se 
utilizan preferentemente cuando los datos están agrupados por intervalos. 
 
A continuación, se suministran ejemplos de cómo calcular cada medida de posición teniendo 
en cuenta las reglas y fórmulas del esquema anterior. 
 
a) Cálculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo) 
 
Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato) 
Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por 
tanto, el modo es chico) 
Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7) 
 
b) Cálculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y 
cuantitativo) 
 
Nivel nominal Nivel ordinal Nivel cuantitativo 
x (religión) f 
Católicos 56 
Protestantes 78 
Judíos 45 
Budistas 24 
Otros 31 
 
x (dureza) f 
Muy duro 18 
Duro 8 
Intermedio 13 
Blando 16 
Muy blando 7 
 
x (edad) f 
30 años 6 
31 años 14 
32 años 19 
33 años 24 
34 años 15 
 
El modo es “Protestantes” El modo es “Muy duro” El modo es “33” años 
 
Como puede verse, el modo es el valor de la variable x que está más repetido. 
 
c) Cálculo del modo para datos agrupados por intervalos (nivel cuantitativo) 
 
x (cantidad piezas dentarias) f 
10-18 6 
19-27 8 
28-36 24 
37-45 2 
 n=40 
 
Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos: 
 
a) Se identifica cuál es el intervalo de mayor frecuencia. En este caso, es 28-36. 
b) Se aplica la fórmula correspondiente: 
 
 f - fant 
Mo = Li + ---------------------- . a 
 (f - fant) + (f- fpos) 
 
 24 - 8 
Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias 
 (24 - 8) + (24 - 2) 
 
d) Cálculo de la mediana para datos ordenados (niveles ordinal y cuantitativo) 
 
Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden 
descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos, 
el central es la mediana. Si hay un número par, la mediana es el promedio de los dos datos 
centrales. 
 
Ejemplos para el nivel ordinal: 
 
Número impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio, 
bajo (por tanto, la mediana es = medio). 
Número par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores 
centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la 
mediana. 
 
Ejemplos para el nivel cuantitativo: 
 
Número impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14) 
Número par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el 
promedio entre 14 y 15, o sea 14.5). 
 
e) Cálculo de la mediana para datos agrupados por frecuencia (niveles ordinal y 
cuantitativo) 
 
x (días) f F 
1 7 7 
2 9 16 
3 14 30 
4 10 40 
5 2 42 
 n = 42 
 
La variable es aquí cantidad de días de posoperatorio. 
El procedimiento es el siguiente: 
a) Se calcula la mediana de orden: 
 
Mn0 = n/2 = 42/2 = 21 
 
b) Se identifica cuál es el valor de x que corresponde a la frecuencia acumulada que contiene 
el valor 21: 
 
Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 días 
 
f) Cálculo de la mediana para datos agrupados por intervalos (nivel cuantitativo) 
 
x f F 
0-3 8 8 
3-6 10 18 
6-9 11 29 
9-12 12 41 
12-15 9 50 
15-18 7 57 
18-21 6 63 
21-24 5 68 
 n = 68 
 
Nótese que para calcular la mediana se precisa información sobre frecuencias acumuladas, 
razón por la cual se ha agregado la columna respectiva. 
Se procede en dos pasos: 
a) Se identifica cuál es el intervalo que debe ser considerado, para lo cual se calcula la 
mediana de orden: 
 
Mn0 = n/2 = 68/2 = 34 
Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia 
acumulada 41, y, por lo tanto, el intervalo a considerar será 9-12. 
b) Se aplica la fórmula de mediana: 
 
 n/2 - Fant 
Mn = Li + ---------------------- . a 
 f 
 
 34 - 29 
Mn = 9 + ---------------------- . 3 = 10.25 
 12 
 
Téngase presente que si la variable fuera discreta y medible sólo en números enteros, sería 
Mn = 10. 
Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas 
está en el lugar central de la serie, es decir, habría un 50% de compañeros con menos 
materias aprobadas y un 50% con más materias aprobadas. 
 
g) Cálculo de la media aritmética para datos ordenados (nivel cuantitativo) 
 
Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10 
Se puede calcular la media aritmética aplicando la fórmula: 
 
x 
X = ----- 
 n 
 
 
X = ---------------------------------------- = --------- = 5 
 12 12 
 
 
h) Cálculo de la media aritmética para datos agrupados por frecuencia (nivel 
cuantitativo) 
 
x (edad) f f . x 
18 3 54 
19 1 19 
20 2 40 
23 4 42 
25 2 50 
26 2 52 
28 2 56 
 n = 16 363 
 
Nótese que para el cálculo de la media aritmética se ha agregado una columna con los 
productos de x . f. 
Se aplica la fórmula de media aritmética: 
 
x.f) 54+19+40+42+50+52+56 363 
X = --------- = ----------------------------------- = -------- = 22.68 años = 23 años. 
 n 16 16 
 
 
i) Cálculo de la media aritmética para datos agrupados por intervalos (nivel 
cuantitativo) 
 
x f xm xm.f 
0-3 8 1.5 12 
3-6 10 4.5 45 
6-9 11 7.5 82.5 
9-12 12 10.5 126 
12-15 9 13.5 121.5 
15-18 7 16.5 115.5 
18-21 6 19.5 117.6 
21-24 5 22.5 112.5 
 n = 68 732.5 
 
Nótese que para el cálculo de la media aritmética se ha agregado una columna con los 
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos 
medios. 
Se aplica la fórmula de media aritmética: 
 
xm.f) 732.5 
X = ------------- = ---------- = 10.77 
 n 68 
 
El método corto y el método clave son dos métodos alternativos para calcular la media 
aritmética, siendo el último sólo aplicable cuando el tamaño de los intervalos es constante. 
De acuerdo al método corto, la media aritmética se calcula sumando al punto medio del 
intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada 
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del 
intervalo de mayor frecuencia, y la sumatoria de frecuencias (n). 
De acuerdo al método clave, la media aritmética se calcula sumando al punto medio del 
intervalo de mayor frecuencia, el producto entre el tamaño del intervalo y un cociente, donde 
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo 
unitario (que resulta de dividirla diferencia entre cada punto medio y el punto medio del 
intervalo de mayor frecuencia, por el tamaño del intervalo), y donde el denominador es la 
sumatoria de frecuencias (n). 
 
j) Cálculo del cuantil para datos ordenados (nivel cuantitativo) 
 
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 
 
Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales, 
esos valores serán los cuartiles Q1, Q2 y Q3: 
 
1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9 
 
Q1 = 2 
Q2 = 3 
Q3 = 6 
 
Sin embargo, es más práctico agrupar los datos por frecuencias o por intervalos, a los 
efectos del cálculo de los cuantiles (cuartiles, deciles o percentiles). 
 
k) Cálculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo) 
 
x (edad) f F 
18 3 3 
19 1 4 
20 2 6 
23 4 10 
25 2 12 
26 2 14 
28 2 16 
 n = 16 
 
Se pueden calcular, por ejemplo, Q1, Q2 y Q3. 
 
El primer paso consiste en averiguar los respectivos cuartiles de orden. 
 
Para Q1 es Q
0
 = t.n/4 = 1.16/4 = 4 
Para Q2 es Q
0
 = t.n/4 = 2.16/4 = 8 
Para Q3 es Q
0
 = t.n/4 = 3.16/4 = 12 
 
El segundo y último paso consiste en identificar el valor de x correspondiente al cuartil de 
orden respectivo. 
 
Q1 = 4 
Q2 = Está entre 20 y 23 
Q3 = 25 
 
l) Cálculo del cuantil para datos agrupados por intervalos (nivel cuantitativo) 
 
x (puntaje) f F 
0-10 1 1 
10-20 3 4 
20-30 5 9 
30-40 6 15 
40-50 10 25 
50-60 12 37 
60-70 13 50 
70-80 9 59 
80-90 4 63 
90-100 3 66 
 n = 66 
 
Se pueden calcular, por ejemplo, Q3, D7 y P45. 
 
El primer paso consiste en averiguar los cuantiles de orden: 
 
Para Q3 es Q
0
 = t.n/4 = 3.66/4 = 49.5 
Para D7 es D
0
 = t.n/10 = 7.66/10 = 46.2 
Para P45 es P
0
 = t.n/100 = 45.66/100 = 29,7 
 
El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la 
columna de frecuencias acumuladas: 
 
El valor 49.5 corresponde al intervalo 60-70 
El valor 46.2 corresponde al intervalo 60-70 
El valor 29.7 corresponde al intervalo 50-60 
 
El tercer y último paso consiste en aplicar la fórmula basándose en la información del 
intervalo identificado. Si la fórmula pide el dato de la frecuencia acumulada anterior y esta 
no existe, se coloca 0 (cero). 
En el ejemplo del cálculo del D7, se aplica la siguiente fórmula: 
 
 t.n/10 - Fant 
Dt = Li + ------------------- . a 
 f 
 
 46.2 - 37 
D7 = 60 + ---------------- . 11 = 67.78 
 13 
 
 
Cálculo visual de las medidas de posición: gráficos 
 
Es posible utilizar un procedimiento gráfico para calcular ciertas medidas de posición, tales 
como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un 
histograma. La mediana también puede calcularse con un histograma, aunque lo más 
habitual es hacerlo mediante una ojiva. 
 
a) Cálculo del modo mediante un histograma 
 
Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos: 
1) Se considera el rectángulo de mayor frecuencia (mayor altura). 
2) Dentro del mismo se trazan dos rectas como está indicado en el gráfico siguiente. 
3) Por la intersección de ambas rectas se traza una recta perpendicular al eje de absisas. 
4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo 
(en el ejemplo, el modo es 4.80). 
 
 
 
b) Cálculo de la mediana mediante una ojiva 
 
En este caso pueden utilizarse dos procedimientos: 
1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden 
(Mn 
0 
); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte 
la ojiva; c) por este punto de intersección se traza una recta paralela al eje y hasta que 
intersecte el eje x. En este punto estará ubicada la mediana. 
2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma 
distribución de datos. Luego, a) se traza una recta paralela al eje y que pase por la 
intersección de ambas ojivas y por algún punto del eje x; b) el punto del eje x por donde 
pasa dicha recta corresponde a la mediana. 
 
Criterios de elección de medidas de posición 
 
1) La elección de una medida de posición debe tener en cuenta el nivel de medición de la 
variable que se mide: 
 
 Nivel nominal Nivel ordinal Nivel cuantitativo 
Modo SI SI SI 
Mediana NO SI. Siempre y cuando 
los dos valores centrales 
con n = par sean 
iguales. En caso 
contrario usar el Modo. 
SI 
Media 
aritmética 
NO NO SI Cuando no haya valores 
extremos alejados ni valores 
extremos abiertos. En caso 
contrario, usar el Modo o la 
Mediana (*). 
Cuantiles NO NO SI 
 
(*) Hay al menos tres situaciones donde se preferirá la mediana a la media (Botella, 1993:115): a) 
cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretación de la 
media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales. 
 
2) La elección de una medida de posición debe tener en cuenta la forma en que están 
organizados los datos. Por ejemplo: “en ocasiones, el azar hace que un solo elemento no 
representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos. 
Es por esta razón que rara vez utilizamos el modo de un conjunto de datos no agrupados 
como medida de tendencia central. Por esta razón, debemos calcular el modo en datos 
agrupados en una distribución de frecuencias” (Levin y Rubin, 1996). 
 
3) La elección de una medida de posición de una muestra debe tener en cuenta el grado de 
fidelidad con que representa a la medida de posición poblacional. 
f 
 
5 
 
4 
 
3 
 
2 
 
1 
 
 
1 4 7 10 
x 
 
Botella (1993:114) afirma, en este sentido, que si no hay ningún argumento en contra, 
siempre se preferirá la media, no sólo porque permite la utilización de otras medidas 
estadísticas (por ejemplo el desvío estándar), sino porque es más representativa de la media 
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional. 
 
2.5 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE DISPERSIÓN 
 
Definición 
 
Las medidas de dispersión, llamadas también medidas de variabilidad o de variación, son 
datos estadísticos que informan acerca del grado de dispersión o variabilidad de los datos 
individuales de una muestra o una población, respecto de una variable. En otras palabras, 
indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por 
ejemplo, indican cuán alejados o cuán cercanos se encuentran los datos de algún valor 
central como la media aritmética: una muestra cuyos datos son 3-4-5 es menos dispersa que 
una muestra cuyos datos son 1-4-7. 
 
Algunos autores (Botella, 1993:325) han relacionado la dispersión de los datos -para los 
niveles de medición nominal y ordinal- con los conceptos de entropía y de incertidumbre e 
incluso han propuesto a la primera como una medida que permite cuantificar la dispersión: a 
mayor dispersión de los datos, hay mayor entropía y mayor incertidumbre. 
Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido 
determinados colores para representar la idea de paz: 
 
 Blanco Verde Amarillo Celeste Rosa 
Muestra A: 28 3 3 3 3 
Muestra B: 8 8 8 8 8 
 
Si habría que adivinar qué color eligió determinado sujeto de la muestra A, cabría proponer 
el color blanco porque fue el más elegido. En cambio, la incertidumbre aumenta si habría que 
elegir lo mismo en la muestra B. En esta muestra hay más entropía, es decir, más desorden, 
mientras que en la muestra A los datos están más ordenados alrededor de un valor muy 
repetido, como el blanco. 
La muestra B es más dispersa, es decir, más heterogénea, mientras que la muestra A es 
menos dispersa, es decir, más homogénea. La homogeneidad no debe relacionarse con la 
repetición de frecuencias (3-3-3-3) sino con la repetición de valores iguales o muy cercanosentre sí (28 sujetos eligieron blanco). 
 
Una medida de posición no alcanza para describir adecuadamente una muestra. Se obtiene 
una información más precisa y completa de ella cuando además se utiliza una medida de 
dispersión. 
Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma 
medida de posición: la media aritmética en ambos casos es 4. Sin embargo, se trata 
evidentemente de dos muestras diferentes, por cuanto la segunda es más dispersa que la 
primera, es decir, sus datos están más alejados de la media aritmética. 
En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4 
hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda 
muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden 
representarse de la siguiente manera: 
 
Muestra 1: 4 + 1 (se lee 4 más/menos 1) 
Muestra 2: 4 + 3 (se lee 4 más/menos 3). 
 
Las medidas de dispersión tienen una importancia adicional porque (Levin y Rubin: 1996): a) 
Proporcionan información adicional que permite juzgar la confiabilidad de la medida de 
tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es 
menos representativa de los datos. b) A veces resulta indispensable conocer la dispersión de 
una muestra porque muestras demasiado dispersas pueden no ser útiles para poder sacar 
conclusiones útiles sobre la muestra. Levin y Rubin indican que, “ya que existen problemas 
característicos para datos ampliamente dispersos, debemos ser capaces de distinguir los que 
presentan esa dispersión antes de abordar esos problemas”. 
 
Características de las principales medidas de dispersión 
 
En general, las medidas de dispersión más utilizadas sirven para la medición de variables en 
el nivel cuantitativo. Seguidamente se examinarán las siguientes medidas de dispersión: 
rango, desviación media, varianza, desvío estándar, desvío intercuartílico y coeficiente de 
variación. 
 
En el siguiente cuadro se especifican las definiciones y características principales de las 
medidas de dispersión. 
 
Medida Definición Características 
RANGO Es la diferencia 
entre los valores 
máximo y mínimo 
de la variable. 
De uso limitado, no es una buena medida de dispersión. 
Es muy sensible a los valores extremos e insensible a los valores 
intermedios. 
Está muy vinculada al tamaño de la muestra: es probable que la muestra 
de mayor tamaño presente mayor rango aunque las poblaciones de 
referencia tengan igual dispersión (Botella, 1993). 
Se llama también amplitud. 
DESVIACION 
MEDIA 
Es el promedio de 
las desviaciones de 
todos los valores 
respecto de la 
media aritmética. 
Considera desviaciones absolutas, es decir, no las considera con valores 
negativos (de otro modo, el promedio de las desviaciones, por un teorema 
de la media aritmética, daría cero). Esto representa una dificultad de 
cálculo, por lo que se utiliza la varianza. 
VARIANZA Es el promedio de 
los cuadrados de 
las desviaciones 
con respecto a la 
media aritmética. 
Es un valor esencialmente no negativo (10). 
Matemáticamente es buena medida de dispersión, pero da valores muy 
altos, por lo cual en estadística descriptiva se utiliza el desvío estándar 
(9). 
Se apoya en una propiedad de la media aritmética según la cual la suma 
de los cuadrados de las desviaciones respecto a la media es un valor 
mínimo. 
La varianza permite comparar la dispersión de dos o más muestras si sus 
medias aritméticas son similares (Botella, 1993). 
Si se suma una constante a un conjunto de valores, la varianza no se 
modifica (Botella, 1993). 
Si se multiplica por una constante a un conjunto de valores, la varianza de 
los nuevos valores el igual al producto de la varianza de las originales por 
el cuadrado de la constante (Botella, 1993). 
DESVIO 
ESTÁNDAR 
Es la raíz cuadrada 
de la varianza (11) 
Es un valor esencialmente no negativo (10). 
Es la medida de dispersión más utilizada. 
Se la emplea conjuntamente con la media aritmética como medida de 
posición. 
La raíz cuadrada permite compensar el cuadrado de la varianza. 
Si se suma una constante a un conjunto de valores, el desvío estándar no 
se modifica (Botella, 1993). 
Si se multiplica por una constante a un conjunto de valores, el desvío 
estándar de los nuevos valores el igual al producto del desvío estándar de 
las originales por el cuadrado de la constante (Botella, 1993). 
Se llama también desviación típica, o también desviación estándar 
(Pagano, 1998:71). 
DESVIO 
INTER 
CUARTILICO 
Es la diferencia 
entre el Q3 y el Q1. 
Expresa el rango del 50% central de la serie de valores. 
Se llama también amplitud intercuartil. 
COEFICIENTE 
DE 
VARIACION 
Es el cociente entre 
el desvío estándar y 
la media aritmética. 
Permite comparar la dispersión de dos o más muestras con diferentes 
medias aritméticas: a mayor coeficiente de variación, mayor dispersión. 
No se expresa en unidades como la variable en estudio (por ejemplo, para 
edad, no se expresa en años). 
Puede considerarse como un índice de la representatividad de la media 
aritmética: cuanto mayor es el coeficiente de variación, menos 
representativa es la media (Botella, 1993). 
 
Cálculo analítico de las medidas de dispersión: fórmulas 
 
En este ítem se indican las fórmulas para calcular medidas de dispersión, y se suministran 
ejemplos de cada caso. 
 
Cálculo de las medidas de dispersión según la forma de organización de los datos 
individuales 
Preparado por: Pablo Cazau 
 
Medida de 
dispersión 
Datos ordenados Datos agrupados por 
frecuencia 
Datos agrupados por 
intervalos 
Rango R = xmay - xmen R = xmay - xmen No 
Desviación 
media 
 | x – X | 
Dm = --------------- 
 n 
 | x – X | . f 
Dm = ------------------ 
 n 
 | xm – X | . f 
Dm = -------------------- 
 n 
Desvío 
estándar 
 ( x – X )2 
S = ---------------- 
 n 
El segundo miembro es 
a la raíz cuadrada 
 ( x – X )2 . f 
S = ------------------- 
 n 
El segundo miembro es a la raíz 
cuadrada 
 ( xm – X )
2 . f 
S = ---------------------- 
 n 
El segundo miembro es a la raíz 
cuadrada 
Varianza Es el cuadrado del 
desvío estándar (S
2
) 
Es el cuadrado del desvío 
estándar (S
2
)
Es el cuadrado del desvío 
estándar (S
2
)
Desvío 
intercuartílico 
DQ = Q3 – Q1 DQ = Q3 – Q1 DQ = Q3 – Q1 
Coeficiente 
de variación 
 S 
CV = ----- 
 X 
 S 
CV = ----- 
 X 
 S 
CV = ----- 
 X 
 
Cuando hay que calcular varianza o desvío estándar poblacionales, se utiliza „n‟ en el 
denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la 
muestra es muy pequeña), se utilizará „n–1‟ (12). 
 
a) Cálculo del rango para datos ordenados y para datos agrupados por frecuencia 
 
Se puede aplicar a estas muestras la fórmula del Rango R = xmay - xmen 
 
Muestra 1: 80, 100, 100, 110, 120. Aquí el rango R es = 120 – 80 = 40. 
Muestra 2: 30, 50, 70, 120, 180. Aquí el rango R es = 180 – 30 = 150 
 
Como se ve, la muestra 2 es más dispersa porque tiene mayor rango. 
 
No se puede calcular el rango para datos agrupados por intervalos porque se desconocen 
cuáles son los valores máximo y mínimo. 
 
b) Cálculo de la desviación media para datos ordenados 
 
La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10 
Como primer paso se calcula la media aritmética: 
 
 2+3+5+6+7+9+10 
X = --------------------------- = 6 
 7 
 
Como segundo y último paso, se calcula la desviación media: 
 
 | x – X | |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6| 
Dm = --------------- = --------------------------------------------------------------------- = 2.29 
 N 7 
 
c) Cálculo de la desviación media para datos agrupados por frecuencia 
 
A la siguiente

Continuar navegando