80P Fundamentos De Estadistica Basica - Pablo Cazau

Matemáticas y estadísticas

•

ESTÁCIO

Fernando Diaz Garcla-muñoz

30/9/2020

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Matemáticas y estadísticas

646 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

Fundamentos de Estadística
Pablo Cazau

Alejandro
Nota adhesiva
www.ALEIVE.org
Prefacio

Capítulo 1: Introducción a la estadística
1.1 Definición y utilidad de la estadística
1.2 Clasificaciones de la estadística
1.3 Población y muestra
1.4 Estructura del dato
1.5 La medición

Capítulo 2: Estadística descriptiva
2.1 Generalidades
2.2 Ordenamiento y agrupación de los datos: matrices y tablas
2.3 Visualización de los datos: gráficos
2.4 Síntesis de los datos: medidas estadísticas de posición
2.5 Síntesis de los datos: medidas estadísticas de dispersión
2.6 Síntesis de los datos: asimetría y curtosis
Notas

Capítulo 3: Probabilidad y curva normal
3.1 El concepto de probabilidad
3.2 Definición y características de la curva normal
3.3 Puntajes brutos y puntajes estandarizados
3.4 Aplicaciones de la curva normal
Notas

Capítulo 4: Correlación y regresión
4.1 Introducción
4.2 El análisis de correlación
4.3 Cálculo gráfico de la correlación
4.4 Cálculo analítico de la correlación
4.5 Un ejemplo: construcción y validación de tests
4.6 El análisis de regresión
4.7 Cálculo analítico de la regresión
4.8 Cálculo gráfico de la correlación
Notas

Capítulo 5: Estadística inferencial
5.1 Introducción
5.2 Estimación de parámetros
5.3 Prueba de hipótesis
5.4 Ejemplos de pruebas de hipótesis
5.5 El concepto de significación estadística
Notas

Referencias bibliográficas
Otras fuentes consultadas

Anexos
ANEXO 1: NOMENCLATURA UTILIZADA EN ESTA GUÍA
ANEXO 2: TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA
Tabla 1 – Áreas desde z hacia la izquierda
Tabla 2 – Áreas desde z = 0 hacia la izquierda o hacia la derecha
ANEXO 3: TABLA DE LA DISTRIBUCIÓN t

Fundamentos de estadística
Pablo Cazau

PREFACIO

El presente texto fue pensado como un manual de consulta para alumnos de diversas carreras
universitarias de grado y posgrado que cursan asignaturas donde se enseña la estadística como
herramienta de la metodología de la investigación científica.
Se brinda aquí un panorama general e introductorio de los principales temas de una disciplina que opera
en dos grandes etapas: la estadística descriptiva y la estadística inferencial. También se desarrollan los
conceptos de probabilidad y curva normal, básicos para la comprensión de la estadística inferencial, y los
conceptos de correlación y regresión vinculados, respectivamente, con las etapas descriptiva e
inferencial.

Pablo Cazau. Licenciado en Psicología y Profesor de Enseñanza Media y Superior en Psicología (UBA).
Buenos Aires, Enero 2006.

CAPÍTULO 1: INTRODUCCION A LA ESTADISTICA

1.1 DEFINICIÓN Y UTILIDAD DE LA ESTADÍSTICA

La Estadística es una disciplina que utiliza recursos matemáticos para organizar y resumir una gran
cantidad de datos obtenidos de la realidad, e inferir conclusiones respecto de ellos.
Por ejemplo, la estadística interviene cuando se quiere conocer el estado sanitario de un país, a través de
ciertos parámetros como la tasa de morbilidad o mortalidad de la población. En este caso la estadística
describe la muestra en términos de datos organizados y resumidos, y luego infiere conclusiones respecto
de la población. Por ejemplo, aplicada a la investigación científica, hace inferencias cuando emplea
medios matemáticos para establecer si una hipótesis debe o no ser rechazada.
La estadística puede aplicarse a cualquier ámbito de la realidad, y por ello es utilizada en física, química,
biología, medicina, astronomía, psicología, sociología, lingüística, demografía, etc.
Cuando en cualquiera de estas disciplinas se trata de establecer si una hipótesis debe o no ser rechazada,
no siempre es indispensable la estadística inferencial.
Por ejemplo, si sobre 60 veces que se mira un dado, sale un dos 10 veces, no se requiere la estadística
para rechazar la hipótesis “el dado está cargado”. Si sale un dos en 58 ocasiones sobre 60, tampoco se
necesita la estadística para aceptar la hipótesis “el dado está cargado”.
Pero, ¿qué ocurre si el número dos sale 20, 25 o 30 veces? En estos casos de duda, la estadística
interviene para determinar hasta qué cantidad de veces se considerará rechazada la hipótesis (o bien
desde qué cantidad de veces se la considerará aceptada). En otras palabras, la estadística interviene
cuando debe determinarse si los datos obtenidos son debidos al azar o son el resultado de un dado
cargado.
Otro ejemplo. Si una persona adivina el color (rojo o negro) de las cartas en un 50% de los casos, se
puede rechazar la hipótesis “la persona es adivina”. Si, en cambio, acierta en el 99% de los casos el color
de las cartas, se puede aceptar la mencionada hipótesis. Los casos de duda corresponden a porcentajes
de acierto intermedios, como el 60%, el 70%, etc., en cuyos casos debe intervenir la estadística para
despejarlos.
La importancia de la estadística en la investigación científica radica en que la gran mayoría de las
investigaciones son „casos de duda‟.

1.2 CLASIFICACIONES DE LA ESTADÍSTICA

Existen varias formas de clasificar los estudios estadísticos.
1) Según la etapa.- Hay una estadística descriptiva y una estadística inferencial. La primera etapa se
ocupa de describir la muestra, y la segunda etapa infiere conclusiones a partir de los datos que describen
la muestra (por ejemplo, conclusiones con respecto a la población).
Tanto la estadística descriptiva como la estadística inferencial se ocupan de obtener datos nuevos. La
diferencia radica en que la estadística descriptiva procede a resumir y organizar esos datos para facilitar
su análisis e interpretación, y la estadística inferencial procede a formular estimaciones y probar hipótesis
acerca de la población a partir de esos datos resumidos y obtenidos de la muestra. Puesto que estas
últimas operaciones llevarán siempre a conclusiones que tienen algún grado de probabilidad, la teoría de
la probabilidad constituye una de sus herramientas principales. Téngase presente que en sí misma la
teoría de la probabilidad no forma parte de la estadística porque es otra rama diferente de la matemática,
pero es utilizada por la estadística como instrumento para lograr sus propios objetivos.
La estadística descriptiva también incluye –explícita o implícitamente- consideraciones probabilísticas,
aunque no resultan ser tan importantes como en la estadística inferencial. Por ejemplo, la elección de un
determinado estadístico para caracterizar una muestra (modo, mediana o media aritmética) se funda
sobre ciertas consideraciones implícitas acerca de cuál de ellos tiene más probabilidades de representar
significativamente el conjunto de los datos que se intenta resumir.
Tanto la estadística descriptiva como la inferencial implican, entonces, el análisis de datos. “Si se realiza
un análisis con el fin de describir o caracterizar los datos que han sido reunidos, entonces estamos en el
área de la estadística descriptiva… Por otro lado, la estadística inferencial no se refiere a la simple
descripción de los datos obtenidos, sino que abarca las técnicas que nos permiten utilizar los datos
muestrales para inferir u obtener conclusiones sobre las poblaciones de las cuales fueron extraídos dichos
datos” (Pagano, 1998:19).
Kohan, por su parte, sintetiza así su visión de las diferencias entre ambos tipos de estadística: “Si
estudiamos una característica de un grupo, sea en una población o en una muestra, por ejemplo talla,
peso, edad, cociente intelectual, ingreso mensual, etc, y lo describimos sin sacar de ello conclusiones
estamos en la etapa de la estadística descriptiva. Si estudiamos en una muestra una característica
cualquiera e inferimos, a partir de los resultados obtenidos en la muestra, conclusiones sobre la población
correspondiente, estamos haciendo estadística inductiva o inferencial, y como estas inferencias no
pueden ser exactamente ciertas, aplicamos el lenguaje probabilístico para sacar las conclusiones”(Kohan, 1994:25). Kohan emplea la palabra inductiva porque las inferencias realizadas en este tipo de
estadística son razonamientos inductivos, modernamente definidos como razonamientos cuya conclusión
es sólo probable.
2) Según la cantidad de variables estudiada.- Desde este punto de vista hay una estadística univariada
(estudia una sola variable, como por ejemplo la inteligencia), una estadística bivariada (estudia la
relación entre dos variables, como por ejemplo inteligencia y alimentación), y una estadística
multivariada (estudia tres o más variables, como por ejemplo como están relacionados el sexo, la edad y
la alimentación con la inteligencia).
El siguiente esquema ilustra la relación entre dos clasificaciones de la estadística: descriptiva / inferencial
y univariada / bivariada.

La estadística descriptiva se ocupa de muestras, y la estadística inferencial infiere características de la
población a partir de muestras.
A su vez, ambas etapas de la estadística pueden estudiar una variable por vez o la relación entre dos o
más variables. Por ejemplo, a) en el caso de la estadística univariada, el cálculo de medidas de posición y
dispersión en una muestra corresponde a la estadística descriptiva, mientras que la prueba de la media
corresponde a la estadística inferencial; b) en el caso de la estadística bivariada, el análisis de correlación
de variables en una muestra corresponde estrictamente hablando a la estadística descriptiva, mientras
que el análisis de regresión o las pruebas de hipótesis para coeficientes de correlación (Kohan N,
1994:234) corresponden a la estadística inferencial.
3) Según el tiempo considerado.- Si se considera a la estadística descriptiva, se distingue la estadística
estática o estructural, que describe la población en un momento dado (por ejemplo la tasa de
nacimientos en determinado censo), y la estadística dinámica o evolutiva, que describe como va
cambiando la población en el tiempo (por ejemplo el aumento anual en la tasa de nacimientos).

1.3 POBLACIÓN Y MUESTRA

Puesto que la estadística se ocupa de una gran cantidad de datos, debe primeramente definir de cuáles
datos se va a ocupar. El conjunto de datos de los cuales se ocupa un determinado estudio estadístico se
llama población.
No debe confundirse la población en sentido demográfico y la población en sentido estadístico.
La población en sentido demográfico es un conjunto de individuos (todos los habitantes de un país, todas
las ratas de una ciudad), mientras que una población en sentido estadístico es un conjunto de datos
referidos a determinada característica o atributo de los individuos (las edades de todos los individuos de
un país, el color de todas las ratas de una ciudad).
Incluso una población en sentido estadístico no tiene porqué referirse a muchos individuos. Una población
estadística puede ser también el conjunto de calificaciones obtenidas por un individuo a lo largo de sus
estudios universitarios.
En el siguiente esquema pueden apreciarse algunas formas de considerar los datos individuales, según
que correspondan a muchas personas o a una sola, y también según que hayan sido recolectados en un
instante de tiempo determinado, o bien a lo largo del tiempo.

De muchos individuos De un solo individuo
En un instante de tiempo Notas de todos los alumnos en el
primer parcial de tal mes y tal año.
Notas de un solo alumno en el
primer parcial de las materias que
POBLACION

MUESTRA

Parámetros

x1 x2 xn

Estadísticos

x1 y1

x  y

Una variable

Dos (o más) variables

cursa en ese momento.
A lo largo del tiempo Notas de todos los alumnos durante
los 6 años de carrera.
Notas de un alumno a lo largo de
los 6 años de carrera.

Los datos de la totalidad de una población pueden obtenerse a través de un censo. Sin embargo, en la
mayoría de los casos no es posible hacerlo por razones de esfuerzo, tiempo y dinero, razón por la cual se
extrae, de la población, una muestra, mediante un procedimiento llamado muestreo. Se llama muestra a
un subconjunto de la población, y que puede o no ser representativa de la misma.
Por ejemplo, si la población es el conjunto de todas las edades de los estudiantes de la provincia de
Buenos Aires, una muestra podría ser el conjunto de edades de 2000 estudiantes de la provincia de
Buenos Aires tomados al azar.

1.4 ESTRUCTURA DEL DATO

Los datos son la materia prima con que trabaja la estadística, del mismo modo que la madera es la
materia prima con que trabaja el carpintero. Así como este procesa o transforma la madera para obtener
un producto útil, así también el estadístico procesa o transforma los datos para obtener información útil.
Tanto los datos como la madera no se inventan: se extraen de la realidad; en todo caso el secreto está
en recoger la madera o los datos más adecuados a los objetivos del trabajo a realizar.
De una manera general, puede definirse técnicamente dato como una categoría asignada a una variable
de una unidad de análisis. Por ejemplo, “Luis tiene 1.70 metros de estatura” es un dato, donde „Luis‟ es
la unidad de análisis, „estatura‟ es la variable, y „1.70 metros‟ es la categoría asignada.
Como puede apreciarse, todo dato tienen al menos tres componentes: una unidad de análisis, una
variable y una categoría.

La unidad de análisis es el elemento del cual se predica una propiedad y característica. Puede ser una
persona, una familia, un animal, una sustancia química, o un objeto como una dentadura o una mesa.
La variable es la característica, propiedad o atributo que se predica de la unidad de análisis. Por ejemplo
puede ser la edad para una persona, el grado de cohesión para una familia, el nivel de aprendizaje
alcanzado para un animal, el peso específico para una sustancia química, el nivel de „salud‟ para una
dentadura, y el tamaño para una mesa.
Pueden entonces también definirse población estadística (o simplemente población) como el conjunto de
datos acerca de unidades de análisis (individuos, objetos) en relación a una misma característica,
propiedad o atributo (variable).
Sobre una misma población demográfica pueden definirse varias poblaciones de datos, una para cada
variable. Por ejemplo, en el conjunto de habitantes de un país (población demográfica), puede definirse
una población referida a la variable edad (el conjunto de edades de los habitantes), a la variable
ocupación (el conjunto de ocupaciones de los habitantes), a la variable sexo (el conjunto de condiciones
de sexo de los habitantes).
La categoría es cada una de las posibles variaciones de una variable. Categorías de la variable sexo son
masculino y femenino, de la variable ocupación pueden ser arquitecto, médico, etc, y de la variable edad
pueden ser 10 años, 11 años, etc. Cuando la variable se mide cuantitativamente, es decir cuando se
expresa numéricamente, a la categoría suele llamársela valor. En estos casos, el dato incluye también
una unidad de medida, como por ejemplo años, cantidad de hijos, grados de temperatura, cantidad de
piezas dentarias, centímetros, etc. El valor es, entonces, cada una de las posibles variaciones de una
variable cuantitativa.

Datos individuales y datos estadísticos.- Un dato individual es un dato de un solo individuo, mientras
que un dato estadístico es un dato de una muestra o de una población en su conjunto. Por ejemplo, la
edad de Juan es un dato individual, mientras que el promedio de edades de una muestra o población de
personas es un dato estadístico. Desde ya, puede ocurrir que ambos no coincidan: la edad de Juan puede
ser 37 años, y el promedio de edades de la muestra donde está incluído Juan es 23 años. Por esta razón
un dato estadístico nada dice respecto de los individuos, porque solamente describe la muestra o
población.
Los datos estadísticos que describen una muestra suelen llamarse estadísticos (por ejemplo, el
promedio de ingresosmensuales de las personas de una muestra), mientras que los datos estadísticos
descriptores de una población suelen llamarse parámetros (por ejemplo, el promedio de ingresos
mensuales de las personas de una población) (Kohan N, 1994:143).

1.5 LA MEDICIÓN

Los datos se obtienen a través un proceso llamado medición. Desde este punto de vista, puede definirse
medición como el proceso por el cual asignamos una categoría (o un valor) a una variable, para
determinada unidad de análisis. Ejemplo: cuando decimos que Martín es varón, estamos haciendo una
medición, porque estamos asignando una categoría (varón) a una variable (sexo) para una unidad de
análisis (Martín).

A veces se ha definido medir como comparar, lo cual puede referirse a diversos tipos de comparación: 1)
comparar una cantidad con otra tomada como unidad Sentido clásico de comparación); 2) comparar dos
categorías de una misma variable en el mismo sujeto y distinto tiempo; 3) comparar dos categorías de una misma
variable en distintos sujetos al mismo tiempo; y 4) categorías de variables distintas (debe usarse puntaje
estandarizado), en el mismo sujeto o en sujetos distintos.

Se pueden hacer mediciones con mayor o menor grado de precisión. Cuanto más precisa sea la medición,
más información nos suministra sobre la variable y, por tanto, sobre la unidad de análisis. No es lo
mismo decir que una persona es alta, a decir que mide 1,83 metros.
Los diferentes grados de precisión o de contenido informativo de una medición se suelen caracterizar
como niveles de medición. Típicamente se definen cuatro niveles de medición, y en cada uno de ellos la
obtención del dato o resultado de la medición será diferente:

Ejemplos de datos en diferentes niveles de medición

Nivel de
medición
Nivel nominal Nivel ordinal Nivel cuantitativo
discreto
Nivel cuantitativo
continuo
DATO Martín es
electricista
Elena terminó la
secundaria
Juan tiene 32
dientes
María tiene 70
pulsaciones por
minuto
Unidad de
análisis
Martín Elena Juan María
Variable Oficio Nivel de
instrucción
Cantidad de piezas
dentarias
Frecuencia cardíaca
Categoría o
valor
Electricista Secundaria
completa
32 70
Unidad de
medida
------------- ------------ Diente Pulsaciones por
minuto

En el nivel nominal, medir significa simplemente asignar un atributo a una unidad de análisis (Martín es
electricista).
En el nivel ordinal, medir significa asignar un atributo a una unidad de análisis cuyas categorías pueden
ser ordenadas en una serie creciente o decreciente (la categoría „secundaria completa‟ puede ordenarse
en una serie, pues está entre „secundaria incompleta‟ y „universitaria incompleta‟).
En el nivel cuantitativo, medir significa además asignar un atributo a una unidad de análisis de modo tal
que la categoría asignada permita saber „cuánto‟ mayor o menor es respecto de otra categoría, es decir,
especifica la distancia o intervalo entre categorías (por ejemplo, la categoría 70 es el doble de la
categoría 35).
Las variables medibles en el nivel cuantitativo pueden ser discretas o continuas. Una variable discreta es
aquella en la cual, dados dos valores consecutivos, no puede adoptar ningún valor intermedio (por
ejemplo entre 32 y 33 dientes, no puede hablarse de 32.5 dientes). En cambio, una variable es continua
cuando, dados dos valores consecutivos, la variable puede adoptar muchos valores intermedios (por
ejemplo entre 1 y 2 metros, puede haber muchas longitudes posibles).
Algunas veces una misma variable puede ser considerada como discreta o continua. Por ejemplo, la
variable peso es discreta si solamente interesan los pesos sin valores intermedios (50 kg, 51 kg, etc),
mientras que será continua si interesan también los valores intermedios (50,3 kg, 50,35 kg, 50,357 kg,
etc). Obviamente, al considerar una variable como continua se obtendrá mayor precisión, es decir, mayor
información.

La precisión es una cualidad importante de la medición. Se pueden hacer mediciones más precisas y menos
precisas, o tan precisas como lo permita el instrumento de medición. El primer nivel de medición es el menos
preciso, y el último el más preciso. Por ejemplo, una mujer puede estar interesada en „medir‟ el amor de su
pareja, para lo cual podrá interrogarla solicitándole diferentes grados de precisión: ¿me querés? (nivel nominal),
¿me querés más que a la otra? (nivel ordinal), ¿Cuánto me querés, del 1 al 10? (nivel cuantitativo).
De la misma manera, diferentes grados de precisión para la variable temperatura pueden ser: A es un objeto
caliente (nivel nominal), A es más caliente que B (nivel ordinal), A tiene 25 grados Celsius (nivel cuantitativo). Los
ejemplos del amor y de la temperatura ilustran también el hecho de que una variable puede en principio medirse
en cualquiera de los niveles de medición.

Los niveles de medición pueden también ser clasificados de acuerdo a un criterio diferente, que afecta
específicamente a los dos últimos. Así, los niveles de medición pueden ser clasificados como nominal,
ordinal, de intervalos iguales y de cocientes o razones.
Más allá de sus diferentes propiedades matemáticas, el nivel de intervalos iguales incluye un cero relativo
o arbitrario, mientras que el nivel de cocientes o razones incluye un cero absoluto o real. Un cero
absoluto o real representa la ausencia „real‟ de la variable (cero metros implica ausencia de longitud),
mientras que un cero relativo o arbitrario no (cero grado centígrados no implica ausencia de
temperatura).
Existen ciertas variables a las cuales no puede asignársele un „cero real‟, por cuanto no se considera que
esa variable pueda estar ausente en la realidad. Tal es el caso de la ansiedad o la inteligencia: nadie, por
menos ansioso o por menos inteligente que sea, puede tener ansiedad o inteligencia nulas.

CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA

2.1 GENERALIDADES

El propósito fundamental de la estadística descriptiva es resumir y organizar una gran cantidad de
datos referentes a una muestra (lo más habitual) o a una población. Se supone que los datos resumidos
y organizados permiten describir adecuadamente la muestra o la población a los efectos de conocerla y,
eventualmente, utilizarlos en la estadística inferencial para obtener conclusiones a partir de ellos.
Para resumir y organizar los datos se utilizan diferentes procedimientos, llamados técnicas
descriptivas: la matriz de datos permite ordenarlos, las tablas de frecuencias (o tablas de distribución
de frecuencias) permiten agruparlos, los gráficos permiten visualizarlos, y las medidas estadísticas y las
medidas de asimetría y curtosis permiten resumirlos reduciéndolos a un solo dato.

Secuencia para organizar y resumir datos individuales

A medida que se van utilizando estos procedimientos, los datos van quedando cada vez más resumidos y
organizados. El empleo de dichos procedimientos propios de la estadística descriptiva sigue un orden
determinado, como puede apreciarse en el siguiente esquema:

Como puede verse:
a) Los datos quedan recolectados mediante entrevistas, cuestionarios, tests, etc.
b) Los datos quedan ordenados mediante una matriz de datos (lo cual permite resumir la información en
unas pocas páginas).
c) Los datos quedan agrupados mediante tablas de frecuencias (lo cual permite resumir la información en
una sola página).
d) Los datos quedan visualizados mediante gráficos.
e) Los datos quedan sintetizados mediante las medidas estadísticas y otras (lo cual permite resumir la
información en uno o dos renglones).
Puede entonces decirse que, mediante una matriz de datos, una tabla de frecuencias (1), un gráfico o
con medidas estadísticas, etc, la muestra o la población (conjuntos de datos) puede quedar
adecuadamente descrita.
Estas sucesivas abstracciones estadísticas implican: a) la reducción del espacio físico donde queda
guardada la nueva información, y b) la desaparición de considerable informaciónirrelevante.
Debe distinguirse el fin o propósito perseguido (por ejemplo ordenar los datos), del medio utilizado para
ello, que e la técnica descriptiva (por ejemplo, la matriz de datos).

2.2 ORDENAMIENTO Y AGRUPACIÓN DE LOS DATOS: MATRICES Y TABLAS

Una vez que los datos han sido recolectados, se procede a continuación a ordenarlos en una matriz de
datos y luego a agruparlos en una tabla de frecuencias.
DATOS RECOLECTADOS
(entrevistas, cuestionarios, tests, etc)

DATOS ORDENADOS
(matriz de datos)

DATOS AGRUPADOS POR
FRECUENCIA
(tabla de frecuencias)

DATOS AGRUPADOS POR
INTERVALOS
(tabla de frecuencias por intervalos)

DATOS VISUALIZADOS
(gráficos)

DATOS SINTETIZADOS
(medidas estadísticas y medidas de asimetría y curtosis)

La forma de ordenarlos y agruparlos dependerá del tipo de variable considerada. Por ejemplo, si son
datos relativos a variables cualitativas (niveles de medición nominal y ordinal), no podremos utilizar
tablas de frecuencias por intervalos. El siguiente cuadro indica de qué manera se pueden ordenar y
agrupar los datos según cada nivel de medición de la variable:

Ejemplos de organización de los datos según el nivel de medición

Datos ordenados Datos agrupados por frecuencia Datos agrupados por
intervalos
Nivel nominal
(Ejemplo:
variable
religión)
Matriz de datos
Sujeto x (religión)
Juan Católica
Pedro Católica
María Judía
Antonio Protestante
Luis Protestante
José Protestante

Tabla de frecuencias
x (religión) f
Católica 2
Judía 1
Protestante 3
n = 6

f = frecuencia
n = tamaño de la muestra

Nivel ordinal
(Ejemplo:
variable clase
social)
Matriz de datos
Sujeto x (clase
social)
Juan Alta
Pedro Media
María Media
Antonio Media
Luis Baja
José Baja

Tabla de frecuencias
x (clase social) f
Alta 1
Media 3
Baja 2
n = 6

f = frecuencia
n = tamaño de la muestra

Nivel
cuantitativo
(Ejemplo:
variable edad)
Matriz de datos
Sujeto x (edad)
Juan 15
Pedro 15
María 15
Antonio 16
Luis 16
José 16
Ana 16
Gabriela 16
Susana 17
Martín 17
Sergio 17
Pablo 17
Daniel 17
Graciela 17
Daniela 17
Beatriz 17
Oscar 18
Felipe 18
Alberto 18
Mónica 19
Marta 19
Mariana 20

Tabla de frecuencias
x (edad) f
15 3
16 5
17 8
18 3
19 2
20 1
n = 22

f = frecuencia
n = tamaño de la muestra
Tabla de frecuencias por
intervalos
x (edad) f
15-16 8
17-18 11
19-20 3
n = 22

f = frecuencia
n = tamaño de la muestra

Una vez confeccionada la matriz de datos, se procede luego a resumir aún más esta información
mediante una tabla de frecuencias o, si cabe, en una tabla de frecuencias por intervalos. Una tabla de
este último tipo se justifica cuando la tabla de frecuencias original es demasiado grande y por tanto de
difícil manejo para procesar la información. Sea de la forma que fuere, los datos ordenados según sus
frecuencias suelen denominarse distribución de frecuencias (13).

Las tablas de frecuencias contienen tres elementos importantes: las frecuencias, el tamaño de la muestra
y los intervalos (en este último caso sólo para variables cuantitativas).

a) Frecuencia.- La frecuencia (f) se define como la cantidad de datos iguales o que se repiten. Por
ejemplo: la frecuencia 2 indica que el dato „católico‟ se repite dos veces, la frecuencia 3 que el dato
“clase media” se repite tres veces, y la frecuencia 8 que el dato “17 años” se repite ocho veces.
A veces resulta necesario expresar las frecuencias de otra manera, como puede apreciarse en la siguiente
tabla ilustrativa:

Tipos de frecuencias que pueden indicarse en una tabla de frecuencias

x (edad) f f% F F% fr Fr
15 3 15% 3 15% 0.15 0.15
16 7 35% 10 50% 0.35 0.50
17 8 40% 18 90% 0.40 0.90
18 2 10% 20 100% 0.10 1
n = 20 n = 100% ------ ------ n = 1 ------

Frecuencia absoluta (f).- Es la cantidad de datos que se repiten. Por ejemplo, la frecuencia 3 indica que
hay tres personas de 15 años. La suma de todas las frecuencias absolutas equivale al tamaño de la
muestra.
Frecuencia porcentual (f%).- Es el porcentaje de datos que se repiten. Por ejemplo, la frecuencia
porcentual 15% indica que el 15% de la muestra tiene la edad de 15 años. La suma de todas las
frecuencias porcentuales es 100%.
Frecuencia acumulada (F).- Es el resultado de haber sumado las frecuencias anteriores. Por ejemplo, la
frecuencia acumulada 10 resulta de sumar 7+3, e indica la cantidad de veces que se repiten las edades
16 y 15. La última de todas las frecuencias acumuladas, que en el ejemplo es 20, debe coincidir con el
tamaño de la muestra.
Frecuencia acumulada porcentual (F%).- Es el porcentaje de las frecuencias acumuladas.
Frecuencia relativa (fr).- A veces también llamada proporción, es el cociente entre la frecuencia de un
dato x y la frecuencia total o tamaño de la muestra. En la práctica, el tamaño de la muestra se considera
como 1, a diferencia del tamaño de la muestra en la frecuencia porcentual, que se considera 100%.
Frecuencia relativa acumulada (Fr).- Es el resultado de haber sumado las frecuencias relativas
anteriores. Por ejemplo: la frecuencia relativa 0.90 indica que en 0.90 casos sobre 1 las edades están
comprendidas entre 15 y 17 años.
Frecuencias parciales y frecuencia total.- Tanto las frecuencias absolutas como las porcentuales o las
relativas pueden ser frecuencias parciales o una frecuencia total, siendo ésta última la suma de todas
frecuencias parciales.
Las frecuencias porcentuales y las frecuencias relativas comparan la frecuencia parcial con la frecuencia
total, y sirven para establecer comparaciones entre muestras distintas. Por ejemplo, si en una muestra
de 1000 hombres, solo votaron 200, y en una muestra de 600 mujeres solo votaron 200 mujeres, en
términos de frecuencias absolutas existe la misma cantidad de votantes masculinos y femeninos, es decir
200, pero en „proporción‟, las mujeres votaron más (la tercera parte del total) que los hombres (la quinta
parte del total). Esta información se obtiene al convertir las frecuencias absolutas en frecuencias
porcentuales o en frecuencias relativas (o proporciones).

2) Tamaño de la muestra.- Otro concepto importante es el tamaño de la muestra (n), que designa la
cantidad total de datos. Obviamente, la suma de todas las frecuencias f debe dar como resultado el
tamaño n de la muestra, por lo que el tamaño de la muestra coincide con la frecuencia total.

3) Intervalos.- Un intervalo, también llamado intervalo de clase, es cada uno de los grupos de valores
ubicados en una fila en una tabla de frecuencias. Por ejemplo el intervalo 15-16 significa que en esa fila
se están considerando las edades de 15 a 16 años. La frecuencia correspondiente a un intervalo es igual
a la suma de frecuencias de los valores en él incluídos (2). Los intervalos presentan algunas
características, que son las siguientes:
Tamaño del intervalo (a).- También llamado amplitud o anchura del intervalo, es la cantidad de valores
de la variable que se consideran conjuntamente en ese intervalo. Por ejemplo, el intervalo 15-16 años
tiene una amplitud de 2, puesto que se consideran dos valores: 15 y 16. En otro ejemplo, el intervalo 20-
25 años tiene una amplitud de 6, puesto que se consideran seis valores.
En general, puede calcularse el tamaño de un intervalo restando el límite superior y el inferior y sumando
al resultado el número 1. Por ejemplo, 25 menos 20 da 5, y sumándole 1 da 6.
Los ejemplos indicados corresponden a variables discretas, lo que significa que no podrán encontrarse
valores intermedios entre dos intervalos. Por ejemplo, entre los intervalos 15-16 y 17-18 no se
encontrarán valores intermedios entre 16 y 17 años.
Téngase presente que: a) preferiblemente los intervalos deben tener un tamaño constante, de manera tal
que no se pueden considerar como intervalos 15-16 y 17-20, porque tienen diferentes tamaños; y b) los
intervalos han de ser mutuamente excluyentes,de manera tal que cuando se trata de variables discretas,
no pueden definirse los intervalos 15-16 y 16-17, porque el valor 16 años está en ambos intervalos y no
se podrá saber con seguridad en qué intervalo ubicar dicho valor.
El problema se puede presentar con las variables continuas, donde, por definición, podría aparecer algún
valor intermedio entre dos intervalos. Por ejemplo, si se considera la variable continua „ingresos
mensuales‟ y se consideran en ella los intervalos 1000-2000 dólares y 3000-4000 dólares, puede ocurrir
que un dato obtenido de la realidad sea 2500 dólares, con lo cual no podrá ser registrado en ningún
intervalo. En tal caso se deberían reorganizar los intervalos como 1000-2999 dólares y 3000-4999
dólares, con lo cual el problema estaría resuelto.
Desde ya, puede ocurrir que aparezca un ingreso mensual de 2999,50 dólares, en cuyo caso en principio
deberían reorganizarse nuevamente los intervalos como 1000-2999,50 dólares y 2999,51-4999 dólares.
La forma de reorganizar los intervalos dependerá entonces del grado de precisión que pretenda el
investigador o del grado de precisión del instrumento de medición disponible.
Límites del intervalo.- Todo intervalo debe quedar definido por dos límites: un límite inferior y un límite
superior. Estos límites, a su vez, pueden ser aparentes o reales (Pagano, 1998:38-39). Considérese el
siguiente ejemplo:

Límites aparentes Límites reales
95-99 94.5-99.5
90-94 89.5-94.5
85-89 84.5-89.5
80-84 79.5-84.5
75-79 74.5-79.5

Si la variable considerada es discreta, carecerá de sentido la distinción entre límites reales o aparentes.
Si se conviene que los valores que la variable puede adoptar son números enteros, se considerarán
solamente los intervalos 95-99, 90-94, etc. Estos intervalos son en rigor reales, porque expresan los
valores „reales‟ que puedan haber, que no son fraccionarios.
Sólo en el caso de las variables continuas adquiere sentido la distinción entre límites reales y aparentes.
Si la variable es continua, deberían tenerse en cuenta los límites reales. Por ejemplo, si un valor resulta
ser 94.52, entonces será ubicado en el intervalo 94.5-99.5. Sin embargo, aún en estos casos, lo usual es
omitir los límites reales y presentar sólo los límites aparentes (Pagano, 1998:39). En todo caso, los
límites reales se utilizan a veces cuando se intenta transformar la tabla de frecuencias por intervalos en
un gráfico.
En principio, en ningún caso deberá haber una superposición de valores, como en el caso de los
intervalos 20-21 y 21-22, donde el valor 21 está incluído en ambos intervalos, violándose así la regla de
la mutua exclusión. Si acaso se presentara esta situación, o bien podrá ser adjudicada a un error del
autor de la tabla, o bien deberá traducírsela como 20-20.99 y 21-22.99.
Punto medio del intervalo (xm).- Es el valor que resulta de la semisuma de los límites superior e inferior,
es decir, el punto medio del intervalo se calcula sumando ambos límites y dividiendo el resultado por dos.
Por ejemplo, el punto medio del intervalo 15-20 es 17.5. El punto medio del intervalo sirve para calcular
la media aritmética.
Intervalos abiertos y cerrados.- Idealmente, todos los intervalos deberían ser cerrados, es decir, deberían
estar especificados un límite superior y uno inferior de manera definida. Sin embargo, en algunos casos
se establecen también intervalos abiertos, donde uno de los límites queda sin definir. En el siguiente
ejemplo, ‟18 o menos‟ y ‟29 o más‟ son intervalos abiertos. Obviamente, en este tipo de distribución los
intervalos dejan de ser de tamaño constante.

Intervalos
18 o menos
19-23
24-28
29 o más

Cantidad de intervalos.- La cantidad de intervalos es inversamente proporcional al tamaño de los
mismos: cuanto menor tamaño tienen los intervalos, más numerosos serán.
El solo hecho de emplear intervalos supone una cierta pérdida de la información. Por ejemplo, si se
considera el intervalo 15-18 años, quedará sin saber cuántas personas de 16 años hay. Para reducir esta
incertidumbre, podría establecerse un intervalo menor (15-16 años), pero con ello habrá aumentado la
cantidad de intervalos hasta un punto donde la información se procesará de manera más difícil.
Consiguientemente, al agrupar los datos hay que resolver el dilema entre perder información y presentar
los datos de manera sencilla (Pagano R, 1998:37) (Botella, 1993:54), es decir, encontrar el justo
equilibrio entre el tamaño de los intervalos y su cantidad.
En la práctica, por lo general (Pagano, 1998:37) se consideran de 10 a 20 intervalos, ya que la
experiencia indica que esa cantidad de intervalos funciona bien con la mayor parte de las distribuciones
de datos (3).

Se pueden sintetizar algunas reglas importantes para la construcción de intervalos de la siguiente
manera:
a) Los intervalos deben ser mutuamente excluyentes.
b) Cada intervalo debe incluir el mismo número de valores (constancia de tamaño).
c) La cantidad de intervalos debe ser exhaustiva (todos los valores deben poder ser incluídos en algún
intervalo).
d) El intervalo superior debe incluir el mayor valor observado (Botella, 1993:54).
e) El intervalo inferior debe incluir al menor valor observado (Botella, 1993:54).
f) En variables continuas, es aconsejable expresar los límites aparentes de los intervalos, que los límites
reales.

2.3 VISUALIZACIÓN DE LOS DATOS: GRÁFICOS

Una vez que los datos han sido organizados en tablas de frecuencias, es posible seguir avanzando
organizándolos, desde allí, de otras maneras diferentes y con distintos propósitos. Una de estas maneras
es la utilización de representaciones gráficas, algunas de las cuales son aptas para representar variables
cualitativas (niveles nominal y ordinal) y otras para variables cuantitativas. Al tratarse de esquemas
visuales, los gráficos permiten apreciar de un „golpe de vista‟ la información obtenida.

Diagrama de tallo y hojas

Esta técnica de visualización de datos es aquí mencionada en primer lugar porque puede ser considerada
un procedimiento intermedio entre la tabla de frecuencias y el gráfico. Fue creada por Tukey en 1977
(citado por Botella, 1993:59) y presenta, entre otras, las siguientes ventajas: a) permite conocer cada
puntuación individual (a diferencia de la tabla de frecuencias por intervalos, donde desaparecen en ellos);
y b) puede ser considerada un „gráfico‟ si hacemos girar 90° el listado de puntuaciones o datos.

A continuación se describe la forma de construir un diagrama de tallo y hojas, tomando como ejemplo la
siguiente distribución de datos ordenados:

32-33-37-42-46-49-51-54-55-57-58-61-63-63-65-68-71-72-73-73-73-75-77-77-78-83-85-85-91-93

Tallo Hojas Procedimiento para realizar el diagrama de tallo y hojas

a) Se construye una tabla como la de la izquierda con dos columnas: tallos y
hojas.
b) Se identifican cuáles son los valores extremos: 32 y 93.
c) Se consideran los primeros dígitos de cada valor: 3 y 9.
d) En la columna “tallos” se colocan los números desde el 3 hasta el 9.
e) En la columna “hojas” se colocan los segundos dígitos de cada valor que
empiece con 3, con 4, con 5, etc.
3 237
4 269
5 14578
6 13358
7 123335778
8 355
9 13

Girando la tabla obtenida 90° hacia la izquierda, se obtendrá algo similar a un gráfico de barras, que
muestra por ejemplo que la mayor concentración de valores es la que comienza con 7.

Una utilidad adicional del diagrama de tallo y hojas es que permite comparar visualmente dos variables,
es decir, dos conjuntos de datos en los análisis de correlación, como puede apreciarse en el siguiente
ejemplo:

Hojas (Grupo control) Tallo Hojas (Grupo experimental)
87655 1 9
44322110 2 124
876655 3 5667788899
111000 4 00023344
5 555

Visualmente es posible darse una idea de los resultados del experimento: los datos del grupo
experimental tienden a concentrarse en los valores altos, y los del grupo de control en los valoresbajos.

Pictograma

Es una representación gráfica en la cual se utilizan dibujos. Por ejemplo, en el siguiente pictograma cada
cara puede representar 100 personas:

Sector circular

Representación gráfica de forma circular donde cada porción de la „torta‟ representa una frecuencia. Para
confeccionarlo se parte de una tabla de frecuencias donde están especificadas las frecuencias en grados
(f°), las cuales se calculan mediante una sencilla regla de tres simple a partir de las frecuencias absolutas
(f).
Por ejemplo, si 825 es a 360°, entonces 310 es igual a 360° x 310 dividido por 825, lo cual da un
resultado de 135°. Por lo tanto, para representar la frecuencia 310 deberá trazarse un ángulo de 135°.
Estos valores pueden verse en el ejemplo siguiente, donde se han representado dos sectores circulares
distintos, uno para varones y otro para mujeres:

x
(patología)
Sexo Total f°
(varones)
f°
(mujeres) Varones Mujeres
Angina 310 287 597 135° 113°
Bronquitis 297 429 726 130° 169°
Sarampión 123 120 243 54° 47°
Otras 95 80 175 41° 31°
Total 825 916 1691 360° 360°

Para realizar estos sectores se traza un ángulo de por ejemplo 130° y dentro de coloca la palabra
“bronquitis”, y así sucesivamente.
El círculo para mujeres es algo mayor que el círculo para hombres, porque en la muestra hay más
mujeres que hombres. Para lograr estos tamaños debe calcularse el radio. Por ejemplo, si se ha elegido
un radio masculino de 4 cm, el radio femenino puede calcularse mediante la fórmula siguiente:
El radio femenino es igual al radio masculino multiplicado por la raíz cuadrada del n femenino, resultado
que se dividirá por la raíz cuadrada del n masculino, donde n = tamaño de la muestra de cada sexo. Si el
radio masculino es 4 cm, con esta fórmula se obtendrá un radio femenino de 4,22 cm.

Diagrama de barras

Representación gráfica donde cada barra representa una frecuencia parcial. En el eje de las ordenadas se
indican las frecuencias absolutas, y en el eje de absisas se representan los valores de la variable x. De
esta manera, las barras „más altas‟ tienen mayor frecuencia.
Varones

Mujeres

100 personas

Varones

Mujeres

Bronquitis

Angina
Saram
pión

Otras

Bronquitis

Angina

Saram
pión

Otras

Existen diferentes tipos de diagramas de barras, de los cuales se ilustran tres: las barras simples, las
barras superpuestas y las barras adyacentes. Los dos últimos tipos dan información sobre dos variables
al mismo tiempo, que son sexo y estado civil en los ejemplos que siguen:

Las barras también pueden disponerse horizontalmente.
Mediante el diagrama de barras pueden representarse variables cualitativas y cuantitativas discretas.

Histograma de Pearson

Utilizado para representar variables cuantitativas continuas agrupadas en intervalos, este gráfico se
compone de barras adyacentes cuya altura es proporcional a las respectivas frecuencias parciales. En el
ejemplo siguiente, se presenta la tabla de frecuencias por intervalos y su histograma correspondiente:

x (longitud) f
1-1.99 3
2-2.99 5
3-3.99 2
Total 10

Barras simples

Solteros Casados Separados
x

Barras superpuestas

Solteros Casados Separados x

Barras adyacentes

Solteros Casados Separados x

Adolescentes

Adultos

Como pude apreciarse, en las absisas se indican los límites inferiores de los intervalos.
Cuando los intervalos no son iguales, en lugar de indicar las frecuencias absolutas pueden indicarse las
alturas (h). Esta última se obtiene dividiendo la frecuencia parcial por el tamaño del intervalo
correspondiente.

Polígono de frecuencias

Es un gráfico de líneas rectas que unen puntos, siendo cada punto la intersección del punto medio del
intervalo (indicado en las absisas) y la frecuencia correspondiente. Tomando el ejemplo anterior, el
polígono de frecuencias sería el siguiente:

Un polígono de frecuencias puede obtenerse también a partir del histograma correspondiente. Para ello
basta con indicar los puntos medios de cada línea horizontal superior de cada barra del histograma, y
luego unirlos con líneas rectas.
Otra alternativa para este tipo de diagrama es el polígono de frecuencias acumuladas, donde se indican
las frecuencias acumuladas en lugar de las frecuencias habituales.

Ojiva de Galton

Gráfico en el cual se consignan en las ordenadas las frecuencias acumuladas y en las absisas los límites
superiores de cada intervalo (aunque también pueden indicarse los puntos medios de cada intervalo). Por
ejemplo:

x (longitud) f F
1-1.99 3 3
2-2.99 5 8
3-3.99 2 10
Total 10

1 2 3 4
x

1.5 2.5 3.5 punto medio (xm)

La ojiva de Galton también puede representar frecuencias acumuladas decrecientes.

2.4 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE POSICIÓN

Los datos individuales pueden ser sintetizados mediante medidas de posición, medidas de dispersión
(ambas se llaman medidas estadísticas), medidas de asimetría y medidas de curtosis. En este ítem se
describen las medidas de posición.

Definición

Las medidas de posición pueden ser definidas de diversas formas (4). En esta nota proponemos la
siguiente definición: Las medidas de posición son datos estadísticos que intentan representar un conjunto
de datos individuales respecto de una variable.
Esta definición se refiere a tres cuestiones:

1) Son medidas estadísticas, es decir, no son medidas individuales. Una medida de posición representa a
todo un conjunto de datos, y no son los datos individuales. Por ejemplo, un promedio de edades
representa a todas las edades del grupo, y no es la edad individual de uno de sus miembros, aunque
pueda coincidir numéricamente con ella. Así, si el promedio de edades es 20 años y una de las personas
del grupo tiene 20 años, el primer dato es una medida estadística y el segundo una medida individual.
En otros términos, las medidas estadísticas no describen individuos, sino poblaciones o muestras. Por
ejemplo, no tiene sentido explicar que una persona es anciana porque vive en una población cuyo
promedio de edad es 70 años.
2) Son medidas representativas, es decir, intentan representar y sintetizar a todas las medidas
individuales. El conjunto de todas las medidas individuales puede recibir diversos nombres, tales como
muestra y población, con lo cual tiene sentido afirmar proposiciones tales como „una medida de posición
representa una muestra o una población‟.
Por ejemplo, es posible representar las notas obtenidas por un grupo de alumnos de diversas maneras:
a) El promedio de las notas es de 7.35 puntos (en este caso usamos una medida de posición llamada
media aritmética).
b) La mitad de los alumnos ha obtenido una nota superior a 6,5 puntos (en este caso utilizamos otra
medida de posición llamada mediana).
c) La nota que más se ha repetido fue 7 puntos (en este caso usamos la medida de posición llamada
modo).
La pregunta acerca de cuál de las tres medidas de posición representa „mejor‟ al conjunto de datos
individuales es el problema de la representatividad de la medida de posición, y la estadística suministra,
F

1.99 2.99 3.99 lím superior (Ls)

como se verá, diversos criterios para evaluar la mejor forma de representar un cierto número de datos
individuales.
3) Son medidas que miden una variable, es decir, algún atributo o propiedad de los objetos. En el
ejemplo anterior la variable medida es el rendimiento académico, pero también pueden obtenersemedidas de posición representativas de un conjunto de edades, de profesiones, de clases sociales, de
puntuaciones de un test, de cantidad de dientes, etc.
De otra manera: no tiene sentido decir que una medida de posición represente un conjunto de personas,
pero sí tiene sentido decir que representan las edades de un conjunto de personas.

Características de las principales medidas de posición

Las medidas de posición pueden ser de tendencia central y de tendencia no central. Las primeras “se
refieren a los valores de la variable que suelen estar en el centro de la distribución” (Kohan, 1994:69).
Por ejemplo: la media aritmética, la mediana y el modo son las más conocidas, pero también está la
media aritmética ponderada (útil cuando hay valores que se repiten y que requieren atención diferencial),
la media geométrica (Kohan, 1994:71-72), la media armónica, la media antiarmónica, la media
cuadrática, la media cúbica, etc.
Las medidas de posición no centrales son los cuartiles, deciles y percentiles (Kohan, 1994:79), que
reciben genéricamente el nombre de cuantiles o fractiles (5).
De acuerdo a Botella (1993:99), las medidas de posición no centrales son datos o valores que ocupan
una posición especial en la serie de datos. Cuando una medida de posición es un dato que ocupa un lugar
central, la llamamos medida de tendencia central.

En el siguiente cuadro se especifican las definiciones y características principales de las medidas de
posición.

Medida Definición Características
MODO Es el dato o
valor que más
se repite, o
sea, el de
mayor
frecuencia.
Resulta útil si hay muchos datos repetidos (altas frecuencias).
Puede calcularse cuando hay valores muy extremos.
El modo muestral no es un estimador suficiente del modo poblacional
porque no incluye todos los datos.
En distribuciones multimodales es posible que la muestra no sea
homogénea, y que esté constituída por varios estratos.
Es posible convertir una distribución multimodal en una modal
reorganizando los intervalos.
Si una distribución no tiene modo, podría obtenerse reorganizando los
datos en intervalos.
MEDIANA Es el dato o
valor que
divide por la
mitad la serie
de datos
ordenados
creciente o
decrecienteme
nte, es decir,
es el valor
central de la
serie.
Es la medida más útil en escalas ordinales siempre que los valores
centrales sean iguales.
No está influenciada por los valores extremos (por ello por ejemplo
puede aplicarse desconociendo estos o sea cuando hay límites
superiores o inferiores abiertos).
Puede usarse cuando hay intervalos abiertos, siempre que el orden de
la mediana no se corresponda con ellos.
Es útil cuando unos pocos datos difieren mucho del resto.
No es útil si hay muchos datos repetidos (altas frecuencias).
La mediana muestral no es un estimador suficiente de la mediana
poblacional porque no incluye todos los datos.
Es útil es distribuciones muy asimétricas (extremos no compensados).
La mediana coincide con el Q2 (cuartil 2), el D5 (decil 5) y el P50
(percentil 50) (8).
MEDIA
ARITMÉTICA
Es el promedio
aritmético de
todos los
datos o
valores.
Está influenciada por los valores extremos (por ejemplo, no puede
utilizarse cuando hay valores extremos desconocidos o intervalos
abiertos, salvo que estos puedan cerrarse).
No conviene cuando los valores extremos son muy altos o muy bajos.
Es útil en distribuciones simétricas (con extremos compensados).
No puede usarse en escalas nominales ni ordinales.
Es siempre superior a la media geométrica y a la media armónica.
La media muestral es un estimador suficiente de la media poblacional
porque incluye todos los datos.
No necesariamente coincide con alguno de los valores.
La media aritmética tiene varios otras propiedades (7).
CUANTIL Es el dato o
valor que
divide la serie
ordenada de
Es útil cuando hay gran cantidad de valores.
Puede también utilizarse como medida de dispersión.
Suelen utilizarse los cuartiles, los deciles y los percentiles.
datos en
partes iguales.
-Cuartiles Valores que
dividen la
serie en
cuatro partes
iguales.
Tres cuartiles dividen la serie en cuatro partes iguales.
-Deciles Valores que
dividen la
serie en diez
partes iguales.
Nueve deciles dividen la serie en diez partes iguales.

-Percentiles Valores que
dividen la
serie en cien
partes iguales.
Noventa y nueve percentiles dividen la serie en cien partes iguales.
También se llaman centiles.

Relación entre modo, mediana y media aritmética.- a) La experiencia indica que la relación entre estas
tres medidas es:
Modo = (3 . Mediana) – (2 . Media aritmética). Esta relación es conocida como la fórmula de Pearson. b)
Cuanto más simétrica es una distribución (por ejemplo en una curva normal), más tienden a coincidir los
valores de las tres medidas.

Cálculo analítico de las medidas de posición: fórmulas

Para calcular una determinada medida de posición puede haber diversas fórmulas. La elección de la
fórmula adecuada dependerá de la forma en que estén organizados los datos individuales.
En principio, los datos pueden estar organizados de cuatro maneras:
1) Datos desordenados. Por ejemplo, las edades de un grupo de cuatro personas son 17, 29, 17 y 14.
Cuando se recolecta información, generalmente se obtienen datos desordenados, frente a lo cual
convendrá ordenarlos.
2) Datos ordenados. Por ejemplo, las edades del mismo grupo de personas son 14, 17, 17 y 29, si hemos
decidido ordenarlas en forma creciente, aunque también podemos ordenarlas decrecientemente.
3) Datos agrupados por frecuencia. Por ejemplo, hay dos edades de 17 años, una edad de 14 años y una
edad de 29 años. O, lo que es lo mismo, la frecuencia de la edad 17 es 2, y la frecuencia de las restantes
edades es 1.
4) Datos agrupados por intervalos. Por ejemplo, hay 3 edades comprendidas en el intervalo 14-17 años,
y una edad comprendida en el intervalo 18-29 años.
La estadística va agrupando los datos siguiendo el orden anterior. Cuanto más avance en este proceso,
más habrá logrado sintetizar y organizar los datos individuales.
En el siguiente cuadro se sintetizan las diversas reglas o fórmulas para calcular las medidas de posición,
según como estén organizados los datos individuales y según los niveles de medición que admiten.
Nótese que en algunos casos no es posible especificar ninguna fórmula, y entonces el cálculo se hará
siguiendo la regla indicada para los mismos. Por ejemplo: “para calcular el modo de un conjunto de datos
ordenados, debe buscarse el dato o valor que más se repite” (6).

Cálculo de medidas de posición según los niveles de medición que admiten y según la forma de organización de los datos individuales.
Preparado por: Pablo Cazau

Medida de
posición
Nivel de
medición
Datos ordenados Datos agrupados por frecuencia Datos agrupados por intervalos
Modo Nominal Valor que más se repite Valor con la mayor frecuencia ------------
Ordinal Valor que más se repite Valor con la mayor frecuencia ------------
Cuantitativo Valor que más se repite Valor con la mayor frecuencia f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)
Mediana Ordinal Valor central de la serie
ordenada de valores
Valor que corresponde a la frecuencia acumulada n/2 ------------
Cuantitativo Valor central de la serie
ordenada de valores
Valor que corresponde a la frecuencia acumulada n/2 n/2 - Fant
Mn = Li + ---------------------- . a
f
Media
aritmética
Cuantitativo x
X = -----
n
x.f)
X = ---------
n
xm.f)
X = ---------
n
Cuartil Cuantitativo Valores que dividen la serie
en cuatro partes iguales.
Por tanto, hay 3 cuartiles: Q1,
Q2 y Q3
Valor que corresponde a la frecuencia acumulada t.n/4, expresión
llamada cuartil de orden o Q
0
(1)
Donde t puede valer 1, 2 o 3.
Por tanto, hay 3 cuartiles: Q1,Q2 y Q3
t.n/4 - Fant
Qt = Li + ---------------- . a
f
Decil Cuantitativo Valores que dividen la serie
en diez partes iguales.
Por tanto, hay 9 deciles:
desde el D1 hasta el D9
Valor que corresponde a la frecuencia acumulada t.n/10, expresión
llamada decil de orden o D
0
(1)
Donde t puede valer entre 1 y 9.
Por tanto, hay 9 deciles: desde el D1 hasta el D9
t.n/10 - Fant
Dt = Li + ---------------- . a
f
Percentil Cuantitativo Valores que dividen la serie
en cien parte iguales.
Por tanto, hay 99 percentiles:
desde el P1 hasta el P99
Valor que corresponde a la frecuencia acumulada t.n/100, expresión
llamada percentil de orden o P
0
(1)
Donde t puede valer entre 1 y 99.
Por tanto, hay 99 percentiles: desde el P1 hasta el P99
t.n/100 - Fant
Pt = Li + ---------------- . a
f

(1) Si no puede identificarse unívocamente una frecuencia acumulada, y por tanto un valor determinado de x, puede ser calculada por interpolación. En realidad, los cuantiles se
utilizan preferentemente cuando los datos están agrupados por intervalos.

A continuación, se suministran ejemplos de cómo calcular cada medida de posición teniendo
en cuenta las reglas y fórmulas del esquema anterior.

a) Cálculo del modo para datos ordenados (niveles nominal, ordinal y cuantitativo)

Nivel nominal: perro, perro, gato, gato, gato, gato (por tanto, el modo es gato)
Nivel ordinal: grande, grande, mediano, mediano, mediano, chico, chico, chico, chico (por
tanto, el modo es chico)
Nivel cuantitativo: 6, 6, 7, 7, 7, 7, 8, 9, 10, 10, 11 (por tanto, el modo es 7)

b) Cálculo del modo para datos agrupados en frecuencia (niveles nominal, ordinal y
cuantitativo)

Nivel nominal Nivel ordinal Nivel cuantitativo
x (religión) f
Católicos 56
Protestantes 78
Judíos 45
Budistas 24
Otros 31

x (dureza) f
Muy duro 18
Duro 8
Intermedio 13
Blando 16
Muy blando 7

x (edad) f
30 años 6
31 años 14
32 años 19
33 años 24
34 años 15

El modo es “Protestantes” El modo es “Muy duro” El modo es “33” años

Como puede verse, el modo es el valor de la variable x que está más repetido.

c) Cálculo del modo para datos agrupados por intervalos (nivel cuantitativo)

x (cantidad piezas dentarias) f
10-18 6
19-27 8
28-36 24
37-45 2
n=40

Una vez confeccionada la tabla de frecuencias por intervalos, se procede en dos pasos:

a) Se identifica cuál es el intervalo de mayor frecuencia. En este caso, es 28-36.
b) Se aplica la fórmula correspondiente:

f - fant
Mo = Li + ---------------------- . a
(f - fant) + (f- fpos)

24 - 8
Mo = 28 + ---------------------- . 8 = 31.37 piezas dentarias
(24 - 8) + (24 - 2)

d) Cálculo de la mediana para datos ordenados (niveles ordinal y cuantitativo)

Para hallar la mediana de un conjunto de datos, primero hay que organizarlos en orden
descendente o ascendente. Si el conjunto de datos contiene un número impar de elementos,
el central es la mediana. Si hay un número par, la mediana es el promedio de los dos datos
centrales.

Ejemplos para el nivel ordinal:

Número impar de datos: alto, alto, alto, alto, medio, medio, medio, medio, medio, medio,
bajo (por tanto, la mediana es = medio).
Número par de datos: En el nivel ordinal no puede calcularse un promedio si los dos valores
centrales son distintos. Si los dos valores centrales son iguales, ese es el valor de la
mediana.

Ejemplos para el nivel cuantitativo:

Número impar de datos: 13, 13, 13, 14, 14, 17, 18, 19, 19 (por tanto, la mediana es 14)
Número par de datos: 11, 11, 12, 13, 14, 15, 16, 18, 18, 18 (por tanto, la mediana es el
promedio entre 14 y 15, o sea 14.5).

e) Cálculo de la mediana para datos agrupados por frecuencia (niveles ordinal y
cuantitativo)

x (días) f F
1 7 7
2 9 16
3 14 30
4 10 40
5 2 42
n = 42

La variable es aquí cantidad de días de posoperatorio.
El procedimiento es el siguiente:
a) Se calcula la mediana de orden:

Mn0 = n/2 = 42/2 = 21

b) Se identifica cuál es el valor de x que corresponde a la frecuencia acumulada que contiene
el valor 21:

Dicha frecuencia acumulada es 30, y, por lo tanto Mn = 3 días

f) Cálculo de la mediana para datos agrupados por intervalos (nivel cuantitativo)

x f F
0-3 8 8
3-6 10 18
6-9 11 29
9-12 12 41
12-15 9 50
15-18 7 57
18-21 6 63
21-24 5 68
n = 68

Nótese que para calcular la mediana se precisa información sobre frecuencias acumuladas,
razón por la cual se ha agregado la columna respectiva.
Se procede en dos pasos:
a) Se identifica cuál es el intervalo que debe ser considerado, para lo cual se calcula la
mediana de orden:

Mn0 = n/2 = 68/2 = 34
Tomando en cuenta las frecuencias acumuladas, el valor 34 entra en la frecuencia
acumulada 41, y, por lo tanto, el intervalo a considerar será 9-12.
b) Se aplica la fórmula de mediana:

n/2 - Fant
Mn = Li + ---------------------- . a
f

34 - 29
Mn = 9 + ---------------------- . 3 = 10.25
12

Téngase presente que si la variable fuera discreta y medible sólo en números enteros, sería
Mn = 10.
Si la variable fuese cantidad de materias aprobadas, el alumno con 10 materias aprobadas
está en el lugar central de la serie, es decir, habría un 50% de compañeros con menos
materias aprobadas y un 50% con más materias aprobadas.

g) Cálculo de la media aritmética para datos ordenados (nivel cuantitativo)

Dados los siguientes dados ordenados: 2-2-3-4-4-4-5-5-6-7-8-10
Se puede calcular la media aritmética aplicando la fórmula:

x
X = -----
n

X = ---------------------------------------- = --------- = 5
12 12

h) Cálculo de la media aritmética para datos agrupados por frecuencia (nivel
cuantitativo)

x (edad) f f . x
18 3 54
19 1 19
20 2 40
23 4 42
25 2 50
26 2 52
28 2 56
n = 16 363

Nótese que para el cálculo de la media aritmética se ha agregado una columna con los
productos de x . f.
Se aplica la fórmula de media aritmética:

x.f) 54+19+40+42+50+52+56 363
X = --------- = ----------------------------------- = -------- = 22.68 años = 23 años.
n 16 16

i) Cálculo de la media aritmética para datos agrupados por intervalos (nivel
cuantitativo)

x f xm xm.f
0-3 8 1.5 12
3-6 10 4.5 45
6-9 11 7.5 82.5
9-12 12 10.5 126
12-15 9 13.5 121.5
15-18 7 16.5 115.5
18-21 6 19.5 117.6
21-24 5 22.5 112.5
n = 68 732.5

Nótese que para el cálculo de la media aritmética se ha agregado una columna con los
puntos medios de los intervalos y otra con los productos de las frecuencias por los puntos
medios.
Se aplica la fórmula de media aritmética:

xm.f) 732.5
X = ------------- = ---------- = 10.77
n 68

El método corto y el método clave son dos métodos alternativos para calcular la media
aritmética, siendo el último sólo aplicable cuando el tamaño de los intervalos es constante.
De acuerdo al método corto, la media aritmética se calcula sumando al punto medio del
intervalo de mayor frecuencia, el cociente entre la sumatoria de los productos entre cada
frecuencia y la diferencia entre el punto medio de cada intervalo menos el punto medio del
intervalo de mayor frecuencia, y la sumatoria de frecuencias (n).
De acuerdo al método clave, la media aritmética se calcula sumando al punto medio del
intervalo de mayor frecuencia, el producto entre el tamaño del intervalo y un cociente, donde
el numerador es la sumatoria de los productos entre las frecuencias y el llamado intervalo
unitario (que resulta de dividirla diferencia entre cada punto medio y el punto medio del
intervalo de mayor frecuencia, por el tamaño del intervalo), y donde el denominador es la
sumatoria de frecuencias (n).

j) Cálculo del cuantil para datos ordenados (nivel cuantitativo)

1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9

Si en la serie anterior resaltamos los tres valores que la dividen en cuatro partes iguales,
esos valores serán los cuartiles Q1, Q2 y Q3:

1-1-1-1-1-2-2-2-3-3-3-3-4-5-6-6-6-6-7-7-8-8-9

Q1 = 2
Q2 = 3
Q3 = 6

Sin embargo, es más práctico agrupar los datos por frecuencias o por intervalos, a los
efectos del cálculo de los cuantiles (cuartiles, deciles o percentiles).

k) Cálculo del cuantil para datos agrupados por frecuencia (nivel cuantitativo)

x (edad) f F
18 3 3
19 1 4
20 2 6
23 4 10
25 2 12
26 2 14
28 2 16
n = 16

Se pueden calcular, por ejemplo, Q1, Q2 y Q3.

El primer paso consiste en averiguar los respectivos cuartiles de orden.

Para Q1 es Q
0
= t.n/4 = 1.16/4 = 4
Para Q2 es Q
0
= t.n/4 = 2.16/4 = 8
Para Q3 es Q
0
= t.n/4 = 3.16/4 = 12

El segundo y último paso consiste en identificar el valor de x correspondiente al cuartil de
orden respectivo.

Q1 = 4
Q2 = Está entre 20 y 23
Q3 = 25

l) Cálculo del cuantil para datos agrupados por intervalos (nivel cuantitativo)

x (puntaje) f F
0-10 1 1
10-20 3 4
20-30 5 9
30-40 6 15
40-50 10 25
50-60 12 37
60-70 13 50
70-80 9 59
80-90 4 63
90-100 3 66
n = 66

Se pueden calcular, por ejemplo, Q3, D7 y P45.

El primer paso consiste en averiguar los cuantiles de orden:

Para Q3 es Q
0
= t.n/4 = 3.66/4 = 49.5
Para D7 es D
0
= t.n/10 = 7.66/10 = 46.2
Para P45 es P
0
= t.n/100 = 45.66/100 = 29,7

El segundo paso consiste en identificar el intervalo que corresponde al cuantil de orden en la
columna de frecuencias acumuladas:

El valor 49.5 corresponde al intervalo 60-70
El valor 46.2 corresponde al intervalo 60-70
El valor 29.7 corresponde al intervalo 50-60

El tercer y último paso consiste en aplicar la fórmula basándose en la información del
intervalo identificado. Si la fórmula pide el dato de la frecuencia acumulada anterior y esta
no existe, se coloca 0 (cero).
En el ejemplo del cálculo del D7, se aplica la siguiente fórmula:

t.n/10 - Fant
Dt = Li + ------------------- . a
f

46.2 - 37
D7 = 60 + ---------------- . 11 = 67.78
13

Cálculo visual de las medidas de posición: gráficos

Es posible utilizar un procedimiento gráfico para calcular ciertas medidas de posición, tales
como el modo y la mediana. Por ejemplo, el modo se puede calcular a partir de un
histograma. La mediana también puede calcularse con un histograma, aunque lo más
habitual es hacerlo mediante una ojiva.

a) Cálculo del modo mediante un histograma

Una vez construido el histograma a partir de una tabla de datos agrupados por intervalos:
1) Se considera el rectángulo de mayor frecuencia (mayor altura).
2) Dentro del mismo se trazan dos rectas como está indicado en el gráfico siguiente.
3) Por la intersección de ambas rectas se traza una recta perpendicular al eje de absisas.
4) El punto del eje de las absisas por donde pasa la recta perpendicular corresponde al modo
(en el ejemplo, el modo es 4.80).

b) Cálculo de la mediana mediante una ojiva

En este caso pueden utilizarse dos procedimientos:
1) Una vez trazada la ojiva, a) se ubica en el eje de las ordenadas a la mediana de orden
(Mn
0
); b) por la mediana se orden se traza una recta paralela al eje x hasta que intersecte
la ojiva; c) por este punto de intersección se traza una recta paralela al eje y hasta que
intersecte el eje x. En este punto estará ubicada la mediana.
2) Se trazan en el mismo eje de coordenadas las ojivas creciente y decreciente de la misma
distribución de datos. Luego, a) se traza una recta paralela al eje y que pase por la
intersección de ambas ojivas y por algún punto del eje x; b) el punto del eje x por donde
pasa dicha recta corresponde a la mediana.

Criterios de elección de medidas de posición

1) La elección de una medida de posición debe tener en cuenta el nivel de medición de la
variable que se mide:

Nivel nominal Nivel ordinal Nivel cuantitativo
Modo SI SI SI
Mediana NO SI. Siempre y cuando
los dos valores centrales
con n = par sean
iguales. En caso
contrario usar el Modo.
SI
Media
aritmética
NO NO SI Cuando no haya valores
extremos alejados ni valores
extremos abiertos. En caso
contrario, usar el Modo o la
Mediana (*).
Cuantiles NO NO SI

(*) Hay al menos tres situaciones donde se preferirá la mediana a la media (Botella, 1993:115): a)
cuando la variable es ordinal, b) cuando haya valores extremos que distorsionen la interpretación de la
media, y c) cuando haya intervalos abiertos, como en el caso de variables como ingresos mensuales.

2) La elección de una medida de posición debe tener en cuenta la forma en que están
organizados los datos. Por ejemplo: “en ocasiones, el azar hace que un solo elemento no
representativo se repita lo suficiente para ser el valor más frecuente del conjunto de datos.
Es por esta razón que rara vez utilizamos el modo de un conjunto de datos no agrupados
como medida de tendencia central. Por esta razón, debemos calcular el modo en datos
agrupados en una distribución de frecuencias” (Levin y Rubin, 1996).

3) La elección de una medida de posición de una muestra debe tener en cuenta el grado de
fidelidad con que representa a la medida de posición poblacional.
f

1 4 7 10
x

Botella (1993:114) afirma, en este sentido, que si no hay ningún argumento en contra,
siempre se preferirá la media, no sólo porque permite la utilización de otras medidas
estadísticas (por ejemplo el desvío estándar), sino porque es más representativa de la media
poblacional que el modo o la mediana con respecto al modo o la mediana poblacional.

2.5 SÍNTESIS DE LOS DATOS: MEDIDAS ESTADÍSTICAS DE DISPERSIÓN

Definición

Las medidas de dispersión, llamadas también medidas de variabilidad o de variación, son
datos estadísticos que informan acerca del grado de dispersión o variabilidad de los datos
individuales de una muestra o una población, respecto de una variable. En otras palabras,
indican el grado de homogeneidad o de heterogeneidad del conjunto de los datos. Por
ejemplo, indican cuán alejados o cuán cercanos se encuentran los datos de algún valor
central como la media aritmética: una muestra cuyos datos son 3-4-5 es menos dispersa que
una muestra cuyos datos son 1-4-7.

Algunos autores (Botella, 1993:325) han relacionado la dispersión de los datos -para los
niveles de medición nominal y ordinal- con los conceptos de entropía y de incertidumbre e
incluso han propuesto a la primera como una medida que permite cuantificar la dispersión: a
mayor dispersión de los datos, hay mayor entropía y mayor incertidumbre.
Por ejemplo, las siguientes dos muestras tienen cada una 40 sujetos que han elegido
determinados colores para representar la idea de paz:

Blanco Verde Amarillo Celeste Rosa
Muestra A: 28 3 3 3 3
Muestra B: 8 8 8 8 8

Si habría que adivinar qué color eligió determinado sujeto de la muestra A, cabría proponer
el color blanco porque fue el más elegido. En cambio, la incertidumbre aumenta si habría que
elegir lo mismo en la muestra B. En esta muestra hay más entropía, es decir, más desorden,
mientras que en la muestra A los datos están más ordenados alrededor de un valor muy
repetido, como el blanco.
La muestra B es más dispersa, es decir, más heterogénea, mientras que la muestra A es
menos dispersa, es decir, más homogénea. La homogeneidad no debe relacionarse con la
repetición de frecuencias (3-3-3-3) sino con la repetición de valores iguales o muy cercanosentre sí (28 sujetos eligieron blanco).

Una medida de posición no alcanza para describir adecuadamente una muestra. Se obtiene
una información más precisa y completa de ella cuando además se utiliza una medida de
dispersión.
Por ejemplo, la muestra 1 de datos 3-4-5 y la muestra 2 de datos 1-4-7 tienen la misma
medida de posición: la media aritmética en ambos casos es 4. Sin embargo, se trata
evidentemente de dos muestras diferentes, por cuanto la segunda es más dispersa que la
primera, es decir, sus datos están más alejados de la media aritmética.
En la primera muestra el promedio de las desviaciones respecto de la media es 1 (de 3 a 4
hay 1, y de 5 a 4 hay 1), mientras que el promedio de las desviaciones en la segunda
muestra es 3 (de 1 a 4 hay 3, y de 7 a 4 hay 3). Por lo tanto, ambas muestras pueden
representarse de la siguiente manera:

Muestra 1: 4 + 1 (se lee 4 más/menos 1)
Muestra 2: 4 + 3 (se lee 4 más/menos 3).

Las medidas de dispersión tienen una importancia adicional porque (Levin y Rubin: 1996): a)
Proporcionan información adicional que permite juzgar la confiabilidad de la medida de
tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos. b) A veces resulta indispensable conocer la dispersión de
una muestra porque muestras demasiado dispersas pueden no ser útiles para poder sacar
conclusiones útiles sobre la muestra. Levin y Rubin indican que, “ya que existen problemas
característicos para datos ampliamente dispersos, debemos ser capaces de distinguir los que
presentan esa dispersión antes de abordar esos problemas”.

Características de las principales medidas de dispersión

En general, las medidas de dispersión más utilizadas sirven para la medición de variables en
el nivel cuantitativo. Seguidamente se examinarán las siguientes medidas de dispersión:
rango, desviación media, varianza, desvío estándar, desvío intercuartílico y coeficiente de
variación.

En el siguiente cuadro se especifican las definiciones y características principales de las
medidas de dispersión.

Medida Definición Características
RANGO Es la diferencia
entre los valores
máximo y mínimo
de la variable.
De uso limitado, no es una buena medida de dispersión.
Es muy sensible a los valores extremos e insensible a los valores
intermedios.
Está muy vinculada al tamaño de la muestra: es probable que la muestra
de mayor tamaño presente mayor rango aunque las poblaciones de
referencia tengan igual dispersión (Botella, 1993).
Se llama también amplitud.
DESVIACION
MEDIA
Es el promedio de
las desviaciones de
todos los valores
respecto de la
media aritmética.
Considera desviaciones absolutas, es decir, no las considera con valores
negativos (de otro modo, el promedio de las desviaciones, por un teorema
de la media aritmética, daría cero). Esto representa una dificultad de
cálculo, por lo que se utiliza la varianza.
VARIANZA Es el promedio de
los cuadrados de
las desviaciones
con respecto a la
media aritmética.
Es un valor esencialmente no negativo (10).
Matemáticamente es buena medida de dispersión, pero da valores muy
altos, por lo cual en estadística descriptiva se utiliza el desvío estándar
(9).
Se apoya en una propiedad de la media aritmética según la cual la suma
de los cuadrados de las desviaciones respecto a la media es un valor
mínimo.
La varianza permite comparar la dispersión de dos o más muestras si sus
medias aritméticas son similares (Botella, 1993).
Si se suma una constante a un conjunto de valores, la varianza no se
modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, la varianza de
los nuevos valores el igual al producto de la varianza de las originales por
el cuadrado de la constante (Botella, 1993).
DESVIO
ESTÁNDAR
Es la raíz cuadrada
de la varianza (11)
Es un valor esencialmente no negativo (10).
Es la medida de dispersión más utilizada.
Se la emplea conjuntamente con la media aritmética como medida de
posición.
La raíz cuadrada permite compensar el cuadrado de la varianza.
Si se suma una constante a un conjunto de valores, el desvío estándar no
se modifica (Botella, 1993).
Si se multiplica por una constante a un conjunto de valores, el desvío
estándar de los nuevos valores el igual al producto del desvío estándar de
las originales por el cuadrado de la constante (Botella, 1993).
Se llama también desviación típica, o también desviación estándar
(Pagano, 1998:71).
DESVIO
INTER
CUARTILICO
Es la diferencia
entre el Q3 y el Q1.
Expresa el rango del 50% central de la serie de valores.
Se llama también amplitud intercuartil.
COEFICIENTE
DE
VARIACION
Es el cociente entre
el desvío estándar y
la media aritmética.
Permite comparar la dispersión de dos o más muestras con diferentes
medias aritméticas: a mayor coeficiente de variación, mayor dispersión.
No se expresa en unidades como la variable en estudio (por ejemplo, para
edad, no se expresa en años).
Puede considerarse como un índice de la representatividad de la media
aritmética: cuanto mayor es el coeficiente de variación, menos
representativa es la media (Botella, 1993).

Cálculo analítico de las medidas de dispersión: fórmulas

En este ítem se indican las fórmulas para calcular medidas de dispersión, y se suministran
ejemplos de cada caso.

Cálculo de las medidas de dispersión según la forma de organización de los datos
individuales
Preparado por: Pablo Cazau

Medida de
dispersión
Datos ordenados Datos agrupados por
frecuencia
Datos agrupados por
intervalos
Rango R = xmay - xmen R = xmay - xmen No
Desviación
media
| x – X |
Dm = ---------------
n
| x – X | . f
Dm = ------------------
n
| xm – X | . f
Dm = --------------------
n
Desvío
estándar
( x – X )2
S = ----------------
n
El segundo miembro es
a la raíz cuadrada
( x – X )2 . f
S = -------------------
n
El segundo miembro es a la raíz
cuadrada
( xm – X )
2 . f
S = ----------------------
n
El segundo miembro es a la raíz
cuadrada
Varianza Es el cuadrado del
desvío estándar (S
2
)
Es el cuadrado del desvío
estándar (S
2
)
Es el cuadrado del desvío
estándar (S
2
)
Desvío
intercuartílico
DQ = Q3 – Q1 DQ = Q3 – Q1 DQ = Q3 – Q1
Coeficiente
de variación
S
CV = -----
X
S
CV = -----
X
S
CV = -----
X

Cuando hay que calcular varianza o desvío estándar poblacionales, se utiliza „n‟ en el
denominador, pero cuando se calculan las correspondientes medidas muestrales (o cuando la
muestra es muy pequeña), se utilizará „n–1‟ (12).

a) Cálculo del rango para datos ordenados y para datos agrupados por frecuencia

Se puede aplicar a estas muestras la fórmula del Rango R = xmay - xmen

Muestra 1: 80, 100, 100, 110, 120. Aquí el rango R es = 120 – 80 = 40.
Muestra 2: 30, 50, 70, 120, 180. Aquí el rango R es = 180 – 30 = 150

Como se ve, la muestra 2 es más dispersa porque tiene mayor rango.

No se puede calcular el rango para datos agrupados por intervalos porque se desconocen
cuáles son los valores máximo y mínimo.

b) Cálculo de la desviación media para datos ordenados

La serie ordenada de datos puede ser la siguiente: 2, 3, 5, 6, 7, 9, 10
Como primer paso se calcula la media aritmética:

2+3+5+6+7+9+10
X = --------------------------- = 6
7

Como segundo y último paso, se calcula la desviación media:

| x – X | |2-6| + |3-6| + |5-6| + |6-6| + |7-6| + |9-6| + |10-6|
Dm = --------------- = --------------------------------------------------------------------- = 2.29
N 7

c) Cálculo de la desviación media para datos agrupados por frecuencia

A la siguiente