Logo Studenta

Apunte manejo datos

¡Este material tiene más páginas!

Vista previa del material en texto

Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
MANEJO DE DATOS 
 
VARIABLE (dato) 
Proposiciones tales como: 
“...el número de partículas en suspensión en una muestra de aire contaminada 
es mayor que 20...” 
“...la lluvia ácida ocasiona inconvenientes en ciertos países del norte...” 
“...la cantidad de hemoglobina en 100 cm de sangre es...” 
“...este paciente presenta el mal de Alzheimer...” 
brindan información corriente, pero se refieren a características que no son constantes 
sino variables de un lugar a otro, de una persona a otra, de un animal a otro, de una 
planta a otra, de una cepa a otra. 
Las características que presentan variabilidad o variación se denominan 
variables y conocer la esencia de estas observaciones es importante, pues está 
relacionada con la elección de la técnica estadística a utilizar al momento de analizar 
los datos. 
Las variables pueden clasificarse, según la naturaleza de los datos en: 
CUANTITATIVAS CUALITATIVAS 
Los datos son valores 
numéricos 
Los datos son cualidades o 
atributos 
A su vez las variables cuantitativas se clasifican en: 
DISCRETAS CONTINUAS 
Provienen de una 
acción de conteo 
Ejemplo 1: “número de 
pacientes que visitan un 
determinado consultorio 
médico” 
Provienen de una 
acción de medición 
Ejemplo 2: “Altura de los 
ingresantes a la escuela 
de policía en el año 
2004” 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
El número que resulta del conteo en una variable cuantitativa discreta tiene que 
ser entero, en estos casos carece de sentido informar una fracción. 
Así en el ejemplo 1 un valor de 8,4 no es posible dado que en realidad son 8 las 
personas y un 0.4 de persona no tiene significado en la variable analizada. 
Una variable cuantitativa continua puede tomar todos los valores de la escala 
real. En el ejemplo 2 la altura medida es la que permite apreciar el instrumento de 
medida. 
Las variables cualitativas, también llamadas categóricas, tienen como escala 
de medida un conjunto de clases o categorías. Los datos que se obtienen a partir de 
ellas se denominan datos categóricos. 
Ejemplo 3: “Títulos de grado que otorga la Universidad Nacional del Litoral”. Los 
datos categóricos son: Ingeniero Químico, Bioquímico, Licenciado en 
Biotecnología,..... 
Las variables categorías, a su vez pueden ser: 
 Ordinales: si bien son cualitativas permiten establecer un orden. como en el 
Ejemplo 4: “Grado del tumor en pacientes oncológicos”, Aquí las categorías 
adquieren un orden de importancia, donde mayor grado de tumor se asocia a 
mayor malignidad, obteniéndose las clase: Grado 1, Grado 2, Grado 3, Grado 
4. 
 Dicotómicas: el número de categorías se reduce a dos. Ejemplo 5: 
“Contaminación con Salmonella en determinados alimentos”. La variable "estar 
contaminado" sólo tiene la respuesta sí está contaminado o no como 
categorías. 
 Nominales: son aquellas variables cualitativas que no requiere establecer un 
orden en las categorías. Ejemplo 6: “Raza Humana”. Así las categorías son: 
raza blanca, raza amarilla, raza negra. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Las categorías son excluyentes, en el sentido que una observación pertenece a 
una de ellas y no puede estar simultáneamente en otra. 
En años recientes el uso de métodos especializados para analizar datos 
categóricos se ha incrementado abruptamente, en especial por su aplicación a las 
ciencias biológicas, médicas y a las ciencias sociales. 
 
Ejemplos de variables categóricas: 
-Una prueba para determinar el grupo sanguíneo de un paciente tiene las 
respuestas: A, B, AB, O. La variable es categórica nominal. 
-Se analiza si un paciente sobrevive a una enfermedad, luego de un tratamiento. 
Las respuestas son: sí sobrevive, no sobrevive. La variable es categórica 
dicotómica. 
-Se califica una epidemia en: leve, moderada, fuerte. La variable es categórica 
ordinal (hay un orden de importancia). 
 
RESUMEN DE LA INFORMACIÓN 
Los datos estadísticos, obtenidos al realizar un experimento o mediante una 
simple recolección de mediciones, son en algunas ocasiones tan numerosos que su 
lectura se torna poco práctica, y de escasa utilidad. Pero si se los agrupa, ordena y se 
los presenta en tablas o gráficos, es posible realizar una lectura más provechosa. 
Además de las tablas o gráficos es conveniente calcular algunas cantidades que 
sirven como medidas numéricas que describen concisamente el material recogido y 
que aportan una gran cantidad de información. A estos valores se los llama 
estadísticos. También se puede tener un objetivo más ambicioso como es el de extraer 
de ellos algunas conclusiones generales, o sentar las bases para que a través de los 
datos de una muestra se infieran propiedades respecto de una población. 
Los tres párrafos anteriores permiten distinguir dos amplias ramas en estadística: 
ESTADÍSTICA 
Descriptiva Inferencial 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Relacionada con el resumen 
de datos y la descripción de 
los mismos. 
Relacionada con el proceso 
de utilizar datos para tomar 
decisiones o concluir 
 
La faz descriptiva es sólo la parte preliminar del trabajo estadístico. 
Tablas 
Para la presentación y resumen de los datos es conveniente tener en cuenta dos 
cuestiones: una es conocer si la variable es cualitativa (atributo) o cuantitativa y en 
este último caso si es discreta o continua y por otra parte determinar la cantidad de 
datos que se poseen. 
Si los datos son muy pocos, una simple enumeración de los mismos, ordenados 
de menor a mayor o recíprocamente, es suficiente. 
 
Ejemplo 7 
Se han analizado la cantidad de inasistencias de 10 trabajadores de un centro de 
investigación (variable cuantitativa discreta) y se obtuvo: 
 
2 0 6 1 12 4 5 3 0 0 
Es más fácil la lectura si se ordenan los datos de manera creciente: 
0 0 0 1 2 3 4 5 6 12 
Esto permite expresar: 
“El número mínimo de ausencias registradas es: 0” 
“El número máximo de ausencias registradas es: 12” 
“El número de ausencias que se observa con mayor frecuencia: 0” 
“Lo más probable es que no se observen ausencias ya que el 0 se presenta tres veces”, 
(esta es una afirmación usual que más adelante se analizará). 
 
Para comprender las expresiones anteriores, se definen algunos términos: 
 
Frecuencia (f): es el número de veces que se presenta un mismo valor de 
la variable. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
Así, en el ejemplo 7 la frecuencia de 0 es 3 y la de los restantes valores es 1 para 
cada uno de ellos. 
En otros casos, es conveniente referir este valor al total de mediciones, resultando 
lo que se conoce como frecuencia relativa: 
Frecuencia relativa (fr): número de veces que se presenta un valor dividido 
por el total de observaciones (
n
f
fr  ). 
 
En algunos textos de estadística se emplea el término de frecuencia relativa 
porcentual. 
Frecuencia relativa porcentual (fr%): número de veces que se presenta 
un valor dividido por el total de observaciones y multiplicado por 
100 (
100fr100
n
f
%fr 
). 
 
En el ejemplo 7 se registró que un 10% de los trabajadores observados tuvieron 
una sola inasistencia, mientras que un 30% no registraron inasistencias. En algunos 
textos de Estadística se la denomina frecuencia relativa porcentual. 
 
Ejemplo 8 
Se está investigando si 20 laboratorios poseen la cantidad de extinguidores de 
incendio adecuados (variable aleatoriacategórica). Las respuestas obtenidas después 
de realizar el relevamiento son: 
 sí sí sí sí sí sí sí sí sí sí 
 sí no no no no no no no no no 
Se está analizando un atributo “la cantidad es adecuada o no adecuada”, que 
ciertamente es una variable aleatoria cualitativa dicotómica. Esta información dispersa 
puede aportar mayor información si se la dispone de una forma más legible, como se 
muestra en la tabla 1 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
¿Cantidad 
adecuada? 
Frecuencia (f) 
Frecuencia relativa 
porcentual (%) 
Si 11 55 
No 9 45 
 20 100 
Tabla 1 
Se puede expresar entonces: 
 "...el 45% de los laboratorios no posee el número adecuado de extinguidores...” 
Si se cuenta con la información adicional de que los 12 primeros datos 
corresponden a laboratorios ubicados en la capital de la provincia de Santa Fe y los 
restantes pertenecen al departamento LaS Colonias. Se pretende utilizar estos datos 
para completar la tabla anterior y ordenar la información de la siguiente manera: 
 Departamentos 
 La Capital San Cristóbal 
¿Cantidad 
adecuada? 
Si 8 3 
No 4 5 
Tabla 2 
 
Este tipo de tablas es conocida con el nombre de “tabla de 2x2 o tabla de 
contingencia”. 
Si los datos son numerosos también se los puede ordenar, pero esto simplemente 
no ayudará a extraer demasiadas conclusiones, se debe construir necesariamente una 
tabla, llamada tabla de distribución de frecuencias. 
Ejemplo 9 
Los datos que se dan a continuación corresponden al número de pulsaciones por 
minuto (variable aleatoria cuantitativa discreta) de 80 soldados de 20 años: 
61 95 59 92 55 90 55 90 53 62 
67 83 66 82 65 80 65 80 63 52 
77 72 75 71 75 71 74 70 86 52 
71 70 70 73 73 73 69 79 62 69 
77 74 77 72 75 71 75 70 74 74 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
81 66 82 65 82 65 80 65 80 69 
95 61 92 55 90 55 90 54 87 70 
79 85 64 74 85 87 110 86 100 105 
La tabla 3 muestra la distribución de frecuencias correspondiente a los datos. 
No de 
pulsaciones 
f No de 
pulsaciones 
f No de 
pulsaciones 
f 
52 2 69 3 83 1 
53 1 70 5 85 2 
54 1 71 4 86 2 
55 4 72 2 87 2 
59 1 73 3 90 4 
61 2 74 5 92 2 
62 2 75 4 95 2 
63 1 77 3 100 2 
64 1 79 2 105 1 
65 5 80 4 110 1 
66 2 81 1 
67 1 82 3 
 
Tabla 3 
 
Evidentemente la lectura de tabla no sólo es más simple que en los datos 
originales, ya que se ha producido un ordenamiento, sino que aparece visible la 
frecuencia de cada observación. Pero aún así, resultaría más práctico realizar un 
agrupamiento de los datos en clases o categorías que facilitaría aún más su lectura. 
Este es un caso, como ya se especificó, de variable cuantitativa discreta. Es 
posible registrar pulsaciones y no fracciones de ellas, por consiguiente se emplean 
sólo números enteros y positivos. 
Se pueden agrupar los datos en clases, como se ve en la tabla 4 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Clases: Número de 
pulsaciones /minuto 
Marca de clase (xmi) f 
46 – 53 49.5 3 
54 – 61 57.5 8 
62 – 69 65.5 15 
70 – 77 73.5 26 
78 – 85 81.5 13 
86 – 93 89.5 10 
94 – 101 97.5 3 
102 – 109 105.5 1 
110 - 117 113.5 1 
Tabla 4 
 
Se ha perdido parte de la información. La velocidad de lectura compensa con 
creces esa pérdida. 
¿Dónde radica la pérdida mencionada? 
Por ejemplo, al tomar el intervalo de 54 a 61 no se tiene certeza si los 8 valores 
observados corresponden a 54, 55, 56, 57, 58, 59 60 ó 61. Sólo se sabe que 8 de ellos 
pertenecen a la clase 54 – 61 y mas aún, se puede decir que 8 de ellos corresponden 
a un número único que representa a esa clase. Convencionalmente se considera al 
punto medio de dicho intervalo como el valor representativo de él. A los puntos medios 
de los intervalos se los llama marca de clase o simplemente marca. Así, en el segundo 
intervalo de clase del ejemplo 4 el punto medio es 57.5 (
2
6154 
) Tabla 4 
Observaciones: 
1. El agrupamiento en clases facilita la lectura pero hace perder información. 
2. Las amplitudes de los intervalos de clase deben ser todas iguales lo que da 
una imagen válida de la distribución de frecuencias y simplifica la lectura. 
En algunos casos existen intervalos que no registran valor o tienen muy baja 
frecuencia. Esto justifica el empleo de las llamadas clases abiertas, las que aparecen 
al principio o al final de las tablas de frecuencias. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
En el ejemplo 9, se pueden agrupar los 3 últimos intervalos en uno solo 
obteniéndose la tabla 5. 
Nro. de 
pulsaciones/minuto 
f fr fr(%) F Fr Fr(%) 
46 – 53 3 80
3 3.75 3 80
3 3,75 
54 – 61 8 80
5 10.00 11 80
11 13,75 
62 – 69 15 80
15 18.75 26 80
26 32,50 
70 – 77 26 80
26 32.50 52 80
52 65,00 
78 – 85 13 80
13 16.25 65 80
65 81,25 
86 – 93 10 80
10 12.50 75 80
75 93,75 
94 o más 5 80
5 6.25 80 80
80 100,00 
Total 80 1 100.00 
Tabla 5 
 
Evidentemente esta lectura de la tabla es más rápida y práctica que todas las 
anteriores. 
Se introduce ahora un nuevo concepto, el de frecuencia acumulada, que tiene 
mucha importancia y variada aplicación en estadística. 
 
Frecuencia Acumulada (F): para cada intervalo de clase la frecuencia 
acumulada es la suma de las frecuencias de todos lo intervalos 
menores o iguales a él. 
La inclusión de esta columna permite responder rápidamente preguntas tales 
como: 
“¿En cuántos soldados el número de pulsaciones por minuto es menor que 70?” 
La respuesta es 26 
“¿En cuántos soldados el número de pulsaciones por minuto se mantiene entre 62 y 
77?” 
La respuesta es 41 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Hasta aquí se ha trabajado con el ejemplo 9, donde la variable es cuantitativa 
discreta, pero cabe advertir que el procedimiento de agrupación resulta más 
complicado si la variable es continua, caso que se tratará a continuación. 
No obstante, hay una cuestión común a cualquier tipo de variable: 
 
¿Cuántas clases se deben utilizar? 
 
La respuesta depende de los autores que se consulten pero en general como 
regla práctica se aconseja un número entre 5 y 20. Ya que con menos de 5 la 
descripción de la distribución no es muy exacta y se pierde mucha información. Con 
más de 20 se pierde legibilidad, aunque se gane en exactitud. 
También, es aconsejable, establecer el número de clases atendiendo al rango de 
los datos, adoptando una división criteriosa de acuerdo a los intereses del investigador. 
 Rango = valor de la observación más grande – valor de la observación 
más pequeña. 
Existen, por otra parte, unas fórmulas empíricas que permiten orientar el cálculo, 
en forma aproximada, del número de clases y que dependen del tamaño de la muestra; 
éstas son: 
Número de clases: 1+ 3,3 x log n 
Número de clases: n 
 
 
Ejemplo 10 
Los datos que se dan a continuación corresponden a la cantidad de creatinina en 
mg/100 cm3 (variable cuantitativa continua) dosada en muestras de orina de 24 horas 
en un grupo de 84 varones normales. Datos registrados en la tabla 6. 
 
1,51 1.08 1.81 1.65 1.58 1.54 1.65 1.40 1.61 
1.38 1.56 1.83 1.69 1.22 1.22 1.68 1.47 1.68 
1.47 1.49 1.80 1.33 1.83 1.50 1.46 1.67 1.60 
1.23 1.54 1.73 1.43 2.18 1.46 1.53 1.60 1.59 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
1.49 1.46 1.72 1.56 1.43 1.69 1.15 1.89 1.47 
2.00 1.58 1.37 1.40 1.76 1.62 1.961.66 1.51 
1.31 2.29 1.58 2.34 1.66 1.71 1.44 1.66 1.36 
1.43 1.26 1.47 1.52 1.57 1.33 1.86 1.75 1.57 
1.83 1.52 1.66 1.90 1.59 1.47 1.86 1.73 1.55 
1.40 1.52 1.86 2.02 
 Tabla 6 
Menor valor observado ......... …………. ..................................1,08 
Mayor valor observado .......... …………....................................2,34 
El rango es (2.34 – 1.08).................................................... .....1,26 
 
Para este ejemplo se pueden tomar 5, 6, 7,... intervalos de clase, o bien la 
cantidad que determina alguna de las reglas empíricas: 1 + 3,3 log 84= 7,35  7 o 84
=9.16  9. 
Para tener una idea aproximada de la amplitud que se le debe dar a cada 
intervalo, se realiza la siguiente operación: rango / número de clases adoptado. 
Si se adoptan 9 clases se tendría una amplitud de 1,26 / 9 = 0,14. Este valor es 
orientador, pero por razones de practicidad se utilizará una amplitud de 0.15, por lo 
que queda un rango real de valores de 1.35, sobrando así nueve puntuaciones al 
segundo decimal: 1.35 – 1.26 = 0.09 que serán distribuidas, en la medida de lo posible, 
equitativamente entre el límite inferior del primer intervalo de clase y el límite superior 
del último intervalo de clase. Así la primer clase se inicia, en 1.05 (por conveniencia 
tres puntuaciones al segundo decimal debajo del valor mínimo observado) teniendo de 
este modo la clase: [1,05 -1,20) que contiene todas las observaciones desde 1,05 
inclusive hasta llegar a 1,20 pero sin incluir a este valor, que pasa a ser el límite inferior 
de la clase siguiente. 
Las clases serán: 
 [ ) 
 1,05 - 1,20 
 1,20 - 1,35 
 1,35 - 1,50 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 1,50 - 1,65 
 1,65 - 1,80 
 1,80 - 1,95 
 1,95 - 2,10 
 2,10 - 2,25 
 2,25 - 2,40 
La última clase termina seis puntuaciones al segundo decimal arriba del valor 
máximo observado. 
 
 
 
Realizando el conteo correspondiente resulta: 
Intervalo de 
clase 
Marca de 
clase 
Conteo f F F(%) 
1,05 - 1,20 1,125 // 2 2 2,38 
1,20 - 1,35 1,275 ///// // 7 9 10,71 
1,35 - 1,50 1,425 ///// ///// ///// //// 19 28 33,33 
1,50 - 1,65 1.575 ///// ///// ///// ///// /// 23 51 60,71 
1,65 - 1,80 1,725 ///// ///// ///// // 17 68 80,95 
1,80 - 1,95 1,875 ///// ///// 10 78 92,86 
1,95 - 2,10 2,025 /// 3 81 96,43 
2,10 - 2,25 2,175 / 1 82 97,62 
2,25 - 2,40 2,325 // 2 84 100,00 
Tabla 7 
Los números que figuran en la primera columna constituyen el límite inferior y el 
límite superior, respectivamente, de cada intervalo de clase. 
Note que estos límites aparentes tienen tantas cifras decimales como los datos 
medidos. La segunda columna representa el valor medio de cada intervalo y se supone 
que todos los valores de una clase están representados por este punto, al que se suele 
denominar marca de la clase (mi). 
 
Nota: Recordar la notación matemática de intervalos semiabiertos, esto 
correspondería a: [1,05; 1,20); [1,20; 1,35);...; [2,25; 2,40). No hay ambigüedad. El 
valor 1,35 pertenece al tercer intervalo, no al segundo. Sólo marca el límite superior 
del segundo intervalo de clase. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Gráficos 
Los gráficos tienen la virtud de hacer más evidentes las propiedades y 
características de las distribuciones de frecuencia, ya que presentan en forma rápida 
una impresión visual del conjunto de datos presentados. 
Existen muchos tipos de representaciones gráficas pero algunas son generales y 
adaptables a un gran número de situaciones. 
Todos ellos deben ajustarse a ciertas reglas generales: 
• Fácil lectura equivalente a máxima sencillez. 
• Indicación clara de título, fuente, escala y claves explicativas. 
 
Se analizan diferentes tipos de gráficos, cada uno de ellos con características 
particulares. 
Diagrama de puntos 
El diagrama de puntos se utiliza cuando el número de observaciones es pequeño. 
Este tipo de gráfico permite buscar características anormales o tendencias en la 
variabilidad de los datos. 
Ejemplo 11 
Se dan 15 mediciones del punto de ebullición de cierta sustancia química (en 
grados Celsius): 148, 150, 153, 136, 153, 162, 155, 146, 183, 157, 132, 160, 175 y 
150. 
Para construir el diagrama se marcan los valores de las observaciones 
individuales sobre un eje horizontal, a escala apropiada, con un símbolo, por ejemplo: 
círculo lleno. Si existen valores repetidos en las observaciones, estos se encolumnan 
en el mismo diagrama. 
Para los datos del ejemplo 11, el grafico 1 presenta un diagrama de puntos. 
130.00 140.00 150.00 160.00 170.00 180.00
Grados Celsius
    
 
   
 
Gráfico 1 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Este conjunto de datos tiene un rango de 51º (R = 183 - 132 = 51 º); además 
entre 146 º y 162 º se encuentra el 71,4% de las observaciones ( %4,71100
15
10
 ). 
Gráfico sectorial o de torta 
Muestra de manera expeditiva el tamaño relativo entre las categorías de una 
variable aleatoria. Dicho de otra manera, evidencia como se distribuyen las partes 
respecto del todo. 
Consisten en la división en sectores o "porciones" de un círculo, donde cada una 
representa la frecuencia proporcional de una categoría determinada. Cabe advertir que 
puede considerárselos acertados cuando la variable presenta un número pequeño de 
categorías (arbitrariamente: menor a seis). 
Del ejemplo 8, sobre si “los 20 laboratorios examinados tienen o no cantidad 
adecuada de extintores”, se obtiene el gráfico 2: 
 
 
Gráfico 2 
De la simple observación del gráfico se puede concluir que al sector de mayor 
área le corresponde el mayor porcentaje, que para este caso se traduciría en que “el 
55% de los laboratorios investigados poseen extintores adecuados”. 
 
Existen diferentes opciones para construir el gráfico de sectores, en algunos 
casos son muy útiles para visualizar gráficamente el comportamiento de dos grupos 
variables estudiadas en la misma unidad experimental. Esto sería un análisis bivariado. 
Ejemplo 12 
55%
Adecuado 
45%
inadecuado
Porcentaje de laboratorios con y sin extinguidores 
adecuados
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Se estudia en un hospital el número de pacientes que deben ser internados por 
un período mínimo de una semana, tras haber sido intervenidos quirúrgicamente. Este 
estudio se realiza durante tres meses en dos salas de internación poscirugía 
diferentes de un nosocomio, una es la sala de traumatología y la otra la sala de 
cardiología. 
Los datos se resumen en una “tabla de contingencia” como se observa en la tabla 
8. Se anexa el gráfico de torta correspondiente (Grafico 3). 
 
 
 Sala de cardiología Sala de traumatología 
Mas de una semana de 
internación 
27 38 
Menos de una semana 
de internación 
11 24 
Tabla 8 
Mas de una
semana
Menos de una
semana
 cardiología traumatología
 
Gráfico 3 
Una alternativa a la propuesta presentada es la que se muestra en el gráfico 4 
que agrupa en una sola torta ambas salas, el círculo interior corresponde a la sala de 
traumatología y el externo a la sala de cardiología. Esto permite realizar un contraste 
simultáneo de los períodos de internación posquirúrgicas en ambas salas. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 mas de una semana
 menos de una
semana
 cardiología
n=27
n=11
 traumatología
n=38
n=24
 
Gráfico 4 
Gráfico de barras 
Este tipo de gráficoimpacta visualmente de manera diferente al gráfico de 
sectores, debido a que en él se observa la distribución de frecuencia de los datos en 
los diferentes valores cuantitativos discretos o categorías de la variable. 
Las barras pueden construirse en sentido horizontal o vertical. Si las mismas se 
toman del mismo ancho, su longitud o altura es proporcional a la frecuencia. 
Para los datos de la Tabla 1 se obtiene el siguiente gráfico: 
 
Gráfico 6 
Si la variable a representar es cuantitativa discreta, las barras que corresponden 
a valores de la variable no se tocan y se representan todas con el mismo ancho. 
Gráfico de barras correspondiente a los datos de la Tabla 4 
0
20
40
60
80
100
No Si
45 55
%
Porcentaje de laboratorios con y sin cantidad de 
extinguidores adecuados
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
Gráfico 7 
 
Si en lugar de una barra se utiliza un bastón, éste debe tener una longitud 
proporcional a la frecuencia y se lo coloca sobre el valor correspondiente a la marca 
de clase (Gráfico 8) 
 
Gráfico 8 
 
Para estudios bivariados, dos variables aleatorias medidas en la misma unidad 
experimental, donde una de ellas es categórica, este gráfico es muy útil dado que 
permite comparar las frecuencias de ambas a la vez. 
 Para el ejemplo 12 se presentan dos gráficos de barras agrupadas. En el 
primero (Grafico 9a) las barras representan la frecuencia absoluta de cada categoría 
0
5
10
15
20
25
30
46-53 54-61 62-69 70-77 78-85 86-93 94-101102-109110-117
3
8
15
26
13
10
3
1 1
F
re
c
u
e
n
c
ia
Pulsaciones por minuto
0
5
10
15
20
25
30
49.5 57.5 65.5 73.5 81.5 89.5 97.5 105.5 113.5
3
8
15
26
13
10
3
1 1
F
re
c
u
e
n
c
ia
Pulsaciones por minuto
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
de la variable “tiempo” agrupada por “sala”, mientras que en el segundo (grafico 9 b) 
se presentan las frecuencias relativas porcentuales respectivas. 
 
 
a b 
 Gráfico 9 
Ambos gráficos permiten visualizar el contenido de la tabla 8, pero hay que ser 
muy cuidadosos respecto a las conclusiones que se extraigan de cada uno, ya que del 
primero (9a) podría inferirse erróneamente que el tiempo de internación de “más de 
una semana” en traumatología es superior al correspondiente en cardiología, siendo 
que esta comparación no es aplicable para valores absolutos de frecuencia. El Gráfico 
9b es el adecuado para este análisis, pues es el análogo al gráfico de sectores, donde 
“las alturas de las barras” representan el tamaño relativo de cada categoría respecto 
al total de cada sala y a su vez, es posible comparar entre salas. 
 
Diagrama de tallo - hoja 
Como se señalara previamente, al agrupar los datos para confeccionar una tabla 
o un gráfico, se gana rapidez en la interpretación del comportamiento de los mismos, 
pero se pierde información. Actualmente se han desarrollado métodos para la 
obtención de imágenes globalizadoras sin perder dicha información y que además 
brinda una idea de la distribución de los valores de la variable. 
Un gráfico que reúne las condiciones enunciadas es el “Diagrama tallo-hoja”, 
creado por Tuckey (1977). Éste exhibe directamente las mediciones. 
En el ejemplo 9, las “pulsaciones por minuto de 80 soldados” que se observaron 
tomaron valores entre 50 y 110, los cuales fueron representados en un Diagrama Tallo-
Hoja, como muestra el diagrama 1 
0
10
20
30
40
Cardiología Traumatología
27
38
11
24
N
ú
m
e
ro
Más de 1 semana Menos de 1 semana
0
20
40
60
80
100
Cardiología Traumatología
71 61
29
39
P
o
rc
e
n
tj
e
Más de 1 semana Menos de 1 semana
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
 5 0 0 3 4 5 5 5 5 9 
 6 1 1 2 3 4 5 5 5 5 5 6 6 7 9 9 9 
 7 0 0 0 0 0 1 1 1 1 2 2 3 3 3 4 4 4 4 4 5 5 5 7 7 7 9 9 
 8 0 0 0 0 1 2 2 2 3 5 5 6 6 7 7 
 9 0 0 0 0 2 2 2 5 5 
10 0 5 
11 0 
Factor de escala: 10 
Diagrama 1 
 
Se consideran como tallos a los números: 4, 5, 6, 7, 8, 9, 10, 11, es decir que 
las decenas son el orden seleccionado para el tallo y las hojas corresponden a algunos 
de los diez dígitos (0, 1, 2, 3, 4, .........,9) ubicados en la unidad del dato. 
Observe que el factor de escala, indica el orden del tallo. Así el primer dato 
ubicado en el diagrama es el 50 y el cuarto es el 54 y el último es el 110. 
Ejemplo 13 
Se registró el tiempo (en días) entre el inicio de una enfermedad en particular y 
su cura en cincuenta personas que la padecieron. Los datos obtenidos se muestran 
en la tabla 9 
21 24 27 32 29 29 20 19 22 21 
14 19 16 17 28 19 16 22 27 25 
24 18 20 16 14 17 20 25 22 23 
14 15 24 24 18 18 24 32 28 33 
16 35 14 18 26 35 16 25 24 25 
Tabla 9 
 
En este caso, si se selecciona para el tallo el orden de las decenas quedarían 
solamente tres tallos: 1, 2 y 3 con demasiadas hojas cada uno, debido a que se dispone 
de muchos datos no muy dispersos (Diagrama 2). 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
1 4 4 4 4 5 6 6 6 6 6 7 7 8 8 8 8 9 9 9 
2 0 0 0 1 1 2 2 2 3 4 4 4 4 4 4 5 5 5 5 6 7 7 8 8 9 9 
3 2 2 3 5 5 
Factor de escala: 10 
Diagrama 2 
 
En situaciones como estas, es conveniente abrir arbitrariamente cada tallo en un 
mismo números de “ramas” (dos o cinco). Cada tallo: 1, 2 y 3 tiene dos “ramas”: 1 y 
1*, 2 y 2*, 3 y 3*. Las hojas se ubican en las ramas según los valores de las unidades 
del dato. Así los dígitos 0, 1, 2, 3 y 4 pertenecen a las ramas con el símbolo “  ” y los 
dígitos 5, 6, 7, 8 y 9 a las ramas con el símbolo “ * “ en el supraíndice. 
Al realizar esta modificación en el diagrama 3, referido al ejemplo 13 permite 
evidenciar una ligera asimetría no detectada antes. 
Además se agrega una columna en el margen izquierdo que indica la frecuencia 
de cada “rama”. 
 
 4 1 4 4 4 4 
15 1* 5 6 6 6 6 6 7 7 8 8 8 8 9 9 9 
15 2 0 0 0 1 1 2 2 2 3 4 4 4 4 4 4 
11 2* 5 5 5 5 6 7 7 8 8 9 9 
 3 3 2 2 3 
 2 3* 5 5 
Factor de escala: 10 Diagrama 3 
 
Cuando la variable aleatoria es discreta, se emplea otra versión del Diagrama 
Tallo-Hoja, donde las hojas son todas ceros y marcan la frecuencia de aparición del 
tallo. 
 
Ejemplo 14 
Se registran las notas de los alumnos que aprobaron el examen final del curso de 
grado de Estadística, en el primer turno de exámenes inmediato a la finalización del 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
cursado del mismo. Los resultados se presentan en la tabla 10 y el diagrama 4 es el 
Tallo-Hoja correspondiente. 
 
4 4 8 10 5 5 5 6 8 6 7 7 
5 4 6 9 7 6 6 6 7 5 4 6 
6 6 6 5 6 7 8 8 8 7 7 6 
Tabla 10 
fr 
 4 4 0 0 0 0 
 6 5 0 0 0 0 0 0 
12 6 0 0 0 0 0 0 0 0 0 0 0 0 
 7 7 0 0 0 0 0 0 0 
 5 8 0 0 0 0 0 
 1 9 0 
 1 10 0 
Factor de escala: 1 
Diagrama 4 
 
Del diagrama 4 se lee: el valor cuatro de la variable se repite cuatro veces, el 
valor cinco tiene frecuencia seis y así se continúa hasta el valor diez con frecuencia 
uno. El factor de escala, en este caso, es 1, esto indica que la primer medición en el 
gráfico se lee cuatro (4 x 1). 
 
 Para los datos de la Tabla 6 correspondiente al ejemplo 10, cuya variable 
aleatoria continua es “cantidad de creatinina en muestras de orina (mg/100 cm3)” se 
presenta el diagrama de Tallo – Hoja correspondiente.Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 1 10 8 
 1 11 5 
 4 12 2 2 3 6 
 6 13 1 3 3 6 7 8 
 16 14 0 0 0 3 3 3 4 6 6 6 7 7 7 7 9 9 
 19 15 0 1 1 2 2 2 3 4 4 5 6 6 7 7 8 8 8 9 9 
 15 16 0 0 1 2 5 5 6 6 6 6 7 8 8 9 9 
 6 17 1 2 3 3 5 6 
 9 18 0 1 3 3 3 6 6 6 9 
 2 19 0 6 
 5 20 0 2 
 HI 218, 229, 234 
Factor de escala 0,01 Diagrama 5 
 Atendiendo a factor de escala, el primer dato de este diagrama es 1,08 (108 x 
0,01). Además en este caso la última rama (HI 218, 229, 234) indica la presencia de 
valores atípicos o alejados del resto de las observaciones 
Histograma 
Es la adaptación del diagrama de barras a una variable cuantitativa continua. Las 
barras se deben tocar en razón precisamente de esa continuidad. 
Evidentemente, la amplitud de cada barra se corresponde con la de cada intervalo 
de clase de la distribución de frecuencias. Las alturas de estas barras o rectángulos, 
si son de igual ancho, corresponden a la frecuencia de cada clase. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
El Histograma correspondiente a los datos de la Tabla 6, se expone en el gráfico 
10 
Gráfico 10 
Polígono de frecuencia 
Otra opción gráfica para presentar la distribución es el polígono de frecuencias. 
En él, las frecuencias de cada intervalo se registran con un punto sobre sus marcas 
de clase, los que se unen con líneas rectas. Observe en el Gráfico 11 que el polígono 
se cierra uniendo su primer y último punto con las abscisas que corresponderían a las 
marcas del intervalo anterior al primero y siguiente al último, con frecuencia 0. 
Gráfico 11 
Resulta de utilidad confeccionar el polígono de frecuencias conjuntamente con el 
histograma, dado que conjuntamente resaltan características no evidentes. Ofrecen 
una excelente imagen manifestando irregularidades y rasgos poco comunes como 
Creatinina (mg/cm3)
2.332.182.031.881.731.581.431.271.12
30
20
10
0 2
3
9
16
24
20
7
2
 
0 
2 
7 
20 
24 
16 
9 
3 
1 2 
0 
0 
5 
10 
15 
20 
25 
30 
0,97 1,12 1,27 1,42 1,57 1,72 1,87 2,02 2,17 2,32 2,47 
Creatinina (mg/cm3) 
f 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
pueden ser valores alejados que no coinciden con el patrón global de los datos entre 
otras características. 
 
Ojiva 
La distribución de frecuencia acumulada, presenta la forma de ojiva, la que se 
construye de manera similar al polígono de frecuencias, excepto que los puntos se 
grafican sobre los límites superiores de cada clase y luego se unen por segmentos de 
línea recta. 
Para el ejemplo 10, la ojiva correspondiente se puede apreciar en el gráfico 12. 
 
Gráfico 12 
 
Histograma de área 
Si los intervalos de clase no son todos de la misma amplitud la altura del 
rectángulo no representa a la frecuencia de clase, por lo que antes de confeccionar el 
gráfico deben dividirse las frecuencias de cada intervalo de clase por la amplitud del 
mismo. El gráfico construido de esta manera se denomina histograma de áreas. 
No contemplar este detalle genera errores gráficos que tergiversan la realidad 
como puede observarse en el gráfico 13 correspondiente al siguiente ejemplo. 
 
0 2.4
10.7
34.5
63.1
82.1
92.9
96.4
97.6 100.0
0
10
20
30
40
50
60
70
80
90
100
1.05 1.20 1.35 1.50 1.65 1.80 1.95 2.10 2.25 2.40
F
re
c
u
e
n
c
ia
 a
c
u
m
u
la
d
a
 %
Creatinina (mg/cm3)
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Ejemplo 15: Las siguientes frecuencias indican el “número de pacientes tratados 
por carcinoma de mama”, clasificados según su edad: 
 
Edad 
(años) 
f 
(número de pacientes) 
f/c 
c= longitud intervalo de 
clase 
20 – 30 21 2,10 
30 – 40 150 15,00 
40 – 60 215 10,75 
60 – 70 65 6,50 
70 – 80 20 2,00 
80 – 100 9 0,45 
Tabla 11 
 
En el gráfico 13 se presentan dos histogramas, en el de la izquierda (13ª), la altura 
representa la frecuencia de cada clase sin tener en cuenta, que las longitudes de los 
intervalos de clase son diferentes. En el de la derecha (13b), la altura de cada barra 
es igual a la frecuencia divida por la longitud del intervalo de clase correspondiente, 
esto lo hace un histograma de áreas, donde el área total de los rectángulos coincide 
con el número total de observaciones. 
 
Forma incorrecta Forma correcta 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
a b 
Gráfico 13 
 
Del Gráfico 13a se concluiría que la edad en la que hay más pacientes con 
carcinoma de mama es entre 40 y 60 años, cuando en realidad, esto es cierto para las 
edades entre 30 a 40 años, como se puede concluir del Gráfico 13b, en el que se ha 
contemplado la corrección requerida para un histograma de área. 
 
Un comentario importante de destacar, es que tanto los histogramas, como los 
polígonos de frecuencia y las ojivas pueden construirse utilizando como valores de 
ordenada a las frecuencias relativas y frecuencias relativas porcentual. 
 
Gráfico de línea 
Cuando el conjunto de datos son los valores de una variable cuantitativa que 
tiene un registro dependiente del tiempo, forma lo que se conoce con el nombre de 
serie de tiempo. Estas series se representan eficazmente mediante los gráficos de 
línea, en los que el eje de abscisas indica el tiempo y el de ordenadas los valores de 
la variable, los que se unen por medio de segmentos de línea recta. 
El objeto de estos gráficos es permitir discernir o descubrir la existencia de cierta 
tendencia en el comportamiento de la variable estudiada. 
 
Ejemplo 16 
El gerente de producción de una empresa que vende centrífugas para 
laboratorios, decidido a “vender” la mayor cantidad posible de sus productos, presenta 
4.4
31.3
44.8
13.5
4.2 1.9
0
5
10
15
20
25
30
35
40
45
50
25 35 50 65 75 90
Edad (años)
2.1
15.0
10.8
6.5
2.0
0.5
0
4
8
12
16
25 35 50 65 75 90
Edad (años)
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
en una importante reunión de potenciales compradores, un gráfico de las unidades 
producidas que han sido aceptadas por el rígido Departamento de Control de Calidad 
en el último año. 
 
La información que había recavado para su exposición se resume en la tabla 
12. Con estos datos confecciona un gráfico de líneas. 
 
Mes Unidades 
aceptadas 
Mes Unidades 
aceptadas 
Mes Unidades 
aceptadas 
enero 7032 mayo 7304 septiembre 7438 
febrero 7103 junio 7334 octubre 7449 
marzo 7152 julio 7365 noviembre 7463 
abril 7234 agosto 7407 diciembre 7496 
Tabla 12 
 
Para esto debió decidir de que forma impactaría mejor a sus espectadores, 
puesto que al emplear la escala de las ordenadas desde el valor cero, obtenía un 
gráfico, que a su entender, no era muy convincente a la hora de mostrar claramente 
una tendencia (Grafico 14a). Mientras que al tomar un valor de inicio en la escala de 
las ordenadas mas cercano al mínimo de la variable, la línea así obtenida se ajustaba 
mejor a su objetivo, pues revelaba eficazmente la tendencia en alza de la calidad de 
sus productos (Gráfico 14b) Esta revelación, bien podría ser la razón que motivara a 
los compradores y así aumentar sus ventas. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
a b 
Gráfico 14 
 
 
 
ESTADÍSTICOS 
Las tablas de frecuencia y los gráficos brindan una rápida información, no 
obstante,en algunos casos es necesario concentrarla aún más y describirla 
numéricamente. 
Esto hace necesario el cálculo de varios valores llamados estadísticos que 
representan al conjunto de datos observados según diferentes criterios; así si el 
objetivo es obtener una idea de la ubicación o centro de los datos se emplean 
estadísticos de posición, mientras que si lo que se requiere es información acerca de 
la concentración de las observaciones alrededor de dicho centro se utilizan los de 
dispersión. 
 Estadísticos: Medidas descriptivas numéricas calculadas en 
 función de los valores de los datos reunidos en una muestra 
 estadística. 
 
Estadísticos de Posición o Localización 
Entre los estadísticos de localización, los más importantes son los llamados de 
Tendencia Central; donde cada uno de ellos tiene propiedades particulares. 
0
1000
2000
3000
4000
5000
6000
7000
8000
E F M A M J J A S O N D
U
n
id
a
d
e
s
 a
c
e
p
ta
d
a
s
Mes
7000
7100
7200
7300
7400
7500
7600
E F M A M J J A S O N D
U
n
id
a
d
e
s
 a
c
e
p
ta
d
a
s
Mes
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 Media aritmética ( x ) 
 
 Estadísticos Media recortada ( rx ) 
 de 
Tendencia Central Mediana (Ma) 
 
 Modo (Mo) 
Media aritmética o promedio 
 
Se define como promedio a la suma de los n valores de la 
muestra a la que luego se la divide por n. 
En símbolos: 
n
x
x
n
1i
i
 
Si un mismo valor de la variable se repite varias veces la fórmula anterior puede 
escribirse: 
n
fx
x
k
1i
ii
 donde fi es la frecuencia absoluta del valor xi .
 
 Del ejemplo 9, “número de pulsaciones por minuto de 80 soldados” se obtiene, de 
los datos observados, la media aritmética: x =74 pulsaciones/minuto. Esto significa 
que el número promedio de pulsaciones por minuto del grupo de 80 soldados es de 
74. 
 ¿Qué ocurre si los datos están agrupados? 
Considerando que todos los valores comprendidos en un intervalo dado están 
representados por la marca correspondiente. 
Resultará que la fórmula de cálculo es: 
n
fm
x
k
1i
ii
 
De la tabla 4 surge que x = 74,60  75 pulsaciones/minuto. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
El valor obtenido partiendo de datos agrupados es de aproximadamente 75 
pulsaciones/minuto y el obtenido para los datos sin agrupar es 74 pulsaciones/minuto. 
Resulta evidente que al agrupar los datos se produce un error, este se debe a que se 
ha perdido parte de la información original. 
En la actualidad con el uso de Software para procesar los datos, esto no es un 
inconveniente ya que realizan los cálculos utilizando todos los datos. 
 
Ventajas de la Media Aritmética: 
1) En su cálculo intervienen todos los valores de la variable. 
2) Es un valor muy usado, representa el centro geométrico de las observaciones 
y tiene asociado una serie de otros valores típicos de la muestra. 
3) Presenta propiedades matemáticas convenientes. 
 
Desventajas de la Media Aritmética: 
La principal proviene de lo que constituye su ventaja (1). Al intervenir todos los 
valores de la variable influyen mucho los valores extremos. 
 
Ejemplo 17 
El tiempo de hospitalización de 10 personas afectadas por ingestión de alimentos 
contaminados con salmonella en 2 hospitales distintos fue: 
 
Hospital 1: 1 - 2 - 2 - 5 - 5 - 6 - 7 - 9 - 9 - 30  60,7x  
 
Hospital 2: 2 - 2 - 3 - 5 - 5 - 6 - 7 - 8 - 9 - 10  62,5x  
 
Resulta así un tiempo promedio de hospitalización de 9 días aproximadamente 
en el 1 primer hospital y de 5 días en el segundo. El valor 30 días para un paciente 
del hospital 1, desplaza el promedio a valores más altos, dado que este dato tiene una 
cifra demasiado grande en relación al resto de los otros. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Media recortada o ajustada 
Esta medida de tendencia es un promedio en el que se ha “recortado” un cierto 
porcentaje “p” de las observaciones extremas (en ambos lados). 
Esta forma de promediar permite obtener una medida de tendencia central más 
representativa de los datos que la media aritmética cuando hay valores alejados 
extremos, tanto por los valores bajos de la variable como por los altos. 
Si en el ejemplo 17 se calcula la media recortada al 10%, es decir, en el cálculo 
del promedio no se consideran para el hospital 1, los valores 1 y 30 y para el hospital 
2 los valores 2 y 10, se obtiene: 62.5x 1h  y 62.5x 2h  El promedio para el hospital 2 
sufrió ligeros cambios, pero el del hospital 1disminuyó en 1.97, lo que indicaría la 
presencia de valores influyentes en este conjunto de datos. 
Mediana 
Se define como mediana al valor de la variable que deja a cada uno de 
sus lados el 50% de las observaciones. 
Para encontrar ese valor se ordenan los datos de menor a mayor, incluso los 
repetidos. 
La notación xi representa un dato de la base de datos que ocupa la posición i en 
el orden en que fueron recibidos; y x(i) representa un dato de la base de datos que 
ocupa la posición i , después de que fueron ordenados de menor a mayor. 
De acuerdo al número de datos pueden darse dos casos para el cálculo de la 
mediana: 
• si el numero de datos es impar, la mediana es el valor central, cuya posición es 
x(
2
1n
) 
• si el numero de datos es par, la mediana es el promedio de los dos datos que 
ocupan la dos posiciones del centro. 
 
En símbolos: Ma = 
2
1
[x (
2
n
) + x ( 1
2

n
)] 
 
Ejemplo18 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Los jefes de dos secciones diferentes de una oficina pública deben informar a 
sus superiores la cantidad de días de inasistencia que solicitaron cada uno de los 
empleados a su cargo, durante el año 2003. Los resultados fueron: 
 
Sección 1 1 , 2 , 4 , 5 , 5 , 6 , 7 Ma = 5 
Sección 2 1 , 1 , 1 , 2 , 3 , 8 , 13 , 27 Ma = 
2
32 
=2,5 
La mediana se interpreta en este ejemplo, así: como mucho 5 es la cantidad de 
días que el 50% del personal de la sección 1 no ha asistido a su lugar de trabajo 
durante el período 2003. Para la sección 2, como mucho 2.5 la cantidad de días que 
el 50% del personal de su personal no ha asistido a su lugar de trabajo durante el 
mismo período. 
Así en la distribución de ingresos per cápita, valores inmuebles, inversiones, etc., 
el estadístico más representativo es la mediana ya que los ingresos muy bajos o muy 
altos distorsionan el valor promedio o media aritmética. 
 
¿Qué ocurre si los datos están agrupados? 
Existe una fórmula para calcular el valor de la variable correspondiente a la 
mediana para datos agrupados cuya deducción no se hará aquí pero se considera 
conveniente que figure en el mismo: 
 c
f
F
2
n
LMa
i
ia
i

 
Donde: 
 Li: límite inferior del intervalo mediana. 
 Fia: frecuencia acumulada hasta el intervalo mediana. 
 n: número de observaciones 
 fi: frecuencia. absoluta del intervalo mediana. 
 c: amplitud de la clase mediana. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
La gráfica corresponde a un polígono de frecuencias acumuladas y es en ella 
donde se ubica la mediana y a partir de la cual se deduce la fórmula obtenida 
anteriormente. 
 
 
 
 
 
 
 
 
Gráfico 15 
 
Se calcula la mediana correspondiente a los datos agrupados de la tabla 
armada para el ejemplo 9, “pulsaciones de los soldados”. 
El intervalo al cual pertenece la mediana es el que corresponde a 70 - 77 ya que 
en él se encuentranlas observaciones que ocupan las dos posiciones centrales 40 y 
41, dado que tenemos un total de 80 observaciones. 
 
Aplicando la fórmula propuesta: 
Li = 70 Fia = 26 
2
n
 = 40 fi = 26 c = 7 
 
Ma = 7
26
2640
70

 = 73,759  74 pulsaciones / minuto 
 
Puede decirse que la mediana es el valor 74 de la variable, o sea, el 50% de los 
soldados estudiados tienen un número de pulsaciones por minuto que no supera las 
74. O también, según lo que se desee destacar, que el número de pulsaciones/minuto 
en el 50% de los casos supera las 74. 
 
Fi 
Fi-1 
 
L i-1 Ma L i 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Ventajas de la Mediana: 
1) No se ve influenciada por sus valores extremos. 
2) Tiene interesantes propiedades matemáticas. 
 
Desventajas de la Mediana: 
1) En su cálculo no se emplean todos los valores de la variable, es decir no se 
utiliza toda la información. 
2) Es más propensa a experimentar variaciones entre muestras distintas. 
 
Modo o Moda 
Es el valor de la variable que más veces se repite. 
 
La moda, designada por Mo, es aquel valor de una serie que aparece más 
frecuentemente que cualquier otro valor. Este valor puede ser descubierto 
inmediatamente cuando se ordenan los datos: 
Si observamos el ejemplo 7, “cantidad de inasistencias de 32 trabajadores de un centro 
de salud en 10 meses de trabajo”, vemos que su valor más frecuente es 0, con 
frecuencia 3. 
 
¿Qué pasa si los datos están agrupados? 
 
Una vez identificado el intervalo modal (observando aquél de mayor frecuencia), 
se utiliza una fórmula para determinar la abscisa que corresponde al modo: 
c
dd
d
LMo
21
1
i

 
Donde: 
Li: límite inferior del intervalo modal. 
d1: diferencia (sin consideración de signo) entre la frecuencia de la clase modal 
y la frecuencia de la clase precedente. 
d2: ídem d1 pero con la clase siguiente. 
c: amplitud de la clase modal. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
En el gráfico siguiente se muestra la representación geométrica de la fórmula 
para calcular el modo y su ubicación en el Histograma de frecuencias absolutas, la 
cual emplea la semejanza de triángulos para el cálculo de la posición de este 
estadístico. 
 
 
 
 
 
 Gráfico 16 
 
 
Cálculo del valor modal del ejemplo 9, “pulsaciones por minuto en los 80 
soldados”. 
Evidentemente el intervalo modal es el 70 - 77 ya que su frecuencia absoluta es 
26. Pero... ¿Cuál de los valores entre 70 y 77 puede considerarse el modo? 
Apliquemos la fórmula: 
 
 Mo = 7
1311
11
70

 = 73,20  73 pulsaciones/minuto 
 
“el valor más frecuente de pulsaciones por minuto en los 80 soldados estudiados 
es de 73”. 
 
Ventajas y desventajas del Modo: 
Aunque el modo es un concepto sencillo y útil, su aplicación presenta muchos aspectos 
engorrosos. Una distribución puede tener más de un modo y en ese caso no hay forma de 
elegir qué valor debe ser escogido como tal. Además la moda podría ser un valor extremo, 
si una distribución de frecuencia presenta varios picos altos en el Histograma visto de 
izquierda a derecha, no se podría considerar una medida de tendencia central. 
 
d1 
d2 
Li Mo 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
¿Puede presentarse más de un valor modal? 
Sí, las distribuciones que tienen dos picos de igual o distinta frecuencia se 
denominan bimodales. 
Ejemplo 19 
Se desea conocer la distribución de frecuencias de las edades de 100 personas 
del sexo masculino que por diferentes razones ingresaron al Consultorio Externo de 
un Hospital, observando el diagrama tallo - hoja correspondiente, puede concluirse que 
esta distribución es bimodal porque la edad del mayor número de pacientes de sexo 
masculino que asiste al consultorio externo del hospital oscila entre los 25 a 29 años 
y los 35 a 39 años. 
 
 7 1o 8999999 
 18 2* 01112333344 
 40 2o 5555666677777788888999 
 (17) 3* 00122222222333444 
 43 3o 5555666666677778889999 
 21 4* 01122234 
 13 4o 55667889 
 5 5* 02344 
 
¿Cuándo aplicar el modo antes que las otras dos medidas? 
 
Cuando el interés se centra en conocer el valor que se presenta mayor número 
de veces en distribuciones unimodales. 
Por ejemplo, para determinar el modo cuando se observa el período de 
incubación de una enfermedad, el tiempo máximo de duración de la misma es el valor 
modal. 
 
 
 
 
Nota 
En distribuciones simétricas, la media aritmética, la mediana y el modo coinciden; pero la 
media es la más usada y es eficiente como medida de tendencia central. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
En distribuciones asimétricas los tres estadísticos no coinciden. Pero la mediana 
se encuentra siempre entre la media aritmética y el modo. En estos casos la mediana 
es un estadístico más representativo que la media aritmética. 
Para concluir el estudio de estas medidas de tendencia central se analiza la 
relación que existente entre ellas: 
1. Para una distribución simétrica y unimodal se observa que las 3 medidas 
coinciden en sus cálculos: 
2. Para una distribución asimétrica y con una cola larga hacia la derecha, la 
relación está dada por: Modo < Mediana < Media: 
3. Para una distribución asimétrica y con una cola larga hacia la izquierda la 
relación está dada por: Media < Mediana < Modo 
 
Existe confusión en el lenguaje diario con respecto a estas tres medidas, se las 
llama comúnmente media, promedio, etc., sin aclarar a cual de ellas se esta haciendo 
referencia. Hoy, ante el auge de la estadística, se trata de establecer claramente de 
cuál se esta hablando. Esto no sólo en las publicaciones “científicas” sino en los 
artículos de difusión. 
Ejemplo 20 
En un artículo periodístico impreso en el diario “El Litoral” de fecha 28 de 
diciembre de 1994, cuyo título es “Más allá de los números, la Gente” de Humberto 
Terrizano referido a la problemática e implicancias del Mercosur aparecen claramente 
diferenciadas la media aritmética y la mediana. 
 
... “De cualquier forma, la “tasa de fecundidad” (promedio de hijos por mujer) está 
bajando fuertemente en Brasil (2,9) acercándose a la Argentina (2,8). La de Uruguay 
es muy baja (2,4) y la de Paraguay continúa muy alta (4,4). El cálculo pertenece a los 
organismos especializados de las Naciones Unidas en el ’91.”... 
En otra parte del artículo se lee el siguiente comentario: 
”... Los niveles de escolarización se miden a través de la “mediana de años de 
escolarización”. A partir de censos, se calcula cuánto tiempo asistieron a 
establecimientos educativos los habitantes que ya no concurren a ellos. En los 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Estados Unidos y en Canadá, la “mediana” alcanza 12,3 y 12,1 respectivamente. En 
la Argentina es de 8,7; en Uruguay 7,8 y en Chile 7,5; lo cual supone niveles mayores 
que el sur de Europa (Italia 7,3; España 6,8; Grecia 6,9 y Portugal 6,0). 
Entre nosotros, el problema educativo pasa hoy por la finalidad y calidad de la 
educación. La Argentina y Uruguay se encuentran dentro del reducido grupo de países 
(10 en todo el mundo) donde la mediana es superior en las mujeres que en los varones. 
En Paraguay, y especialmente Brasil, esta “mediana” muestra niveles bajos de 4,9 
y 3,9 años, respectivamente. Se trata de una asimetría importante y trascendente... ” 
 
El autor señala claramente a qué tipo de medida de tendencia central se está 
refiriendo. 
¿Porqué se debe recurrir a la mediana para poder establecer 
comparaciones sobre los años de escolarización? 
 
Porque la escolarización es una medida totalmente asimétrica con una variable 
que toma valores muy pequeños o muy grandes. 
 
Otras medidas de posición que ayudan a la descripción de un conjunto de 
datos 
Si en lugar de dividir los datos ordenados en dos conjuntos con igual cantidad de 
elementos, se lo divide en cuatro conjuntos con igual cantidad de datos, a los valores 
de la variable que afectan dicha división se los conoce como cuartiles. 
 Símbolo % de Observaciones % de Observaciones 
 que contiene menores que 
 
 Primer Cuartil Q1 25 25 
 Segundo Cuartil Q2 25 50 
 Tercer Cuartil Q3 25 75 
 
Esto no quiere decir que las observaciones estén equiespaciadas, sino que hay, 
aproximadamente el mismo número de observaciones en cada cuarto. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
 
 
 
 Q1 Q2 Q3 
 
¿Con qué cuartil coincide entonces la Mediana? 
 
En aquellas tablas de distribuciones demasiado asimétricas o libres, el empleo de 
los percentiles es una herramienta que puede ser usada para describir la distribución, 
además de ser su cálculo extremadamente simple, nos da una idea de cómo los 
valores de la variable se distribuyen entre el máximo y el mínimo. 
El mismo concepto aplicado anteriormente permite obtener valores de la variable 
a los que se llama Deciles y Percentiles, que obviamente se referirán a décimos y 
centésimos de observaciones. 
Estas medidas de posición tienen gran aplicación en biología. Léase el siguiente 
texto: ”Aquellas madres cuyo peso posparto era de 107 libras o menos (percentil 25) 
tuvieron un alto porcentaje de bebes pequeños,...” (Bulletin of the Pan American Health 
Organization. Volumen 25 No 2 1991. Maternal Risk Factors for Low Birth Weight and 
Intrauterine Growth Retardation in a Guatemalan Population. Traducción libre, pagina 
157). 
El percentil 25, (P25 = 107 libras) al que hace referencia el texto, indica que el 
25 % de las mujeres estudiadas tenía un peso menor que 107 libras en el momento 
posparto y en este percentil 25, que coincide con el primer cuartil, es donde se registró 
el mayor porcentaje de bebés pequeños. 
Siguiendo con el artículo periodístico señalado en el ejemplo 20 en otro párrafo 
dice: ..."Para aproximar una comprensión de cómo se distribuye el ingreso de un país, 
se realiza la comparación entre lo que percibe el 20 % de su población de mayores 
ingresos en relación a la misma proporción de los habitantes de más bajos recursos...” 
¿Qué sucede? 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
La distribución del ingreso es irregular, tanto más cuánto menos desarrollado es 
un país, es decir, más injusto. Es necesario comparar el P20 con el P80 de estos 
ingresos poblacionales, debido a que las medidas de tendencia central no reflejan 
fielmente lo que sucede. 
 
El autor continúa: 
"...En el Mercosur, en general, los desequilibrios entre las puntas son elevados 
en relación a los países o regiones de mayor desarrollo. El Banco Mundial los estima 
en 32 veces en el caso del Brasil y en alrededor de 16 en la Argentina. El caso de 
Brasil es puesto a menudo como ejemplo de país con acelerado crecimiento (en 
especial en los ’70) con una muy deficiente distribución del ingreso. En los países 
desarrollados, aún con modelos muy distintos, estas relaciones son menores. En 
EE.UU., por ejemplo, es de 8,9; en Alemania (antes de la reunificación) de 5,7 y en el 
excepcional caso japonés 4,3. 
En general, los procesos de acelerado crecimiento económico que en las últimas 
décadas se están dando en el sudeste asiático, se caracterizan por la acentuada 
distribución de los beneficios que generan. En general, una mejor distribución del 
ingreso no se da porque los ricos sean menos ricos, sino porque los pobres sean 
menos pobres..." 
 ¿Son suficientes los estadísticos de posición para tener una idea del 
comportamiento de la variable? 
Los gráficos que a continuación se muestran tienen todos la misma media 
aritmética pero las distribuciones son muy diferentes entre sí: 
 
 
 
 
 
Las medidas de posición o localización en muchos de los casos no son medidas 
suficientes para describir una distribución; por lo tanto se necesitan otras que 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
complementen a las primeras. Estas medidas son las que “dan una idea” de como 
quedan agrupados los datos alrededor de alguna medida de tendencia central. 
 
¿Cómo se puede completar las medidas de tendencia central y saber de qué 
gráfico estamos hablando? 
 
Para ello son necesarios los estadísticos de dispersión o variabilidad. 
 
Algunos de los más importantes son: 
 
 
 
 
 
Rango 
El rango mide la amplitud de los datos, esto significa la diferencia entre el valor 
máximo y el valor mínimo de la variable que se ha obtenido en la muestra. 
 
R = xmax – xmin 
 
El rango es una medida muy grosera de la variación porque da una idea de la 
distancia entre los valores extremos, sin tener en cuenta el resto de los valores de la 
variable. 
Ejemplo 21 
En tres áreas de un hospital se contabilizó, por semana, el número de pacientes 
que ingresaban para ser internados. El estudio se siguió durante cinco semanas. Se 
dispone de los valores de 3 muestras (las tres áreas): 
 
Muestra No Valores (x) Rango Media Aritmética 
1 1 - 2 - 5 - 10 - 12 12 - 1 = 11 6 
 
Estadísticos de Dispersión 
Rango (R) 
Variancia (s²) 
Desviación estándar (s) 
Coeficiente de Variación (CV) 
 Rango Intercuartílico (RI) 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
2 2 - 7 - 11 - 14 - 15 15 - 2 = 13 9,8 
3 1 - 9 - 10 - 11 - 14 14 - 1 = 13 9 
Tabla 13 
 
El conocimiento del rango no dice nada sobre la dispersión de los valores 
alrededor de la media, es decir, de la forma en que éstos se distribuyen respecto de 
ese valor central. 
En las muestras dos y tres el rango es el mismo, no obstante, los valores de la 
variable no se distribuyen de la misma forma. 
 
Variancia y desviación estándar 
Si se considera la distancia de cada valor de la variable X al centro geométrico 
de la distribución, en particular a la media aritmética, se observa que algunas de estas 
diferencias son positivas y otras negativas, según el valor de la variable observada, 
sea mayor o menor que ki xx  (i: muestra número; i = 1, 2, 3; k: observación, k = 1, 
2,..., n). 
Calculando todas las diferencias para los datos de la muestra, del ejemplo 21 se 
obtiene: 
6 - 1 = 5 
6 - 2 = 4 
6 - 5 = 1 
6 - 10 = -4 
6 - 12 = -6 
Lo que interesa conocer es una medida que nos diga cuanto se puede esperar 
que se desvíe cada valor de la media muestral. Por lo que se halla un promedio de 
dichos desvíos. Es decir se suman esas distancias y luego se divide el resultado por 
n. Como la suma de todos los desvíos es cero, (pruebe que esto es cierto), este 
problema se subsana elevando al cuadrado cada desviación. El promedio buscado se 
logra al dividir por n - 1 la suma de cuadrados de los desvíos a la media. Esto promedio 
es la llamada variancia de la muestra o variancia muestral (S2). 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
1
)( 2
12





n
xx
s
n
i
i
, s²  0 
 
¿Puede pensar en un ejemplo en el que s²=0? 
A la cantidad n - 1 de su denominador, se la denomina grados de libertad. 
El inconveniente de esteestadístico es que su resultado se expresa en unidades 
al cuadrado; dado que se hace el “cuadrado de los desvíos a la media”. Problema 
que se soluciona extrayendo la raíz cuadrada positiva de la variancia y de esta forma 
estos resultados aparecen en las mismas unidades que los valores observados en la 
muestra. El valor resultante se denomina desviación estándar (S) 
 1
)( 2
1





n
xx
s
n
i
i
 
Coeficiente de variación 
La desviación estándar y la variancia son medidas de variación absoluta, esto 
es, miden la cantidad real de variación presente en un conjunto de datos y dependen 
de la escala de medición. Pero estos estadísticos no son comparables entre sí, si 
provienen de distintas muestras, pues las unidades en la que se expresan son 
heterogéneas. Por eso se define una nueva medida que es el coeficiente de 
variación (CV). 
100
x
s
CV  
Si se observa su fórmula de cálculo, refiere la dispersión como un porcentaje 
respecto de la media. 
Para las dos muestras de variable aleatoria discreta y continua cuyos datos 
agrupados en intervalos de clase están dados por las Tablas 3 y 6 respectivamente, 
se calculan los CV para conocer cual de ellas es más variable y se exponen en la tabla 
14 los resultados. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
Pulsaciones/minuto en 80 
soldados 
mg/100 cm3 de creatinina en 
orina en 84 hombres normales 
s 12,51 0,225 
x 74,2 1,613 
CV 16,86 % 13,97 % 
Tabla 14 
 
 El conjunto de datos que evidencia el Pulsaciones / minuto de 80 soldados 
presenta mayor variabilidad en sus datos que la muestra que acompaña la tabla. 
 
Rango intercuartílico (RI) 
Es una medida de dispersión, que mide la amplitud existente entre el 50 % de 
los datos centrados en la mediana. Numéricamente es la diferencia entre los valores 
del tercer y primer cuartil dando una idea de la distancia entre estos cuartiles. Su 
implementación, en la construcción de los gráficos de caja (como se verá mas 
adelante), ha sido de gran utilidad, dado que refleja claramente cuan concentrada está 
la mitad de los datos respecto del valor del segundo cuartil. 
 
RI = Q3 - Q1 
 
Con esta distancia han quedado dos colas una a la izquierda del primer cuartil y 
otra a la derecha del tercer cuartil y ambas contienen el 25 % de los datos. 
 Resumen de medidas de la Tabla 7, “creatinina en orina, mg/100 cm3, de 84 
hombres normales” 
 
 Valor mínimo 1,08 
 Valor máximo 2,34 
 Rango 2,34 - 1,08 = 1,26 
 Primer Cuartil (Q1) 1,46 
 Mediana = Segundo Cuartil 1,58 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 Tercer Cuartil (Q2) 1,72 
 Rango Intercuartílico 1,72 - 1,46 = 0,26 
 
Se pueden visualizar gráficamente los valores anteriores, según muestra el 
Gráfico 17 
 
 
 
Gráfico 17 
Este gráfico permite concluir que el 50 % de los datos observados se encuentran 
en el intervalo [1,46 ; 1,72], dejando a ambos lados el 25%. 
 
Diagrama de caja y bigote (box and whisker plot) 
Mediante el cálculo de los cuartiles se dividen los datos en cuatro partes iguales, 
con estos valores y el del rango intercuartílico se puede describir gráficamente la 
distribución de una variable. 
El diagrama de caja que emplea las medidas mencionadas en el párrafo anterior, 
refleja cualquier asimetría en la distribución, permite detectar valores raros y la 
dispersión de los datos en el conjunto. 
 
Construcción del diagrama de caja 
1) La mitad central de los datos, que va 
desde el primer hasta el tercer cuartil, se 
representa mediante un rectángulo. 
pasos 1) y 2) 
 
 
 
2) La altura de la caja es proporcional a 
la raíz cuadrada del número de datos. 
3) La mediana se identifica mediante una 
barra vertical dentro de esta caja. 
paso 3) 
 
 
Q1 Q1
Q1 Q1Ma
1.08 Q1 1.58 Q2 2.34 
R =1.26 
RI = 0.26 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
4) Las barras a los costados de la caja 
se extienden desde el tercer cuartil hasta 
xmax y desde el primer cuartil hasta 
xmin. 
paso 4) 
 
 
 
 
Se presenta el diagrama de caja correspondiente al ejemplo 9, “número de 
pulsaciones por minuto de 80 soldados de 20 años”. 
Gráfico 18 
 
En este caso ha quedado un punto fuera del diagrama; correspondiente al valor 
observado 110 pulsaciones / minuto. La explicación a esto es que las barras laterales 
se extienden desde los cuartiles 1 y 3 hacia ambos costados alcanzando los valores 
de x máximo y x mínimo de la variable, siempre y cuando estos valores no sobrepasen 
un límite denominado “borde interno”, que corresponde al valor obtenido de restarle y 
sumarle a Q1 y a Q3 respectivamente 1.5 veces el rango intercuartílico. Los puntos 
fuera del valor del borde se los conocen como valores atípicos, raros u outliers, y se 
los marca en el diagrama solamente con un punto. 
 Para el Ejemplo 10, “creatinina en orina (mg/100 cm3) en 84 hombres 
normales”. 
Q1 Q1Ma
xmín xmá
x
Pulsaciones / minuto
120110100908070605040
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
Gráfico 19 
En este diagrama de caja se visualizan tres valores anómalos corresponden a: 
2,18 - 2,29 - 2,34. 
 Los diagramas de caja son de especial eficacia para hacer comparaciones entre 
dos o más conjuntos de observaciones. Sus efectos visuales proporcionan lectura 
rápida y fácil comprensión del comportamiento simultáneo de todos los conjuntos. 
Ejemplo 22 
Un artículo, publicado en una revista de Biotecnología, presenta datos de 
densidades ópticas obtenidas de una muestra de sueros, en las que se desarrollaron 
dos lavados para el método Elisa empleado, estos son: 36.45, 67.90, 38.77, 42.18, 
26.72, 50.77, 39.30 y 49.71. En el artículo también aparecen datos provenientes de un 
segundo experimento donde se utilizaron cinco lavados en una muestra de sueros para 
practicarle el mismo procedimiento Elisa, obteniéndose los datos: 8.85, 35.80, 26.53, 
64.63, 9.00, 15.38, 8.14 y 8.24. 
Gráfico de barra de error 
Los gráficos de barras de error nos permiten identificar la variabilidad de los 
datos. La estructura del gráfico se basa en un punto central que identifica el valor de 
la media, la cual se ubica en una línea vertical; mientras que la longitud de la línea 
(barra de error) indica un número específico de desviaciones estándares (s, 2s ó 3s) 
o bien de errores estándares que definiremos luego. 
 
¿Cómo se construye? 
1. Calculamos la media y la desviación estándar de un conjunto de datos. 
Creatinina (mg/100 cm3)
2.62.42.22.01.81.61.41.21.0
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
2. Dibujamos una línea, vertical u horizontal, en ella ubicamos un punto. Éste 
representa el valor de la media. A ambos lados del punto, a una separación de un 
desvío estándar, por ejemplo, hacemos un guión perpendicular a la línea, y ya está 
terminado. 
 
Podemos usarlos para comparar la “variabilidad” de varios conjuntos de datos. 
 
 
Después de haber visto tantos tipos de gráficos debemos hacer una advertencia 
final: a veces es la tendencia en el tiempo la característica más importante de los datos. 
Esta característica se pierde por completo si el conjunto de datos se resume en un 
diagrama de puntos, un diagrama Tallo-Hoja o un diagrama de caja. 
El Gráfico que se presenta a continuación ilustra este argumento con una gráfica 
del contenido de ozono en unidades Dobson. La tendencia aparente hacia abajo, si es 
real, es de interéscientífico. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Gráfico 20 
Medidas de asimetría 
Dos distribuciones también pueden diferir entre sí en asimetría o sesgo, hay 
medidas que señalan si la distribución está sesgada hacia uno u otro lado o si no lo 
está. 
Hay varias medidas de asimetría; sólo daremos una que es muy sencilla en el concepto 
y cálculo y es llamada medida pearsoniana de asimetría: 
Asimetría = media aritmética - modo 
Cuanto mayor es esta distancia tanto más asimétrica es la distribución: 
• Si es positiva media aritmética > modo; la distribución es sesgada con una larga 
cola hacia la derecha. 
 
 
 
 
 
 
 
Gráfico 21 
• Si es negativa media aritmética < modo; la distribución es sesgada con una 
larga cola hacia la izquierda. 
 
AÑO
1987198619851984198319821981198019791978
O
zo
n
o
 t
o
ta
l (
U
. 
D
o
b
s
o
n
)
340
320
300
280
260
240
220
200
 Mo Ma 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
 
 
 
 
 
Gráfico 22 
 
 Si esa diferencia es cero (o muy próxima a cero) la distribución es simétrica (o 
muy próxima a una distribución simétrica). 
 
 
 
 
 
 
Gráfico 23 
 
 
Esta medida tiene desventajas: 
1) Es una medida absoluta, sus unidades son las mismas que las unidades de los 
datos originales; entonces, cambia al cambiar la unidad de medición. 
2) Es posible calcularla siempre y cuando se puedan calcular la media aritmética 
y el modo. 
 
¿Es útil conocer el porcentaje de los datos que se encuentran en intervalos que 
relacionan la media aritmética y la desviación estándar? 
 
Veámoslo sobre un ejemplo (23). 
Las alturas de 40 adolescentes que practican más de un deporte son: (los damos 
ordenados) 
 149 154 156 158 158 
  Ma  Mo 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 161 162 162 163 163 
 165 165 165 166 167 
 168 169 170 170 171 
 158 159 160 160 160 
 163 163 164 165 165 
 168 168 168 168 168 
 172 173 175 175 178 
 
Si calculamos su media aritmética y su desviación estándar, obtenemos: 
8,164x cm; s= 6.0cm. 
Determinemos ahora los siguientes valores: 
x - s= 164,8 – 6,0 = 158,8cm 
x + s= 164,8 + 6,0 = 170,8cm 
x - 2s= 164,8 – 2 *6,0 = 152,8cm 
x +2s= 164,8 + 2 *6,0 = 176,8cm 
 
¿Cuántos adolescentes hay en el intervalo ( x - s; x + s)? 
El intervalo es (158,8 ; 170,8), contando los valores intermedios, son 28, o sea 
que el 70% de los datos está en ese intervalo. 
 
¿Cuántos adolescentes hay en el intervalo ( x - 2 s; x + 2 s)? 
El intervalo es (152,8 ; 176,8), contando los valores intermedios, son 38, o sea 
que el 95% de los datos está en ese intervalo. 
Lo bueno del caso es que admite una generalización 
 
En una distribución cualquiera, casi se puede asegurar que: 
• En el intervalo están un alto porcentaje de individuos (entre el 50 y el 75%) 
• En el intervalo están casi todos los individuos (cerca del 95%) 
 
Esto nos permite hacer una relación entre media aritmética y desviación 
típica. 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
La media aritmética es un estadístico de tendencia central muy útil pero nada 
dice acerca de la distribución de los datos respecto de la misma. 
Para tener una idea respecto al valor medio, es necesario conocer la desviación típica, 
estos dos estadísticos nos pueden decir mucho acerca de la distribución. 
A veces puede ser muy útil preguntarnos: 
¿Qué porcentaje de los datos se encuentra en el intervalo ( x - 2 s ; x + 2 s)? 
 
Diagrama de Pareto 
El diagrama de Pareto es un gráfico de barras en el cual las frecuencias de las 
categorías de la variable aparecen ordenadas según sus frecuencias de mayor a 
menor, permitiendo identificar rápidamente aquellas que tienen “mayor peso”, es decir 
mayor altura. 
El principio de Pareto, se conoce también como “regla 80/20”. Vilfredo Pareto 
(1848-1923) fue un ingeniero italiano que hizo estudios acerca de la distribución de la 
riqueza en su país y observó que el 20% de las personas controlaba el 80% de la 
riqueza. Esta idea fue tomada por Joseph Jurán (1904-2008) en 1950 y comprobó que 
se podía usar en temas relacionados con control de calidad. 
Resumiendo, el diagrama de Pareto es una gráfica que permite separar los 
“pocos vitales” de los “muchos triviales”. Se usa para identificar gráficamente los 
aspectos significativos de un problema de los triviales de manera que un equipo sepa 
dónde dirigir sus esfuerzos para mejorar. Reducir los problemas más significativos (las 
barras más largas en una Gráfica Pareto) servirá más para una mejora general que 
reducir los más pequeños. 
En el diagrama que se muestra a continuación, como ejemplo, observamos que 
del 100% de los clientes, solo el 20% de ellos incide sobre el 70% de las ventas, 
mientras que el 80% de los clientes restantes, solo participa del 30% que queda. 
 
Gráfico. Representación gráfica del Principio de Pareto. 
 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
 
 
 
¿Cómo se construye un Diagrama de Pareto? 
 
Paso 1: Preparación de los datos 
Como en todas las herramientas de análisis de datos, el primer paso consiste 
en recoger los datos correctos o asegurarse de que los existentes lo sean. Para la 
construcción de un Diagrama de Pareto son necesarios: 
 
a) Un efecto cuantificado y medible sobre el que se quiere priorizar (Costos, tiempo, 
número de errores o defectos, porcentaje de clientes, etc). 
b) Una lista completa de elementos o factores que contribuyen a dicho efecto (tipos de 
fallos o errores, pasos de un proceso, tipos de problemas, productos, servicios, 
etc). 
Es importante identificar todos los posibles elementos de contribución al efecto 
antes de empezar la recogida de datos. Esta condición evitará que, al final del análisis, 
la categoría "Varios" resulte ser una de las incluidas en los "Pocos Vitales". 
 
Paso 2: Cálculo de las contribuciones parciales y totales. 
Para cada elemento contribuyente sobre el efecto, anotar su frecuencia. 
Ordenar dichos elementos, según la magnitud de su “contribución”, es decir 
según su frecuencia de mayor a menor. 
80
30
20
70
0
20
40
60
80
100
Clientes (elementos)
%
Muchos triviales Pocos Vitales
Ventas (efecto) 
 
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- 
 
 
Facultad de Bioquímica y Ciencias Biológicas – UNL 
Estadística 
Calcular la magnitud total del efecto como suma de las magnitudes parciales de 
cada uno de los elementos contribuyentes (suma de frecuencias). 
 
 
 
Paso 3: Cálculo del porcentaje individual y acumulado, de cada elemento de la 
lista ordenada. 
El porcentaje de la contribución de cada elemento, no es más que la frecuencia 
relativa porcentual y se calcula: 
 
Porcentaje de contribución (%) = 100
totalefectodelMagnitud
óncontribuciladeMagnitud
(%) 
 
El porcentaje de contribución acumulado para cada elemento de la lista 
ordenada. Se calcula sumando de porcentajes de contribución de cada uno de los 
elementos anteriores más el correspondiente al elemento en cuestión. En este caso 
habrá que tener en cuenta que estos porcentajes, en general, se redondean. 
 Una vez completado este paso tenemos construida la Tabla de Pareto. 
 
Paso 4: Construcción del diagrama. 
Se comienza dibujando los ejes: Se coloca un eje horizontal dividido en tantas 
partes como causas figuran en la planilla de recolección de datos. Y dos ejes verticales, 
uno a la izquierda,

Continuar navegando