Logo Studenta

UNIDAD 1 - ING. AGROINDUSTRIAL - VERSIÓN 1

¡Este material tiene más páginas!

Vista previa del material en texto

UNIVERSIDAD NACIONAL DE LA RIOJA 
 
DEPARTAMENTO ACADÉMICO DE CIENCIAS APLICADAS 
A LA PRODUCCIÓN, AL AMBIENTE Y AL URBANISMO 
 
CÁTEDRA DE ESTADISTICA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 ii 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Sede / Delegación: U.N.LaR. - Sede Capital 
Departamento Académico: Departamento Académico de Ciencias y Tecnologías 
Aplicadas a la Producción, al Ambiente y al Urbanismo 
Carrera: Ingeniería Agroindustrial 
Plan de Estudio Ordenanza Nº 349/08 
Asignatura: Estadística 
Curso: 2° 
Régimen: Cuatrimestral 
Equipo de Cátedra: 
Prof. Adjunto: Ing. Ramiro Rodolfo de Priego 
Prof. JTP: Lic. Luís Federico Russo Castore 
Ayudante de Primera 
Crédito Horario: 90 horas 
 
 
 
 
 
 
 
 
 
 
 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 iii 
 
CONTENIDO 
CÁTEDRA DE ESTADÍSTICA 
 
 
UNIDAD 1: ESTADÍSTICA DESCRIPTIVA 
1.1. LA ESTADÍSTICA. ORIGEN, CONCEPTOS Y EL PAPEL EN LA INGENIERIA Y EN LA 
CIENCIA 2 
1.2. RAMAS DE LA ESTADÍSTICA 3 
1.3. POBLACIÓN Y MUESTRA 3 
1.4. DATOS, VARIABLES Y ESCALAS 4 
 1.4.1. DATOS 4 
 1.4.2. VARIABLES 5 
 1.4.3. ESCALAS 5 
1.5. TIPOS DE MUESTREOS PROBABILÍSTICOS 7 
1.6. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 9 
 1.6.1. ORGANIZACIÓN DE DATOS CUALITATIVOS 9 
 1.6.2. ORGANIZACIÓN DE DATOS CUANTITATIVOS 12 
1.7. MEDIDAS DE TENDENCIA CENTRAL 21 
 1.7.1. MEDIA ARITMÉTICA 21 
 1.7.2. MEDIANA 23 
 1.7.3. MODA 25 
 1.7.4. VENTAJAS E INCONVENIENTES DE LAS MEDIDAS DE TENDENCIA CENTRAL 27 
1.8. MEDIDAS DE VARIABILIDAD 29 
 1.8.1. RANGO O RECORRIDO 30 
 1.8.2. RANGO O RECORRIDO INTERCUARTÍLICO 30 
 1.8.3. DESVIACIÓN MEDIA 31 
 1.8.4. DESVIACIÓN MEDIANA 31 
- CÁTEDRA DE ESTADÍSTICA - 
 iv 
 1.8.5. VARIANZA Y DESVIACIÓN TÍPICA 32 
 1.8.6. TEOREMA DE CHEBYCHEV Y REGLA EMPÍRICA 35 
 1.8.7. COEFICIENTE DE VARIACIÓN 36 
1.9. MEDIDAS DE POSICIÓN NO CENTRALES 37 
 1.9.1. CUARTILES Y PERCENTILES 37 
1.10. MEDIDAS DE FORMA 39 
 1.10.1. ASIMETRÍA 40 
 1.10.2. CURTOSIS 43 
1.11. DIAGRAMA DE CAJA 45 
 
BIBLIOGRAFÍA 48 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
UNIDAD 1 
ESTDÍSTICA DESCRIPTIVA 
CÁTEDRA DE ESTADÍSTICA 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 2 
1.1. LA ESTADÍSTICA. ORIGEN, CONCEPTOS Y EL PAPEL EN LA INGENIERIA Y EN LA 
CIENCIA 
 Desde el punto de vista etimológico, el término Estadística tiene su raíz en la palabra estadista, 
y esta a su vez, en el latín status, constituyéndose como la exteriorización cuantitativa de las cosas del 
estado, es decir, la ciencia del estado. También se llamó aritmética política de acuerdo con la traducción 
literal del inglés. 
 Los antecedentes de la estadística son tan remotos como lo puede ser la historia del hombre, 
ya que las sociedades humanas, por más primitivas que hayan sido, estaban interesadas en enumerar 
sus características más importantes. Así, se utilizaban representaciones gráficas y otras medidas en 
pieles, rocas y paredes de cuevas para controlar el número de personas, animales o ciertas mercancías. 
Hacia el año 3.000 a.C. los babilonios usaban ya pequeños envases moldeados de arcilla para recopilar 
datos sobre la producción agrícola y de los géneros vendidos o cambiados y en documentos asirios, 
egipcios y griegos que preceden a los más cercanos del imperio Romano en el que la preocupación por 
la actividad censal de los individuos y bienes del estado tenía una clara finalidad tributaria y militar. 
 Posteriormente, el avance general del conocimiento generado en los últimos tres siglos, 
transformó la estadística convirtiéndola en una ciencia susceptible no solamente de describir la realidad, 
sino de modelizarla utilizando los métodos del análisis matemático vinculándola al cálculo de 
probabilidades. 
 La conceptualización que se hace de la estadística varía en un amplio rango de definiciones. 
 Vessereau decía que "la estadística no es solamente un instrumento en manos de los jefes de 
estado, ministros, hombres de negocios, banqueros, o aseguradores; interviene en los dominios más 
diversos... La idea primera y, además, fundamental de la Estadística es de recuento o inventario", 
asignándole el rol de instrumento de aplicación en varias disciplina. 
 Spiegel y Stephens vinculan conceptualmente la estadística con la metodología de la 
investigación a partir de que "la estadística se ocupa de los métodos científicos para recolectar, 
organización, resumir, presentar y analizar datos, así como sacar conclusiones válidas y tomar 
decisiones con base en este análisis". 
 Con la definición de Pliego se hace una distinción entre la estadística descriptiva o deductiva y 
la inferencial o inductiva. "La Estadística, por tanto, se configura como la tecnología del método 
científico que proporciona instrumentos para la toma de decisiones cuando estas se adoptan en 
ambiente de incertidumbre, siempre que esta incertidumbre pueda ser medida en términos de 
probabilidad. Por ello, la estadística se preocupa de los métodos de recogida y descripción de datos, 
así como de generar técnicas para el análisis de esta información". 
 A partir de la obra de Hines, Montgomery, Godsman y Borro, se hace referencia a la 
importancia de la estadística en el manejo de la información en las distintas disciplinas. "La estadística 
https://es.wikipedia.org/wiki/Idioma_ingl%C3%A9s
https://es.wikipedia.org/wiki/Siglo_XXXI_a._C.
- CÁTEDRA DE ESTADÍSTICA - 
 3 
trata de la recopilación, presentación, análisis y uso de la información para resolver problemas, tomar 
decisiones, desarrollar estimaciones, y diseñar y desarrollar productos y procedimiento. Un 
conocimiento de la estadística básica y de los métodos estadísticos es útil para cualquier persona; sin 
embargo, puesto que ingenieros, científicos y profesionales en administración científica trabajan 
todos los días con la información, dominar esta disciplina es particularmente importante”. 
 Por último, Báez comenta que "explícita o implícitamente se reconoce a la matemática en 
tanto teoría que brinda el marco conceptual y valida los procedimientos para que la estadística se 
desarrolle". Así, la estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos que 
desarrollaron la teoría de las probabilidades con la cual se adhirió a la estadística a las ciencias formales. 
 Así, a partir de los conceptos presentados, la aplicación de la estadística en el campo de la 
ingeniería puede constituirse en una herramienta poderosa para diseñar nuevos productos, 
perfeccionar los existentes y a diseñar, desarrollar y mejorar los procesos de producción. 
 La estadística es un elemento decisivo en el incremento de la calidad ya que las técnicas 
estadísticas pueden emplearse para describir y comprender la variabilidad de los procesos productivos, 
impactando en la productividad global, en el mercado y la posición competitiva. En general, la 
variabilidad es el resultado de cambios en las condiciones bajo las que se hacen las observaciones. En el 
contexto de la manufactura, estos cambios pueden ser debido a diferencias en las propiedades de los 
materiales utilizados, en la forma que trabajan los operarios, en las variables del proceso tales como 
temperatura, presión o concentración y en factores ambientales como la humedad y la temperatura 
ambiente. 
 
1.2. RAMAS DE LA ESTADÍSTICA 
 Dependiendo del propósito del estudio, la estadística puede ser: 
1. Descriptiva o deductiva. La estadística descriptiva comprende aquellos métodos usados para 
recopilar, organizar y describir la información que se ha recogido en forma de muestra con el fin de 
describir sus características. 
2. Inferencial o inductiva. La estadística inferencialcomprende aquellos métodos y técnicas usadas 
para hacer generalizaciones, predicciones o estimaciones sobre una característica de la población o 
la toma de una decisión con respecto a una población a partir de una muestra de ella. 
 
1.3. POBLACIÓN Y MUESTRA 
 La población puede definirse como el conjunto de individuos o elementos que son objeto de 
estudio o también la que esta formada por la totalidad de las observaciones en las cuales se tiene 
cierto interés. El tamaño de la población puede ser finito, cuando el número de elementos que la 
- CÁTEDRA DE ESTADÍSTICA - 
 4 
forman es numerable, es decir, se puede contar o infinito, cuando el número de elementos que la 
forman es incontable o tan grande que puede considerarse infinito. 
 Una muestra estadística se define como un subconjunto de la población. La selección de una 
muestra que sea representativa de una población es un problema importante en la investigación 
estadística ya que esta puede proporcionar una visión útil de la naturaleza de la población que se 
estudia, mientras que una muestra no representativa de la población de estudio puede derivar en 
conclusiones totalmente erróneas. 
 La selección de elementos de una población pueden realizarse a partir de un muestreo 
aleatorio o probabilístico en donde cada elemento de la población tiene la misma probabilidad de ser 
elegido, o bien, a partir de un muestreo no aleatorio o no probabilístico, caracterizándose por que 
algunos elementos de la población tienen mayores probabilidades de ser elegidos que otros. 
 El muestreo puede realizarse con reemplazo de los elementos seleccionados, implicando esto 
que una vez seleccionado un elemento, este se regresa al marco donde tiene la misma probabilidad de 
ser elegido de nuevo. La probabilidad de selección de cada elemento es 1/N y la misma permanece 
constante hasta alcanzar el tamaño de muestra n deseado, pero, suele considerarse más adecuado 
tener una muestra de elementos diferentes en lugar de permitir la repetición de mediciones del mismo 
elemento. La otra forma en que puede efectuarse el muestreo es sin reemplazo en donde el elemento 
seleccionado no regresa al marco y por lo tanto no puede elegirse otra vez. Así, la probabilidad de que 
algún elemento específico de la población sea elegido en el primer intento es 1/N y la probabilidad de 
que cualquier individuo no seleccionado, salga elegido en el segundo intento será 1/N-1 continuando el 
proceso hasta alcanzar el tamaño de muestra n deseado. 
 
1.4. DATOS, VARIABLES Y ESCALAS 
1.4.1. DATOS 
 Una unidad de observación, experimental o elemento es la entidad sobre la cual se efectúa 
mediciones o bien, se intenta realizar clasificaciones en determinadas categorías. 
 El dato, es el registro, numérico o no, que se obtiene como resultado de observar cierta 
característica de interés en una unidad experimental. 
 Por ejemplo, si se necesita realizar un análisis sobre el peso de latas de tomate en conserva, la 
unidad experimental es la lata de conserva y el peso de esta constituye un dato mientras que el 
conjunto de datos obtenidos de cada unidad experimental o elemento será la base para realizar el 
análisis. 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 5 
1.4.2. VARIABLES 
 Los elementos o unidades experimentales que conforman la población poseen una serie de 
cualidades, propiedades o rasgos comunes denominados caracteres y la variación de estos caracteres 
entre los elementos constituye la variable. 
 Los variables se pueden clasificar en: 
 Variables cualitativas o categóricas. Son aquellas que por su propia naturaleza no se pueden medir 
y se describen mediante palabras. Son producto de conteo. Por ejemplo, el género, nacionalidad, 
tipo de trabajo o modelo de auto. 
 Variables cuantitativas o numéricas. Son aquellos que se pueden describir mediante números, es 
decir, que son susceptibles de cuantificación o de medición. Por ejemplo, puntajes de un examen, 
el peso, salario de una persona o minutos de demora en recorrer una distancia. 
 Dentro de las variables cuantitativas o numéricas se pueden encontrar dos clases de variables: 
1. Variables discretas. Una variable de este tipo toma un número finito o infinito numerable de 
valores, o bien, si entre dos valores consecutivos puede tomar a lo sumo un número finito de 
valores. Por ejemplo, cantidad de hijos, cantidad de empleados de una fábrica o cantidad de 
moléculas raras en una muestra de agua. 
2. Variables continuas. Una variable de este tipo toma un número infinito de valores en un intervalo, 
o expresado de otra manera, considerando dos valores consecutivos puede tomar cualquier otro. 
Por ejemplo, peso de una persona, altura, salarios de empleados de una empresa o metros de tela 
producidos por un telar. 
1.4.3. ESCALAS 
 Para realizar un correcto análisis de datos es fundamental conocer la clasificación que hace 
referencia a las propiedades métricas de las escalas bajo las cuales pueden aparecer las observaciones. 
Esta clasificación de las escalas es: 
 Escala nominal. Esta escala representa una categoría o identifica un grupo de pertenencia y sólo 
permite establecer relaciones de igualdad o desigualdad entre los elementos de la variable. La 
asignación de los valores se realiza en forma aleatoria por lo que no cuenta con un orden lógico. Por 
ejemplo, a la variable género, puede asignársele un valor a los varones y otro diferente a las 
mujeres pero no se puede establecer que uno es mayor que el otro. 
 Escala ordinal. Esta escala representa una categoría o identifica un grupo de pertenencia contando 
con un orden lógico. Este tipo de escala permite establecer relaciones de igualdad o desigualdad y a 
su vez identificar si una categoría es mayor o menor que otra. Por ejemplo, la variable nivel de 
educación corresponde a esta escala, ya que se puede establecer que una persona con título de 
postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En esta 
- CÁTEDRA DE ESTADÍSTICA - 
 6 
escala no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o 
medible. 
 Escala de intervalos. Esta escala representa magnitudes, con la propiedad de igualdad de la 
distancia entre puntos de escala de la misma amplitud. Con este tipo de escala se puede realizar 
comparaciones de igualdad o desigualdad, establecer un orden dentro de sus valores y medir la 
distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero 
absoluto, es decir, el cero es arbitrario, por lo que este valor no indica ausencia de la característica 
sino que la misma está presente y su valor es cero. Esto a su vez implica que las operaciones de 
multiplicación y división no sean realizables. La medición en una escala de intervalos se fundamenta 
en suponer que puede conocerse exactamente la diferencia entre los elementos medidos según 
esta escala, por ejemplo, la diferencia entre los valores 9 y 10 es la misma que entre los valores 1 y 
2, o entre 19 y 20. Un cambio unitario en la escala reflejará siempre el mismo cambio en el 
elemento medido. Por ejemplo, la temperatura, la ubicación en una autopista respecto de un punto 
de referencia o el nivel de aceite en un motor medido con una vara graduada corresponden a 
variables medidas con esta escala. 
 Escala de proporción. Esta escala posee las mismas características de la escala de intervalo con la 
diferencia que cuenta con un cero absoluto, es decir, el valor cero representa la ausencia de la 
característica, permitiendo realizar cualquier operación aritmética, por lo tanto los números pueden 
compararse como proporciones y nos permite indicar cuántas veces es más grande un objeto que 
otro, además de señalar la cantidad en que difieren. Por ejemplo, las magnitudes físicas tales como 
el peso, longitud, o velocidad se miden con esta escala, al igual que la eficiencia productiva o el 
combustibleconsumido por día por una caldera. 
EJERCICIO 1.1. Diferenciar los tipos de variables de la lista propuesta. 
Longitud de barras de acero Variable cuantitativa continua 
Estado civil Variable cualitativa 
Peso de la bolsa de azúcar Variable cuantitativa continua 
Cantidad de defectuosos por lote Variable cuantitativa discreta 
Nivel de educación Variable cualitativa 
Cantidad de reclamos por día Variable cuantitativa discreta 
Ingreso per cápita Variable cuantitativa continua 
Nacionalidad Variable cualitativa 
 
EJERCICIO 1.2. Una muestra de 150 rollos de tela correspondiente a la producción del mes de Julio 2017 
reveló que 9 de están fuera de tolerancia en cuanto a su gramaje. Determinar: 
1. La población, muestra y la unidad de observación como así también el tipo de variable de estudio. 
- CÁTEDRA DE ESTADÍSTICA - 
 7 
Población Cantidad de rollos producidos en Julio 2017 
Muestra 150 rollos seleccionados 
Unidad de observación El rollo 
Variable de estudio Gramaje - Numérica continua - Escala de proporción 
 
2. ¿Que se puede inferir sobre la totalidad de la producción del mes de Julio 2.017? 
El 0,06 o 6% de los rollos producidos en el mes de Julio 2.017 se encuentran fuera de tolerancia en 
cuanto a su gramaje. 
3. ¿Que cálculo se verifico? 
Se calculó una proporción y un porcentaje. 
EJERCICIO 1.3. Especificar en cada caso la escala de medición empleada. 
Estado civil Escala nominal 
Nivel de satisfacción (alto, medio y bajo) Escala ordinal 
Eficiencia productiva Escala de proporción 
Genero Escala nominal 
Nivel de educación Escala ordinal 
Nacionalidad Escala nominal 
 
1.5. TIPOS DE MUESTREOS PROBABILÍSTICOS 
 Antes de estudiar como debe tomarse una muestra de la población, se puede preguntar por 
que razón tomar muestras. La alternativa es intentar obtener información de cada elemento de la 
población, lo que constituye un censo. Hay tres razones por las que una muestra es preferible a un 
censo, la primera es que en muchas aplicaciones realizar un censo resultaría muy costoso, la segunda es 
que muchas veces se necesita obtener la información con rapidez y finalmente, con los métodos 
estadísticos es posible obtener resultados con el nivel de precisión deseado mediante el muestreo. 
 Los tipos de muestreos probabilísticos o aleatorios utilizados son: 
 Muestreo aleatorio simple. En un muestreo aleatorio simple cada elemento de una población tiene 
la misma probabilidad de ser elegido. Además, cada muestra de un tamaño n determinado tiene la 
misma probabilidad de ser elegida que cualquier otra muestra del mismo tamaño. Este tipo de 
muestreo es la técnica de muestreo aleatorio más elemental y constituye la base para otras 
técnicas. Uno de los métodos utilizados para obtener una muestra aleatoria es usar una tabla de 
números aleatorios. La misma esta formada por una serie de dígitos que se generan en forma 
aleatoria y se colocan en la secuencia en que se generaron y cada dígito o secuencia de dígitos de la 
tabla se puede leer en sentido horizontal o vertical. Para usar una tabla de números aleatorios 
- CÁTEDRA DE ESTADÍSTICA - 
 8 
primero se debe asignar números de códigos a los elementos de la población y se obtiene la 
muestra aleatoria leyendo la tabla y seleccionando los elementos del marco de población cuyos 
números de código coinciden con los dígitos encontrados en la tabla. 
Las muestras aleatorias simples siempre son diferentes de sus poblaciones en algunos aspectos y en 
ocasiones podrían ser considerablemente diferentes. Así, dos muestras de la misma población 
también serán diferentes entre si. Este fenómeno se conoce como variación del muestreo y por eso 
los experimentos tienen resultados diferentes cuando se repiten aún en condiciones prácticamente 
iguales. 
La ventaja de una muestra aleatoria simple es que no hay ningún mecanismo sistémico que la haga 
poco representativa. Las diferencias entre la muestra y su población son atribuibles completamente 
a la variación aleatoria. Debido a que la teoría matemática sobre la variación aleatoria se 
comprende bien, se pueden usar modelos matemáticos para estudiar la relación entre muestras 
aleatorias simples y sus poblaciones. 
 Muestreo sistemático. En un muestreo sistemático, se dividen N elementos del marco poblacional 
en k grupos, realizando el cociente entre el tamaño de la población N y el tamaño de la muestra 
deseado n, es decir k = N/n, donde k se redondea al entero más cercano. Para obtener una muestra 
sistemática, el primer individuo o elemento se selecciona al azar entre los k elementos del primer 
grupo del marco de población y, para el resto de la muestra se elige un elemento cada k en la lista 
completa de la población. Cuando el marco de población consiste en listados predeterminados es 
más rápido y fácil obtener una muestra sistemática que una muestra aleatoria simple. En estas 
situaciones el muestreo sistemático es un mecanismo conveniente para obtener los datos 
deseados. 
 Muestreo estratificado. En un muestreo estratificado, primero se dividen los N elementos de la 
población en subpoblaciones separadas o estratos de acuerdo con algunas características en 
común. Los estratos suelen ser grupos homogéneos de elementos, que a su vez son heterogéneos 
entre diferentes grupos o estratos. Por ejemplo, si en un estudio esperamos encontrar un 
comportamiento muy diferente entre hombres y mujeres, puede ser conveniente definir dos 
estratos, uno por cada sexo. Si la selección de estos estratos es correcta los hombres deberían 
comportarse de forma parecida entre ellos, las mujeres deberían comportarse de forma muy similar 
entre ellas y hombres y mujeres deberían mostrar comportamientos dispares entre sí. Si la anterior 
condición se cumple, estratos homogéneos internamente y heterogéneos entre sí, el uso del 
muestreo aleatorio estratificado reduce el error muestral, mejorando la precisión de nuestros 
resultados al realizar un estudio sobre la muestra. Estos métodos de muestreo son más eficientes 
que el muestreo aleatorio simple o el sistemático porque garantizan la representación de 
elementos de toda la población, lo que asegura una mayor precisión en las estimaciones de los 
parámetros poblacionales fundamentales a raíz de la homogeneidad de elementos dentro de cada 
estrato. 
- CÁTEDRA DE ESTADÍSTICA - 
 9 
 Muestreo por conglomerados. En un muestreo por conglomerados, se divide los N elementos de la 
población en varios conglomerados, de manera que cada conglomerado sea representativo de la 
población completa. Después, se obtiene una muestra aleatoria de los conglomerados y se estudian 
todos los elementos dentro de cada conglomerado seleccionado. Los conglomerados pueden ser 
asignaciones naturales, como departamentos, ciudades, manzanas, familias o edificio de 
departamento. 
Tanto en el muestreo por conglomerados como en el muestreo estratificado, se divide la población 
en grupos. Sin embargo, los principios detrás de ambas técnicas son en cierto modo opuestos. El 
muestreo estratificado es especialmente adecuado cuando los estratos son muy homogéneos 
internamente y muy diferentes entre sí, asegurando que tenemos representantes en nuestra 
muestra que provienen de todos los estratos. Por el contrario, el muestreo por conglomerados es 
muy adecuado cuando los grupos en que dividimos la población son muy similares entre sí, por lo 
que no hay gran diferencia entre estudiar individuos de un grupo o de otro. Es por ello que pese a 
que ambas técnicas dividen la población, en estratos o conglomerados, el proceso de selección de 
elementos es totalmente diferente. 
Los métodos de muestreo por conglomerados pueden ser más eficientes, en relación al costo, que 
los métodos de muestreo aleatorio simple, sobre todo si la población en cuestión se encuentra 
esparcida en una vasta región geográfica. Sin embargo, los métodos de muestreo por 
conglomerados tienden a ser menos eficientesque los métodos de muestreo aleatorio simple o de 
muestreo estratificado y necesitan una muestra total más grande para obtener resultados tan 
precisos como los que se obtienen con los procedimientos más eficientes. 
 
1.6. ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS 
 Una vez generado los datos, el objetivo es resumir la información destacando las características 
más importantes de los datos. Existen técnicas estadísticas descriptivas cuya finalidad es presentar la 
información en tablas, obtener medidas numéricas que resuman la información y otras tienen carácter 
netamente gráficos. Por lo tanto, la forma adecuada de trabajar los datos dependerá de las 
características de estos y del objetivo del análisis. 
1.6.1. ORGANIZACIÓN DE DATOS CUALITATIVOS 
 Para comenzar con la organización de los datos, se construye una tabla de frecuencias para 
variables cualitativas o categóricas, en la cual se asocia cada categoría de la variable con la cantidad de 
veces que se repite la misma. Para ilustrarlo, se desarrolla el ejercicio descripto más abajo. 
EJERCICIO 1.4. Con los datos correspondientes al año 2.016 sobre hechos delictivos cometidos en la 
Provincia de La Rioja construir una tabla de frecuencia y representaciones gráficas. 
https://www.netquest.com/blog/es/muestreo-probabilistico-muestreo-estratificado
- CÁTEDRA DE ESTADÍSTICA - 
 10 
Tabla 1.1. Homicidios Dolosos y Culposos, Tentativas y Lesiones. Provincia de La 
Rioja. Año 2016 Cantidades de Hechos. 
Delitos Cantidad de delitos Porcentaje 
Homicidios Dolosos 10 0,492% 
Tentativas de Homicidio 1 0,049% 
Muertes en Acc. Viales 70 3,448% 
Homicidios Culposos * 0 0,000% 
Lesiones Dolosas 460 22,660% 
Lesiones Culposas en Acc. Viales 1.489 73,349% 
Otras Lesiones Culposas 0 0,000% 
Total 2.030 100% 
Fuente: Ministerio de Seguridad de la Nación - Sistema Nacional de Información Criminal (SNIC). 
*Los datos sobre Homicidios Culposos excluyen los accidentes viales. Los mismos presentan una 
distribución anormal que podría ser explicada por diversos criterios de categorización, y a su vez por 
distintos niveles de judicialización de accidentes. 
 La información resumida en la Tabla 1.1. se puede representar gráficamente a partir de un 
diagrama de barras en donde la longitud de cada barra es proporcional, a partir de una escala, a la 
frecuencia de cada una de las categorías. 
Figura 1.1. Gráfico de bastones. Homicidios Dolosos y Culposos, Tentativas y 
Lesiones. Provincia de La Rioja. Año 2.016 Cantidades de Hechos. 
0
200
400
600
800
1000
1200
1400
1600
Homicidios
Dolosos
Tentativas de
Homicidio
Muertes en
Acc. Viales
Homicidios
Culposos *
Lesiones
Dolosas
Lesiones
Culposas en
Acc. Viales
Otras Lesiones
Culposas
Delitos
C
an
ti
d
ad
 
 La Tabla 1.1. se denomina tabla de distribución de frecuencia ya que la misma muestra como se 
distribuyen los diferentes hechos delictivos a lo largo del año 2.016 en la Provincia de La Rioja. La 
columna Cantidad de delitos corresponde a la frecuencia absoluta, la cual determina el número de 
veces que se repite cada categoría de la variable. 
- CÁTEDRA DE ESTADÍSTICA - 
 11 
Tabla 1.2. Tabla de frecuencias relativas. Homicidios Dolosos y Culposos, Tentativas 
y Lesiones. Provincia de La Rioja. Año 2016 Cantidades de Hechos. 
Delitos Frec. relativa hi Porcentaje 
Homicidios Dolosos 0,00492 0,492% 
Tentativas de Homicidio 0,00049 0,049% 
Muertes en Acc. Viales 0,03448 3,448% 
Homicidios Culposos * 0,00000 0,000% 
Lesiones Dolosas 0,22660 22,660% 
Lesiones Culposas en Acc. Viales 0,73349 73,349% 
Otras Lesiones Culposas 0,00000 0,000% 
Total 1 100% 
Fuente: Elaboración propia. 
 En la Tabla 1.2., la columna Frecuencia relativa representa la proporción de veces que ocurre 
cada una de las categorías mientras que la columna Porcentaje es la misma frecuencia expresada en 
tantos por cien. 
EJERCICIO 1.5. Se tomó una muestra de personas económicamente activas de cierto barrio y se les 
pregunta tipo de trabajo. Estos se resumen en la Tabla 1.3. 
Tabla 1.3. Tipos de trabajo por Género. 
Tipo de trabajo 
Género 
Total 
Masculino Femenino 
Adm. Pública 
Prov. 
54 38 92 
Adm. Pública Nac. 18 10 28 
Prof. 
Independiente 
35 20 55 
Empleado 
Industrial 
21 4 25 
Desocupados 12 8 20 
Otros Trabajos 9 3 12 
Total 149 83 232 
Fuente: Elaboración propia. 
 Este tipo de tablas se denominan tablas de contingencias y se emplean para registrar y analizar 
la asociación entre dos o más variables, habitualmente de naturaleza cualitativa o categórica. En este 
caso, se trabaja con dos variables, la primera el género y la segunda recoge el tipo de trabajo. Las cifras 
en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra 
situada en la esquina inferior derecha es el total de elementos o unidades observacionales. 
 
https://es.wikipedia.org/wiki/Variable_estad%C3%ADstica#Variables_cualitativas
- CÁTEDRA DE ESTADÍSTICA - 
 12 
Figura 1.2. Gráfico de bastones. Tipos de trabajo por género. 
0
10
20
30
40
50
60
Adm. Pública Prov. Adm. Pública Nac. Prof.
Independiente
Empleado
Industrial
Desocupados Otros Trabajos
Tipo de Trabajo
G
é
n
e
ro
Masculino
Femenino
 
1.6.2. ORGANIZACIÓN DE DATOS CUANTITATIVOS 
 Cuando la variable de estudio es cuantitativa o numérica, se debe distinguir entre variable 
discreta y continua. Además se debe tener en cuenta la cantidad de datos que conforman la muestra o 
población. 
 Cuando la cantidad de observaciones es relativamente poca, el análisis de los datos se puede 
realizar sin agrupar los mismos como se muestra en el siguiente ejercicio. 
EJERCICIO 1.6. Se realizó un seguimiento durante 16 días de la producción diaria de un telar circular, 
manteniendo constante la velocidad de trabajo y a los mismos maquinistas, con el fin de analizar el 
comportamiento del mismo frente al hilado proveniente de un proveedor determinado. Las 
producciones observadas son: 
Tabla 1.4. Producción diaria de telar circular. 
Día Producción kg Día Producción kg Día Producción kg Día Producción kg 
1 1.200 5 1.143 9 1.090 13 1.021 
2 1.180 6 1.172 10 1.177 14 1.162 
3 1.210 7 1.226 11 1.219 15 1.191 
4 1.075 8 1.115 12 990 16 1.104 
Fuente: Elaboración propia. 
 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 13 
Figura 1.3. Diagrama de puntos. Producción diaria de telar circular. 
985 1.005 1.025 1.045 1.065 1.085 1.105 1.125 1.145 1.165 1.185 1.205 1.225
Producción diaria
 
 La Figura 1.3. representa un diagrama de puntos. Este diagrama es una gráfica muy útil para 
visualizar un conjunto pequeño de datos. La gráfica permite ver con rapidez y facilidad la ubicación o 
tendencia central de los datos, así como su variabilidad. Cuando el número de observaciones es 
pequeño, a menudo es difícil identificar algún patrón de variación específico, sin embargo, con 
frecuencia el diagrama de puntos es útil y puede proporcionar información sobre características pocos 
usuales de los datos. 
 Cuando la cantidad de observaciones es considerable y la variable de estudio es de tipo 
discreta, los datos pueden organizarse agrupándolos sin intervalos. Así, para ilustrarlo, desarrollamos el 
siguiente ejercicio. 
EJERCICIO 1.7. El Departamento de Calidad de una empresa dedicada a la producción y envasado de 
tomates en conservas, presentó un relevamiento de la cantidad de botellas fuera de especificación con 
respecto a su capacidad, 1 litro, en 80 lotes de 100 unidades cada uno, seleccionados al azar, resultando 
los siguientes valores: 
Tabla 1.5. Cantidad de botellas fuera de especificación con respecto a su capacidad por lote 
de 100 unidades. 
Lote Unidad Lote Unidad Lote Unidad Lote Unidad Lote Unidad 
1 4 17 5 33 2 49 6 65 4 
2 3 18 7 34 5 50 3 66 6 
3 6 19 4 35 5 51 4 67 5 
4 7 20 6 36 8 52 2 68 4 
5 4 21 5 37 4 53 7 69 8 
6 6 22 3 38 4 54 3 70 5 
7 5 23 6 39 5 55 4 71 6 
8 3 24 6 40 6 56 6 72 6 
9 625 4 41 4 57 7 73 6 
10 5 26 5 42 6 58 6 74 7 
11 6 27 3 43 8 59 4 75 8 
12 5 28 4 44 5 60 5 76 5 
13 7 29 4 45 8 61 3 77 6 
14 5 30 2 46 5 62 4 78 7 
15 3 31 6 47 7 63 6 79 6 
16 6 32 7 48 5 64 6 80 5 
Fuente: Elaboración propia. 
- CÁTEDRA DE ESTADÍSTICA - 
 14 
 Estos datos pueden organizarse en una tabla de frecuencias para variables cuantitativas o 
numéricas, en la cual se asocia cada valor de la variable con la cantidad de veces que se observa dicho 
valor. 
Tabla 1.6. Tabla de distribución de frecuencias. Botellas fuera de especificación con 
respecto a su capacidad por lote de 100 unidades. 
Xi Conteo fi hi Hi Fi Hi% 
2 III 3 0,0375 0,0375 3 3,75 
3 IIIIIIII 8 0,1000 0,1375 11 13,75 
4 IIIIIIIIIIIIIII 15 0,1875 0,3250 26 32,50 
5 IIIIIIIIIIIIIIIIII 18 0,2250 0,5500 44 55,00 
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 0,8250 66 82,50 
7 IIIIIIIII 9 0,1125 0,9375 75 93,75 
8 IIIII 5 0,0625 1,0000 80 100,00 
Total - 80 1 - - - 
Fuente: Elaboración propia. 
 En la Tabla 1.6. fi y hi representan las frecuencias absoluta y relativa respectivamente las cuales 
fueron definidas en el punto anterior. Para completar la distribución, son importantes las frecuencias 
absolutas y relativas acumuladas, las cuales quedan definidas como la suma de las frecuencias, absoluta 
o relativa, de los valores menores o iguales en función a un valor considerado. 
 La utilidad de cada una de las frecuencias la podemos explicar considerando, por ejemplo, la 
cuarta fila de la Tabla 1.6. en donde las columnas fi y hi establecen que 18 lotes o el 22,5% de los mismos 
presentan 5 unidades fuera de especificación mientras que las restantes columnas determinan que 44 
lotes o el 55% de estos, presentan entre 2 y 5 unidades fuera de especificación. 
Figura 1.4. Gráfico de bastones. Cantidad de botellas fuera de 
tolerancia. 
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
30,0%
2 3 4 5 6 7 8
Botellas fuera de especificación
Fr
e
cu
e
n
ci
a 
re
la
ti
va
 
 La Figura 1.4. muestra un gráfico de bastones y la frecuencia representada de esta forma indica 
que entre dos valores sucesivos de la variable no existen valores intermedios. 
- CÁTEDRA DE ESTADÍSTICA - 
 15 
Figura 1.5. Gráfico escalonado. Cantidad de botellas fuera de tolerancia. 
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
0 1 2 3 4 5 6 7 8
Botellas fuera de especificación
Fr
ec
u
en
ca
 r
el
at
iv
a 
ac
u
m
u
la
d
a
 
 Observando la Figura 1.5., la misma muestra un gráfico escalonado donde cada valor de la 
variable experimenta un salto igual a su frecuencia relativa. 
 Estas mismas gráficas pueden realizarse reemplazando las frecuencias relativas por sus 
respectivas absolutas. 
 Cuando la variable de estudio es de tipo continua y la cantidad de datos es considerable, el 
conjunto de datos puede organizarse agrupándolos en intervalos. Primero se debe definir la cantidad de 
intervalos y la amplitud de los mismos. Es recomendable no usar menos de 5 ni más de 15 intervalos y 
tratar de que no queden intervalos de clase con frecuencia nula. 
 Es importante resaltar que con este tipo de organización se pierde la información de los valores 
individuales de la variable y estos quedan representados por los intervalos de clase. 
 En primer lugar, se debe determinar el número de intervalos, conocidos también como 
intervalos de clase k. Para calcular k pueden usarse varios procedimientos. Uno es la regla de Sturges, 
cuya fórmula corresponde a k = 1 + 3.3 log (n) y que conviene siempre que el número de datos sea 
mayor a diez. Así mismo, el número de intervalos puede ser calculado a través de la raíz cuadrada del 
número total de datos, cantidad que debe redondearse siempre al número entero inmediato o también 
elevando la base 2 a un exponente k de forma tal que el resultado sea mayor o igual a n. 
 Una vez determinada la cantidad de intervalos, la amplitud de los mismos se determina por: 
k
Xmín - Xmáx
 = Ci 
- CÁTEDRA DE ESTADÍSTICA - 
 16 
 Donde el numerador determina el rango o recorrido de la distribución y Ci es la amplitud de los 
intervalos. Los límites de cada intervalo, inferior y superior, se construyen partiendo con el menor valor 
observado, Xmín, como límite inferior del primer intervalo y sumándole el valor de la amplitud para 
definir el límite superior de este. El límite inferior del segundo intervalo coincide con el superior del 
anterior el cual, sumándole también la amplitud determinamos el límite superior y así se procede hasta 
completar la cantidad de intervalos k calculados y de esta forma cada intervalo queda definido por un 
límite inferior y otro superior. 
EJERCICIO 1.8. Se desea analizar la tensión de rotura a partir de un ensayo de tracción consistente en 
someter a una probeta normalizada a un esfuerzo axial de tracción creciente hasta que se produce la 
rotura de la misma. Este ensayo se realiza sobre 80 probetas como muestras de una aleación de 
aluminio y litio y se registra su tensión de rotura en libras por pulgadas cuadrada (psi), con los siguientes 
resultados: 
Tabla 1.7. Valores de resistencia a la tensión de rotura de 80 probetas de aleación 
de aluminio y litio. 
105,12 221,57 183,45 186,58 121,21 181,09 180,90 143,20 
97,32 154,64 153,32 174,78 120,32 168,87 167,53 141,85 
245,56 228,44 174,63 199,32 181,95 158,83 176,71 110,35 
163,89 131,18 154,47 115,24 160,68 208,46 158,27 133,63 
207,51 180,87 190,58 193,84 194,74 133,14 156,31 123,77 
134,77 178,63 76,77 167,55 184,25 135,74 229,85 146,15 
218,19 157,07 101,56 171,65 165,32 172,28 158,92 169,55 
199,26 151,52 142,13 163,41 145,41 171,81 148,25 158,49 
160,45 175,46 149,03 87,95 160,85 237,70 150,27 135,67 
196,37 201,23 200,15 176,87 150,48 170,38 118,46 149,17 
Fuente: Elaboración propia. 
 Aplicamos uno de los criterios descripto anteriormente para construir la tabla de distribución 
de frecuencias: 
80128 = 802 = n2 7k ≥ ≥ ≥ 
 Considerando la totalidad de los datos n, utilizaremos 7 intervalos de clase. 
 Observando los datos, vemos que el mayor valor que toma la variable es de 245,56 psi y el 
menor es de 76,77 psi, definiendo los mismos: 
 Determinamos la amplitud de los intervalos: 
 24,11 = 
7
76,77 - 245,56
= 
k
Xmín - Xmáx
 = C i 
https://es.wikipedia.org/wiki/Probeta_(mec%C3%A1nica)
https://es.wikipedia.org/wiki/Tracci%C3%B3n
- CÁTEDRA DE ESTADÍSTICA - 
 17 
 Como los intervalos de clase deben incluir a todos los valores observados es aconsejable 
redondear el valor de la amplitud a un número entero superior para asegurar que el mayor valor que 
toma la variable quede incluido. A partir de estos valores podemos construir una tabla de distribución 
de frecuencias donde en lugar de escribir los valores observados de la variable, los reemplazamos por 7 
intervalos de 25 psi de amplitud. 
 En el caso de que algún valor de la variable coincida con uno de los límites, se puede ubicar en 
cualquiera de los dos intervalos pero siempre siguiendo el mismo criterio. 
Tabla 1.8. Tabla de distribución de frecuencias. Resistencia a la tensión de rotura de 
probetas de aleación de aluminio y litio. 
Intervalos Conteo MC fi hi Fi Hi % 
76,77 - 101,77 IIII 89,27 4 0,0500 4 5,00 
101,77 - 126,77 IIIIIII 114,27 7 0,0875 11 13,75 
126,77 - 151,77 IIIIIIIIIIIIIIIII 139,27 17 0,2125 28 35,00 
151,77 - 176,77 IIIIIIIIIIIIIIIIIIIIIIIIIII 164,27 27 0,3375 55 68,75 
176,77 - 201,77 IIIIIIIIIIIIIIIII 189,27 17 0,2125 72 90,00 
201,77 - 226,77 IIII 214,27 4 0,0500 76 95,00 
226,77 - 251,77 IIII 239,27 4 0,0500 80 100,00 
Total - 80 1 - - 
Fuente: Elaboración propia. 
 Si consideramos la tercera fila de la Tabla 1.8., las columnas fi y hi establecen que 17 probetas o 
el 21,25% de las mismas presentan una tensión de rotura comprendida entre 126,77 y 151,77 psi 
mientras que las restantes columnas determinan que 28 probetas o el 35% de estas, presentan una 
tensión de rotura de 76,77 a 151,77 psi.La representación gráfica empleada en este tipo de distribución es el histograma de 
frecuencias, Figura 1.6. 
Figura 1.6. Histograma de frecuencias. Tensión de rotura. 
0
5
10
15
20
25
30
89,27 114,27 139,27 164,27 189,27 214,27 239,27
Tensión de rotura
Fr
e
cu
e
n
ci
a 
ab
so
lu
ta
 
- CÁTEDRA DE ESTADÍSTICA - 
 18 
 El histograma de frecuencias es un gráfico de barras verticales adyacentes y muestra la forma 
en que se distribuyen los datos y se construye levantando sobre cada intervalo un rectángula de área 
proporcional a la frecuencia correspondiente a dicho intervalo. Se pueden emplear la frecuencia 
absoluta o la relativa. Sirven para obtener una primera vista general de la distribución de la población, o 
de la muestra, respecto a una característica, cuantitativa y continua. Así, esta gráfica ofrece una visión 
permitiendo observar una tendencia de la muestra o población. De esta forma, podemos evidenciar 
comportamientos, observar el grado de homogeneidad, o, en contraposición, poder observar el grado 
de variabilidad, y por ende, la dispersión de todos los valores que toman. También es posible no 
evidenciar ninguna tendencia. 
 Otra gráfica también muy utilizada es la de sustituir el histograma por un polígono de 
frecuencias, empleando indistintamente las absolutas o relativas, Figura 1.7. Se construye uniendo la 
marca de clase, punto medio de cada intervalo, y el área que queda por debajo del polígono de 
frecuencias es igual al área contenida dentro del correspondiente histograma. 
Figura 1.7. Polígono de frecuencias. Tensión de rotura. 
0
5
10
15
20
25
30
89,27 114,27 139,27 164,27 189,27 214,27 239,27
Tensión de rotura
Fr
e
cu
e
n
ci
a 
ab
so
lu
ta
 
 La Figura 1.8 muestra otra representación gráfica utilizada, empleando las frecuencia 
acumuladas, tanto las absolutas como las relativas, denominado ojiva. 
Figura 1.8. Ojiva de frecuencias relativas acumuladas. Tensión de 
rotura. 
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
89,27 114,27 139,27 164,27 189,27 214,27 239,27
Tensión de rotura
Fr
e
cu
e
n
ci
a 
re
la
ti
va
 a
cu
m
u
la
d
a
 
- CÁTEDRA DE ESTADÍSTICA - 
 19 
 Para construirlo se levanta en el extremo superior de cada intervalo una ordena igual a la 
frecuencia acumulada correspondiente y determinando así un punto en el plano para cada intervalo. Al 
unir cada uno de los puntos queda definida la ojiva en donde cada uno de ellos mide el número de 
observaciones para las cuales la variable ha tomado valores menores o iguales a la abscisa, en este caso 
práctico, la tensión de rotura. La altura correspondiente al extremo superior del último intervalo será 
igual a la frecuencia total si trabajamos con las frecuencias absolutas acumuladas y 1 si lo hicimos con 
las frecuencias relativas acumuladas. 
EJERCICIO 1.9. Los datos que se presentan a continuación corresponden a la viscosidad cinemática a 50 
°C de dos lotes de aceite para uso lubricante producidos con una semana de diferencia. 
Tabla 1.9. Valores de viscosidad cinemática de aceite lubricante a 50 °C 
medidos en cStokes (mm2/s). 
Lote1 
13,35 14,54 15,36 15,32 14,12 
14,38 16,12 13,15 15,55 12,62 
14,97 13,76 15,24 14,54 15,31 
15,21 15,28 15,99 16,57 14,89 
14,85 15,27 14,53 14,63 14,15 
14,69 14,32 15,42 15,27 16,84 
15,66 15,85 13,38 14,18 15,47 
15,14 17,25 14,97 14,81 14,39 
Fuente: Elaboración propia. 
Lote2 
15,85 13,72 15,19 13,47 14,19 
14,22 16,96 14,95 15,28 14,46 
16,21 14,99 13,69 15,35 14,32 
13,77 13,84 15,66 14,52 12,84 
14,88 14,35 14,37 16,47 16,98 
15,29 14,67 16,48 14,28 15,79 
15,69 16,18 13,93 15,29 14,49 
16,18 16,69 15,62 14,61 14,43 
Fuente: Elaboración propia. 
 Elaborar una tabla de frecuencias y representar las mismas gráficamente. 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 20 
Tabla 1.10. Tabla de distribución de frecuencias para los valores de 
viscosidad cinemática. 
 
Variable Clase LI LS MC FA FR FAA FRA 
Lote 1 1 [ 12,62 13,55 ) 13,08 4 0,10 4 0,10 
Lote 1 2 [ 13,55 14,47 ) 14,01 7 0,18 11 0,28 
Lote 1 3 [ 14,47 15,40 ) 14,94 19 0,48 30 0,75 
Lote 1 4 [ 15,40 16,32 ) 15,86 7 0,18 37 0,93 
Lote 1 5 [ 16,32 17,25 ] 16,79 3 0,08 40 1,00 
 
Variable Clase LI LS MC FA FR FAA FRA 
Lote 2 1 [ 12,84 13,67 ) 13,25 2 0,05 2 0,05 
Lote 2 2 [ 13,67 14,50 ) 14,08 14 0,35 16 0,40 
Lote 2 3 [ 14,50 15,32 ) 14,91 10 0,25 26 0,65 
Lote 2 4 [ 15,32 16,15 ) 15,74 6 0,15 32 0,80 
Lote 2 5 [ 16,15 16,98 ] 16,57 8 0,20 40 1,00 
Nota: La tabla de frecuencias fue construida utilizando el software InfoStat, organizando los 
datos en intervalos para cada uno de los lotes. 
Figura 1.9. Histograma de frecuencias. Viscosidad cinemática Lote 1. 
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
13,08 14,01 14,94 15,86 16,79
Viscosidad cinemática
Fr
e
cu
e
n
ci
a 
re
la
ti
va
 
Figura 1.10. Histograma de frecuencias. Viscosidad cinemática Lote 2. 
0,0%
5,0%
10,0%
15,0%
20,0%
25,0%
30,0%
35,0%
40,0%
13,25 14,08 14,91 15,74 16,57
Viscosidad cinemática
Fr
e
cu
e
n
ci
a 
re
la
ti
va
 
 Las Figuras 1.9 y 1.10 representan los histogramas de ambos lotes de aceite. En el primer 
histograma, se observa que la distribución de la viscosidad es bastante homogénea, presentando una 
gran concentración para el valor de 14,94 cStokes correspondiente a la marca de clase del tercer 
intervalo y descendiendo de forma casi proporcionada a derecha e izquierda. En el histograma 
- CÁTEDRA DE ESTADÍSTICA - 
 21 
correspondiente al segundo lote se destaca una concentración importante de los valores de viscosidad 
sobre el segundo intervalo cuya marca de clase corresponde a 14,08 cStokes, y una marcada 
concentración a la derecha para valores mal altos de la viscosidad cinemática. 
Figura 1.11. Polígono de frecuencias. Viscosidad cinemática Lote 1 y 
Lote 2. 
Lote 1
Lote 2
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
13,25 14,08 14,91 15,74 16,57
Viscosidad cinemática
Fr
e
cu
e
n
ci
a 
re
la
ti
va
 
 La Figura 1.11 muestra los polígonos de frecuencia de ambos lotes representados en la misma 
gráfica, permitiendo así la comparación entre ellos. 
 
1.7. MEDIDAS DE TENDENCIA CENTRAL 
 La tabla de distribución de frecuencias ofrece toda la información disponible pero en 
numerosos casos no puede interpretarse toda esa extensa información, por lo que se intenta resumirla 
en una serie de valores que fijen el comportamiento global del fenómeno a partir de los datos 
individuales. Así, las medidas de tendencia central son algunos de estos valores que permiten resumir la 
información en un único valor y representan un centro en torno al cual se encuentra ubicado el 
conjunto de los datos. 
1.7.1. MEDIA ARITMÉTICA 
 Una de las medidas de tendencia central usada con mayor frecuencia es la media aritmética o 
promedio. Así, dado un conjunto de observaciones numéricas, la media se define como la suma de 
todos los valores del conjunto dividida por el número de observaciones. 
 Sean x1, x2,…, xN datos correspondientes a una población, la media poblacional se simboliza μ 
y queda definida: 
N
x .f
 = μ 
N
x
 = μ
i
N
1=i
i
N
1=i
i ∑∑
 
- CÁTEDRA DE ESTADÍSTICA - 
 22 
Sean x1, x2,…, xn datos correspondientes a una muestra, la media muestral se simboliza x y 
queda definida: 
n
x .f
 = X 
n
x
 = X
i
n
1=i
i
n
1=i
i ∑∑
 
 Esta medida de tendencia central presenta ciertas propiedades de interés, las cuales pueden 
expresarse como: 
 La media aritmética queda definida sólo para variables cuantitativas. 
 La media aritmética es muy sensible a los valores extremos. Así, la media aritmética es una 
medida calculada a partir de todos y cada uno de los datos de una serie, en consecuencia 
resume apropiadamente la información del conjunto. Sin embargo, por esta propiedad, en 
ciertas situaciones puede perder eficaciacomo medida representativa del conjunto de datos y 
dar conclusiones erróneas. Cuando en la muestra existen valores extremos o atípicos, estos 
influirán en el valor de la media, pudiendo llegar a distorsionarla de tal modo que no 
representa al común de los datos del conjunto. 
 La media aritmética no se puede calcular si hay un intervalo con una amplitud indeterminada. 
 La media aritmética está comprendida entre el valor máximo y el valor mínimo del conjunto 
de datos. 
 La suma de las desviaciones de los valores de la variable respecto a su media es cero. Sean 
 Xx = d , . . . ,xx = d ,xx = d nn2211 --- las desviaciones de los valores de la variable a partir de su 
media, la sumatoria de estas desviaciones es: 
( ) 0 =Xx =d
n
1=i
ii ∑∑ 
Por esta propiedad se dice que la media aritmética es el centro de gravedad de la distribución 
de la variable. La media muestral es donde el diagrama de puntos se equilibra. 
 Si a todos los valores de una variable se les suma una constante k, la media aritmética queda 
aumentada en esa constante k. Es decir, la media aritmética queda afectada por los cambios 
de origen. Sea la distribución (xi + k ; fi), producto de un cambio de origen, la media queda 
definida: 
( )
 k+X=
n
f
k+
n
x .f
 =
n
f . k+x
 =X
n
1=i
i
n
1=i
ii
n
1=i
ii ∑∑∑
 
 Si a todos los valores de una variable se multiplican por una constante k, la media aritmética 
queda multiplicada por esa constante k. Es decir, la media aritmética queda afectada por los 
- CÁTEDRA DE ESTADÍSTICA - 
 23 
cambios de escala. Sea la distribución (Xi . k ; fi), producto de un cambio de escala, la media 
queda definida: 
( )
X . k=
n
x .f
 . k =
n
.f k .x
 =X
n
1=i
ii
n
1=i
ii ∑∑
 
 Si de un conjunto de valores se obtienen dos o más subconjuntos, la media aritmética de todo 
el conjunto se relaciona con todas las medias aritméticas de los diferentes subconjuntos como 
la suma de las medias aritméticas de estos. Sean yx z , . . . ,yx z ,yx z nnn222111  , 
la media del conjunto queda definida: 
n
y
 = Y 
n
x
 = X 
n
z
 = Z
n
1=i
i
n
1=i
i
n
1=i
i ∑∑∑
 
( )
Y+X=
n
y
+
n
x
=
n
y+x
=
n
y+x
=
n
z
 =Z
n
1=i
i
n
1=i
i
n
1=i
i
n
1=i
i
n
1=i
ii
n
1=i
i ∑∑∑∑∑∑
 
EJERCICIO 1.10. Determinar la media de la resistencia a la tensión de 80 muestras de una aleación de 
aluminio y litio del EJERCICIO 1.8. 
 La media aritmética se determina a partir de la marca de clase, punto medio del intervalo y es 
el valor que adopta la variable para cada uno de los datos que caen dentro de cada intervalo. 
La media aritmética de la resistencia a la tensión de las 80 muestras de una aleación de 
aluminio y litio queda definida: 
psi 162,39 
80
60,991.12
 
n
x .f
 X
i
n
1i
i
 
∑
 
1.7.2. MEDIANA 
 La mediana es otra medida de tendencia central, se simboliza Me y se define como el valor de 
la variable que ocupa la posición central de un conjunto de observaciones cuando las mismas están 
ordenadas por sus valores creciente, dividiendo al conjunto en dos partes iguales. 
 Esta medida de tendencia central presenta ciertas propiedades de interés, las cuales pueden 
expresarse como: 
 La mediana está comprendida entre el valor máximo y el valor mínimo del conjunto de datos. 
 La mediana puede no coincidir con ninguno de los valores de los datos. 
 La mediana no contempla todos los valores de los datos sino tan solo el valor considerado 
como mediana. 
- CÁTEDRA DE ESTADÍSTICA - 
 24 
 La mediana es invariante si se disminuye el valor de una observación inferior a ella o si se 
aumenta un valor superior. 
 La mediana conserva los cambios de origen y de escala permitiendo que se exprese en las 
mismas unidades que los datos. 
 Es un estadístico resistente ya que con pequeñas fluctuaciones de la muestra no cambia su 
valor. 
 La mediana queda definida en distribuciones en las que los datos son ordinales. 
 Para datos sin agrupar, en una cantidad impar de estos, la mediana queda definida por la 
observación que ocupa la posición central, (n+1)/2, mientras que si la cantidad de datos es par, la 
mediana se calcula a partir de la media aritmética de los dos valores centrales, n/2 y (n+2)/2. 
EJERCICIO 1.11. Determinar el valor de la mediana para un conjunto de 11 observaciones que 
representan los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar a su 
trabajo. 
7 - 8 - 9 - 10 - 10 - 10 - 15 - 15 - 17 - 20 - 24 
(n + 1)/2 = 12/2 = 6º posición 
Me = 10 minutos 
 Si la cantidad de observaciones es par, para un conjunto de 12 observaciones que representan 
una nueva muestra de los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar 
a su trabajo, el valor de la mediana es: 
8 - 9 - 10 - 10 - 10 - 11 - 13 - 15 - 18 - 17 - 20 - 25 
n/2 = 12/2 = 6º posición 
(n + 2)/2 = 14/2 = 7º posición 
Me = (11 + 13)/2 = 12 minutos 
 En el caso de datos agrupados sin intervalo, la mediana queda determinada por la posición, en 
porcentaje, que contiene el 50% de los datos y el valor que toma corresponde al valor de la variable 
contenido en ese porcentaje. 
EJERCICIO 1.12. Observando la Tabla 1.6 correspondiente a la distribución de frecuencias de botellas 
fuera de especificación con respecto a su capacidad por lote de 100 unidades, determinar el valor de la 
mediana. 
 La mediana queda definida por la frecuencia Hi% cuyo valor es de 55,00%, por lo tanto decimos 
que la mediana está contenida en esa fila y el valor que toma la variable para ese porcentaje es de 5 
botellas fuera de especificación por lote. 
- CÁTEDRA DE ESTADÍSTICA - 
 25 
 Cuando los datos están agrupados con intervalo, la mediana queda determinada por la 
posición, en porcentaje, que contiene el 50% de los datos y el valor queda definido: 
i
i
1i-
C . 
f
F - 
2
n
+ Li = Me 
 Donde: 
Me = Mediana. 
Li = Límite inferior del intervalo que contiene a la mediana. 
n = Total de datos. 
Fi-1 = Frecuencia acumulada del intervalo anterior al que contiene a la mediana. 
fi = Frecuencia absoluta del intervalo que contiene a la mediana. 
Ci = Amlitud del intervalo que contiene a la mediana. 
EJERCICIO 1.13. Considerando el EJERCICIO 1.8 de la resistencia a la tensión de rotura de de las probetas 
de aleación de aluminio y litio, calcular la mediana. 
 La Tabla 1.8 nos permite identificar que en el cuarto intervalo está contenido al valor de la 
mediana, el cual queda definido: 
psi 162,88 = 25 . 
27
28 - 
2
80
+ 151,77 = C . 
f
F - 
2
n
+ Li = Me i
i
1i-
 
1.7.3. MODA 
 La moda se simboliza Mo y se define como el valor de la variable de mayor frecuencia. La 
moda puede no existir e incluso no ser única. 
 Su determinación es muy sencilla, ya que en los casos de datos sin agrupar y agrupados sin 
intervalos, el valor que toma el modo es el valor de mayor frecuencia. 
 Las principales características de esta medida de tendencia central son: 
 Se cálculo sencillo. 
 Su interpretación muy clara. 
 Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por esto el 
parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos. 
Así por ejemplo, cuando se enumeran en medios periodísticos las características más 
frecuentes de determinado sector social. 
https://es.wikipedia.org/w/index.php?title=Variable_cualitativa&action=edit&redlink=1
- CÁTEDRA DE ESTADÍSTICA - 
 26 
 Cuando los datos están agrupados en intervalo, en donde todos estos presentan la misma 
amplitud, la moda está contenida en el intervalo que presenta una mayor frecuencia absoluta y el valor 
queda definido: 
i
1i-1+i
1+i C .
f + f
f
 + Li = Mo 
 Donde: 
Mo = Moda. 
Li = Límite inferior del intervalo que contiene a la moda. 
fi-1 = Frecuencia absoluta del intervalo anterior al que contiene a la moda. 
fi+1 = Frecuencia absoluta del intervalo posterioral que contiene a la moda. 
Ci = Amplitud del intervalo que contiene a la moda. 
EJERCICIO 1.14. A partir de la Tabla 1.8 correspondiente a la distribución de frecuencias de la tensión de 
rotura de las 80 probetas de aluminio litio, determinar el valor modal. 
 Observando la tabla, podemos identificar que en el cuarto intervalo está contenido al valor 
modal, el cual queda definido: 
psi 164,27 = 25 .
17 + 17
17
+ 151,77 = c .
f + f
f
+ Li = Mo i
1-i1+i
1+i 
 Cuando los intervalos presentan amplitudes diferentes debemos trabajar con densidades de 
frecuencia, definida como el cociente entre la frecuencia absoluta y la amplitud del intervalo, f i/Ci. De 
esta forma, la mayor densidad de frecuencia determina el intervalo modal y el valor queda definido: 
i
1i-1+i
1+i C .
d + d
d
 + Li = Mo 
Donde: 
Mo = Moda. 
Li = Límite inferior del intervalo que contiene a la moda. 
di-1 = Densidad de frecuencia del intervalo anterior al que contiene a la moda. 
di+1 = Densidad de frecuencia del intervalo posterior al que contiene a la moda. 
Ci = Amplitud del intervalo que contiene a la moda. 
EJERCICIO 1.15. Se analiza una muestra por lote correspondiente a un total de 450 lotes para 
determinar las concentraciones de impurezas, resumiendo los datos en una tabla de distribución de 
frecuencia. Determinar el valor de la moda. 
- CÁTEDRA DE ESTADÍSTICA - 
 27 
Tabla 1.11. Tabla de distribución de frecuencias 
para la concentración de impurezas. 
Intervalos fi Ci di 
0 - 25 26 20 1,30 
25 - 50 155 25 6,20 
50 - 100 187 50 3,74 
100 - 150 58 50 1,16 
150 - 200 24 50 0,48 
Total 400 - - 
Fuente: Elaboración propia. 
 Observando la tabla, podemos identificar que en el segundo intervalo está contenido al valor 
modal, el cual queda definido: 
43,55 = 25 .
1,30 + 3,74
3,74
+ 25 = C .
d + d
d
 + Li = Mo i
1i-1+i
1+i 
1.7.4. VENTAJAS E INCONVENIENTES DE LAS MEDIDAS DE TENDENCIA CENTRAL 
 Las medidas de tendencia central son índices que permiten resumir un conjunto de datos en 
una sola expresión, de modo que se pueda apreciar mejor el significado de los datos y como cualquier 
estadística, cobran sentido cuando se emplean para hacer comparaciones u otras operaciones. 
 Cuando se tiene datos de escalas de intervalo o de proporción, en general se utiliza la media 
porque es una medida que atiende en forma exhaustiva toda la información disponible, los valores, las 
distancias y proporcionalidad entre ellos y la frecuencia de cada uno. El modo solo atiende a las 
frecuencias y la mediana solo utiliza el orden expresado por los valores numéricos y no atiende el valor 
de las observaciones extremas. 
 La media tiene importantes propiedades matemáticas, no así la mediana y el modo. El modo en 
escala por intervalo, se utiliza para una primera estimación rápida de la tendencia central puesto que se 
determina fácilmente, sin necesidad de cálculo alguno, con solo observar la tabla de distribución de 
frecuencia e interviene en él cálculo de algunas medidas de asimetría. La mediana en escala por 
intervalo es recomendada cuando en un conjunto de datos existen pocos datos extremos que son 
incomparables con el resto de los datos ya que no se ve afectada por los valores extremos, mientras que 
la media es muy sensible a estos valores y por lo tanto en estos casos la mediana es el valor que mejor 
representa el conjunto de datos. 
 Cuando se tiene una distribución de frecuencias con intervalos abiertos, no puede calcularse la 
media y en estos casos se elige como mejor medida la mediana ya que en su cálculo solo participa el 
intervalo mediano. Cuando la forma de la distribución de frecuencia es asimétrica ya sea a izquierda o 
derecha, la mejor medida de tendencia central es la mediana ya que se encuentra entre las otras dos, 
- CÁTEDRA DE ESTADÍSTICA - 
 28 
media y modo. Si es simétrica, como las tres medidas son iguales, se puede elegir cualquiera y en esos 
casos se prefiere la media, dependiendo esto del tipo de investigación que se haya planificado. 
EJERCICIO 1.16. La tabla que aparece a continuación recoge los tiempos que 30 usuarios de internet 
pasaron realizando búsquedas en línea. Comparar las medidas de tendencia central. 
Tabla 1.12. Tiempos de búsqueda en internet. 
3 6 9 4 6 
10 4 6 10 5 
7 10 5 7 10 
5 7 10 5 7 
10 5 7 12 5 
8 55 6 8 60 
Fuente: Spiegel Murray; Stephens Larry. (2001, p. 72). 
Tabla 1.13. Medidas resumen. 
Variable n Media Mediana 
Tiempos 30 10,40 7,00 
Nota: La tabla resumen fue construida utilizando 
el software InfoStat. 
 Obsérvese que la distribución presenta dos valores extremos, que son los tiempos de 55 y 60, 
por lo tanto, en este caso consideramos a la mediana la más representativa de los tiempos que la media. 
EJERCICIO 1.17. La siguiente tabla registra la información de la cantidad de turistas que entraron a 
España durante el mes de Enero de los años 1990 y 1992, así como el gasto efectuado en dólares según 
su procedencia. Determinar la media de crecimiento del gasto entre los dos años. 
Tabla 1.15. Gasto en US$ de turistas que entraron a España en Enero de los años 1990 y 
1992. 
País 
Año 1990 Año 1992 
Gasto Turistas fi . xi Gasto Turistas fi . xi 
Francia 300 37.500 11.250.000 350 45.000 15.750.000 
Alemania 500 25.000 12.500.000 750 20.000 15.000.000 
Inglaterra 450 14.000 6.300.000 500 16.000 8.000.000 
Holanda 350 10.000 3.500.000 350 12.500 4.375.000 
Bélgica 400 6.500 2.600.000 400 7.500 3.000.000 
Total - 93.000 36.150.000 - 101.000 46.125.000 
Fuente: F. Martín Javier Pliego. (2003, p. 66). 
 Las medias para los respectivos años son: 
- CÁTEDRA DE ESTADÍSTICA - 
 29 
US$ 388,70 = 
93.000
000.150.36
 = 
n
x .f
 = X
i
n
1=i
i
90
∑
 
US$ 456,68 = 
101.000
000.125.46
 = 
n
x .f
 = X
i
n
1=i
i
92
∑
 
 La tasa de crecimiento anual entre los gastos medios de 1990 y 1992 es: 
2
9092 r) + (1 . X = X 
 Donde r representa la tasa de crecimiento anual. 
8,39% = 0,0839 = 1 - 
70,388
68,456
 = 1 - 
X
X
 = r
90
92
 
 
1.8. MEDIDAS DE VARIABILIDAD 
 En el punto anterior se definió una serie de medidas de tendencia central cuyo objetivo es 
sintetizar o resumir la información disponible y se necesita, para una determinada distribución de 
frecuencias, que tan representativas son estas medidas síntesis de toda la información. 
 Medir la representatividad de esas medidas equivale a cuantificar la separación de los valores 
de la distribución respecto a dichas medidas. Así, si se quiere estudiar en que grado una media 
aritmética marca una tendencia central generalizable del comportamiento de todos los elementos del 
conjunto estudiado, población o muestra, se tendrá que analizar la separación o desviación de cada 
valor respecto a la media. 
Así, a la mayor o menor separación de los valores respecto a otro, que se pretende sea su medida de 
síntesis o resumen, se llama dispersión o variabilidad. 
 Para entender el concepto de representatividad de las medidas de tendencia central 
supongamos, por ejemplo, que las especificaciones para una característica de calidad son que esta debe 
tener dimensiones de 800 ± 5. Para ver si se cumple con las especificaciones se toma una muestra 
aleatoria grande y se obtiene una media de 801, el modo de 800 y la mediana de 801. Al estar estos 
valores dentro de las especificaciones se podría creer que el proceso esta cumpliendo con las 
especificaciones. Sin embargo esto no necesariamente es cierto ya que en la muestra se podría haber 
dado datos desde 750 hasta 850 y la media de todos ellos ser 801. Pero también podría ocurrir que el 
rango de variación de los datos vaya de 797 a 803, con lo que sí se cumpliría con las especificaciones. En 
otras palabras, las medidas de tendencia central no son suficientes como criterio de calidad ya que no 
toman en cuenta que tan dispersos están los datos. 
- CÁTEDRA DE ESTADÍSTICA - 
 30 
 Un valor pequeño para una medida devariabilidad indica que los datos se encuentran 
acumulados cercanamente alrededor de la media, considerándose representativa de los datos. Por el 
contrario, una medida de variabilidad grande indica que la media no es confiable, es decir, que no es 
representativa de los datos. 
1.8.1. RANGO O RECORRIDO 
 El rango se simboliza Rx y se define como la diferencia entre el máximo valor de la variable y el 
mínimo que toma esta, y se expresa: 
 Xmín - Xmáx = Rx 
 El rango es una medida fácil de interpretar pero, dado que su cálculo se basa solo en dos 
observaciones, la mayor y la menor, puede sufrir una distorsión importante si el conjunto de datos 
presenta algunos valores extremos atípicos. También, el rango es adecuado para un conjunto pequeño 
de observaciones pero cuando este es grande pierde importancia como medida de variabilidad. Un uso 
importante del rango se encuentra en el control estadístico de calidad. 
EJERCICIO 1.18. A partir de los tiempos que 30 usuarios de internet pasaron realizando búsquedas en 
línea, correspondientes al EJERCICIO 1.16. Determinar el rango. 
 57 = 3 - 60 = Xmín - Xmáx = Rx 
1.8.2. RANGO O RECORRIDO INTERCUARTÍLICO 
 El rango intercuartílico se simboliza RIC y se define como la diferencia entre el cuartil de orden 
3 y el de orden 1, y se expresa: 
 Q - Q = RIC 13 
 El rango intercuartílico refleja la variabilidad de las observaciones entre los cuartiles de orden 1 
y 3 en el conjunto de los datos de tal forma que esta medida no es afectada por la presencia de valores 
extremos atípicos. 
 Esta medida de variabilidad tiene su principal aplicación cuando se utiliza la mediana como 
medida de centralización. 
EJERCICIO 1.19. Determinar el rango intercuartílico de la cantidad de botellas fuera de especificación 
con respecto a su capacidad, 1 litro, en 80 lotes de 100 unidades cada uno. 
 Observando la Tabla 1.6 correspondiente a la distribución de frecuencias de botellas fuera de 
especificación con respecto a su capacidad por lote de 100 unidades, el primer cuartil está contenido en 
la tercera fila y corresponde al valor 4 unidades fuera de especificación por lote mientras que el tercer 
cuartil está contenido en la quinta fila y toma el valor de 6 botellas fuera de especificación por lote. El 
rango intercuartílico queda definido: 
lote por espc. de fuera botellas 2 = 4 - 6 = Q - Q = RIC 13 
 
 
- CÁTEDRA DE ESTADÍSTICA - 
 31 
1.8.3. DESVIACIÓN MEDIA 
 La desviación media se simboliza DM y se define como el promedio de los valores absolutos de 
las diferencias entre cada observación del conjunto de datos con su respectiva media, y se expresa: 
n
x - x .f 
 = DM 
n
x - x 
 = DM
i
n
1=i
i
n
1=i
i ∑∑
 
 La desviación media es una medida interesante de la variabilidad en un contexto de evidencia 
empírica, donde en muchas ocasiones el interés es sobre las desviaciones y no en los signos. a diferencia 
del rango, emplea para su cálculo la totalidad de las observaciones y es de fácil interpretación, ya que se 
conceptualiza como el promedio de las desviaciones respecto de la media y además es menos sensible a 
los valores extremos del conjunto de datos que otras medidas de variabilidad, como la varianza o el 
desvío típico. 
 A pesar de sus ventajas, esta medida de variabilidad se emplea con poca frecuencia debido a las 
complicaciones que pueden surgir al realizar inferencia sobre una población. 
EJERCICIO 1.20. Un inspector de calidad mide a intervalos de tiempo regulares el pH de una solución 
utilizando el mismo instrumento. A partir de las mediciones obtenidas, determinar la desviación media. 
7,15 - 7,20 - 7,18 - 7,19 - 7,21 - 7,20 - 7,16 - 7,18 
 La media aritmética es: 
7,18 = 
8
47,57
 = 
n
x
 = X
n
1=i
i∑
 
 La desviación media queda definida: 
 0,016 = 
8
13,0
 = 
n
x - x 
 = DM
n
1=i
i∑
 
 Podemos concluir que en términos absolutos tenemos un desvío medio en los valores medidos 
del pH de 0,016. 
1.8.4. DESVIACIÓN MEDIANA 
 La desviación mediana se simboliza DMe y se define como el promedio de los valores absolutos 
de las diferencias entre cada observación del conjunto de datos con el valor mediano de este, y se 
expresa: 
n
eM - x 
 = DMe
n
1=i
i∑
 
- CÁTEDRA DE ESTADÍSTICA - 
 32 
Cuando se emplea la mediana como medida de centralización con el propósito de mitigar las 
distorsiones que pueden provocar los valores extremos, conviene utilizar la desviación mediana como 
medida de variabilidad. 
EJERCICIO 1.21. Determinar la desviación mediana para el conjunto de 11 observaciones del EJERCICIO 
1.11 que representan los tiempos en minutos que una persona tiene que esperar el ómnibus para llegar 
a su trabajo. 
7 - 8 - 9 - 10 - 10 - 10 - 15 - 15 - 17 - 20 - 24 
 La mediana ya fue calculada y corresponde a un valor de 10 minutos, por lo que resta 
determinar el valor de la desviación mediana, el cual queda definido: 
minutos 4,27 = 
11
47
 = 
n
eM - x 
 = DMe
n
1=i
i∑
 
 Así, el valor de la desviación mediana para las 11 observaciones es de 4,27 minutos. 
1.8.5. VARIANZA Y DESVIACIÓN TÍPICA 
 De todas las medidas de variabilidad, la varianza y su raíz cuadrada, desviación típica, son las 
más importantes. Si se promedia las diferencias entre cada valor de las observaciones del conjunto de 
datos y el correspondiente valor de la media de este, por la propiedad de la media aritmética ese valor 
es cero, pero elevando cada diferencia al cuadrado se eliminan las diferencias negativas. Así, dado un 
conjunto de observaciones numéricas, la varianza, en esencia, se define como el promedio del cuadrado 
de las diferencias entre el valor de cada observación del conjunto de datos y el correspondiente valor 
de la media de este. 
 Sean x1, x2,…, xN datos correspondientes a una población, la varianza poblacional se simboliza 
2σ y queda definida: 
( ) ( ) ( )
N
μ . N - x .f 
 = σ 
N
μ . N - x 
 = σ 
N
μ - x 
 =σ
N
1=i
22
ii
2
N
1=i
22
i
2
N
1=i
2
i
2
∑∑∑
 
Sean x1, x2,…, xn datos correspondientes a una muestra, la varianza muestral se simboliza s2 y 
queda definida: 
     
1 - n
X . n - x .f 
 S 
1 - n
X . n - x 
 S 
1 - n
X - x 
 S
n
1i
22
ii
2
n
1i
22
i
2
n
1i
2
i
2
∑∑∑
  
 La varianza muestral se basa en el cuadrado de las diferencias de los valores 
muestrales con respecto a su media pero no se considera el promedio de estas diferencias. En lugar de 
esto, el denominador queda definido como el tamaño muestral menos uno. La razón por la que la 
varianza muestral se divide por (n - 1) es por que en la ecuación se utilizó como medida de tendencia 
- CÁTEDRA DE ESTADÍSTICA - 
 33 
central la media muestral en ves de la poblacional. Por lo tanto, se puede decir que para compensar el 
uso de la media muestral como aproximación a la media poblacional, en el cálculo de la varianza 
muestral se usa (n - 1) en vez de n. Se dedicará más atención a este tema en la UNIDAD 5. 
 Esta medida de variabilidad presenta ciertas propiedades de interés, las cuales pueden 
expresarse como: 
 La varianza nunca puede ser negativa ya que es una suma de cuadrados. 
 Si a todos los valores de una variable se les suma una constante k, la varianza no varía. Es 
decir, la varianza no se ve afectada por un cambio de origen. Sea la distribución (xi; fi), la 
media y la varianza son: 
( )
1 - n
X - x 
 =S 
n
x
 = X
N
1=i
2
i
2
n
1=i
i ∑∑
 
Sumando la constante k a cada valor de la varia, tenemos una nueva distribución (xi + k; fi) 
cuya media y varianza quedan definidas: 
 k + x =´x k + x = ́x ii 
( ) ( ) ( )
1 - n
x - x 
=
1 - n
k) - X( - k) + x( 
 = 
1 - n
´X - ́x 
 =´S
N
1=i
2
i
N
1=i
2
i
N
1=i
2
i
2
∑∑∑
 
 Si a todos los valores de una variable se multiplican por una constante k, la varianza queda 
multiplicada por el cuadrado de la constante k. Es decir, la varianzaqueda afectada por los 
cambios de escala. Sea la distribución (xi; fi), la media y la varianza son: 
( )
1 - n
X - x 
 =s 
n
x
 = X
n
1=i
2
i
2
n
1=i
i ∑∑
 
Multiplicando la constante k a cada valor de la varia, tenemos una nueva distribución (xi . k; fi) 
cuya media y varianza quedan definidas: 
 k . x =´x k . X = ́X ii 
( ) ( ) ( ) ( )
 S . k=
1 - n
X - x k
=
1 - n
X - xk 
=
1 - n
k . X - k . x 
 = 
1 - n
´X - ́x 
 =´S 22
N
1=i
2
i
2
N
1=i
2
i
2
N
1=i
2
i
N
1=i
2
i
2
∑∑∑∑
 
 La varianza puede utilizarse para comparar la variabilidad de dos o más distribuciones y para el 
cálculo de la misma implica que deben elevarse al cuadrado las discrepancias con la media, resultando 
difícil su interpretación. Así, para expresar la variabilidad en las unidades de medida originales, se utiliza 
- CÁTEDRA DE ESTADÍSTICA - 
 34 
la raíz cuadrada de la varianza obteniendo la desviación típica, la cual se define como la raíz cuadrada 
de la varianza. 
 Sean x1, x2,…, xN datos correspondientes a una población, la desviación típica poblacional se 
simboliza σ y queda definida: 
2σ =σ 
Sean x1, x2,…, xn datos correspondientes a una muestra, la desviación típica muestral se 
simboliza s y queda definida: 
2S =S 
 Esta medida de variabilidad presenta ciertas propiedades de interés, que se deducen a partir de 
las de la varianza, las cuales pueden expresarse como: 
 La desviación típica nunca puede ser negativa ya que es la raíz cuadrada de la varianza. 
 No se ve afectada por un cambio de origen. 
 Queda afectada por los cambios de escala, donde S . k =´S . 
EJERCICIO 1.22. La Tabla 1.16 muestra los CI de 480 alumnos de una escuela primaria. Determinar la 
media, varianza y desviación típica. 
Tabla 1.16. Marca de clase y sus respectivas frecuencias absolutas. CI de alumnos de escuela 
primaria. 
MC 70 74 72 82 86 90 94 98 102 106 110 114 118 122 126 
fi 4 9 16 28 45 66 85 72 54 38 27 18 11 5 2 
Fuente: Spiegel Murray; Stephens Larry. (2001, p. 102). 
 El coeficiente intelectual se define : 
acronológic edad
mental edad
 =CI 
 Así, en un niño de 8 años que, de acuerdo con ciertos procedimientos educativos, tiene una 
edad mental equivalente a un niño de 10 años, su CI es de 10/8 = 1,25 = 125% o sencillamente 125, 
quedando sobreentendido que se habla de porcentaje. 
 La media aritmética es: 
95,77 = 
480
968.45
 = 
n
x .f
 = X
i
n
1=i
i∑
 
 La varianza y la desviación típica quedan definidas: 
- CÁTEDRA DE ESTADÍSTICA - 
 35 
( )
117,55 = 
1 - 480
594.402.508, - 816.458.4
 = 
1 - n
X . n - x .f 
 = S
N
1=i
22
ii
2
∑
 
10,84 117,55 S =S 2  
 Por lo tanto, la muestra de 480 alumnos presenta un valor medio de coeficiente intelectual de 
95,77% con una desviación típica de 10,84%. 
1.8.6. TEOREMA DE CHEBYCHEV Y REGLA EMPÍRICA 
 Tanto la varianza como la desviación típica pueden utilizarse para comparar distribuciones, 
pero también puede utilizarse para estimar el porcentaje de valores que se encuentra a una distancia 
específica de la media. Así, el teorema de Chebychev establece que la probabilidad de que una variable 
discreta o continua se encuentran a una distancia específica de k desviaciones típicas de la media es 
menor o igual a 1 - 1/k2 para cualquier valor de k mayor o igual a 1. 
 Este teorema proporciona un intervalo aproximado para el valor estimado y a pesar de tener 
cierto grado de imprecisión, es bastante útil dado que se puede aplicar a un amplio abanico de variables 
independientemente de sus distribuciones. 
EJERCICIO 1.23. A partir de las 480 observaciones de alumnos de escuela primaria, correspondiente al 
EJERCICIO 1.22, aplicando el teorema de Chebychev determinar un intervalo para el CI con un k = 2. 
 Para un valor de k = 2, la probabilidad de que la media del CI se encuentre a 2 desviaciones 
típicas se de 1 - 1/22 = 0,75. 
 Los límites quedan definidos: 
74,09 = 10,84 . 2 - 5,779 = S . 2 - X = infL 
117,45 = 10,84 . 2 + 5,779 = S . 2 + X = supL 
 Por lo tanto, podemos decir que la probabilidad de que el coeficiente intelectual se encuentre 
entre 74,09 y 117,45 es del 75%. 
 También es posible establecer estimaciones fiables para distribuciones grandes y 
moderadamente asimétricas a partir de la regla empírica la cual establece que aproximadamente, el 
68% de los datos se encuentran entre la media más menos un desvío típico, el 95% de los datos se 
encuentran entre la media más menos dos desvío típico y el 99% de los datos se encuentran entre la 
media más menos 3 desvío típico. 
EJERCICIO 1.24. Una empresa de fabricación de neumáticos realizó un seguimiento a una gran cantidad 
de sus clientes en la que se estudió la vida útil de los mismos. Se pudo determinar que los neumáticos 
poseen una vida útil media de 31.000 km con una desviación típica de 2.950 km. Usando la regla 
empírica determinar un intervalo para la vida útil media del 68%, 95% y 99%. 
- CÁTEDRA DE ESTADÍSTICA - 
 36 
 Los límites para un intervalo del 68% quedan definidos: 
km 28.050 = 2.950 - 31.000 = S - X = infL 
km 33.950 = 2.950 + 1.0003 = S + X = supL 
 Por lo tanto, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 
28.050 km y 33.950 km es del 68%. 
 Los límites para un intervalo del 95% quedan definidos: 
km 25.100 = 2.950 . 2 - 31.000 = S . 2 - X = infL 
km 36.900 = 2.950 . 2 + .00031 = S . 2 + X = supL 
 Así, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 25.100 km y 
36.900 km es del 95%. 
 Los límites para un intervalo del 99% quedan definidos: 
km 22.150 = 2.950 . 3 - 31.000 = S . 3 - X = infL 
km 39.850 = 2.950 . 3 + .00031 = S . 3 + X = supL 
 Así, la probabilidad de que la vida útil media de los neumáticos se encuentre entre 22.150 km y 
39.850 km es del 99%. 
1.8.7. COEFICIENTE DE VARIACIÓN 
 Cuando se desea comparar las medias aritméticas de dos o mas distribuciones en las que estas 
no sean iguales o estén expresadas en diferentes unidades de medida, se emplea el coeficiente 
propuesto por Pearson, el cual se define como el cociente entre la desviación típica y la media 
aritmética. Se simboliza CV y queda definido: 
 
X
S
 = CV 
 A diferencia de las medidas de anteriores anteriores, el coeficiente de variación es una 
indicación relativa de la variabilidad y carece de unidades, A partir de esta expresión, el coeficiente de 
variación nos indica la cantidad de veces que la desviación típica contiene a la media, por lo tanto 
cuanto mayor sea el CV, menor será la representatividad de la media. 
 También puede expresa como porcentaje, empleándose:: 
100% . 
X
S
 = CV 
 Es importante destacar que el CV, por un lado, presenta problemas ya que a diferencia de 
la desviación típica este coeficiente es variable ante cambios de origen, por ello es importante que 
https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica
- CÁTEDRA DE ESTADÍSTICA - 
 37 
todos los valores sean positivos y su media dé, por tanto, un valor positivo. Por otro lado, este 
coeficiente depende de la desviación típica y en mayor medida de la media aritmética, dado que cuando 
ésta es 0 o muy próxima a este valor el CV pierde significado, ya que puede dar valores muy grandes, 
que no necesariamente implican una gran variabilidad de datos. 
EJERCICIO 1.25. A partir del EJERCICIO 1.9. determinar cual de los dos lotes de aceite la distribución es 
más homogénea o la media más representativa. 
Tabla 1.17. Medidas descriptivas para la viscosidad cinemática de los 
dos lotes de aceite. 
Variable n Media D.E. CV Mín Máx Mediana 
Lote 1 40 14,93 0,96 6,42 12,62 17,25 14,97 
Lote 2 40 15,00 1,03 6,84 12,84 16,98 14,92 
Nota: La tabla de medidas descriptivas fue construida utilizando el software InfoStat, 
para cada uno de los lotes. 
 Observando la Tabla 1.17 concluimos que el lote 1 presenta una distribución de

Continuar navegando