Logo Studenta

ESTADISTICA DESCRIPTIVA

¡Este material tiene más páginas!

Vista previa del material en texto

1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
APUNTES DE CLASE – 18 de Marzo de 2016- Versión preliminar 
Facultad de Ingeniería – Universidad Nacional de Jujuy 
ESTADISTICA - Introducción 
La ESTADÍSTICA actual es el resultado de la unión de dos disciplinas que evolucionaron independientemente hasta 
confluir en el siglo XIX: la primera es el cálculo de las probabilidades, que nace en el siglo XVII como teoría 
matemática de los juegos de azar; la segunda es la Estadística (o ciencia del estado, del latín Status) que estudia la 
descripción de datos, y tiene raíces más antiguas. La integración de ambas líneas de pensamiento da lugar a una 
ciencia que estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos 
matemáticos. 
La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales. Un modelo 
matemático es una abstracción simplificada de una realidad más compleja y siempre existirá cierta discrepancia 
entre lo observado y lo previsto por el modelo. La Estadística proporciona una metodología para evaluar y juzgar 
estas discrepancias entre la realidad y la teoría. Por lo tanto su estudio es básico para todos aquellos que deseen 
trabajar en ciencia aplicada (sea ésta Tecnología, Economía o Sociología) que requiera el análisis de datos y el 
diseño de experimentos. La Estadística es la "tecnología" del método científico experimental (Mood 1972). 
Además de su papel instrumental, el estudio de la Estadística es importante para entender las posibilidades y 
limitaciones de la investigación experimental, para diferenciar las conclusiones que pueden obtenerse de los datos 
de las que carecen de base empírica y, en definitiva, para desarrollar un pensamiento crítico y antidogmático ante la 
realidad. 
Muchos ciudadanos ven a la Estadística con una gran desconfianza: para unos es la ciencia en la que las 
diferencias individuales quedan ocultas a través de las medias (que se traduce en el dicho popular: “La estadística 
es la ciencia que explica como si tú te comes dos pollos y yo ninguno, nos hemos comido uno cada uno por término 
medio" y en la famosa frase de Bernard Show: " si un hombre tiene la cabeza en un horno y los pies en una nevera, 
su cuerpo está a una temperatura media ideal"); para otros es la ciencia mediante la cual con gráficos, tasa de 
variación y porcentajes, se manipula la opinión desde la publicidad, la tecnología o la economía. Vivimos en la era 
de la Estadística y cada aspecto de la actividad humana es medido e interpretado en términos estadísticos. 
El único antídoto para esta posible manipulación y para participar efectivamente en la argumentación pública 
basada en cifras y datos, consustancial a la vida democrática, es un conocimiento básico de los métodos 
estadísticos. En este sentido, una formación en los conceptos estadísticos básicos es necesaria para cualquier 
ciudadano. 
UN POCO DE HISTORIA 
Históricamente se puede ubicar el crecimiento y desarrollo de la estadística moderna gracias a dos fenómenos 
separados: las necesidades de los gobiernos de recopilar información sobre sus ciudadanos y el desarrollo de las 
matemáticas en la teoría de la probabilidad. 
A lo largo de toda la historia registrada se han recopilado datos. En las civilizaciones egipcia, griega y romana, se 
obtenía información primordialmente con el propósito de cobrar impuestos y reclutar soldados. En la Edad Media, 
era frecuente que las instituciones eclesiásticas llevaran registros acerca ce nacimientos, muertes y 
matrimonios. En Estados Unidos se mantenían diversos registros durante los tiempos coloniales y a principios de 
1790, la Constitución Federal de ese país implantó el levantamiento de un censo cada 10 años. En la actualidad 
esos datos se utilizan con diversos propósitos, incluyendo la distribución de curules en el Congreso y al asignación 
de fondos federales. En Argentina se realizan los censos cada 10 años, el último se realizó en el año 2001. 
¿QUE ES LA ESTADÍSTICA MODERNA? 
El contenido de la Estadística Moderna incluye la recopilación, presentación y caracterización de la 
información a fin de que auxilie tanto en el análisis de los datos como en el proceso de toma de decisiones. 
La rama de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos es la 
estadística descriptiva. 
CARACTERÍSTICAS DE LOS DATOS 
La estadística es la ciencia del razonamiento a partir de datos, luego una forma natural de iniciar nuestro 
estudio es examinando que se entiende por el término “dato”. 
Una unidad de observación es aquella sobre la cual se efectúan mediciones o se intenta clasificar en categorías. 
Ejemplos: personas, familias, viviendas, plantas, animales, tornillos, etc. 
En el proceso de observación se registra, para cada unidad de observación alguna característica y esta observación 
constituye un DATO. 
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
Nota: Los experimentadores llaman ”unidades experimentales” a los objetos medidos, los estadísticos unidades de 
observación. Usaremos ambos términos en igual sentido. 
Ejemplo: Supongamos que nos interesa realizar un estudio sobre los ingresos ($) familiares en la provincia de 
Jujuy, es decir el objetivo de nuestro estudio es obtener información sobre el ingreso total anual de todas las 
familias de la provincia de Jujuy. (El último censo del 2010 registró 174.763 unidades familiares para la provincia 
de Jujuy). En este caso cada familia es una unidad de observación y el ingreso total de una familia constituye un 
dato. 
Una población consiste en la totalidad de observaciones (datos) en las cuales se está interesado. 
En nuestro ejemplo la población estará formada por los ingresos de la totalidad de familias de nuestra provincia. 
Nuestra población será finita y estará formada hoy por 174.763 datos. 
En general el fenómeno de interés se caracteriza por un conjunto de datos cuya obtención es o bien físicamente 
imposible o requeriría un gasto importante en tiempo y/o en dinero. Es decir 
 1) El estudio puede implicar la destrucción del elemento, como es el caso de ensayos destructivos: por 
ejemplo, estudiar la vida media de una partida de focos, o la tensión de rotura de cables. 
 2) Los elementos pueden existir conceptualmente (en nuestra mente), pero no en la realidad. Por ejemplo 
la población de piezas defectuosas que producirá una máquina. 
 3) Puede ser inviable económicamente estudiar todos los elementos. 
En estas ocasiones seleccionaremos para análisis una porción de la población a la que llamaremos muestra. 
En ocasiones se utilizan las palabras población y muestra” para representar los objetos o personas (unidades de 
observación) que se someten a medición. Luego, es importante distinguir entre los objetos medidos y las 
mediciones. 
Reiterando, las palabras población y muestra tienen dos significados, se pueden referir al conjunto de objetos 
(unidades de observación) sobre el cual se hacen las mediciones o se puede referir a las mediciones. En una 
situación específica el significado que se dé a estos términos será obvio por el contexto en que se empleen. 
Por ejemplo podemos leer en los periódicos que tal encuesta está basada en una muestra de 1823 personas. En 
este caso, es claro que las unidades experimentales que forman parte de la muestra son personas. Probablemente 
cada persona se entreviste con respecto a un tema particular y la respuesta de esta persona representa un dato. La 
colección de datos correspondientes a las personas representa una muestra de datos. 
La mayor parte del tiempo al hablar de población nos referiremos a las mediciones hechas sobre las 
unidades experimentales. Si ocasionalmente usamos el término para referirnos a una colección de 
unidades de observación, el contexto de la discusión aclarará el significado. 
Una tarea importante para el investigador es definir cuidadosay completamente la población antes de 
recolectar la muestra. La definición debe contener una especificación de las mediciones que se van a 
considerar y debe acompañarse con una descripción de las unidades de observación que serán incluidas, 
ya que estas dos componentes están interrelacionadas. 
Un parámetro es una medida que se calcula para describir una característica de una población completa. 
Un estadístico es una medida que se calcula para describir una característica de la muestra, a partir de solo de la 
muestra. 
Aunque los métodos de estadística descriptiva son importantes para presentar y caracterizar la información, lo que 
ha conducido a la amplia aplicación de la estadística en todos los campos de la investigación moderna ha sido el 
desarrollo de los métodos de inferencia estadística como resultado de la teoría de la probabilidad. 
 
INFERENCIA ESTADÍSTICA 
El ímpetu inicial para el planteamiento de las matemáticas de la teoría de la probabilidad provino de la investigación 
de los juegos de azar durante el Renacimiento. Se pueden localizar los fundamentos de la probabilidad hacia la 
mitad del siglo XVII, en la correspondencia intercambiada entre el matemático Pascal y el jugador Chevalier de 
Mere. Estos desarrollos y otros elaborados por matemáticos como Bernoulli, De Moivre y Gauss fueron los 
precursores de la materia de la inferencia estadística. Sin embargo no ha sido hasta principios del siglo XX que 
estadísticos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey iniciaron el desarrollo de los métodos de 
inferencia estadística, los cuales tienen una muy amplia aplicación en diversidad de campos en la actualidad. 
Se puede definir la INFERENCIA ESTADÍSTICA como los métodos que hacen posible la estimación de una 
característica de una población, o la toma de una decisión con respecto a una población, con base 
únicamente en resultados muestrales. 
 
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
La necesidad de los métodos de Inferencia Estadística proviene de la necesidad del muestreo. Al volverse muy 
grande una población, por lo general resulta demasiado costoso, lento y complicado obtener información de la 
población completa. Las decisiones con respecto a las características de la población se deben basar en la 
información contenida en una muestra de esa población. La teoría de la probabilidad proporciona el vínculo, 
determinando la probabilidad de que los resultados provenientes de la muestra reflejen los resultados que se 
obtendrían de la población. 
Se pueden observar con claridad estas ideas en el ejemplo de una encuesta política. Si el encuestador desea 
estimar el porcentaje de votos que un candidato obtendrá en una elección específica, no entrevistaría a cada uno 
de los millares (o inclusive millones) de votantes. Más bien, seleccionaría una muestra de los votantes. Con base en 
la muestra, obtendría conclusiones acerca de la población total de votantes. A estas conclusiones se les asociaría 
un planteamiento de probabilidad que especifique la esperanza o la confianza que se tiene de que los resultados de 
la muestra reflejen la verdadera conducta de los votantes de toda la población. 
 
 
 
 
 
4CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
DESCRIPCION DE DATOS 
Descripción estadística de una variable 
Tipos de datos 
El máximo principio fundamental en estadística es el de la “variabilidad”. En efecto, si el mundo fuera 
perfectamente predecible y no mostrara variabilidad, no habría razón de estudiar estadística. Por ello nosotros 
también descubriremos la noción de variables y consideraremos diferentes clasificaciones de las variables. 
También exploraremos la noción de distribución de un conjunto de datos de una variable particular. 
Una variable es cualquier característica que varíe de una unidad experimental a otra en el conjunto de 
unidades experimentales (o de observación) de interés. 
Dado un conjunto de datos de una variable X, la estadística descriptiva estudia procedimientos para sintetizar la 
información que contienen. Los tipos de variables que consideraremos son: 
a) Variables cualitativas, categóricas o atributos: no toman valores numéricos y describen cualidades. 
Están definidas por las clases o categoría en que se dividen. (Los datos son atributos, características o 
propiedades categóricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase 
indicando la presencia o ausencia de una característica o propiedad). Por ejemplo clasificar una pieza 
como aceptable o defectuosa, clasificar a las personas según el sexo: femenino o masculino, clasificar 
a las personas por la nacionalidad, categoría de alumno de la UNJu: activo pleno, activo simple o pasi-
vo, etc. A las dos primeras variables se las denomina dicotómicas pues solo tienen dos categorías ex-
cluyentes. 
b) Variables numéricas o cuantitativas: Toman valores numéricos (edad, altura, precio de un producto, 
ingresos anuales, etc.). 
Las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas 
y continuas. 
Una variable es discreta si su conjunto de valores posibles es finito o se puede enumerar en una suce-
sión infinita (una en la que hay un primer número, un segundo número, etc.). Corresponden en general 
a contar el número de veces que ocurre un suceso. Por ejemplo cantidad de envases defectuosos pro-
ducidos por día en una fábrica, cantidad de hijos por familia en una comunidad determinada, cantidad 
de alumnos activos plenos de la Facultad de Ingeniería de la UNJu, etc. 
Una variable es continua si toma valores en intervalo de la recta real, corresponden a medir magnitu-
des continuas (tiempo, longitud, etc.). Por ejemplo el peso (en gramos) de los recién nacidos en el Hos-
pital San Roque en el mes de enero de 2016. 
Las variables numéricas discretas producen datos numéricos que, por lo general, surgen de un proceso de 
conteo; en tanto que las variables numéricas continuas toman valores numéricos que surgen de un proceso de 
medición. 
Escalas de Medición 
En su sentido más amplio, los datos recopilados “se miden” de alguna manera. Por ejemplo hasta los datos 
cuantitativos discretos pueden considerarse como producto de un proceso de “medición mediante conteo” 
Los cuatro niveles de medición ampliamente reconocidos son del más débil al más fuerte: escala nominal, 
escala ordinal, escala de intervalo y escala de razón. 
Los datos que se obtienen para una variable cualitativa se miden en una escala ya sea nominal u ordinal. 
Escala Nominal: Si los datos observados se clasifican en distintas categorías que no implican orden se tiene 
un nivel de medición nominal. Por ejemplo en el caso de la variable sexo, si una persona es hombre, no puede 
ser mujer. No hay cantidad de género, solo la condición de ser hombre o mujer 
Otros ejemplos son ocupación, religión, color de cabello, partido político de una persona. 
No existe orden entre las categorías lo cual no significa que no se puedan identificar. 
Los números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la presencia 
o ausencia del atributo o característica bajo investigación. 
La escala nominal es la forma más débil de medición. 
Escala Ordinal: Si los datos que se observan se clasifican en categorías distintas en las que existe algún 
orden, se obtiene un nivel de medición ordinal. Las variables pueden ser ordenadas o clasificadas con escalas 
ordinales en relación a la cantidad del atributo poseído. Cada categoría puede ser comparada con otra en 
términos de una relación de “mayor que” o “menor que”. Ejemplo: Nivel de educación alcanzado por un 
determinado grupo de personas: la persona que tiene 6to grado está “más capacitada” que la que tiene 2do 
grado. La categoría de los hoteles se mide por estrellas, desde 1 estrella hasta 5 estrellas. El Hotel que tiene 3 
5CATEDRA PROBABILIDADESY ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
estrellas tiene “menos categoría que” el que tiene 4 estrellas. La escala ordinal es una forma un tanto más 
fuerte de medición, porque dice que una observación que se clasifica en una categoría posee “más” la 
propiedad que se mide que alguna otra observación que se registra en otra categoría. 
Por lo general se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de 
intervalo o de razón, que constituyen los niveles más elevados de medición porque permiten discernir no sólo 
cuál de los valores es el mayor, sino por cuánto. 
Escalas de Intervalo y de razón: Las escalas de intervalo y de razón proporcionan el nivel más alto de medida 
de precisión, permitiendo realizar casi todas las operaciones matemáticas. Estas dos escalas tienen unidades 
constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la 
escala son iguales. La única diferencia real entre las escalas de intervalo y las de razón es que las de intervalo 
tienen un punto cero arbitrario, mientras que las escalas de razón tienen un punto cero absoluto. 
Las escalas de intervalo más familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un 
punto cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemos 
registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no es posible decir que un valor 
cualquiera situado en un intervalo de la escala es un múltiplo de cualquier otro punto de la escala. Por ejemplo, 
si un día se registra 30°C, no se puede decir que sea dos veces más caluroso que un día con 15°C, porque 
sabemos que 30°C en una escala diferente como Fahrenheit, equivale a 86°F. De la misma forma, 15°C en 
Fahrenheit corresponden a 59°F. Aunque 30°C es dos veces 15°C, no se puede afirmar que el calor de 86°F 
sea dos veces el calor de 59°F porque usando diferentes escalas el calor no es dos veces mayor, esto es, 59°F 
× 2 ≠ 86°F. Recuerden que la relación entre ambas escalas es °F = (9/5)°C + 32. 
Las escalas de razón representan la forma superior de medidas de precisión dado que poseen las ventajas de 
todas las escalas inferiores más un punto de cero absoluto. Con las medidas de escala de razón se permiten 
todas las operaciones matemáticas. Ejemplo: cuando la temperatura se mide a partir de un cero absoluto, como 
en la escala Kelvin, la temperatura está dada en una escala de razón, puesto que, si se duplica la temperatura, 
en realidad se duplica la velocidad promedio de las moléculas que componen la sustancia. Otro ejemplo es el 
peso que tenemos en las balanzas comunes utilizan estas escalas, dado que tienen un punto de cero absoluto y 
que pueden ser expresados en términos de múltiplos cuando se relaciona un punto con otro de la escala; por 
ejemplo 100 kilos es dos veces más pesado que 50 kilos. 
ORGANIZACIÓN Y RESUMEN DE DATOS 
ORGANIZACIÓN Y RESUMEN DE DATOS CATEGÓRICOS 
En un estudio del mercado laboral de nuestro país, nos interesa saber las distintas categorías ocupacionales de 
los habitantes que trabajan. Podemos obtener información en el INDEC (Instituto Nacional de Estadísticas y 
Censos de la República Argentina) respecto al último censo realizado en el año 2010. 
La presentación de datos cualitativos suele hacerse indicando las clases o atributos o categorías consideradas 
y sus respectivas frecuencias de aparición como indica la TABLA 1. 
Tabla 1 
CATEGORÍA OCUPACIONAL Número de habitantes 
Trabajador familiar 561.078 
Patrón 1.190.944 
Trabajador por cuenta propia 3.346.107 
Obrero o empleado 12.947.286 
Total de población ocupada 18.045.415 
La variable es la “categoría ocupacional en el año 2010 de cada argentino de 14 o más años”. El trabajo lo 
hacemos sobre la variable “categoría ocupacional” y no sobre la persona, pues sobre cada persona hay 
infinidad de datos: edad, sexo, nivel de educación, provincia en la que reside, etc. 
Las personas son las portadoras de los datos mientras que la categoría ocupacional respectivas constituyen los 
datos. La estadística no estudia los portadores sino los datos. 
En la primera columna de la tabla 1 están las categorías consideradas por el INDEC. En la segunda columna se 
registra el número de personas que se clasifican en cada categoría, es decir su frecuencia (o frecuencia 
absoluta). 
Además de las frecuencias absolutas, se pueden calcular las frecuencias relativas. La frecuencia relativa de una 
categoría es la proporción de veces que ocurre dicha categoría y se calcula como el cociente entre la frecuencia 
absoluta correspondiente a esa categoría dividida por el número total de observaciones N. La suma total de las 
frecuencias relativas es igual a 1. 
6CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
Simbolizaremos la frecuencia absoluta correspondiente a la categoría i con fi , luego la frecuencia relativa se 
calculará como fi / N. 
Las frecuencias relativas se expresan como porcentajes al multiplicarlas por 100. 
En el ejemplo se tiene: 
Tabla 2: Clasificación de la Población de la Argentina de 14 años o más ocupada por categoría 
ocupacional. Año 2010 
 
CATEGORÍA OCUPACIONAL Número de 
habitantes 
Proporción de 
habitantes 
Porcentaje de 
habitantes 
Trabajador familiar 561.078 0,031 3,8% 
Patrón 1.190.944 0,066 6,2% 
Trabajador por cuenta propia 3.346.107 0,185 21,3% 
Obrero o empleado 12.947.286 0,717 68,6% 
Total de población ocupada 18.045.415 1,000 100,0% 
 
FUENTE: INDEC.Censo Nacional de Población, Hogares y Vivienda 2010. 
La tabla que recoge las categorías de la variable con sus frecuencias respectivas se denomina Distribución de 
frecuencias de la variable. 
Resumiendo, se presenta en la Tabla 3 la distribución de frecuencias de una variable cualitativa X 
Tabla 3 
Categorías o atributos Frecuencias Frecuencias relativas Frecuencias relativas (en %) 
A1 f1 f1 /N 100 f1 /N % 
A2 f2 f2/N 100 f2/N % 
A3 f3 f3/N 100 f3/N % 
… … … … 
Ak fk fk/N 100 fk/N % 
 N 1 100% 
A1, A2, … , Ak, son las categorías 
f1, f2, …, fk son las frecuencias absolutas 
N el tamaño del lote de datos (que puede ser una población o una muestra) es la cantidad de observaciones. 
K es el número de categorías. 
Los subíndices “i” en las categorías Ai solo identifican las categorías, no las ordenan. 
Las frecuencias eventualmente pueden ser 0. No pueden ser negativas ni fraccionarias. 
REPRESENTACIONES GRÁFICAS 
EL GRÁFICO DE BARRAS 
Las Distribuciones de Frecuencias de Datos Categóricos pueden representarse gráficamente por medio de un 
Gráfico de Barras. 
Un gráfico de barras es fácil de construir y puede ser interpretado fácilmente por personas que no tienen una 
mente orientada hacia las gráficas. 
El gráfico presenta las posibles categorías y sus frecuencias de aparición 
 
7CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
Figura 1 
 
Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2010. 
Pueden notarse varios aspectos en los gráficos de barras: 
 Las magnitudes de las frecuencias se muestran mediante las longitudes de las diferentes barras, las que 
se han trazado con referencia a una escala horizontal. 
 Se deben incluir las escalas y algunas indicaciones, ya que ayudan a la lectura de las gráficas. Los valores 
de la escala se muestran en la parte superior y también en la parte inferior. Se pueden unir o no me-
diante líneas constituyendo una retícula. 
 Las barras se identifican mediante títulos en el talón de la gráfica. El talón debe mantenerse tan pequeño 
como sea posible, con el objeto de dejar espacio para la superficie de trazado de la gráfica. 
 Las barras difieren solamente en longitud y no en ancho. 
 Se ha dejado un espacio entre las barras para que sea fácil identificarla mediante su título. 
 Las barras han sido ordenadas por magnitud para facilitar el análisis.El orden puede ser creciente o 
decreciente. Si se incluye una categoría "todas las demás" u "otras", generalmente se la muestra en la 
barra más baja, aún cuando la posición más baja pueda no ser la apropiada, de acuerdo con la ordenación 
por magnitudes, esto resulta apropiado, puesto que este tipo de categorías casi siempre es una recopila-
ción de clases relativamente poco importantes. 
 El título y las notas de pié de página o sobre las fuentes, cuando sean necesarias, forman parte del gráfico. 
 Para respuestas categóricas las barras se diseñan en forma horizontal (para respuestas numéricas, en 
forma vertical). 
Importancia de la línea cero: 
Una gráfica que ha sido diseñada para mostrar magnitudes absolutas debe tener absolutamente definida la 
línea cero y una escala ininterrumpida. Es decir debe iniciarse en cero y continuar sin ninguna interrupción. Esto 
es cierto no solamente para las gráficas de barras sino también para cualquier otro tipo de gráficas en las 
cuales deben compararse magnitudes absolutas. 
La impresión percibida si se comienza por algún valor mayor que cero cambia totalmente la información 
contenida en el lote de datos 
 
8CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
FIGURA 2 
 
 
 
 
EL GRÁFICO DE TORTAS 
Para dibujar gráficos de torta se puede utilizar un compás o un transportador para dibujar el círculo y definir los 
sectores convenientes. Como el círculo tiene 360° se puede utilizar el transportador para dividir la torta en 
rebanadas en base a los porcentajes deseados. 
Por ejemplo, en la Figura 3, el 18 % de los argentinos que trabajaban en 2010 son “trabajadores por cuenta 
propia”. Por ello, se calcula el 18% de 360°; para ello se multiplica 360° × 0,18 = 64,8° y se marcan los 
aproximadamente 65°resultantes con el transportador. Después se conectan los puntos correspondientes con el 
centro, formando una rebanada que incluye el 18% del área. Siguiendo este procedimiento se puede construir la 
gráfica completa. 
FIGURA 3 
 
Se presenta también la gráfica de tortas correspondiente a los resultados del Censo 2001. 
9CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
 
 
EL GRÁFICO DE PUNTOS 
Cuando se construya el gráfico de puntos se sugiere lo siguiente. 
1. Las líneas de puntos se deben acomodar en forma horizontal, tal como se observa en la figura 4, 
adyacentes a las diversas categorías de la variable que se estudia. 
2. El espacio entre las líneas punteadas (es decir, entre categorías) debe ser igual. 
3. Se deben incluir las escalas horizontales con el conteo de la frecuencia en la parte baja del cuadro; o, por 
otra parte, se deben incluir en la parte superior de los porcentajes. Los ejes se deben identificar en forma 
clara. 
4. La gráfica debe tener Título. Si son necesarias, las notas de pié de página y las fuentes deben aparecer en 
la gráfica, junto con cualquier “clave” necesaria para su interpretación. 
Figura 4 
 
Trabajador familiar 
4% 
Patrón 
6% 
Trabajador por 
cuenta propia 
21% 
Obrero o 
empleado 
69% 
Población de 14 años o más ocupada, por categoría ocupacional. 
Año 2001 
Total de población ocupada: 10.913.187 
personas 
Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2001. 
10CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
El propósito de las tres gráficas es mostrar los datos en forma precisa y clara. Estas figuras pretenden mostrar la misma 
información respecto a las categorías de empleo de los trabajadores argentinos de 14 o más años. 
 
En particular algunas investigaciones recientes sobre percepción de gráficos, sugieren que la gráfica de puntos 
presenta la información de la mejor manera, en tanto que la gráfica de torta es el tipo más deficiente. No 
obstante, la selección de una gráfica específica sigue siendo una actividad muy subjetiva y, con frecuencia, 
depende de las preferencias estéticas del investigador. 
 
ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS NO AGRUPADOS 
Todo lo planteado hasta aquí se aplica para presentar datos cuantitativos discretos cuando el número de 
valores posibles es pequeño (menos de 10) 
Ejercicio realizado en clase: Siendo de interés conocer el número de hermanos que componen las familias de 
los alumnos que cursan Probabilidad y Estadística, en distintos años, se les pidió a los alumnos que anotaran 
en el pizarrón el número de hijos que habían tenido sus respectivas madres, esto es el número de hermanos en 
cada una de sus familias. 
Los resultados que a continuación se indican corresponden al año 2007: 
N° de Hijos N° de familias 
1 / / / / / 
2 / / / / / / / / / / / / / / / / / 
3 / / / / / / / / / / / / / / / 
4 / / / / / / / / / / / / / / / / / / / / / 
5 / / / / / / / / / / / / / / 
6 / / 
7 / / / 
8 / / 
Esta información también puede ser resumida en una tabla de frecuencias 
Tabla 4: DISTRIBUCIÓN DEL N° DE HIJOS DE LAS FAMILIAS DE LOS ALUMNOS QUE CURSARON 
ESTADÍSTICA EN LA FACULTAD DE INGENIERÍA DE LA UNJU EN EL AÑO 2007 
N° de Hijos N° de 
familias 
Proporción de 
familias 
Porcentaje de 
familias 
Porcentaje 
acumulado 
1 5 0,06 6% 6% 
2 17 0,22 22% 28% 
3 14 0,18 18% 46% 
4 21 0,27 27% 73% 
5 13 0,17 17% 90% 
6 2 0,03 3% 93% 
7 3 0,04 4% 97% 
8 2 0,03 3% 100% 
N = 77 1,00 100% 
Fuente: Encuesta realizada en clase de teoría del 04/04/07 
Una tabla de frecuencias para variables numéricas es una tabla que asocia cada valor de la variable, con la 
cantidad de veces que se observa dicho valor (frecuencia absoluta). También se incorporan las frecuencias 
relativas y las relativas porcentuales siguiendo el procedimiento especificado anteriormente. Otra frecuencia 
importante para describir un conjunto es la frecuencia acumulada. 
La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (absolutas o 
relativas) de los valores menores o iguales que el valor que se está considerando. Por ejemplo, en la tabla 4 
se lee - en la línea resaltada - que el 73% de las familias tienen un número de hijos “menor o igual” a 4. 
Se presenta una gráfica de barras verticales entre las que no se ha dejado espacio entre las barras. Posterior-
mente se verá la utilidad de obrar así. 
 
11CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
Figura 5 
 
FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu 
El gráfico que se presenta a continuación se conoce como gráfico de bastones. La frecuencia se representa de 
esta manera pues entre dos valores sucesivos de la variable, no existen valores intermedios. 
Figura 6 
 
FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu 
El gráfico permite rápidamente vizualizar donde se concentran los datos y como se dispersan. 
Puede concluirse que la mayoría de las familias, el 67%, tienen de 2 a 5 hijos. Hay pocas familias con muchos 
hijos, el 10%, y solo el 6% con un hijo. El número más frecuente de hijos es 4, hay 21 familias con 4 hijos. 
ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS AGRUPADOS 
Distribución de Frecuencias para DATOS AGRUPADOS 
Cuando el número de valores posibles de una variable DISCRETA sea grande o cuando la variable sea 
CONTINUA conviene agrupar los datos en clases o categorías. Para ello se acomodan los datos en grupos de 
clases, es decir categorías, dividiendo en forma conveniente las observaciones. A este arreglo de datos en 
forma de tabla se le denomina “Distribución de frecuencias”, al igual que para datos categóricos y numéricos 
discretos (cuando el número de valores posibles es pequeño). 
Una Distribución de Frecuencias para Datos Agrupados es una tabla resumen en la que se disponen los 
datos divididos en grupos ordenados numéricamente que se denominan clases o categorías. 
Cuando se agrupan datos, o se los condensa en tablas de Distribución de Frecuencias, es más manejabley 
significativo el proceso de análisis e interpretación de datos. En esa forma resumida es muy sencillo aproximar 
las principales características de los datos y de esta manera se compensa el hecho de que al agrupar los datos 
se pierde alguna información inicial referente a las observaciones individuales. 
Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente: 
12CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
 Seleccionar el número adecuado de clases para cada tabla. 
 Obtener un intervalo de clase apropiado para cada clase. 
 Seleccionar los límites de las clases que definen los intervalos, de manera que cada observación se 
clasifique sin ambigüedad en una sola clase. 
Son muchas las formas de seleccionar los límites de las clases. Cada paquete estadístico usa para ello su 
propio algoritmo, el cual difiere de un paquete a otro. Si se usan varios paquetes para graficar un conjunto de 
datos dado con su técnica por defecto, los histogramas pueden variar levemente en el número de clases 
seleccionadas y en los valores de los límites de las clases. La forma general del histograma sería la misma en 
todos ellos. 
Amplitud de los intervalos 
Si los intervalos de clase son de la misma longitud, ¿Cómo elegir la amplitud h de los intervalos de 
clase? 
 Hay una vieja fórmula para ello; si N es el tamaño del lote, se trata de hallar el número de intervalos k 
que satisfaga la relación 
 N ~ 2 
( k - 1)
 
De esta expresión resulta k ~ 1 + 3,322 log N Fórmula de Sturges (1) 
Redondeando al valor más próximo obtenemos un valor de k. 
La respuesta que se obtiene con la Regla de Sturges no es definitiva y se debe considerar únicamente como 
una guía. El número de intervalos de clase especificado por la regla deberá incrementarse o disminuirse por 
conveniencia y para lograr una presentación más clara. Es decir, no hay reglas invariables en relación con el 
número de clases o la elección de las clases. Entre 5 y 20 clases son satisfactorias para la mayor parte de 
conjuntos de datos. En general, mientras más grande sea el número de observaciones en un conjunto de datos, 
se deben usar más clases. 
 Hay también una regla empírica para determinar el número de intervalos de clase 
Número de observaciones en un conjunto de datos Número de Clases 
Menos de 25 5 o 6 
25 – 50 7 –14 
Más de 50 15 - 20 
Generalmente, este procedimiento deja una amplitud que no es conveniente para su uso y nuevamente se debe 
utilizar el sentido común para elegir la amplitud -normalmente cercana a la que se obtiene con la ecuación (1)- 
que sea más conveniente-. 
Una vez determinado el número de clases, determinamos la amplitud h de cada clase, simbólicamente 
h = RANGO / k , esto es 
k
Xx
h MÍNIMOMÁXIMO

 (2) 
RANGO: es la distancia entre el valor máximo y el valor mínimo. 
Límites de las Clases - Marcas de clases 
Otro problema más es la selección de los límites de las clases. Los cálculos a partir de una distribución de 
frecuencias, a menudo hacen uso del punto medio de cada clase para representar todos los elementos 
contenidos en la misma. El punto medio de una clase es el valor intermedio entre los dos límites de la clase y se 
conoce como “marca de clase”. Así pues, el punto medio queda determinado por los dos límites de la clase. 
Con el objeto de efectuar los cálculos que discutiremos en el próximo tema con tanta precisión como sea 
posible, generalmente se sugiere que los límites de clase se seleccionen en forma tal que el punto medio de 
cada clase sea aproximadamente igual al promedio aritmético de los elementos que caen dentro de esa clase. 
En la mayoría de los casos esa condición se satisfará muy bien aún cuando se dé poca atención a este principio 
al establecer los límites. 
Al establecer los límites de la clase debemos tener cuidado de no caer en ambigüedades. Por ejemplo en el 
caso de rentas, los límites $30-$40, $40-$50 no son claros, debido a que no podemos estar seguros en cual de 
las dos clases se incluye $40. Los límites $30-$39, $40-$49 son claros, previsto que los datos se expresen 
solamente en pesos. Cuando éste es el caso, el punto medio de la primera clase sería [(30 + 39)/2] = $34,50. Y 
así sucesivamente. 
Si los datos se expresan hasta los centavos, los límites anteriores no resultarán claros. Sin embargo, si se 
establecen los límites en la forma de $30,00-$39,99, $40,00-$49,99, no habrá duda de saber en que clase cae 
13CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
cada elemento. En este caso, el punto medio de la primera clase es [(30,00 + 39,99)/2] = $34,995, o para 
cualquier propósito $35, y así sucesivamente. 
Los límites $30-menos de $40, $40-menos de $50 son claros; sin embargo, sin información adicional no es 
posible determinar los puntos medios con precisión. Si no se proporciona información adicional, el punto medio 
de la primera clase se considera como [(30 + 40)/2] = $35, y así sucesivamente. 
Intervalos de Clase 
Definimos cada clase o categoría mediante un intervalo de clase expresado en la forma 
 x i - h / 2 , x i + h / 2 
El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clase 
y es el valor numérico representativo de los datos de la clase. 
 x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase. 
Una manera de determinar la clase definida por x i sería: 
Desde xi - h/2 inclusive, hasta menos de xi+ h/2, 
esto es, el intervalo [x i - h / 2 , x i + h / 2) 
Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2  v j < x i + h/2 . 
Como vemos, en cada intervalo de clase se incluye al límite inferior. 
Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la 
siguiente manera: 
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68 
1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37 
1,75 1,69 
Se desea obtener conclusiones sobre la distribución de los datos. 
En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges 
k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k  7 clases 
Teniendo en cuenta que xmáximo = 2,55 y el xmínimo = 0,72, tomamos la amplitud de cada intervalo h, usando la 
ecuación (2) : 30,0261,0
7
72,055,2
h 

 
La distribución de frecuencias para el ejemplo se presenta en la Tabla 5. 
Tabla 5: Distribución de frecuencias del contenido de nicotina en 40 cigarrillos 
Contenido de 
Nicotina (en mg) 
Marca de Clase N° de 
cigarrillos 
Proporción de 
cigarrillos 
Porcentaje de 
cigarrillos 
[0,60 , 0,90) 0,75 2 0,050 5,0% 
[0,90 , 1,20) 1,05 1 0,025 2,5% 
[1,20 , 1,50) 1,35 4 0,100 10,0% 
[1,50 , 1,80) 1,65 15 0,375 37,5% 
[1,80 , 2,10) 1,95 11 0,275 27,5% 
[2,10 , 2,40) 2,25 5 0,125 12,5% 
[2,40 , 2,70) 2,55 2 0,050 5,0% 
N = 40 1,000 100,0% 
Se clasificaron las observaciones en cada una de las clases y se determinaron así las frecuencias absolutas. 
Las frecuencias relativas nos da la proporción de observaciones en cada clase. 
Nota: Otra alternativa al definir los límites de las clases para garantizar que ningún dato caiga en un límite de 
clase, es definir los límites de manera tal que incluyan un decimal más que los datos. 
La información que proporciona una distribución de frecuencias para este tipo de agrupamiento de datos es más 
fácil de entender si se presenta en forma gráfica mediante un diagrama que se llama Histograma y es debido a 
Karl Pearson. 
HISTOGRAMA 
Un histograma es un conjunto de rectángulos cada uno de los cuales representaun intervalo de agrupación o 
clase. La base de cada rectángulo coincide con el intervalo de clase, y la altura se determina de manera que su 
área sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada 
clase. 
14CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
La variable de interés se grafica sobre el eje horizontal, el eje vertical representa el número, proporción o 
porcentaje de observaciones para cada intervalo de clase, dependiendo de si el histograma específico es, 
respectivamente, un histograma de frecuencias, un histograma de frecuencias relativas o un histograma 
porcentual. 
Se presenta un histograma de frecuencia asociado a la distribución de frecuencias de la Tabla 5. 
Figura 7 
contenido nicotina (mg)
2,4 - 2,72,1 - 2,41,8 - 2,11,5 - 1,81,2 - 1,5,9 - 1,2,6 - ,9
Histograma de los contenidos de nicotina en 40 cigarrillos
N
º 
d
e
 c
ig
a
rr
ill
o
s
16
14
12
10
8
6
4
2
0
2
5
11
15
4
1
2
 
De la tabla y el histograma puede concluirse que los contenidos de nicotina de los 40 cigarrillos se concentran 
entre los 1,5 miligramos y 2,1 miligramos, más precisamente el 65% de las observaciones centrales, toman 
valores de 1,5 mg hasta menos de 2,1 mg. Solo dos cigarrillos (un 5%) tienen un contenido de nicotina superior 
a 2,4 mg. 
Los histogramas pueden proporcionar mucha información respecto a la estructura de los datos. 
La Figura 8 presenta varios casos típicos. 
Figura 8(a) 
 
El histograma (a) presenta una distribución asimétrica que es típica de los datos económicos, y en general de 
mediciones de renta, población, consumo de electricidad,tamaño de empresas, etc 
Figura 8(b) 
 
15CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
El Histograma (b) muestra una distribución simétrica que aparece en muchos procesos de fabricación al estudiar la 
distribución de una característica medible. 
Figura 8(c) 
 
Figura 8(d) 
 
El histograma (c) aparece al mezclar elementos de varias poblaciones, cada uno de ellos con una distribución 
tipo (b), lo que produce una distribución con gran variabilidad. En el límite, si las distribuciones individuales 
están muy separadas, podemos encontrarnos una situación como la descrita por el histograma (d) donde se 
apuntan más claramente ambas distribuciones (por ejemplo resistencia de piezas de distintos materiales en 
cuanto a dureza). 
 Figura 8(e) 
 
El caso (e) presenta una distribución truncada, que 
aparecerá, por ejemplo, al someter a piezas a un 
control de calidad que tiene límite de 
especificaciones A y B 
 Figura 8(f) 
 
Finalmente la distribución (f) es muy asimétrica y 
surge al estudiar tiempos entre averías, entre 
llegadas, entre accidentes, etc. 
Sin embargo, cuando se comparan dos o más conjuntos de datos, no es posible construir los diversos histogramas 
en la misma gráfica, porque la superposición de los rectángulos dificulta su interpretación. Para estos casos en 
necesario construir polígonos porcentuales o de frecuencias relativas. 
POLÍGONOS 
Al igual que con los histogramas, cuando se elaboran polígonos se grafica sobre el eje horizontal la variable de 
interés, en tanto que el eje vertical representa o simboliza el número, proporción o porcentaje de observaciones de 
cada intervalo de clase. 
El polígono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y 
después conectando la secuencia de sus respectivos porcentajes de clase. 
En la siguiente Figura 9 se muestra el polígono porcentual de los contenidos de nicotina de 40 cigarrillos. 
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
 
Construcción de polígonos 
Se debe tener presente que el polígono es una 
representación de la forma de una distribución particular. 
Como el área bajo la distribución porcentual (la totalidad 
de la curva) debe ser del 100%, es necesario conectar 
los puntos medios primero y último con el eje horizontal, 
para abarcar el área total de la distribución observada. 
En la figura 9 se logra esto conectando el primer punto 
medio observado con el punto medio de una clase 
“ficticiamente precedente” 0,45 mg que tiene 0,0% de 
observaciones y conectando el último punto medio 
observado con el punto medio de una clase 
“ficticiamente siguiente” 2,85 mg que tiene 0,0% de 
observaciones. 
Se ilustra el procedimiento para construir el polígono de 
frecuencia de la Figura 9. 
FIGURA 9 
 
Nótese también que cuando se construyen polígonos o histogramas, el eje vertical debe mostrar el cero verdadero 
u “origen” para no distorsionar o representar equivocadamente el tipo de datos. Sin embargo, no es necesario que 
el eje horizontal especifique el punto cero de la variable de interés. Por razones de estética el rango de la variable 
debe constituir la principal porción de la gráfica y, cuando no se incluye el cero, resulta apropiado incluir “fracturas” 
en el eje. 
Como los puntos medios consecutivos se conectan mediante segmentos de recta, en ocasiones la apariencia del 
polígono es “irregular”. Si se acercaran más los límites exactos de clase de las distribución de frecuencia ( y, de esta 
manera se aumentara el número de clases de la distribución) se “suavizaría” la irregularidad de las líneas. 
CURVAS DE FRECUENCIA SUAVIZADAS 
Los datos recogidos pueden considerarse usualmente como pertenecientes a una muestra de una población 
grande. Ya que son posibles muchas observaciones sobre esa población, es teóricamente posible (para datos 
continuos) escoger intervalos de clase muy pequeños y tener todavía números razonables de observaciones en 
cada clase. Así que cabe esperar que el polígono de frecuencias o el polígono de frecuencias relativas para una 
gran población tenga tantos pequeños segmentos que aparezca como casi una curva continua a las que nos 
referiremos como “curva de frecuencia o curva de frecuencias relativas” respectivamente. 
Es razonable esperar que dichas curvas teóricas provengan de suavizar los polígonos de frecuencias o los 
polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño 
de la muestra. Por esta razón una curva de frecuencia se cita a veces como un “polígono de frecuencias 
suavizado” 
Por ejemplo si el histograma de la Figura 8-a basara 
en una muestra suficientemente grande podría 
suavizarse el polígono de frecuencia y se obtendría el 
siguiente gráfico. 
Figura 10 : Polígono de Frecuencias Suavizado de 
las Rentas Familiares 
 
1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS 
Otros métodos útiles de presentación de datos que facilitan el análisis y la interpretación, son las tablas de 
distribuciones acumuladas y las gráficas de polígonos acumulados. Ambas se pueden elaborar a partir de la tabla 
de distribución de frecuencias relativas o de frecuencias relativas porcentuales. 
Una tabla de distribución porcentual acumulada se construye “añadiendo” un intervalo de clase extra al final 
Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del “menor 
que”, determinando el porcentaje de las observaciones que son inferiores a cada uno de los límites inferiores. 
Tabla 6: Distribución Porcentual de los contenidos de nicotina para 40 cigarrillos 
Contenido de 
Nicotina (en mg) 
Porcentaje de cigarrillos Porcentaje de cigarrillos con contenido de nicotina 
"menor que" el límite inferior del intervalo de clase. 
[0,60 , 0,90) 5,0% 0,0% 
[0,90 , 1,20) 2,5% 5,0% 
[1,20 , 1,50) 10,0% 7,5% 
[1,50 , 1,80) 37,5% 17,5% 
[1,80 , 2,10) 27,5% 55,0% 
[2,10 , 2,40) 12,5% 82,5% 
[2,40 , 2,70) 5,0% 95,0% 
[2,70 ,3,00) 0,0% 100,0% 
Así se observa que el 0,0% de los cigarrillos tienen un contenido de nicotinainferior a 0,60 mg, el 5% son inferiores 
a 0,90 mg, y así sucesivamente, hasta que el total (100,0%) de los cigarrillos tienen un contenido de nicotina inferior 
a 2,70 mg. 
POLÍGONO PORCENTUAL ACUMULADO 
Para construir un polígono porcentual acumulado (al que también se denomina OJIVA) se observa que, 
nuevamente la variable de interés se grafica sobre el eje horizontal, en tanto que los porcentajes acumulados de la 
columna “menor que”) se grafican sobre el eje vertical. En cada uno de los límites inferiores se traza el valor del 
porcentaje correspondiente (acumulado), a partir de la lista que aparece en la distribución porcentual acumulada. 
Después se conectan esos puntos con segmentos de línea recta. 
A continuación se presenta la tabla 7 que permite construir en forma simple el polígono porcentual acumulado 
(ojiva) para los datos de la nicotina que se presenta en la Figura 11. 
Tabla 7 
Contenido de Nicotina (en mg) Porcentaje de cigarrillos 
Menor que 0,6 mg 0,0% 
Menor que 0,9 mg 5,0% 
Menor que 1,2 mg 7,5% 
Menor que 1,5 mg 17,5% 
Menor que 1,8 mg 55,0% 
Menor que 2,1 mg 82,5% 
Menor que 2,4 mg 95,0% 
Menor que 2,7 mg 100,0% 
FIGURA 11: Ojiva del contenido de nicotina de 40 cigarrillos 
 
 
2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO 
Ejemplo: En un estudio de ruptura por torsión durante el tejido de tela, se probaron 100 muestras de hilo. Se 
determinó el número de ciclos de tensión a la ruptura para cada muestra de hilo y se realizó con dichos datos un 
histograma con clases de la misma amplitud. Se presenta también un diagrama de puntos de los 100 datos 
obtenidos. 
FIGURA 12: Gráfico de puntos del número de ciclos de tensión a la ruptura para 100 muestras de hilo 
 
Es posible que los intervalos de clase de igual amplitud no sea una elección atinada si un conjunto de datos se 
“extiende” a un lado u otro. En la figura 12 se ilustra un diagrama de puntos de tal conjunto de datos. Con una 
cantidad pequeña de clases de igual amplitud se obtienen casi todas las observaciones que caen en solo algunas 
clases. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede 
apreciarse en la Figura 13. 
FIGURA 13 
 
Una segunda elección es usar algunos intervalos más anchos cerca de observaciones extremas e intervalos más 
reducidos en la región de alta concentración. 
Para construir un histograma para datos continuos, con intervalos de clase de ancho desiguales, después de 
determinar las frecuencias y las frecuencias relativas, se calcula la altura del rectángulo con la fórmula: 
clase de intervalo del ancho
clase la de relativa frecuencia
rectángulo del Altura  (3) 
Las alturas de los rectángulos que resultan se denominan densidades, y la escala vertical es la escala de 
densidad. Esto también funciona cuando los intervalos de clase tienen el mismo ancho. 
También se utiliza para datos discretos. 
La siguiente tabla presenta la distribución de frecuencias para intervalos de clase de distinto ancho. 
Tabla 8: Distribución de frecuencias del N° de ciclos de tensión a la ruptura para 100 muestras de hilo 
Intervalos de clase Frecuencia Frecuencia relativa Densidad 
[0 , 50) 8 0,08 0,0016 
[50, 100) 13 0,13 0,0026 
[100, 150) 11 0,11 0,0022 
[150 , 200) 21 0,21 0,0042 
[200 , 300) 26 0,26 0,0026 
[300 , 400) 12 0,12 0,0012 
[400 , 500) 4 0,04 0,0004 
[500 , 600) 3 0,03 0,0003 
[600 , 900) 2 0,02 0,0001 
N= 100 1 
3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO 
El histograma de densidad está dado por la Figura 14 
FIGURA 14 
 
Cuando los anchos de clase son distintos, el hecho de no usar una escala de densidad, da como resultado una 
figura con áreas distorsionadas. 
Para anchos de clase iguales, el divisor es el mismo en cada cálculo de densidad, y las operaciones aritméticas 
adicionales solo dan como resultado una nueva escala del eje vertical (es decir, el histograma de frecuencias 
relativas y el de densidad tienen la misma apariencia). Un histograma de densidades tiene una propiedad 
interesante. Al multiplicar por el ancho de clase ambos lados de la fórmula de la densidad, se obtiene 
Frecuencia relativa = (ancho de clase) (densidad) 
 = (ancho del rectángulo) (altura del rectángulo) 
 = Área del rectángulo 
Es decir, el área de cada rectángulo es la frecuencia relativa de la clase correspondiente. Además, puesto que la 
suma de las frecuencias relativas debe ser 1 (salvo en caso de redondeo) el área total de los rectángulos en un 
histograma de densidad es igual a 1. Siempre es posible trazar un histograma de manera que el área sea igual a la 
frecuencia relativa (esto también es válido para un histograma de datos discretos, solo se usa la escala de 
densidad). 
 
Bibliografía 
 “Probabilidad y Estadística para Ingenieros” Walpole, Myers y Myers. Sexta Edición. Ed. Prentice Hall. 1999. 
“Probabilidad y Estadística para Ingeniería y Ciencias” William Mendenhall y Terry Sincih. Cuarta Edición 1997. 
“Estadística Básica en Administración. Conceptos y Aplicaciones” Berenson y Levine. Prentice-Hall. Cuarta 
Edición 1992. 
“Probabilidad y Estadística para Ingeniería y Ciencias” Jay Devore. Sexta edición. 2005 
“Estadística” Murray Spiegel. Serie Shaum 
“Estadística Modelos y Métodos. 1. Fundamentos” Daniel Peña Sánchez de Rivera- Alianza Editorial. 1986

Continuar navegando