Logo Studenta

Analisis descriptivo de datos estadisticos

¡Este material tiene más páginas!

Vista previa del material en texto

25
Capitulo 2. Análisis descriptivo de los datos Estadísticos.
ANALISIS DESCRIPITIVO DE DATOS ESTADÍSTICOS.
2.1 Introducción. 
En este capítulo se darán un conjunto de instrumentos que permitirán el análisis descriptivo de una y dos variables. En el caso de una variable estadística, en primer lugar se indicará la forma de organizar y presentar la información, una vez que se ha observado la población y ha sido medido uno de los caracteres de todos y cada uno de los elementos de la misma. Esta operación nos llevará a la obtención de una distribución de frecuencias. Una vez que se tienen los datos organizados mediante esa distribución hay que iniciar el proceso de análisis de la variable. En este proceso de análisis de una variable hay que definir ciertos instrumentos que nos permitan estudiar sus características más relevantes. Entre las mismas cabe destacar las siguientes: medidas de posición (valor central o promedios); dispersión; asimetría; curtosis.
Posteriormente abordaremos el estudio descriptivo de las series estadísticas de dos caracteres, como son: la presentación de tablas estadísticas bidimensionales, la representación gráfica de las tablas, la descripción numérica de las series estadísticas de dos caracteres, etc.
2.2. Presentación de los datos de una variable estadística.
Después de obtener un conjunto de datos, es necesario presentarlos en forma tal, que facilite su compresión y su posterior análisis y utilización. No servirá de nada que estas medidas se presenten en un simple listado. Lo mejor será ordenarlos en tablas o cuadros y luego representarlo en gráficos. Si se tienen pocos datos, y estos son valores discretos, entonces conviene presentar una distribución de frecuencias sin intervalos; pero si se tiene valores continuos o muchos valores discretos, conviene presentar una distribución de frecuencia por intervalos. 
2.2.1. Distribución de frecuencias sin intervalos: 
Ejemplo 2.1. Supóngase que ante la pregunta del número de hijos por familia (variable X) una muestra de 20 hogares, marcó las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de X se da en el tabla 2.1.
Tabla 2.1. Distribución de frecuencias del número de hijos por familia.
	Número de
hijos
Xi
	Frecuencias
Absolutas
ni
	Frecuencias
Relativas
hi
	Frecuencias
Porcentajes
hi (%)
	0
1
2
3
4
	1
4
7
6
2
	0.05
0.20
0.35
0.30
0.10
	5
20
35
30
10
	Total
	20
	1.00
	100
Fuente. Datos obtenidos de los formularios de la encuesta.
Gráfico.
La representación gráfica más común para este tipo distribución de frecuencias es el diagrama de barras que consiste en trazar en cada valor distinto de la variable, segmentos de líneas proporcionales a su frecuencia.
Figura 2.1. Diagrama de barras para los datos de la tabla 2.1.
2.2.2. Distribución de frecuencias por intervalos.
La distribución de frecuencia por intervalos o clases se usa cuando la variable estadística es continúa o cuando el número de valores distintos de una variable discreta es grande.
Elaboración de las tablas de frecuencias.
Ejemplo 2.2. Para esclarecer la construcción de la tabla de frecuencias para datos agrupados en intervalos de clase, desarrollaremos un ejemplo, tomando como datos las observaciones del número de pasajeros a bordo de 50 autobuses cuando salen del terminal terrestre de castilla a los distintos distritos de la provincia de Piura, durante la última semana de mayo de 2008. Los autobuses tienen 55 asientos cada uno y los pasajeros adicionales deben viajar de pie.
56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51 
64 48 45 40 56 51 52 46 51 47 48 31 49 42 54 50 51 47 
56 46 53 58 41 50 49 52 48 55 45 35 36 43.
Se pide representar los datos en una tabla de frecuencias.
Solución. 
1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por:
R = Xmax - Xmin
En nuestro ejemplo, tenemos:
Valor mínimo Xmin = 31
Valor máximo Xmáx = 64
Luego el rango es R= 64 - 31= 33
2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula de Sturges:
donde: 
K = número de clases 
 n = número de elementos en la muestra (tamaño de la muestra).
Aplicando la fórmula tenemos:
6.644
redondeando al entero inmediato mayor por que, como ya se indico, la formula es un poco conservadora, obtenemos: 
K = 7.
Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K.
3º. La idea es resumir los valores con el fin de percibir algunas características o propiedades de los datos que no aparecen a simple vista. Para esto vamos a clasificar los 50 autobuses en 7 clases, de acuerdo con la formula de Sturges.
La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene por medio de la formula: 
Aplicando los datos a la fórmula anterior, se tiene: 
Redondeamos a 5.
Luego c = 5 y por tanto, el nuevo recorrido será: 
4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original, buscaremos el exceso:
Exceso = 35 - 33= 2 pasajeros
Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada lado, en este caso 1 a cada extremo. Sumamos el número 1 al valor máximo: 64 + 1 = 65 y restamos el número 1 al valor mínimo: 31 - 1 = 30.
A partir de este valor 30 agregamos sucesivamente la amplitud 5 y obtenemos los puntos de división que determinan los 7 intervalos (ver figura 2.2).
 30 35 40 45 50 55 60 65 
Figura 2.2
sin embargo una dificultad se presenta cuando algunos de los datos coincide con cualquiera de los puntos de división: 35, 40, 45, 50, 55 y 60.
5º. Supongamos que un dato es 35 ¿donde lo colocamos?- ¿en el primer intervalo cuyos extremos son 30 y 35?- (ver Fig. 2.1) ó ¿en el segundo intervalo que tiene por extremos 35 y 40?- 
Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no incluye al valor 30 (límite inferior del intervalo) y cerrado por la derecha que incluye al valor 35 (límite superior del intervalo). Este tipo de intervalo se representa matemáticamente por: , donde representa el límite inferior del intervalo y representa el límite superior. 
Así, en nuestro ejemplo el primer intervalo lo escribiremos como . 
Por tanto los intervalos de clase quedan definidos como:
	Intervalo de clases
	
(30 - 35]
	
(35 - 40]
	
(40 - 45]
	
(45 - 50]
	
(50 - 55]
	
(55 - 60]
	
(60 - 65]
6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un mismo intervalo, estén representados por un mismo valor. Este valor caracteriza a la clase y por eso se llama marca de clase, se obtiene promediando los límites de cada intervalo. Una formula para calcular la marca de clase de un intervalo es:
7º. A continuación debemos realizar la clasificación y conteo de los datos, es decir, colocar cada uno de ellos dentro de su clase. Se presenta la tabla 2.2, conocida como tabla de distribución de frecuencias absolutas.
 Tabla 2.2. Distribución de frecuencias de 50 autobuses según el número de pasajeros a bordo. 
 Salida del terminal de autobuses de Piura. Mayo del 2008.
	Intervalo de clase
	Marca de clase
Yi
	Frecuencia
ni
	Frecuencia
relativa
	Frecuencia acumulada
	Frecuencia acumulada
	30 - 35
	32.5
	2
	0.04
	2
	0.04
	35 - 40
	37.5
	4
	0.08
	6
	0.12
	40 - 45
	42.5
	7
	0.14
	13
	0.26
	45 - 50
	47.5
	18
	0.36
	31
	0.62
	50 - 55
	52.5
	12
	0.24
	43
	0.86
	55 - 60
	57.5
	6
	0.12
	49
	0.98
	60 - 65
	62.5
	1
	0.02
	50
	1.00
	Total
	
	50
	1.00
	
	
Fuente. Registro de salida del terminal de autobuses de la ciudad de Piura.30 de mayo de 2008.
Interpretación.-
n2 = 4, significa que 4 autobuses tuvieron a bordo un número mayor de 35 pasajeros y menor o igual a 40 pasajeros.
N4 = 31, significa que 31 autobuses tuvieron a bordo un número mayor que 30 y menor o igual que 50 pasajeros, o también significa que 31 autobuses tuvieron a bordo un número menor o igual a que 50 pasajeros.
h3 = 0.14, significa que el 14% de los autobuses tuvieron a bordo número mayor de 40 pasajeros y menor o igual a 45 pasajeros.
H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un número mayor que 30 y menor o igual que 55 pasajeros, o también significa que 86% del total de autobuses tuvieron a bordo un número menor o igual a que 55 pasajeros.
N6 - N2 = 49 - 6 = 43 autobuses tuvieron a bordo un número mayor que 40 y menor o igual que 60 pasajeros.
Ejercicio.
1. Abrir la ventana Descripción, escoger la opción Datos numéricos Análisis unidimensional, enseguida seleccionar el icono Opciones tabulares Tablas de frecuencias en el programa estadístico STATGRAPHICS Plus para Windows 5.1, para obtener la tabla de distribución de frecuencias de nuestro ejemplo ilustrativo que se viene considerando.
2. Una vez que los datos de la variable Y: Número de pasajeros a bordo, está clasificado en intervalos de clases, utilizando el Software SPSS 12 proceda a recodificar los valores en función de dichas categorías o intervalos de clases. Es decir, escogemos:
Transformar recodificar En distintas variables.
Una vez decodificado la información en categorías, se elige: 
 Analizar Estadísticos descriptivos Frecuencias.
Para obtener como salida la siguiente tabla de distribución de frecuencias.
Compruébelo usted.
Gráfico de la distribución por intervalos.
Los gráficos más usadas son: Histograma, Polígono de frecuencias y polígono de frecuencias acumuladas u ojiva.
a) Histograma.
Es una representación gráfica de una distribución de frecuencias agrupadas en intervalos de clase, mediante una serie de rectángulos contiguos que tienen: 
· sus bases sobre un eje horizontal y cuya longitud será igual al tamaño de los intervalos de clase.
· Las alturas proporcionales a la frecuencia (absoluta o relativa).
Ejemplo 2.3. Abriendo la ventana Descripción y luego escogiendo la opción Datos numéricos Análisis unidimensional Opciones gráficas y finalmente seleccionar Histograma de frecuencias en el programa estadístico STAGRAPHICS, obtener el gráfico de histograma de frecuencias absolutas para el ejemplo 2.2.
Figura 2.3. Histograma de la distribución del número de pasajeros por autobús de la 
 tabla 2.3.
2.2.3. Distribución de frecuencias: Variable cualitativa
Consideremos el siguiente ejemplo: 
Ejemplo 2.4. En una encuesta de opinión acerca de las preferencias de una marca de bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores dieron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N.
Construir la distribución de frecuencias. 
Solución.
La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida gaseosa, es la distribución de frecuencias de la tabla 2.3.
Tabla 2.3. Distribución de personas por su color preferido de una marca de bebida gaseosa.
	Color de
Bebida
	Número de
Consumidores: ni
	Frecuencias
relativas: hi
	Frecuencias
Porcentajes: hi(%)
	Blanco (B)
Negro (N)
Rojo (R)
	8
9
3
	0.40
0.45
0.15
	40
45
15
	Total
	20
	1.00
	100
 
 Fuente. Datos obtenidos de la encuesta realizada.
Ejercicio.
1. Mediante el Software STATGRAPHICS, el Abriendo la ventana Descripción y luego escogiendo la opción Datos cualitativos Tabulación - Entrada de datos, construir la tabla de frecuencias de nuestro ejemplo ilustrativo sobre la preferencia de los colores de las bebidas gaseosas.
2. Utilizando el Software SPSS, el Abriendo la ventana Analizar y luego escoger Estadísticos descriptivos Frecuencias, construir la tabla de frecuencias para el ejemplo anterior.
Gráficos.
Los gráficos más comunes para la distribución de frecuencias de variable cualitativa son el de diagrama de rectángulos y el de sectores circulares. 
En un Diagrama de rectángulos los datos de cada una de las modalidades (caracteres cualitativos) se representa por un rectángulo vertical (u horizontal), cuya altura (o largo) es proporcional a su frecuencia (absoluta o relativa). Los rectángulos se dibujan dejando un espacio entre ellos.
Ejemplo 2.5. Con el software SPSS, Abriendo la ventana Analizar, escogiendo Estadísticos descriptivos Frecuencias y finalmente en el icono Opciones gráficas seleccionar Diagrama de barras para obtener el diagrama de rectángulos para los datos de la tabla 2.3.
Figura 2.6. Diagrama de rectángulos para los datos de la tabla 2.4.
En un gráfico circular, los datos de cada categoría se representan por un sector circular. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Para construir se divide el circulo en sectores, cuyas áreas serán proporcionales a los valores de la variable. Está división es obtenida a través de la regla de 3 simples.
Total 360o
 Parte xo
Ejemplo 2.6. Construir el diagrama de sectores para la información contenida en la tabla 2.3, mediante el paquete SPSS. Abriendo la ventana analizar, escogiendo Estadísticos descriptivos Frecuencias y finalmente en el icono gráfico seleccionar gráficos de sectores.
Figura 2.7. Diagrama de sectores circulares para los datos de la tabla 2.4.
2.3. Medidas de posición
En la sección anterior estudiamos de que manera los datos podrían ser presentados en forma compacta, comprensible mediante tablas y gráficos. Sin embargo, con frecuencia necesitamos resumir aún más para facilitar el análisis e interpretación de la información. Cuando la variable en estudio es cuantitativa, el investigador puede estar interesado en encontrar un solo valor, que pueda caracterizar más nítidamente la naturaleza de los datos que se están midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de tendencia central o de posición. Las más importantes y muy usadas son: la media aritmética o media, la mediana, la media geométrica y la media armónica. También podemos mencionar a los percentiles, etc. Estas medidas o estadígrafos son considerados como medidas de localización, puesto que señalan la localización de los valores más frecuentes o de valores extremos. 
2.3.1. La Media Aritmética.
a) Datos no agrupados. 
Sea x1, x2,..., xn valores de la variable X. La media aritmética simple de X representada por es dado por: 
 
 donde n= es el tamaño de la muestra.
b) Datos agrupados.
Sean x1, x2,..., xk valores de la variable X ponderada por sus respectivas frecuencias absolutas: n1, n2, ..., nk. La media aritmética de la variable X es dado por:
 , donde .
Ejemplo 2.7. Considerando la información contenida en la tabla 2.4, determinar el número medio de pasajeros a bordo por autobús. 
Tabla 2.4. Distribución de frecuencias de 50 autobuses según el número 
 de pasajeros a bordo. 
	
	Yi
	ni
	Yini
	30 - 35
	32.5
	2
	65
	35 - 40
	37.5
	4
	150
	40 - 45
	42.5
	7
	297.5
	45 - 50
	47.5
	18
	855
	50 - 55
	52.5
	12
	630
	55 - 60
	57.5
	6
	345
	60 - 65
	62.5
	1
	62.5
	Total
	
	50
	2405
Luego la media aritmética de estos datos será:
 pasajeros por autobús.
Observación .-
· 
Si consideramos muestras de tamaño n1, n2,...,nr de una población, a los cuales le corresponden medias aritméticas , , ..., respectivamente, entonces la media asociada a la muestra de tamaño n1 + n2 +...+ nr está dado por:
donde .
· 
Si p1, p2, ....,pr son los pesos o ponderaciones asociados a los valores de la variable X: x1, x2, ...,xr respectivamente, entonces la media aritmética ponderada será: 
Ejemplo 2.8. Un examen de estadística aplicada fue rendido por 40 alumnos de una sección A y 45de una sección B. En la sección A se obtuvo un promedio de 11.8 y en la sección B su promedio fue de 12.5. Hallar la media aritmética de las notas de todos los estudiantes que rindieron el examen
Solución.
Sea: n A = número de alumnos de la sección A.
 n B = número de alumnos de la sección A.
 = la media aritmética de las notas de la sección A. 
 = la media aritmética de las notas de la sección B.
Es decir: n A = 40, n B = 45, y 
Sea la media aritmética de las notas de todos los estudiantes que dieron la prueba. 
Entonces:
Es decir, el promedio de las dos secciones es 
Desventajas de la media aritmética.
1. La media aritmética puede verse afectado por los valores extremos que no son representativos del resto de las observaciones.
2. No se puede calcular la media aritmética en las distribuciones que tienen intervalos de clase abierto en los extremos.
2.3.2. La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de observaciones. La notación que vamos a emplear será: 
Cálculo de la mediana
a) Datos no agrupados. 
Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendrá en cuenta el siguiente procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
donde es la posición de la mediana.
3) si n es par, el valor de la mediana va a estar dado por:
Esto quiere decir, que el valor de la mediana se encuentra entre los valores cuya posición son: n/2 y (n/2+1).
Ejemplo 2.9. Las siguientes cifras son los importes del consumo (en soles) de 13 personas en un restaurante: 
13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solución. 
Ordenando la información en forma ascendente, tenemos: 
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el número de datos es impar (n = 13), se tiene que la posición de la mediana es: , luego la mediana de los importes es: soles
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor o igual que 30 soles y el 50% restante de las personas tienen un importe mayor que 30 soles.
Ejemplo 2.10. Las notas de 10 alumnos en el primer examen en la asignatura de ESTADISTICA APLICADA A LA INVESTIGACIÒN fueron los siguientes:
5, 5, 5, 7, 9, 14, 15, 15, 16 y 18
Determine la mediana para este grupo de notas.
Solución. 
En este caso, n es par, por consiguiente la mediana se localiza entre los valores centrales X5 y X6, es decir, entre los valores 9 y 14. Por tanto, el valor mediano de las notas es: 
 minutos.
b) Datos agrupados.
En este caso el problema consiste en determinar un punto dentro del intervalo en que está comprendida la mediana.
Procedimiento:
1º. Calcular la posición de orden . 
2º. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple:
,
Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada Ni.
3º. Utilizar la formula:
donde:
= límite inferior de la clase que contiene a la mediana.
 n = tamaño de la muestra.
 c = amplitud de la clase que contiene a la mediana.
 Nj = frecuencia acumulada de la clase que contiene a la mediana.
 Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
 contiene a la mediana.
Ejemplo 2.11. A partir de la distribución de frecuencia de los 50 autobuses según el número de pasajeros a bordo (ver tabla 2.4), se pide determinar el número mediano de pasajeros por autobús. 
Solución. 
	
	Yi
	ni
	Ni
	30 - 35
	32.5
	2
	2
	35 - 40
	37.5
	4
	6
	40 - 45
	42.5
	7
	13
	45 - 50
	47.5
	18
	31
	50 - 55
	52.5
	12
	43
	55 - 60
	57.5
	6
	49
	60 - 65
	62.5
	1
	50
	Total
	
	50
	
1º. posición 
2º. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es, a través de la desigualdad: 
En este caso, la clase que contiene a la mediana es el cuarto.
3º. Reemplazar los datos en la formula obtenemos:
 Pasajeros.
Interpretación. Este valor mediano significa, que el 50% de los autobuses tuvieron a bordo un número menor o igual que 48.33 pasajeros, en tanto que el otro 50% tuvieron a bordo un número mayor que 48.33 pasajeros.
Ventajas de la mediana.
1. Algunas veces es un valor más representativo de un conjunto de datos que otros promedios (por ejemplo, que la media aritmética), gracias a su independencia, a sus valores extremos.
2. La mediana se puede calcular aún cuando los intervalos de clase de la distribución de frecuencias son de límites abiertos. 
2.3.3. Los Cuartiles. 
Son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales (figura 2.8).
 0% 25% 50% 75% 100%
 
 Q1 Q2 Q3 
Figura 2.8
Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superiores a él.
Q2 = 2do cuartil, coincide con la mediana.
Q3 = 3er cuartil, deja 75% de las observaciones inferiores o iguales a él y el 25% de éstas superiores a él.
Es importante notar que entre dos cuartiles consecutivos se halla el 25% del número de valores.
Las formulas para calcular los cuartiles se derivan de la formula utilizada para calcular la mediana y los pasos para el cálculo son los mismos:
Procedimiento.
1º . Se calcula , para r = 1, 2, 3.
2º . Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas, esto es, por la desigualdad:
3º . Se aplica la fórmula: 
 r = 1, 2, 3.
Donde:
 = límite inferior de la clase que contiene al cuartil Qr.
 n = tamaño de la muestra.
 c = amplitud de la clase que contiene a Qr.
 Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
 contiene a Qr.
Ejemplo 2.12. Dada la siguiente distribución, determinar los cuartiles Q1 y Q3.
	
	Yi
	ni
	Ni
	30 - 35
	32.5
	2
	2
	35 - 40
	37.5
	4
	6
	40 - 45
	42.5
	7
	13
	45 - 50
	47.5
	18
	31
	50 - 55
	52.5
	12
	43
	55 - 60
	57.5
	6
	49
	60 - 65
	62.5
	1
	50
	Total
	
	50
	
Solución.- 
1º. ; 
2º. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
Como , entonces el intervalo de clases que contiene a Q1 es (40 - 45] y como , entonces el intervalo de clases que contiene a Q3 es (50 - 55].
3º. Usando las formulas dada para calcular Q1 y Q3 tenemos:
 pasajeros
 pasajeros.
De acuerdo a estos resultados, podemos afirmar que, en está distribución tenemos:
 25% 25% 25% 25% 
 
 30 Q1 = 44.64 Q2 = 48.33 Q3 = 52.71 65
2.3.4. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales.
 0% 1% 2% 50% 98% 99% 100%
 
 P1 P2 P50 P98 P99 
Figura 2.9
P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él.
.
.
.
P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a él y el 1% superiores a él.
Las formulas para determinar los percentiles, son parecidos a los cuartiles, así: 
 r = 1, 2, ... , 99
donde:
= límite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
 n = tamaño de la muestra.
 c = amplitud de la clase que contiene aPr.
 Nj = frecuencia acumulada de la clase que contiene a Pr.
 Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.
Ejercicio.- Determinar los valores de los puntos percentiles 10 y 90, para los datos del número de pasajeros a bordo, de la tabla 2.5 (página 23).
2.3.5. La Moda.-
La moda denotada por , es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente en un conjunto de datos. La moda puede no existe, incluso si existe puede no ser única. 
Ejemplo 2.13. En un mes, 8 vendedores de artículos electrónicos vendieron los siguientes números de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes como a la población estadística que interesa, el número modal de unidades vendidas es:
.......
Ejemplo 2.14. Considere la distribución de los pesos (en kilos) de 15 adultos: 
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:
kilos y kilos
En este caso la distribución se llamará bimodal.
Ejemplo 2.15. Las notas promociónales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11. 
Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme.
En general, se tiene lo siguiente:
i) La distribución que tiene una sola moda se llama unimodal.
ii) La distribución que tiene dos modas se llama bimodal. 
iii) La distribución que tiene más de dos modas se llama multimodal.
Cálculo de la Moda para datos agrupados.
Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento para el cálculo de la moda. 
1º. Se identifica la clase modal (la clase con mayor frecuencia).
2º. Se aplica la formula:
Donde:
= límite inferior de la clase modal.
 = frecuencia de la clase modal.
 (n1 = frecuencia de la clase inmediatamente anterior a la clase modal).
 (n2 = frecuencia de la clase inmediatamente posterior a la clase modal).
 c = amplitud de la clase que contiene a la mediana.
Ejemplo 2.16. Determinar la moda para la siguiente distribución (tabla 2.5).
	
	Yi
	ni
	30 - 35
	32.5
	2
	35 - 40
	37.5
	4
	40 - 45
	42.5
	7
	45 - 50
	47.5
	18
	50 - 55
	52.5
	12
	55 - 60
	57.5
	6
	60 - 65
	62.5
	1
	Total
	
	50
Solución. 
1º. El intervalo de clase de mayor frecuencia absoluta (18) es el cuarto intervalo: 
c = 5.
2º. Aplicando la formula tenemos:
 pasajeros.
Este valor modal significa que: el número de pasajeros a bordo más frecuente en los autobuses es de 48 ; o también que la mayoría de los autobuses tienen a bordo un número de pasajeros igual a 48.
2.3.6. Relación entre la Media, Mediana y Moda.
a) Distribuciones simétricas.
Se dice que una distribución de frecuencia es simétrica cuando valores de la variable equidistantes de un valor central tienen las mismas frecuencias. Es importante destacar en este caso que:
b) Para una distribución sesgada hacia la derecha ( si la cola mayor se presenta a la derecha de la distribución) se tiene que: 
 Para una distribución sesgada a la izquierda tenemos:
Ejercicio. Considerando la distribución de la tabla 2.5 (pagina 24), se pide analizar la asimetría de la distribución.
2.3.7. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales.
 0% 1% 2% 50% 98% 99% 100%
 
 P1 P2 P50 P98 P99 
Figura 2.10
P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él.
.
.
.
P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a él y el 1% superiores a él.
Las formulas para determinar los percentiles, son parecidos a los cuartiles, así: 
 r = 1, 2, ... , 99
donde:
= límite inferior de la clase que contiene a Pr, r = 1, 2,..., 99.
 n = tamaño de la muestra.
 c = amplitud de la clase que contiene a Pr.
 Nj = frecuencia acumulada de la clase que contiene a Pr.
 Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.
Ejercicio. Determinar los valores de los puntos percentiles 10 y 90, para los datos del número de pasajeros a bordo, de la tabla 2.5 (página 24).
2.4. Medida de dispersión.
Todos los valores representativos discutidos en las secciones precedentes han sido una especie de promedio o medida de posición. Sin embargo, el uso de un solo valor para describir una distribución oculta muchos fenómenos importantes. Por ejemplo, dos grupos separados de datos pueden contener la misma media, pero un grupo puede estar más disperso o esparcido alrededor del valor promedio que el otro.
Por lo que es necesario una medida de la dispersión, esparcimiento o variación para ayudar más completamente la distribución. Mientras menor es la dispersión, más típico es el valor de la media para toda la distribución.
Las medidas de dispersión que se utilizan con mayor frecuencia son: la varianza, la desviación estándar y el coeficiente de variación.
2.4.1. La varianza.- 
Definición 1. (Para datos no agrupados). La varianza de una muestra x1, x2, ..., xn de la variable X, es dado por:
Definición 2. (Para datos agrupados). La varianza de los valores una muestra y1, y2, ..., yk de Y con frecuencias absolutas n1, n2, ..., nk respectivamente, es dado por:
Observaciones. 
1. La varianza poblacional se define en términos de la media poblacional , esto es: 
donde N es el tamaño de la población.
2. Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza, podemos usar las formulas:
 para datos no agrupados.
y 
 para datos agrupados.
2.4.2. La desviación estándar. 
Definición.- La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza, y se denota por .
El valor numérico de S cuantifica el grado de dispersión de los valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación estándar.
Ejemplo 2.17. Las notas de 10 alumnos en el primer examen en la asignatura de Estadistica aplicada a la investigación fueron los siguientes:
5, 5, 5, 7, 9, 14, 15, 15, 16 y 18
Determine a) la varianza y b) la desviación estándar para este grupo de notas.
Solución. 
a) Cálculo de la varianza.
i) Aplicaremos la formula de definición de la varianza para datos no agrupados, donde es la media aritmética del conjunto de notas.
En efecto, tenemos que la media aritmética es:
 puntos.
Luego aplicando formula para varianza:
 puntos al cuadrado.
ii ) aplicando el método abreviado, tenemos:
 y 
 
 Luego: 
b) cálculo de la desviación estándar.
La desviación estándar será la raíz cuadrada del valor obtenido en la varianza, es decir:
puntos.
Ejemplo 2.18. Determine la desviación estándar de la siguiente distribución de frecuencias (ver tabla 2.4).
	
	Yi
	ni
	
	
ni
	30 - 35
	32.5
	2
	243.36
	486.72
	35 - 40
	37.5
	4
	112.36
	449.44
	40 - 45
	42.5
	7
	31.36
	219.52
	45 - 50
	47.5
	18
	0.36
	6.48
	50 - 55
	52.5
	12
	19.36
	232.32
	55 - 60
	57.5
	6
	88.36
	530.16
	60 - 65
	62.5
	1
	207.36
	207.36
	Total
	
	50
	
	2132
Solución. Aplicando la formula de la definición.
Se sabe que la media aritmética de está distribución es:
 pasajeros
Luego aplicando la formula de definición la varianza, tenemos:
 pasajeros a bordo al cuadrado.
Por tanto la desviación estándar es: S = 6.596226 pasajeros a bordo.
2.4.3. Medidas de Dispersión relativa.
Las medidas de dispersión que se han descrito en la sección anterior se expresan en las unidades de medidas originales, tales como altura, salarios, kilogramos, puntajes, etc. Se pueden utilizar para comparar la variación de dos distribucionessiempre que las variables se expresen en las mismas unidades de medida y sean aproximadamente del mismo tamaño promedio. Sin embargo, a veces es necesario comparar dos o más conjuntos de datos expresados en unidades diferentes. Es esta situación hay que utilizar una medida relativa de dispersión que sería el coeficiente de variación.
Definición. El coeficiente de dispersión, es una medida de dispersión relativa de la desviación estándar con respecto a la media, es decir:
Coeficiente de variación = 
Generalmente el coeficiente de variación se expresa como un porcentaje. El C.V es un número puro independiente de la unidad de medición. 
Observación.- 
· Si el C.V es menor del 10% se dice que hay poca dispersión;
· Si el C.V oscila entre el 10% y el 33% la dispersión existente es aceptable;
· Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersión; 
· Pero si el C.V es mayor del 50% se dice que la dispersión es muy alta. 
Ejemplo 2.19. Calcular la dispersión relativa para los datos de la tabla 2.4 (página 24).
En efecto tenemos que y S = 6.596226, entonces el C.V es:
Como el valor de C.V = 13.71% se encuentra entre 10% y 33%, indica que la dispersión es aceptable. 
Ejemplo 2.20. En dos pruebas de conocimiento A y B, la prueba A se calificó sobre 100 puntos; la media aritmética de las calificaciones fue de 72 puntos con un desviación estándar de 9 puntos. La prueba B se calificó sobre 80 puntos y los resultados dieron una media de 52 puntos con una desviación estándar de 6. 
Halle en cuál de las dos pruebas hubo mayor variación.
Solución. 
Para ver en cuál de las dos prueba hubo mayor variación comparemos los coeficientes de variación de ambas pruebas.
(12.5%) y (11.5%)
Por lo tanto, la prueba de conocimiento B tiene menor variación en los puntajes. 
Ejercicio. Las notas del curso A tuvieron una media aritmética de 75 puntos y una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una varianza de 196. Si en ambos cursos las notas se incrementaron en 10%, ¿Cuál de los dos cursos tienen un coeficiente de variación mayor después de arreglar las notas? 
2.5. Análisis descriptivo de datos bidimensionales.
Hasta ahora, en las secciones precedentes se ha tenido en cuenta un solo carácter de cada individuo de las poblaciones, dando lugar, al observar sus diferentes modalidades, a variables estadísticas unidimensionales. Pero, obviamente, de cada elemento de la población pueden analizarse simultáneamente dos o más caracteres, obteniéndose de cada observación, respectivamente, dos o más datos o números que expresan la modalidad conjunta con que se manifiestan tales caracteres. La variabilidad conjunta de dos caracteres de los individuos de una población origina una variable estadística bidimensional; si son tres los caracteres analizados por individuo, la variable estadística se denomina tridimensional, y pluridimensional cuando son más de tres los caracteres recogidos simultáneamente de cada observación individual. Por ser el caso más frecuente, en lo sucesivo nos referiremos exclusivamente a las variables estadísticas bidimensionales o bivariados.
Aunque naturalmente las variables X e Y pueden estudiarse por separado, son numerosos los casos prácticos en los que interesa considerarlas conjuntamente para discernir acerca de su interrelación o interdependencia y determinar, en caso afirmativo, el grado de asociación estadística entre ellas. Este conocimiento puede facilitar, por ejemplo, el pronóstico fiable del valor medio de X correspondiente a un valor dado y de Y, o recíprocamente.
Cada una de las variables X e Y que constituyen la variable bidimensional (X, Y) se denomina componente o variable marginal de ésta, y puede ser tanto una variable cualitativa como una variable cuantitativa, ya sea discreta o continua. 
La variable estadística bidimensional (X, Y) se puede clasificar según la naturaleza de sus variables: cualitativos, cuantitativos discretos y cuantitativos continuos. Se obtienen los tipos de distribuciones de dos caracteres siguientes:
1. Los dos caracteres cualitativos. Por ejemplo, nivel educacional y religión.
2. Uno cualitativo, otro cuantitativo. Estos pueden ser:
a. Uno cualitativo, otro cuantitativo discreto. Por ejemplo, nivel educacional y número de hijos de las personas.
b. Uno cualitativo, otro cuantitativo continuo. Por ejemplo, estado civil y edad de las personas.
3. Los dos cuantitativos. Estos pueden ser:
a. Los dos cuantitativos discretos. Por ejemplo, número de horas extras trabajadas y número de accidentes de trabajo.
b. Uno discreto y el otro continuo. Por ejemplo, número de horas extras trabajadas y edad de la personas.
c. Los dos continuos. Por ejemplo, estatura y peso de las personas.
Cuando son observadas más de dos características, hablamos de variable estadística n-dimensionales, convirtiéndose entonces, el análisis en multivariante, situación que no analizaremos.
2.5.1. Presentación de la información mediante tablas Estadísticas Bidimensionales. 
Consideremos un conjunto de n observaciones descritos simultáneamente, según dos variables o características X e Y. designaremos por:
x1, x2, ..., xp las p modalidades o valores de la variable X;
y1, y2, ..., yq las q modalidades o valores de la variable Y
La tabla estadística que describe a las n observaciones, es una tabla de doble entrada llamada tabla de distribución de frecuencia bidimensional, donde figuran en las filas las modalidades o valores de la característica X, y en las columnas las modalidades o valores de la característica Y (tabla de k filas y de l columnas). 
Tabla 2.6. Distribución Bidimensional de Frecuencias Absolutas.
	 Modalidades
 o valores de Y
Modalidades
o valores de X 
	
y1
	
y2
	
...
	
yj
	
... 
	
yq
	Totales horizontales
= 
	x1
	n11
	n12
	...
	n1j
	... 
	n1q
	n1.
	x2
	n21
	n22
	...
	n2j
	...
	n2q
	n2.
	
	...
	...
	...
	...
	...
	...
	...
	xi
	ni1
	ni2
	...
	nij
	...
	niq
	ni.
	
	...
	...
	...
	...
	...
	...
	...
	xp
	np1
	np2
	...
	npj
	...
	npq
	np.
	Totales verticales
	
n.1
	
n.2
	
...
	
n.j
	
...
	
n.q
	
donde:
nij = el número de veces que aparece repetido el par (xi, yj) y se llama frecuencia absoluta del par (xi, yj) , i =1, 2, ..., p ; j =1, 2, ..., q.
= suma total de las frecuencias absolutas nij según el índice j, y se llama frecuencia marginal del valor xi.
= suma total de las frecuencias absolutas nij según el índice i, y se llama frecuencia marginal del valor yj.
= suma de las frecuencias absolutas nij observadas es igual al número de pares observados, n.
Observación 1. Si las variables X e Y son cualitativas la tabla de distribución bidimensionales se llama Tabla de Contingencia.
Ejemplo 2.21. Supongamos que queremos analizar el comportamiento conjunto de las variables: grado de instrucción completo (X) y región de procedencia (Y) de los empleados del ministerio de Agricultura en la ciudad de Lima, durante el año 2006. 
Tabla 2.7.
	Trabajador Nº
	Grado de 
instrucción 
	Región de
 procedencia
	51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
	Secundaria
Secundaria
Secundaria
Secundaria
Superior
Superior
Superior
Superior
Secundaria
Secundaria
Secundaria
Superior
Superior
Secundaria
Secundaria
Secundaria
Secundaria
Primaria
Superior
Superior
Secundaria
Secundaria
Superior
Superior
Superior
Secundaria
Secundaria
Primaria
Secundaria
Secundaria
Primaria
Superior
Superior
Secundaria
secundaria
Superior
Superior
Superior
Secundaria
Secundaria
Primaria
Superior
Superior
Superior
Secundaria
Secundaria
Primaria
Superior
Superior
secundaria
	Sierra
Costa
Costa
Selva
Selva
Costa
Costa
Sierra
Sierra
Costa
Selva
Costa
Sierra
Costa
Selva
Selva
Costa
Selva
Selva
Sierra
Costa
Costa
Costa
Costa
Selva
Sierra
Sierra
Sierra
Costa
Selva
Selva
Sierra
Costa
Costa
Sierra
Costa
Selva
Sierra
Costa
Costa
Sierra
Sierra
SelvaSelva
Costa
Selva
Sierra
Costa
Selva 
Sierra
 
	Trabajador Nº
	Grado de 
instrucción 
	Región de
 procedencia
	1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
	Superior
Primaria
Primaria
Secundaria
Secundaria
Secundaria
Superior
Primaria
Secundaria
Secundaria
Superior
Superior
Primaria
Secundaria
Secundaria
Primaria
Primaria
Primaria
Secundaria
Secundaria
Secundaria
Secundaria
Superior
Superior
Superior
Superior
Secundaria
Secundaria
Secundaria
Superior
Superior
Secundaria
Secundaria
Secundaria
Secundaria
Primaria
Superior
Superior
Secundaria
Secundaria
Secundaria
Superior
Superior
Primaria
Secundaria
Superior
Superior
Secundaria
Primaria
Superior
	Costa
Sierra
Selva
Selva
Selva
Costa
Costa
Sierra
Selva
Costa
Sierra
Sierra
Costa
Selva
Selva
Selva
Sierra
Sierra
Selva
Costa
Selva
Sierra
Costa
Costa
Sierra
Selva
Costa
Selva
Sierra
Costa
Costa
Selva
Selva
Costa
Costa
Sierra
Sierra
Costa
Selva
Costa
Sierra
Costa
Selva
Selva
Costa
Costa
Selva
Sierra
Costa
costa
Se pide: 
a) Construir una tabla de distribución bidimensional.
b) La tabla de distribución de frecuencias relativas. 
c) La tabla de distribución de las proporciones de los datos con relación al total de cada fila.
d) Hallar la distribuciones marginales de X e Y.
Solución.
a) La tabla bidimensional con sus frecuencias absolutas es:
Tabla 2.8. Distribución conjunta de las frecuencias de las variables, Grado de instrucción (X) y Región de procedencia (Y).
	 Región de
 Procedencia , Y
 Grado de 
 Instrucción, X 
	
Costa 
	
Sierra
	
Selva
	
Total
	
Primaria Completa
	
2
	
7
	
6
	
15
	
Secundaria Completa
	
20
	
10
	
17
	
47
	
Superior
	
18
	
9
	
11
	
38
	
Total
	
40
	
26
	
34
	
100
Fuente. Datos hipotéticos
Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones simultáneas de X e Y. Así observamos que, 2 empleados con primaria completa son de la costa, 20 empleados con secundaria completa son de la costa, etc.
Nota. Con la aplicación del Software Estadístico SPSS v. 12, escogemos: 
Analizar Estadísticas Descriptivas Tabla de Contingencia
 
Se obtiene como salida (output) la siguiente tabla bidimensional: 
 
b) 
Tabla 2.9. Distribución conjunta de las proporciones (en porcentajes) con relación al total general de las variables, grado de instrucción (X) y región de procedencia (Y).
	 Región de
 Procedencia , Y
 Grado de 
 Instrucción, X 
	
Costa 
	
Sierra
	
Selva
	
Total
	
Primaria Completa
	
2%
	
7%
	
6%
	
15%
	
Secundaria Completa
	
20%
	
10%
	
17%
	
47%
	
Superior
	
18%
	
9%
	
11%
	
38%
	
Total
	
40%
	
26%
	
34%
	
100%
Aquí podemos afirmar que de los empleados del ministerio de Agricultura son de la costa y tienen grado de instrucción primaria completa, de los empleados son de la Sierra y tienen grado de instrucción primaria completa, etc. 
c) 
Tabla 2.10. Distribución conjunta de las proporciones (en porcentajes) de trabajadores con
				relación a los totales de cada fila de las variables, grado de instrucción (X) y región de procedencia (Y).
	 Región de
 Procedencia , Y
 Grado de 
 Instrucción, X 
	
Costa 
	
Sierra
	
Selva
	
Total
	
Primaria Completa
	
13.3 %
	
46.7 %
	
40.0 %
	
100 %
	
Secundaria Completa
	
42.6 %
	
21.3 %
	
36.2 %
	
100 %
	
Superior
	
47.4 %
	
23.7 %
	
28.9 %
	
100 %
	
Total
	
40.0 %
	
26.0 %
	
34.0 %
	
100 %
Así, podemos decir que de los empleados del Ministerio de Agricultura, con primaria completa son de la costa, con primaria completa son de la Sierra y son de la selva.
Este tipo de distribuciones sirve para comparar la distribución de la procedencia de los individuos conforme a su grado de instrucción. En forma análoga podemos construir la distribución conjunta de las proporciones con relación al total de cada columna. La construcción de esta tabla se deja como ejercicio al estudiante.
d) Las frecuencias absolutas marginales para X e Y, están calculadas en la tabla 2.8 de la pregunta (a).
Tabla 2.11. Distribución Marginal para X.
	
Grado de instrucción
X
	Número de empleados ni•
	Proporción de 
empleados hi.
	Primaria completa
	15
	 15 %
	Secundaria Completa
	47
	 47 %
	Superior
	38
	 38 %
	Total
	100
	100 %
Tabla 2.12. Distribución Marginal para Y.
	
Región de procedencia
Y
	Número de empleados n•j
	Proporción de 
empleados h.j
	Primaria completa
	40
	 40 %
	Secundaria Completa
	26
	 26 %
	Superior
	34
	 34 %
	Total
	100
	100 %
Ejemplo 2.22. Si las variables x e y son cuantitativas
La siguiente información contiene las edades de los padres de los niños matriculados en educación inicial de cierta escuela estatal donde X = edad del padre, Y = edad de la madre.
 X Y X Y
 
20	 20 25 24
17	 16 27 26
18	 20 26 26
24	 16 27 24
21	 20 25 25
22	 19 27 28
23	 24 29 22
21	 22 30 23
21	 20 29 24
23	 24 27 24
24	 25 30 26
26	 19 32 27
25	 20 31 26
25	 22 30 26
26	 20 31 25
27	 23 29 28
25	 22 31 30
26	 22 30 29
25	 22 29 30
26	 20 31 31
25	 24 33 28
25	 25 33 26
26	 24 35 27
27	 26 33 30
27	 27 35 34
Se pide:
a) Construir la tabla de doble entrada para la variable bidimensional (X, Y).
b) Representar gráficamente esta distribución.
Solución.
a) Realizando el mismo procedimiento como en el caso unidimensional (ver capítulo 2), para cada variable, se tiene:
· Para la variable X: Edad del padre.
 R = Xmáx – Xmín = 35 – 17 = 18 Considerar un número de intervalos fijos k = 5.
 c = R / k = 18 / 5 = 3.6 ≈ 4. Los intervalos de clases resultantes son: 
( 16 – 20 ] , ( 20 – 24 ] , ( 24 – 28 ] , ( 28 – 32 ] , ( 32 – 36 ]
· Para la variable Y: Edad de la madre.
 R = Xmáx – Xmín = 34 – 16 = 18 Considerar un número de intervalos fijos k = 5.
 c = R / k = 18 / 5 = 3.6 ≈ 4. Resultando los siguientes intervalos de clases: 
( 15 – 19 ] , ( 19 – 23 ], ( 23 – 27 ] , ( 27 – 31 ] , ( 31 – 35 ]
Después de realizar la operación de tabulación se obtiene la siguiente tabla de frecuencias bidimensional:
Tabla 2.13. Distribución de 50 parejas de padres de familias de cierto colegio de
 educación inicial, según sus edades. Marzo del 2009. Piura.
	 Y 
X
	
(15 - 19 ]
	
(19 - 23 ]
	
(23 - 27 ]
	
(27 - 31 ]
	
(31 - 35 ]
	(16 - 20 ] 
	1
	2
	0
	0
	0
	(20 - 24 ]
	2
	3
	3
	0
	0
	(24 - 28 ]
	1
	8
	11
	1
	0
	(28 - 32 ]
	0
	2
	6
	5
	0
	(32 - 36 ]
	0
	0
	2
	2
	1
Fuente. Observación directa (encuesta) obtenida por un grupo de estudiantes de la escuela Profesional de ESTADÍSTICA de la UNP - 2009
Nota.
Una vez que los datos (las edades) para X e Y están clasificados en intervalos de clases, utilizando el Software SPSS 13 se procede a recodificar los valores en función de dichas categorías o intervalos de clases. Es decir, escogemos:
Transformar recodificar En distintas variables.
Una vez decodificado la información en categorías, se elige: 
 Analizar Estadísticos descriptivos Tabla de contingencia.
La salida (output) es la tabla de distribución 2.14.
Tabla 2.14
2.5.3. Representación Gráfica.
a) Si las variables X e Y son cualitativas. 
 En este caso se pueden hacer varias representaciones gráficas dependiendo de qué se quiere representar. Por ejemplo, si queremos representar: la distribución de las frecuencias absolutas o relativas, se pueden usar paralelepípedos de alturas proporcionales a nij (o hij) perpendiculares al plano XY, con centro en el punto (xi , yj). 
Ejemplo 2.23. En una muestra de 100 empleados del Ministerio de Agricultura se obtuvieron los resultados sobre el grado de instrucción y la región de procedencia que se presentan en la siguiente tabla:
Tabla 2.15
	 Región de
 Procedencia , Y
 Grado de 
 Instrucción, X 
	
Costa 
	
Sierra
	
Selva
	
Total
	Primaria Completa
	2
	7
	6
	15
	Secundaria Completa
	20
	10
	17
	47
	Superior
	18
	9
	11
	38
	Total
	40
	26
	34
	100
La representación grafica (paralelepípedo) de la distribución de frecuencias absolutas se muestra en la figura 2.11. 
Figura 2.11
Ejemplo 2.24. 
Tabla 2.16. PRINCIPALES INDICADORES DEMOGRAFICOS SEGÚN PAISES
 DE AMERICA: 1988
	
Países
	Tasa Bruta de
Natalidad
(por mil hab.)
	Tasa Bruta de
Mortalidad
(por mil hab.)
	Esperanza de vida
al nacer
(años)
	ARGENTINA
COLOMBIA
CHILE
MÉXICO
PERÚ
VENEZUELA
	21
29
24
29
34
30
	9
7
6
6
9
5
	71
65
72
69
62
70
Fuente. Fondo de Naciones unidas para la infancia. Estudio mundial de la 
infancia 1990.
Figura 2.12. Principales Indicadores Demográficos, según países de América: 1988 
En cambio, si por ejemplo queremos representar: la distribución de uno de ellos respecto del otro o la distribución total de cada uno de ellos, se pueden usar las conocidas barras compuestas o proporcionales.
Las barras compuestas (o apiladas), se caracterizan por presentar en una sola figura geométrica, datos cuyo conjunto forman un todo, mostrando la proporción de cada una de las partes con relación al total. Se dibuja el diagrama de barras de una de las series estadísticas y luego se continúa las barras dibujadas con otras de distinto sombreado o color que representaran la segunda serie estadística. De esta forma, cada barra tendrá una altura, que será la suma de las frecuencias del suceso que representa la barra en la primera serie más la frecuencia absoluta del suceso en la segunda serie.
La diferencia con los gráficos de barras simples, dobles o múltiples está en que todos los datos están representados en una sola barra, la cual está dividida en porciones, que pueden representar también el peso porcentual de cada una de las partes con relación al 100% que forma la totalidad de ellas.
Ejemplo 2.25. Considerando la información del ejemplo 2.23, la representación gráfica de barras compuestas o apiladas de la distribución de uno de los caracteres (en este caso, el grado de instrucción) respecto del otro (región de procedencia), se muestra en la figura 2.13.
Figura 2.13
Por otro lado, la representación grafica de la distribución total de cada carácter, se da en la figura 2.14. 
Figura 2.14
b) Si una variable es cuantitativo y el otro cualitativo.
Las representaciones gráficas son las mismas que el caso anterior. Además puede usarse las barras múltiples o también los gráficos de líneas de partes componentes.
El grafico de barras múltiples, es utilizado cuando se esta interesado en comparar una o más series estadísticas con otra. El diagrama de barras múltiples, es un conjunto de barras simples identificado por distintos colores o sombreado, identificando esa distribución bajo el título de leyendas. Las barras serán puestos en el gráfico uno al lado de las otras, cuya separación entre cada grupo identificado no debe ser menor que la mitad del ancho de una barra, ni mayor que el ancho de la misma. 
Ejemplo 2.26. La distribución de 284 personas según el nivel de estudio por número de hijos es la tabla 2.17.
Tabla 2.17
	 Nº de Hijos 
 Nivel de 
 Estudios
	
0
	
1
	
2
	
3
	
4 ó más
	
Total
	Primaria Completa o menos
	2
	5
	14
	29
	35
	85
	Secundaria Completa
	5
	24
	37
	40
	30
	136
	Superior
	10
	15
	30
	6
	2
	63
	Total
	17
	44
	81
	75
	67
	284
La gráfica de la distribución de uno de los caracteres (número de hijos) respecto de los otros se representa por las barras múltiples (o barras agrupadas), figura 2.15.
Figura 2.15
Dr. César Haro Díaz
31
N
25
13
N
4
vo
3
=
<
<
=
33
.
48
13
 
 
31
13
 
 
25
5·
 
 
45
 
X
~
=
ú
û
ù
ê
ë
é
-
-
+
=
4
n
r 
j
1
j
N
 
 
4
n
r 
 
 
N
£
£
-
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
-
-
+
¢
=
-
-
-
1
j
j
1
j
1
j
r
N
 
 
N
N
 
 
4
n
r 
c·
 
 
X
 
Q
 
 
50
 
log
 
3.322
1
K
=
+
=
vo
12.5
4
50
4
n
=
=
vo
.5
37
4
150
4
n
 
3
=
=
3
2
N
13
 
 
12.5
4
n
 
 
6
N
=
<
=
<
=
5
4
N
43
 
 
.5
37
4
3n
 
 
31
N
=
<
=
<
=
64
.
44
6
 
 
13
6
 
 
5
.
12
·
5
40
N
 
 
N
N
 
 
4
n
 
c·
 
 
X
 
Q
2
3
2
1
j
1
=
ú
û
ù
ê
ë
é
-
-
+
=
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
-
-
+
¢
=
-
71
.
52
31
 
 
43
31
 
 
5
.
37
·
5
50
N
 
 
N
N
 
 
4
n
 
3
c·
 
 
X
 
Q
4
5
4
1
j
3
=
ú
û
ù
ê
ë
é
-
-
+
=
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
-
-
+
¢
=
-
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
-
-
´
+
¢
=
-
-
-
1
j
j
1
j
1
j
r
N
 
 
N
N
 
 
100
n
r 
c
 
 
X
 
P
"
15
 
K 
 
 
5
£
£
0
μ
M
X
=
=
=
0
μ
M
X
.......
X
μ
=
ú
û
ù
ê
ë
é
D
+
D
D
+
¢
=
-
2
1
1
1
j
 
 
c·
 
 
X
 
X
m
Mo
n
1
Mo
1
n
n
Δ
-
=
2
Mo
2
n
n
Δ
-
=
]
i
1
i
Y
 
Y
 
(
¢
-
¢
-
]
50
 
45
 
(
-
K
R
c
=
11
7
18
1
=
-
=
D
6
12
18
2
=
-
=
D
235
.
48
6
 
 
11
11
5·
 
 
45
 
X
=
ú
û
ù
ê
ë
é
+
+
=
m
m
X
 
 
X
~
 
 
X
=
=
m
X
 
 
X
~
 
 
X
>
>
m
X
 
 
X
~
 
 
X
<
<
1
n
)
x
(x
S
n
1
i
2
i
2
-
-
=
å
=
1
n
n
)
y
(y
S
V(Y)
k
1
i
i
2
i
2
-
´
-
=
=
å
=
μ
7143
.
4
7
33
=
=
c
N
μ)
(x
σ
k
1
i
2
i
2
å
=
-
=
ú
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ê
ë
é
÷
ø
ö
ç
è
æ
-
-
=
å
å
=
=
n
1
i
2
n
1
i
i
2
i
2
n
x
 
 
x
1
n
1
S
ú
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ê
ë
é
÷
ø
ö
ç
è
æ
-
-
=
å
å
=
=
k
1
i
2
k
1
i
i
i
i
2
i
2
n
n
x
 
 
n
x
1
n
1
S
V(X)
S
=
x
9
.
10
10
109
10
18
 
 
····
 
 
5
 
5
10
10
1
i
i
x
x
=
=
+
+
+
=
=
å
=
9889
.
26
9
)
9
.
10
18
(
····
)
9
.
10
5
(
)
9
.
10
5
(
1
10
)
x
(x
S
2
2
2
10
1
i
2
i
2
=
-
+
+
-
+
-
=
-
-
=
å
=
109
18
···
5
5
x
10
1
i
i
=
+
+
+
=
å
=
431
1
18
 
····
 
5
5
x
2
2
2
10
1
i
2
i
=
+
+
+
=
å
=
9889
.
26
10
)
109
(
1431
9
1
n
x
 
 
x
1
n
1
S
2
n
1
i
2
n
1
i
i
2
i
2
=
ú
û
ù
ê
ë
é
-
=
ú
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ê
ë
é
÷
ø
ö
ç
è
æ
-
-
=
å
å
=
=
35
7
5
K
c
R
=
´
=
´
=
¢
195
.
5
26.9889
S
=
=
]
i
1
i
Y
 
Y
 
(
¢
-
¢
-
2
i
)
y
(y
-
1
.
48
Y
=
5102
.
43
49
2132
1
n
)
y
(y
n
S
k
1
i
2
i
i
2
=
=
-
-
=
å
=
x
S
C.V
=
%
71
.
13
100
1
.
48
596226
.
6
C.V
=
´
=
125
.
0
72
9
C.V(A)
=
=
0.115
52
6
C.V(B)
=
=
]
i
1
i
Y
 
Y
 
(
¢
-
¢
-
å
=
·
=
q
1
j
i
ij
n
n
M
å
=
·
=
p
1
i
j
ij
n
n
å
å
=
=
·
·
=
=
p
1
i
q
1
j
ijn
n
n
"
å
=
·
=
q
1
j
ij
i
n
n
å
=
·
=
p
1
i
ij
j
n
n
å
å
=
=
=
p
1
i
q
1
j
ij
n
n
Recuento
2
7
6
15
20
10
17
47
18
9
11
38
40
26
34
100
Primaria
Secundaria
Superior
Grado de
Instrucción
Total
Costa
Sierra
Selva
Región de Procedencia
Total
2%
100
100
2
100
h
11
=
´
=
´
1
i
Y
-
¢
%
7
100
100
7
100
h
12
=
´
=
´
%
 
13.3
100
15
2
100
n
n
1
11
=
´
=
´
·
%
 
7
.
46
100
15
7
100
n
n
1
12
=
´
=
´
·
%
 
0
.
40
100
15
6
100
n
n
1
13
=
´
=
´
·
Tabla de contingencia Edad del padre * Edad de la madre
Recuento
1
2
0
0
0
3
2
3
3
0
0
8
1
8
11
1
0
21
0
2
6
5
0
13
0
0
2
2
1
5
4
15
22
8
1
50
( 16 - 20 ]
( 20 - 24 ]
( 24 - 28 ]
( 28 - 32 ]
( 32 - 36 ]
Edad del
padre, X
Total
( 15 - 19 ]
( 19 - 23 ]
( 23 - 27 ]
( 27 - 31 ]
( 31 - 35 ]
Edad de la madre, Y
Total
6
7
2
17
10
20
11
9
18
ARGENTINA
COLOMBIA
CHILE
MÉXICO
PERÚ
VENEZUELA
0
10
20
30
40
50
60
70
80
Tasa Bruta de Mortalidad
Tasa Bruta de Natalidad
Esperanza de vida al nacer
Primaria Secundaria Superior
Grado de Instrucción
0
5
10
15
20
25
30
35
40
45
50
Número de empleados
2
20
18
7
10
9
6
17
11
Región de 
Procedencia
Costa
Sierra
Selva
Primaria Secundaria Superior
Grado de Instrucción
0,0
0,2
0,4
0,6
0,8
1,0
Proporción
Región de 
Procedencia
Costa
Sierra
Selva
Número de hijos _ Nivel de Estudios
0
5
10
15
20
25
30
35
40
45
01234 ó más
N° de hijos
Número de personas
Primaria
Secundaria
Superior
i
Y
¢
]
35
 
30
 
(
-
2
Y
Y
Y
i
1
i
i
¢
+
¢
=
-
2
4.0
4.0
4.0
4
8.0
8.0
12.0
7
14.0
14.0
26.0
18
36.0
36.0
62.0
12
24.0
24.0
86.0
6
12.0
12.0
98.0
1
2.0
2.0
100.0
50
100.0
100.0
(30 - 35]
(35 - 40]
(40 - 45]
(45 - 50]
(50 - 55]
(55 - 60]
(60 - 65]
Total
Válidos
Frecuencia
Porcentaje
Porcentaje
válido
Porcentaje
acumulado
Histograma de frecuencias del número de pasajeros a bordo de los autobuses
Número de pasajeros
Número de autobuses (ni)
30
35
40
45
50
55
60
65
0
3
6
9
12
15
18
21
Color_bebida
ROJONEGROBLANCO
Número de personas
10
8
6
4
2
0
Diagrama de rectangulos para las bebidas gaseosas de acuerdo a su color
ROJO
NEGRO
BLANCO
Diagrama de sectores para las gaseosas, segun su color de preferencia
X
n
x
X
n
1
i
i
å
=
=
n
n
 
x
X
K
1
i
i
i
å
=
=
å
=
=
k
1
i
i
n
n
1
.
48
50
2405
n
n
 
y
Y
K
1
i
i
i
=
=
=
å
=
1
X
2
X
r
X
n
n
 
X
n
...
n
n
n
X
...
n
X
n
X
X
r
1
i
i
i
r
2
1
r
r
2
2
1
1
å
=
=
+
+
+
+
+
=
å
=
=
r
1
i
i
n
n
n
p
p
 
X
...
p
p
X
...
p
X
p
X
X
r
1
i
i
r
1
i
i
i
r
2
1
r
r
2
2
1
1
å
å
=
=
=
+
+
+
+
+
=
p
p
A
x
B
x
8
.
11
x
A
=
5
.
12
x
B
=
x
17
.
12
45
40
)
5
.
12
(
45
)
8
.
11
(
40
n
n
x
n
x
n
x
B
A
B
B
A
A
=
+
+
=
+
+
=
17
.
12
x
=
mediana
Med(X)
X
~
=
=
2
 / 
1)
(n
X
Me
+
=
Número de hijos por familia
Número de hijos 
4
3
2
1
0
Número de familias
8
6
4
2
0
2
1
n
+
2
X
X
Me
1
2
n
2
n
+
+
=
7
2
1
n
=
+
=
=
Med(x)
X
~
5
.
11
2
14
9
=
+
=
Me
n
 
log
 
3.322
1
K
+
=
2
n
j
1
j
N
 
 
2
n
 
 
N
£
£
-
ú
ú
ú
ú
û
ù
ê
ê
ê
ê
ë
é
-
-
+
¢
=
-
-
-
1
j
j
1
j
1
j
N
 
 
N
N
 
 
2
n
c·
 
 
X
 
X
~
1
j
X
-
¢
vo
25
2
50
2
n
=
=

Continuar navegando