Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
25 Capitulo 2. Análisis descriptivo de los datos Estadísticos. ANALISIS DESCRIPITIVO DE DATOS ESTADÍSTICOS. 2.1 Introducción. En este capítulo se darán un conjunto de instrumentos que permitirán el análisis descriptivo de una y dos variables. En el caso de una variable estadística, en primer lugar se indicará la forma de organizar y presentar la información, una vez que se ha observado la población y ha sido medido uno de los caracteres de todos y cada uno de los elementos de la misma. Esta operación nos llevará a la obtención de una distribución de frecuencias. Una vez que se tienen los datos organizados mediante esa distribución hay que iniciar el proceso de análisis de la variable. En este proceso de análisis de una variable hay que definir ciertos instrumentos que nos permitan estudiar sus características más relevantes. Entre las mismas cabe destacar las siguientes: medidas de posición (valor central o promedios); dispersión; asimetría; curtosis. Posteriormente abordaremos el estudio descriptivo de las series estadísticas de dos caracteres, como son: la presentación de tablas estadísticas bidimensionales, la representación gráfica de las tablas, la descripción numérica de las series estadísticas de dos caracteres, etc. 2.2. Presentación de los datos de una variable estadística. Después de obtener un conjunto de datos, es necesario presentarlos en forma tal, que facilite su compresión y su posterior análisis y utilización. No servirá de nada que estas medidas se presenten en un simple listado. Lo mejor será ordenarlos en tablas o cuadros y luego representarlo en gráficos. Si se tienen pocos datos, y estos son valores discretos, entonces conviene presentar una distribución de frecuencias sin intervalos; pero si se tiene valores continuos o muchos valores discretos, conviene presentar una distribución de frecuencia por intervalos. 2.2.1. Distribución de frecuencias sin intervalos: Ejemplo 2.1. Supóngase que ante la pregunta del número de hijos por familia (variable X) una muestra de 20 hogares, marcó las siguientes respuestas: 2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4. Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3, 4 que se repiten respectivamente 1, 4, 7, 6, 2 veces. La distribución de frecuencias de X se da en el tabla 2.1. Tabla 2.1. Distribución de frecuencias del número de hijos por familia. Número de hijos Xi Frecuencias Absolutas ni Frecuencias Relativas hi Frecuencias Porcentajes hi (%) 0 1 2 3 4 1 4 7 6 2 0.05 0.20 0.35 0.30 0.10 5 20 35 30 10 Total 20 1.00 100 Fuente. Datos obtenidos de los formularios de la encuesta. Gráfico. La representación gráfica más común para este tipo distribución de frecuencias es el diagrama de barras que consiste en trazar en cada valor distinto de la variable, segmentos de líneas proporcionales a su frecuencia. Figura 2.1. Diagrama de barras para los datos de la tabla 2.1. 2.2.2. Distribución de frecuencias por intervalos. La distribución de frecuencia por intervalos o clases se usa cuando la variable estadística es continúa o cuando el número de valores distintos de una variable discreta es grande. Elaboración de las tablas de frecuencias. Ejemplo 2.2. Para esclarecer la construcción de la tabla de frecuencias para datos agrupados en intervalos de clase, desarrollaremos un ejemplo, tomando como datos las observaciones del número de pasajeros a bordo de 50 autobuses cuando salen del terminal terrestre de castilla a los distintos distritos de la provincia de Piura, durante la última semana de mayo de 2008. Los autobuses tienen 55 asientos cada uno y los pasajeros adicionales deben viajar de pie. 56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51 64 48 45 40 56 51 52 46 51 47 48 31 49 42 54 50 51 47 56 46 53 58 41 50 49 52 48 55 45 35 36 43. Se pide representar los datos en una tabla de frecuencias. Solución. 1º. Debemos de determinar el rango ( R ) de variación de los datos que se define por: R = Xmax - Xmin En nuestro ejemplo, tenemos: Valor mínimo Xmin = 31 Valor máximo Xmáx = 64 Luego el rango es R= 64 - 31= 33 2º. Tenemos que calcular ¿cuantas clases deben formarse?. Para eso se usa la fórmula de Sturges: donde: K = número de clases n = número de elementos en la muestra (tamaño de la muestra). Aplicando la fórmula tenemos: 6.644 redondeando al entero inmediato mayor por que, como ya se indico, la formula es un poco conservadora, obtenemos: K = 7. Nota.- por razones extraídas de la práctica, se adoptan los siguientes límites para K. 3º. La idea es resumir los valores con el fin de percibir algunas características o propiedades de los datos que no aparecen a simple vista. Para esto vamos a clasificar los 50 autobuses en 7 clases, de acuerdo con la formula de Sturges. La amplitud de cada intervalo de clase que representamos con la letra c, se obtiene por medio de la formula: Aplicando los datos a la fórmula anterior, se tiene: Redondeamos a 5. Luego c = 5 y por tanto, el nuevo recorrido será: 4º. Teniendo en cuenta que este recorrido es mayor que el recorrido original, buscaremos el exceso: Exceso = 35 - 33= 2 pasajeros Debemos repartir este exceso a los dos extremos del recorrido original, mitad a cada lado, en este caso 1 a cada extremo. Sumamos el número 1 al valor máximo: 64 + 1 = 65 y restamos el número 1 al valor mínimo: 31 - 1 = 30. A partir de este valor 30 agregamos sucesivamente la amplitud 5 y obtenemos los puntos de división que determinan los 7 intervalos (ver figura 2.2). 30 35 40 45 50 55 60 65 Figura 2.2 sin embargo una dificultad se presenta cuando algunos de los datos coincide con cualquiera de los puntos de división: 35, 40, 45, 50, 55 y 60. 5º. Supongamos que un dato es 35 ¿donde lo colocamos?- ¿en el primer intervalo cuyos extremos son 30 y 35?- (ver Fig. 2.1) ó ¿en el segundo intervalo que tiene por extremos 35 y 40?- Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no incluye al valor 30 (límite inferior del intervalo) y cerrado por la derecha que incluye al valor 35 (límite superior del intervalo). Este tipo de intervalo se representa matemáticamente por: , donde representa el límite inferior del intervalo y representa el límite superior. Así, en nuestro ejemplo el primer intervalo lo escribiremos como . Por tanto los intervalos de clase quedan definidos como: Intervalo de clases (30 - 35] (35 - 40] (40 - 45] (45 - 50] (50 - 55] (55 - 60] (60 - 65] 6º. Es conveniente que todos y cada uno de los datos que se hallen dentro de un mismo intervalo, estén representados por un mismo valor. Este valor caracteriza a la clase y por eso se llama marca de clase, se obtiene promediando los límites de cada intervalo. Una formula para calcular la marca de clase de un intervalo es: 7º. A continuación debemos realizar la clasificación y conteo de los datos, es decir, colocar cada uno de ellos dentro de su clase. Se presenta la tabla 2.2, conocida como tabla de distribución de frecuencias absolutas. Tabla 2.2. Distribución de frecuencias de 50 autobuses según el número de pasajeros a bordo. Salida del terminal de autobuses de Piura. Mayo del 2008. Intervalo de clase Marca de clase Yi Frecuencia ni Frecuencia relativa Frecuencia acumulada Frecuencia acumulada 30 - 35 32.5 2 0.04 2 0.04 35 - 40 37.5 4 0.08 6 0.12 40 - 45 42.5 7 0.14 13 0.26 45 - 50 47.5 18 0.36 31 0.62 50 - 55 52.5 12 0.24 43 0.86 55 - 60 57.5 6 0.12 49 0.98 60 - 65 62.5 1 0.02 50 1.00 Total 50 1.00 Fuente. Registro de salida del terminal de autobuses de la ciudad de Piura.30 de mayo de 2008. Interpretación.- n2 = 4, significa que 4 autobuses tuvieron a bordo un número mayor de 35 pasajeros y menor o igual a 40 pasajeros. N4 = 31, significa que 31 autobuses tuvieron a bordo un número mayor que 30 y menor o igual que 50 pasajeros, o también significa que 31 autobuses tuvieron a bordo un número menor o igual a que 50 pasajeros. h3 = 0.14, significa que el 14% de los autobuses tuvieron a bordo número mayor de 40 pasajeros y menor o igual a 45 pasajeros. H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un número mayor que 30 y menor o igual que 55 pasajeros, o también significa que 86% del total de autobuses tuvieron a bordo un número menor o igual a que 55 pasajeros. N6 - N2 = 49 - 6 = 43 autobuses tuvieron a bordo un número mayor que 40 y menor o igual que 60 pasajeros. Ejercicio. 1. Abrir la ventana Descripción, escoger la opción Datos numéricos Análisis unidimensional, enseguida seleccionar el icono Opciones tabulares Tablas de frecuencias en el programa estadístico STATGRAPHICS Plus para Windows 5.1, para obtener la tabla de distribución de frecuencias de nuestro ejemplo ilustrativo que se viene considerando. 2. Una vez que los datos de la variable Y: Número de pasajeros a bordo, está clasificado en intervalos de clases, utilizando el Software SPSS 12 proceda a recodificar los valores en función de dichas categorías o intervalos de clases. Es decir, escogemos: Transformar recodificar En distintas variables. Una vez decodificado la información en categorías, se elige: Analizar Estadísticos descriptivos Frecuencias. Para obtener como salida la siguiente tabla de distribución de frecuencias. Compruébelo usted. Gráfico de la distribución por intervalos. Los gráficos más usadas son: Histograma, Polígono de frecuencias y polígono de frecuencias acumuladas u ojiva. a) Histograma. Es una representación gráfica de una distribución de frecuencias agrupadas en intervalos de clase, mediante una serie de rectángulos contiguos que tienen: · sus bases sobre un eje horizontal y cuya longitud será igual al tamaño de los intervalos de clase. · Las alturas proporcionales a la frecuencia (absoluta o relativa). Ejemplo 2.3. Abriendo la ventana Descripción y luego escogiendo la opción Datos numéricos Análisis unidimensional Opciones gráficas y finalmente seleccionar Histograma de frecuencias en el programa estadístico STAGRAPHICS, obtener el gráfico de histograma de frecuencias absolutas para el ejemplo 2.2. Figura 2.3. Histograma de la distribución del número de pasajeros por autobús de la tabla 2.3. 2.2.3. Distribución de frecuencias: Variable cualitativa Consideremos el siguiente ejemplo: Ejemplo 2.4. En una encuesta de opinión acerca de las preferencias de una marca de bebidas gaseosas por sus colores: Negro (N), Blanco (B), Rojo (R), 20 consumidores dieron las siguientes respuestas: B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N. Construir la distribución de frecuencias. Solución. La tabulación de estos datos, donde la variable cualitativa es X: Color de bebida gaseosa, es la distribución de frecuencias de la tabla 2.3. Tabla 2.3. Distribución de personas por su color preferido de una marca de bebida gaseosa. Color de Bebida Número de Consumidores: ni Frecuencias relativas: hi Frecuencias Porcentajes: hi(%) Blanco (B) Negro (N) Rojo (R) 8 9 3 0.40 0.45 0.15 40 45 15 Total 20 1.00 100 Fuente. Datos obtenidos de la encuesta realizada. Ejercicio. 1. Mediante el Software STATGRAPHICS, el Abriendo la ventana Descripción y luego escogiendo la opción Datos cualitativos Tabulación - Entrada de datos, construir la tabla de frecuencias de nuestro ejemplo ilustrativo sobre la preferencia de los colores de las bebidas gaseosas. 2. Utilizando el Software SPSS, el Abriendo la ventana Analizar y luego escoger Estadísticos descriptivos Frecuencias, construir la tabla de frecuencias para el ejemplo anterior. Gráficos. Los gráficos más comunes para la distribución de frecuencias de variable cualitativa son el de diagrama de rectángulos y el de sectores circulares. En un Diagrama de rectángulos los datos de cada una de las modalidades (caracteres cualitativos) se representa por un rectángulo vertical (u horizontal), cuya altura (o largo) es proporcional a su frecuencia (absoluta o relativa). Los rectángulos se dibujan dejando un espacio entre ellos. Ejemplo 2.5. Con el software SPSS, Abriendo la ventana Analizar, escogiendo Estadísticos descriptivos Frecuencias y finalmente en el icono Opciones gráficas seleccionar Diagrama de barras para obtener el diagrama de rectángulos para los datos de la tabla 2.3. Figura 2.6. Diagrama de rectángulos para los datos de la tabla 2.4. En un gráfico circular, los datos de cada categoría se representan por un sector circular. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Para construir se divide el circulo en sectores, cuyas áreas serán proporcionales a los valores de la variable. Está división es obtenida a través de la regla de 3 simples. Total 360o Parte xo Ejemplo 2.6. Construir el diagrama de sectores para la información contenida en la tabla 2.3, mediante el paquete SPSS. Abriendo la ventana analizar, escogiendo Estadísticos descriptivos Frecuencias y finalmente en el icono gráfico seleccionar gráficos de sectores. Figura 2.7. Diagrama de sectores circulares para los datos de la tabla 2.4. 2.3. Medidas de posición En la sección anterior estudiamos de que manera los datos podrían ser presentados en forma compacta, comprensible mediante tablas y gráficos. Sin embargo, con frecuencia necesitamos resumir aún más para facilitar el análisis e interpretación de la información. Cuando la variable en estudio es cuantitativa, el investigador puede estar interesado en encontrar un solo valor, que pueda caracterizar más nítidamente la naturaleza de los datos que se están midiendo. Un valor que refleje la tendencia de los datos puede darse mediante las medidas de tendencia central o de posición. Las más importantes y muy usadas son: la media aritmética o media, la mediana, la media geométrica y la media armónica. También podemos mencionar a los percentiles, etc. Estas medidas o estadígrafos son considerados como medidas de localización, puesto que señalan la localización de los valores más frecuentes o de valores extremos. 2.3.1. La Media Aritmética. a) Datos no agrupados. Sea x1, x2,..., xn valores de la variable X. La media aritmética simple de X representada por es dado por: donde n= es el tamaño de la muestra. b) Datos agrupados. Sean x1, x2,..., xk valores de la variable X ponderada por sus respectivas frecuencias absolutas: n1, n2, ..., nk. La media aritmética de la variable X es dado por: , donde . Ejemplo 2.7. Considerando la información contenida en la tabla 2.4, determinar el número medio de pasajeros a bordo por autobús. Tabla 2.4. Distribución de frecuencias de 50 autobuses según el número de pasajeros a bordo. Yi ni Yini 30 - 35 32.5 2 65 35 - 40 37.5 4 150 40 - 45 42.5 7 297.5 45 - 50 47.5 18 855 50 - 55 52.5 12 630 55 - 60 57.5 6 345 60 - 65 62.5 1 62.5 Total 50 2405 Luego la media aritmética de estos datos será: pasajeros por autobús. Observación .- · Si consideramos muestras de tamaño n1, n2,...,nr de una población, a los cuales le corresponden medias aritméticas , , ..., respectivamente, entonces la media asociada a la muestra de tamaño n1 + n2 +...+ nr está dado por: donde . · Si p1, p2, ....,pr son los pesos o ponderaciones asociados a los valores de la variable X: x1, x2, ...,xr respectivamente, entonces la media aritmética ponderada será: Ejemplo 2.8. Un examen de estadística aplicada fue rendido por 40 alumnos de una sección A y 45de una sección B. En la sección A se obtuvo un promedio de 11.8 y en la sección B su promedio fue de 12.5. Hallar la media aritmética de las notas de todos los estudiantes que rindieron el examen Solución. Sea: n A = número de alumnos de la sección A. n B = número de alumnos de la sección A. = la media aritmética de las notas de la sección A. = la media aritmética de las notas de la sección B. Es decir: n A = 40, n B = 45, y Sea la media aritmética de las notas de todos los estudiantes que dieron la prueba. Entonces: Es decir, el promedio de las dos secciones es Desventajas de la media aritmética. 1. La media aritmética puede verse afectado por los valores extremos que no son representativos del resto de las observaciones. 2. No se puede calcular la media aritmética en las distribuciones que tienen intervalos de clase abierto en los extremos. 2.3.2. La Mediana. La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma ascendente o descendente en dos grupos de igual número de observaciones. La notación que vamos a emplear será: Cálculo de la mediana a) Datos no agrupados. Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendrá en cuenta el siguiente procedimiento: 1) Se ordenan los datos en forma ascendente o descendente. 2) Si n es impar, el valor de la mediana es el valor del centro, es decir, donde es la posición de la mediana. 3) si n es par, el valor de la mediana va a estar dado por: Esto quiere decir, que el valor de la mediana se encuentra entre los valores cuya posición son: n/2 y (n/2+1). Ejemplo 2.9. Las siguientes cifras son los importes del consumo (en soles) de 13 personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30. Determinar la mediana de estos importes. Solución. Ordenando la información en forma ascendente, tenemos: 13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50. Como el número de datos es impar (n = 13), se tiene que la posición de la mediana es: , luego la mediana de los importes es: soles Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor o igual que 30 soles y el 50% restante de las personas tienen un importe mayor que 30 soles. Ejemplo 2.10. Las notas de 10 alumnos en el primer examen en la asignatura de ESTADISTICA APLICADA A LA INVESTIGACIÒN fueron los siguientes: 5, 5, 5, 7, 9, 14, 15, 15, 16 y 18 Determine la mediana para este grupo de notas. Solución. En este caso, n es par, por consiguiente la mediana se localiza entre los valores centrales X5 y X6, es decir, entre los valores 9 y 14. Por tanto, el valor mediano de las notas es: minutos. b) Datos agrupados. En este caso el problema consiste en determinar un punto dentro del intervalo en que está comprendida la mediana. Procedimiento: 1º. Calcular la posición de orden . 2º. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es, la clase para el cual se cumple: , Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada Ni. 3º. Utilizar la formula: donde: = límite inferior de la clase que contiene a la mediana. n = tamaño de la muestra. c = amplitud de la clase que contiene a la mediana. Nj = frecuencia acumulada de la clase que contiene a la mediana. Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la mediana. Ejemplo 2.11. A partir de la distribución de frecuencia de los 50 autobuses según el número de pasajeros a bordo (ver tabla 2.4), se pide determinar el número mediano de pasajeros por autobús. Solución. Yi ni Ni 30 - 35 32.5 2 2 35 - 40 37.5 4 6 40 - 45 42.5 7 13 45 - 50 47.5 18 31 50 - 55 52.5 12 43 55 - 60 57.5 6 49 60 - 65 62.5 1 50 Total 50 1º. posición 2º. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es, a través de la desigualdad: En este caso, la clase que contiene a la mediana es el cuarto. 3º. Reemplazar los datos en la formula obtenemos: Pasajeros. Interpretación. Este valor mediano significa, que el 50% de los autobuses tuvieron a bordo un número menor o igual que 48.33 pasajeros, en tanto que el otro 50% tuvieron a bordo un número mayor que 48.33 pasajeros. Ventajas de la mediana. 1. Algunas veces es un valor más representativo de un conjunto de datos que otros promedios (por ejemplo, que la media aritmética), gracias a su independencia, a sus valores extremos. 2. La mediana se puede calcular aún cuando los intervalos de clase de la distribución de frecuencias son de límites abiertos. 2.3.3. Los Cuartiles. Son valores que dividen a un conjunto de datos ordenados en forma ascendente o descendente en cuatro partes iguales (figura 2.8). 0% 25% 50% 75% 100% Q1 Q2 Q3 Figura 2.8 Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superiores a él. Q2 = 2do cuartil, coincide con la mediana. Q3 = 3er cuartil, deja 75% de las observaciones inferiores o iguales a él y el 25% de éstas superiores a él. Es importante notar que entre dos cuartiles consecutivos se halla el 25% del número de valores. Las formulas para calcular los cuartiles se derivan de la formula utilizada para calcular la mediana y los pasos para el cálculo son los mismos: Procedimiento. 1º . Se calcula , para r = 1, 2, 3. 2º . Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas, esto es, por la desigualdad: 3º . Se aplica la fórmula: r = 1, 2, 3. Donde: = límite inferior de la clase que contiene al cuartil Qr. n = tamaño de la muestra. c = amplitud de la clase que contiene a Qr. Nj = frecuencia acumulada de la clase que contiene a Qr. Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a Qr. Ejemplo 2.12. Dada la siguiente distribución, determinar los cuartiles Q1 y Q3. Yi ni Ni 30 - 35 32.5 2 2 35 - 40 37.5 4 6 40 - 45 42.5 7 13 45 - 50 47.5 18 31 50 - 55 52.5 12 43 55 - 60 57.5 6 49 60 - 65 62.5 1 50 Total 50 Solución.- 1º. ; 2º. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3. Como , entonces el intervalo de clases que contiene a Q1 es (40 - 45] y como , entonces el intervalo de clases que contiene a Q3 es (50 - 55]. 3º. Usando las formulas dada para calcular Q1 y Q3 tenemos: pasajeros pasajeros. De acuerdo a estos resultados, podemos afirmar que, en está distribución tenemos: 25% 25% 25% 25% 30 Q1 = 44.64 Q2 = 48.33 Q3 = 52.71 65 2.3.4. Percentiles. Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales. 0% 1% 2% 50% 98% 99% 100% P1 P2 P50 P98 P99 Figura 2.9 P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él. . . . P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a él y el 1% superiores a él. Las formulas para determinar los percentiles, son parecidos a los cuartiles, así: r = 1, 2, ... , 99 donde: = límite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99. n = tamaño de la muestra. c = amplitud de la clase que contiene aPr. Nj = frecuencia acumulada de la clase que contiene a Pr. Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr. Ejercicio.- Determinar los valores de los puntos percentiles 10 y 90, para los datos del número de pasajeros a bordo, de la tabla 2.5 (página 23). 2.3.5. La Moda.- La moda denotada por , es un valor de la variable que tiene la más alta frecuencia, esto es, es el valor más frecuente en un conjunto de datos. La moda puede no existe, incluso si existe puede no ser única. Ejemplo 2.13. En un mes, 8 vendedores de artículos electrónicos vendieron los siguientes números de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes como a la población estadística que interesa, el número modal de unidades vendidas es: ....... Ejemplo 2.14. Considere la distribución de los pesos (en kilos) de 15 adultos: 63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83. La moda de estas observaciones es: kilos y kilos En este caso la distribución se llamará bimodal. Ejemplo 2.15. Las notas promociónales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11. Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme. En general, se tiene lo siguiente: i) La distribución que tiene una sola moda se llama unimodal. ii) La distribución que tiene dos modas se llama bimodal. iii) La distribución que tiene más de dos modas se llama multimodal. Cálculo de la Moda para datos agrupados. Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento para el cálculo de la moda. 1º. Se identifica la clase modal (la clase con mayor frecuencia). 2º. Se aplica la formula: Donde: = límite inferior de la clase modal. = frecuencia de la clase modal. (n1 = frecuencia de la clase inmediatamente anterior a la clase modal). (n2 = frecuencia de la clase inmediatamente posterior a la clase modal). c = amplitud de la clase que contiene a la mediana. Ejemplo 2.16. Determinar la moda para la siguiente distribución (tabla 2.5). Yi ni 30 - 35 32.5 2 35 - 40 37.5 4 40 - 45 42.5 7 45 - 50 47.5 18 50 - 55 52.5 12 55 - 60 57.5 6 60 - 65 62.5 1 Total 50 Solución. 1º. El intervalo de clase de mayor frecuencia absoluta (18) es el cuarto intervalo: c = 5. 2º. Aplicando la formula tenemos: pasajeros. Este valor modal significa que: el número de pasajeros a bordo más frecuente en los autobuses es de 48 ; o también que la mayoría de los autobuses tienen a bordo un número de pasajeros igual a 48. 2.3.6. Relación entre la Media, Mediana y Moda. a) Distribuciones simétricas. Se dice que una distribución de frecuencia es simétrica cuando valores de la variable equidistantes de un valor central tienen las mismas frecuencias. Es importante destacar en este caso que: b) Para una distribución sesgada hacia la derecha ( si la cola mayor se presenta a la derecha de la distribución) se tiene que: Para una distribución sesgada a la izquierda tenemos: Ejercicio. Considerando la distribución de la tabla 2.5 (pagina 24), se pide analizar la asimetría de la distribución. 2.3.7. Percentiles. Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes iguales. 0% 1% 2% 50% 98% 99% 100% P1 P2 P50 P98 P99 Figura 2.10 P1 = 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superiores a él. . . . P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a él y el 1% superiores a él. Las formulas para determinar los percentiles, son parecidos a los cuartiles, así: r = 1, 2, ... , 99 donde: = límite inferior de la clase que contiene a Pr, r = 1, 2,..., 99. n = tamaño de la muestra. c = amplitud de la clase que contiene a Pr. Nj = frecuencia acumulada de la clase que contiene a Pr. Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr. Ejercicio. Determinar los valores de los puntos percentiles 10 y 90, para los datos del número de pasajeros a bordo, de la tabla 2.5 (página 24). 2.4. Medida de dispersión. Todos los valores representativos discutidos en las secciones precedentes han sido una especie de promedio o medida de posición. Sin embargo, el uso de un solo valor para describir una distribución oculta muchos fenómenos importantes. Por ejemplo, dos grupos separados de datos pueden contener la misma media, pero un grupo puede estar más disperso o esparcido alrededor del valor promedio que el otro. Por lo que es necesario una medida de la dispersión, esparcimiento o variación para ayudar más completamente la distribución. Mientras menor es la dispersión, más típico es el valor de la media para toda la distribución. Las medidas de dispersión que se utilizan con mayor frecuencia son: la varianza, la desviación estándar y el coeficiente de variación. 2.4.1. La varianza.- Definición 1. (Para datos no agrupados). La varianza de una muestra x1, x2, ..., xn de la variable X, es dado por: Definición 2. (Para datos agrupados). La varianza de los valores una muestra y1, y2, ..., yk de Y con frecuencias absolutas n1, n2, ..., nk respectivamente, es dado por: Observaciones. 1. La varianza poblacional se define en términos de la media poblacional , esto es: donde N es el tamaño de la población. 2. Con la finalidad de reducir el volumen de operaciones en el cálculo de la varianza, podemos usar las formulas: para datos no agrupados. y para datos agrupados. 2.4.2. La desviación estándar. Definición.- La desviación estándar o típica de los valores de la variable X se define como la raíz cuadrada positiva de la varianza, y se denota por . El valor numérico de S cuantifica el grado de dispersión de los valores de una variable con respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación estándar. Ejemplo 2.17. Las notas de 10 alumnos en el primer examen en la asignatura de Estadistica aplicada a la investigación fueron los siguientes: 5, 5, 5, 7, 9, 14, 15, 15, 16 y 18 Determine a) la varianza y b) la desviación estándar para este grupo de notas. Solución. a) Cálculo de la varianza. i) Aplicaremos la formula de definición de la varianza para datos no agrupados, donde es la media aritmética del conjunto de notas. En efecto, tenemos que la media aritmética es: puntos. Luego aplicando formula para varianza: puntos al cuadrado. ii ) aplicando el método abreviado, tenemos: y Luego: b) cálculo de la desviación estándar. La desviación estándar será la raíz cuadrada del valor obtenido en la varianza, es decir: puntos. Ejemplo 2.18. Determine la desviación estándar de la siguiente distribución de frecuencias (ver tabla 2.4). Yi ni ni 30 - 35 32.5 2 243.36 486.72 35 - 40 37.5 4 112.36 449.44 40 - 45 42.5 7 31.36 219.52 45 - 50 47.5 18 0.36 6.48 50 - 55 52.5 12 19.36 232.32 55 - 60 57.5 6 88.36 530.16 60 - 65 62.5 1 207.36 207.36 Total 50 2132 Solución. Aplicando la formula de la definición. Se sabe que la media aritmética de está distribución es: pasajeros Luego aplicando la formula de definición la varianza, tenemos: pasajeros a bordo al cuadrado. Por tanto la desviación estándar es: S = 6.596226 pasajeros a bordo. 2.4.3. Medidas de Dispersión relativa. Las medidas de dispersión que se han descrito en la sección anterior se expresan en las unidades de medidas originales, tales como altura, salarios, kilogramos, puntajes, etc. Se pueden utilizar para comparar la variación de dos distribucionessiempre que las variables se expresen en las mismas unidades de medida y sean aproximadamente del mismo tamaño promedio. Sin embargo, a veces es necesario comparar dos o más conjuntos de datos expresados en unidades diferentes. Es esta situación hay que utilizar una medida relativa de dispersión que sería el coeficiente de variación. Definición. El coeficiente de dispersión, es una medida de dispersión relativa de la desviación estándar con respecto a la media, es decir: Coeficiente de variación = Generalmente el coeficiente de variación se expresa como un porcentaje. El C.V es un número puro independiente de la unidad de medición. Observación.- · Si el C.V es menor del 10% se dice que hay poca dispersión; · Si el C.V oscila entre el 10% y el 33% la dispersión existente es aceptable; · Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersión; · Pero si el C.V es mayor del 50% se dice que la dispersión es muy alta. Ejemplo 2.19. Calcular la dispersión relativa para los datos de la tabla 2.4 (página 24). En efecto tenemos que y S = 6.596226, entonces el C.V es: Como el valor de C.V = 13.71% se encuentra entre 10% y 33%, indica que la dispersión es aceptable. Ejemplo 2.20. En dos pruebas de conocimiento A y B, la prueba A se calificó sobre 100 puntos; la media aritmética de las calificaciones fue de 72 puntos con un desviación estándar de 9 puntos. La prueba B se calificó sobre 80 puntos y los resultados dieron una media de 52 puntos con una desviación estándar de 6. Halle en cuál de las dos pruebas hubo mayor variación. Solución. Para ver en cuál de las dos prueba hubo mayor variación comparemos los coeficientes de variación de ambas pruebas. (12.5%) y (11.5%) Por lo tanto, la prueba de conocimiento B tiene menor variación en los puntajes. Ejercicio. Las notas del curso A tuvieron una media aritmética de 75 puntos y una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una varianza de 196. Si en ambos cursos las notas se incrementaron en 10%, ¿Cuál de los dos cursos tienen un coeficiente de variación mayor después de arreglar las notas? 2.5. Análisis descriptivo de datos bidimensionales. Hasta ahora, en las secciones precedentes se ha tenido en cuenta un solo carácter de cada individuo de las poblaciones, dando lugar, al observar sus diferentes modalidades, a variables estadísticas unidimensionales. Pero, obviamente, de cada elemento de la población pueden analizarse simultáneamente dos o más caracteres, obteniéndose de cada observación, respectivamente, dos o más datos o números que expresan la modalidad conjunta con que se manifiestan tales caracteres. La variabilidad conjunta de dos caracteres de los individuos de una población origina una variable estadística bidimensional; si son tres los caracteres analizados por individuo, la variable estadística se denomina tridimensional, y pluridimensional cuando son más de tres los caracteres recogidos simultáneamente de cada observación individual. Por ser el caso más frecuente, en lo sucesivo nos referiremos exclusivamente a las variables estadísticas bidimensionales o bivariados. Aunque naturalmente las variables X e Y pueden estudiarse por separado, son numerosos los casos prácticos en los que interesa considerarlas conjuntamente para discernir acerca de su interrelación o interdependencia y determinar, en caso afirmativo, el grado de asociación estadística entre ellas. Este conocimiento puede facilitar, por ejemplo, el pronóstico fiable del valor medio de X correspondiente a un valor dado y de Y, o recíprocamente. Cada una de las variables X e Y que constituyen la variable bidimensional (X, Y) se denomina componente o variable marginal de ésta, y puede ser tanto una variable cualitativa como una variable cuantitativa, ya sea discreta o continua. La variable estadística bidimensional (X, Y) se puede clasificar según la naturaleza de sus variables: cualitativos, cuantitativos discretos y cuantitativos continuos. Se obtienen los tipos de distribuciones de dos caracteres siguientes: 1. Los dos caracteres cualitativos. Por ejemplo, nivel educacional y religión. 2. Uno cualitativo, otro cuantitativo. Estos pueden ser: a. Uno cualitativo, otro cuantitativo discreto. Por ejemplo, nivel educacional y número de hijos de las personas. b. Uno cualitativo, otro cuantitativo continuo. Por ejemplo, estado civil y edad de las personas. 3. Los dos cuantitativos. Estos pueden ser: a. Los dos cuantitativos discretos. Por ejemplo, número de horas extras trabajadas y número de accidentes de trabajo. b. Uno discreto y el otro continuo. Por ejemplo, número de horas extras trabajadas y edad de la personas. c. Los dos continuos. Por ejemplo, estatura y peso de las personas. Cuando son observadas más de dos características, hablamos de variable estadística n-dimensionales, convirtiéndose entonces, el análisis en multivariante, situación que no analizaremos. 2.5.1. Presentación de la información mediante tablas Estadísticas Bidimensionales. Consideremos un conjunto de n observaciones descritos simultáneamente, según dos variables o características X e Y. designaremos por: x1, x2, ..., xp las p modalidades o valores de la variable X; y1, y2, ..., yq las q modalidades o valores de la variable Y La tabla estadística que describe a las n observaciones, es una tabla de doble entrada llamada tabla de distribución de frecuencia bidimensional, donde figuran en las filas las modalidades o valores de la característica X, y en las columnas las modalidades o valores de la característica Y (tabla de k filas y de l columnas). Tabla 2.6. Distribución Bidimensional de Frecuencias Absolutas. Modalidades o valores de Y Modalidades o valores de X y1 y2 ... yj ... yq Totales horizontales = x1 n11 n12 ... n1j ... n1q n1. x2 n21 n22 ... n2j ... n2q n2. ... ... ... ... ... ... ... xi ni1 ni2 ... nij ... niq ni. ... ... ... ... ... ... ... xp np1 np2 ... npj ... npq np. Totales verticales n.1 n.2 ... n.j ... n.q donde: nij = el número de veces que aparece repetido el par (xi, yj) y se llama frecuencia absoluta del par (xi, yj) , i =1, 2, ..., p ; j =1, 2, ..., q. = suma total de las frecuencias absolutas nij según el índice j, y se llama frecuencia marginal del valor xi. = suma total de las frecuencias absolutas nij según el índice i, y se llama frecuencia marginal del valor yj. = suma de las frecuencias absolutas nij observadas es igual al número de pares observados, n. Observación 1. Si las variables X e Y son cualitativas la tabla de distribución bidimensionales se llama Tabla de Contingencia. Ejemplo 2.21. Supongamos que queremos analizar el comportamiento conjunto de las variables: grado de instrucción completo (X) y región de procedencia (Y) de los empleados del ministerio de Agricultura en la ciudad de Lima, durante el año 2006. Tabla 2.7. Trabajador Nº Grado de instrucción Región de procedencia 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 Secundaria Secundaria Secundaria Secundaria Superior Superior Superior Superior Secundaria Secundaria Secundaria Superior Superior Secundaria Secundaria Secundaria Secundaria Primaria Superior Superior Secundaria Secundaria Superior Superior Superior Secundaria Secundaria Primaria Secundaria Secundaria Primaria Superior Superior Secundaria secundaria Superior Superior Superior Secundaria Secundaria Primaria Superior Superior Superior Secundaria Secundaria Primaria Superior Superior secundaria Sierra Costa Costa Selva Selva Costa Costa Sierra Sierra Costa Selva Costa Sierra Costa Selva Selva Costa Selva Selva Sierra Costa Costa Costa Costa Selva Sierra Sierra Sierra Costa Selva Selva Sierra Costa Costa Sierra Costa Selva Sierra Costa Costa Sierra Sierra SelvaSelva Costa Selva Sierra Costa Selva Sierra Trabajador Nº Grado de instrucción Región de procedencia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Superior Primaria Primaria Secundaria Secundaria Secundaria Superior Primaria Secundaria Secundaria Superior Superior Primaria Secundaria Secundaria Primaria Primaria Primaria Secundaria Secundaria Secundaria Secundaria Superior Superior Superior Superior Secundaria Secundaria Secundaria Superior Superior Secundaria Secundaria Secundaria Secundaria Primaria Superior Superior Secundaria Secundaria Secundaria Superior Superior Primaria Secundaria Superior Superior Secundaria Primaria Superior Costa Sierra Selva Selva Selva Costa Costa Sierra Selva Costa Sierra Sierra Costa Selva Selva Selva Sierra Sierra Selva Costa Selva Sierra Costa Costa Sierra Selva Costa Selva Sierra Costa Costa Selva Selva Costa Costa Sierra Sierra Costa Selva Costa Sierra Costa Selva Selva Costa Costa Selva Sierra Costa costa Se pide: a) Construir una tabla de distribución bidimensional. b) La tabla de distribución de frecuencias relativas. c) La tabla de distribución de las proporciones de los datos con relación al total de cada fila. d) Hallar la distribuciones marginales de X e Y. Solución. a) La tabla bidimensional con sus frecuencias absolutas es: Tabla 2.8. Distribución conjunta de las frecuencias de las variables, Grado de instrucción (X) y Región de procedencia (Y). Región de Procedencia , Y Grado de Instrucción, X Costa Sierra Selva Total Primaria Completa 2 7 6 15 Secundaria Completa 20 10 17 47 Superior 18 9 11 38 Total 40 26 34 100 Fuente. Datos hipotéticos Cada elemento del cuerpo de la tabla representa la frecuencia observada de las realizaciones simultáneas de X e Y. Así observamos que, 2 empleados con primaria completa son de la costa, 20 empleados con secundaria completa son de la costa, etc. Nota. Con la aplicación del Software Estadístico SPSS v. 12, escogemos: Analizar Estadísticas Descriptivas Tabla de Contingencia Se obtiene como salida (output) la siguiente tabla bidimensional: b) Tabla 2.9. Distribución conjunta de las proporciones (en porcentajes) con relación al total general de las variables, grado de instrucción (X) y región de procedencia (Y). Región de Procedencia , Y Grado de Instrucción, X Costa Sierra Selva Total Primaria Completa 2% 7% 6% 15% Secundaria Completa 20% 10% 17% 47% Superior 18% 9% 11% 38% Total 40% 26% 34% 100% Aquí podemos afirmar que de los empleados del ministerio de Agricultura son de la costa y tienen grado de instrucción primaria completa, de los empleados son de la Sierra y tienen grado de instrucción primaria completa, etc. c) Tabla 2.10. Distribución conjunta de las proporciones (en porcentajes) de trabajadores con relación a los totales de cada fila de las variables, grado de instrucción (X) y región de procedencia (Y). Región de Procedencia , Y Grado de Instrucción, X Costa Sierra Selva Total Primaria Completa 13.3 % 46.7 % 40.0 % 100 % Secundaria Completa 42.6 % 21.3 % 36.2 % 100 % Superior 47.4 % 23.7 % 28.9 % 100 % Total 40.0 % 26.0 % 34.0 % 100 % Así, podemos decir que de los empleados del Ministerio de Agricultura, con primaria completa son de la costa, con primaria completa son de la Sierra y son de la selva. Este tipo de distribuciones sirve para comparar la distribución de la procedencia de los individuos conforme a su grado de instrucción. En forma análoga podemos construir la distribución conjunta de las proporciones con relación al total de cada columna. La construcción de esta tabla se deja como ejercicio al estudiante. d) Las frecuencias absolutas marginales para X e Y, están calculadas en la tabla 2.8 de la pregunta (a). Tabla 2.11. Distribución Marginal para X. Grado de instrucción X Número de empleados ni• Proporción de empleados hi. Primaria completa 15 15 % Secundaria Completa 47 47 % Superior 38 38 % Total 100 100 % Tabla 2.12. Distribución Marginal para Y. Región de procedencia Y Número de empleados n•j Proporción de empleados h.j Primaria completa 40 40 % Secundaria Completa 26 26 % Superior 34 34 % Total 100 100 % Ejemplo 2.22. Si las variables x e y son cuantitativas La siguiente información contiene las edades de los padres de los niños matriculados en educación inicial de cierta escuela estatal donde X = edad del padre, Y = edad de la madre. X Y X Y 20 20 25 24 17 16 27 26 18 20 26 26 24 16 27 24 21 20 25 25 22 19 27 28 23 24 29 22 21 22 30 23 21 20 29 24 23 24 27 24 24 25 30 26 26 19 32 27 25 20 31 26 25 22 30 26 26 20 31 25 27 23 29 28 25 22 31 30 26 22 30 29 25 22 29 30 26 20 31 31 25 24 33 28 25 25 33 26 26 24 35 27 27 26 33 30 27 27 35 34 Se pide: a) Construir la tabla de doble entrada para la variable bidimensional (X, Y). b) Representar gráficamente esta distribución. Solución. a) Realizando el mismo procedimiento como en el caso unidimensional (ver capítulo 2), para cada variable, se tiene: · Para la variable X: Edad del padre. R = Xmáx – Xmín = 35 – 17 = 18 Considerar un número de intervalos fijos k = 5. c = R / k = 18 / 5 = 3.6 ≈ 4. Los intervalos de clases resultantes son: ( 16 – 20 ] , ( 20 – 24 ] , ( 24 – 28 ] , ( 28 – 32 ] , ( 32 – 36 ] · Para la variable Y: Edad de la madre. R = Xmáx – Xmín = 34 – 16 = 18 Considerar un número de intervalos fijos k = 5. c = R / k = 18 / 5 = 3.6 ≈ 4. Resultando los siguientes intervalos de clases: ( 15 – 19 ] , ( 19 – 23 ], ( 23 – 27 ] , ( 27 – 31 ] , ( 31 – 35 ] Después de realizar la operación de tabulación se obtiene la siguiente tabla de frecuencias bidimensional: Tabla 2.13. Distribución de 50 parejas de padres de familias de cierto colegio de educación inicial, según sus edades. Marzo del 2009. Piura. Y X (15 - 19 ] (19 - 23 ] (23 - 27 ] (27 - 31 ] (31 - 35 ] (16 - 20 ] 1 2 0 0 0 (20 - 24 ] 2 3 3 0 0 (24 - 28 ] 1 8 11 1 0 (28 - 32 ] 0 2 6 5 0 (32 - 36 ] 0 0 2 2 1 Fuente. Observación directa (encuesta) obtenida por un grupo de estudiantes de la escuela Profesional de ESTADÍSTICA de la UNP - 2009 Nota. Una vez que los datos (las edades) para X e Y están clasificados en intervalos de clases, utilizando el Software SPSS 13 se procede a recodificar los valores en función de dichas categorías o intervalos de clases. Es decir, escogemos: Transformar recodificar En distintas variables. Una vez decodificado la información en categorías, se elige: Analizar Estadísticos descriptivos Tabla de contingencia. La salida (output) es la tabla de distribución 2.14. Tabla 2.14 2.5.3. Representación Gráfica. a) Si las variables X e Y son cualitativas. En este caso se pueden hacer varias representaciones gráficas dependiendo de qué se quiere representar. Por ejemplo, si queremos representar: la distribución de las frecuencias absolutas o relativas, se pueden usar paralelepípedos de alturas proporcionales a nij (o hij) perpendiculares al plano XY, con centro en el punto (xi , yj). Ejemplo 2.23. En una muestra de 100 empleados del Ministerio de Agricultura se obtuvieron los resultados sobre el grado de instrucción y la región de procedencia que se presentan en la siguiente tabla: Tabla 2.15 Región de Procedencia , Y Grado de Instrucción, X Costa Sierra Selva Total Primaria Completa 2 7 6 15 Secundaria Completa 20 10 17 47 Superior 18 9 11 38 Total 40 26 34 100 La representación grafica (paralelepípedo) de la distribución de frecuencias absolutas se muestra en la figura 2.11. Figura 2.11 Ejemplo 2.24. Tabla 2.16. PRINCIPALES INDICADORES DEMOGRAFICOS SEGÚN PAISES DE AMERICA: 1988 Países Tasa Bruta de Natalidad (por mil hab.) Tasa Bruta de Mortalidad (por mil hab.) Esperanza de vida al nacer (años) ARGENTINA COLOMBIA CHILE MÉXICO PERÚ VENEZUELA 21 29 24 29 34 30 9 7 6 6 9 5 71 65 72 69 62 70 Fuente. Fondo de Naciones unidas para la infancia. Estudio mundial de la infancia 1990. Figura 2.12. Principales Indicadores Demográficos, según países de América: 1988 En cambio, si por ejemplo queremos representar: la distribución de uno de ellos respecto del otro o la distribución total de cada uno de ellos, se pueden usar las conocidas barras compuestas o proporcionales. Las barras compuestas (o apiladas), se caracterizan por presentar en una sola figura geométrica, datos cuyo conjunto forman un todo, mostrando la proporción de cada una de las partes con relación al total. Se dibuja el diagrama de barras de una de las series estadísticas y luego se continúa las barras dibujadas con otras de distinto sombreado o color que representaran la segunda serie estadística. De esta forma, cada barra tendrá una altura, que será la suma de las frecuencias del suceso que representa la barra en la primera serie más la frecuencia absoluta del suceso en la segunda serie. La diferencia con los gráficos de barras simples, dobles o múltiples está en que todos los datos están representados en una sola barra, la cual está dividida en porciones, que pueden representar también el peso porcentual de cada una de las partes con relación al 100% que forma la totalidad de ellas. Ejemplo 2.25. Considerando la información del ejemplo 2.23, la representación gráfica de barras compuestas o apiladas de la distribución de uno de los caracteres (en este caso, el grado de instrucción) respecto del otro (región de procedencia), se muestra en la figura 2.13. Figura 2.13 Por otro lado, la representación grafica de la distribución total de cada carácter, se da en la figura 2.14. Figura 2.14 b) Si una variable es cuantitativo y el otro cualitativo. Las representaciones gráficas son las mismas que el caso anterior. Además puede usarse las barras múltiples o también los gráficos de líneas de partes componentes. El grafico de barras múltiples, es utilizado cuando se esta interesado en comparar una o más series estadísticas con otra. El diagrama de barras múltiples, es un conjunto de barras simples identificado por distintos colores o sombreado, identificando esa distribución bajo el título de leyendas. Las barras serán puestos en el gráfico uno al lado de las otras, cuya separación entre cada grupo identificado no debe ser menor que la mitad del ancho de una barra, ni mayor que el ancho de la misma. Ejemplo 2.26. La distribución de 284 personas según el nivel de estudio por número de hijos es la tabla 2.17. Tabla 2.17 Nº de Hijos Nivel de Estudios 0 1 2 3 4 ó más Total Primaria Completa o menos 2 5 14 29 35 85 Secundaria Completa 5 24 37 40 30 136 Superior 10 15 30 6 2 63 Total 17 44 81 75 67 284 La gráfica de la distribución de uno de los caracteres (número de hijos) respecto de los otros se representa por las barras múltiples (o barras agrupadas), figura 2.15. Figura 2.15 Dr. César Haro Díaz 31 N 25 13 N 4 vo 3 = < < = 33 . 48 13 31 13 25 5· 45 X ~ = ú û ù ê ë é - - + = 4 n r j 1 j N 4 n r N £ £ - ú ú ú ú û ù ê ê ê ê ë é - - + ¢ = - - - 1 j j 1 j 1 j r N N N 4 n r c· X Q 50 log 3.322 1 K = + = vo 12.5 4 50 4 n = = vo .5 37 4 150 4 n 3 = = 3 2 N 13 12.5 4 n 6 N = < = < = 5 4 N 43 .5 37 4 3n 31 N = < = < = 64 . 44 6 13 6 5 . 12 · 5 40 N N N 4 n c· X Q 2 3 2 1 j 1 = ú û ù ê ë é - - + = ú ú ú ú û ù ê ê ê ê ë é - - + ¢ = - 71 . 52 31 43 31 5 . 37 · 5 50 N N N 4 n 3 c· X Q 4 5 4 1 j 3 = ú û ù ê ë é - - + = ú ú ú ú û ù ê ê ê ê ë é - - + ¢ = - ú ú ú ú û ù ê ê ê ê ë é - - ´ + ¢ = - - - 1 j j 1 j 1 j r N N N 100 n r c X P " 15 K 5 £ £ 0 μ M X = = = 0 μ M X ....... X μ = ú û ù ê ë é D + D D + ¢ = - 2 1 1 1 j c· X X m Mo n 1 Mo 1 n n Δ - = 2 Mo 2 n n Δ - = ] i 1 i Y Y ( ¢ - ¢ - ] 50 45 ( - K R c = 11 7 18 1 = - = D 6 12 18 2 = - = D 235 . 48 6 11 11 5· 45 X = ú û ù ê ë é + + = m m X X ~ X = = m X X ~ X > > m X X ~ X < < 1 n ) x (x S n 1 i 2 i 2 - - = å = 1 n n ) y (y S V(Y) k 1 i i 2 i 2 - ´ - = = å = μ 7143 . 4 7 33 = = c N μ) (x σ k 1 i 2 i 2 å = - = ú ú ú ú ú û ù ê ê ê ê ê ë é ÷ ø ö ç è æ - - = å å = = n 1 i 2 n 1 i i 2 i 2 n x x 1 n 1 S ú ú ú ú ú û ù ê ê ê ê ê ë é ÷ ø ö ç è æ - - = å å = = k 1 i 2 k 1 i i i i 2 i 2 n n x n x 1 n 1 S V(X) S = x 9 . 10 10 109 10 18 ···· 5 5 10 10 1 i i x x = = + + + = = å = 9889 . 26 9 ) 9 . 10 18 ( ···· ) 9 . 10 5 ( ) 9 . 10 5 ( 1 10 ) x (x S 2 2 2 10 1 i 2 i 2 = - + + - + - = - - = å = 109 18 ··· 5 5 x 10 1 i i = + + + = å = 431 1 18 ···· 5 5 x 2 2 2 10 1 i 2 i = + + + = å = 9889 . 26 10 ) 109 ( 1431 9 1 n x x 1 n 1 S 2 n 1 i 2 n 1 i i 2 i 2 = ú û ù ê ë é - = ú ú ú ú ú û ù ê ê ê ê ê ë é ÷ ø ö ç è æ - - = å å = = 35 7 5 K c R = ´ = ´ = ¢ 195 . 5 26.9889 S = = ] i 1 i Y Y ( ¢ - ¢ - 2 i ) y (y - 1 . 48 Y = 5102 . 43 49 2132 1 n ) y (y n S k 1 i 2 i i 2 = = - - = å = x S C.V = % 71 . 13 100 1 . 48 596226 . 6 C.V = ´ = 125 . 0 72 9 C.V(A) = = 0.115 52 6 C.V(B) = = ] i 1 i Y Y ( ¢ - ¢ - å = · = q 1 j i ij n n M å = · = p 1 i j ij n n å å = = · · = = p 1 i q 1 j ijn n n " å = · = q 1 j ij i n n å = · = p 1 i ij j n n å å = = = p 1 i q 1 j ij n n Recuento 2 7 6 15 20 10 17 47 18 9 11 38 40 26 34 100 Primaria Secundaria Superior Grado de Instrucción Total Costa Sierra Selva Región de Procedencia Total 2% 100 100 2 100 h 11 = ´ = ´ 1 i Y - ¢ % 7 100 100 7 100 h 12 = ´ = ´ % 13.3 100 15 2 100 n n 1 11 = ´ = ´ · % 7 . 46 100 15 7 100 n n 1 12 = ´ = ´ · % 0 . 40 100 15 6 100 n n 1 13 = ´ = ´ · Tabla de contingencia Edad del padre * Edad de la madre Recuento 1 2 0 0 0 3 2 3 3 0 0 8 1 8 11 1 0 21 0 2 6 5 0 13 0 0 2 2 1 5 4 15 22 8 1 50 ( 16 - 20 ] ( 20 - 24 ] ( 24 - 28 ] ( 28 - 32 ] ( 32 - 36 ] Edad del padre, X Total ( 15 - 19 ] ( 19 - 23 ] ( 23 - 27 ] ( 27 - 31 ] ( 31 - 35 ] Edad de la madre, Y Total 6 7 2 17 10 20 11 9 18 ARGENTINA COLOMBIA CHILE MÉXICO PERÚ VENEZUELA 0 10 20 30 40 50 60 70 80 Tasa Bruta de Mortalidad Tasa Bruta de Natalidad Esperanza de vida al nacer Primaria Secundaria Superior Grado de Instrucción 0 5 10 15 20 25 30 35 40 45 50 Número de empleados 2 20 18 7 10 9 6 17 11 Región de Procedencia Costa Sierra Selva Primaria Secundaria Superior Grado de Instrucción 0,0 0,2 0,4 0,6 0,8 1,0 Proporción Región de Procedencia Costa Sierra Selva Número de hijos _ Nivel de Estudios 0 5 10 15 20 25 30 35 40 45 01234 ó más N° de hijos Número de personas Primaria Secundaria Superior i Y ¢ ] 35 30 ( - 2 Y Y Y i 1 i i ¢ + ¢ = - 2 4.0 4.0 4.0 4 8.0 8.0 12.0 7 14.0 14.0 26.0 18 36.0 36.0 62.0 12 24.0 24.0 86.0 6 12.0 12.0 98.0 1 2.0 2.0 100.0 50 100.0 100.0 (30 - 35] (35 - 40] (40 - 45] (45 - 50] (50 - 55] (55 - 60] (60 - 65] Total Válidos Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Histograma de frecuencias del número de pasajeros a bordo de los autobuses Número de pasajeros Número de autobuses (ni) 30 35 40 45 50 55 60 65 0 3 6 9 12 15 18 21 Color_bebida ROJONEGROBLANCO Número de personas 10 8 6 4 2 0 Diagrama de rectangulos para las bebidas gaseosas de acuerdo a su color ROJO NEGRO BLANCO Diagrama de sectores para las gaseosas, segun su color de preferencia X n x X n 1 i i å = = n n x X K 1 i i i å = = å = = k 1 i i n n 1 . 48 50 2405 n n y Y K 1 i i i = = = å = 1 X 2 X r X n n X n ... n n n X ... n X n X X r 1 i i i r 2 1 r r 2 2 1 1 å = = + + + + + = å = = r 1 i i n n n p p X ... p p X ... p X p X X r 1 i i r 1 i i i r 2 1 r r 2 2 1 1 å å = = = + + + + + = p p A x B x 8 . 11 x A = 5 . 12 x B = x 17 . 12 45 40 ) 5 . 12 ( 45 ) 8 . 11 ( 40 n n x n x n x B A B B A A = + + = + + = 17 . 12 x = mediana Med(X) X ~ = = 2 / 1) (n X Me + = Número de hijos por familia Número de hijos 4 3 2 1 0 Número de familias 8 6 4 2 0 2 1 n + 2 X X Me 1 2 n 2 n + + = 7 2 1 n = + = = Med(x) X ~ 5 . 11 2 14 9 = + = Me n log 3.322 1 K + = 2 n j 1 j N 2 n N £ £ - ú ú ú ú û ù ê ê ê ê ë é - - + ¢ = - - - 1 j j 1 j 1 j N N N 2 n c· X X ~ 1 j X - ¢ vo 25 2 50 2 n = =
Compartir