Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Elementos de Matemática y Estadística CUADERNILL O 7 UNIDAD 3: ESTADÍSTICA DESCRIPTIVA Unidad 3 – Cuadernillo 7 Contenido 1. ESTADÍSTICA: DEFINICIÓN Y OBJETO..........................................................................................4 a. Definiciones básicas......................................................................................................................4 i. Experimento y unidad experimental. Variables.....................................................................4 b. Etapas en la tarea Estadística.......................................................................................................7 ii. Recopilación de datos...............................................................................................................9 iii. Ordenamiento y presentación de los datos........................................................................10 2. GRÁFICOS ESTADÍSTICOS.............................................................................................................15 a. Gráficos de variables discretas..................................................................................................15 i. Gráfico de barras:....................................................................................................................15 ii. Gráfico circular......................................................................................................................16 b. Gráficos de variables continuas................................................................................................17 i. Histograma...............................................................................................................................17 ii. Polígonos de frecuencias.......................................................................................................17 iii. Ojiva de Frecuencia Acumulada:.........................................................................................18 3. MEDIDAS DE POSICIÓN...............................................................................................................18 a. Media aritmética.........................................................................................................................18 b. Modo o Moda..............................................................................................................................20 c. Mediana.......................................................................................................................................22 4. MEDIDAS DE CONCENTRACIÓN.................................................................................................24 a. Cuartiles.......................................................................................................................................24 b. Deciles y percentiles...................................................................................................................25 5. MEDIDAS DE DISPERSIÓN............................................................................................................26 2 Elementos de Matemática y Estadística a. CÁLCULO DE LA VARIANZA.....................................................................................................27 b. Cálculo del desvío estándar o desviación típica......................................................................27 c. CÁLCULO DEL COEFICIENTE DE VARIACIÓN........................................................................29 3 Unidad 3 – Cuadernillo 7 UNIDAD 3: ESTADÍSTICA DESCRIPTIVA 1. ESTADÍSTICA: DEFINICIÓN Y OBJETO La palabra “estadística” se utilizó originariamente para designar el conjunto de aquellos datos demográficos y económicos de importancia vital para un Estado. En la actualidad se ha convertido en un método científico de recolección y análisis de datos, que se aplica a todas las ciencias sociales y naturales. Existen múltiples razones por las cuales es prác- ticamente imposible conocer la totalidad de un fenómeno. Supongamos que queremos realizar un estudio acerca la parte del ingreso total que cada familia de Argentina dedica a la cultura. En primer lugar, debemos definir con precisión a qué denominamos “gasto en cultura”: estableceremos como tal el dedicado a los espectáculos (cine, teatro, circo, etc.); a la compra de libros y objetos de arte, a la visita a exposicio- nes de arte y a los cursos extra escolares relacionados con el arte y la cultura. Presentación del Tema Una vez establecida la variable a analizar, nos encontraremos con el problema de que es impo- sible realizar una encuesta en todos los hogares del país, por razones de costo y de tiempo. De ma- nera tal que se deberá determinar una muestra o subconjunto de la población total en la que se to- marán los datos; y a partir de esa información se extrapolarán los resultados obtenidos al total de la población. La estadística es la ciencia que brinda las herramientas necesarias para establecer una muestra que sea representativa del total de la población, y para extrapolar los datos con la mayor precisión posible. a. Definiciones básicas i. Experimento y unidad experimental. Variables El experimento es la observación sistemática de un fenómeno, con el objetivo de conocer su di- námica. 4 http://goo.gl/nkMwaE http://goo.gl/nkMwaE Elementos de Matemática y Estadística La unidad experimental es cada uno de los elementos que se observan en el experimento. En nuestro ejemplo, el experimento será la realización de una encuesta en cada uno de los ho- gares establecidos. La unidad experimental son los hogares. A cada unidad experimental se le asignará un valor determinado, de acuerdo a lo observado y a las reglas preestablecidas. Ese valor se denomina dato estadístico. Si continuamos con nuestro ejemplo, los datos estadísticos que recogeremos son números que indican el porcentaje de su ingreso que cada familia dedica a la cultura. Una variable es cualquiera de las características observables que posee una unidad experi- mental. En nuestro ejemplo, la variable en estudio es “porcentaje del ingreso dedicado a la cultura”. El recorrido de la variable es el conjunto de valores que la misma puede asumir. De acuerdo con su recorrido, las variables se clasifican de la siguiente manera: Una variable cualitativa es aquella que asume valores que no se expresan con números. Si su escala es nominal, los valores no pueden ser ordenados de acuerdo con un criterio de progresión. Por ejemplo, supongamos que la variable en estudio es “ocupación laboral de los es- tudiantes de la UNTREF Virtual”. Los valores que asumirá la variable serán: empleado bancario, trabajador cuentapropista, ama/o de casa, profesor, etc. No es posible establecer un criterio de ordenación progresiva de estos datos. Si la escala es ordinal, puede establecerse una gradación en los valores de la variable. Su- pongamos que estudiamos el nivel de satisfacción de los clientes de un servicio determinado. Se realiza una encuesta, y las opciones de respuestas ante el ítem “nivel de satisfacción” son: muy bajo – bajo – regular – alto – muy alto. En este caso es posible establecer una escala comparativa entre los distintos valores de la variable. Una variable cuantitativa es aquella que asume valores que se representan mediante nú- meros. 5 VARIABLES CUALITATIVAS CUANTITATIVAS ESCALA NOMINAL ESCALA ORDINAL DISCRETAS CONTINUAS Unidad 3 – Cuadernillo 7 Una variable cuantitativa es discreta cuando no puede asumir como valor a cualquier nú- mero real. Por ejemplo, si la variable en estudio es “número de hijos”, tan solo puede adoptar valo- res enteros. Una variable cuantitativa continua puede asumir como valor cualquier número real positivo. Ejemplos típicos de variables cuantitativas continuas son todas aquellas que se relacionan con peso, estatura, superficie, etc. Universo: Es el conjunto de unidades experimentales que poseen características susceptiblesde ser observadas para obtener información. Población: Conjunto de todas las mediciones realizadas acerca de una variable en particu- lar. Si nuestro universo está formado por todos los hogares de Mendoza, podemos realizar en ellos muchos estudios diferentes. Si la variable a estudiar es “número de integrantes del grupo familiar”, tendremos una po- blación de datos. Si en cambio estudiamos “nivel de instrucción de los adultos de cada hogar”, tendremos otra población de datos. Es decir que de un mismo universo podemos obtener tantas po- blaciones como variables en estudio planteemos. El universo está conformado por unidades experimentales, mientras que la población está formada por datos. Muestra: es un subconjunto de elementos de la población, a partir del cual se infieren datos acerca del universo. 6 Elementos de Matemática y Estadística b. Etapas en la tarea Estadística 7 ¿Qué vamos a estudiar?Formulación del problema Definición del universo ¿Sobre quién vamos a estudiar? (determinación de los individuos u objetos de nuestra investigación) Determinación de los instrumentos de medición ¿Qué medimos? ¿De qué manera? Se determinan las variables en estudio y se diseñan los cuestionarios a utilizar. Se pueden recopilar datos del total del universo o de una muestra, de acuerdo con las características de cada investigación Recopilación de datos Ordenamiento y presentación de los datos Los datos pueden presentarse en listas, tablas, cuadros, gráficos, etc. Análisis estadístico de los datos Análisis descriptivo: Se caracteriza el comportamiento de la variable en estudio mediante parámetros calculados a partir de los datos recopilados y ordenados. Análisis Inferencial: Cuando la recopilación de los datos se realizó sobre una muestra, el análisis inferencial permite inducir valores poblacionales de la variable en estudio, a partir de los datos muestrales. Interpretación de los resultados Se establece la correspondencia entre los resultados obtenidos (expresados como parámetros estadísticos) y la variable en estudio. Unidad 3 – Cuadernillo 7 Para comprender mejor todos estos conceptos, desarrollaremos un ejemplo, al que iremos completando con cada uno de los conceptos a estudiar. El Banco Esmeralda tiene 10 sucursales distribuidas entre las provincias del Noreste argentino. Su directorio se propone lanzar una nueva línea de créditos personales no hipotecarios. Para dise- ñar adecuadamente el producto, solicita al Departamento de Estadística un estudio exhaustivo acerca de los clientes que han tomado créditos personales durante los últimos años. El Departamento de Estadística se propone estudiar las siguientes variables, para establecer el perfil de los tomadores de créditos personales en el banco: • Número de integrantes del grupo familiar • Ocupación del tomador del crédito • Nivel educacional del tomador del crédito • Ingreso mensual promedio del grupo familiar • Monto del crédito solicitado • Número de cuotas estipulado para la devolución del crédito Se toma una muestra de 50 créditos otorgados a lo largo de los años 2009 y 2010. A partir de estos datos, esbozaremos los primeros pasos de la tarea estadística para esta inves- tigación: 8 Caracterización de los tomadores de créditos personales en el Banco Esmeralda durante los años 2007 y 2008 Formulación del problema Definición del universo Tomadores de créditos personales en el Banco Esmeralda durante los años 2009 y 2010 Determinación de los instrumentos de medición Se medirán las variables establecidas (1 a 6), de la manera que estableceremos en la próxima sección Recopilación de los datos Se tomará una muestra de 50 tomadores de créditos seleccionados al azar dentro del universo establecido. Ordenamiento y presentación de los datos Los datos se presentarán en tablas, a partir de las cuales se construirán gráficas y se calcularán las medidas representativas para cada variable analizada. Elementos de Matemática y Estadística ii. Recopilación de datos Una cuestión muy importante en la tarea estadística es la metodología que se utiliza para de- terminar el tamaño de la muestra a utilizar, y para seleccionar las unidades experimentales que se incluirán en la misma. Nosotros no analizaremos las formas de determinación del tamaño de la muestra, ya que ex- cede los objetivos de este curso introductorio. Las diferentes técnicas de muestreo tienen como objetivo obtener una muestra lo más repre- sentativa posible de la población. Las técnicas más utilizadas son: Muestreo aleatorio simple: Todas los individuos que integran la población tienen la misma probabilidad de integrar la muestra. Por ejemplo, supongamos que debemos seleccionar una muestra de 20 empleados de una emp- resa. Una alternativa sencilla es tomar una lista numerada de los empleados y una tabla de nú- meros aleatorios. Elegimos a los empleados cuyo número de lista coincide con alguno de los pri- meros 20 números de la tabla. Otra manera de elegir en un muestreo aleatorio simple es la siguiente: supongamos que la empresa tiene 440 empleados, y queremos elegir una muestra de 20, es decir, un empleado cada 22. De una tabla de dígitos al azar tomamos el primer número; por ejemplo, el 6. Seleccionamos al empleado que tiene el número 6, y luego le vamos sumando 22: seleccionamos al que tiene el nú- mero 28, al que tiene el 50, y así sucesivamente. Muestreo Estratificado: Cuando en la población hay alguna característica cuya variación se supone puede incidir en la variable en estudio, se procede a realizar un muestreo estratificado. Supongamos que estamos realizando un estudio acerca de un nuevo plaguicida para un insec- to que ataca al cultivo de trigo. Para realizar el ensayo disponemos de un lote cuya fertilidad es muy despareja. Podemos sospechar que la fertilidad del suelo puede incidir en la respuesta al 9 Unidad 3 – Cuadernillo 7 plaguicida (por ejemplo, que las plantas que están en un terreno más fértil sean más vigorosas, y, por lo tanto, se recuperen mejor del ataque de los insectos, independiente del producto aplicado). En este caso, podemos dividir al lote en diferentes bloques de acuerdo con su fertilidad, y tomar una muestra de cada bloque. El muestreo estratificado se utiliza también en las encuestas previas a las elecciones, en las que se divide a la población de acuerdo con diferentes criterios: género, franja etaria, nivel socioeconó- mico, etc. Muestreo por Conglomerados: En este caso, al contrario que en el muestreo es- tratificado, se busca que cada conglomerado refleje toda la heterogeneidad de la población. Por ejemplo, para un estudio poblacional nos interesa saber cuál es la composición más típica de las familias de una ciudad. Como no podemos estudiarlas a todas, podemos elegir algunas manzanas de la ciudad. Luego, en cada manzana, podemos realizar un muestreo aleatorio simple para seleccionar las familias a entrevistar. iii. Ordenamiento y presentación de los datos En primer lugar, vamos a clasificar a las variables en estudio: • Número de integrantes del grupo familiar Es una variable cuantitativa discreta. En nuestro caso, el recorrido de la misma es de 1 a 6, es decir que las familias estudiadas tienen entre 1 y 6 integrantes. • Ocupación del tomador del crédito Esta es una variable cualitativa nominal. A los efectos de este estudio, se le asignarán los si- guientes valores: ✔ Trabajador/a independiente con profesión universitaria (TI-PU) ✔ Trabajador/a independiente con profesión no universitaria (TI-PnoU) ✔ Empleado/a no jerárquico (E no J) ✔ Empleado/a jerárquico (EJ) ✔ Ama/o de casa (AC) • Nivel educacional del tomador del crédito Esta es una variable cualitativa ordinal, a la que se le asignaron los siguientes valores: ✔ Primaria incompleta (PI) ✔ Primaria completa (PC) ✔ Secundaria incompleta (SI) ✔ Secundaria completa (SC) ✔ Universitario incompleto (UI) ✔ Universitario completo(UC) 10 Elementos de Matemática y Estadística • Ingreso mensual promedio del grupo familiar Esta es una variable cuantitativa continua. Para poder ordenar los datos, se agruparon en intervalos de frecuencia desde un valor mínimo de $3.000 hasta el máximo de $13.000, con una amplitud de $2.000 por intervalo. • Monto del crédito solicitado Esta también es una variable cuantitativa continua. Se ordenaron los datos en intervalos de frecuencias desde un mínimo de $5.000 hasta un máximo de $20.000, con una amplitud de $2.500 por intervalo. • Número de cuotas estipulado para la devolución del crédito Variable cuantitativa discreta. Los valores que asumió en este estudio fueron 6, 12, 18 y 24 (cuotas mensuales) A continuación presentaremos los datos recopilados para cada una de las variables analizadas. X representa los diferentes valores que asume la variable. F(x) indica la frecuencia absoluta obtenida para cada uno de esos valores. Por ejemplo, para la primera variable analizada, de las 50 familias encuestadas, 2 están integradas por una persona, 12 familias por dos personas, 14 por 3, en 5 familias hay 5 integrantes, y hay solo una familia con 6 personas. Número de integrantes del grupo familiar x f(x) 1 2 2 12 3 14 4 16 5 5 6 1 Total 50 Ocupación del tomador del crédito x f(x) TI - PU 5 TI no PU 14 E no J 1 E J 16 AC 4 11 Unidad 3 – Cuadernillo 7 Ocupación del tomador del crédito Total 50 Nivel educacional del tomador del crédito x f(x) PI 1 PC 4 SI 11 SC 21 UI 6 UC 7 Total 50 Ingreso mensual promedio del grupo familiar x f(x) [3.000 – 5.000) 3 [5.000 – 7.000) 9 [7.000 – 9.000) 16 [9.000 – 11.000) 10 [11.000 – 13.000) 7 [13.000 – 15.000) 3 Total 50 Los paréntesis (también pueden usarse corchetes invertidos) indican que el límite superior del intervalo se incluye en el intervalo inmediato inferior. En el primer intervalo se agrupan las familias cuyo ingreso es inferior a $5.000. En el segundo, las familias cuyo ingreso es igual o su- perior a $5.000 e inferior a $7.000. Monto del crédito solicitado x f(x) [5.000 – 7.500) 6 [7.500 – 10.000) 9 12 Elementos de Matemática y Estadística Monto del crédito solicitado [10.000 – 12.500) 12 [12.500 – 15.000) 14 [15.000 – 17.500) 7 [17.500 – 20.000) 2 Total 50 Número de cuotas x f(x) 6 9 12 16 18 6 24 19 Total 50 El primer ordenamiento de datos que se realiza es éste. Una tabla de doble entrada es una herramienta útil para visualizar rápidamente los datos. Otros parámetros que se calculan habitualmente son: Frecuencia absoluta acumulada: Es la suma de las frecuencias absolutas simples. Tomemos como ejemplo la variable: ingreso mensual promedio del grupo familiar: X = INGRESO DEL GRUPO FAMILIAR X F(X) Fac(X) [3.000 – 5.000) 3 3 [5.000 – 7.000) 11 14 [7.000 – 9.000) 16 30 [9.000 – 11.000) 10 40 [11.000 – 13.000) 7 47 13 Unidad 3 – Cuadernillo 7 X = INGRESO DEL GRUPO FAMILIAR [13.000 – 15.000) 3 50 TOTAL 50 La frecuencia acumulada absoluta es útil para visualizar rápidamente cuestiones tales como: ¿Cuántas familias tienen un ingreso inferior a $9.000? 30 familias. ¿Cuántas familias tienen un ingreso superior a $7.000? 50 – 14 = 36 familias. Frecuencia relativa simple: Se divide la frecuencia absoluta por el total de los datos (en nuestro caso, 50) La frecuencia absoluta simple nos da la proporción de la muestra en estudio que asume un valor determinado de la variable. Frecuencia relativa acumulada: Es la suma de las frecuencias relativas simples. Si continuamos trabajando con la variable “ingreso del grupo familiar”, tenemos: X= INGRESO DEL GRUPO FAMILIAR X F(x) Fac(x) fr(x) Facrel (x) [3.000 – 5.000) 3 3 3/50= 0,06 0,06 [5.000 – 7.000) 11 14 11/50=0,22 0,28 [7.000 – 9.000) 16 30 16/50= 0,32 0,6 [9.000 – 11.000) 10 40 10/50 = 0,2 0,8 [11.000 – 13.000) 7 47 7/50 = 0,14 0,94 [13.000 – 15.000) 3 50 3/50 = 0,06 1 TOTAL 50 La suma de las frecuencias relativas es siempre 1. Si se multiplican las frecuencias relativas por 100, se obtienen los porcentajes que corres- ponden a cada valor de la variable. Por ejemplo: ¿Qué porcentaje de las familias en estudio tiene un ingreso mensual entre $5000 y $11.000? 14 Elementos de Matemática y Estadística La respuesta es: (0,22 + 0,32 + 0,2) . 100 = 74%. 2. GRÁFICOS ESTADÍSTICOS Los gráficos estadísticos son también una herramienta muy útil para visualizar la distri- bución de la variable en estudio. a. Gráficos de variables discretas i. Gráfico de barras: Este tipo de gráficos se utilizan generalmente cuando la variable en estudio es cualitativa. So- bre uno de los ejes se ubican las bases de las barras (habitualmente en el eje x); y sobre el otro la frecuencia absoluta. La longitud de cada barra es proporcional a la frecuencia absoluta para ese valor de la variable. Es muy sencillo realizar estos gráficos utilizando el programa Excel (seguramente lo verán en Informática). Se copia la tabla en una hoja de cálculo del programa, se la ilumina, y luego se aprie- ta “insertar gráfico”. Aparecerá un asistente, en el que se puede seleccionar el tipo de gráfico y el formato. Nosotros haremos como ejemplo el gráfico de barras de la variable “nivel educacional del to- mador del crédito”. X= NIVEL EDUCACIONAL DEL TOMADOR DEL CRÉDITO X F(X) PI 1 PC 4 SI 11 SC 21 UI 6 UC 7 15 Unidad 3 – Cuadernillo 7 0 5 10 15 20 25 PI PC SI SC UI UC Nivel educacional del tomador del crédito ii. Gráfico circular Se utiliza en los mismos casos que los gráficos de barras. En este caso, se considera que el total de la circunferencia (360º) es el total de los datos (en nuestro caso, 50). Cada valor de la variable quedará representado por un sector circular pro- porcional a su frecuencia. Por ejemplo, para el mismo ejemplo anterior, si queremos calcular el sector que le corresponde a los tomadores de crédito con secundaria completa: 50 ------------------ 360º 21 ------------------ x= 360 º⋅21 50 Los gráficos circulares o de torta también se confeccionan fácilmente con el Excel. 16 Nivel Educacional del tomador del crédito PI PC SI SC UI UC Elementos de Matemática y Estadística b. Gráficos de variables continuas i. Histograma Se utiliza para las variables continuas. Consiste en una serie de barras adyacentes, cuyo ancho representa la amplitud del intervalo, y cuya altura es proporcional a la frecuencia absoluta. Para la variable “Ingreso del grupo familiar”, el histograma es el siguiente ii. Polígonos de frecuencias Se obtienen uniendo los puntos medios de las columnas del histograma: 17 INGRESO DEL GRUPO FAMILIAR 0 2 4 6 8 10 12 14 16 18 1 [3.000 – 5.000[ [5.000 – 7.000[ [7.000 – 9.000[ [9.000 – 11.000[ [11.000 – 13.000[ [13.000 – 15.000[ Ingresos (en $) F INGRESO DEL GRUPO FAMILIAR 0 2 4 6 8 10 12 14 16 18 1 [3.000 – 5.000[ [5.000 – 7.000[ [7.000 – 9.000[ [9.000 – 11.000[ [11.000 – 13.000[ [13.000 – 15.000[ Ingresos (en $) F Unidad 3 – Cuadernillo 7 iii. Ojiva de Frecuencia Acumulada: Se utiliza también para las variables continuas. En el eje de abscisas se colocan los extremos de los intervalos de frecuencias, y en el eje de ordenadas los valores de la frecuencia acumulada para cada intervalo. Para la misma variable anterior, la ojiva toma esta forma: 18 Frecuencias acumuladas para el ingreso por grupo familiar 0 10 20 30 40 50 60 [3.000 – 5.000[ [5.000 – 7.000[ [7.000 – 9.000[ [9.000 – 11.000[ [11.000 – 13.000[ [13.000 – 15.000[ f(X) Elementos de Matemática y Estadística 3. MEDIDAS DE POSICIÓN Las medidas de posición son valores numéricos que caracterizan a una distribución de frecuencias. a. Media aritmética Es el promedio de los datos de una distribución. Para las variables discretas que no están agrupadas en intervalos de frecuencias, se calcula mediante la siguiente fórmula: x̄= ∑ (x i⋅f i ) n Calcularemos la media aritmética de nuestra variable: “Número de Integrantes del GrupoFamiliar”. A la tabla original, le agregamos una columna cuyo contenido es el producto de cada valor de la variable por su frecuencia absoluta X= NÚMERO DE INTEG- RANTES DEL GRUPO FAMILIAR X F(x) Xi . Fi 1 2 2 2 12 24 3 14 42 4 16 64 5 5 25 6 1 6 TOTAL 50 163 La media aritmética es el cociente entre la suma de los productos efectuados y el número total de datos: x̄= 163 50 =3,26≈3 A partir de este valor podemos tener una primera aproximación de la distribución de nuestra variable: el promedio de integrantes del grupo familiar es 3. Para las variables continuas y las variables discretas agrupadas en intervalos de frecuencias, el cálculo de la media aritmética es similar, pero en vez de utilizar el valor puntual de la variable, 19 Unidad 3 – Cuadernillo 7 calculamos el punto medio de cada intervalo de frecuencias, tomando ese valor como el represen- tativo de cada intervalo: El punto medio es la semisuma de los extremos de cada intervalo. x̄= ∑ (PM i⋅f i ) n Para nuestra variable: “Ingreso Mensual del Grupo Familiar”: X= INGRESO MENSUAL PROMEDIO DEL GRUPO FAMILIAR X PM F(x) PMi.Fi [3.000 – 5.000) 4.000 3 12.000 [5.000 – 7.000) 6.000 11 66.000 [7.000 – 9.000) 8.000 16 128.000 [9.000 – 11.000) 10.000 10 100.000 [11.000 – 13.000) 12.000 7 84.000 [13.000 – 15.000) 14.000 3 42.000 TOTAL 50 432.000 x̄= 432.000 50 =8.640 b. Modo o Moda El Modo es el valor de la variable al que le corresponde la máxima frecuencia; es decir que es el valor de la variable que más se repite. Para las distribuciones de variables discretas sin agrupar, simplemente se determina observan- do a qué valor de x le corresponde la mayor frecuencia. Para nuestra variable “número de integrantes del grupo familiar”, el modo es 4, lo que signi- fica que, de las familias entrevistadas, las de cuatro integrantes fueron las que aparecieron más veces. 20 Elementos de Matemática y Estadística Para las variables agrupadas en intervalos de frecuencias, el modo se calcula mediante la si- guiente fórmula: Mo=Li+ Δ1 Δ1+Δ2 ⋅a Li = Límite inferior del intervalo modal (intervalo de máxima frecuencia absoluta) Δ1 = frecuencia absoluta del intervalo modal menos frecuencia absoluta del intervalo anterior Δ2 = frecuencia absoluta del intervalo modal menos frecuencia absoluta del intervalo pos- terior a = amplitud del intervalo X= INGRESO MENSUAL PROMEDIO DEL GRUPO FAMILIAR X F(X) Fac(X) [3.000 – 5.000) 3 3 [5.000 – 7.000) 11 14 [7.000 – 9.000) 16 30 [9.000 – 11.000) 10 40 [11.000 – 13.000) 7 47 [13.000 – 15.000) 3 50 TOTAL 50 En esta distribución, el intervalo modal es el comprendido entre $7000 y $9000, cuya frecuencia absoluta es 16. El modo se calcula como: 21 Unidad 3 – Cuadernillo 7 Mo=7000+ 16−11 (16−11)+(16−10) . 2000=7909,09≈7910 La información que nos brinda este valor es que el ingreso más frecuente entre este grupo de familias es de $7910. c. Mediana La mediana es el valor de la variable que divide a la distribución en dos partes con igual nú- mero de datos. Supongamos que en una escuela primaria seleccionamos al azar un grupo de 9 chicos, y le preguntamos la edad a cada uno. Obtenemos los siguientes datos: 7 – 8 – 12 – 11 – 10 - 9 - 8 - 9 - 13 Ordenamos a los alumnos del grupo desde el de menor edad al de más edad: Para calcular la mediana en distribuciones de variables discretas sin agrupar, calculamos pri- mero la frecuencia acumulada absoluta. Luego nos fijamos a qué valor de la variable corresponde el dato medio de la distribución. X= NÚMERO DE INTEG- RANTES DEL GRUPO FAMILIAR X F(x) Fac(x) 1 2 2 22 La mediana de la distribución es 9 7 años 8 años 8 años 9 años 9 años 10 años 11 años 12 años 13 años Elementos de Matemática y Estadística X= NÚMERO DE INTEG- RANTES DEL GRUPO FAMILIAR 2 12 14 3 14 28 4 16 44 5 5 49 6 1 50 TOTAL 50 La tabla nos informa que hay dos familias con un solo integrante, 14 familias con dos o menos integrantes, 28 familias tienen hasta 3 integrantes, 44 tienen 4 integrantes o menos, 49 tienen ha- sta 5 y 50 familias tienen como máximo 6 integrantes. Como la mitad de la distribución es 25, la mediana es x = 3, ya que 28 familias (más de la mi - tad), tienen hasta 3 integrantes. Para datos agrupados en intervalos de frecuencias, utilizamos la siguiente fórmula para el cálculo de la mediana: Me=Li+ n 2 −Fac k−1 f k ⋅a Li : límite inferior del intervalo que contiene a la mediana n = número total de datos Fack−1 = frecuencia acumulada del intervalo anterior al de la mediana f K = frecuencia absoluta del intervalo que contiene a la mediana a = amplitud del intervalo 23 Unidad 3 – Cuadernillo 7 X= INGRESO MENSUAL PROMEDIO DEL GRUPO FAMILIAR X F(X) Fac(X) [3.000 – 5.000) 3 3 [5.000 – 7.000) 11 14 [7.000 – 9.000) 16 30 [9.000 – 11.000) 10 40 [11.000 – 13.000) 7 47 [13.000 – 15.000) 3 50 TOTAL 50 En este caso, el dato número 25 corresponde al intervalo comprendido entre $7.000 y $9.000. Me=7000+ 50 2 −14 16 .2000=8375 De este dato podemos deducir que la mitad de las familias encuestadas tienen un ingreso inferior a $8.375. 4. MEDIDAS DE CONCENTRACIÓN a. Cuartiles Así como la mediana nos da la información acerca de cuál es el valor de la variable por debajo del cual se encuentra el 50% de la muestra, los cuarteles nos informan el valor de la variable por debajo del cual se encuentra el 25% de la muestra, o el 75% de la muestra. La forma de cálculo es semejante a la de la mediana. Primer Cuartil (Q1): para variables sin agrupar, el primer cuartel es el valor de la variable por debajo del cual se encuentra el 25% de los datos. 24 Elementos de Matemática y Estadística Para nuestra variable “integrantes del grupo familiar”, el 25% de los datos equivale a 13 datos (12,5, que aproximamos a 13). El valor del Q1 es 2, ya que hasta 14 familias tienen dos integrantes o menos. Para calcular el tercer cuartil (Q3), calculamos el 75% de los datos, que equivale a 38. El valor de Q3 es 4, ya que hasta 44 familias tienen 4 integrantes o menos. El segundo cuartil es la mediana. Para datos agrupados, se utilizan las siguientes fórmulas: Q1=Li+ n 4 +FacQ1−1 f Q1 ⋅a Q3=Li+ n 4 +FacQ 3 −1 f Q3 ⋅a Para la variable “Nivel de ingreso del grupo familiar”, los cuartiles son: Q1=5000+ 50 4 −3 11 .2000=6727,3 Q3=9000+ 3 4 .50−30 10 .2000=10500 Es decir que el 25% de las familias encuestadas tiene un ingreso inferior a $6727,3; y el 75% de las familias del mismo grupo tiene un ingreso inferior a $10.500. También podemos inferir que el 50 % central de las familias tiene ingresos entre $6727 y $10.500 b. Deciles y percentiles De manera similar, podemos calcular el valor de la variable que deja debajo de sí a cualquier porcentaje de datos. Los deciles se refieren al 10%, 20%, etc.; y los percentiles a cualquier porcentaje. Si queremos calcular, por ejemplo, cuál es el ingreso mínimo del 10% de familias que tienen mayor ingreso, calcularemos el noveno decil: D9=Li+ 9 10 .n−FacD 9 −1 f D9 .a El 90% de la distribución corresponde al dato número 45, con lo que el intervalo del noveno decil es el comprendido entre $11.000 y $13.000. 25 Unidad 3 – Cuadernillo 7 D9=11000+ 9 10 .50−40 7 . 2000=12428,6 El 10% de las familias de mayores ingresos reciben más de $12.428 por mes. Supongamos que el banco piensa otorgar un determinado crédito a aquellas familias cuyos ingresos superen los $10.500. ¿Cuántas de las familias encuestadas estarán en condiciones de reci- birlo? Para calcularlo, nos situamos en el intervalo que contiene a este valor, que es el comprendido entre $9.000 y $11.000: 10.500=9.000+ k 100 .50−30 10 .2.000 10.500−9.000 2.000 = k 100 .50−30 10 3 4 .10+30= k 100 . 50 37,5 . 100 50 =k k=75% El 75% de las familias tiene un ingreso inferior a $10.500; por lo tanto sólo podrá acceder a ese crédito el 25% de las familias, es decir, 13. 5. MEDIDAS DE DISPERSIÓN Las medidas de dispersión brindan información acerca del grado deheterogeneidad de la muestra. Supongamos que tenemos un taller de carpintería, y producimos sillas. Para nuestras sillas necesitamos tornillos de 18 mm de longitud. Tenemos a dos posibles proveedores de los tornillos, de precio similar. Para decidir cuál nos conviene, tomamos una muestra de 10 tornillos de cada proveedor, los medimos y calculamos la longitud media. En ambas muestras es de 18 mm, pero sus configuraciones son las siguientes: 26 MUESTRA 1 Elementos de Matemática y Estadística Aunque el promedio de las longitudes sea el mismo, las muestras son muy diferentes entre sí, y no será lo mismo para nuestra producción de sillas que nuestros tornillos sean de la empresa co- rrespondiente a la muestra 1 o a la de la muestra 2. Para indicar el grado de variabilidad se utiliza el desvío standard o desviación típica, que se calcula a partir de la varianza. a. CÁLCULO DE LA VARIANZA La varianza es la sumatoria de los desvíos cuadrados respecto de la media aritmé- tica. Para datos sin agrupar, la fórmula es la siguiente: S2= ∑ (xi− x̄ )2 . f i n b. Cálculo del desvío estándar o desviación típica La desviación típica es la raíz cuadrada de la varianza. La razón para elevar al cuadrado y luego calcular la raíz es que, si no se elevan al cuadrado para eliminar el signo negativo, los desvíos respecto de la media aritmética se anulan entre sí. Ejemplificaremos con los datos para nuestras dos muestras de tornillos: Muestra 1 x x− x̄ (x− x̄ )2 18 0 0 18 0 0 17,5 -0,5 0,25 19 1 1 18,5 0,5 0,25 27 MUESTRA 2 S2= 6 10 =0,6 S=√0,6=0,774 Unidad 3 – Cuadernillo 7 x x− x̄ (x− x̄ )2 18 0 0 19 1 1 18,5 0,5 0,25 16,5 -1,5 2,25 17 -1 1 TOTAL 0 6 Muestra 2 x x− x̄ (x− x̄ )2 16 -2 4 14 -4 16 19 1 1 23 5 25 16 -2 4 18 0 0 17 -1 1 15 -3 9 22 4 16 20 2 4 TOTAL 0 80 Para datos agrupados en intervalos de frecuencias, la forma de cálculo es muy similar S2= ∑ (PM i− x̄)2⋅f i n Tanto la varianza como la desviación típica son muy útiles para comparar dos muestras de objetos o individuos de la misma clase. Cuando se necesita comparar la homogeneidad de dos muestras respecto de diferentes pará- metros, se utiliza el coeficiente de variación. c. CÁLCULO DEL COEFICIENTE DE VARIACIÓN El coeficiente de variación indica la heterogeneidad relativa de una muestra, en relación con la media aritmética. CV= S x̄ ⋅100 28 S2=80 10 =8 S=√8=2,83 Elementos de Matemática y Estadística Para ejemplificar, vamos a calcular la media, la desviación típica y al coeficiente de variación para dos de nuestras variables analizadas en el caso del banco: el número de integrantes del grupo familiar y el monto del ingreso familiar. Monto del crédito solicitado X PM F(X) PM−x̄ (PM−x̄ )2⋅f [5.000 – 7.500) 6.250 6 -5.650 191.535.000 [7.500 – 10.000) 8.750 9 -3.150 89.302.500 [10.000 – 12.500) 11.250 12 - 650 5.070.000 [12.500 – 15.000) 13.750 14 1.850 47.915.000 [15.000 – 17.500) 16.250 7 4.350 132.457.500 [17.500 – 20.000) 18.750 2 6.850 93.845.000 TOTAL 50 560.125.000 x̄=11.900 2 560.125.000 11.202.500 50 11.202.500 3.347,013 S S CV=3347,03 11900 .100=21,83% Ingreso del grupo familiar X PM F(x) PM−x̄ (PM−x̄ )2⋅f [3.000 – 5.000) 4.000 3 - 4.640 64.588.800 [5.000 – 7.000) 6.000 11 - 2.640 76.665.600 [7.000 – 9.000) 8.000 16 - 640 6.553.600 29 Unidad 3 – Cuadernillo 7 Ingreso del grupo familiar [9.000 – 11.000) 10.000 10 1.360 18.496.000 [11.000 – 13.000) 12.000 7 3.360 79.027.200 [13.000 – 15.000) 14.000 3 5.160 79.876.800 TOTAL 50 906.508.0 00 x̄=8.640 S2=906.508 .000 50 =18.130.160 S=√(18.130 .160)=4.257,95 CV= 4258 8640 ⋅100=49,28 % Observando los datos, podemos concluir que la distri- bución correspondiente a la variable “monto del crédito solicitado” es más homogénea que la correspondiente al ingreso del grupo familiar, ya que su coeficiente de va- riación es significativamente menor. Recurso Multimedia 1 Todos estos cálculos, que son tan trabajosos y aburridos, se ahorran con una calculadora de mano. Puesta en modo estadístico calcula la media aritmética, la varianza y el desvío standard. 30 http://goo.gl/nkMwaE http://goo.gl/nkMwaE 1. ESTADÍSTICA: DEFINICIÓN Y OBJETO 2. GRÁFICOS ESTADÍSTICOS 3. MEDIDAS DE POSICIÓN 4. MEDIDAS DE CONCENTRACIÓN 5. MEDIDAS DE DISPERSIÓN
Compartir