Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística MANEJO DE DATOS VARIABLE (dato) Proposiciones tales como: “...el número de partículas en suspensión en una muestra de aire contaminada es mayor que 20...” “...la lluvia ácida ocasiona inconvenientes en ciertos países del norte...” “...la cantidad de hemoglobina en 100 cm de sangre es...” “...este paciente presenta el mal de Alzheimer...” brindan información corriente, pero se refieren a características que no son constantes sino variables de un lugar a otro, de una persona a otra, de un animal a otro, de una planta a otra, de una cepa a otra. Las características que presentan variabilidad o variación se denominan variables y conocer la esencia de estas observaciones es importante, pues está relacionada con la elección de la técnica estadística a utilizar al momento de analizar los datos. Las variables pueden clasificarse, según la naturaleza de los datos en: CUANTITATIVAS CUALITATIVAS Los datos son valores numéricos Los datos son cualidades o atributos A su vez las variables cuantitativas se clasifican en: DISCRETAS CONTINUAS Provienen de una acción de conteo Ejemplo 1: “número de pacientes que visitan un determinado consultorio médico” Provienen de una acción de medición Ejemplo 2: “Altura de los ingresantes a la escuela de policía en el año 2004” Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística El número que resulta del conteo en una variable cuantitativa discreta tiene que ser entero, en estos casos carece de sentido informar una fracción. Así en el ejemplo 1 un valor de 8,4 no es posible dado que en realidad son 8 las personas y un 0.4 de persona no tiene significado en la variable analizada. Una variable cuantitativa continua puede tomar todos los valores de la escala real. En el ejemplo 2 la altura medida es la que permite apreciar el instrumento de medida. Las variables cualitativas, también llamadas categóricas, tienen como escala de medida un conjunto de clases o categorías. Los datos que se obtienen a partir de ellas se denominan datos categóricos. Ejemplo 3: “Títulos de grado que otorga la Universidad Nacional del Litoral”. Los datos categóricos son: Ingeniero Químico, Bioquímico, Licenciado en Biotecnología,..... Las variables categorías, a su vez pueden ser: Ordinales: si bien son cualitativas permiten establecer un orden. como en el Ejemplo 4: “Grado del tumor en pacientes oncológicos”, Aquí las categorías adquieren un orden de importancia, donde mayor grado de tumor se asocia a mayor malignidad, obteniéndose las clase: Grado 1, Grado 2, Grado 3, Grado 4. Dicotómicas: el número de categorías se reduce a dos. Ejemplo 5: “Contaminación con Salmonella en determinados alimentos”. La variable "estar contaminado" sólo tiene la respuesta sí está contaminado o no como categorías. Nominales: son aquellas variables cualitativas que no requiere establecer un orden en las categorías. Ejemplo 6: “Raza Humana”. Así las categorías son: raza blanca, raza amarilla, raza negra. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Las categorías son excluyentes, en el sentido que una observación pertenece a una de ellas y no puede estar simultáneamente en otra. En años recientes el uso de métodos especializados para analizar datos categóricos se ha incrementado abruptamente, en especial por su aplicación a las ciencias biológicas, médicas y a las ciencias sociales. Ejemplos de variables categóricas: -Una prueba para determinar el grupo sanguíneo de un paciente tiene las respuestas: A, B, AB, O. La variable es categórica nominal. -Se analiza si un paciente sobrevive a una enfermedad, luego de un tratamiento. Las respuestas son: sí sobrevive, no sobrevive. La variable es categórica dicotómica. -Se califica una epidemia en: leve, moderada, fuerte. La variable es categórica ordinal (hay un orden de importancia). RESUMEN DE LA INFORMACIÓN Los datos estadísticos, obtenidos al realizar un experimento o mediante una simple recolección de mediciones, son en algunas ocasiones tan numerosos que su lectura se torna poco práctica, y de escasa utilidad. Pero si se los agrupa, ordena y se los presenta en tablas o gráficos, es posible realizar una lectura más provechosa. Además de las tablas o gráficos es conveniente calcular algunas cantidades que sirven como medidas numéricas que describen concisamente el material recogido y que aportan una gran cantidad de información. A estos valores se los llama estadísticos. También se puede tener un objetivo más ambicioso como es el de extraer de ellos algunas conclusiones generales, o sentar las bases para que a través de los datos de una muestra se infieran propiedades respecto de una población. Los tres párrafos anteriores permiten distinguir dos amplias ramas en estadística: ESTADÍSTICA Descriptiva Inferencial Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Relacionada con el resumen de datos y la descripción de los mismos. Relacionada con el proceso de utilizar datos para tomar decisiones o concluir La faz descriptiva es sólo la parte preliminar del trabajo estadístico. Tablas Para la presentación y resumen de los datos es conveniente tener en cuenta dos cuestiones: una es conocer si la variable es cualitativa (atributo) o cuantitativa y en este último caso si es discreta o continua y por otra parte determinar la cantidad de datos que se poseen. Si los datos son muy pocos, una simple enumeración de los mismos, ordenados de menor a mayor o recíprocamente, es suficiente. Ejemplo 7 Se han analizado la cantidad de inasistencias de 10 trabajadores de un centro de investigación (variable cuantitativa discreta) y se obtuvo: 2 0 6 1 12 4 5 3 0 0 Es más fácil la lectura si se ordenan los datos de manera creciente: 0 0 0 1 2 3 4 5 6 12 Esto permite expresar: “El número mínimo de ausencias registradas es: 0” “El número máximo de ausencias registradas es: 12” “El número de ausencias que se observa con mayor frecuencia: 0” “Lo más probable es que no se observen ausencias ya que el 0 se presenta tres veces”, (esta es una afirmación usual que más adelante se analizará). Para comprender las expresiones anteriores, se definen algunos términos: Frecuencia (f): es el número de veces que se presenta un mismo valor de la variable. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Así, en el ejemplo 7 la frecuencia de 0 es 3 y la de los restantes valores es 1 para cada uno de ellos. En otros casos, es conveniente referir este valor al total de mediciones, resultando lo que se conoce como frecuencia relativa: Frecuencia relativa (fr): número de veces que se presenta un valor dividido por el total de observaciones ( n f fr ). En algunos textos de estadística se emplea el término de frecuencia relativa porcentual. Frecuencia relativa porcentual (fr%): número de veces que se presenta un valor dividido por el total de observaciones y multiplicado por 100 ( 100fr100 n f %fr ). En el ejemplo 7 se registró que un 10% de los trabajadores observados tuvieron una sola inasistencia, mientras que un 30% no registraron inasistencias. En algunos textos de Estadística se la denomina frecuencia relativa porcentual. Ejemplo 8 Se está investigando si 20 laboratorios poseen la cantidad de extinguidores de incendio adecuados (variable aleatoriacategórica). Las respuestas obtenidas después de realizar el relevamiento son: sí sí sí sí sí sí sí sí sí sí sí no no no no no no no no no Se está analizando un atributo “la cantidad es adecuada o no adecuada”, que ciertamente es una variable aleatoria cualitativa dicotómica. Esta información dispersa puede aportar mayor información si se la dispone de una forma más legible, como se muestra en la tabla 1 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística ¿Cantidad adecuada? Frecuencia (f) Frecuencia relativa porcentual (%) Si 11 55 No 9 45 20 100 Tabla 1 Se puede expresar entonces: "...el 45% de los laboratorios no posee el número adecuado de extinguidores...” Si se cuenta con la información adicional de que los 12 primeros datos corresponden a laboratorios ubicados en la capital de la provincia de Santa Fe y los restantes pertenecen al departamento LaS Colonias. Se pretende utilizar estos datos para completar la tabla anterior y ordenar la información de la siguiente manera: Departamentos La Capital San Cristóbal ¿Cantidad adecuada? Si 8 3 No 4 5 Tabla 2 Este tipo de tablas es conocida con el nombre de “tabla de 2x2 o tabla de contingencia”. Si los datos son numerosos también se los puede ordenar, pero esto simplemente no ayudará a extraer demasiadas conclusiones, se debe construir necesariamente una tabla, llamada tabla de distribución de frecuencias. Ejemplo 9 Los datos que se dan a continuación corresponden al número de pulsaciones por minuto (variable aleatoria cuantitativa discreta) de 80 soldados de 20 años: 61 95 59 92 55 90 55 90 53 62 67 83 66 82 65 80 65 80 63 52 77 72 75 71 75 71 74 70 86 52 71 70 70 73 73 73 69 79 62 69 77 74 77 72 75 71 75 70 74 74 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 81 66 82 65 82 65 80 65 80 69 95 61 92 55 90 55 90 54 87 70 79 85 64 74 85 87 110 86 100 105 La tabla 3 muestra la distribución de frecuencias correspondiente a los datos. No de pulsaciones f No de pulsaciones f No de pulsaciones f 52 2 69 3 83 1 53 1 70 5 85 2 54 1 71 4 86 2 55 4 72 2 87 2 59 1 73 3 90 4 61 2 74 5 92 2 62 2 75 4 95 2 63 1 77 3 100 2 64 1 79 2 105 1 65 5 80 4 110 1 66 2 81 1 67 1 82 3 Tabla 3 Evidentemente la lectura de tabla no sólo es más simple que en los datos originales, ya que se ha producido un ordenamiento, sino que aparece visible la frecuencia de cada observación. Pero aún así, resultaría más práctico realizar un agrupamiento de los datos en clases o categorías que facilitaría aún más su lectura. Este es un caso, como ya se especificó, de variable cuantitativa discreta. Es posible registrar pulsaciones y no fracciones de ellas, por consiguiente se emplean sólo números enteros y positivos. Se pueden agrupar los datos en clases, como se ve en la tabla 4 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Clases: Número de pulsaciones /minuto Marca de clase (xmi) f 46 – 53 49.5 3 54 – 61 57.5 8 62 – 69 65.5 15 70 – 77 73.5 26 78 – 85 81.5 13 86 – 93 89.5 10 94 – 101 97.5 3 102 – 109 105.5 1 110 - 117 113.5 1 Tabla 4 Se ha perdido parte de la información. La velocidad de lectura compensa con creces esa pérdida. ¿Dónde radica la pérdida mencionada? Por ejemplo, al tomar el intervalo de 54 a 61 no se tiene certeza si los 8 valores observados corresponden a 54, 55, 56, 57, 58, 59 60 ó 61. Sólo se sabe que 8 de ellos pertenecen a la clase 54 – 61 y mas aún, se puede decir que 8 de ellos corresponden a un número único que representa a esa clase. Convencionalmente se considera al punto medio de dicho intervalo como el valor representativo de él. A los puntos medios de los intervalos se los llama marca de clase o simplemente marca. Así, en el segundo intervalo de clase del ejemplo 4 el punto medio es 57.5 ( 2 6154 ) Tabla 4 Observaciones: 1. El agrupamiento en clases facilita la lectura pero hace perder información. 2. Las amplitudes de los intervalos de clase deben ser todas iguales lo que da una imagen válida de la distribución de frecuencias y simplifica la lectura. En algunos casos existen intervalos que no registran valor o tienen muy baja frecuencia. Esto justifica el empleo de las llamadas clases abiertas, las que aparecen al principio o al final de las tablas de frecuencias. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística En el ejemplo 9, se pueden agrupar los 3 últimos intervalos en uno solo obteniéndose la tabla 5. Nro. de pulsaciones/minuto f fr fr(%) F Fr Fr(%) 46 – 53 3 80 3 3.75 3 80 3 3,75 54 – 61 8 80 5 10.00 11 80 11 13,75 62 – 69 15 80 15 18.75 26 80 26 32,50 70 – 77 26 80 26 32.50 52 80 52 65,00 78 – 85 13 80 13 16.25 65 80 65 81,25 86 – 93 10 80 10 12.50 75 80 75 93,75 94 o más 5 80 5 6.25 80 80 80 100,00 Total 80 1 100.00 Tabla 5 Evidentemente esta lectura de la tabla es más rápida y práctica que todas las anteriores. Se introduce ahora un nuevo concepto, el de frecuencia acumulada, que tiene mucha importancia y variada aplicación en estadística. Frecuencia Acumulada (F): para cada intervalo de clase la frecuencia acumulada es la suma de las frecuencias de todos lo intervalos menores o iguales a él. La inclusión de esta columna permite responder rápidamente preguntas tales como: “¿En cuántos soldados el número de pulsaciones por minuto es menor que 70?” La respuesta es 26 “¿En cuántos soldados el número de pulsaciones por minuto se mantiene entre 62 y 77?” La respuesta es 41 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Hasta aquí se ha trabajado con el ejemplo 9, donde la variable es cuantitativa discreta, pero cabe advertir que el procedimiento de agrupación resulta más complicado si la variable es continua, caso que se tratará a continuación. No obstante, hay una cuestión común a cualquier tipo de variable: ¿Cuántas clases se deben utilizar? La respuesta depende de los autores que se consulten pero en general como regla práctica se aconseja un número entre 5 y 20. Ya que con menos de 5 la descripción de la distribución no es muy exacta y se pierde mucha información. Con más de 20 se pierde legibilidad, aunque se gane en exactitud. También, es aconsejable, establecer el número de clases atendiendo al rango de los datos, adoptando una división criteriosa de acuerdo a los intereses del investigador. Rango = valor de la observación más grande – valor de la observación más pequeña. Existen, por otra parte, unas fórmulas empíricas que permiten orientar el cálculo, en forma aproximada, del número de clases y que dependen del tamaño de la muestra; éstas son: Número de clases: 1+ 3,3 x log n Número de clases: n Ejemplo 10 Los datos que se dan a continuación corresponden a la cantidad de creatinina en mg/100 cm3 (variable cuantitativa continua) dosada en muestras de orina de 24 horas en un grupo de 84 varones normales. Datos registrados en la tabla 6. 1,51 1.08 1.81 1.65 1.58 1.54 1.65 1.40 1.61 1.38 1.56 1.83 1.69 1.22 1.22 1.68 1.47 1.68 1.47 1.49 1.80 1.33 1.83 1.50 1.46 1.67 1.60 1.23 1.54 1.73 1.43 2.18 1.46 1.53 1.60 1.59 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 1.49 1.46 1.72 1.56 1.43 1.69 1.15 1.89 1.47 2.00 1.58 1.37 1.40 1.76 1.62 1.961.66 1.51 1.31 2.29 1.58 2.34 1.66 1.71 1.44 1.66 1.36 1.43 1.26 1.47 1.52 1.57 1.33 1.86 1.75 1.57 1.83 1.52 1.66 1.90 1.59 1.47 1.86 1.73 1.55 1.40 1.52 1.86 2.02 Tabla 6 Menor valor observado ......... …………. ..................................1,08 Mayor valor observado .......... …………....................................2,34 El rango es (2.34 – 1.08).................................................... .....1,26 Para este ejemplo se pueden tomar 5, 6, 7,... intervalos de clase, o bien la cantidad que determina alguna de las reglas empíricas: 1 + 3,3 log 84= 7,35 7 o 84 =9.16 9. Para tener una idea aproximada de la amplitud que se le debe dar a cada intervalo, se realiza la siguiente operación: rango / número de clases adoptado. Si se adoptan 9 clases se tendría una amplitud de 1,26 / 9 = 0,14. Este valor es orientador, pero por razones de practicidad se utilizará una amplitud de 0.15, por lo que queda un rango real de valores de 1.35, sobrando así nueve puntuaciones al segundo decimal: 1.35 – 1.26 = 0.09 que serán distribuidas, en la medida de lo posible, equitativamente entre el límite inferior del primer intervalo de clase y el límite superior del último intervalo de clase. Así la primer clase se inicia, en 1.05 (por conveniencia tres puntuaciones al segundo decimal debajo del valor mínimo observado) teniendo de este modo la clase: [1,05 -1,20) que contiene todas las observaciones desde 1,05 inclusive hasta llegar a 1,20 pero sin incluir a este valor, que pasa a ser el límite inferior de la clase siguiente. Las clases serán: [ ) 1,05 - 1,20 1,20 - 1,35 1,35 - 1,50 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 1,50 - 1,65 1,65 - 1,80 1,80 - 1,95 1,95 - 2,10 2,10 - 2,25 2,25 - 2,40 La última clase termina seis puntuaciones al segundo decimal arriba del valor máximo observado. Realizando el conteo correspondiente resulta: Intervalo de clase Marca de clase Conteo f F F(%) 1,05 - 1,20 1,125 // 2 2 2,38 1,20 - 1,35 1,275 ///// // 7 9 10,71 1,35 - 1,50 1,425 ///// ///// ///// //// 19 28 33,33 1,50 - 1,65 1.575 ///// ///// ///// ///// /// 23 51 60,71 1,65 - 1,80 1,725 ///// ///// ///// // 17 68 80,95 1,80 - 1,95 1,875 ///// ///// 10 78 92,86 1,95 - 2,10 2,025 /// 3 81 96,43 2,10 - 2,25 2,175 / 1 82 97,62 2,25 - 2,40 2,325 // 2 84 100,00 Tabla 7 Los números que figuran en la primera columna constituyen el límite inferior y el límite superior, respectivamente, de cada intervalo de clase. Note que estos límites aparentes tienen tantas cifras decimales como los datos medidos. La segunda columna representa el valor medio de cada intervalo y se supone que todos los valores de una clase están representados por este punto, al que se suele denominar marca de la clase (mi). Nota: Recordar la notación matemática de intervalos semiabiertos, esto correspondería a: [1,05; 1,20); [1,20; 1,35);...; [2,25; 2,40). No hay ambigüedad. El valor 1,35 pertenece al tercer intervalo, no al segundo. Sólo marca el límite superior del segundo intervalo de clase. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Gráficos Los gráficos tienen la virtud de hacer más evidentes las propiedades y características de las distribuciones de frecuencia, ya que presentan en forma rápida una impresión visual del conjunto de datos presentados. Existen muchos tipos de representaciones gráficas pero algunas son generales y adaptables a un gran número de situaciones. Todos ellos deben ajustarse a ciertas reglas generales: • Fácil lectura equivalente a máxima sencillez. • Indicación clara de título, fuente, escala y claves explicativas. Se analizan diferentes tipos de gráficos, cada uno de ellos con características particulares. Diagrama de puntos El diagrama de puntos se utiliza cuando el número de observaciones es pequeño. Este tipo de gráfico permite buscar características anormales o tendencias en la variabilidad de los datos. Ejemplo 11 Se dan 15 mediciones del punto de ebullición de cierta sustancia química (en grados Celsius): 148, 150, 153, 136, 153, 162, 155, 146, 183, 157, 132, 160, 175 y 150. Para construir el diagrama se marcan los valores de las observaciones individuales sobre un eje horizontal, a escala apropiada, con un símbolo, por ejemplo: círculo lleno. Si existen valores repetidos en las observaciones, estos se encolumnan en el mismo diagrama. Para los datos del ejemplo 11, el grafico 1 presenta un diagrama de puntos. 130.00 140.00 150.00 160.00 170.00 180.00 Grados Celsius Gráfico 1 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Este conjunto de datos tiene un rango de 51º (R = 183 - 132 = 51 º); además entre 146 º y 162 º se encuentra el 71,4% de las observaciones ( %4,71100 15 10 ). Gráfico sectorial o de torta Muestra de manera expeditiva el tamaño relativo entre las categorías de una variable aleatoria. Dicho de otra manera, evidencia como se distribuyen las partes respecto del todo. Consisten en la división en sectores o "porciones" de un círculo, donde cada una representa la frecuencia proporcional de una categoría determinada. Cabe advertir que puede considerárselos acertados cuando la variable presenta un número pequeño de categorías (arbitrariamente: menor a seis). Del ejemplo 8, sobre si “los 20 laboratorios examinados tienen o no cantidad adecuada de extintores”, se obtiene el gráfico 2: Gráfico 2 De la simple observación del gráfico se puede concluir que al sector de mayor área le corresponde el mayor porcentaje, que para este caso se traduciría en que “el 55% de los laboratorios investigados poseen extintores adecuados”. Existen diferentes opciones para construir el gráfico de sectores, en algunos casos son muy útiles para visualizar gráficamente el comportamiento de dos grupos variables estudiadas en la misma unidad experimental. Esto sería un análisis bivariado. Ejemplo 12 55% Adecuado 45% inadecuado Porcentaje de laboratorios con y sin extinguidores adecuados Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Se estudia en un hospital el número de pacientes que deben ser internados por un período mínimo de una semana, tras haber sido intervenidos quirúrgicamente. Este estudio se realiza durante tres meses en dos salas de internación poscirugía diferentes de un nosocomio, una es la sala de traumatología y la otra la sala de cardiología. Los datos se resumen en una “tabla de contingencia” como se observa en la tabla 8. Se anexa el gráfico de torta correspondiente (Grafico 3). Sala de cardiología Sala de traumatología Mas de una semana de internación 27 38 Menos de una semana de internación 11 24 Tabla 8 Mas de una semana Menos de una semana cardiología traumatología Gráfico 3 Una alternativa a la propuesta presentada es la que se muestra en el gráfico 4 que agrupa en una sola torta ambas salas, el círculo interior corresponde a la sala de traumatología y el externo a la sala de cardiología. Esto permite realizar un contraste simultáneo de los períodos de internación posquirúrgicas en ambas salas. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística mas de una semana menos de una semana cardiología n=27 n=11 traumatología n=38 n=24 Gráfico 4 Gráfico de barras Este tipo de gráficoimpacta visualmente de manera diferente al gráfico de sectores, debido a que en él se observa la distribución de frecuencia de los datos en los diferentes valores cuantitativos discretos o categorías de la variable. Las barras pueden construirse en sentido horizontal o vertical. Si las mismas se toman del mismo ancho, su longitud o altura es proporcional a la frecuencia. Para los datos de la Tabla 1 se obtiene el siguiente gráfico: Gráfico 6 Si la variable a representar es cuantitativa discreta, las barras que corresponden a valores de la variable no se tocan y se representan todas con el mismo ancho. Gráfico de barras correspondiente a los datos de la Tabla 4 0 20 40 60 80 100 No Si 45 55 % Porcentaje de laboratorios con y sin cantidad de extinguidores adecuados Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Gráfico 7 Si en lugar de una barra se utiliza un bastón, éste debe tener una longitud proporcional a la frecuencia y se lo coloca sobre el valor correspondiente a la marca de clase (Gráfico 8) Gráfico 8 Para estudios bivariados, dos variables aleatorias medidas en la misma unidad experimental, donde una de ellas es categórica, este gráfico es muy útil dado que permite comparar las frecuencias de ambas a la vez. Para el ejemplo 12 se presentan dos gráficos de barras agrupadas. En el primero (Grafico 9a) las barras representan la frecuencia absoluta de cada categoría 0 5 10 15 20 25 30 46-53 54-61 62-69 70-77 78-85 86-93 94-101102-109110-117 3 8 15 26 13 10 3 1 1 F re c u e n c ia Pulsaciones por minuto 0 5 10 15 20 25 30 49.5 57.5 65.5 73.5 81.5 89.5 97.5 105.5 113.5 3 8 15 26 13 10 3 1 1 F re c u e n c ia Pulsaciones por minuto Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística de la variable “tiempo” agrupada por “sala”, mientras que en el segundo (grafico 9 b) se presentan las frecuencias relativas porcentuales respectivas. a b Gráfico 9 Ambos gráficos permiten visualizar el contenido de la tabla 8, pero hay que ser muy cuidadosos respecto a las conclusiones que se extraigan de cada uno, ya que del primero (9a) podría inferirse erróneamente que el tiempo de internación de “más de una semana” en traumatología es superior al correspondiente en cardiología, siendo que esta comparación no es aplicable para valores absolutos de frecuencia. El Gráfico 9b es el adecuado para este análisis, pues es el análogo al gráfico de sectores, donde “las alturas de las barras” representan el tamaño relativo de cada categoría respecto al total de cada sala y a su vez, es posible comparar entre salas. Diagrama de tallo - hoja Como se señalara previamente, al agrupar los datos para confeccionar una tabla o un gráfico, se gana rapidez en la interpretación del comportamiento de los mismos, pero se pierde información. Actualmente se han desarrollado métodos para la obtención de imágenes globalizadoras sin perder dicha información y que además brinda una idea de la distribución de los valores de la variable. Un gráfico que reúne las condiciones enunciadas es el “Diagrama tallo-hoja”, creado por Tuckey (1977). Éste exhibe directamente las mediciones. En el ejemplo 9, las “pulsaciones por minuto de 80 soldados” que se observaron tomaron valores entre 50 y 110, los cuales fueron representados en un Diagrama Tallo- Hoja, como muestra el diagrama 1 0 10 20 30 40 Cardiología Traumatología 27 38 11 24 N ú m e ro Más de 1 semana Menos de 1 semana 0 20 40 60 80 100 Cardiología Traumatología 71 61 29 39 P o rc e n tj e Más de 1 semana Menos de 1 semana Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 5 0 0 3 4 5 5 5 5 9 6 1 1 2 3 4 5 5 5 5 5 6 6 7 9 9 9 7 0 0 0 0 0 1 1 1 1 2 2 3 3 3 4 4 4 4 4 5 5 5 7 7 7 9 9 8 0 0 0 0 1 2 2 2 3 5 5 6 6 7 7 9 0 0 0 0 2 2 2 5 5 10 0 5 11 0 Factor de escala: 10 Diagrama 1 Se consideran como tallos a los números: 4, 5, 6, 7, 8, 9, 10, 11, es decir que las decenas son el orden seleccionado para el tallo y las hojas corresponden a algunos de los diez dígitos (0, 1, 2, 3, 4, .........,9) ubicados en la unidad del dato. Observe que el factor de escala, indica el orden del tallo. Así el primer dato ubicado en el diagrama es el 50 y el cuarto es el 54 y el último es el 110. Ejemplo 13 Se registró el tiempo (en días) entre el inicio de una enfermedad en particular y su cura en cincuenta personas que la padecieron. Los datos obtenidos se muestran en la tabla 9 21 24 27 32 29 29 20 19 22 21 14 19 16 17 28 19 16 22 27 25 24 18 20 16 14 17 20 25 22 23 14 15 24 24 18 18 24 32 28 33 16 35 14 18 26 35 16 25 24 25 Tabla 9 En este caso, si se selecciona para el tallo el orden de las decenas quedarían solamente tres tallos: 1, 2 y 3 con demasiadas hojas cada uno, debido a que se dispone de muchos datos no muy dispersos (Diagrama 2). Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 1 4 4 4 4 5 6 6 6 6 6 7 7 8 8 8 8 9 9 9 2 0 0 0 1 1 2 2 2 3 4 4 4 4 4 4 5 5 5 5 6 7 7 8 8 9 9 3 2 2 3 5 5 Factor de escala: 10 Diagrama 2 En situaciones como estas, es conveniente abrir arbitrariamente cada tallo en un mismo números de “ramas” (dos o cinco). Cada tallo: 1, 2 y 3 tiene dos “ramas”: 1 y 1*, 2 y 2*, 3 y 3*. Las hojas se ubican en las ramas según los valores de las unidades del dato. Así los dígitos 0, 1, 2, 3 y 4 pertenecen a las ramas con el símbolo “ ” y los dígitos 5, 6, 7, 8 y 9 a las ramas con el símbolo “ * “ en el supraíndice. Al realizar esta modificación en el diagrama 3, referido al ejemplo 13 permite evidenciar una ligera asimetría no detectada antes. Además se agrega una columna en el margen izquierdo que indica la frecuencia de cada “rama”. 4 1 4 4 4 4 15 1* 5 6 6 6 6 6 7 7 8 8 8 8 9 9 9 15 2 0 0 0 1 1 2 2 2 3 4 4 4 4 4 4 11 2* 5 5 5 5 6 7 7 8 8 9 9 3 3 2 2 3 2 3* 5 5 Factor de escala: 10 Diagrama 3 Cuando la variable aleatoria es discreta, se emplea otra versión del Diagrama Tallo-Hoja, donde las hojas son todas ceros y marcan la frecuencia de aparición del tallo. Ejemplo 14 Se registran las notas de los alumnos que aprobaron el examen final del curso de grado de Estadística, en el primer turno de exámenes inmediato a la finalización del Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística cursado del mismo. Los resultados se presentan en la tabla 10 y el diagrama 4 es el Tallo-Hoja correspondiente. 4 4 8 10 5 5 5 6 8 6 7 7 5 4 6 9 7 6 6 6 7 5 4 6 6 6 6 5 6 7 8 8 8 7 7 6 Tabla 10 fr 4 4 0 0 0 0 6 5 0 0 0 0 0 0 12 6 0 0 0 0 0 0 0 0 0 0 0 0 7 7 0 0 0 0 0 0 0 5 8 0 0 0 0 0 1 9 0 1 10 0 Factor de escala: 1 Diagrama 4 Del diagrama 4 se lee: el valor cuatro de la variable se repite cuatro veces, el valor cinco tiene frecuencia seis y así se continúa hasta el valor diez con frecuencia uno. El factor de escala, en este caso, es 1, esto indica que la primer medición en el gráfico se lee cuatro (4 x 1). Para los datos de la Tabla 6 correspondiente al ejemplo 10, cuya variable aleatoria continua es “cantidad de creatinina en muestras de orina (mg/100 cm3)” se presenta el diagrama de Tallo – Hoja correspondiente.Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 1 10 8 1 11 5 4 12 2 2 3 6 6 13 1 3 3 6 7 8 16 14 0 0 0 3 3 3 4 6 6 6 7 7 7 7 9 9 19 15 0 1 1 2 2 2 3 4 4 5 6 6 7 7 8 8 8 9 9 15 16 0 0 1 2 5 5 6 6 6 6 7 8 8 9 9 6 17 1 2 3 3 5 6 9 18 0 1 3 3 3 6 6 6 9 2 19 0 6 5 20 0 2 HI 218, 229, 234 Factor de escala 0,01 Diagrama 5 Atendiendo a factor de escala, el primer dato de este diagrama es 1,08 (108 x 0,01). Además en este caso la última rama (HI 218, 229, 234) indica la presencia de valores atípicos o alejados del resto de las observaciones Histograma Es la adaptación del diagrama de barras a una variable cuantitativa continua. Las barras se deben tocar en razón precisamente de esa continuidad. Evidentemente, la amplitud de cada barra se corresponde con la de cada intervalo de clase de la distribución de frecuencias. Las alturas de estas barras o rectángulos, si son de igual ancho, corresponden a la frecuencia de cada clase. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística El Histograma correspondiente a los datos de la Tabla 6, se expone en el gráfico 10 Gráfico 10 Polígono de frecuencia Otra opción gráfica para presentar la distribución es el polígono de frecuencias. En él, las frecuencias de cada intervalo se registran con un punto sobre sus marcas de clase, los que se unen con líneas rectas. Observe en el Gráfico 11 que el polígono se cierra uniendo su primer y último punto con las abscisas que corresponderían a las marcas del intervalo anterior al primero y siguiente al último, con frecuencia 0. Gráfico 11 Resulta de utilidad confeccionar el polígono de frecuencias conjuntamente con el histograma, dado que conjuntamente resaltan características no evidentes. Ofrecen una excelente imagen manifestando irregularidades y rasgos poco comunes como Creatinina (mg/cm3) 2.332.182.031.881.731.581.431.271.12 30 20 10 0 2 3 9 16 24 20 7 2 0 2 7 20 24 16 9 3 1 2 0 0 5 10 15 20 25 30 0,97 1,12 1,27 1,42 1,57 1,72 1,87 2,02 2,17 2,32 2,47 Creatinina (mg/cm3) f Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística pueden ser valores alejados que no coinciden con el patrón global de los datos entre otras características. Ojiva La distribución de frecuencia acumulada, presenta la forma de ojiva, la que se construye de manera similar al polígono de frecuencias, excepto que los puntos se grafican sobre los límites superiores de cada clase y luego se unen por segmentos de línea recta. Para el ejemplo 10, la ojiva correspondiente se puede apreciar en el gráfico 12. Gráfico 12 Histograma de área Si los intervalos de clase no son todos de la misma amplitud la altura del rectángulo no representa a la frecuencia de clase, por lo que antes de confeccionar el gráfico deben dividirse las frecuencias de cada intervalo de clase por la amplitud del mismo. El gráfico construido de esta manera se denomina histograma de áreas. No contemplar este detalle genera errores gráficos que tergiversan la realidad como puede observarse en el gráfico 13 correspondiente al siguiente ejemplo. 0 2.4 10.7 34.5 63.1 82.1 92.9 96.4 97.6 100.0 0 10 20 30 40 50 60 70 80 90 100 1.05 1.20 1.35 1.50 1.65 1.80 1.95 2.10 2.25 2.40 F re c u e n c ia a c u m u la d a % Creatinina (mg/cm3) Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Ejemplo 15: Las siguientes frecuencias indican el “número de pacientes tratados por carcinoma de mama”, clasificados según su edad: Edad (años) f (número de pacientes) f/c c= longitud intervalo de clase 20 – 30 21 2,10 30 – 40 150 15,00 40 – 60 215 10,75 60 – 70 65 6,50 70 – 80 20 2,00 80 – 100 9 0,45 Tabla 11 En el gráfico 13 se presentan dos histogramas, en el de la izquierda (13ª), la altura representa la frecuencia de cada clase sin tener en cuenta, que las longitudes de los intervalos de clase son diferentes. En el de la derecha (13b), la altura de cada barra es igual a la frecuencia divida por la longitud del intervalo de clase correspondiente, esto lo hace un histograma de áreas, donde el área total de los rectángulos coincide con el número total de observaciones. Forma incorrecta Forma correcta Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística a b Gráfico 13 Del Gráfico 13a se concluiría que la edad en la que hay más pacientes con carcinoma de mama es entre 40 y 60 años, cuando en realidad, esto es cierto para las edades entre 30 a 40 años, como se puede concluir del Gráfico 13b, en el que se ha contemplado la corrección requerida para un histograma de área. Un comentario importante de destacar, es que tanto los histogramas, como los polígonos de frecuencia y las ojivas pueden construirse utilizando como valores de ordenada a las frecuencias relativas y frecuencias relativas porcentual. Gráfico de línea Cuando el conjunto de datos son los valores de una variable cuantitativa que tiene un registro dependiente del tiempo, forma lo que se conoce con el nombre de serie de tiempo. Estas series se representan eficazmente mediante los gráficos de línea, en los que el eje de abscisas indica el tiempo y el de ordenadas los valores de la variable, los que se unen por medio de segmentos de línea recta. El objeto de estos gráficos es permitir discernir o descubrir la existencia de cierta tendencia en el comportamiento de la variable estudiada. Ejemplo 16 El gerente de producción de una empresa que vende centrífugas para laboratorios, decidido a “vender” la mayor cantidad posible de sus productos, presenta 4.4 31.3 44.8 13.5 4.2 1.9 0 5 10 15 20 25 30 35 40 45 50 25 35 50 65 75 90 Edad (años) 2.1 15.0 10.8 6.5 2.0 0.5 0 4 8 12 16 25 35 50 65 75 90 Edad (años) Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística en una importante reunión de potenciales compradores, un gráfico de las unidades producidas que han sido aceptadas por el rígido Departamento de Control de Calidad en el último año. La información que había recavado para su exposición se resume en la tabla 12. Con estos datos confecciona un gráfico de líneas. Mes Unidades aceptadas Mes Unidades aceptadas Mes Unidades aceptadas enero 7032 mayo 7304 septiembre 7438 febrero 7103 junio 7334 octubre 7449 marzo 7152 julio 7365 noviembre 7463 abril 7234 agosto 7407 diciembre 7496 Tabla 12 Para esto debió decidir de que forma impactaría mejor a sus espectadores, puesto que al emplear la escala de las ordenadas desde el valor cero, obtenía un gráfico, que a su entender, no era muy convincente a la hora de mostrar claramente una tendencia (Grafico 14a). Mientras que al tomar un valor de inicio en la escala de las ordenadas mas cercano al mínimo de la variable, la línea así obtenida se ajustaba mejor a su objetivo, pues revelaba eficazmente la tendencia en alza de la calidad de sus productos (Gráfico 14b) Esta revelación, bien podría ser la razón que motivara a los compradores y así aumentar sus ventas. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística a b Gráfico 14 ESTADÍSTICOS Las tablas de frecuencia y los gráficos brindan una rápida información, no obstante,en algunos casos es necesario concentrarla aún más y describirla numéricamente. Esto hace necesario el cálculo de varios valores llamados estadísticos que representan al conjunto de datos observados según diferentes criterios; así si el objetivo es obtener una idea de la ubicación o centro de los datos se emplean estadísticos de posición, mientras que si lo que se requiere es información acerca de la concentración de las observaciones alrededor de dicho centro se utilizan los de dispersión. Estadísticos: Medidas descriptivas numéricas calculadas en función de los valores de los datos reunidos en una muestra estadística. Estadísticos de Posición o Localización Entre los estadísticos de localización, los más importantes son los llamados de Tendencia Central; donde cada uno de ellos tiene propiedades particulares. 0 1000 2000 3000 4000 5000 6000 7000 8000 E F M A M J J A S O N D U n id a d e s a c e p ta d a s Mes 7000 7100 7200 7300 7400 7500 7600 E F M A M J J A S O N D U n id a d e s a c e p ta d a s Mes Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Media aritmética ( x ) Estadísticos Media recortada ( rx ) de Tendencia Central Mediana (Ma) Modo (Mo) Media aritmética o promedio Se define como promedio a la suma de los n valores de la muestra a la que luego se la divide por n. En símbolos: n x x n 1i i Si un mismo valor de la variable se repite varias veces la fórmula anterior puede escribirse: n fx x k 1i ii donde fi es la frecuencia absoluta del valor xi . Del ejemplo 9, “número de pulsaciones por minuto de 80 soldados” se obtiene, de los datos observados, la media aritmética: x =74 pulsaciones/minuto. Esto significa que el número promedio de pulsaciones por minuto del grupo de 80 soldados es de 74. ¿Qué ocurre si los datos están agrupados? Considerando que todos los valores comprendidos en un intervalo dado están representados por la marca correspondiente. Resultará que la fórmula de cálculo es: n fm x k 1i ii De la tabla 4 surge que x = 74,60 75 pulsaciones/minuto. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística El valor obtenido partiendo de datos agrupados es de aproximadamente 75 pulsaciones/minuto y el obtenido para los datos sin agrupar es 74 pulsaciones/minuto. Resulta evidente que al agrupar los datos se produce un error, este se debe a que se ha perdido parte de la información original. En la actualidad con el uso de Software para procesar los datos, esto no es un inconveniente ya que realizan los cálculos utilizando todos los datos. Ventajas de la Media Aritmética: 1) En su cálculo intervienen todos los valores de la variable. 2) Es un valor muy usado, representa el centro geométrico de las observaciones y tiene asociado una serie de otros valores típicos de la muestra. 3) Presenta propiedades matemáticas convenientes. Desventajas de la Media Aritmética: La principal proviene de lo que constituye su ventaja (1). Al intervenir todos los valores de la variable influyen mucho los valores extremos. Ejemplo 17 El tiempo de hospitalización de 10 personas afectadas por ingestión de alimentos contaminados con salmonella en 2 hospitales distintos fue: Hospital 1: 1 - 2 - 2 - 5 - 5 - 6 - 7 - 9 - 9 - 30 60,7x Hospital 2: 2 - 2 - 3 - 5 - 5 - 6 - 7 - 8 - 9 - 10 62,5x Resulta así un tiempo promedio de hospitalización de 9 días aproximadamente en el 1 primer hospital y de 5 días en el segundo. El valor 30 días para un paciente del hospital 1, desplaza el promedio a valores más altos, dado que este dato tiene una cifra demasiado grande en relación al resto de los otros. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Media recortada o ajustada Esta medida de tendencia es un promedio en el que se ha “recortado” un cierto porcentaje “p” de las observaciones extremas (en ambos lados). Esta forma de promediar permite obtener una medida de tendencia central más representativa de los datos que la media aritmética cuando hay valores alejados extremos, tanto por los valores bajos de la variable como por los altos. Si en el ejemplo 17 se calcula la media recortada al 10%, es decir, en el cálculo del promedio no se consideran para el hospital 1, los valores 1 y 30 y para el hospital 2 los valores 2 y 10, se obtiene: 62.5x 1h y 62.5x 2h El promedio para el hospital 2 sufrió ligeros cambios, pero el del hospital 1disminuyó en 1.97, lo que indicaría la presencia de valores influyentes en este conjunto de datos. Mediana Se define como mediana al valor de la variable que deja a cada uno de sus lados el 50% de las observaciones. Para encontrar ese valor se ordenan los datos de menor a mayor, incluso los repetidos. La notación xi representa un dato de la base de datos que ocupa la posición i en el orden en que fueron recibidos; y x(i) representa un dato de la base de datos que ocupa la posición i , después de que fueron ordenados de menor a mayor. De acuerdo al número de datos pueden darse dos casos para el cálculo de la mediana: • si el numero de datos es impar, la mediana es el valor central, cuya posición es x( 2 1n ) • si el numero de datos es par, la mediana es el promedio de los dos datos que ocupan la dos posiciones del centro. En símbolos: Ma = 2 1 [x ( 2 n ) + x ( 1 2 n )] Ejemplo18 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Los jefes de dos secciones diferentes de una oficina pública deben informar a sus superiores la cantidad de días de inasistencia que solicitaron cada uno de los empleados a su cargo, durante el año 2003. Los resultados fueron: Sección 1 1 , 2 , 4 , 5 , 5 , 6 , 7 Ma = 5 Sección 2 1 , 1 , 1 , 2 , 3 , 8 , 13 , 27 Ma = 2 32 =2,5 La mediana se interpreta en este ejemplo, así: como mucho 5 es la cantidad de días que el 50% del personal de la sección 1 no ha asistido a su lugar de trabajo durante el período 2003. Para la sección 2, como mucho 2.5 la cantidad de días que el 50% del personal de su personal no ha asistido a su lugar de trabajo durante el mismo período. Así en la distribución de ingresos per cápita, valores inmuebles, inversiones, etc., el estadístico más representativo es la mediana ya que los ingresos muy bajos o muy altos distorsionan el valor promedio o media aritmética. ¿Qué ocurre si los datos están agrupados? Existe una fórmula para calcular el valor de la variable correspondiente a la mediana para datos agrupados cuya deducción no se hará aquí pero se considera conveniente que figure en el mismo: c f F 2 n LMa i ia i Donde: Li: límite inferior del intervalo mediana. Fia: frecuencia acumulada hasta el intervalo mediana. n: número de observaciones fi: frecuencia. absoluta del intervalo mediana. c: amplitud de la clase mediana. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística La gráfica corresponde a un polígono de frecuencias acumuladas y es en ella donde se ubica la mediana y a partir de la cual se deduce la fórmula obtenida anteriormente. Gráfico 15 Se calcula la mediana correspondiente a los datos agrupados de la tabla armada para el ejemplo 9, “pulsaciones de los soldados”. El intervalo al cual pertenece la mediana es el que corresponde a 70 - 77 ya que en él se encuentranlas observaciones que ocupan las dos posiciones centrales 40 y 41, dado que tenemos un total de 80 observaciones. Aplicando la fórmula propuesta: Li = 70 Fia = 26 2 n = 40 fi = 26 c = 7 Ma = 7 26 2640 70 = 73,759 74 pulsaciones / minuto Puede decirse que la mediana es el valor 74 de la variable, o sea, el 50% de los soldados estudiados tienen un número de pulsaciones por minuto que no supera las 74. O también, según lo que se desee destacar, que el número de pulsaciones/minuto en el 50% de los casos supera las 74. Fi Fi-1 L i-1 Ma L i Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Ventajas de la Mediana: 1) No se ve influenciada por sus valores extremos. 2) Tiene interesantes propiedades matemáticas. Desventajas de la Mediana: 1) En su cálculo no se emplean todos los valores de la variable, es decir no se utiliza toda la información. 2) Es más propensa a experimentar variaciones entre muestras distintas. Modo o Moda Es el valor de la variable que más veces se repite. La moda, designada por Mo, es aquel valor de una serie que aparece más frecuentemente que cualquier otro valor. Este valor puede ser descubierto inmediatamente cuando se ordenan los datos: Si observamos el ejemplo 7, “cantidad de inasistencias de 32 trabajadores de un centro de salud en 10 meses de trabajo”, vemos que su valor más frecuente es 0, con frecuencia 3. ¿Qué pasa si los datos están agrupados? Una vez identificado el intervalo modal (observando aquél de mayor frecuencia), se utiliza una fórmula para determinar la abscisa que corresponde al modo: c dd d LMo 21 1 i Donde: Li: límite inferior del intervalo modal. d1: diferencia (sin consideración de signo) entre la frecuencia de la clase modal y la frecuencia de la clase precedente. d2: ídem d1 pero con la clase siguiente. c: amplitud de la clase modal. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística En el gráfico siguiente se muestra la representación geométrica de la fórmula para calcular el modo y su ubicación en el Histograma de frecuencias absolutas, la cual emplea la semejanza de triángulos para el cálculo de la posición de este estadístico. Gráfico 16 Cálculo del valor modal del ejemplo 9, “pulsaciones por minuto en los 80 soldados”. Evidentemente el intervalo modal es el 70 - 77 ya que su frecuencia absoluta es 26. Pero... ¿Cuál de los valores entre 70 y 77 puede considerarse el modo? Apliquemos la fórmula: Mo = 7 1311 11 70 = 73,20 73 pulsaciones/minuto “el valor más frecuente de pulsaciones por minuto en los 80 soldados estudiados es de 73”. Ventajas y desventajas del Modo: Aunque el modo es un concepto sencillo y útil, su aplicación presenta muchos aspectos engorrosos. Una distribución puede tener más de un modo y en ese caso no hay forma de elegir qué valor debe ser escogido como tal. Además la moda podría ser un valor extremo, si una distribución de frecuencia presenta varios picos altos en el Histograma visto de izquierda a derecha, no se podría considerar una medida de tendencia central. d1 d2 Li Mo Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística ¿Puede presentarse más de un valor modal? Sí, las distribuciones que tienen dos picos de igual o distinta frecuencia se denominan bimodales. Ejemplo 19 Se desea conocer la distribución de frecuencias de las edades de 100 personas del sexo masculino que por diferentes razones ingresaron al Consultorio Externo de un Hospital, observando el diagrama tallo - hoja correspondiente, puede concluirse que esta distribución es bimodal porque la edad del mayor número de pacientes de sexo masculino que asiste al consultorio externo del hospital oscila entre los 25 a 29 años y los 35 a 39 años. 7 1o 8999999 18 2* 01112333344 40 2o 5555666677777788888999 (17) 3* 00122222222333444 43 3o 5555666666677778889999 21 4* 01122234 13 4o 55667889 5 5* 02344 ¿Cuándo aplicar el modo antes que las otras dos medidas? Cuando el interés se centra en conocer el valor que se presenta mayor número de veces en distribuciones unimodales. Por ejemplo, para determinar el modo cuando se observa el período de incubación de una enfermedad, el tiempo máximo de duración de la misma es el valor modal. Nota En distribuciones simétricas, la media aritmética, la mediana y el modo coinciden; pero la media es la más usada y es eficiente como medida de tendencia central. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística En distribuciones asimétricas los tres estadísticos no coinciden. Pero la mediana se encuentra siempre entre la media aritmética y el modo. En estos casos la mediana es un estadístico más representativo que la media aritmética. Para concluir el estudio de estas medidas de tendencia central se analiza la relación que existente entre ellas: 1. Para una distribución simétrica y unimodal se observa que las 3 medidas coinciden en sus cálculos: 2. Para una distribución asimétrica y con una cola larga hacia la derecha, la relación está dada por: Modo < Mediana < Media: 3. Para una distribución asimétrica y con una cola larga hacia la izquierda la relación está dada por: Media < Mediana < Modo Existe confusión en el lenguaje diario con respecto a estas tres medidas, se las llama comúnmente media, promedio, etc., sin aclarar a cual de ellas se esta haciendo referencia. Hoy, ante el auge de la estadística, se trata de establecer claramente de cuál se esta hablando. Esto no sólo en las publicaciones “científicas” sino en los artículos de difusión. Ejemplo 20 En un artículo periodístico impreso en el diario “El Litoral” de fecha 28 de diciembre de 1994, cuyo título es “Más allá de los números, la Gente” de Humberto Terrizano referido a la problemática e implicancias del Mercosur aparecen claramente diferenciadas la media aritmética y la mediana. ... “De cualquier forma, la “tasa de fecundidad” (promedio de hijos por mujer) está bajando fuertemente en Brasil (2,9) acercándose a la Argentina (2,8). La de Uruguay es muy baja (2,4) y la de Paraguay continúa muy alta (4,4). El cálculo pertenece a los organismos especializados de las Naciones Unidas en el ’91.”... En otra parte del artículo se lee el siguiente comentario: ”... Los niveles de escolarización se miden a través de la “mediana de años de escolarización”. A partir de censos, se calcula cuánto tiempo asistieron a establecimientos educativos los habitantes que ya no concurren a ellos. En los Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Estados Unidos y en Canadá, la “mediana” alcanza 12,3 y 12,1 respectivamente. En la Argentina es de 8,7; en Uruguay 7,8 y en Chile 7,5; lo cual supone niveles mayores que el sur de Europa (Italia 7,3; España 6,8; Grecia 6,9 y Portugal 6,0). Entre nosotros, el problema educativo pasa hoy por la finalidad y calidad de la educación. La Argentina y Uruguay se encuentran dentro del reducido grupo de países (10 en todo el mundo) donde la mediana es superior en las mujeres que en los varones. En Paraguay, y especialmente Brasil, esta “mediana” muestra niveles bajos de 4,9 y 3,9 años, respectivamente. Se trata de una asimetría importante y trascendente... ” El autor señala claramente a qué tipo de medida de tendencia central se está refiriendo. ¿Porqué se debe recurrir a la mediana para poder establecer comparaciones sobre los años de escolarización? Porque la escolarización es una medida totalmente asimétrica con una variable que toma valores muy pequeños o muy grandes. Otras medidas de posición que ayudan a la descripción de un conjunto de datos Si en lugar de dividir los datos ordenados en dos conjuntos con igual cantidad de elementos, se lo divide en cuatro conjuntos con igual cantidad de datos, a los valores de la variable que afectan dicha división se los conoce como cuartiles. Símbolo % de Observaciones % de Observaciones que contiene menores que Primer Cuartil Q1 25 25 Segundo Cuartil Q2 25 50 Tercer Cuartil Q3 25 75 Esto no quiere decir que las observaciones estén equiespaciadas, sino que hay, aproximadamente el mismo número de observaciones en cada cuarto. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Q1 Q2 Q3 ¿Con qué cuartil coincide entonces la Mediana? En aquellas tablas de distribuciones demasiado asimétricas o libres, el empleo de los percentiles es una herramienta que puede ser usada para describir la distribución, además de ser su cálculo extremadamente simple, nos da una idea de cómo los valores de la variable se distribuyen entre el máximo y el mínimo. El mismo concepto aplicado anteriormente permite obtener valores de la variable a los que se llama Deciles y Percentiles, que obviamente se referirán a décimos y centésimos de observaciones. Estas medidas de posición tienen gran aplicación en biología. Léase el siguiente texto: ”Aquellas madres cuyo peso posparto era de 107 libras o menos (percentil 25) tuvieron un alto porcentaje de bebes pequeños,...” (Bulletin of the Pan American Health Organization. Volumen 25 No 2 1991. Maternal Risk Factors for Low Birth Weight and Intrauterine Growth Retardation in a Guatemalan Population. Traducción libre, pagina 157). El percentil 25, (P25 = 107 libras) al que hace referencia el texto, indica que el 25 % de las mujeres estudiadas tenía un peso menor que 107 libras en el momento posparto y en este percentil 25, que coincide con el primer cuartil, es donde se registró el mayor porcentaje de bebés pequeños. Siguiendo con el artículo periodístico señalado en el ejemplo 20 en otro párrafo dice: ..."Para aproximar una comprensión de cómo se distribuye el ingreso de un país, se realiza la comparación entre lo que percibe el 20 % de su población de mayores ingresos en relación a la misma proporción de los habitantes de más bajos recursos...” ¿Qué sucede? Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística La distribución del ingreso es irregular, tanto más cuánto menos desarrollado es un país, es decir, más injusto. Es necesario comparar el P20 con el P80 de estos ingresos poblacionales, debido a que las medidas de tendencia central no reflejan fielmente lo que sucede. El autor continúa: "...En el Mercosur, en general, los desequilibrios entre las puntas son elevados en relación a los países o regiones de mayor desarrollo. El Banco Mundial los estima en 32 veces en el caso del Brasil y en alrededor de 16 en la Argentina. El caso de Brasil es puesto a menudo como ejemplo de país con acelerado crecimiento (en especial en los ’70) con una muy deficiente distribución del ingreso. En los países desarrollados, aún con modelos muy distintos, estas relaciones son menores. En EE.UU., por ejemplo, es de 8,9; en Alemania (antes de la reunificación) de 5,7 y en el excepcional caso japonés 4,3. En general, los procesos de acelerado crecimiento económico que en las últimas décadas se están dando en el sudeste asiático, se caracterizan por la acentuada distribución de los beneficios que generan. En general, una mejor distribución del ingreso no se da porque los ricos sean menos ricos, sino porque los pobres sean menos pobres..." ¿Son suficientes los estadísticos de posición para tener una idea del comportamiento de la variable? Los gráficos que a continuación se muestran tienen todos la misma media aritmética pero las distribuciones son muy diferentes entre sí: Las medidas de posición o localización en muchos de los casos no son medidas suficientes para describir una distribución; por lo tanto se necesitan otras que Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística complementen a las primeras. Estas medidas son las que “dan una idea” de como quedan agrupados los datos alrededor de alguna medida de tendencia central. ¿Cómo se puede completar las medidas de tendencia central y saber de qué gráfico estamos hablando? Para ello son necesarios los estadísticos de dispersión o variabilidad. Algunos de los más importantes son: Rango El rango mide la amplitud de los datos, esto significa la diferencia entre el valor máximo y el valor mínimo de la variable que se ha obtenido en la muestra. R = xmax – xmin El rango es una medida muy grosera de la variación porque da una idea de la distancia entre los valores extremos, sin tener en cuenta el resto de los valores de la variable. Ejemplo 21 En tres áreas de un hospital se contabilizó, por semana, el número de pacientes que ingresaban para ser internados. El estudio se siguió durante cinco semanas. Se dispone de los valores de 3 muestras (las tres áreas): Muestra No Valores (x) Rango Media Aritmética 1 1 - 2 - 5 - 10 - 12 12 - 1 = 11 6 Estadísticos de Dispersión Rango (R) Variancia (s²) Desviación estándar (s) Coeficiente de Variación (CV) Rango Intercuartílico (RI) Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 2 2 - 7 - 11 - 14 - 15 15 - 2 = 13 9,8 3 1 - 9 - 10 - 11 - 14 14 - 1 = 13 9 Tabla 13 El conocimiento del rango no dice nada sobre la dispersión de los valores alrededor de la media, es decir, de la forma en que éstos se distribuyen respecto de ese valor central. En las muestras dos y tres el rango es el mismo, no obstante, los valores de la variable no se distribuyen de la misma forma. Variancia y desviación estándar Si se considera la distancia de cada valor de la variable X al centro geométrico de la distribución, en particular a la media aritmética, se observa que algunas de estas diferencias son positivas y otras negativas, según el valor de la variable observada, sea mayor o menor que ki xx (i: muestra número; i = 1, 2, 3; k: observación, k = 1, 2,..., n). Calculando todas las diferencias para los datos de la muestra, del ejemplo 21 se obtiene: 6 - 1 = 5 6 - 2 = 4 6 - 5 = 1 6 - 10 = -4 6 - 12 = -6 Lo que interesa conocer es una medida que nos diga cuanto se puede esperar que se desvíe cada valor de la media muestral. Por lo que se halla un promedio de dichos desvíos. Es decir se suman esas distancias y luego se divide el resultado por n. Como la suma de todos los desvíos es cero, (pruebe que esto es cierto), este problema se subsana elevando al cuadrado cada desviación. El promedio buscado se logra al dividir por n - 1 la suma de cuadrados de los desvíos a la media. Esto promedio es la llamada variancia de la muestra o variancia muestral (S2). Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 1 )( 2 12 n xx s n i i , s² 0 ¿Puede pensar en un ejemplo en el que s²=0? A la cantidad n - 1 de su denominador, se la denomina grados de libertad. El inconveniente de esteestadístico es que su resultado se expresa en unidades al cuadrado; dado que se hace el “cuadrado de los desvíos a la media”. Problema que se soluciona extrayendo la raíz cuadrada positiva de la variancia y de esta forma estos resultados aparecen en las mismas unidades que los valores observados en la muestra. El valor resultante se denomina desviación estándar (S) 1 )( 2 1 n xx s n i i Coeficiente de variación La desviación estándar y la variancia son medidas de variación absoluta, esto es, miden la cantidad real de variación presente en un conjunto de datos y dependen de la escala de medición. Pero estos estadísticos no son comparables entre sí, si provienen de distintas muestras, pues las unidades en la que se expresan son heterogéneas. Por eso se define una nueva medida que es el coeficiente de variación (CV). 100 x s CV Si se observa su fórmula de cálculo, refiere la dispersión como un porcentaje respecto de la media. Para las dos muestras de variable aleatoria discreta y continua cuyos datos agrupados en intervalos de clase están dados por las Tablas 3 y 6 respectivamente, se calculan los CV para conocer cual de ellas es más variable y se exponen en la tabla 14 los resultados. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Pulsaciones/minuto en 80 soldados mg/100 cm3 de creatinina en orina en 84 hombres normales s 12,51 0,225 x 74,2 1,613 CV 16,86 % 13,97 % Tabla 14 El conjunto de datos que evidencia el Pulsaciones / minuto de 80 soldados presenta mayor variabilidad en sus datos que la muestra que acompaña la tabla. Rango intercuartílico (RI) Es una medida de dispersión, que mide la amplitud existente entre el 50 % de los datos centrados en la mediana. Numéricamente es la diferencia entre los valores del tercer y primer cuartil dando una idea de la distancia entre estos cuartiles. Su implementación, en la construcción de los gráficos de caja (como se verá mas adelante), ha sido de gran utilidad, dado que refleja claramente cuan concentrada está la mitad de los datos respecto del valor del segundo cuartil. RI = Q3 - Q1 Con esta distancia han quedado dos colas una a la izquierda del primer cuartil y otra a la derecha del tercer cuartil y ambas contienen el 25 % de los datos. Resumen de medidas de la Tabla 7, “creatinina en orina, mg/100 cm3, de 84 hombres normales” Valor mínimo 1,08 Valor máximo 2,34 Rango 2,34 - 1,08 = 1,26 Primer Cuartil (Q1) 1,46 Mediana = Segundo Cuartil 1,58 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Tercer Cuartil (Q2) 1,72 Rango Intercuartílico 1,72 - 1,46 = 0,26 Se pueden visualizar gráficamente los valores anteriores, según muestra el Gráfico 17 Gráfico 17 Este gráfico permite concluir que el 50 % de los datos observados se encuentran en el intervalo [1,46 ; 1,72], dejando a ambos lados el 25%. Diagrama de caja y bigote (box and whisker plot) Mediante el cálculo de los cuartiles se dividen los datos en cuatro partes iguales, con estos valores y el del rango intercuartílico se puede describir gráficamente la distribución de una variable. El diagrama de caja que emplea las medidas mencionadas en el párrafo anterior, refleja cualquier asimetría en la distribución, permite detectar valores raros y la dispersión de los datos en el conjunto. Construcción del diagrama de caja 1) La mitad central de los datos, que va desde el primer hasta el tercer cuartil, se representa mediante un rectángulo. pasos 1) y 2) 2) La altura de la caja es proporcional a la raíz cuadrada del número de datos. 3) La mediana se identifica mediante una barra vertical dentro de esta caja. paso 3) Q1 Q1 Q1 Q1Ma 1.08 Q1 1.58 Q2 2.34 R =1.26 RI = 0.26 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 4) Las barras a los costados de la caja se extienden desde el tercer cuartil hasta xmax y desde el primer cuartil hasta xmin. paso 4) Se presenta el diagrama de caja correspondiente al ejemplo 9, “número de pulsaciones por minuto de 80 soldados de 20 años”. Gráfico 18 En este caso ha quedado un punto fuera del diagrama; correspondiente al valor observado 110 pulsaciones / minuto. La explicación a esto es que las barras laterales se extienden desde los cuartiles 1 y 3 hacia ambos costados alcanzando los valores de x máximo y x mínimo de la variable, siempre y cuando estos valores no sobrepasen un límite denominado “borde interno”, que corresponde al valor obtenido de restarle y sumarle a Q1 y a Q3 respectivamente 1.5 veces el rango intercuartílico. Los puntos fuera del valor del borde se los conocen como valores atípicos, raros u outliers, y se los marca en el diagrama solamente con un punto. Para el Ejemplo 10, “creatinina en orina (mg/100 cm3) en 84 hombres normales”. Q1 Q1Ma xmín xmá x Pulsaciones / minuto 120110100908070605040 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Gráfico 19 En este diagrama de caja se visualizan tres valores anómalos corresponden a: 2,18 - 2,29 - 2,34. Los diagramas de caja son de especial eficacia para hacer comparaciones entre dos o más conjuntos de observaciones. Sus efectos visuales proporcionan lectura rápida y fácil comprensión del comportamiento simultáneo de todos los conjuntos. Ejemplo 22 Un artículo, publicado en una revista de Biotecnología, presenta datos de densidades ópticas obtenidas de una muestra de sueros, en las que se desarrollaron dos lavados para el método Elisa empleado, estos son: 36.45, 67.90, 38.77, 42.18, 26.72, 50.77, 39.30 y 49.71. En el artículo también aparecen datos provenientes de un segundo experimento donde se utilizaron cinco lavados en una muestra de sueros para practicarle el mismo procedimiento Elisa, obteniéndose los datos: 8.85, 35.80, 26.53, 64.63, 9.00, 15.38, 8.14 y 8.24. Gráfico de barra de error Los gráficos de barras de error nos permiten identificar la variabilidad de los datos. La estructura del gráfico se basa en un punto central que identifica el valor de la media, la cual se ubica en una línea vertical; mientras que la longitud de la línea (barra de error) indica un número específico de desviaciones estándares (s, 2s ó 3s) o bien de errores estándares que definiremos luego. ¿Cómo se construye? 1. Calculamos la media y la desviación estándar de un conjunto de datos. Creatinina (mg/100 cm3) 2.62.42.22.01.81.61.41.21.0 Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 2. Dibujamos una línea, vertical u horizontal, en ella ubicamos un punto. Éste representa el valor de la media. A ambos lados del punto, a una separación de un desvío estándar, por ejemplo, hacemos un guión perpendicular a la línea, y ya está terminado. Podemos usarlos para comparar la “variabilidad” de varios conjuntos de datos. Después de haber visto tantos tipos de gráficos debemos hacer una advertencia final: a veces es la tendencia en el tiempo la característica más importante de los datos. Esta característica se pierde por completo si el conjunto de datos se resume en un diagrama de puntos, un diagrama Tallo-Hoja o un diagrama de caja. El Gráfico que se presenta a continuación ilustra este argumento con una gráfica del contenido de ozono en unidades Dobson. La tendencia aparente hacia abajo, si es real, es de interéscientífico. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Gráfico 20 Medidas de asimetría Dos distribuciones también pueden diferir entre sí en asimetría o sesgo, hay medidas que señalan si la distribución está sesgada hacia uno u otro lado o si no lo está. Hay varias medidas de asimetría; sólo daremos una que es muy sencilla en el concepto y cálculo y es llamada medida pearsoniana de asimetría: Asimetría = media aritmética - modo Cuanto mayor es esta distancia tanto más asimétrica es la distribución: • Si es positiva media aritmética > modo; la distribución es sesgada con una larga cola hacia la derecha. Gráfico 21 • Si es negativa media aritmética < modo; la distribución es sesgada con una larga cola hacia la izquierda. AÑO 1987198619851984198319821981198019791978 O zo n o t o ta l ( U . D o b s o n ) 340 320 300 280 260 240 220 200 Mo Ma Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Gráfico 22 Si esa diferencia es cero (o muy próxima a cero) la distribución es simétrica (o muy próxima a una distribución simétrica). Gráfico 23 Esta medida tiene desventajas: 1) Es una medida absoluta, sus unidades son las mismas que las unidades de los datos originales; entonces, cambia al cambiar la unidad de medición. 2) Es posible calcularla siempre y cuando se puedan calcular la media aritmética y el modo. ¿Es útil conocer el porcentaje de los datos que se encuentran en intervalos que relacionan la media aritmética y la desviación estándar? Veámoslo sobre un ejemplo (23). Las alturas de 40 adolescentes que practican más de un deporte son: (los damos ordenados) 149 154 156 158 158 Ma Mo Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística 161 162 162 163 163 165 165 165 166 167 168 169 170 170 171 158 159 160 160 160 163 163 164 165 165 168 168 168 168 168 172 173 175 175 178 Si calculamos su media aritmética y su desviación estándar, obtenemos: 8,164x cm; s= 6.0cm. Determinemos ahora los siguientes valores: x - s= 164,8 – 6,0 = 158,8cm x + s= 164,8 + 6,0 = 170,8cm x - 2s= 164,8 – 2 *6,0 = 152,8cm x +2s= 164,8 + 2 *6,0 = 176,8cm ¿Cuántos adolescentes hay en el intervalo ( x - s; x + s)? El intervalo es (158,8 ; 170,8), contando los valores intermedios, son 28, o sea que el 70% de los datos está en ese intervalo. ¿Cuántos adolescentes hay en el intervalo ( x - 2 s; x + 2 s)? El intervalo es (152,8 ; 176,8), contando los valores intermedios, son 38, o sea que el 95% de los datos está en ese intervalo. Lo bueno del caso es que admite una generalización En una distribución cualquiera, casi se puede asegurar que: • En el intervalo están un alto porcentaje de individuos (entre el 50 y el 75%) • En el intervalo están casi todos los individuos (cerca del 95%) Esto nos permite hacer una relación entre media aritmética y desviación típica. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística La media aritmética es un estadístico de tendencia central muy útil pero nada dice acerca de la distribución de los datos respecto de la misma. Para tener una idea respecto al valor medio, es necesario conocer la desviación típica, estos dos estadísticos nos pueden decir mucho acerca de la distribución. A veces puede ser muy útil preguntarnos: ¿Qué porcentaje de los datos se encuentra en el intervalo ( x - 2 s ; x + 2 s)? Diagrama de Pareto El diagrama de Pareto es un gráfico de barras en el cual las frecuencias de las categorías de la variable aparecen ordenadas según sus frecuencias de mayor a menor, permitiendo identificar rápidamente aquellas que tienen “mayor peso”, es decir mayor altura. El principio de Pareto, se conoce también como “regla 80/20”. Vilfredo Pareto (1848-1923) fue un ingeniero italiano que hizo estudios acerca de la distribución de la riqueza en su país y observó que el 20% de las personas controlaba el 80% de la riqueza. Esta idea fue tomada por Joseph Jurán (1904-2008) en 1950 y comprobó que se podía usar en temas relacionados con control de calidad. Resumiendo, el diagrama de Pareto es una gráfica que permite separar los “pocos vitales” de los “muchos triviales”. Se usa para identificar gráficamente los aspectos significativos de un problema de los triviales de manera que un equipo sepa dónde dirigir sus esfuerzos para mejorar. Reducir los problemas más significativos (las barras más largas en una Gráfica Pareto) servirá más para una mejora general que reducir los más pequeños. En el diagrama que se muestra a continuación, como ejemplo, observamos que del 100% de los clientes, solo el 20% de ellos incide sobre el 70% de las ventas, mientras que el 80% de los clientes restantes, solo participa del 30% que queda. Gráfico. Representación gráfica del Principio de Pareto. Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística ¿Cómo se construye un Diagrama de Pareto? Paso 1: Preparación de los datos Como en todas las herramientas de análisis de datos, el primer paso consiste en recoger los datos correctos o asegurarse de que los existentes lo sean. Para la construcción de un Diagrama de Pareto son necesarios: a) Un efecto cuantificado y medible sobre el que se quiere priorizar (Costos, tiempo, número de errores o defectos, porcentaje de clientes, etc). b) Una lista completa de elementos o factores que contribuyen a dicho efecto (tipos de fallos o errores, pasos de un proceso, tipos de problemas, productos, servicios, etc). Es importante identificar todos los posibles elementos de contribución al efecto antes de empezar la recogida de datos. Esta condición evitará que, al final del análisis, la categoría "Varios" resulte ser una de las incluidas en los "Pocos Vitales". Paso 2: Cálculo de las contribuciones parciales y totales. Para cada elemento contribuyente sobre el efecto, anotar su frecuencia. Ordenar dichos elementos, según la magnitud de su “contribución”, es decir según su frecuencia de mayor a menor. 80 30 20 70 0 20 40 60 80 100 Clientes (elementos) % Muchos triviales Pocos Vitales Ventas (efecto) Notas de Clase elaboradas por integrantes del Dpto. de Matematica -2015- Facultad de Bioquímica y Ciencias Biológicas – UNL Estadística Calcular la magnitud total del efecto como suma de las magnitudes parciales de cada uno de los elementos contribuyentes (suma de frecuencias). Paso 3: Cálculo del porcentaje individual y acumulado, de cada elemento de la lista ordenada. El porcentaje de la contribución de cada elemento, no es más que la frecuencia relativa porcentual y se calcula: Porcentaje de contribución (%) = 100 totalefectodelMagnitud óncontribuciladeMagnitud (%) El porcentaje de contribución acumulado para cada elemento de la lista ordenada. Se calcula sumando de porcentajes de contribución de cada uno de los elementos anteriores más el correspondiente al elemento en cuestión. En este caso habrá que tener en cuenta que estos porcentajes, en general, se redondean. Una vez completado este paso tenemos construida la Tabla de Pareto. Paso 4: Construcción del diagrama. Se comienza dibujando los ejes: Se coloca un eje horizontal dividido en tantas partes como causas figuran en la planilla de recolección de datos. Y dos ejes verticales, uno a la izquierda,
Compartir