Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
TECNICATURA EN HIGIENE Y SEGURIDAD EN EL TRABAJO 1ºAño 1° Semestre Estadísticas y costos aplicados a la Higiene y Seguridad Profesora: Contadora Liliana Pistan Tecnicatura HIEGIENE Y SEGURIDAD EN EL TRABAJO REFERENCIAS DE ÍCONOS Actividad en el foro. Actividad de reflexión no obligatoria. Actividad grupal. Actividad individual. Actividad obligatoria. Debe ser enviada para su evaluación. Atención. Audio. Bibliografía. Lecturas complementarias. Glosario. Página web. Internet. Sugerencia. Video. PLANIFICACIÓN AÑO LECTIVO 2017 PROGRAMA DE CÁTEDRA MODALIDAD PRESENCIAL UNIDAD ACADÉMICA: CARRERA: TECNICATURA EN HIGIENE Y SEGURIDAD EN EL TRABAJO CÁTEDRA: Estadística y Costos Aplicados a la Higiene y Seguridad AÑO: 1° RÉGIMEN: 1º Semestre EQUIPO DOCENTE PROFESORA Contadora Publica Nacional Liliana Pistan FUNDAMENTOS DE LA ASIGNATURA Los costos ocasionados por los accidentes o lesiones producidas a raíz de las actividades laborales son de importancia no sólo para el damnificado y la empresa, sino para la sociedad en su conjunto. La tarea de determinarlos, implica la valoración de los costos directos e indirectos, adicionalmente, se debe tener en cuenta la influencia de costos fijos representados por los costos asegurados y costos de medidas de seguridad, que representan un flujo de egresos constantes. Por otra parte, es necesario evaluar de manera objetiva los daños sufridos por el personal, la maquinaria y los equipos, lo que implica la elaboración de tablas que están sujetas a continuas correcciones y actualizaciones. Al ser la experiencia la fuente de conocimientos más importante de esta disciplina, los datos que ella nos brinda deben ser tratados sistemáticamente. De ahí la necesidad de introducir como herramienta la Estadística, tanto en su rama descriptiva como inferencial. La importancia fundamental de la cátedra radica en brindarle al alumno herramientas para analizar los riesgos del trabajo, determinar la causalidad de los accidentes y enfermedades profesionales, sus efectos económicos y sociales; como así también, poder elaborar medidas preventivas genéricas de utilidad y factibilidad práctica dirigidas a disminuir la frecuencia de los accidentes. Se busca que el alumno se encuentre en condiciones de establecer la relación Daño – Costo de los riesgos laborales no sólo en los aspectos económicos directos, tradicionalmente identificada y manejada, sino también en función de los costos indirectos y efectos sociales. OBJETIVOS Lograr que el alumno sea capaz de: • Analizar, clasificar, registrar y evaluar los accidentes y lesiones laborales, haciendo uso de los métodos y legislación vigentes. • Determinar la causalidad de los accidentes y enfermedades profesionales, sus efectos Económicos y sociales. • Conocer las técnicas estadísticas y saber decidir, ante un problema concreto, cuál de ellas utilizar para poder alcanzar conclusiones generales en base a la experiencia y cómo interpretar los resultados obtenidos. • Conocer las técnicas de probabilidad y aprender a elegir la más adecuada a cada problema. Al finalizar el módulo, se espera que el alumno haya adquirido competencias para: • Fundamentar el tratamiento y análisis de datos. • Seleccionar medidas representativas adecuadas. • Emplear conceptos y técnicas de cálculo de probabilidades en la resolución de problemas. • Establecer la relación Daño – Costo de los riesgos laborales. • Valorar la tolerancia y el pluralismo de ideas como requisitos tanto para el debate matemático como para la participación en la vida en sociedad. • Valorar la importancia de la investigación para el progreso del país. CONTENIDOS PROPUESTOS UNIDAD I Estadística: Concepto. Elementos de la Estadística: Conceptos. Métodos estadísticos: Recopilación, organización, presentación e Interpretación. Estadística Descriptiva: Concepto. Estadística Inferencial: Concepto. Población: Concepto, tipos. Muestra: Concepto. Variables: Concepto. Clasificación. Trabajo practico. UNIDAD II Distribución de Frecuencia. Toma de datos: organización. Intervalos de Clase.: concepto y determinación. Marca de clase: concepto y determinación. Reglas para conformar una distribución de frecuencia. Histograma: concepto y construcción. Curvas de frecuencias. Actividades: Estudio Dirigido. Trabajo Prácticos. UNIDAD III Descripción de datos. Medidas de Tendencia Central. Media poblacional. Media muestral. Propiedades de la media aritmética. Media ponderada. Mediana. Determinación gráfica de la mediana. Moda. Media geométrica. Media, mediana y moda para datos agrupados. Medidas de dispersión. Amplitud/Intervalo/Rango. Varianza. Desvío Estándar. Medidas de dispersión para datos agrupados. Interpretación y usos de la desviación estándar. Otras medidas de dispersión: Cuartiles, Deciles, Percentiles. UNIDAD IV Qué es una distribución de probabilidad. Variables aleatorias. Distribuciones de probabilidad discretas. Media, Varianza y Desvío Estándar de una distribución de probabilidad. Diagrama del árbol. Teorema de Bayes. UNIDAD V Muestreo de la población. Métodos de muestreo de probabilidad: aleatorio simple, aleatorio sistemático, aleatorio estratificado, por conglomeración. Error de muestreo. Distribución de muestreo de medias muestrales. Teorema del límite central. UNIDAD VI Control estadístico de accidentes. Diagramas de diagnóstico. Objetivo y tipos de los diagramas de control. Números índices simples. Obtención de números índices. Índices para propósitos especiales. Tasas de Frecuencia y de Gravedad. Compilación de estadísticas de accidentes. Tasas de riesgo. Baremo. Tasa de frecuencia. Tasa de gravedad. Tasas de incidencia. Tasa de duración media. Componentes de una serie de tiempo. Método de mínimos cuadrados. Métodos del promedio móvil. Tendencias no lineales. Variación estacional. UNIDAD VII El accidente. Tipos de accidente. Condición insegura. Acto inseguro. Causas de los accidentes. Análisis de factores del accidente. Factores personales. Reportes, registros e investigación de accidentes. Finalidad de los reportes y registros de accidentes. Bases para la forma científica de proceder. Registros llevados según un procedimiento uniforme. Utilidad de los registros. Sistema de reportar los accidentes. Empleado accidentado. Tipos de formas impresas. Modelo de planilla. UNIDAD VIII Costo de los accidentes. Determinación de los costos de los accidentes. Concepto de costos directos e indirectos. Concepto de costos asegurados y no asegurados. Concepto del costo de los accidentes en elementos de producción. Elementos de la producción. Cuerpo de trabajadores. Maquinaria y herramientas. Materiales. Equipo. Tiempo. Costo por unidad de producción que grava la fabricación. Costos de mano de obra. Costos de maquinaria. Costos de materiales. Costo total de los accidentes. UNIDAD IX Método de la Asociación Americana de Normas. La condición física y/o mecánica insegura. El tipo de accidente. El acto inseguro. El factor personalinseguro. Estadísticas acerca del factor humano‖en el origen de los accidentes. Importancia relativa del agente material y de la conducta del trabajador como causas de accidente. Clasificación de Heinrich. Labor de los expertos de la O.I.T. y de la Conferencia de Estadísticas. Análisis y clasificación de los accidentes. La clasificación de causas de los accidentes de la O.I.T. Métodos para determinar las causas. Método de la causa principal. Método del árbol de las causas. Metodología. Investigación. UNIDAD X Introducción a la teoría de decisiones. Elementos de una decisión. Toma de decisión en condiciones de incertidumbre. Estrategias de deploración maximin, maximax y minimax. Valor de la información perfecta. Análisis de sensibilidad. Árboles de decisión. METODOLOGÍA •Se deberá tener 80 5 de asistencia y los trabajos prácticos aprobados EVALUACIÓN CRITERIOS Se tomará un examen global durante el cursado, de carácter teórico-práctico, sobre cualquiera de los temas dictados. La aprobación se obtendrá con el 60% de desarrollo correcto, equivalente a nota 6 (seis). Dicho parcial tendrá una instancia de recuperación con las mismas condiciones de aprobación. Los alumnos que aprueben los parcialesy hubieran participado activamente en clase serán considerados regulares y tendrán derecho a rendir el examen final como regular. La materia se aprueba con la aprobación del final correspondiente. En la instancia final, el desarrollo correcto del 60% del examen teórico-práctico equivale a la nota 4 (cuatro) en escala de 1 a 10. Se informará oportunamente el tiempo para su desarrollo y demás condiciones que la cátedra estime oportunas en cada fecha de evaluación. . CONDICIONES PARA RENDIR EXAMEN: • El examen de carácter teórico-práctico tendrá una mayor extensión en lo que respecta a las consignas. El tiempo establecido para la resolución del mismo será informado oportunamente. RECURSOS DIDÁCTICOS BIBLIOGRAFÍA BIBLIOGRAFÍA BÁSICA AUTOR TÍTULO EDITORIAL LUGAR Y AÑO DE EDICIÓN BERENSON Mark y LEVINE David “Estadística básica en administración: conceptos y aplicaciones”. 6ª Edición Pearson- Prentice-Hall 2006 LIND – MARCHAL – MASON “Estadística para Administración y Economía”. 11ª Edición Alfaomega 2004 LEVIN Richard y RUBIN David “Estadística para administradores”. 6ª Edición Prentice Hall 2001 BIBLIOGRAFÍA COMPLEMENTARIA AUTOR TÍTULO EDITORIAL LUGAR Y ANO DE EDICIÓN Ya Lung Chou “Análisis Estadístico” Mac Graw Hill México GARCÍA, BACHERO y Otros “Estadística Descriptiva y nociones de Probabilidad” Thompson 2005 MONTGOMERY y RUNGER "Probabilidad y Estadística Aplicadas a la Ingeniería" McGraw-Hill 2003 Murray Spiegel “Probabilidad y Estadística” Mc Graw Hill Serie Shaum México OIT “Enciclopedia de Salud y Seguridad en el Trabajo” OIT Ginebra Links y Recursos en Internet URL: http://www.srt.gob.ar/ Superintendencia de Riesgos del Trabajo Salta, 10 de agosto de 2015 http://www.srt.gob.ar/ UNIDAD I Qué se entiende por estadística La palabra estadística es un término que encontramos a menudo en nuestro lenguaje diario, sin embargo, definirla es una tarea difícil porque tendríamos que definir cada una de las técnicas que se emplean en los diferentes campos en los que interviene. Sin embargo, diremos en forma general, que la estadística es un conjunto de técnicas que partiendo de la observación de fenómenos, permiten al investigador obtener conclusiones útiles sobre ellos. Es decir, la estadística se ocupa de los métodos y procedimientos para la recopilación, presentación, análisis e interpretación de datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos. Como indica la definición anterior, el primer paso en la investigación de un problema es la recolección de datos importantes. Estos datos deben organizarse de cierta manera y tal vez, presentarse en un gráfico. Sólo cuando los datos hayan sido organizados es posibles analizarlos e interpretarlos. Teniendo ya la definición de estadística, surge la pregunta de ¿por qué estudiar estadística? ¿por qué se encuentra en el plan de estudio de la Tecnicatura en Higiene y Seguridad? La primera razón es que en todos lados encontramos información numérica: si se revisan periódicos, revistas de información, páginas web (como es el caso de la página de la Superintendencia de Riesgos del Trabajo, ampliamente conocida por ustedes - http://www.srt.gob.ar/) publicaciones de interés general, revistas femeninas o de deportes; nos veremos bombardeados con información numérica. Ejemplo: el siguiente es un artículo publicado en la página web de la SRT el día 28 de mayo de 20151 http://www.srt.gob.ar/index.php/prensa-y-comunicacion/noticias/noticias-srt/1177-industria-de-la- construccion-el-compromiso-con-la-prevencion-da-resultados http://www.srt.gob.ar/ http://www.srt.gob.ar/index.php/prensa-y-comunicacion/noticias/noticias-srt/1177-industria-de-la-construccion-el-compromiso-con-la-prevencion-da-resultados http://www.srt.gob.ar/index.php/prensa-y-comunicacion/noticias/noticias-srt/1177-industria-de-la-construccion-el-compromiso-con-la-prevencion-da-resultados ¿Cómo podemos determinar si las conclusiones presentadas son razonables? ¿Acaso las muestras tomadas fueron lo suficientemente grandes? ¿Cómo se seleccionaron las unidades de la muestra? Para poder ser un consumidor capacitado de la información que se encuentra colgada en la red o publicada en diferentes medios, necesitamos poder leer diagramas y gráficos además de entender el análisis de la información numérica. Para esto último, la comprensión de los conceptos básicos de estadística será de gran ayuda. La segunda razón para estudiar estadística es que las técnicas estadísticas se utilizan para tomar decisiones que afectan a nuestra vida diaria, influyendo en nuestro bienestar personal; y en nuestra vida profesional y laboral. Ejemplo: las compañías de seguros (incluyendo a las Aseguradoras de Riesgos del Trabajo) utilizan análisis estadísticos para establecer sus tarifas o alícuotas. La tercera razón que justifica la necesidad de impartir estadísticas en la carrera es que el conocimiento de los métodos estadísticos ayuda a entender por qué se toman ciertas decisiones y aportan una mejor comprensión respecto a la forma en que nos afectan las decisiones. Sin importar el tipo de trabajo que se elija, deberemos enfrentarnos con la toma de decisiones, para lo cual una comprensión del análisis de datos será de gran ayuda. Para poder tomar una decisión basada en la información se necesita: • Determinar si los datos y la información existente es la adecuada o si se requiere información adicional. • Reunir información adicional, si fuera necesario, de forma tal que no haya resultados erróneos. • Resumir la información de modo útil e informativo. • Analizar la información disponible. • Sacar las conclusiones y realizar las inferencias necesarias, al tiempo que se evalúa el riesgo de llegar a una conclusión incorrecta. En resumen, existen por lo menos tres razones fundadas para estudiar estadística: los datos se encuentran en todos lados, las técnicas estadísticas se utilizan para la toma de muchas decisiones que afectan nuestra vida, y sin importar sus líneas de trabajo futuras, tendrán que tomar decisiones que involucran datos. El conocimiento de los diferentes métodos estadísticos ayudará a tomar esas decisiones con mayor efectividad. Tipos de Estadística Generalmente, el estudio de la estadística se divide en dos categorías: estadística descriptiva y estadística inferencial. A continuacióncitaremos ejemplos que nos ayudarán a llegar a los conceptos mencionados. Supongamos que un Técnico en Higiene y Seguridad calcula la calificación promedio de un grupo al que le dio capacitación en levantamiento manual de cargas. Como la estadística describe el desempeño del grupo pero no hace ninguna generalización acerca de los diferentes grupos, podemos decir que el Técnico está utilizando estadística descriptiva. Las gráficas, tablas y diagramas que muestran los datos de manera que sea más fácil su entendimiento son también ejemplos de estadística descriptiva. Supongamos ahora que el Técnico del ejemplo anterior decide utilizar el promedio de calificación obtenido por uno de sus grupos para estimar la calificación promedio de las diez unidades del mismo curso de levantamiento manual de carga. El proceso de estimación de tal promedio sería un problema concerniente a la Estadística Inferencial. Los estadísticos se refieren también a esta rama como inferencia estadística. Obviamente, cualquier conclusión a la que llegue el Técnico sobre las 10 unidades del curso estará basada en una generalización que va más allá de los datos del grupo original y ésta no puede ser completamente válida, de modo que el licenciado debe establecer qué posibilidad hay de que sea cierta. De manera similar, la inferencia estadística implica generalizaciones y afirmaciones con respecto a la probabilidad de su validez. Observen las palabras población y muestra en la definición de la estadística inferencial. Una población puede constar de individuos, por ejemplo, los estudiantes de la Tecnicatura en HyS; puede incluir objetos, como los protectores auditivos que fabrique una empresa durante una semana; puede estar también formada por un grupo de medidas, como podrían ser los pesos de todos los torneros de la fábrica; por tanto, una población, en el sentido estadístico, no siempre se refiere a personas. Generalmente, se toma una muestra de una población para inferir algo acerca de la misma. ¿Por qué razón tomaríamos una muestra en vez de estudiar a cada miembro de una población? Una muestra de electores registrados es necesaria por el alto costo que representaría comunicarse con millones de electores antes de una elección; al someter a una prueba el contenido de humedad en el trigo, se destruye el mismo, por tanto, tomar una muestra es de suma importancia; si los catadores de vino lo probaran todo, no habría vino disponible para su venta. Como se observó, el hecho de tomar una muestra para obtener información acerca de una población es una práctica común en los negocios, la agricultura, la política y el gobierno. Lo antes expuesto, demuestra que las dos ramas de la estadística que mencionamos no son independientes; por el contrario, son complementarias y entre ambas dan la suficiente ilustración sobre una posible realidad futura, con el fin de que quien tenga poder de decisión, tome las medidas necesarias para transformar ese futuro o para mantener las condiciones existentes. Tipos de Variables Llamamos variable estadística a una propiedad característica de la población que estamos interesados en estudiar y que cambia al pasar de un elemento unitario a otro. Ej.: Estado civil, gastos familiares, longitud de mangueras de incendio instaladas en una planta, zona del cuerpo afectada por lesiones, etc. Primeramente vamos a diferenciar dos tipos de variables: • Aleatoria: es aquella que el valor que asume depende del azar. Ej.: si llamamos x al valor que sale en un tiro de dados entonces x es una variable aleatoria ya que la misma puede valer 1, 2, 3, 4, 5 o 6 y el valor que asume depende del azar. • Determinística: se le da un valor determinado que no depende del azar. Ej.: la edad que tenemos (no depende del azar) A su vez, a las variables se las clasifica en dos grandes grupos: A las variables cualitativas las podemos clasificar, a su vez, en: • Dicotómicas: Cuando admiten sólo dos categorías de respuesta. Ej.: Género (femenino - masculino) vive (si - no) etc. • De clasificación múltiple: Cuando se puede expresar su resultado en varias contestaciones posibles. Ej.: Estado civil, nivel de enseñanza formal, etc. • Ordinales: aquellas que sugieren una ordenación, una jerarquía o preferencia. Ej.: la graduación militar, el nivel de estudios, etc. • Nominales o no ordinales: aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza. Ej.: color de pelo, género, estado civil, etc. El hecho de que una variable ordinal no es una cantidad, conduce a que este tipo de variables no se puedan sumar y por ende, carece de sentido obtener la media aritmética de un conjunto de variables nominales. Como medidas de tendencia central adecuadas para este tipo de variables tenemos la mediana y la moda. Ej.: si se trata de venta de pinturas, la moda estará dada por el color que más se venda. Las variables cuantitativas se clasifican en: • Discretas: son aquellas variables cuyos resultados posibles surgen del hecho de contar, solo puede tomar números enteros o valores aislados. (Por ejemplo, nº de hermanos, goles convertidos, etc). Si bien es muy común que una variable discreta asuma como valores números naturales, esto no es una exigencia. Ej.: la altura de una pared construida con bloques enteros de 20 cm x 20 cm x 40 cm podrá ser de 0,2 m, 0,4 m… o n x 0,2 m (con n ∈ N) pero nunca de 1,7 m ya que no es múltiplo de n x 0,2 m es decir, el valor que asume la variable altura va “saltando” de 0,2 m en 0,2 m. • Continuas: son aquellas variables cuyos resultados posibles surgen del hecho de medir, pueden tomar todos los valores de un intervalo. (Por ejemplo, la estatura de los empleados de la fábrica). Niveles de medición Los datos pueden clasificarse de acuerdo con los niveles de medición. Generalmente, el nivel de medición de un dato determina los cálculos que se pueden realizar para resumir y presentar la información y las pruebas estadísticas que pueden desarrollarse. Existen cuatro niveles de medición: nominal, ordinal, de intervalo y de razón. El nivel más bajo o más primitivo es el nominal; el más alto o el que proporciona mayor cantidad de información acerca de la observación, es el nivel de medición de razón. PROPIEDADES DE LOS DATOS DE NIVEL NOMINAL: • Las categorías para los datos son mutuamente excluyentes y exhaustivas. • Las categorías para los datos no tienen un orden lógico. Mutuamente excluyentes: propiedad de un conjunto de categorías, implica que una persona, objeto o medición se ha de incluir en sólo una categoría. Exhaustivo: propiedad de un conjunto de categorías que implica que cada individuo, objeto o medición debe aparecer en sólo una categoría. PROPIEDADES DE LOS DATOS DE NIVEL ORDINAL: • Las categorías para los datos son mutuamente excluyentes y exhaustivas. • Dichas categorías para los datos se clasifican por intervalos, o se ordenan de acuerdo con las características particulares que poseen. PROPIEDADES DE LOS DATOS DE NIVEL DE INTERVALO: • Las categorías para los datos son mutuamente excluyentes y exhaustivas. • Las categorías en cuestión están ordenadas de acuerdo con la cantidad de la característica que poseen. • Diferencias iguales en la característica que representan por diferencias iguales en la medición. PROPIEDADES DE LOS DATOS DE NIVEL DE RAZÓN: • Las categorías para los datos son mutuamente excluyentes y exhaustivas. • Dichas categorías tienen un intervalo u orden de acuerdo con la cantidad de la característica que poseen. • Diferencias iguales en la característica están representadas por diferenciasiguales en los números que se han asignado a las categorías mencionadas. • El punto o valor “0” representa la ausencia de la característica. RESUMIENDO ESTADÍSTICA DESCRIPTIVA Recordando la definición de Estadística que adoptamos, citamos que es una ciencia que se ocupa de los métodos y procedimientos para la recopilación, organización, presentación, análisis e interpretación de datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos. En cuanto a la recopilación, los especialistas seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos, éstos pueden provenir de observaciones reales o de registros que se mantienen para otros propósitos. Antes de depositar nuestra confianza en cualquier conjunto de datos interpretados, deberíamos chequear: • ¿De dónde vienen los datos? ¿La fuente es parcial? Es decir, ¿es posible que haya un interés en proporcionar los datos que conduzcan a una cierta conclusión más que a otras? • ¿Los datos comprueban o contradicen otras evidencias que se tienen? • ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se llegue a una conclusión diferente? • ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos que se desea estudiar? • ¿La conclusión es lógica? ¿Se ha llegado a conclusiones que nuestros datos no confirman? Estudiar las respuestas que demos a estar preguntas determinará si vale la pena utilizar estos datos o esperar y recabar más información antes de actuar. Trabajo practico N° 1 1- Para cada una de las siguientes variables aleatorias determine si es categórica o numérica. Si es numérica, determine si el fenómeno de interés es Discreto o continuo: Número de teléfonos por viviendas. Tipo de teléfono principal de uso. Número de llamadas de larga distancia más larga por mes. Color del teléfono principal en uso. Costo mensual (en pesos y centavos). Posesión de un teléfono celular. Número de llamadas locales por mes. Duración (en minutos) de la llamada local más larga por mes. Si hay una línea telefónica conectada a un moden en la vivienda. Si hay un fax en la vivienda. 2- Suponga que se ha obtenido la siguiente información entre los estudiantes que salían de la librería “quiero estudiar” durante la primera semana de clases. Clasifique cada variable como categórica o numérica. Si es numérica, determine si el fenómeno de interés es Discreto o continuo Cantidad de dinero que se utiliza para adquirir libros. Números de libros de texto que se adquieren. Tiempo empleado para comprar en la librería. Especialidad académica. Hombre o mujer. Posesión de una computadora personal. Posesión de una dvd. Numero de las materias en las que se inscribió en el semestre actual. Forma de pago. 3- Para cada una de las variables aleatorias siguientes determine si es categórica o numérica. Ídem punto anterior. Marca de gaseosas que consume habitualmente. Costo de la computadora personal. Tiempo de la computadora por semana. Uso principal de la computadora. Número de personas que usan la computadora en la vivienda. Paquete de procesador de textos que usa principalmente. Indicar si posee servidor de internet. 4- Para cada una de las variables aleatorias siguientes determine si es categórica o numérica. Ídem punto anterior. Cantidad de dinero que destino a compras de ropa durante el último bimestre. Casa der ropa preferida. Tiempo que invirtió en ir de compras para adquirir ropa en el último mes. Periodo más probable para la compra de ropa. Numero de pares de guantes de invierno. Medio principal de transporte que utiliza para llegar al terciario. 5- Si dos estudiantes obtienen una calificación de 90 en el mismo examen ¿Qué argumentos se pueden usar para mostrar que la variable aleatoria – calificación de la prueba- es continua? 6- Suponga que es director de investigación de mercado de una gran cadena de tiendas departamentales y desea realizar una encuesta en el área metropolitana para determinar el tiempo mensual que invierten en adquirir ropa las mujeres que trabajan. Describa la población y la muestra de interés, e indique el tipo de datos que el director está interesado en recolectar. Desarrolle un primer borrador del cuestionario requerido en el punto anterior, escriba una serie de 3 preguntas categóricas y 3 numéricas que sean apropiadas para esta encuesta. 7- Explique la diferencia entre una muestra y una población.√ 8- Para cada uno de los siguientes ítems, determine si el grupo utilizado es una muestra o una población√ a. Los participantes en el estudio de un nuevo medicamento para la diabetes. √ b. Todos los conductores que se hicieron acreedores a una multa por conducir a exceso de velocidad en la Ciudad de Rafaela el mes pasado. √ c. Todas las personas que recibieron el préstamo de honor “Capital Semilla” del Ministerio de Industria de la Nación. √ d. Las 30 acciones reportadas como parte del Promedio Industrial Dow Jones. √ Exitos!!! Y a seguir estudiando!!! UNIDAD II La información obtenida antes de ser organizada y analizada se conoce como datos sin procesar, ya que aún no han sido tratados mediante ningún método estadístico. El objetivo de organizar los datos es permitirnos ver rápidamente algunas de las características de los datos que se han recogido. Buscamos cosas como el alcance (valores mayor y menor), patrones evidentes, alrededor de qué valor tienden a agruparse los datos, qué valores aparecen con mayor frecuencia, etc. Existen muchas formas de organizar los datos. Podemos sólo colectarlos y mantenerlos en orden, o si las observaciones están hechas con números, entonces se puede hacer una lista de los puntos de dato de menor a mayor según su valor numérico. Si los datos son trabajadores especializados de una construcción (carpinteros, albañiles, soldadores, etc.) o los diferentes tipos de remeras fabricadas por una empresa dada, necesitaremos presentar los datos en orden alfabético o mediante algún principio de organización. Distribución de frecuencias El primer método que vamos a ver para la presentación o descripción de un conjunto de datos es la distribución de frecuencias. Agrupamiento de datos en categorías mutuamente excluyentes, que indican el número de observaciones en cada categoría. ¿Cómo se elabora una distribución de frecuencias? El primer paso es anotar los datos en una tabla que muestre las clases (categorías) y el número de observaciones en cada categoría. Recuerden que el objetivo es obtener una tabla que muestre a simple vista la forma de los datos. Dependiendo del tamaño de la muestra trabajaremos con datos agrupados o sin agrupar. Cuando la cantidad de elementos muestrales resulta pequeña, trabajaremos con datos sin agrupar, teniendo en cuenta todos los datos de la muestra. A continuación un ejemplo de tabla de Frecuencias para datos sin agrupar: Vamos a definir a continuación algunos conceptos que nos serán de utilidad al momento de construir la distribución de frecuencias: • Frecuencia absoluta (fa): representa el número de veces que se repite determinado valor de la variable. La suma de las frecuencias absolutas debe coincidir con el tamaño de la población o muestra, según se haya trabajado. • Frecuencia relativa (fr): representa la proporción de la población con determinado valor de la variable. Puede calcularse mediante: fr = fa / N. La suma de las frecuencias relativas debe coincidir con la unidad.• Porcentajes: es la frecuencia relativa expresada en porcentaje. La suma de los porcentajes debe coincidir con el 100%. • Frecuencia absoluta acumulada (Fa): representa qué parte de la población o muestra posee características menores o iguales a determinado valor de la variable. El último valor de las frecuencias absolutas acumuladas es igual al tamaño de la población o muestra según se haya trabajado. • Frecuencia relativa acumulada (Fr): r e p r e s e n t a la proporción de la población que posee características menores o iguales a determinado valor de la variable. El último valor de las frecuencias relativas acumuladas es igual a 1 (uno) Ejemplo: Un estudio realizado en 25 salones de una localidad del país en mayo de 2014 con objeto de determinar su grado de protección contra incendios, arrojó los siguientes resultados: A, B, A, A, A, Ninguno, C, A, A, A, C, B, C, A, B, C, B, C, A, B, B, A, A, C, B. Para construir la tabla de distribución correspondiente al enunciado anterior desarrollaremos una a una sus columnas. Modalidad: en este caso la modalidad es el grado de protección contra incendios que tengan los salones, es decir: Ninguna, A, B y C. fa: a fin de determinar la frecuencia absoluta de cada modalidad contaremos las veces que se repiten cada una. Se debe chequear que la suma de las frecuencias absolutas coincida con n = 25 fr: calcularemos el cociente entre la frecuencia absoluta correspondiente y el número total de observaciones, que para nuestro ejemplo son 25. Porcentajes: es expresar en porcentaje la frecuencia relativa. Grado de protección fa fr % Ninguno 1 0,04 4 A 11 0,44 44 B 7 0,28 28 C 6 0,24 24 Totales 25 1 100 A pesar de las ventajas, en ocasiones no resulta útil un ordenamiento de datos sin agrupar ya que dar una lista de todos los valores puede resultar una forma incómoda de mostrar grandes cantidades de datos. En estos casos, para poblaciones o muestras cuyos elementos se encuentran distribuidos a través de todo el recorrido y el número de veces que se repite cada observación es bajo, se hace necesario el agrupamiento, en intervalos o clases, que haga más compacta, manejable y presentable la información y todavía ser capaces de utilizarla para su interpretación y para la toma de decisiones. El número de clases y la amplitud de cada intervalo los fija el investigador de acuerdo con el conocimiento que posea de la población, la necesidad de hacer comparaciones con otras investigaciones y la presentación de la información. No obstante lo dicho, se recomienda que la información no sea demasiado compacta ya que restaría precisión, ni demasiado extensa o dispersa debido a que no se tendría claridad. Entonces, dada una cantidad n de datos comprendido en un rango de valores, surge inmediatamente la pregunta ¿cuántas categorías debemos establecer? y en consecuencia ¿qué intervalo comprende cada categoría? A continuación citaremos el paso a paso de la construcción de intervalos: • Determinar Xmáx y Xmín esto es, los valores máximos y mínimos de los datos obtenidos. Calcular el Rango (diferencia entre los valores extremos) R = Xmáx – Xmín • Determinar el número de intervalos o clases (k) mediante la fórmula de Sturges: k = 1 + 3,33 log (n) Donde n es el número de datos Calcular la amplitud A > R / k Calcular el Rango Ampliado Ra = A * k Establecer la diferencia a = Ra – R Distribuir a: Xmín – a/2 = LIPI (límite inferior del primer intervalo) Xmáx + a/2 = LSUI (límite superior del último intervalo) Construir los intervalos Es importante aclarar que los intervalos deben cumplir con dos condiciones fundamentales: • Ser mutuamente excluyentes: es decir, que un valor determinado debe pertenecer a una sola clase. • Ser exhaustivos: el cuadro debe contener todos los valores de la variable. Para evitar que algún valor de la variable se cuente más de una vez, los intervalos deben ser cerrados en su extremo inferior (límite inferior) y abiertos en el superior (límite superior) con excepción del último intervalo que debe ser cerrado también en su extremo superior para asegurar que incluya al valor mayor de la variable. En cuanto al número de clases a utilizar (cantidad de intervalos) éstos depende del número de observaciones con que se cuente, en general, la distribución de frecuencias no debe tener menos de 5 (cinco) intervalos de clase ni más de 15 (quince) Si no hay suficientes clases, hay mucha concentración de datos y se obtendría poca información; si por el contrario hay demasiados intervalos, la información se dispersa. Ejemplo: Los metros de manguera contra incendio inspeccionados por un trabajador en la fábrica de la ciudad de Carlos Paz (provincia de Córdoba) en junio de 2014, son los siguientes: 63, 69, 83, 85, 93, 73, 80, 94, 104, 125, 141, 152, 115, 120, 127, 139, 105, 114, 123, 121, 107, 100, 109, 83, 85, 93, 128, 90, 75, 137, 131, 73, 62, 100, 109, 117, 124, 103, 133, 138, 143, 110, 61, 91, 87, 156, 133, 155, 143, 116, 117, 118, 147, 134, 129, 96, 99, 74, 104, 97, 84, 98, 78, 71, 133, 63, 79, 76, 86, 88, 77, 124, 116, 119, 102, 107, 106, 111, 119. Determinar los intervalos para los datos citados. A fines prácticos vamos a ordenar los valores en la siguiente tabla: Ahora vamos paso a paso: • Determinar Xmáx y Xmín Xmáx = 156 y Xmín = 61 • Calcular el Rango R = Xmáx – Xmín = 156 – 61 = 95 • Determinar el número de intervalos o clases (k) mediante la fórmula de Sturges k = 1 + 3,33 log (n) = 1 + 3,33 log (79) = 7,32 8 clases Como la fórmula de Sturges es orientativa, tomamos la cantidad de intervalos o clases 8 (ocho) • Calcular la amplitud A > R / k A > 95 / 8 = 11,875 A = 12 • Calcular el Rango Ampliado Ra = A * k = 12 * 8 = 96 • Establecer la diferencia a = Ra – R = 96 – 95 = 1 • Distribuir a o Xmín – a/2 = 61 – ½ = 60,5 = LIPI o Xmáx + a/2 = 156 + ½ = 156,5 = LSUI • Construir los intervalos: [60,5 ; 72,5) [72,5 ; 84,5) [84,5 ; 96,5) [96,5 ; 108,5) [108,5 ; 120,5) [120,5 ; 132,5) [132,5 ; 144,5) [144,5 ; 156,5] Nótese que los intervalos comienzan con corchete, es decir que el valor inferior se encuentra comprendido; y culminan con paréntesis, esto es, el valor superior no se encuentra comprendido en el mismo. De esta forma se cumple con la condición de que los intervalos sean mutuamente excluyentes. El valor del límite superior del primer intervalo coincide con el valor del límite inferior del segundo intervalo; el valor del límite superior del segundo intervalo coincide con el valor del límite inferior del tercer intervalo y así sucesivamente. Como todos los datos obtenidos toman valores entre 61 y 156 y los intervalos van desde 60,5 comprendido y 156,5 sin comprender, todos los datos quedarían incluidos, es decir, se cumple la condición de ser exhaustivos. La distribución de frecuencias para datos agrupados es el despliegue organizado de datos que muestran el número de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. A continuación mostraremos el cuadro para datos agrupados: Un par de conceptos nuevos para la construcción de distribución de frecuencias anterior: • Intervalo de clases: es un recorrido de la variable en el cual se subagrupan conjuntos con iguales características. • Punto medio de clase: también llamado marca de clase, es el valor representativo del intervalo y equivale a la semisuma de los límites inferior y superior de cada intervalo de clase: ci = (LIi + LSi) / 2 De todo lo anterior, queda expuesto que cuando agrupamos los datos en una distribución de frecuencias NO eliminamos información, sólo la agrupamos aefectos de llagar a resultados que reflejen la realidad del conjunto de datos. Ejemplo: Tomando ahora el ejemplo de la fábrica de mangueras contra incendios en Carlos Paz y los intervalos que ya hemos calculado, construiremos la tabla de frecuencias correspondiente. Intervalo Pto medio fa fr % Fa Fr [60,5 ; 72,5) 66,5 6 0,08 8 % 6 0,08 [72,5 ; 84,5) 78,5 12 0,15 15 % 18 0,23 [84,5 ; 96,5) 90,5 11 0,14 14 % 29 0,37 [96,5 ; 108,5) 102,5 13 0,16 16 % 42 0,53 [108,5 ; 120,5) 114,5 14 0,17 17 % 56 0,70 [120,5 ; 132,5) 126,5 9 0,12 12 % 65 0,82 [132,5 ; 144,5) 138,5 10 0,13 13 % 75 0,95 [144,5 ; 156,5] 150,5 4 0,05 5 % 79 1 Totales 79 1 100 NOTA 1: la Fa del primer intervalo coincide con la fa del mismo intervalo, para nuestro caso 6 (seis) La frecuencia absoluta del segundo intervalo se obtiene adicionando a ésta (6) la fa del segundo intervalo (12) será entonces igual a 6+12=18. Se repite la operatoria sucesivamente hasta que en el último intervalo se obtiene el valor de n = 79. NOTA 2: a la Fa citada en la tabla de distribución de frecuencias anterior se la conoce también como Fa “menor o igual que” denotada comúnmente como Fa ≤. Se puede calcular también la frecuencia acumulada decreciente, es decir, la frecuencia acumulada que representa qué parte de la población o muestra posee características mayores o iguales a determinado valor de la variable, esta última se conoce como Fa “mayor o igual que” y se denota con Fa ≥. La Fa ≥ del primer intervalo coincide con n = 79; la frecuencia absoluta del segundo intervalo se obtiene disminuyendo a ésta (79) la fa del segundo intervalo (12) será entonces igual a 79-12=67. Se repite la operatoria sucesivamente hasta que en el último intervalo se obtiene el valor de fa correspondiente, en nuestro caso 4 (cuatro). NOTA 3: la Fr se obtiene de igual forma que la Fa tomando para ésta las frecuencias relativas. El último valor de las Fr debe coincidir con 1 (uno) Representaciones gráficas de la distribución En la sección anterior se mostró cómo organizar los datos en una distribución de frecuencias tanto para datos agrupados como para sin agrupar; resumiendo los datos originales y facilitando su comprensión. La principal ventaja que se obtiene al organizar los datos en una distribución de frecuencias es que se consigue una imagen visual rápida de la forma de la distribución, sin realizar cálculos adicionales; es decir, podemos ver dónde se concentran los datos y determinar si hay valores extremadamente grandes o sumamente pequeños. Sin embargo, al trabajar con datos agrupados, existen dos desventajas al organizar los datos en tal forma: 1. Se pierde la identidad exacta de cada valor, y 2. No se sabe bien cómo se distribuyen los valores dentro de cada clase. Para salvar la pérdida de identidad de cada observación se pueden utilizar las representaciones de tallo y hoja. La representación de tallo y hoja es una técnica estadística que se utiliza para mostrar información cuantitativa en forma condensada. Cada valor numérico se divide en dos partes: los dígitos principales se toman como el tallo y el dígito siguiente es la hoja. Los tallos se ubican a lo largo del eje vertical principal y las hojas, de cada observación, a lo largo del eje horizontal. A fin de ilustrar la elaboración de una representación de tallo y hojas para los valores obtenidos en la medición de ruidos en una planta de elaboración, supongamos las siete observaciones siguientes expresadas en dbA: 86, 84, 83, 84, 85, 82 y 87. El valor de tallo es el dígito o dígitos principales, en este caso el 8. Las hojas son los dígitos siguientes. Los valores de tallo se colocan a la izquierda de una barra vertical y los de hoja a su derecha. 8 | 6 4 3 4 5 2 7 Finalmente, se ordenan los valores dentro de cada tallo, del menor al mayor. 8 | 2 3 4 4 5 6 7 Con la representación de tallo y hoja anterior, se puede observar rápidamente que dos de los valores obtenidos en la medición fueron 84 dbA y que los ruidos medidos oscilaron entre 82 y 87 dbA. Una representación de tallo y hoja realmente es un histograma con más información, es decir, valores de datos en vez de grupos. Los agentes de ventas, administradores de hospitales y otros ejecutivos, con frecuencia necesitan tener una percepción rápida de la tendencia en ventas, precios de acciones o costos de administración. Estas tendencias pueden mostrarse utilizando diagramas o gráficas. Tres diagramas que representan de manera adecuada una distribución de frecuencias son el histograma, el polígono de frecuencias y el polígono de frecuencias acumuladas. Histograma: es una gráfica en la que las clases se marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase están representadas por las alturas de las barras y éstas se colocan adyacentes una a otra. De esta manera, el histograma describe la distribución de frecuencias utilizando una serie de rectángulos, cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase y cuya altura es proporcional al número de elementos que caen dentro de la clase. Si las clases utilizadas son de la misma amplitud, las barras verticales del histograma tienen también el mismo ancho. La altura de la barra correspondiente a cada clase representa el número de observaciones de la clase. Como consecuencia de lo dicho, el área contenida en cada rectángulo ocupa un porcentaje del área total de todos los rectángulos igual al porcentaje de la frecuencia de clase correspondiente con respecto a todas las observaciones hechas. Un histograma que utiliza las frecuencias relativas de los puntos de dato de cada una de las clases, en lugar de usar el número real de puntos, se conoce como Histograma de frecuencias relativas. Este histograma tiene la misma forma que un histograma de frecuencias absolutas construido a partir del mismo conjunto de datos. El poder representar los datos en términos de la frecuencia relativa de las observaciones, más que en términos de la frecuencia absoluta, es de mucha utilidad ya que mientras los número absolutos pueden sufrir cambios la relación entre las clases permanece estable; resultando fácil comparar los datos de muestras de diferentes tamaños cuando utilizamos histogramas de frecuencias relativas. A continuación, un modelo de histograma de frecuencias absolutas de la altura de los árboles de un bosque: fr e c u e n c ia s a b s o lu ta s a lt u ra s frecuencias absolutas de alturas 60 50 40 30 20 10 0 4.75 6.25 7.75 9.25 10.75 12.25 13.75 15.25 16.75 número de clase frecuencias absolutas de alturas Aunque de menor utilización, los polígonos de frecuencias son otra forma de representar gráficamente distribuciones tanto de frecuencias absolutas simples como relativas. Está formado por segmentos de recta que unen a los puntos medios de clase y las frecuencias de clase. Para su construcción, señalamos las frecuencias en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal (del mismo modo que lo hicimos para el histograma) Luego graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono. Se agregan una clase a cada extremo de la escala de valores observados, éstas no contienen observaciones pero permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución. Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases en lugar del número de puntos, se conoce como Polígono de frecuencias relativas. Este tiene la misma forma que el polígonode frecuencias construido a partir del mismo conjunto de datos pero con una escala diferente en los valores del eje vertical. fr e c u e n c ia s a b s o lu ta s a lt u ra s Poligono de frecuencias absolutas 60 50 40 30 20 10 0 [4.00 , 5.50) [5.50 , 7.00) [7.00 , 8.50) [8.50 , 10.00) [10.00 , 11.50) Intervalo [11.50 , 13.00) [13.00 , 14.50) [14.50 , 16.00) [16.00 , 17.50) Poligono de f recuencias absolutas Un polígono de frecuencias alisado mediante el aumento de clases y de puntos de dato, se conoce como Curva de frecuencias. Tanto el histograma como el polígono de frecuencias permiten obtener una imagen rápida de las principales características de los datos (altos, bajos, puntos de concentración, etc.) Aunque el objetivo de ambas representaciones es similar, el histograma tiene la ventaja de indicar cada clase como un rectángulo, cuya altura representa el número total de frecuencias en la clase. El polígono de frecuencias, a su vez, tiene una ventaja notable con relación al histograma, ya que permite comparar en forma directa dos o más distribuciones de frecuencias. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, la gráfica de esta distribución (sea del tipo “mayor que” o “menor que”) se conoce como ojiva. El límite inferior de las clases de la tabla se convierte en el límite superior de la distribución acumulativa de la ojiva. Se puede construir una ojiva de una distribución de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribución de frecuencias absolutas, el cambio radicará en la escala del eje vertical. A continuación graficada un ojiva “menor que” de la distribución de niveles de producción de una muestra de 30 telares para alfombra: Otras representaciones gráficas de datos El histograma, el polígono de frecuencias y el polígono de frecuencias acumuladas (ojiva) poseen en general un fuerte atractivo visual. Esto quiere decir que están diseñados para captar la atención del lector. Ahora vamos a examinar otras formas gráficas, específicamente la gráfica de líneas, de barras y circular ya que son las que aparecen continuamente en publicaciones, revistas, diarios y reportes. Las gráficas de líneas son especialmente efectivas en los negocios ya que pueden mostrar el cambio en una variable a través del tiempo. La variable se marca en la escala a lo largo del eje vertical y el tiempo en la escala a lo largo del eje horizontal. Con frecuencia, en la misma gráfica se representan dos o más series de cifras; por tanto, una gráfica puede mostrar la tendencia de varias series lo que permite una comparación rápida de varias series en un periodo o intervalo de tiempo. A continuación una gráfica de líneas compuesta. Una gráfica de barras es especialmente útil para mostrar cualquiera de los niveles de medición: nominal, ordinal, de intervalo o de razón (cociente) Cabe recordar que los niveles de medición de los datos se analizaron en apartados anteriores. Al igual que en el caso anterior también se pueden mostrar varias series en el mismo gráfico, a continuación un ejemplo de ello: A este tipo de representación se lo conoce como gráfica de barras horizontales debido a su configuración aunque también pueden mostrarse de manera vertical. Es importante observar que hay un especio entre las barras que representan diferentes categorías; esta es una característica que diferencia a las gráficas de barras respecto de los histogramas, en un histograma no hay espacio entre las barras debido a que los datos pertenecen a una escala de intervalo o razón. Una gráfica circular es especialmente útil para mostrar datos de nivel nominal, generalmente las “rebanadas” muestran el porcentaje de la categoría. A continuación un ejemplo. Gráficas engañosas Al elaborar un representación gráfica se debe tener cuidado de no hacer una que lleve a confusión o a una interpretación errónea. Una de las formas más fáciles para conducir al lector a una interpretación errónea es hacer que la extensión del eje Y sea muy pequeña en términos de las unidades que se utilizan para ese eje; un segundo método es comenzar en algún valor diferente de cero sobre el eje Y. Es de notar que por lo expuesto anteriormente, por medio de gráficos tendenciosos se pueden deformar o resaltar situaciones o estados, que presentados en un gráfico apropiado, mostrarían un comportamiento normal. Otras causas por las que una información es distorsionada son las siguientes: • La relación entre los ejes no es la apropiada. Existe una regla que establece la relación entre ejes como sigue: Lx/Ly = 4/3 Ly = ¾ Lx (la longitud del eje vertical es igual a tres cuartos la longitud del eje horizontal) • Las escalas no conservan proporción o se eligió mal el punto de origen. • Se utilizan dibujos para representarlas las categorías. EJERCICIOS DE LA UNIDAD Trabajo practico N° 2 1- Explique la diferencia entre datos cualitativos y cuantitativos. Proporcione un ejemplo de cada uno. √ 2- Explique lo que indica la expresión “mutuamente excluyentes” y mencione lo que significa el término “exhaustivo”. √ 3- Un conjunto de datos consta de 38 observaciones ¿cuántas clases recomendaría para la distribución de frecuencias? √ 4- Un conjunto de datos consta de 230 observaciones que oscilan desde 235 hasta 567 ¿qué intervalo de clase recomendaría? 5- Un informe elaborado para el Gerente General indicó que 56% de los accidentes eran lesiones leves sin días de baja, 23% con hasta 3 días de baja laboral, 10% con hasta 10 días de baja y 9% con más de 10 días de baja y el remanente sin clasificar. Trace una gráfica circular para mostrar la distribución de los accidentes de la empresa. √ 6- Un conjunto de datos consiste en 83 observaciones ¿Cuántas clases recomendaría para una distribución de frecuencias? 7- Un conjunto de dato consta de 145 observaciones que van de 56 a 490 ¿qué 8- tamaño de intervalo de clase recomendaría? 9- Los siguientes datos obtenidos de una muestra de hogares presentan las cantidades semanales (en pesos) que se gastan en comestibles. 271 363 159 76 227 337 295 319 250 279 205 279 266 199 177 162 232 303 192 181 321 309 246 278 50 41 335 116 100 151 240 474 297 170 188 320 429 294 570 342 279 235 434 123 325 a. ¿Cuántas clases recomendaría? b. ¿Qué intervalo de clase sugeriría? c. ¿Qué valor sería recomendable como el límite inferior de la primera clase? d. Organice los datos en una distribución de frecuencias. e. Comente la forma de la distribución de frecuencias. 12- A continuación se presenta la cantidad en minutos que toma viajar desde el hogar al trabajo, para un grupo de ejecutivos en auto. 28 3732 16 42 33 31 41 35 23 23 25 25 26 38 36 26 19 43 23 28 21 31 32 33 29 a. Organice los datos en una distribución de frecuencias. b. Comente acerca de la forma de distribución recomendada. 13- Determine si el enunciado es verdadero o falso. a. Una ojiva “mayor que” tiene forma de S y su inclinación es hacia abajo a la derecha. b. Un histograma es una serie de rectángulos, cada uno proporcional en anchoal Número de elementos que caen dentro de una clase específica de datos. c. Las clases o intervalos de cualquier distribución de frecuencias relativas son tanto completamente inclusivas como mutuamente exclusivas. d. Si uniéramos los puntos medios de las barras consecutivas de un histograma de frecuencias con una serie de rectas, estaríamos graficando un polígono de Frecuencias. e. Una desventaja del ordenamiento de datos es que no nos permite hallar fácilmente los valores mayor y menor del conjunto de datos. Mucha Suerte!!! Solo se consigue triunfar con voluntad, perseverancia y mucho sacrificio….. UNIDAD III Descripción de datos. Medidas de Tendencia Central. Media poblacional. Media muestral. Propiedades de la media aritmética. Media ponderada. Mediana. Determinación gráfica de la mediana. Moda. Media geométrica. Media, mediana y moda para datos agrupados. Medidas de dispersión. Amplitud/Intervalo/Rango. Varianza. Desvío Estándar. Medidas de dispersión para datos agrupados. Interpretación y usos de la desviación estándar. Otras medidas de dispersión: Cuartiles, Deciles, Percentiles. DESCRIPCIÓN DE DATOS En la primera unidad iniciamos el estudio de la estadística descriptiva; para poder presentar un conjunto de datos a granel o no agrupados, en un formato comprensible se los organizó en una distribución de frecuencias y se los presentó gráficamente con un histograma o un polígono de frecuencias; también se describieron otros recursos para presentar datos, como las representaciones de tallo y hoja, las gráficas de línea, de barras y las circulares. En esta unidad vamos a continuar con el desarrollo de métodos para describir un conjunto de datos, mediante un único valor. A dicho valor se le denomina medida de tendencia central. MEDIDAS DE TENDENCIA CENTRAL Se llaman así a los valores típicos de una serie o de una variable en el sentido que ese valor puede representar al conjunto de los valores considerados. Medida de tendencia central: es un valor único que resume un conjunto de datos. Señala el centro de los valores. El concepto de promedio es el que nos resulta más familiar, sin embargo no existe solamente una medida de tendencia central sino varias. Aquí consideraremos seis: la media aritmética, la media ponderada, la mediana, la moda, la media geométrica y la media armónica. MEDIA POBLACIONAL/MUESTRAL | PROPIEDADES La media poblacional de datos sin procesar, datos que no han sido agrupados en una distribución de frecuencias o en una representación de tallo y hoja, es la suma de todos los valores de la población, dividida entre el número total de dichos datos. Para calcular la media de una población se utiliza la siguiente fórmula: Donde: μ: representa la media de la población (letra griega “mu” minúscula) N: es el número total de elementos en la población x: representa cualquier valor en particular Σ: es la letra griega “sigma” mayúscula, indica la operación de sumar Σx: simboliza la suma de todos los valores x Cualquier característica medible de una población se denomina parámetro. La media de una población es, por tanto, un parámetro. Ejemplo: Hay 12 empresas fabricantes de autos en Estados Unidos. A continuación se presenta el número de patentes otorgadas el año pasado por el gobierno de ese país a cada negociación. Empresa N° de patentes Empresa N° de patentes General Motors 511 Mazda 210 Nissan 385 Chrysler 97 Daimler Chrysler 275 Porsche 50 Toyota 257 Mitsubishi 36 Honda 249 Volvo 23 Ford 234 BMW 13 1. ¿Esta información es una muestro o una población? 2. ¿Cuál es el número medio de patentes otorgadas? Esta información es una población, porque se consideran TODAS las compañías automovilísticas que obtuvieron patentes de cada una de las 12 empresas. La cantidad total de patentes de las 12 compañías es 2.340. Para evaluar la media aritmética, se divide ese total entre 12. Por tanto, la media es 195, que se obtiene de 2.340/12. ¿Cómo se interpreta el valor 195? El número típico de patentes recibido por una empresa es 195. Puesto que se considera a todas las compañías que recibieron patentes, este valor es un parámetro poblacional. Con frecuencia se selecciona una muestra de la población con el objeto de evaluar algo acerca de una característica específica de tal población. Para datos a granel, es decir, no agrupados, la media es la suma de todos los valores, dividida entre el número total de los mismos. Donde x simboliza la media muestral y se lee “equis barra”. La letra n designa al número total de valores de la muestra. La media de una muestra, o cualquier otra medida basada en datos muestrales, se denomina dato estadístico. Sin embargo, la media tiene varias desventajas. Como para su cálculo se utiliza el valor de cada elemento de la población o muestra; si uno o dos de estos valores es muy grande o muy pequeño, la media podría no ser un promedio adecuado para representar los datos. La media también resulta inadecuada si hay una clase de extremos abiertos en el caso de datos agrupados en una distribución de frecuencias. MEDIA PONDERADA O PROMEDIO PONDERADO La media ponderada es un caso especial de la media aritmética que se presenta cuando hay varias observaciones con un mismo valor, lo cual puede ocurrir si los datos se han agrupado en una distribución de frecuencias. Para explicar el concepto vamos a suponer que en una empresa de elementos de protección se venden camisas de trabajo chicas, medianas y grandes y que sus precios son los siguientes: $200, $250 y $300 respectivamente. De las últimas 10 camisas que se vendieron, 3 eran chicas, 4 medianas y 3 grandes. Para calcular el precio promedio de las últimas 10 camisas vendidas se puede utilizar la siguiente fórmula: El precio medio de venta de las últimas 10 camisas es $250. Un modo más fácil de encontrar el precio medio de venta es determinar la media ponderada. Esto quiere decir que cada observación se multiplica por el número de veces que se presenta. A la media ponderada se la presenta con el símbolo xw y se lee “equis barra subíndice w” En general, la media ponderada de un conjunto de números designados por x1, x2, x3,…,xn con las ponderaciones (o pesos) correspondientes w1, w2, w3, …, wn se calcula como sigue: Ejemplo: La constructora Carter para a sus empleados $65, $75 o bien $85 por hora. Hay 26 empleados contratados por hora; 14 reciben la tarifa de $65, 10 la de $75 y 2 la de $85. ¿Cuál es la media de la tarifa por hora que se paga a los 26 trabajadores? Para encontrar la media de las tarifas por hora, se multiplica cada una por el número de empleados que ganan ese importe: MEDIANA | DETERMINACIÓN GRÁFICA DE LA MEDIANA Hemos enunciado anteriormente que para datos que contienen uno o dos valores muy grandes o muy pequeños, la media aritmética puede no ser representativa. El punto central de tales datos puede describirse mejor utilizando una medida de tendencia central, denominada mediana (Me) y que es un solo valor, no necesariamente perteneciente a la serie, calculado a partir del conjunto de datos que mide la observación central de éstos, es decir, la mitad de los elementos están por arriba de este punto y la otra mitad está por debajo. Es de suponer entonces, que para hallar la mediana de un conjunto de datos, primero debemos ordenarlos, ya sea de forma ascendente o descendente. Para series de datos no agrupados, puede que éstos resulten pares o impares. Si el conjunto de datos contiene un número impar de elementos, el del medio del arreglo es la mediana. Si hay un número par de observaciones, la mediana es el promedio de los dos elementos de en medio. Ejemplo: Supongamos que tenemosla siguiente serie de datos: 15, 17, 2, 11, 20, 25, 31, 28, 8, 4, 27, 23, 5. El número de elementos de esta serie es 13, por tanto estamos en la situación de número impar de observaciones. Primeramente debemos ordenar los datos. En este caso lo haremos de menor a mayor, nos queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31 Hemos mencionado que el valor mediano deja la mitad de los elementos por arriba de este punto y la otra mitad por debajo. Vamos a calcular entonces la posición mediana PMe donde N es el número de datos: En nuestro ejemplo: Ahora que conocemos la posición en que se encuentra nuestro valor mediano en la serie ordenada, vemos: Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 Valor 2 4 5 8 11 15 17 20 23 25 27 28 31 Entonces: Me = 17 Como puede observarse hay seis valores por debajo del 17 y seis valores por encima. Ejemplo: Supongamos que tenemos ahora la siguiente serie de datos: 15, 17, 2, 11, 20, 25, 31, 28, 8, 4, 2, 23, 5, 33. El número de elementos de esta serie es 14, por tanto estamos en la situación de número par de observaciones. Al igual que en el ejemplo anterior se deben primeramente ordenar los datos. Nos queda entonces: 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31, 33 Para calcular la posición mediana PMe utilizamos la misma fórmula anterior: Reemplazando: Ahora la posición no es un número entero, por lo que será un valor entre la posición 7 y la 8, es decir, entre el valor 17 y el valor 20. Si bien puede ser cualquier valor comprendido entre los mencionados, por convención se toma como mediana al valor intermedio. Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Valor 2 4 5 8 11 15 17 20 23 25 27 28 31 33 O sea: Obsérvese que: • La posición de la mediana se encuentra con la misma fórmula sea el número de datos par o impar. • El valor de la mediana 18,5 es un valor no perteneciente a la serie, tal como lo hemos tenido en cuenta en la definición dada de mediana. En rigor cualquier valor entre 17 y 20 es una mediana, ya que todos ellos dejan tantos valores por encima (siete) como valores por debajo (siete), el hecho que se tome un valor equidistante de 17 y 20 es puramente convencional. • Los valores extremos no influyen en el valor de la mediana. Así por ejemplo si sustituimos en la serie 2, 4, 5, 8, 11, 15, 17, 20, 23, 25, 27, 28, 31 el 2 inicial por 1 y el 31 final por 43, la mediana seguirá siendo la misma. Para determinar gráficamente la mediana debemos trazar la ojiva de frecuencia acumulada igual o menor y la ojiva de frecuencias acumuladas igual o mayor poniendo en las abscisas el número o marca de clase y las frecuencias acumuladas respectivas en las ordenadas. 300 250 200 150 100 FA=< FA=> 50 0 4,75 6,25 7,75 9,25 10,75 12,25 13,75 15,25 16,75 El valor que toma en el eje horizontal la intersección de las mismas coincide con el valor mediano. MODA La moda es otra medida de tendencia central y se la define como el valor de la observación que aparece con más frecuencia por tanto, no se calcula mediante proceso matemático. La moda es especialmente útil para describir los niveles de medición nominales y ordinarios. Ejemplo: A continuación se muestran los sueldos anuales expresados en miles de $ de Licenciados en HyS en algunas provincias. ¿Cuál es el valor modal de los sueldos? Provincia Sueldo Provincia Sueldo Provincia Sueldo Jujuy 35 Chaco 58 San Juan 50 Salta 49 Formosa 60 Mendoza 60 Tucumán 60 Misiones 60 La Pampa 71 Catamarca 60 Entre Ríos 40 Stgo del E 60 La Rioja 40 Corrientes 65 Neuquén 55 Una revisión de las cantidades revela que el sueldo anual de $60.000 aparece con mayor frecuencia que cualquier otra percepción. Por tanto, la moda es $60.000. Cabe destacar que se puede determinar la moda para datos de cualquiera de los niveles: nominal, ordinal, de intervalo y de razón. La moda también tiene la ventaja de no verse afectada por valores extremadamente altos o muy bajos. Al igual que la mediana, puede utilizarse como medida de tendencia central en distribuciones con clases de extremo abierto. Sin embargo, la moda también presenta algunas desventajas, las que hacen que sea utilizada con menor frecuencia que la media o la mediana. En muchos conjuntos de datos no hay valor modal porque ningún valor aparece más de una vez; puesto que cada valor es diferente se podría argumentar que cada valor es modal. Por el contrario, en ciertos conjuntos de datos hay más de una moda con lo que pueden denominarse bimodal, trimodal, etc según sean los valores que se repitan; aunque sería cuestionable utilizar los dos/tres valores de moda para representar la tendencia central de ese conjunto de datos. MEDIA GEOMÉTRICA La media geométrica es útil para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento. Se define como la raíz n-ésima del producto de los n valores: La media geométrica siempre será menor que o igual a (NUNCA mayor que) la media aritmética. Deben observar también que TODOS los valores de datos deben ser positivos para determinar la media geométrica. Ejemplo: Supongamos que recibimos un aumento de sueldo de 5% este año y recibiremos uno de 15% el año próximo. El aumento porcentual promedio es 9,886 y no 10 ¿por qué? Comencemos calculando la media geométrica recordando que un aumento del 5% en el sueldo es 1,05. Lo anterior se puede verificar suponiendo que el ingreso mensual inicia el $3000 y que recibió los dos aumentos: Aumento 1: $3000 * 0,05 = $150,00 Aumento 2: $3150 * 0,15 = $472,50 Total: $150 + $472,50 = $622,50 El equivalente a: $3000 * 0,09886 = 296,58 $3296,58 * 0,09886 = 325,90 Total: $622,48 redondeado a $622,50 Ejemplo: Las ganancias obtenidas por la constructora Atkins en cuatro proyectos recientes fueron 3%, 2%, 4% y 6% ¿cuál es la media geométrica de la ganancia? Un segundo uso de la media geométrica es encontrar aumentos porcentuales promedio en un intervalo de tiempo. La tasa de aumento se determina mediante la siguiente fórmula: Donde n es el número de periodos. Ejemplo: Supongamos que la población en un determinado Distrito era de 2 personas en 1990 y en 2000 eran 22 personas ¿Cuál fue la tasa de incremento porcentual anual promedio para el periodo? Hay 10 años de diferencia, por tanto n = 10. La fórmula quedaría entonces: El valor final es de 0,271 de modo que la tasa de aumento anual es del 27,1%. MEDIA, MEDIANA Y MODA PARA DATOS AGRUPADOS Con frecuencia los datos relacionados con ingresos, edades y demás, se agrupan y presentan en forma de una distribución de frecuencias. Generalmente, resulta imposible obtener los datos originales de modo que, si interesa un valor típico que represente a los datos, es necesario estimarlo basándose en la distribución de frecuencias. Media Aritmética Para determinar la media aritmética de datos agrupados se considera que las observaciones en cada clase están representadas por el punto medio o marca de clase. La media de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera: Donde: x es la media aritmética x* es el valor central o punto medio de cada clase f es la frecuencia de cada clase n es el número de frecuencias Ejemplo: Determinar la media aritmética del precio de venta de los vehículos resumidos a continuación y expresados en miles de pesos. Precio de Ventas f x* f * x* 120 hasta 150 8 13,5 108,0 150 hasta 180 23 16,5 379,5 180 hasta 210 17 19,5 331,5 210 hasta 240 18 22,5 405,0 240 hasta 270 8 25,5 204,0 270hasta 300 4 28,5 114,0 300 hasta 330 2 31,5 63,0 TOTAL 80 1605,0 Aplicando la fórmula para calcular la media aritmética para datos agrupados tenemos: Por tanto se concluye que la media del precio de venta de los vehículos es aproximadamente $20.100. La media de datos agrupados puede ser diferente de la media de los datos reales. El hecho de agrupar los datos produce una pérdida de información. Mediana Recordemos que la mediana se define como el valor debajo del cual se encuentra la mitad de los valores y arriba del cual se encuentra la otra mitad. Dado que agrupando los datos parte de la información ya no es identificable, no es posible determinar la mediana exacta; sin embargo, puede estimarse localizando la clase en la que se encuentra la mediana y realizando interpolaciones dentro de esa clase para obtener dicho valor. La razón de este enfoque es que se supone que los elementos de la clase en que se encuentra la mediana están espaciados de manera uniforme en toda la clase. Donde: L es el límite inferior de la clase que contiene a la mediana n es el número total de frecuencias f es la frecuencia de la clase que contiene a la mediana FA es el número acumulado de frecuencias en todas las clases que preceden a la clase que contiene a la mediana i es la amplitud (o anchura) de la clase en que se encuentra la mediana Ejemplo: Tomaremos los valores del ejemplo anterior Precio de Ventas f F A 120 hasta 150 8 8 150 hasta 180 23 3 1 180 hasta 210 17 4 8 210 hasta 240 18 6 6 240 hasta 270 8 7 4 270 hasta 300 4 7 8 300 hasta 330 2 8 0 TOTAL 80 Para obtener la mediana de los precios de venta se necesita localizar la observación número 40 (ya que hay en total 80 observaciones) en los datos ordenados de menor a mayor. La clase que contiene el precio de venta del vehículo número 40 es la equivalente a la que tiene la FA igual o mayor a 40, es decir, el intervalo que va desde 180 hasta 210. Recordemos que hay 17 vehículos en el intervalo mencionado. Supongamos que los precios de venta se distribuyen de manera uniforme entre los límites inferior (180) y superior (210) de la clase y aplicando la fórmula tendremos: La consideración en que se basa la aproximación de la mediana puede no ser correcta; en consecuencia, es más seguro decir que aproximadamente la mitad de los precios de venta son inferiores a 195,88 mil pesos y la otra mitad son mayores. Nuevamente, es probable que exista una diferencia entre la mediana estimada de datos agrupados y la mediana determinada a partir de datos sin agrupar. La mediana sólo se basa en las frecuencias y los límites de la clase que la contiene. Las clases de extremo abierto que se presentan en los extremos rara vez se necesitan; en consecuencia, se podrá determinar la mediana de una distribución de frecuencias que tenga extremos abiertos. Si se tienen frecuencias relativas (o porcentuales) en lugar de frecuencias absolutas, igualmente se puede determinar la mediana. Moda Recordemos que la moda se define como el valor que más se repite. Para datos agrupados es posible aproximar la moda usando el punto medio o marca de clase de aquella que contienen el mayor número de frecuencias de clase. Si el conjunto de datos tiene más de dos valores modales, a la distribución se denomina multimodal. En tales casos probablemente, no se considerarían ninguna de las modas como representativas del valor central de los datos. Posiciones relativas de la media, mediana y moda Vamos a considerar la siguiente figura: Se trata de una distribución simétrica en forma de campana, esto significa que la distribución tiene la misma forma en ambos lados del eje central. En una distribución simétrica, los valores modal, mediano y medio se localizan en el centro y siempre son iguales. En el caso de estudio, la moda, mediana y media son 20 años. Si un conjunto de datos no es simétrico, sino que es asimétrico o sesgado, entonces se modifica la relación entre las tres medidas. En una distribución con asimetría positiva o positivamente sesgada, es decir, hacia la derecha, la moda se encuentra en el punto más alto de la distribución, la mediana hacia la derecha de la moda y la media se encuentra todavía más hacia la derecha de la moda y la mediana. Por tanto, la moda es la menor de las tres medidas. En una distribución asimétrica negativa o negativamente sesgada, es decir, hacia la izquierda, la moda se encuentra en el punto más alto de la distribución, la mediana hacia la izquierda de aquella y la media se encuentra todavía más hacia la izquierda de la moda y la mediana. Por tanto, el valor modal es el mayor de los tres promedios. Cuando la población está sesgada positiva o negativamente, con frecuencia la mediana resulta ser la mejor medida de posición debido a que siempre se encuentra entre la moda y la media. La mediana no se ve influida por la frecuencia de aparición de un solo valor (como es el caso de la moda) ni se distorsiona con la presencia de valores extremos (como la media aritmética) MEDIDAS DE DISPERSIÓN Un promedio como la media o la mediana, solamente localiza el centro de los datos y esto es importante desde ese punto de vista, pero un promedio nada indica acerca de la diseminación de los datos. Vamos a continuar con medidas para describir el conjunto, concentrándonos en aquellas que refieren la dispersión o variabilidad de los datos considerados. Un valor pequeño en una medida de dispersión indica que los datos se acumulan estrechamente, por ejemplo, alrededor de la media aritmética; en consecuencia, el valor medio se considera representativo de los datos. Por el contrario, una medida de dispersión grande indicaría que la media no es confiable. Otra razón importante para estudiar la dispersión de un conjunto de datos es comparar la correspondiente a dos o más distribuciones. A continuación vamos a considerar varias medidas de dispersión como por ejemplo la amplitud de variación o rango que se basa en la localización de los valores más grande y más pequeño de un conjunto de datos; la desviación media, la varianza y la desviación estándar que se basan en las desviaciones respecto de la media. AMPLITUD/ALCANCE/RANGO Es la medida de dispersión más sencilla. Se trata de la diferencia entre el valor más grande y el más pequeño de un conjunto de datos. El rango es fácil de entender y de calcular, pero su utilidad como medida de dispersión es limitada ya que toma en cuenta solamente los valores extremos sin considerar ninguna otra observación del conjunto de datos, como consecuencia de esto, ignora la naturaleza de variación entre todas las demás observaciones y puede cambiar drásticamente de una muestra a la siguiente de una población dada. Debemos tener en cuenta que las distribuciones de extremos abiertos no tienen rango. DESVIACIÓN MEDIA ABSOLUTA Esta medida de dispersión considera todos los datos del conjunto observado y mide el monto medio en que varían los valores de una población o muestra, con respecto a su media. Donde x es el valor de cada observación x es la media aritmética de los valores n es el número de observaciones en la muestra La desviación media tiene dos ventajas: primero que utiliza en su cálculo todos los valores en la muestra y segundo que es fácil de comprender, ya que representa el promedio en que los valores se desvían con respecto a la media. Sin embargo, su principal desventaja es el uso de valores absolutos, ya que generalmente es difícil trabajar con ellos y en consecuencia, la desviación media no se utiliza con la misma frecuencia que las otras medidas de dispersión como por
Compartir