Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO APUNTES DE CLASE – 18 de Marzo de 2016- Versión preliminar Facultad de Ingeniería – Universidad Nacional de Jujuy ESTADISTICA - Introducción La ESTADÍSTICA actual es el resultado de la unión de dos disciplinas que evolucionaron independientemente hasta confluir en el siglo XIX: la primera es el cálculo de las probabilidades, que nace en el siglo XVII como teoría matemática de los juegos de azar; la segunda es la Estadística (o ciencia del estado, del latín Status) que estudia la descripción de datos, y tiene raíces más antiguas. La integración de ambas líneas de pensamiento da lugar a una ciencia que estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos matemáticos. La estadística actúa como disciplina puente entre los modelos matemáticos y los fenómenos reales. Un modelo matemático es una abstracción simplificada de una realidad más compleja y siempre existirá cierta discrepancia entre lo observado y lo previsto por el modelo. La Estadística proporciona una metodología para evaluar y juzgar estas discrepancias entre la realidad y la teoría. Por lo tanto su estudio es básico para todos aquellos que deseen trabajar en ciencia aplicada (sea ésta Tecnología, Economía o Sociología) que requiera el análisis de datos y el diseño de experimentos. La Estadística es la "tecnología" del método científico experimental (Mood 1972). Además de su papel instrumental, el estudio de la Estadística es importante para entender las posibilidades y limitaciones de la investigación experimental, para diferenciar las conclusiones que pueden obtenerse de los datos de las que carecen de base empírica y, en definitiva, para desarrollar un pensamiento crítico y antidogmático ante la realidad. Muchos ciudadanos ven a la Estadística con una gran desconfianza: para unos es la ciencia en la que las diferencias individuales quedan ocultas a través de las medias (que se traduce en el dicho popular: “La estadística es la ciencia que explica como si tú te comes dos pollos y yo ninguno, nos hemos comido uno cada uno por término medio" y en la famosa frase de Bernard Show: " si un hombre tiene la cabeza en un horno y los pies en una nevera, su cuerpo está a una temperatura media ideal"); para otros es la ciencia mediante la cual con gráficos, tasa de variación y porcentajes, se manipula la opinión desde la publicidad, la tecnología o la economía. Vivimos en la era de la Estadística y cada aspecto de la actividad humana es medido e interpretado en términos estadísticos. El único antídoto para esta posible manipulación y para participar efectivamente en la argumentación pública basada en cifras y datos, consustancial a la vida democrática, es un conocimiento básico de los métodos estadísticos. En este sentido, una formación en los conceptos estadísticos básicos es necesaria para cualquier ciudadano. UN POCO DE HISTORIA Históricamente se puede ubicar el crecimiento y desarrollo de la estadística moderna gracias a dos fenómenos separados: las necesidades de los gobiernos de recopilar información sobre sus ciudadanos y el desarrollo de las matemáticas en la teoría de la probabilidad. A lo largo de toda la historia registrada se han recopilado datos. En las civilizaciones egipcia, griega y romana, se obtenía información primordialmente con el propósito de cobrar impuestos y reclutar soldados. En la Edad Media, era frecuente que las instituciones eclesiásticas llevaran registros acerca ce nacimientos, muertes y matrimonios. En Estados Unidos se mantenían diversos registros durante los tiempos coloniales y a principios de 1790, la Constitución Federal de ese país implantó el levantamiento de un censo cada 10 años. En la actualidad esos datos se utilizan con diversos propósitos, incluyendo la distribución de curules en el Congreso y al asignación de fondos federales. En Argentina se realizan los censos cada 10 años, el último se realizó en el año 2001. ¿QUE ES LA ESTADÍSTICA MODERNA? El contenido de la Estadística Moderna incluye la recopilación, presentación y caracterización de la información a fin de que auxilie tanto en el análisis de los datos como en el proceso de toma de decisiones. La rama de la estadística que se dedica a la organización, síntesis y descripción de conjuntos de datos es la estadística descriptiva. CARACTERÍSTICAS DE LOS DATOS La estadística es la ciencia del razonamiento a partir de datos, luego una forma natural de iniciar nuestro estudio es examinando que se entiende por el término “dato”. Una unidad de observación es aquella sobre la cual se efectúan mediciones o se intenta clasificar en categorías. Ejemplos: personas, familias, viviendas, plantas, animales, tornillos, etc. En el proceso de observación se registra, para cada unidad de observación alguna característica y esta observación constituye un DATO. 2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Nota: Los experimentadores llaman ”unidades experimentales” a los objetos medidos, los estadísticos unidades de observación. Usaremos ambos términos en igual sentido. Ejemplo: Supongamos que nos interesa realizar un estudio sobre los ingresos ($) familiares en la provincia de Jujuy, es decir el objetivo de nuestro estudio es obtener información sobre el ingreso total anual de todas las familias de la provincia de Jujuy. (El último censo del 2010 registró 174.763 unidades familiares para la provincia de Jujuy). En este caso cada familia es una unidad de observación y el ingreso total de una familia constituye un dato. Una población consiste en la totalidad de observaciones (datos) en las cuales se está interesado. En nuestro ejemplo la población estará formada por los ingresos de la totalidad de familias de nuestra provincia. Nuestra población será finita y estará formada hoy por 174.763 datos. En general el fenómeno de interés se caracteriza por un conjunto de datos cuya obtención es o bien físicamente imposible o requeriría un gasto importante en tiempo y/o en dinero. Es decir 1) El estudio puede implicar la destrucción del elemento, como es el caso de ensayos destructivos: por ejemplo, estudiar la vida media de una partida de focos, o la tensión de rotura de cables. 2) Los elementos pueden existir conceptualmente (en nuestra mente), pero no en la realidad. Por ejemplo la población de piezas defectuosas que producirá una máquina. 3) Puede ser inviable económicamente estudiar todos los elementos. En estas ocasiones seleccionaremos para análisis una porción de la población a la que llamaremos muestra. En ocasiones se utilizan las palabras población y muestra” para representar los objetos o personas (unidades de observación) que se someten a medición. Luego, es importante distinguir entre los objetos medidos y las mediciones. Reiterando, las palabras población y muestra tienen dos significados, se pueden referir al conjunto de objetos (unidades de observación) sobre el cual se hacen las mediciones o se puede referir a las mediciones. En una situación específica el significado que se dé a estos términos será obvio por el contexto en que se empleen. Por ejemplo podemos leer en los periódicos que tal encuesta está basada en una muestra de 1823 personas. En este caso, es claro que las unidades experimentales que forman parte de la muestra son personas. Probablemente cada persona se entreviste con respecto a un tema particular y la respuesta de esta persona representa un dato. La colección de datos correspondientes a las personas representa una muestra de datos. La mayor parte del tiempo al hablar de población nos referiremos a las mediciones hechas sobre las unidades experimentales. Si ocasionalmente usamos el término para referirnos a una colección de unidades de observación, el contexto de la discusión aclarará el significado. Una tarea importante para el investigador es definir cuidadosay completamente la población antes de recolectar la muestra. La definición debe contener una especificación de las mediciones que se van a considerar y debe acompañarse con una descripción de las unidades de observación que serán incluidas, ya que estas dos componentes están interrelacionadas. Un parámetro es una medida que se calcula para describir una característica de una población completa. Un estadístico es una medida que se calcula para describir una característica de la muestra, a partir de solo de la muestra. Aunque los métodos de estadística descriptiva son importantes para presentar y caracterizar la información, lo que ha conducido a la amplia aplicación de la estadística en todos los campos de la investigación moderna ha sido el desarrollo de los métodos de inferencia estadística como resultado de la teoría de la probabilidad. INFERENCIA ESTADÍSTICA El ímpetu inicial para el planteamiento de las matemáticas de la teoría de la probabilidad provino de la investigación de los juegos de azar durante el Renacimiento. Se pueden localizar los fundamentos de la probabilidad hacia la mitad del siglo XVII, en la correspondencia intercambiada entre el matemático Pascal y el jugador Chevalier de Mere. Estos desarrollos y otros elaborados por matemáticos como Bernoulli, De Moivre y Gauss fueron los precursores de la materia de la inferencia estadística. Sin embargo no ha sido hasta principios del siglo XX que estadísticos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey iniciaron el desarrollo de los métodos de inferencia estadística, los cuales tienen una muy amplia aplicación en diversidad de campos en la actualidad. Se puede definir la INFERENCIA ESTADÍSTICA como los métodos que hacen posible la estimación de una característica de una población, o la toma de una decisión con respecto a una población, con base únicamente en resultados muestrales. 3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO La necesidad de los métodos de Inferencia Estadística proviene de la necesidad del muestreo. Al volverse muy grande una población, por lo general resulta demasiado costoso, lento y complicado obtener información de la población completa. Las decisiones con respecto a las características de la población se deben basar en la información contenida en una muestra de esa población. La teoría de la probabilidad proporciona el vínculo, determinando la probabilidad de que los resultados provenientes de la muestra reflejen los resultados que se obtendrían de la población. Se pueden observar con claridad estas ideas en el ejemplo de una encuesta política. Si el encuestador desea estimar el porcentaje de votos que un candidato obtendrá en una elección específica, no entrevistaría a cada uno de los millares (o inclusive millones) de votantes. Más bien, seleccionaría una muestra de los votantes. Con base en la muestra, obtendría conclusiones acerca de la población total de votantes. A estas conclusiones se les asociaría un planteamiento de probabilidad que especifique la esperanza o la confianza que se tiene de que los resultados de la muestra reflejen la verdadera conducta de los votantes de toda la población. 4CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO DESCRIPCION DE DATOS Descripción estadística de una variable Tipos de datos El máximo principio fundamental en estadística es el de la “variabilidad”. En efecto, si el mundo fuera perfectamente predecible y no mostrara variabilidad, no habría razón de estudiar estadística. Por ello nosotros también descubriremos la noción de variables y consideraremos diferentes clasificaciones de las variables. También exploraremos la noción de distribución de un conjunto de datos de una variable particular. Una variable es cualquier característica que varíe de una unidad experimental a otra en el conjunto de unidades experimentales (o de observación) de interés. Dado un conjunto de datos de una variable X, la estadística descriptiva estudia procedimientos para sintetizar la información que contienen. Los tipos de variables que consideraremos son: a) Variables cualitativas, categóricas o atributos: no toman valores numéricos y describen cualidades. Están definidas por las clases o categoría en que se dividen. (Los datos son atributos, características o propiedades categóricas que identifican o describen a un sujeto. Describen diferencias en tipo o clase indicando la presencia o ausencia de una característica o propiedad). Por ejemplo clasificar una pieza como aceptable o defectuosa, clasificar a las personas según el sexo: femenino o masculino, clasificar a las personas por la nacionalidad, categoría de alumno de la UNJu: activo pleno, activo simple o pasi- vo, etc. A las dos primeras variables se las denomina dicotómicas pues solo tienen dos categorías ex- cluyentes. b) Variables numéricas o cuantitativas: Toman valores numéricos (edad, altura, precio de un producto, ingresos anuales, etc.). Las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden tomar en discretas y continuas. Una variable es discreta si su conjunto de valores posibles es finito o se puede enumerar en una suce- sión infinita (una en la que hay un primer número, un segundo número, etc.). Corresponden en general a contar el número de veces que ocurre un suceso. Por ejemplo cantidad de envases defectuosos pro- ducidos por día en una fábrica, cantidad de hijos por familia en una comunidad determinada, cantidad de alumnos activos plenos de la Facultad de Ingeniería de la UNJu, etc. Una variable es continua si toma valores en intervalo de la recta real, corresponden a medir magnitu- des continuas (tiempo, longitud, etc.). Por ejemplo el peso (en gramos) de los recién nacidos en el Hos- pital San Roque en el mes de enero de 2016. Las variables numéricas discretas producen datos numéricos que, por lo general, surgen de un proceso de conteo; en tanto que las variables numéricas continuas toman valores numéricos que surgen de un proceso de medición. Escalas de Medición En su sentido más amplio, los datos recopilados “se miden” de alguna manera. Por ejemplo hasta los datos cuantitativos discretos pueden considerarse como producto de un proceso de “medición mediante conteo” Los cuatro niveles de medición ampliamente reconocidos son del más débil al más fuerte: escala nominal, escala ordinal, escala de intervalo y escala de razón. Los datos que se obtienen para una variable cualitativa se miden en una escala ya sea nominal u ordinal. Escala Nominal: Si los datos observados se clasifican en distintas categorías que no implican orden se tiene un nivel de medición nominal. Por ejemplo en el caso de la variable sexo, si una persona es hombre, no puede ser mujer. No hay cantidad de género, solo la condición de ser hombre o mujer Otros ejemplos son ocupación, religión, color de cabello, partido político de una persona. No existe orden entre las categorías lo cual no significa que no se puedan identificar. Los números o símbolos asignados a los objetos no tienen más significado cuantitativo que indicar la presencia o ausencia del atributo o característica bajo investigación. La escala nominal es la forma más débil de medición. Escala Ordinal: Si los datos que se observan se clasifican en categorías distintas en las que existe algún orden, se obtiene un nivel de medición ordinal. Las variables pueden ser ordenadas o clasificadas con escalas ordinales en relación a la cantidad del atributo poseído. Cada categoría puede ser comparada con otra en términos de una relación de “mayor que” o “menor que”. Ejemplo: Nivel de educación alcanzado por un determinado grupo de personas: la persona que tiene 6to grado está “más capacitada” que la que tiene 2do grado. La categoría de los hoteles se mide por estrellas, desde 1 estrella hasta 5 estrellas. El Hotel que tiene 3 5CATEDRA PROBABILIDADESY ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO estrellas tiene “menos categoría que” el que tiene 4 estrellas. La escala ordinal es una forma un tanto más fuerte de medición, porque dice que una observación que se clasifica en una categoría posee “más” la propiedad que se mide que alguna otra observación que se registra en otra categoría. Por lo general se supone que los datos que se obtienen para una variable cuantitativa se miden en escalas de intervalo o de razón, que constituyen los niveles más elevados de medición porque permiten discernir no sólo cuál de los valores es el mayor, sino por cuánto. Escalas de Intervalo y de razón: Las escalas de intervalo y de razón proporcionan el nivel más alto de medida de precisión, permitiendo realizar casi todas las operaciones matemáticas. Estas dos escalas tienen unidades constantes de medida, de tal forma que las diferencias entre dos puntos adyacentes de cualquier parte de la escala son iguales. La única diferencia real entre las escalas de intervalo y las de razón es que las de intervalo tienen un punto cero arbitrario, mientras que las escalas de razón tienen un punto cero absoluto. Las escalas de intervalo más familiares son las escalas de temperatura Celsius y Fahrenheit. Ambas tienen un punto cero arbitrario, pero ese cero no indica una cantidad cero o ausencia de temperatura, dado que podemos registrar temperaturas por debajo del punto cero de esa escala. Por lo tanto, no es posible decir que un valor cualquiera situado en un intervalo de la escala es un múltiplo de cualquier otro punto de la escala. Por ejemplo, si un día se registra 30°C, no se puede decir que sea dos veces más caluroso que un día con 15°C, porque sabemos que 30°C en una escala diferente como Fahrenheit, equivale a 86°F. De la misma forma, 15°C en Fahrenheit corresponden a 59°F. Aunque 30°C es dos veces 15°C, no se puede afirmar que el calor de 86°F sea dos veces el calor de 59°F porque usando diferentes escalas el calor no es dos veces mayor, esto es, 59°F × 2 ≠ 86°F. Recuerden que la relación entre ambas escalas es °F = (9/5)°C + 32. Las escalas de razón representan la forma superior de medidas de precisión dado que poseen las ventajas de todas las escalas inferiores más un punto de cero absoluto. Con las medidas de escala de razón se permiten todas las operaciones matemáticas. Ejemplo: cuando la temperatura se mide a partir de un cero absoluto, como en la escala Kelvin, la temperatura está dada en una escala de razón, puesto que, si se duplica la temperatura, en realidad se duplica la velocidad promedio de las moléculas que componen la sustancia. Otro ejemplo es el peso que tenemos en las balanzas comunes utilizan estas escalas, dado que tienen un punto de cero absoluto y que pueden ser expresados en términos de múltiplos cuando se relaciona un punto con otro de la escala; por ejemplo 100 kilos es dos veces más pesado que 50 kilos. ORGANIZACIÓN Y RESUMEN DE DATOS ORGANIZACIÓN Y RESUMEN DE DATOS CATEGÓRICOS En un estudio del mercado laboral de nuestro país, nos interesa saber las distintas categorías ocupacionales de los habitantes que trabajan. Podemos obtener información en el INDEC (Instituto Nacional de Estadísticas y Censos de la República Argentina) respecto al último censo realizado en el año 2010. La presentación de datos cualitativos suele hacerse indicando las clases o atributos o categorías consideradas y sus respectivas frecuencias de aparición como indica la TABLA 1. Tabla 1 CATEGORÍA OCUPACIONAL Número de habitantes Trabajador familiar 561.078 Patrón 1.190.944 Trabajador por cuenta propia 3.346.107 Obrero o empleado 12.947.286 Total de población ocupada 18.045.415 La variable es la “categoría ocupacional en el año 2010 de cada argentino de 14 o más años”. El trabajo lo hacemos sobre la variable “categoría ocupacional” y no sobre la persona, pues sobre cada persona hay infinidad de datos: edad, sexo, nivel de educación, provincia en la que reside, etc. Las personas son las portadoras de los datos mientras que la categoría ocupacional respectivas constituyen los datos. La estadística no estudia los portadores sino los datos. En la primera columna de la tabla 1 están las categorías consideradas por el INDEC. En la segunda columna se registra el número de personas que se clasifican en cada categoría, es decir su frecuencia (o frecuencia absoluta). Además de las frecuencias absolutas, se pueden calcular las frecuencias relativas. La frecuencia relativa de una categoría es la proporción de veces que ocurre dicha categoría y se calcula como el cociente entre la frecuencia absoluta correspondiente a esa categoría dividida por el número total de observaciones N. La suma total de las frecuencias relativas es igual a 1. 6CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Simbolizaremos la frecuencia absoluta correspondiente a la categoría i con fi , luego la frecuencia relativa se calculará como fi / N. Las frecuencias relativas se expresan como porcentajes al multiplicarlas por 100. En el ejemplo se tiene: Tabla 2: Clasificación de la Población de la Argentina de 14 años o más ocupada por categoría ocupacional. Año 2010 CATEGORÍA OCUPACIONAL Número de habitantes Proporción de habitantes Porcentaje de habitantes Trabajador familiar 561.078 0,031 3,8% Patrón 1.190.944 0,066 6,2% Trabajador por cuenta propia 3.346.107 0,185 21,3% Obrero o empleado 12.947.286 0,717 68,6% Total de población ocupada 18.045.415 1,000 100,0% FUENTE: INDEC.Censo Nacional de Población, Hogares y Vivienda 2010. La tabla que recoge las categorías de la variable con sus frecuencias respectivas se denomina Distribución de frecuencias de la variable. Resumiendo, se presenta en la Tabla 3 la distribución de frecuencias de una variable cualitativa X Tabla 3 Categorías o atributos Frecuencias Frecuencias relativas Frecuencias relativas (en %) A1 f1 f1 /N 100 f1 /N % A2 f2 f2/N 100 f2/N % A3 f3 f3/N 100 f3/N % … … … … Ak fk fk/N 100 fk/N % N 1 100% A1, A2, … , Ak, son las categorías f1, f2, …, fk son las frecuencias absolutas N el tamaño del lote de datos (que puede ser una población o una muestra) es la cantidad de observaciones. K es el número de categorías. Los subíndices “i” en las categorías Ai solo identifican las categorías, no las ordenan. Las frecuencias eventualmente pueden ser 0. No pueden ser negativas ni fraccionarias. REPRESENTACIONES GRÁFICAS EL GRÁFICO DE BARRAS Las Distribuciones de Frecuencias de Datos Categóricos pueden representarse gráficamente por medio de un Gráfico de Barras. Un gráfico de barras es fácil de construir y puede ser interpretado fácilmente por personas que no tienen una mente orientada hacia las gráficas. El gráfico presenta las posibles categorías y sus frecuencias de aparición 7CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Figura 1 Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2010. Pueden notarse varios aspectos en los gráficos de barras: Las magnitudes de las frecuencias se muestran mediante las longitudes de las diferentes barras, las que se han trazado con referencia a una escala horizontal. Se deben incluir las escalas y algunas indicaciones, ya que ayudan a la lectura de las gráficas. Los valores de la escala se muestran en la parte superior y también en la parte inferior. Se pueden unir o no me- diante líneas constituyendo una retícula. Las barras se identifican mediante títulos en el talón de la gráfica. El talón debe mantenerse tan pequeño como sea posible, con el objeto de dejar espacio para la superficie de trazado de la gráfica. Las barras difieren solamente en longitud y no en ancho. Se ha dejado un espacio entre las barras para que sea fácil identificarla mediante su título. Las barras han sido ordenadas por magnitud para facilitar el análisis.El orden puede ser creciente o decreciente. Si se incluye una categoría "todas las demás" u "otras", generalmente se la muestra en la barra más baja, aún cuando la posición más baja pueda no ser la apropiada, de acuerdo con la ordenación por magnitudes, esto resulta apropiado, puesto que este tipo de categorías casi siempre es una recopila- ción de clases relativamente poco importantes. El título y las notas de pié de página o sobre las fuentes, cuando sean necesarias, forman parte del gráfico. Para respuestas categóricas las barras se diseñan en forma horizontal (para respuestas numéricas, en forma vertical). Importancia de la línea cero: Una gráfica que ha sido diseñada para mostrar magnitudes absolutas debe tener absolutamente definida la línea cero y una escala ininterrumpida. Es decir debe iniciarse en cero y continuar sin ninguna interrupción. Esto es cierto no solamente para las gráficas de barras sino también para cualquier otro tipo de gráficas en las cuales deben compararse magnitudes absolutas. La impresión percibida si se comienza por algún valor mayor que cero cambia totalmente la información contenida en el lote de datos 8CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO FIGURA 2 EL GRÁFICO DE TORTAS Para dibujar gráficos de torta se puede utilizar un compás o un transportador para dibujar el círculo y definir los sectores convenientes. Como el círculo tiene 360° se puede utilizar el transportador para dividir la torta en rebanadas en base a los porcentajes deseados. Por ejemplo, en la Figura 3, el 18 % de los argentinos que trabajaban en 2010 son “trabajadores por cuenta propia”. Por ello, se calcula el 18% de 360°; para ello se multiplica 360° × 0,18 = 64,8° y se marcan los aproximadamente 65°resultantes con el transportador. Después se conectan los puntos correspondientes con el centro, formando una rebanada que incluye el 18% del área. Siguiendo este procedimiento se puede construir la gráfica completa. FIGURA 3 Se presenta también la gráfica de tortas correspondiente a los resultados del Censo 2001. 9CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO EL GRÁFICO DE PUNTOS Cuando se construya el gráfico de puntos se sugiere lo siguiente. 1. Las líneas de puntos se deben acomodar en forma horizontal, tal como se observa en la figura 4, adyacentes a las diversas categorías de la variable que se estudia. 2. El espacio entre las líneas punteadas (es decir, entre categorías) debe ser igual. 3. Se deben incluir las escalas horizontales con el conteo de la frecuencia en la parte baja del cuadro; o, por otra parte, se deben incluir en la parte superior de los porcentajes. Los ejes se deben identificar en forma clara. 4. La gráfica debe tener Título. Si son necesarias, las notas de pié de página y las fuentes deben aparecer en la gráfica, junto con cualquier “clave” necesaria para su interpretación. Figura 4 Trabajador familiar 4% Patrón 6% Trabajador por cuenta propia 21% Obrero o empleado 69% Población de 14 años o más ocupada, por categoría ocupacional. Año 2001 Total de población ocupada: 10.913.187 personas Fuente: INDEC. Censo Nacional de Población, Hogares y Viviendas 2001. 10CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO El propósito de las tres gráficas es mostrar los datos en forma precisa y clara. Estas figuras pretenden mostrar la misma información respecto a las categorías de empleo de los trabajadores argentinos de 14 o más años. En particular algunas investigaciones recientes sobre percepción de gráficos, sugieren que la gráfica de puntos presenta la información de la mejor manera, en tanto que la gráfica de torta es el tipo más deficiente. No obstante, la selección de una gráfica específica sigue siendo una actividad muy subjetiva y, con frecuencia, depende de las preferencias estéticas del investigador. ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS NO AGRUPADOS Todo lo planteado hasta aquí se aplica para presentar datos cuantitativos discretos cuando el número de valores posibles es pequeño (menos de 10) Ejercicio realizado en clase: Siendo de interés conocer el número de hermanos que componen las familias de los alumnos que cursan Probabilidad y Estadística, en distintos años, se les pidió a los alumnos que anotaran en el pizarrón el número de hijos que habían tenido sus respectivas madres, esto es el número de hermanos en cada una de sus familias. Los resultados que a continuación se indican corresponden al año 2007: N° de Hijos N° de familias 1 / / / / / 2 / / / / / / / / / / / / / / / / / 3 / / / / / / / / / / / / / / / 4 / / / / / / / / / / / / / / / / / / / / / 5 / / / / / / / / / / / / / / 6 / / 7 / / / 8 / / Esta información también puede ser resumida en una tabla de frecuencias Tabla 4: DISTRIBUCIÓN DEL N° DE HIJOS DE LAS FAMILIAS DE LOS ALUMNOS QUE CURSARON ESTADÍSTICA EN LA FACULTAD DE INGENIERÍA DE LA UNJU EN EL AÑO 2007 N° de Hijos N° de familias Proporción de familias Porcentaje de familias Porcentaje acumulado 1 5 0,06 6% 6% 2 17 0,22 22% 28% 3 14 0,18 18% 46% 4 21 0,27 27% 73% 5 13 0,17 17% 90% 6 2 0,03 3% 93% 7 3 0,04 4% 97% 8 2 0,03 3% 100% N = 77 1,00 100% Fuente: Encuesta realizada en clase de teoría del 04/04/07 Una tabla de frecuencias para variables numéricas es una tabla que asocia cada valor de la variable, con la cantidad de veces que se observa dicho valor (frecuencia absoluta). También se incorporan las frecuencias relativas y las relativas porcentuales siguiendo el procedimiento especificado anteriormente. Otra frecuencia importante para describir un conjunto es la frecuencia acumulada. La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (absolutas o relativas) de los valores menores o iguales que el valor que se está considerando. Por ejemplo, en la tabla 4 se lee - en la línea resaltada - que el 73% de las familias tienen un número de hijos “menor o igual” a 4. Se presenta una gráfica de barras verticales entre las que no se ha dejado espacio entre las barras. Posterior- mente se verá la utilidad de obrar así. 11CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Figura 5 FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu El gráfico que se presenta a continuación se conoce como gráfico de bastones. La frecuencia se representa de esta manera pues entre dos valores sucesivos de la variable, no existen valores intermedios. Figura 6 FUENTE: Encuesta realizada en clase de Estadística en Abril 2007- Facultad de Ingeniería-UNJu El gráfico permite rápidamente vizualizar donde se concentran los datos y como se dispersan. Puede concluirse que la mayoría de las familias, el 67%, tienen de 2 a 5 hijos. Hay pocas familias con muchos hijos, el 10%, y solo el 6% con un hijo. El número más frecuente de hijos es 4, hay 21 familias con 4 hijos. ORGANIZACIÓN Y RESUMEN DE DATOS NUMÉRICOS AGRUPADOS Distribución de Frecuencias para DATOS AGRUPADOS Cuando el número de valores posibles de una variable DISCRETA sea grande o cuando la variable sea CONTINUA conviene agrupar los datos en clases o categorías. Para ello se acomodan los datos en grupos de clases, es decir categorías, dividiendo en forma conveniente las observaciones. A este arreglo de datos en forma de tabla se le denomina “Distribución de frecuencias”, al igual que para datos categóricos y numéricos discretos (cuando el número de valores posibles es pequeño). Una Distribución de Frecuencias para Datos Agrupados es una tabla resumen en la que se disponen los datos divididos en grupos ordenados numéricamente que se denominan clases o categorías. Cuando se agrupan datos, o se los condensa en tablas de Distribución de Frecuencias, es más manejabley significativo el proceso de análisis e interpretación de datos. En esa forma resumida es muy sencillo aproximar las principales características de los datos y de esta manera se compensa el hecho de que al agrupar los datos se pierde alguna información inicial referente a las observaciones individuales. Al construir una tabla de Distribución de Frecuencias, se debe prestar atención a lo siguiente: 12CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Seleccionar el número adecuado de clases para cada tabla. Obtener un intervalo de clase apropiado para cada clase. Seleccionar los límites de las clases que definen los intervalos, de manera que cada observación se clasifique sin ambigüedad en una sola clase. Son muchas las formas de seleccionar los límites de las clases. Cada paquete estadístico usa para ello su propio algoritmo, el cual difiere de un paquete a otro. Si se usan varios paquetes para graficar un conjunto de datos dado con su técnica por defecto, los histogramas pueden variar levemente en el número de clases seleccionadas y en los valores de los límites de las clases. La forma general del histograma sería la misma en todos ellos. Amplitud de los intervalos Si los intervalos de clase son de la misma longitud, ¿Cómo elegir la amplitud h de los intervalos de clase? Hay una vieja fórmula para ello; si N es el tamaño del lote, se trata de hallar el número de intervalos k que satisfaga la relación N ~ 2 ( k - 1) De esta expresión resulta k ~ 1 + 3,322 log N Fórmula de Sturges (1) Redondeando al valor más próximo obtenemos un valor de k. La respuesta que se obtiene con la Regla de Sturges no es definitiva y se debe considerar únicamente como una guía. El número de intervalos de clase especificado por la regla deberá incrementarse o disminuirse por conveniencia y para lograr una presentación más clara. Es decir, no hay reglas invariables en relación con el número de clases o la elección de las clases. Entre 5 y 20 clases son satisfactorias para la mayor parte de conjuntos de datos. En general, mientras más grande sea el número de observaciones en un conjunto de datos, se deben usar más clases. Hay también una regla empírica para determinar el número de intervalos de clase Número de observaciones en un conjunto de datos Número de Clases Menos de 25 5 o 6 25 – 50 7 –14 Más de 50 15 - 20 Generalmente, este procedimiento deja una amplitud que no es conveniente para su uso y nuevamente se debe utilizar el sentido común para elegir la amplitud -normalmente cercana a la que se obtiene con la ecuación (1)- que sea más conveniente-. Una vez determinado el número de clases, determinamos la amplitud h de cada clase, simbólicamente h = RANGO / k , esto es k Xx h MÍNIMOMÁXIMO (2) RANGO: es la distancia entre el valor máximo y el valor mínimo. Límites de las Clases - Marcas de clases Otro problema más es la selección de los límites de las clases. Los cálculos a partir de una distribución de frecuencias, a menudo hacen uso del punto medio de cada clase para representar todos los elementos contenidos en la misma. El punto medio de una clase es el valor intermedio entre los dos límites de la clase y se conoce como “marca de clase”. Así pues, el punto medio queda determinado por los dos límites de la clase. Con el objeto de efectuar los cálculos que discutiremos en el próximo tema con tanta precisión como sea posible, generalmente se sugiere que los límites de clase se seleccionen en forma tal que el punto medio de cada clase sea aproximadamente igual al promedio aritmético de los elementos que caen dentro de esa clase. En la mayoría de los casos esa condición se satisfará muy bien aún cuando se dé poca atención a este principio al establecer los límites. Al establecer los límites de la clase debemos tener cuidado de no caer en ambigüedades. Por ejemplo en el caso de rentas, los límites $30-$40, $40-$50 no son claros, debido a que no podemos estar seguros en cual de las dos clases se incluye $40. Los límites $30-$39, $40-$49 son claros, previsto que los datos se expresen solamente en pesos. Cuando éste es el caso, el punto medio de la primera clase sería [(30 + 39)/2] = $34,50. Y así sucesivamente. Si los datos se expresan hasta los centavos, los límites anteriores no resultarán claros. Sin embargo, si se establecen los límites en la forma de $30,00-$39,99, $40,00-$49,99, no habrá duda de saber en que clase cae 13CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO cada elemento. En este caso, el punto medio de la primera clase es [(30,00 + 39,99)/2] = $34,995, o para cualquier propósito $35, y así sucesivamente. Los límites $30-menos de $40, $40-menos de $50 son claros; sin embargo, sin información adicional no es posible determinar los puntos medios con precisión. Si no se proporciona información adicional, el punto medio de la primera clase se considera como [(30 + 40)/2] = $35, y así sucesivamente. Intervalos de Clase Definimos cada clase o categoría mediante un intervalo de clase expresado en la forma x i - h / 2 , x i + h / 2 El punto medio xi es la marca de clase. Como ya dijimos este valor es el centro del intervalo que define la clase y es el valor numérico representativo de los datos de la clase. x i - h / 2 es el límite inferior de la clase y x i + h / 2 es el límite superior de la clase. Una manera de determinar la clase definida por x i sería: Desde xi - h/2 inclusive, hasta menos de xi+ h/2, esto es, el intervalo [x i - h / 2 , x i + h / 2) Diremos que el dato v j pertenece a esta clase si y solo si x i - h/2 v j < x i + h/2 . Como vemos, en cada intervalo de clase se incluye al límite inferior. Ejemplo: Los contenidos de nicotina, en miligramos, de 40 cigarrillos de una cierta marca se registraron de la siguiente manera: 1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,24 1,58 2,03 1,70 2,17 2,55 2,11 1,86 1,90 1,68 1,51 1,64 0,72 1,69 1,85 1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69 Se desea obtener conclusiones sobre la distribución de los datos. En primer lugar determinamos el número k de intervalos de clase. Aplicamos la fórmula de Sturges k ≈ 1 + 3,322 log 40 = 6,322 ,redondeamos k 7 clases Teniendo en cuenta que xmáximo = 2,55 y el xmínimo = 0,72, tomamos la amplitud de cada intervalo h, usando la ecuación (2) : 30,0261,0 7 72,055,2 h La distribución de frecuencias para el ejemplo se presenta en la Tabla 5. Tabla 5: Distribución de frecuencias del contenido de nicotina en 40 cigarrillos Contenido de Nicotina (en mg) Marca de Clase N° de cigarrillos Proporción de cigarrillos Porcentaje de cigarrillos [0,60 , 0,90) 0,75 2 0,050 5,0% [0,90 , 1,20) 1,05 1 0,025 2,5% [1,20 , 1,50) 1,35 4 0,100 10,0% [1,50 , 1,80) 1,65 15 0,375 37,5% [1,80 , 2,10) 1,95 11 0,275 27,5% [2,10 , 2,40) 2,25 5 0,125 12,5% [2,40 , 2,70) 2,55 2 0,050 5,0% N = 40 1,000 100,0% Se clasificaron las observaciones en cada una de las clases y se determinaron así las frecuencias absolutas. Las frecuencias relativas nos da la proporción de observaciones en cada clase. Nota: Otra alternativa al definir los límites de las clases para garantizar que ningún dato caiga en un límite de clase, es definir los límites de manera tal que incluyan un decimal más que los datos. La información que proporciona una distribución de frecuencias para este tipo de agrupamiento de datos es más fácil de entender si se presenta en forma gráfica mediante un diagrama que se llama Histograma y es debido a Karl Pearson. HISTOGRAMA Un histograma es un conjunto de rectángulos cada uno de los cuales representaun intervalo de agrupación o clase. La base de cada rectángulo coincide con el intervalo de clase, y la altura se determina de manera que su área sea proporcional a la frecuencia respectiva (o frecuencia relativa o frecuencia relativa porcentual) de cada clase. 14CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO La variable de interés se grafica sobre el eje horizontal, el eje vertical representa el número, proporción o porcentaje de observaciones para cada intervalo de clase, dependiendo de si el histograma específico es, respectivamente, un histograma de frecuencias, un histograma de frecuencias relativas o un histograma porcentual. Se presenta un histograma de frecuencia asociado a la distribución de frecuencias de la Tabla 5. Figura 7 contenido nicotina (mg) 2,4 - 2,72,1 - 2,41,8 - 2,11,5 - 1,81,2 - 1,5,9 - 1,2,6 - ,9 Histograma de los contenidos de nicotina en 40 cigarrillos N º d e c ig a rr ill o s 16 14 12 10 8 6 4 2 0 2 5 11 15 4 1 2 De la tabla y el histograma puede concluirse que los contenidos de nicotina de los 40 cigarrillos se concentran entre los 1,5 miligramos y 2,1 miligramos, más precisamente el 65% de las observaciones centrales, toman valores de 1,5 mg hasta menos de 2,1 mg. Solo dos cigarrillos (un 5%) tienen un contenido de nicotina superior a 2,4 mg. Los histogramas pueden proporcionar mucha información respecto a la estructura de los datos. La Figura 8 presenta varios casos típicos. Figura 8(a) El histograma (a) presenta una distribución asimétrica que es típica de los datos económicos, y en general de mediciones de renta, población, consumo de electricidad,tamaño de empresas, etc Figura 8(b) 15CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO El Histograma (b) muestra una distribución simétrica que aparece en muchos procesos de fabricación al estudiar la distribución de una característica medible. Figura 8(c) Figura 8(d) El histograma (c) aparece al mezclar elementos de varias poblaciones, cada uno de ellos con una distribución tipo (b), lo que produce una distribución con gran variabilidad. En el límite, si las distribuciones individuales están muy separadas, podemos encontrarnos una situación como la descrita por el histograma (d) donde se apuntan más claramente ambas distribuciones (por ejemplo resistencia de piezas de distintos materiales en cuanto a dureza). Figura 8(e) El caso (e) presenta una distribución truncada, que aparecerá, por ejemplo, al someter a piezas a un control de calidad que tiene límite de especificaciones A y B Figura 8(f) Finalmente la distribución (f) es muy asimétrica y surge al estudiar tiempos entre averías, entre llegadas, entre accidentes, etc. Sin embargo, cuando se comparan dos o más conjuntos de datos, no es posible construir los diversos histogramas en la misma gráfica, porque la superposición de los rectángulos dificulta su interpretación. Para estos casos en necesario construir polígonos porcentuales o de frecuencias relativas. POLÍGONOS Al igual que con los histogramas, cuando se elaboran polígonos se grafica sobre el eje horizontal la variable de interés, en tanto que el eje vertical representa o simboliza el número, proporción o porcentaje de observaciones de cada intervalo de clase. El polígono porcentual se forma haciendo que el punto medio de cada clase represente los datos de esa clase y después conectando la secuencia de sus respectivos porcentajes de clase. En la siguiente Figura 9 se muestra el polígono porcentual de los contenidos de nicotina de 40 cigarrillos. 2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO Construcción de polígonos Se debe tener presente que el polígono es una representación de la forma de una distribución particular. Como el área bajo la distribución porcentual (la totalidad de la curva) debe ser del 100%, es necesario conectar los puntos medios primero y último con el eje horizontal, para abarcar el área total de la distribución observada. En la figura 9 se logra esto conectando el primer punto medio observado con el punto medio de una clase “ficticiamente precedente” 0,45 mg que tiene 0,0% de observaciones y conectando el último punto medio observado con el punto medio de una clase “ficticiamente siguiente” 2,85 mg que tiene 0,0% de observaciones. Se ilustra el procedimiento para construir el polígono de frecuencia de la Figura 9. FIGURA 9 Nótese también que cuando se construyen polígonos o histogramas, el eje vertical debe mostrar el cero verdadero u “origen” para no distorsionar o representar equivocadamente el tipo de datos. Sin embargo, no es necesario que el eje horizontal especifique el punto cero de la variable de interés. Por razones de estética el rango de la variable debe constituir la principal porción de la gráfica y, cuando no se incluye el cero, resulta apropiado incluir “fracturas” en el eje. Como los puntos medios consecutivos se conectan mediante segmentos de recta, en ocasiones la apariencia del polígono es “irregular”. Si se acercaran más los límites exactos de clase de las distribución de frecuencia ( y, de esta manera se aumentara el número de clases de la distribución) se “suavizaría” la irregularidad de las líneas. CURVAS DE FRECUENCIA SUAVIZADAS Los datos recogidos pueden considerarse usualmente como pertenecientes a una muestra de una población grande. Ya que son posibles muchas observaciones sobre esa población, es teóricamente posible (para datos continuos) escoger intervalos de clase muy pequeños y tener todavía números razonables de observaciones en cada clase. Así que cabe esperar que el polígono de frecuencias o el polígono de frecuencias relativas para una gran población tenga tantos pequeños segmentos que aparezca como casi una curva continua a las que nos referiremos como “curva de frecuencia o curva de frecuencias relativas” respectivamente. Es razonable esperar que dichas curvas teóricas provengan de suavizar los polígonos de frecuencias o los polígonos de frecuencias relativas de la muestra, la aproximación es tanto más exacta conforme aumenta el tamaño de la muestra. Por esta razón una curva de frecuencia se cita a veces como un “polígono de frecuencias suavizado” Por ejemplo si el histograma de la Figura 8-a basara en una muestra suficientemente grande podría suavizarse el polígono de frecuencia y se obtendría el siguiente gráfico. Figura 10 : Polígono de Frecuencias Suavizado de las Rentas Familiares 1CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO DISTRIBUCIONES ACUMULADAS Y POLIGONOS ACUMULADOS Otros métodos útiles de presentación de datos que facilitan el análisis y la interpretación, son las tablas de distribuciones acumuladas y las gráficas de polígonos acumulados. Ambas se pueden elaborar a partir de la tabla de distribución de frecuencias relativas o de frecuencias relativas porcentuales. Una tabla de distribución porcentual acumulada se construye “añadiendo” un intervalo de clase extra al final Para el ejemplo de los contenidos de nicotina se calculan los porcentajes acumulados en la columna del “menor que”, determinando el porcentaje de las observaciones que son inferiores a cada uno de los límites inferiores. Tabla 6: Distribución Porcentual de los contenidos de nicotina para 40 cigarrillos Contenido de Nicotina (en mg) Porcentaje de cigarrillos Porcentaje de cigarrillos con contenido de nicotina "menor que" el límite inferior del intervalo de clase. [0,60 , 0,90) 5,0% 0,0% [0,90 , 1,20) 2,5% 5,0% [1,20 , 1,50) 10,0% 7,5% [1,50 , 1,80) 37,5% 17,5% [1,80 , 2,10) 27,5% 55,0% [2,10 , 2,40) 12,5% 82,5% [2,40 , 2,70) 5,0% 95,0% [2,70 ,3,00) 0,0% 100,0% Así se observa que el 0,0% de los cigarrillos tienen un contenido de nicotinainferior a 0,60 mg, el 5% son inferiores a 0,90 mg, y así sucesivamente, hasta que el total (100,0%) de los cigarrillos tienen un contenido de nicotina inferior a 2,70 mg. POLÍGONO PORCENTUAL ACUMULADO Para construir un polígono porcentual acumulado (al que también se denomina OJIVA) se observa que, nuevamente la variable de interés se grafica sobre el eje horizontal, en tanto que los porcentajes acumulados de la columna “menor que”) se grafican sobre el eje vertical. En cada uno de los límites inferiores se traza el valor del porcentaje correspondiente (acumulado), a partir de la lista que aparece en la distribución porcentual acumulada. Después se conectan esos puntos con segmentos de línea recta. A continuación se presenta la tabla 7 que permite construir en forma simple el polígono porcentual acumulado (ojiva) para los datos de la nicotina que se presenta en la Figura 11. Tabla 7 Contenido de Nicotina (en mg) Porcentaje de cigarrillos Menor que 0,6 mg 0,0% Menor que 0,9 mg 5,0% Menor que 1,2 mg 7,5% Menor que 1,5 mg 17,5% Menor que 1,8 mg 55,0% Menor que 2,1 mg 82,5% Menor que 2,4 mg 95,0% Menor que 2,7 mg 100,0% FIGURA 11: Ojiva del contenido de nicotina de 40 cigarrillos 2CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO CONSTRUCCION DE UN HISTOGRAMA CON INTERVALOS DE CLASE DE DISTINTO ANCHO Ejemplo: En un estudio de ruptura por torsión durante el tejido de tela, se probaron 100 muestras de hilo. Se determinó el número de ciclos de tensión a la ruptura para cada muestra de hilo y se realizó con dichos datos un histograma con clases de la misma amplitud. Se presenta también un diagrama de puntos de los 100 datos obtenidos. FIGURA 12: Gráfico de puntos del número de ciclos de tensión a la ruptura para 100 muestras de hilo Es posible que los intervalos de clase de igual amplitud no sea una elección atinada si un conjunto de datos se “extiende” a un lado u otro. En la figura 12 se ilustra un diagrama de puntos de tal conjunto de datos. Con una cantidad pequeña de clases de igual amplitud se obtienen casi todas las observaciones que caen en solo algunas clases. Si se utiliza una gran cantidad de clases del mismo ancho, muchas tienen frecuencia cero, tal como puede apreciarse en la Figura 13. FIGURA 13 Una segunda elección es usar algunos intervalos más anchos cerca de observaciones extremas e intervalos más reducidos en la región de alta concentración. Para construir un histograma para datos continuos, con intervalos de clase de ancho desiguales, después de determinar las frecuencias y las frecuencias relativas, se calcula la altura del rectángulo con la fórmula: clase de intervalo del ancho clase la de relativa frecuencia rectángulo del Altura (3) Las alturas de los rectángulos que resultan se denominan densidades, y la escala vertical es la escala de densidad. Esto también funciona cuando los intervalos de clase tienen el mismo ancho. También se utiliza para datos discretos. La siguiente tabla presenta la distribución de frecuencias para intervalos de clase de distinto ancho. Tabla 8: Distribución de frecuencias del N° de ciclos de tensión a la ruptura para 100 muestras de hilo Intervalos de clase Frecuencia Frecuencia relativa Densidad [0 , 50) 8 0,08 0,0016 [50, 100) 13 0,13 0,0026 [100, 150) 11 0,11 0,0022 [150 , 200) 21 0,21 0,0042 [200 , 300) 26 0,26 0,0026 [300 , 400) 12 0,12 0,0012 [400 , 500) 4 0,04 0,0004 [500 , 600) 3 0,03 0,0003 [600 , 900) 2 0,02 0,0001 N= 100 1 3CATEDRA PROBABILIDADES Y ESTADISTICA-FACULTAD DE INGENIERIA-UNJu- LIC. MARTA CORRO El histograma de densidad está dado por la Figura 14 FIGURA 14 Cuando los anchos de clase son distintos, el hecho de no usar una escala de densidad, da como resultado una figura con áreas distorsionadas. Para anchos de clase iguales, el divisor es el mismo en cada cálculo de densidad, y las operaciones aritméticas adicionales solo dan como resultado una nueva escala del eje vertical (es decir, el histograma de frecuencias relativas y el de densidad tienen la misma apariencia). Un histograma de densidades tiene una propiedad interesante. Al multiplicar por el ancho de clase ambos lados de la fórmula de la densidad, se obtiene Frecuencia relativa = (ancho de clase) (densidad) = (ancho del rectángulo) (altura del rectángulo) = Área del rectángulo Es decir, el área de cada rectángulo es la frecuencia relativa de la clase correspondiente. Además, puesto que la suma de las frecuencias relativas debe ser 1 (salvo en caso de redondeo) el área total de los rectángulos en un histograma de densidad es igual a 1. Siempre es posible trazar un histograma de manera que el área sea igual a la frecuencia relativa (esto también es válido para un histograma de datos discretos, solo se usa la escala de densidad). Bibliografía “Probabilidad y Estadística para Ingenieros” Walpole, Myers y Myers. Sexta Edición. Ed. Prentice Hall. 1999. “Probabilidad y Estadística para Ingeniería y Ciencias” William Mendenhall y Terry Sincih. Cuarta Edición 1997. “Estadística Básica en Administración. Conceptos y Aplicaciones” Berenson y Levine. Prentice-Hall. Cuarta Edición 1992. “Probabilidad y Estadística para Ingeniería y Ciencias” Jay Devore. Sexta edición. 2005 “Estadística” Murray Spiegel. Serie Shaum “Estadística Modelos y Métodos. 1. Fundamentos” Daniel Peña Sánchez de Rivera- Alianza Editorial. 1986
Compartir