Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
11.. INTRODUCCIÓN CONTENIDO 1 INTRODUCCION ................................................................................... 2 1.1 PROPOSITO DE LA ESTADISTICA .................................................... 2 1.1.1 SITUACIONES DE APLICACIÓN ............................................ 2 1.1.2 TRABAJO DE APLICACIÓN ..................................................... 4 1.2 EJEMPLO DE INTRODUCCION ......................................................... 5 1.3 LENGUAJE DE LA ESTADISTICA ...................................................... 6 1.4. MUESTRA ................................................................................................ 7 1.4.1 ¿POR QUÉ SE TOMAN MUESTRAS? .......................................... 8 1.4.2 ERRORES DE LAS MUESTRAS .................................................... 9 1.5 RECOLECCION DE DATOS .................................................................. 9 INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 2 1 INTRODUCCION 1.1 PROPOSITO DE LA ESTADISTICA Diariamente los medios de comunicación “bombardean” con datos. Las “estadísticas” se nutren de los números generados por espacios informativos, publicidad, resultados de eventos deportivos, sondeos de opinión, debates públicos, etc.. Las organizaciones modernas tienen gran variedad de datos en sus archivos de documentos y en las computadoras. Cientos o miles de valores se agregan a este total todos los días. Algunos de los datos nuevos se generan normalmente durante el registro de las actividades; otros son el resultado de estudios e investigaciones especiales. Sin los procedimientos estadísticos, ninguna organización podría transformar en información útil la gran cantidad de datos generados por su actividad. El tratamiento estadístico de los datos requiere el empleo de computadoras. Este material de trabajo proporciona numerosos ejemplos de salidas de computadora, resueltos con planilla de cálculo : EXCEL y con software estadístico : MINITAB y SPSS. Existen otros en el mercado que realizan funciones similares. 1.1.1 SITUACIONES DE APLICACION En todas las profesiones es importante la recolección y el estudio de datos; por eso los conocimientos de estadística son valiosos para una gran variedad de carreras. • Las oficinas de estadística del gobierno publican cada mes nueva información numérica sobre la inflación y el desempleo, a través de índices de precios, tasa de desempleo, etc. • Quienes se dedican a realizar previsiones, los economistas, los asesores financieros y los que determinan las políticas de una empresa, industria y del gobierno estudian estos datos para tomar decisiones basadas en la información obtenida. • Con el fin de ofrecer un tratamiento adecuado a sus pacientes, los dentistas, los médicos y en general el personal de un centro de salud, deben entender la información estadística de las investigaciones que se publican en las revistas médicas sobre efectos de nuevas drogas, tratamientos de enfermedades, etc. • En política, los funcionarios que ocupan cargos directivos consideran las estadísticas de la opinión pública para definir la legislación que quieren sus votantes. • Las empresas basan sus decisiones en estudios de mercado sobre los patrones de compra de los consumidores, pruebas de nuevos productos, etc. El análisis estadístico nos provee un conjunto de principios y procedimientos para manipular, resumir e investigar datos con el fin de obtener información útil en la toma de decisiones. INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 3 • Los ingenieros de control de calidad recopilan datos sobre la fiabilidad de partes y productos fabricados, calidad de procesos, etc. para mejoramiento del producto. De acuerdo con la experiencia, virtualmente toda persona involucrada en la toma de decisiones necesita conocimientos de análisis estadístico. Muy frecuentemente, en especial en compañías grandes, se utiliza la estadística en forma habitual. Cuando se solicita personal para esos trabajos, se piden conocimientos sólidos de análisis estadístico. En cualquiera de estos u otros ejemplos se puede observar que tanto el registro de los datos que interesan, como su manejo o utilización, no siempre es simple y se necesitan procedimientos adecuados para llevarlos a cabo. En las situaciones presentadas se individualiza: Para lo cual se debe en función de que presentan UN OBJETIVO ANALIZAR EL COMPORTAMIENTO DE UNA O VARIAS CARACTERISTICAS UN CONJUNTO DE RESULTADOS VARIABILIDAD INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 4 1.1.2 TRABAJO DE APLICACION Conteste la siguiente encuesta, la misma se repite en hoja adjunta para ser entregada a su profesor en forma completa. Ejercicio Plantee algún objetivo para el cual pudo haber sido implementada la encuesta y reconozca: las características de estudio y en quiénes se estudia. CUESTIONARIO PARA LA BASE DE DATOS ESTUDIANTIL Comisión: ............ NOMBRE Y APELLIDO : …………………………………… ….. LEGAJO : ………………… CORREO …………………………………………………………………………………. SEXO : ………… EDAD : …………… AÑO DE INGRESO A UTN .......................... 1.- Marque con una cruz en el casillero correspondiente : MATERIA APROBADA REGULAR CURSADA SIN CURSAR CURSANDO Análisis MatemáticoI Algebra y Geometría Matemática Discreta Análisis Matemático II 2.- Número de materias aprobadas : ..................... 3.- ¿Es recursante en Probabilidad y Estadística? Si No ¿A qué lo atribuye? ………………………………………………………………… 4.- ¿Es recursante en otra Asignatura? Si No ¿Cuál o cuáles? …………………………………………………………………………… 5.- ¿Trabaja? Si No ¿Cuántas horas por día? ………………………………………………………….. INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 5 1.2 EJEMPLO DE INTRODUCCION Antes de cada acto electoral se efectúan encuestas de la opinión pública a fin de obtener información sobre la proporción de población que votará por cada candidato (objetivo). En la ciudad de Rosario, para las elecciones realizadas el 7 de septiembre de 2003, distintas consultoras realizaron encuestas. El diario “La Capital” de Rosario publicó el día miércoles 10 de septiembre de 2003 los resultados de las encuestas y los resultados obtenidos en la elección para gobernador e intendente: Consultar a todos los votantes para lograr este objetivo, es obvio que sería una labor imposible; como única alternativa se investiga una muestra de ellos con la expectativa de que la INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 6 proporción de votos para cada candidato en la muestra, se aproxime lo más posible a la correspondiente proporción en la población. Este es un ejemplo típico de inferencia estadística: a partir de la proporción muestral se infiere la correspondiente proporción poblacional. Como lo advertiría cualquier investigador de la opinión pública se trata de un trabajo incierto. Para tener seguridad respecto a la proporción de votos de cada candidato en la población es preciso esperar hasta que se cuenten todos los votos el día de la elección. Sin embargo, si el muestreo se realiza en forma imparcial y adecuada es probable que la proporción muestral se aproxime a la proporción poblacional. Ante este planteo nos podemos preguntar: ¿cómo obtener una muestra imparcial y adecuada? ¿qué error se puede estar cometiendo al inferir sobre la población muestreada a partir de la información que nos da la muestra? ¿qué seguridad tenemos de estar en lo cierto? Este planteo representa la esencia del curso y se trabajará específicamente a lo largo de los capítulos. 1.2 LENGUAJEDE LA ESTADISTICA Población: es el grupo total de objetos (elementos, personas, registros, instituciones, períodos de tiempo, etc.) acerca del cual se obtienen conclusiones. En cuanto al tamaño, una población puede ser finita o infinita. Variable: es la característica de interés que interesa observar en la población en relación al objetivo de estudio. Se puede clasificar en: • Variable cuantitativa (o simplemente variable): es aquella cuyos valores surgen naturalmente como cantidades numéricas. Ej.: salario, edad, diámetro, número de clientes, etc. A su vez se clasifica en: - discreta: cuando sólo puede asumir valores aislados (asociada generalmente a situaciones de conteo). - continua: cuando puede asumir cualquier valor en el intervalo real. • Variable cualitativa (o atributo): sólo puede clasificarse o a lo sumo jerarquizarse. Ej.: sexo, raza, nivel de instrucción, etc. Unidad de análisis: es cada uno de los objetos sobre los que se realiza la observación de una o más variables. Censo: es un intento de medir todos los elementos de una población de interés. En muchos casos el censo es impracticable, ya sea porque la población es infinita, porque la observación implica la destrucción de la unidad, por razones de costos, etc. INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 7 Parámetro: es una medida que resume información de una característica o variable. Se calcula a partir de todas las unidades de la población. Por ej.: promedio y proporción poblacional. Muestra: es una parte de la población que se usa como información. Estadístico: es una medida que resume información de una variable, pero calculada con los datos de la muestra. Por ej.: promedio y proporción muestral. Inferencia estadística: es el proceso de extraer conclusiones sobre la población basándose en la información de una muestra extraída de esa población. Complete en el ejemplo de introducción: Población: Unidad de análisis: Variable de estudio: Tipo de variable: Parámetro de interés: 1.4 MUESTRA Muy frecuentemente es necesario seleccionar una muestra de unidades de la población, para extraer conclusiones respecto de la población en base a las observaciones muestrales. La selección de una muestra representativa es un problema importante en las investigaciones estadísticas ya que ésta puede proporcionar una visión útil de la naturaleza de la población que se estudia, mientras que una muestra no representativa puede sugerir conclusiones totalmente erróneas sobre la población. El punto esencial en el muestreo es tratar de que los elementos de la muestra representen a la población tan fielmente como se pueda. Por lo general, esta tarea es más difícil de lo que parece. Con frecuencia debe dedicarse mucho tiempo y atención al proceso de selección, ya que una vez medidos los elementos se supondrá que la muestra es representativa de la población. Para ello, es importante que la selección de las unidades de análisis que intervengan en la muestra no esté influenciada por cuestiones de conveniencia o favoritismo. INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 8 La alternativa adecuada es utilizar el azar. Las muestras seleccionadas en forma aleatoria son muestras probabilísticas. En el curso se trabajará con muestras aleatorias simples: La tabla de números aleatorios proporciona listas de números generados al azar que pueden usarse para elegir muestras aleatorias. La mayoría de las calculadoras manuales y casi todos los paquetes de computadora generan listas de números aleatorios que pueden usarse para seleccionar muestras aleatorias. En el Apéndice 1 se adjunta una tabla de números aleatorios. Además de la muestra aleatoria simple, existen otras técnicas de muestreo probabilístico apropiadas a distintas situaciones que no serán analizadas en el presente curso. 1.4.1 ¿POR QUE SE TOMAN MUESTRAS? Se utilizan muestras y no se estudia la población total por cualquiera de las razones siguientes: Recursos limitados Datos disponibles limitados. Prueba destructiva Mas exactitud 1. La limitación de los recursos (tiempo, dinero, etc.) desempeña siempre un papel importante que justifica el uso de muestras. Si la población es grande, el censo ocasiona un costo elevado y muchas veces, aunque económicamente se pudiera realizar, llevaría tanto tiempo que la información no resultaría de interés. En este mundo tan cambiante, el muestreo permite conseguir la información rápidamente en un momento determinado. 2. A veces, independientemente de los recursos, sólo existe una pequeña muestra. Por ejemplo, se puede tener a prueba una máquina que se supone más eficiente que otras, para decidir si se compran unidades semejantes. El gerente de control de calidad sencillamente no puede esperar hasta observar la población completa de los productos de esta máquina, en lugar de ello, debe observar una muestra de productos de dicha máquina y basar su decisión en una inferencia que hace a partir de dicha muestra. 3. El muestreo puede implicar una prueba destructiva. Por ejemplo, suponga que se desea conocer el promedio de vida de los focos producidos por una fábrica determinada. Sería insensato esperar a que todos los focos se quemaran para conocer su promedio de vida. 4. Un censo no ofrece garantía absoluta de calidad. La observación de toda la población puede ser una tarea enorme que lleve a cometer muchos más errores que cuando se observa una muestra cuidadosamente diagramada. Por ejemplo, una gran cantidad de personal poco Una muestra aleatoria simple se obtiene cuando se seleccionan n elementos de una población, de manera que todas las combinaciones posibles de n elementos de la población tienen igual posibilidad de ser elegidas. INTRODUCCION G.Carnevali-E.Franchelli-G.Gervasoni 9 capacitado puede cometer errores de medición que no cometería una menor cantidad de personal mejor capacitado. 1.4.2. ERRORES DE LAS MUESTRAS Retomando el ejemplo de las encuestas previas a la elección, puede suceder que la proporción de votos obtenida por cada uno de los candidatos en la muestra, quizás represente muy mal a la correspondiente en la población, por distintas razones: - Independientemente de lo bien dirigido y diseñado que esté el procedimiento de muestreo, puede ocurrir que se obtenga una muestra de votantes “no representativa” de la población. Estos casos de mala suerte son posibles pero no probables. - El otro problema consiste en que el muestreo puede estar mal diseñado. Por ejemplo, cuando se muestrea una población de votantes es erróneo tomar sus nombres de una guía telefónica, puesto que quedarán excluidos los votantes que no poseen teléfono. 1.5 RECOLECCION DE DATOS Los datos se pueden obtener por observación o por experimentación. Si simplemente se observa la característica de interés sin intervenir en el proceso en estudio, se está ante un estudio observacional. En cambio si se interviene en el proceso en estudio imponiendo algún tratamiento en forma deliberada sobre las unidades de análisis a fin de observar las respuestas, se está ante un experimento. Según el tipo de fuente, los datos pueden ser primarios o secundarios. Los datos primarios se recogen específicamente para el análisis deseado. Los datos secundarios ya se han compilado y están disponibles para el análisis estadístico. La ventaja de usar datos secundarios para una investigación estadística es que ya se dispone de ellos y no es necesario recogerlos para un proyecto específico. Incluso la compra de los datos a una compañía comercial es por lo general menos costosa que obtener datos primarios. La desventaja de los datos secundarios es que estas fuentes no siempre cubren las necesidades específicas del análisis y además no siempre son confiables. Esta es la razón por la que muchos investigadores requieren obtenerdatos primarios orientados específicamente al asunto que se está investigando. Se requiere experiencia para determinar qué técnica o combinación de técnicas se adecuan mejor a la tarea de obtener la información necesaria de las unidades de análisis. La clave para realizar una buena investigación reside, en gran medida, en la pericia del analista a la hora de elegir la técnica idónea. Ejercicio En las situaciones planteadas en el ejercicio de la pag. 4: Identifique la población o las poblaciones en estudio para el objetivo planteado. Analice si los datos obtenidos constituyen una población o una muestra. Clasifique las características en estudio Identifique parámetros de interés. G.Carnevali-E.Franchelli-G.Gervasoni U.T.N. FACULTAD REGIONAL ROSARIO INGENIERIA EN SISTEMAS DE INFORMACION PROBABILIDAD Y ESTADISTICA AÑO : 2009 Comisión: ............ CUESTIONARIO PARA LA BASE DE DATOS ESTUDIANTIL NOMBRE Y APELLIDO : …………………………………… ….. LEGAJO : ………………… CORREO …………………………………………………………………………………. SEXO : ………… EDAD : …………… AÑO DE INGRESO A UTN .......................... Marque con una cruz en el casillero correspondiente : 1.- MATERIA APROBADA REGULAR CURSADA SIN CURSAR CURSANDO Análisis Matemático I Algebra y Geometría Matemática Discreta Análisis Matemático II 2.- Número de materias aprobadas ...................... 3.- ¿Es recursante en Probabilidad y Estadística? Si No ¿A qué lo atribuye? ………………………………………………………………….... 4.- ¿Es recursante en otra Asignatura? Si No ¿Cuál o cuáles? …………………………………………………………………………………. 5.- ¿Trabaja? Si No ¿Cuántas horas por día? ……………………………………………………………….. 2. 2. ESTADISTICA DESCRIPTIVA CONTENIDO 2 ESTADISTICA DESCRIPTIVA...................................................................................11 2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS 11 2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO 11 2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA 14 2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA 16 2.1.4GRAFICAS DE SERIE DE TIEMPO 22 2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS. 25 2.2.1 MEDIDAS DE POSICION 26 2.2.2 MEDIDAS DE DISPERSIÓN 29 2.2.3 COEFICIENTE DE VARIACION 32 2.3 REGLA EMPIRICA 33 2.4 DIAGRAMAS DE CAJA O BOX - PLOT 34 2.5 TRANSFORMACIONES LINEALES 36 2.6 TRABAJO PRACTICO 38 2.7 COMPLEMENTO PARA EL USO DE EXCEL 44 G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 11 2 ESTADISTICA DESCRIPTIVA Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas, se procede a la recolección de los datos (censo o muestra). Considerando que el conjunto de datos constituye una muestra, en este capítulo se estudian algunas de las técnicas más usadas para: • la presentación de los mismos en forma ordenada ( tablas y gráficos) • el cálculo de medidas resúmenes. Antes de analizar los datos es importante determinar primero si se recogieron datos cualitativos o cuantitativos ya que se usan técnicas estadísticas distintas para cada uno de ellos, por lo que se pueden esperar resultados erróneos si se aplica una técnica inapropiada. 2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS Una forma útil de presentar un conjunto de datos es la distribución de frecuencias. 2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO Ejemplo : Los siguientes datos representan la condición en Matemática Discreta de los alumnos de la ca- rrera de Ingeniería en Sistemas de Información de la U.T.N., Reg. Rosario, inscriptos en la asignatura Probabilidad y Estadística, en el año 2002 Condición Número de alumnosnk Proporción de alumnos fk Aprobada 119 0,24 Regular 320 0,64 Cursada 13 0,03 Cursando 44 0,09 Sin cursar 3 0 Totales 499 1,00 Característica en estudio: Condición en Matemática Discreta (variable cualitativa o atributo) Para armar la distribución de frecuencias se particionó al conjunto de los 499 alumnos inscriptos en Probabilidad y Estadística en el año 2002 en subconjuntos o clases según los niveles del atributo (en el ejemplo 5 niveles que se corresponden con las condiciones de: aprobada, regular, cursada, cursando y sin cursar). El número de elementos que pertenecen a cada clase recibe el nombre de frecuencia absoluta (nk). El cociente entre la frecuencia absoluta y el número total de observaciones recibe el nombre de frecuencia relativa ( fk ). La suma de las frecuencias absolutas es igual al número total de observaciones y en conse- cuencia, la suma de las frecuencias relativas es siempre igual a 1. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 12 Es muy frecuente expresar a las frecuencias relativas como porcentaje; así en el ejemplo diremos que sólo el 24 % de los alumnos que cursaron Probabilidad y Estadística en el 2002, tenían aprobada la asignatura Matemática Discreta. REPRESENTACION GRAFICA GRAFICO CIRCULAR O SECTORES (realizado en Excel, con asistente de gráfico ) Condición en Matemática Discreta de los alumnos que cursan Prob. y Estadística - año 2002 Aprobada 24% Regular 64% Cursada 3% Cursando 9% Sin cursar 0% GRAFICO DE BARRAS (realizado en Excel con asistente de gráfico) Condición en Matemática Discreta de los alumnos inscriptos en Probabilidad y Estadística - 2002 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 Aprobada Regular Cursada Cursando Sin cursar Condición fre c. re la tiv a G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 13 DIAGRAMA DE PARETO Es un caso especial del diagrama de barras, que se usa con frecuencia en control de calidad. Las barras se grafican en orden descendente. Puede también incluir una segunda escala (del 0 al 100), encima de las barras de las clases, que muestre los porcentajes acumulados. Este tipo de diagrama lleva el nombre del economista italiano V. Pareto y en general representa la “ ley de Pareto”, esto es: la mayor parte de los defectos aparece sólo en unas pocas categorías. Ejemplo : Un analista de redes registró las causas principales que propiciaron fallas en los sistemas durante los últimos seis meses, obteniendo el siguiente resultado: Razón de la falla Frecuencia Conexión física 1 Falla eléctrica 8 Software del servidor 28 Hardware del servidor 4 Servidor sin memoria disponible 14 Ancho de banda inadecuado 1 Este resultado se presenta en un diagrama de Pareto (obtenido a través del software estadístico SPSS) Razón de la falla Conexión física Ancho de banda Hardware Falla eléctrica Sin memoria Soft servidor C ou nt 60 50 40 30 20 10 0 P ercent 100 50 04 8 14 28 G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 14 2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA Ejemplo : Un distribuidor de aspiradoras registra el número de unidades vendidas por día durante un período de 50 días. Los resultados obtenidos fueron: 84 88 87 89 88 89 88 91 87 85 8889 90 88 87 91 86 89 85 88 86 90 89 84 91 92 89 88 94 90 87 89 91 86 90 89 91 92 89 88 85 88 87 88 91 87 92 90 85 87 Característica en estudio: número de aspiradoras vendidas por día (variable discreta) A fin de ordenar la información se particiona al conjunto de 50 días en clases, según la variable en estudio: número de aspiradoras vendidas por día y se realiza el cómputo de frecuencias según se indica en la siguiente: DISTRIBUCION DE FRECUENCIAS Valor de la variable xk Cómputo de Frecuencias Frecuencia absoluta nk Frecuencia relativa fk Frecuencia absoluta acumulada Nk Frecuencia relativa acumulada Fk 84 // 2 0,04 2 0,04 85 //// 4 0,08 6 0,12 86 /// 3 0,06 9 0,18 87 //// // 7 0,14 16 0,32 88 //// //// 10 0,20 26 0,52 89 //// //// 9 0,18 35 0,70 90 //// 5 0,10 40 0,80 91 //// / 6 0,12 46 0,92 92 /// 3 0,06 49 0,98 93 0 0,00 49 0,98 94 / 1 0,02 50 1,00 Total 50 1,00 La frecuencia absoluta acumulada ( Nk ) es la cantidad de elementos correspondientes a valores de la variable menores o iguales a xk . La frecuencia relativa acumulada ( Fk ) es la proporción de elementos cuyo valor de la variable es menor o igual que xk. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 15 REPRESENTACION GRAFICA GRAFICO DE BASTONES (realizado en Excel con Análisis de datos1) El mismo se obtiene representando la frecuencia (absoluta o relativa) correspondiente a cada valor de la variable mediante un segmento cuya longitud es proporcional a la frecuencia. GRAFICO ESCALONADO 1 Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45. G.Carnevali-E.Franchelli-G.Gervasoni 0 0,05 0,1 0,15 0,2 0,25 83 84 85 86 87 88 89 90 91 92 93 94 número de aspiradoras fre cu en ci a re la tiv a 0 0,2 0,4 0,6 0,8 1 83 84 85 86 87 88 89 90 91 92 93 94 95 Número de aspiradoras Fr ec . r el . a cu m ul ad a dígitos tallo dígitos hoja 8 5 11 7 ESTADÍSTICA DESCRIPTIVA 16 Si el número de observaciones hubiese sido pequeño (supongamos las dos primeras columnas), el tratamiento de la información se haría a través de un: DIAGRAMA DE PUNTOS • • • • • • • • • • 84 85 86 87 88 89 90 91 número de aspiradoras 2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA Ejemplo: Con el propósito de adecuar los objetivos curriculares de una escuela, se decide analizar la realidad socioeconómica de la familia a la cual pertenecen los alumnos ingresantes en un año determinado. A tal fin se registran para cada uno de ellos (entre otros datos) la superfi- cie cubierta de la vivienda que habita la familia del alumno ingresante. Los resultados obteni- dos para 30 alumnos ingresantes seleccionados al azar fueron: 85 - 117 - 92 - 120 - 94 - 110 - 151 - 90 - 80 - 116 - 95 - 102 - 100 - 113 - 118 - 140 - 133 - 108 - 115 - 148 - 110 - 130 - 100 - 120 - 108 - 125 - 105 - 130 - 112 - 150 Característica en estudio: superficie cubierta de la vivienda, en m2 (variable continua). DIAGRAMA DE TALLO-HOJA Como un paso previo a la construcción de la distribución de frecuencias, los datos pueden organizarse en un diagrama de tallo-hoja. En este tipo de diagramas, cada valor observado se descompone en “dígitos tallo” y “dígitos hoja”. En el ejemplo planteado, la decena y la centena de cada valor observado forman los “dígitos tallo” y la unidad el “dígito hoja”. Así, para las dos primeras observaciones (85 y 117) re- sultan: Es conveniente presentar a los dígitos hoja ordenados en forma creciente para facilitar la posterior utilización del diagrama tallo-hoja, tanto en forma gráfica como tabular. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 17 En el ejemplo, resulta el diagrama de tallo-hoja realizado con PHStat 2 : 8 0 5 9 0 2 4 5 10 0 0 2 5 8 8 11 0 0 2 3 5 6 7 8 12 0 0 5 13 0 0 3 14 0 8 15 0 1 DISTRIBUCION DE FRECUENCIAS Otra forma de organizar la información es individualizando entre los datos, el valor mínimo (80 m2) y el máximo (151 m2) que asume la variable. La diferencia entre ambos valores (en este caso 71 m2) se llama rango. Los 28 valores restantes pertenecen al intervalo [ 80, 151]. Para poder realizar el respectivo cómputo de frecuencias, dicho intervalo se particiona en subintervalos de igual amplitud. Cada uno de ellos identifica a una clase y recibe el nombre de intervalo de clase . Cuando se agrupan datos a través de intervalos de clase, se produce una pérdida de información por la no conservación de los valores individuales. Demasiados intervalos provoca pérdida de efectividad como medio de resumir datos; en cambio, pocos intervalos condensan tanto la información que arrojan poca luz sobre el comportamiento de la característica. La elección del número de subintervalos está estrechamente relacionada con la cantidad de datos que se consideran. Es común usar entre 5 y 20 subintervalos. Suele aplicarse una regla práctica que indica que el número de subintervalos es aproximadamente igual a la raíz cuadrada del número de observaciones. Para el ejemplo dado, se tomarán 6 subintervalos, dado que 30 = 5,4772 Cuando se fijan los intervalos de clase, se debe tener en cuenta que: Deben ser semiabiertos para que cada valor de la variable pertenezca a uno y sólo uno de los intervalos. En el ejemplo : 79 < x ≤ 91 ó ( 79 , 91] El punto medio de cada intervalo de clase debe ser un posible valor de la variable (de acuerdo a las restricciones con las que se expresan los valores de las observaciones). En el ejemplo los puntos medios deben ser valores enteros a pesar de que la variable es continua. Es preferible, por facilidad en el análisis, que los intervalos posean igual amplitud. La tabla siguiente muestra la distribución de frecuencias del ejemplo : 2 PHStat es un complemento estadístico para Microsoft Excel incluido en el CD que acompaña al libro Estadística para Adminis- tración (2da edición) de Berenson, M; Levine , D. y Krehbiel,T.; editorial Pearson Educación, México, 2001. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 18 Intervalo de clase Punto medio Frecuencia absoluta Frecuencia relativa Frecuencia absoluta acumulada Frecuencia relativa acumulada 79 < x ≤ 91 85 3 0,10 3 0,10 91 < x ≤ 103 97 6 0,20 9 0,30 103 < x ≤ 115 109 8 0,27 17 0,57 115 < x ≤ 127 121 6 0,20 23 0,77 127 < x ≤ 139 133 3 0,10 26 0,87 139 < x ≤ 151 145 4 0,13 30 1,00 30 1,00 REPRESENTACION GRAFICA HISTOGRAMA • Las bases de las barras tienen la longitud igual a la amplitud del intervalo de clase que representan y se ubican sobre el eje de la abscisa. • El área de cada barra es proporcional a la frecuencia del intervalo de clase. • Si los intervalos de clase son de igual amplitud, las alturas de las barras resultan proporcionales a las frecuencias de las clases. En caso de amplitudes diferentes, las alturas deben ser calculadas para que se verifique la condición anterior. Para el ejemplo, se presenta a continuación la distribución de frecuencia y el histograma realizado en Excelcon Análisis de datos:3 Clases Frecuencia Frec. acumulada 79 0 0 91 0,10 0,10 103 0,20 0,30 115 0,27 0,57 127 0,20 0,77 139 0,10 0,87 151 0,13 1 163 0 1 3 Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45 G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 19 0 0,05 0,1 0,15 0,2 0,25 0,3 79 91 103 115 127 139 151 163 Superficie cubierta (en m2) Fr ec ue nc ia Los histogramas son más fáciles de interpretar si los intervalos de clase tienen la misma amplitud. El histograma, al igual que el diagrama de tallo-hoja, proporciona una impresión visual del aspecto que tiene la distribución de las observaciones, así como información sobre la dispersión de los datos. Al pasar de los datos originales o del diagrama de tallo-hoja a la distribución de frecuencias y al histograma, se pierde parte de la información debido a que ya no se tienen las observaciones originales. Sin embargo, esta pérdida en la información a menudo es pequeña si se le compara con la facilidad de interpretación ganada al utilizar la distribución de frecuencias y el histograma. Para conjuntos de datos pequeños, los histogramas pueden cambiar claramente de apariencia si el número de clases o el ancho de éstas cambia. Los histogramas son más estables si el número de observaciones es grande. POLIGONO DE FRECUENCIAS Otra forma de representar gráficamente la distribución de frecuencias absolutas o relativas es a través del polígono de frecuencias. Si se considera una distribución de frecuencias con intervalos de clase de igual amplitud, el polígono está referido a un sistema coordenado donde cada vértice tiene por abscisa el punto medio del intervalo y por ordenada la frecuencia del intervalo de clase. Para hallar los puntos de iniciación y finalización del polígono, se consideran dos intervalos de clase (uno anterior al primero y otro posterior al último) de igual amplitud a los restantes y de frecuencia cero. Se demuestra mediante la igualdad de triángulos que el polígono así construido encierra igual área que el histograma. G.Carnevali-E.Franchelli-G.Gervasoni 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 67 79 91 103 115 127 139 151 163 Sup. cubierta (en m2) Fr ec . r el at iv a ac um ul ad a ESTADÍSTICA DESCRIPTIVA 20 Para el ejemplo: POLIGONO DE FRECUENCIAS ACUMULADAS De igual forma se puede construir el polígono de frecuencias acumuladas como se muestra en la siguiente figura: Se presenta a continuación otro ejemplo sobre variable continua 4 : 4 Ejemplo extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger Geor- ge.- Mc Graw Hill – México, 1996. pag. 5 G.Carnevali-E.Franchelli-G.Gervasoni 0 0,05 0,1 0,15 0,2 0,25 0,3 73 85 97 109 121 133 145 157 sup. cubierta (en m2) fre cu en ci a re la tiv a ESTADÍSTICA DESCRIPTIVA 21 Los datos de la siguiente tabla representan la resistencia a la tensión, en libras por pulgada cuadrada (psi), de 80 muestras de una nueva aleación de aluminio y litio, que está siendo evaluada como posible material para la fabricación de elementos estructurales de aeronaves. Resistencia a la tensión de 80 muestras de aleación de aluminio-litio 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149 Los datos fueron registrados conforme se realizaba la prueba y en este formato no conllevan mucha información con respecto a la resistencia a la tensión. No es fácil responder a preguntas tales como “¿Qué porcentaje de las muestras fallaron debajo de los 120 psi?”. Dado que se tienen muchas observaciones, la construcción de un diagrama de puntos para estos datos es ineficiente; existen presentaciones visuales más eficaces para conjuntos grandes de datos. Una de ellas es el ya visto diagrama de tallo y hoja: Tallo Hoja Frecuencia 7 6 1 8 7 1 9 7 1 10 5 1 2 11 5 8 0 3 12 1 0 3 3 13 4 1 3 5 3 5 6 14 2 9 5 8 3 1 6 9 8 15 4 7 1 3 4 0 8 8 6 8 0 8 12 16 3 0 7 3 0 5 0 8 7 9 10 17 8 5 4 4 1 6 2 1 0 6 10 18 0 3 6 1 4 1 0 7 19 9 6 0 9 3 4 6 20 7 1 0 8 4 21 8 1 22 1 8 9 3 23 7 1 24 5 1 Otra gráfica apropiada es el histograma. Nótese en la figura siguiente la simetría de la distribución de frecuencias de las mediciones de resistencia. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 22 2.1.4 GRAFICAS DE SERIE DE TIEMPO 5 Las gráficas consideradas hasta el momento (histogramas, diagramas de tallo y hoja) son métodos visuales muy útiles para mostrar la variabilidad presente en los datos. Sin embargo, con frecuencia el tiempo es un factor importante que contribuye a la variabilidad observada en los datos, y los métodos anteriores no lo toman en cuenta. Una serie de tiempo, o secuencia de tiempo, es un conjunto de datos en los que las observaciones se registran en el orden en que ocurren. La gráfica de una serie de tiempo es un diagrama en el que el eje vertical denota el valor observado (por ejemplo x), mientras que el eje horizontal denota el tiempo (que puede ser minutos, días, años, etc.). Cuando se grafican las mediciones como una serie de tiempo, a menudo se observan tendencias, ciclos u otras características importantes de los datos que, de otra forma, pasarían inadvertidas. Por ejemplo, considérese la figura 1-18 a, la cual presenta la gráfica de una serie de tiempo de las ventas anuales de una compañía durante los últimos diez años. La impresión general que ofrece esta gráfica es que las ventas tienen una tendencia a crecer. Existe cierta variabilidad en esta tendencia, donde, las ventas en algunos años aumentaron con respecto a las del año anterior, mientras que las ventas de otros años disminuyeron. La figura 1-18 b presenta las ventas de los tres últimos años notificadas por trimestre. Esta gráfica muestra de manera clara que las ventas anuales de la empresa exhiben una variabilidad cíclica por trimestre, donde las ventas en los dos primeros trimestres son mayores que en los dos últimos. 5 Extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger George.- Mc Graw Hill – México, 1996. pag. 33 G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 23 a) b) Figura 1-18 Ventas de una compañía por año a) y por trimestre b) Algunas veces puede ser útil combinar las gráficas de serie de tiempo con alguno de los tipos de presentación gráfica considerados hasta el momento, por ejemplo con los diagramas de ta- llo y hoja, para formar un diagrama de dígitos y líneas. La figura 1.19 presenta un diagrama de dígitos y líneas para las observaciones de resistencia a la tensión del ejemplo de la página 23, que como se dijo, fueronregistradas en el orden en que ocurrieron. Esta gráfica indica de manera eficaz la variabilidad total de los datos de resistencia a la tensión y, de manera simultánea, presenta la variabilidad en las mediciones con el paso del tiempo. La impresión general es que la resistencia cambia alrededor del valor medio de 162,67, y no hay ningún patrón obvio sobre esta variabilidad con respecto al tiempo. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 24 El diagrama de dígitos y líneas de la figura 1.20 presenta una situación diferente. Esta gráfica resume 30 observaciones sobre la concentración de un producto obtenido mediante un proceso químico, donde las observaciones se registraron a intervalos de una hora. La gráfica indica que, durante las primeras 20 horas de operación, el proceso produjo concentraciones en general por encima de 85 g/l, pero después de la muestra 20 algo ocurrió con el proceso, que dio como resultado concentraciones más bajas. Si esta variabilidad en la concentración del producto puede reducirse, entonces es posible mejorar la operación del proceso. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 25 2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS. Las medidas que resumen la información de una distribución de frecuencias reciben el nombre de: ESTADISTICOS de acuerdo a la información que brindan pueden ser de POSICION DISPERSION G.Carnevali-E.Franchelli-G.Gervasoni MediaMedia Mediana Moda Fractilas Rango Varianza Desvío estándar Desvío Inter- cuartílico ESTADÍSTICA DESCRIPTIVA 26 2.2.1 MEDIDAS DE POSICION Se llaman también de tendencia central y están referidas a la posición de la distribución de frecuencias sobre el eje de las abscisas. Ellas son : NOMBRE NOTACION DEFINICION Media aritmética x Es el promedio de las observaciones Moda x̂ Es el valor de la variable con mayor frecuencia Mediana x~ Es el mínimo valor de la variable que acumula, por lo menos, el 50 % de las observaciones ordenadas en forma creciente Cuartiles Fractilas Deciles Percentiles q1 q2 q3 d1 d2 ...... d9 p1 p2 ........p99 Son los mínimos valores de la variable que acumulan respectivamente, por lo menos : el 25% , el 50% y el 75% de las observa- ciones ordenadas en forma creciente. el 10% , el 20% ........el 90% de las obser- vaciones ordenadas en forma creciente. el 1% , el 2% ........ el 99% de las obser- vaciones ordenadas en forma creciente. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 27 Media aritmética o promedio muestral Es la más conocida y utilizada de las medidas de posición. No coincide necesariamente con un valor de la variable. Para el cálculo del promedio de n observaciones de la variable X ( xi con i = 1, 2,.......n ), resulta: ∑ = = n i ix n x 1 1 ( 1 ) Si las n observaciones están agrupadas en r clases , la fórmula (1) resulta : ∑∑ == == r i ii r i ii fxnxx n 11 1 ( 2 ) • En los casos en que las observaciones se encuentren agrupadas en intervalos de clase, se le da a xi el valor del punto medio del intervalo de clase correspondiente. Características del promedio: • Toma en consideración toda la información por lo tanto es muy sensible a la influencia de los valores extremos, lo que puede ser una ventaja o desventaja, según la situación. • Es una medida de posición útil para comparar dos o más distribuciones, sólo si éstas tienen forma semejante. Moda Es el valor de la variable con mayor frecuencia. Características de la moda: • Algunos conjuntos de observaciones no poseen moda. • Algunos conjuntos de observaciones tienen más de una moda. Mediana Es el mínimo valor de la variable que acumula, por lo menos, el 50 % de las observaciones ordenadas en forma creciente, por tal razón es uno de los llamados estadísticos de orden. 5,0)~(/~ ≥xFx G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 28 Característica de la mediana: • Al no tomar en cuenta toda la información pues depende de la cantidad de observaciones y no de la magnitud de ningún valor extremo, no es sensible a dichos valores extremos. Fractilas Se trabajan en forma similar a la mediana. Ejercicios 1. Indique cómo calcularía la mediana en los siguientes casos : si se tiene un número impar de observaciones, por ej. : 7 , 12 , 15 , 10 , 4 si se tiene un número par de observaciones, por ej. : 4 , 17 , 15 , 10 , 12 , 7 si las observaciones se encuentran clasificadas en clases (ej. apartado 2.1.2, pag. 16) si las observaciones se encuentran agrupadas en intervalos de clase (ej. apartado 2.1.3 , pag. 20 ) 2. Los últimos diez días de junio, el tren “ Costa Especial ” llegó tarde a su destino en los siguientes números de minutos ( un número negativo significa que el tren llegó con anti- cipación): 3 , 6 , 4 , 10 , - 4 , 124 , 2 , - 1 , 4 , 1 ¿Qué medidas de posición utilizaría Ud. para : mostrar que el tren ofrece un buen servicio? mostrar que el tren ofrece un mal servicio? COMPARACION DE MEDIA ARITMETICA, MEDIANA Y MODA Distribución Simétrica G.Carnevali-E.Franchelli-G.Gervasoni Media Mediana Moda ESTADÍSTICA DESCRIPTIVA 29 Distribuciones Asimétricas o Sesgadas Distribución asimétrica a la derecha Distribución asimétrica a la izquierda 2.2.2 MEDIDAS DE DISPERSIÓN Analizando comparativamente las siguientes distribuciones se observa que a pesar de que están igualmente centradas, los valores de la variable de cada una de ellas están alejados del promedio de manera distinta. Esta situación hace ver la necesidad del estudio de otro tipo de medida característica de las distribuciones de frecuencias que son llamadas de dispersión. Dicha información se obtiene a través de los siguientes estadísticos de dispersión: G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 30 NOMBRE NOTACION DEFINICION Rango r Es la diferencia entre el mayor y el menor valor de las observaciones Varianza muestral s2n-1 Es el promedio, aproximado, de los cuadrados de las diferencias entre los valores de las observacio- nes y su correspondiente media aritméticaDesvío estándar muestral s Es la raíz cuadrada positiva de la varianza. Recorrido intercuartílico riq Es la diferencia entre el cuartil 3 y el cuartil 1. Rango Es la diferencia entre el máximo valor de las observaciones (xM) y el mínimo valor de las mismas (xm ) r = xM - xm Proporciona una primera información sobre la dispersión de los valores pero basta que al menos uno de los dos valores que intervienen en su cálculo esté excesivamente alejado para que pierda importancia la información que brinda. Varianza muestral Es el promedio, aproximado, de los cuadrados de los desvíos de las observaciones con res- pecto a su media aritmética. ( ) i r i n nxxin s ∑ = − −− = 1 22 1 1 1 Si el denominador hubiese sido n en lugar de n-1, se hubiera obtenido el promedio de los cuadrados de los desvíos de las observaciones con respecto al promedio de las mismas. Sin embargo, n-1 se usa aquí debido a ciertas propiedades deseables del estadístico s2 que lo G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 31 hacen apropiado para la inferencia estadística. Si el tamaño de la muestra es grande, la diferencia entre s2n y s2n-1 es despreciable. La varianza está expresada en unidades al cuadrado, lo que representa una desventaja para su interpretación. Desvío estándar muestral Es la raíz cuadrada positiva de la varianza muestral. 2 1−= nss Este estadístico tiene la ventaja de estar expresado en la misma unidad de las observaciones Recorrido intercuartílico Es la diferencia entre el tercer cuartil y el primer cuartil. riq = q3 - q1 Se darán a continuación las medidas características calculadas para los dos ejemplos trabajados con variable discreta y con variable continua. Las mismas fueron obtenidas en Excel con Análisis de datos, en la opción Estadística Descriptiva : Para el ejemplo del apartado 2.1.2 correspondiente al número de aspiradoras vendidas diariamente por un distribuidor, las mismas resultaron : Número de Aspiradoras Media 88,44 Error típico 0,32 Mediana 88,00 Moda 88,00 Desviación estándar 2,23 Varianza de la muestra 4,99 Curtosis -0,22 Coeficiente de asimetría 0,05 Rango 10 Mínimo 84 Máximo 94 Suma 4422 Cuenta 50 Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las viviendas de los alumnos ingresantes a una escuela las mismas resultaron : G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 32 Superficie cubierta (en m2) Media 113,90 Error típico 3,41 Mediana 112,50 Moda 120,00 Desviación estándar 18,70 Varianza de la muestra 349,54 Curtosis -0,33 Coeficiente de asimetría 0,35 Rango 71 Mínimo 80 Máximo 151 Suma 3417 Cuenta 30 2.2.3 COEFICIENTE DE VARIACION Es una medida de variación relativa. Se simboliza c.v. y es igual a : 100... x svc = Es el desvío estándar expresado como porcentaje de la media aritmética, por lo tanto no viene expresado en unidades. Es útil para la comparación de la variabilidad relativa entre distribuciones que no están expresadas en la misma unidad de medida o bien, entre distribuciones que si bien están expresadas en la misma unidad, poseen promedios muy dispares. Ejemplo : En febrero del año pasado, los datos de préstamos personales de una mutual mostraron un promedio de $650 y una desviación estándar de $300. Recientemente se calculó la media y la desviación estándar correspondiente a los préstamos personales de febrero del presente año resultando las mismas $ 900 y $ 350 respectivamente. ¿En cuál de los dos años los préstamos personales presentaron menor dispersión relativa? c.v. año pasado = ( 300 / 650 ) . 100 = 45% c.v. presente año = ( 350 / 900 ) . 100 = 39% La menor dispersión relativa se presenta en los préstamos personales otorgados este año por la mutual. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 33 2.3 REGLA EMPIRICA Es posible que dos conjuntos de datos distintos tengan el mismo rango pero difieran considerablemente en el grado de variación de los datos. En consecuencia, el rango es una medida relativamente insensible de la variación de los datos. La varianza tiene importancia teórica, pero es difícil de interpretar porque las unidades de medición de la variable de interés están elevadas al cuadrado. En cambio, las unidades de medición de la desviación estándar son las unidades de la variable. Si la desviación estándar se combina con la media del conjunto de datos, resulta fácil interpretarla. Una regla práctica útil es la que se conoce como regla empírica, a saber: Si un conjunto de datos tiene una distribución aproximadamente simétrica se pueden utilizar las siguientes reglas prácticas para describir el conjunto de datos: Aproximadamente el 68 % de las observaciones quedan a una desviación estándar de su media (es decir, dentro del intervalo s ±x ) Aproximadamente el 95 % de las observaciones quedan a dos desviaciones estándar de su media (es decir, dentro del intervalo s 2 ±x ) Casi todas las observaciones quedan a tres desviaciones estándar de su media (es decir, dentro del intervalo s 3 ±x ) La regla empírica es el resultado de la experiencia práctica de investigadores en muchas disciplinas, que han observado muy diferentes tipos de conjuntos de datos de la vida real. Fuente : Estadística Elemental. Johnson – Kuby pag 82 G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 34 Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las viviendas de los alumnos ingresantes a una escuela, la media es 113,8 m2 y la desviación estándar 18,267 m2. Las proporciones del número total de observaciones que se esperaría encontrar en los intervalos s ±x , s 2 ±x y s 3 ±x según la regla empírica, así como las proporciones reales, se presentan en la siguiente tabla: k x ± k s Proporción esperada de observaciones en el intervalo Proporción real de observaciones en el intervalo 1 95,533 – 132,067 0,68 0,67 2 77,266 – 150,334 0,95 1,00 3 58,999 – 168,601 Aproximadamente 1,00 1,00 En caso de conocer la distribución de frecuencias, lógicamente se encuentran las proporciones reales de las observaciones para los distintos intervalos y no se aplica la regla empírica. 2.4 DIAGRAMAS DE CAJA O BOX - PLOT Representa los tres cuartiles junto con los dos valores extremos de las observaciones. Los diagramas de caja que se presentan a continuación ( confeccionados con PHStat ), corresponden a los datos observados para las características “número de aspiradoras vendidas” y “superficie cubierta de la vivienda” analizadas anteriormente en el desarrollo de las distribuciones de frecuencias de las variables discretas y continuas, respectivamente. Nº Aspiradoras Nº Aspiradoras 82 84 86 88 90 92 94 96G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 35 Superficie cubierta Superficie 70 90 110 130 150 El lado inferior de las cajas corresponde al primer cuartil, el lado superior al tercer cuartil y el segmento que divide a las cajas al segundo cuartil. Un segmento de recta une el lado inferior de las cajas con el mínimo valor observado y otro segmento une el lado superior de las cajas con el máximo valor observado. Constituyen una herramienta eficaz para el análisis de la simetría de una distribución de frecuencias y su estudio comparativo con otras distribuciones. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 36 • DETECCION DE VALORES ANOMALOS (outliers) Hay ocasiones en que un conjunto de datos contiene observaciones inconsistentes y es proba- ble que no se desee incluirlas para su análisis. Cuando dichas observaciones se salen del in- tervalo de valores de datos que se quiere describir, se denominan valores anómalos u outliers. Una observación “x” que es inusualmente grande o pequeña en relación con los demás valores de un conjunto de datos se denomina valor anómalo. Uno de los métodos para determinar si una observación es un valor anómalo es observar si el valor absoluto de z es anormalmente grande. El valor “z” de un valor “x” de un conjunto de datos es la distancia a la que se encuentra x por arriba o por debajo de la media, medida en unidades de la desviación estándar: Estos valores por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente. La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito) 2.5 TRANSFORMACIONES LINEALES Supongamos una variable “x” con media aritmética ( x ) y varianza ( s2x ) y una variable “y” de la forma: y = a + b x Se demuestra fácilmente que: • x b a y += ( media aritmética de la variable y ) • 2x 2 y s b s 2= ( varianza de la variable y ) • sy = b sx ( desvío estándar de la variable y ) En el caso b = 1, lo único que se hace es sumar una constante (a). La media aritmética de la nueva variable quedará incrementada en un valor igual al de la constante (a) y el desvío estándar, que es una medida de dispersión, permanece igual. En cambio, si la variable es multiplicada por una constante b ≠ 1, esto produce una contracción o una dilatación de la distribución (según sea b menor o mayor que 1) lo que se refleja en la varianza. G.Carnevali-E.Franchelli-G.Gervasoni s x-x zValor = ESTADÍSTICA DESCRIPTIVA 37 Ejemplo : Sea la variable x : número de días completos trabajados en un año por operario de una fá- brica. Se conoce que el promedio de la variable x es 290,1 días con una desviación de 2,2 días. Cada día no trabajado ocasiona a la fábrica una pérdida de $ 150. Calcule la pérdida anual promedio por operario y su desvío estándar (considere 300 días la- borables en el año). y : pérdida anual por operario yi = ( 300 - xi ) 150 de donde : = ( 300 - 290,1 ) 150 = $ 1485 pérdida anual promedio por operario sy = 150 . 2,2 = $ 330 desviación estándar de la pérdida anual por operario G.Carnevali-E.Franchelli-G.Gervasoni y ESTADÍSTICA DESCRIPTIVA 38 2.6 TRABAJO PRACTICO 1.- Analice los siguientes gráficos6. Comente. a ) El siguiente gráfico representa una reducción ( en el año 1990 con respecto al año anterior ) del 50% en el número de barriles de petróleo extranjero utilizado en el proceso de manufactura de productos de películas por una empresa. b) ¿Quién creen los propietarios que es el líder en bienes raíces? 6 Los gráficos fueron realizados por Diego Martínez Viademonte, alumno que cursó la asignatura en el año 2003 G.Carnevali-E.Franchelli-G.Gervasoni 120,000 60,000 1989 1990 B ar ril es Liderazgo 3% 2% 2% 32% 11% COLDWELL BANKER E.R.A. GALLERY CENTURY otros ESTADÍSTICA DESCRIPTIVA 39 c) Chevrolet. Los camiones más formales y de mayor duración. Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino. Chevrolet. Los camiones más formales y de mayor duración. Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino. G.Carnevali-E.Franchelli-G.Gervasoni Como una roca 95 96 97 98 CHEVY FORD TOYOTA NISSAN Camión Po rc en ta je Como una roca 0 10 20 30 40 50 60 70 80 90 100 CHEVY FORD TOYOTA NISSAN Camión Po rc en ta je ESTADÍSTICA DESCRIPTIVA 40 2.- En una editorial se clasificaron las publicaciones del año anterior según su carácter y se obtuvo que el 45% de las publicaciones eran científicas, el 17% técnicas, 16% literarias, 12% artísticas y 10% de otro carácter. Presente un informe respecto a las publicaciones de la editorial. 3.- Una fábrica de estéreos desea estudiar la relación entre el número de piezas defectuosas y el momento de la jornada de trabajo en que se producen las mismas. Se fijaron tres períodos de la jornada : 6 – 7 horas ; 10 – 11 horas y 13 – 14 horas y en cada uno de ellos se observó durante treinta días el número de defectuosos. Los resultados obtenidos fueron: 1° período 48 1 10 4 6 3 4 5 6 10 5 4 7 8 6 10 6 3 9 7 7 6 5 6 6 5 7 9 5 2° período 63 2 6 4 6 5 5 7 9 8 8 5 6 6 7 4 6 6 4 5 7 7 6 4 6 6 5 5 7 3° período 411 5 12 6 9 9 14 8 12 10 9 12 11 11 13 12 12 10 11 9 13 9 14 10 12 8 10 7 13 Compare y concluya respecto de la relación entre el número de piezas defectuosas y el momento de la jornada de trabajo. 4.- Los siguientes datos corresponden a los tiempos de duración (en segundos) de 100 temas de rock. Realiza un análisis descriptivo completo de la información: Tiempo Frecuencia 135 ≤ t < 145 8 145 ≤ t < 155 9 155 ≤ t < 165 18 165 ≤ t < 175 20 175 ≤ t < 185 35 185 ≤ t < 195 10 5.- A los efectos de organizar las compras de gaseosas para la fiesta de fin de curso de un instituto, se le preguntó a cada uno de los 200 integrantes de la comunidad educativa la gaseosa preferida. Completa la siguiente tabla a doble entrada considerando que: ♦ el 20 % de los docentes y el 30 % de los alumnos prefieren naranja ♦ de los no docentes , el 40 % prefieren cola y el 20 % prefieren pomelo ♦ el porcentaje de alumnos que prefieren pomelo es igual al de los docentes que prefieren la misma gaseosa G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 41 Integrante s Gaseosa Docentes No docentes Alumnos Totales ColaPomelo 4 Naranja Totales 40 10 6.- Una compañía de seguros registró entre sus asegurados el número de accidentes del año 2003, obteniendo la siguiente información: Edad del asegurado N° de accidentes [18-28) [28-38) [38-48) [48-58) 58 y más Totales 0 748 821 786 720 672 1 84 50 41 66 60 2 41 15 12 16 25 más de 2 10 9 5 5 8 Totales En base al cuadro anterior responde: a) ¿Qué porcentaje de asegurados no tuvo accidentes durante 2003? b) Analiza en qué rango de edades hay el mayor y el menor porcentaje de asegurados que tuvieron al menos un accidente. c) Si la compañía decide no renovar el seguro a todos aquellos asegurados que hayan tenido más de dos accidentes, ¿cuántos asegurados están en condiciones de renovar su seguro en 2004? d) ¿Cuál puede haber sido el objetivo de este estudio? e) La compañía decide dar un premio del 5% de descuento sobre el valor de la póliza del año 2004 a todos aquellos asegurados que no sufrieron accidentes en 2003. El valor promedio de cada póliza es de $ 3.200, ¿cuánto dejará de ganar la compañía en 2004 por la implementación de dicho premio? G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 42 7.- La siguiente es la distribución de frecuencias de los sueldos de los empleados administrativos de una industria: Sueldo ( x ) ( en $ ) Número de empleados 200 < x ≤ 400 10 400 < x ≤ 600 25 600 < x ≤ 800 40 800 < x ≤ 1000 10 1000 < x ≤ 1200 2 a) Calcule las medidas descriptivas que crea conveniente para representar los datos e interprete sus resultados. b) El sueldo promedio de los 1000 operarios de esa industria es de $ 490. Obtenga el sueldo promedio para el conjunto de ambas categorías de empleados. c) Si conociera la mediana y la moda para la categoría de los operarios, ¿podría calcular esas medidas para el conjunto de todos los trabajadores de la industria? d) Si se aumentara en un 10 % el sueldo de cada empleado, calcule sueldo promedio y varianza. e) Si a cada empleado se le aumenta el sueldo en 50 $, calcule sueldo promedio y varian- za. 8.- Los siguientes datos son mediciones de viscosidad de un producto químico tomadas cada hora (de arriba abajo y de izquierda a derecha). 47,9 48,8 48,6 43,2 43,0 47,9 48,1 48,0 43,0 42,8 48,6 48,3 47,9 43,5 43,1 48,0 47,2 48,3 43,1 43,2 48,4 48,9 48,5 43,0 43,6 48,1 48,6 48,1 42,9 43,2 48,0 48,0 48,0 43,6 43,5 48,6 47,5 48,3 43,3 43,0 a) Grafique de la manera más conveniente. b) Las especificaciones sobre la viscosidad del producto son 48 + 2. ¿Qué conclusiones puede obtener sobre el desempeño del proceso? 9.- En un proceso de producción interesa controlar el diámetro ( X ) de un tipo de lata ( en mm ). G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 43 Se seleccionan al azar 160 latas a las cuáles se les mide el diámetro y se obtiene la siguiente distribución de frecuencias: Diámetro de las latas Cantidad de latas 83,4 ≤ x < 83,5 3 83,5 ≤ x < 83,6 12 83,6 ≤ x < 83,7 21 83,7 ≤ x < 83,8 30 83,8 ≤ x < 83,9 47 83,9 ≤ x < 84,0 28 84,0 ≤ x < 84,1 19 a) Indique la característica en estudio y clasifíquela. Dé la unidad elemental asociada a la variable o atributo. Grafique. b) Calcule la media aritmética, mediana, moda , desvío estándar. Analice la simetría. c) De otra muestra de 200 observaciones del diámetro de la lata mencionada se obtuvo un promedio de 83,93 mm con una desviación estándar de 0,20 mm. ¿Puede a partir de estos datos encontrar el promedio de las observaciones de las dos muestras? En caso afirmativo, encuéntrelo. En caso negativo, justifique porqué. d) ¿Cuál de la dos muestras (la primera de 160 observaciones y la segunda de 200 observaciones) presenta menor dispersión relativa? Justifique la respuesta. 10.- Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se midió la distancia necesaria para detener un tipo de automóvil que se desplazaba sobre pavimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado. Diseño A Diseño B Diseño C 37 – 36 – 34 – 40 – 38 - 32 33 – 34 – 35 – 38 – 42 - 34 40 – 39 – 41 – 41 – 40 - 43 Construya un gráfico de cajas para cada uno de los tres diseños y presente un informe con sus conclusiones. G.Carnevali-E.Franchelli-G.Gervasoni ESTADÍSTICA DESCRIPTIVA 44 2.7 COMPLEMENTO PARA EL USO DE EXCEL 1. Se entra en Excel en HERRAMIENTAS 2. En COMPLEMENTOS DISPONIBLES se activan las opciones Herramientas para análisis y Herramientas para análisis VBA 3. Se activa ANALISIS DE DATOS ( ahora ya en Herramientas ) 4. Para graficar se entra a la opción HISTOGRAMA a) Rango entrada : se marca la columna en donde están los datos b) Rango de clase : se marca la columna en donde se han dado los límites superiores de los intervalos de clase elegidos c) Rango de salida : se elige dónde se quieren la distribución de frecuencias y el gráfico ( puede ser en la misma hoja o en hoja nueva ) d) Se activa crear gráfico e) Para los dos tipos de gráficos (bastones e histograma) se activa una barra. En OPCIONES: ANCHO DE RANGO: - Si se lleva a 500 las barras se separan y se obtiene el gráfico de BASTONES - Si se lleva a 0 las barras se unen y se obtiene el HISTOGRAMA 5.- En ANALISIS DE DATOS la opción ESTADÍSTICA DESCRIPTIVA da el resumen de todos los estadísticos (posición, dispersión, asimetría etc.) G.Carnevali-E.Franchelli-G.Gervasoni Anexo Estadística Descriptiva G.Carnevalli-E.Franchelli-G.Gervasoni 1 ANEXO Nº 1 : ESTADÍSTICA DESCRIPTIVA RELACIÓN ENTRE VARIABLES 1 Cuando se inicia una investigación o estudio estadístico se formulan interrogantes que nos remiten al análisis de una, dos o más variables. En el capítulo 2 se ha desarrollado principalmente el tratamiento de una sola variable (cualitativa o atributo y cuantitativa). A continuación, a través de tres ejemplos se analizará brevemente el tratamiento de: a) dos variables cualitativas (atributos) b) una variable cuantitativa y un atributo c) dos variables cuantitativas a) Dos variables cualitativas En un estudio sobre hábitos alimenticios, interesaba conocer si existía relación entre el consumo de productos dietéticos y el sexo. Se observaron 850 individuos. A continuación se presenta en forma parcial la matriz de datos: Consumo de productos dietéticos por sexo Individuo Sexo Consumo producto dietético 1 Mujer Consume 2 Hombre Consume 3 Mujer No consume 4 Mujer Consume 5 Mujer No consume 6 Hombre No consume 7 Mujer Consume ... ... … 850 Mujer Consume A partir de la matriz de datos se construye la siguiente tabla de contingencia: Sexo Consumen No consumen Total Hombre 150 300 450 Mujer 350 50 400 Total 500 350 850 1 Extraído y adaptado de Estadística aplicada en las Ciencias Sociales y Humanas. Estadística I. Autores: Aguirre, C.; Niño, M.; Simonetti, E./ Editorial Universitaria de Misiones. Posadas, 2005. Anexo Estadística Descriptiva G.Carnevalli-E.Franchelli-G.Gervasoni 2 En los márgenes de la tabla se observa que,de los 850 entrevistados 500 consumen productos dietéticos y 350 no los consumen. Considerando el sexo de los 850 entrevistados, 450 son hombre y 400 mujeres. En el cuerpo de la tabla (que contiene la distribución conjunta) se observa que del total de individuos observados 150 son hombres que consumen productos dietéticos y 300 no. De la mujeres 350 los consumen y 50 no. También se puede apreciar esta información en relación al total de individuos observados, lo que conduce a la siguiente tabla (en %) Sexo Consumen No consumen Total Hombre 18 35 53 Mujer 41 6 47 Total 59 41 100 Se puede decir que, por ejemplo: 53 % de los entrevistados son hombre 59 % de los entrevistados consumen productos dietéticos 18 % de los entrevistados son hombre que consumen productos dietéticos 6 % de los entrevistados son mujeres que no consumen productos dietéticos etc…… REPRESENTACIÓN GRÁFICA Consumo de productos dietéticos según sexo 0 5 10 15 20 25 30 35 40 45 Hombres Mujeres Sexo Po rc en ta je Consumen No consumen Anexo Estadística Descriptiva G.Carnevalli-E.Franchelli-G.Gervasoni 3 Consumo de productos dietéticos según sexo 0% 20% 40% 60% 80% 100% Hombres Mujeres Sexo Po rc en ta je No consumen Consumen b) Una variable cuantitativa y una cualitativa Se estudió la relación entre el gasto diario de turistas a un determinado lugar de veraneo y el medio de transporte utilizado. El siguiente gráfico resume la información obtenida: REPRESENTACIÓN GRÁFICA La comparación de los tres box-plots indica que aquellos que viajan en auto presentan en general gastos menores y menos dispersos que los que viajan en avión u ómnibus. A su vez, entre los que viajan en ómnibus se observa una mayor variabilidad de los gastos con Anexo Estadística Descriptiva G.Carnevalli-E.Franchelli-G.Gervasoni 4 una asimetría a la derecha. Los que viajan en avión tienen una mediana superior a los otros dos grupos y un valor anómalo u outlier. c) Dos variables cuantitativas Se estudió la relación entre el número de integrantes de 16 grupos turísticos que viajaron a un lugar de veraneo y el gasto diario que estos grupos realizaron. A continuación se presenta la matriz de datos: REPRESENTACIÓN GRÁFICA : DIAGRAMA DE DISPERSIÓN Gasto diario según número de integrantes del grupo turístico 0 100 200 300 400 500 600 0 1 2 3 4 5 6 7 Número de integrantes G as to d ia rio ($ ) Grupo Integrantes Gasto diario ($) 1 1 92 2 5 235 3 1 70 4 6 505 5 2 149 6 6 460 7 2 149 8 6 343 9 2 220 10 3 155 11 5 275 12 3 180 13 4 146 14 4 280 15 5 240 16 3 160 Variable independiente (x) : Número de integrantes del grupo Variable dependiente (Y) : Gasto diario del grupo (en $) 3.3. PROBABILIDAD CONTENIDO 3 PROBABILIDAD................... 46 3.1 INTRODUCCION.........................................................46 3.2 LENGUAJE DE LA PROBABILIDAD...................... 46 3.3 DEFINICIONES DE PROBABILIDAD...................... 48 3.3.1 DEFINICION FRECUENCIAL DE PROBABILIDAD.............................. 48 3.3.2 DEFINICION CLASICA DE PROBABILIDAD O DE LAPLACE........... 50 3.3.3 PROBABILIDAD SUBJETIVA.................................................................... 51 3.4 PROPIEDADES DE LA PROBABILIDAD............ 51 3.5 REGLAS DE LA PROBABILIDAD........................ 51 3.5.1 PROBABILIDAD SIMPLE (o MARGINAL).......................................... 52 3.5.2 PROBABILIDAD CONJUNTA................................................................. 53 3.5.3 REGLA DE LA SUMA.................................................................................. 54 3.5.4 PROBABILIDAD CONDICIONAL............................................................. 55 3.5.5 INDEPENDENCIA ESTADÍSTICA............................................................. 56 3.5.6 REGLA DE LA MULTIPLICACIÓN....................................................... 57 3.5.7 TEOREMA DE LAS PROBABILIDADES TOTALES............................ 59 3.5.8 TEOREMA DE BAYES............................................................................... 60 3.6 TRABAJO PRÁCTICO................................................62 PROBABILIDAD 3 PROBABILIDAD 3.1 INTRODUCCION Tal vez esté familiarizado con algunas ideas de probabilidad, ya que ésta forma parte de la cultura cotidiana. Con frecuencia se escucha a personas que hacen afirmaciones relacionadas con la probabilidad como las siguientes: Probablemente nuestro equipo gane esta noche. Hay un 40 % de probabilidad de que llueva mañana. Tengo una posibilidad de 50-50 de aprobar el examen de estadística de hoy. Es más probable que nos encontremos un fin de semana que un día de la semana. ¿Qué significan exactamente este tipo de expresiones? ¿Significan de hecho lo que afirman?. Algunas afirmaciones pueden estar basadas en información científica y otras en prejuicios subjetivos. Cualquiera que sea el caso, son inferencias probabilísticas: no hechos, sino conjeturas. Como ya se vio en el ejemplo de las elecciones de gobernador e intendente (capítulo 1, pag. 5), no se puede tener la certeza de que el porcentaje de votos obtenido por un candidato cualquiera aparezca en una muestra aleatoria. Sin embargo, es “probable” que el porcentaje en la muestra resulte “próximo” al que se obtuvo en el acto eleccionario. Se tiene como propósito definir “probable”, “próximo”, de manera más precisa. Para ello es necesario considerar en primer término una serie de nociones básicas sobre el conocimiento de las “leyes de probabilidad”. En este capítulo se estudiará el concepto básico de probabilidad y sus reglas aplicadas a sucesos simples y sucesos compuestos. La teoría de la probabilidad es la base de la inferencia estadística y un instrumento esencial en el análisis de la variabilidad. 3.2 LENGUAJE DE LA PROBABILIDAD Experimento aleatorio Es el tipo de fenómenos de que nos ocuparemos. Se caracterizan porque: aunque no se puede saber el resultado particular que ocurrirá, se puede describir el conjunto de todos los resultados posibles después de un gran número de repeticiones de la experiencia aleatoria, existe una distribución regular de los resultados. Es decir, a medida que el experimento se repite los resultados parecen ocurrir de manera caprichosa, sin embargo, ante un gran número de repeticiones aparece un modelo definido de regularidad. Esta regularidad hace posible la construcción de un modelo matemático que permite el análisis del experimento. Esto se puede visualizar en el ejemplo del lanzamiento de una moneda (ver punto. 3.3.1, pag. 49). G.Carnevalli-E.Franchelli-G.Gervasoni 46 PROBABILIDAD “Aleatorio” en estadística no significa de cualquier manera, sino que se refiere a una clase de orden que únicamente aparece a largo plazo. Espacio muestral y sucesos En una experiencia aleatoria cada resultado se conoce con el nombre de suceso. Se llama suceso elemental a todo resultado simple. Por ejemplo, si se considera la experiencia aleatoria de tirar un dado, cada uno de los resultados: 1, 2, 3, 4, 5 y 6 son sucesos elementales. Al conjunto de todos los sucesos elementales posibles se lo llama espacio muestral (S) En el ejemplo S = {1, 2 , 3 , 4 , 5 , 6 } Simbólicamente: S = {s1, s2, s3..... } El espacio muestral puede ser finito o infinito, numérico o no numérico Un suceso que no puede ocurrir ante una repetición de la experiencia aleatoria es un suceso imposible. Se lo suele indicar ∅. Relaciones entre sucesos Sean A, B y C sucesos asociados a una experiencia aleatoria. Las posibles relaciones entre los mismos se muestran a continuación gráfica y simbólicamente: a Complemento A ∪ A = S b Mutuamente excluyentes
Compartir