Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
22.. ESTADISTICA DESCRIPTIVA CONTENIDO 2 ESTADISTICA DESCRIPTIVA.................................10 2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS .................................11 2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO .................................11 2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA ........ 14 2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA ....... 16 2.1.4 GRAFICAS DE SERIE DE TIEMPO ...........................................................22 2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS ................................................................................................... 25 2.2.1 MEDIDAS DE POSICION .......................................................................... 26 2.2.2 MEDIDAS DE DISPERSIÓN ...................................................................... 29 2.2.3 COEFICIENTE DE VARIACION .............................................................. 32 2.3 REGLA EMPIRICA ............................................................................................ 33 2.4 DIAGRAMAS DE CAJA O BOX - PLOT ......................................................... 34 2.5 TRANSFORMACIONES LINEALES ............................................................... 36 2.6 TRABAJO PRACTICO ...................................................................................... .38 ESTADÍSTICA DESCRIPTIVA 11 G.Carnevali-E.Franchelli-G.Gervasoni 2 ESTADISTICA DESCRIPTIVA Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas, se procede a la recolección de los datos (censo o muestra). Considerando que el conjunto de datos constituye una muestra, en este capítulo se estudian algunas de las técnicas más usadas para: • la presentación de los mismos en forma ordenada ( tablas y gráficos) • el cálculo de medidas resúmenes. Antes de analizar los datos es importante determinar primero si se recogieron datos cualitativos o cuantitativos ya que se usan técnicas estadísticas distintas para cada uno de ellos, por lo que se pueden esperar resultados erróneos si se aplica una técnica inapropiada. 2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS Una forma útil de presentar un conjunto de datos es la distribución de frecuencias. 2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO Ejemplo : Los siguientes datos representan la condición en Matemática Discreta de los alumnos de la carrera de Ingeniería en Sistemas de Información de la U.T.N., Reg. Rosario, inscriptos en la asignatura Probabilidad y Estadística, en el año 2002 Condición Número de alumnosnk Proporción de alumnos fk Aprobada 119 0,24 Regular 320 0,64 Cursada 13 0,03 Cursando 44 0,09 Sin cursar 3 0 Totales 499 1,00 Característica en estudio: Condición en Matemática Discreta (variable cualitativa o atributo) Para armar la distribución de frecuencias se particionó al conjunto de los 499 alumnos inscrip- tos en Probabilidad y Estadística en el año 2002 en subconjuntos o clases según los niveles del atributo (en el ejemplo 5 niveles que se corresponden con las condiciones de: aprobada, regular, cursada, cursando y sin cursar). El número de elementos que pertenecen a cada clase recibe el nombre de frecuencia absolu- ta (nk). El cociente entre la frecuencia absoluta y el número total de observaciones recibe el nombre de frecuencia relativa ( fk ). La suma de las frecuencias absolutas es igual al número total de observaciones y en conse- cuencia, la suma de las frecuencias relativas es siempre igual a 1. ESTADÍSTICA DESCRIPTIVA 12 G.Carnevali-E.Franchelli-G.Gervasoni Es muy frecuente expresar a las frecuencias relativas como porcentaje; así en el ejemplo dire- mos que sólo el 24 % de los alumnos que cursaron Probabilidad y Estadística en el 2002, tenían aprobada la asignatura Matemática Discreta. REPRESENTACION GRAFICA GRAFICO CIRCULAR O SECTORES (realizado en Excel, con asistente de gráfico ) Condición en Matemática Discreta de los alumnos que cursan Prob. y Estadística - año 2002 Aprobada 24% Regular 64% Cursada 3% Cursando 9% Sin cursar 0% GRAFICO DE BARRAS (realizado en Excel con asistente de gráfico) Condición en Matemática Discreta de los alumnos inscriptos en Probabilidad y Estadística - 2002 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 Aprobada Regular Cursada Cursando Sin cursar Condición fre c. re la tiv a ESTADÍSTICA DESCRIPTIVA 13 G.Carnevali-E.Franchelli-G.Gervasoni DIAGRAMA DE PARETO Es un caso especial del diagrama de barras, que se usa con frecuencia en control de calidad. Las barras se grafican en orden descendente. Puede también incluir una segunda escala (del 0 al 100), encima de las barras de las clases, que muestre los porcentajes acumulados. Este tipo de diagrama lleva el nombre del economista italiano V. Pareto y en general represen- ta la “ ley de Pareto”, esto es: la mayor parte de los defectos aparece sólo en unas pocas cate- gorías. Ejemplo : Un analista de redes registró las causas principales que propiciaron fallas en los sistemas durante los últimos seis meses, obteniendo el siguiente resultado: Razón de la falla Frecuencia Conexión física 1 Falla eléctrica 8 Software del servidor 28 Hardware del servidor 4 Servidor sin memoria disponible 14 Ancho de banda inadecuado 1 Este resultado se presenta en un diagrama de Pareto (obtenido a través del software estadísti- co SPSS) Razón de la falla Conexión física Ancho de banda Hardware Falla eléctrica Sin memoria Soft servidor C ou nt 60 50 40 30 20 10 0 P ercent 100 50 04 8 14 28 ESTADÍSTICA DESCRIPTIVA 14 G.Carnevali-E.Franchelli-G.Gervasoni 2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA Ejemplo : Un distribuidor de aspiradoras registra el número de unidades vendidas por día durante un período de 50 días. Los resultados obtenidos fueron: 84 88 87 89 88 89 88 91 87 85 88 89 90 88 87 91 86 89 85 88 86 90 89 84 91 92 89 88 94 90 87 89 91 86 90 89 91 92 89 88 85 88 87 88 91 87 92 90 85 87 Característica en estudio: número de aspiradoras vendidas por día (variable discreta) A fin de ordenar la información se particiona al conjunto de 50 días en clases, según la variable en estudio: número de aspiradoras vendidas por día y se realiza el cómputo de frecuencias según se indica en la siguiente: DISTRIBUCION DE FRECUENCIAS Valor de la variable xk Cómputo de Frecuencias Frecuencia absoluta nk Frecuencia relativa fk Frecuencia absoluta acu- mulada Nk Frecuencia relativa acumulada Fk 84 // 2 0,04 2 0,04 85 //// 4 0,08 6 0,12 86 /// 3 0,06 9 0,18 87 //// // 7 0,14 16 0,32 88 //// //// 10 0,20 26 0,52 89 //// //// 9 0,18 35 0,70 90 //// 5 0,10 40 0,80 91 //// / 6 0,12 46 0,92 92 /// 3 0,06 49 0,98 93 0 0,00 49 0,98 94 / 1 0,02 50 1,00 Total 50 1,00 La frecuencia absoluta acumulada ( Nk ) es la cantidad de elementos correspondientes a va- lores de la variable menores o iguales a xk. La frecuencia relativa acumulada ( Fk ) es la proporción de elementos cuyo valor de la varia- ble es menor o igual que xk. ESTADÍSTICA DESCRIPTIVA 15 G.Carnevali-E.Franchelli-G.Gervasoni REPRESENTACION GRAFICA GRAFICO DE BASTONES (realizado en Excel con Análisis de datos1) El mismo se obtiene representando la frecuencia (absoluta o relativa) correspondiente a cada valor de la variable mediante un segmento cuya longitud es proporcional a la frecuencia. GRAFICO ESCALONADO 1 Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45. 0 0,05 0,1 0,15 0,2 0,25 83 84 85 86 87 88 89 90 91 92 93 94 número de aspiradoras fre cu en ci a re la tiv a 0 0,2 0,4 0,6 0,8 1 83 84 85 86 87 88 89 90 91 92 93 94 95 Número de aspiradoras Fr ec . r el . a cu m ul ad a ESTADÍSTICA DESCRIPTIVA 16 G.Carnevali-E.Franchelli-G.Gervasoni dígitos tallo dígitos hoja 8 5 11 7 Si el número de observaciones hubiese sido pequeño (supongamos las dos primeras colum- nas), el tratamiento de la información se haría a través de un: DIAGRAMA DE PUNTOS • • • • • • • • • • 84 85 86 87 88 89 90 91 número de aspiradoras 2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA Ejemplo: Con el propósito de adecuar los objetivos curriculares de una escuela, se decide analizar la realidad socioeconómica de la familia a la cual pertenecen los alumnos ingresantes en un año determinado. A tal fin se registran para cada uno de ellos (entre otros datos) la superfi- cie cubierta de la vivienda que habita la familia del alumno ingresante. Los resultados obte- nidos para 30 alumnos ingresantes seleccionados al azar fueron: 85 - 117 - 92 - 120 - 94 - 110 - 151 - 90 - 80 - 116 - 95 - 102 - 100 - 113 - 118 - 140 - 133 - 108 - 115 - 148 - 110 - 130 - 100 - 120 - 108 - 125 - 105 - 130 - 112 - 150 Característica en estudio: superficie cubierta de la vivienda, en m2 (variable continua). DIAGRAMA DE TALLO-HOJA Como un paso previo a la construcción de la distribución de frecuencias, los datos pueden or- ganizarse en un diagrama de tallo-hoja. En este tipo de diagramas, cada valor observado se descompone en “dígitos tallo” y “dígitos hoja”. En el ejemplo planteado, la decena y la centena de cada valor observado forman los “dígitos tallo” y la unidad el “dígito hoja”. Así, para las dos primeras observaciones (85 y 117) resultan: Es conveniente presentar a los dígitos hoja ordenados en forma creciente para facilitar la pos- terior utilización del diagrama tallo-hoja, tanto en forma gráfica como tabular. ESTADÍSTICA DESCRIPTIVA 17 G.Carnevali-E.Franchelli-G.Gervasoni En el ejemplo, resulta el diagrama de tallo-hoja realizado con PHStat 2 : 8 0 5 9 0 2 4 5 10 0 0 2 5 8 8 11 0 0 2 3 5 6 7 8 12 0 0 5 13 0 0 3 14 0 8 15 0 1 DISTRIBUCION DE FRECUENCIAS Otra forma de organizar la información es individualizando entre los datos, el valor mínimo (80 m2) y el máximo (151 m2) que asume la variable. La diferencia entre ambos valores (en este caso 71 m2) se llama rango. Los 28 valores restantes pertenecen al intervalo [ 80, 151]. Para poder realizar el respectivo cómputo de frecuencias, dicho intervalo se particiona en sub- intervalos de igual amplitud. Cada uno de ellos identifica a una clase y recibe el nombre de in- tervalo de clase. Cuando se agrupan datos a través de intervalos de clase, se produce una pérdida de informa- ción por la no conservación de los valores individuales. Demasiados intervalos provoca pérdida de efectividad como medio de resumir datos; en cambio, pocos intervalos condensan tanto la información que arrojan poca luz sobre el comportamiento de la característica. La elección del número de subintervalos está estrechamente relacionada con la cantidad de datos que se consideran. Es común usar entre 5 y 20 subintervalos. Suele aplicarse una regla práctica que indica que el número de subintervalos es aproximada- mente igual a la raíz cuadrada del número de observaciones. Para el ejemplo dado, se tomarán 6 subintervalos, dado que 30 = 5,4772 Cuando se fijan los intervalos de clase, se debe tener en cuenta que: Deben ser semiabiertos para que cada valor de la variable pertenezca a uno y sólo uno de los intervalos. En el ejemplo : 79 < x ≤ 91 ó ( 79 , 91] El punto medio de cada intervalo de clase debe ser un posible valor de la variable (de acuerdo a las restricciones con las que se expresan los valores de las observa- ciones). En el ejemplo los puntos medios deben ser valores enteros a pesar de que la variable es continua. Es preferible, por facilidad en el análisis, que los intervalos posean igual amplitud. 2 PHStat es un complemento estadístico para Microsoft Excel incluido en el CD que acompaña al libro Estadística para Adminis- tración (2da edición) de Berenson, M; Levine , D. y Krehbiel,T.; editorial Pearson Educación, México, 2001. ESTADÍSTICA DESCRIPTIVA 18 G.Carnevali-E.Franchelli-G.Gervasoni La tabla siguiente muestra la distribución de frecuencias del ejemplo : Intervalo de clase Punto medio Frecuencia absoluta Frecuencia relativa Frecuencia absoluta acumulada Frecuencia relativa acumulada 79 < x ≤ 91 85 3 0,10 3 0,10 91 < x ≤ 103 97 6 0,20 9 0,30 103 < x ≤ 115 109 8 0,27 17 0,57 115 < x ≤ 127 121 6 0,20 23 0,77 127 < x ≤ 139 133 3 0,10 26 0,87 139 < x ≤ 151 145 4 0,13 30 1,00 30 1,00 REPRESENTACION GRAFICA HISTOGRAMA • Las bases de las barras tienen la longitud igual a la amplitud del intervalo de clase que representan y se ubican sobre el eje de la abscisa. • El área de cada barra es proporcional a la frecuencia del intervalo de clase. • Si los intervalos de clase son de igual amplitud, las alturas de las barras resultan propor- cionales a las frecuencias de las clases. En caso de amplitudes diferentes, las alturas de- ben ser calculadas para que se verifique la condición anterior. Para el ejemplo, se presenta a continuación la distribución de frecuencia y el histograma reali- zado en Excel con Análisis de datos:3 Clases Frecuencia Frec. acumulada 79 0 0 91 0,10 0,10 103 0,20 0,30 115 0,27 0,57 127 0,20 0,77 139 0,10 0,87 151 0,13 1 163 0 1 3 Ver pasos a seguir para su utilización en el punto 2.7: Complemento para el uso de Excel, pag 45 ESTADÍSTICA DESCRIPTIVA 19 G.Carnevali-E.Franchelli-G.Gervasoni 0 0,05 0,1 0,15 0,2 0,25 0,3 79 91 103 115 127 139 151 163 Superficie cubierta (en m2) Fr ec ue nc ia Los histogramas son más fáciles de interpretar si los intervalos de clase tienen la misma ampli- tud. El histograma,al igual que el diagrama de tallo-hoja, proporciona una impresión visual del as- pecto que tiene la distribución de las observaciones, así como información sobre la dispersión de los datos. Al pasar de los datos originales o del diagrama de tallo-hoja a la distribución de frecuencias y al histograma, se pierde parte de la información debido a que ya no se tienen las observaciones originales. Sin embargo, esta pérdida en la información a menudo es pequeña si se le compara con la facilidad de interpretación ganada al utilizar la distribución de frecuencias y el histogra- ma. Para conjuntos de datos pequeños, los histogramas pueden cambiar claramente de apariencia si el número de clases o el ancho de éstas cambia. Los histogramas son más estables si el número de observaciones es grande. POLIGONO DE FRECUENCIAS Otra forma de representar gráficamente la distribución de frecuencias absolutas o relativas es a través del polígono de frecuencias. Si se considera una distribución de frecuencias con intervalos de clase de igual amplitud, el polígono está referido a un sistema coordenado donde cada vértice tiene por abscisa el punto medio del intervalo y por ordenada la frecuencia del intervalo de clase. Para hallar los puntos de iniciación y finalización del polígono, se consideran dos intervalos de clase (uno anterior al primero y otro posterior al último) de igual amplitud a los restantes y de frecuencia cero. Se demuestra mediante la igualdad de triángulos que el polígono así construido encierra igual área que el histograma. ESTADÍSTICA DESCRIPTIVA 20 G.Carnevali-E.Franchelli-G.Gervasoni 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 67 79 91 103 115 127 139 151 163 Sup. cubierta (en m2) Fr ec . r el at iv a ac um ul ad a Para el ejemplo: POLIGONO DE FRECUENCIAS ACUMULADAS De igual forma se puede construir el polígono de frecuencias acumuladas como se muestra en la siguiente figura: 0 0,05 0,1 0,15 0,2 0,25 0,3 73 85 97 109 121 133 145 157 sup. cubierta (en m2) fre cu en ci a re la tiv a ESTADÍSTICA DESCRIPTIVA 21 G.Carnevali-E.Franchelli-G.Gervasoni Se presenta a continuación otro ejemplo sobre variable continua 4 : Los datos de la siguiente tabla representan la resistencia a la tensión, en libras por pul- gada cuadrada (psi), de 80 muestras de una nueva aleación de aluminio y litio, que está siendo evaluada como posible material para la fabricación de elementos estructurales de ae- ronaves. Resistencia a la tensión de 80 muestras de aleación de aluminio-litio 105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181 158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178 76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148 158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149 Los datos fueron registrados conforme se realizaba la prueba y en este formato no conllevan mucha información con respecto a la resistencia a la tensión. No es fácil responder a preguntas tales como “¿Qué porcentaje de las muestras fallaron debajo de los 120 psi?”. Dado que se tienen muchas observaciones, la construcción de un diagrama de puntos para estos datos es ineficiente; existen presentaciones visuales más eficaces para conjuntos gran- des de datos. Una de ellas es el ya visto diagrama de tallo y hoja: Tallo Hoja Frecuencia 7 6 1 8 7 1 9 7 1 10 5 1 2 11 5 8 0 3 12 1 0 3 3 13 4 1 3 5 3 5 6 14 2 9 5 8 3 1 6 9 8 15 4 7 1 3 4 0 8 8 6 8 0 8 12 16 3 0 7 3 0 5 0 8 7 9 10 17 8 5 4 4 1 6 2 1 0 6 10 18 0 3 6 1 4 1 0 7 19 9 6 0 9 3 4 6 20 7 1 0 8 4 21 8 1 22 1 8 9 3 23 7 1 24 5 1 4 Ejemplo extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger Geor- ge.- Mc Graw Hill – México, 1996. pag. 5 ESTADÍSTICA DESCRIPTIVA 22 G.Carnevali-E.Franchelli-G.Gervasoni Otra gráfica apropiada es el histograma. Nótese en la figura siguiente la simetría de la distribu- ción de frecuencias de las mediciones de resistencia. 2.1.4 GRAFICAS DE SERIE DE TIEMPO 5 Las gráficas consideradas hasta el momento (histogramas, diagramas de tallo y hoja) son mé- todos visuales muy útiles para mostrar la variabilidad presente en los datos. Sin embargo, con frecuencia el tiempo es un factor importante que contribuye a la variabilidad observada en los datos, y los métodos anteriores no lo toman en cuenta. Una serie de tiempo, o secuencia de tiempo, es un conjunto de datos en los que las observaciones se registran en el orden en que ocurren. La gráfica de una serie de tiempo es un diagrama en el que el eje vertical denota el valor observado (por ejemplo x), mientras que el eje horizontal denota el tiempo (que puede ser minutos, días, años, etc.). Cuando se grafican las mediciones como una serie de tiempo, a me- nudo se observan tendencias, ciclos u otras características importantes de los datos que, de otra forma, pasarían inadvertidas. Por ejemplo, considérese la figura 1-18 a, la cual presenta la gráfica de una serie de tiempo de las ventas anuales de una compañía durante los últimos diez años. La impresión general que ofrece esta gráfica es que las ventas tienen una tendencia a crecer. Existe cierta variabilidad en esta tendencia, donde, las ventas en algunos años aumentaron con respecto a las del año anterior, mientras que las ventas de otros años disminuyeron. La figura 1-18 b presenta las ventas de los tres últimos años notificadas por trimestre. Esta gráfica muestra de manera clara que las ventas anuales de la empresa exhiben una variabilidad cíclica por trimestre, donde las ventas en los dos primeros trimestres son mayores que en los dos últimos. 5 Extraído de “Probabilidad y Estadística aplicada a la Ingeniería” de Montgomery Douglas, Runger George.- Mc Graw Hill – México, 1996. pag. 33 ESTADÍSTICA DESCRIPTIVA 23 G.Carnevali-E.Franchelli-G.Gervasoni a) b) Figura 1-18 Ventas de una compañía por año a) y por trimestre b) Algunas veces puede ser útil combinar las gráficas de serie de tiempo con alguno de los tipos de presentación gráfica considerados hasta el momento, por ejemplo con los diagramas de tallo y hoja, para formar un diagrama de dígitos y líneas. La figura 1.19 presenta un diagrama de dígitos y líneas para las observaciones de resistencia a la tensión del ejemplo de la página 23, que como se dijo, fueron registradas en el orden en que ocurrieron. Esta gráfica indica de manera eficaz la variabilidad total de los datos de resistencia a la tensión y, de manera simultánea, presenta la variabilidad en las mediciones con el paso del tiempo. La impresión general es que la resistencia cambia alrededor del valor medio de 162,67, y no hay ningún patrón obvio sobre esta variabilidad con respecto al tiempo. ESTADÍSTICA DESCRIPTIVA 24G.Carnevali-E.Franchelli-G.Gervasoni El diagrama de dígitos y líneas de la figura 1.20 presenta una situación diferente. Esta gráfica resume 30 observaciones sobre la concentración de un producto obtenido mediante un proceso químico, donde las observaciones se registraron a intervalos de una hora. La gráfica indica que, durante las primeras 20 horas de operación, el proceso produjo concentraciones en gene- ral por encima de 85 g/l, pero después de la muestra 20 algo ocurrió con el proceso, que dio como resultado concentraciones más bajas. Si esta variabilidad en la concentración del pro- ducto puede reducirse, entonces es posible mejorar la operación del proceso. ESTADÍSTICA DESCRIPTIVA 25 G.Carnevali-E.Franchelli-G.Gervasoni 2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE FRECUENCIAS. Las medidas que resumen la información de una distribución de frecuencias reciben el nombre de: ESTADISTICOS de acuerdo a la información que brindan pueden ser de POSICION DISPERSION Media Media Mediana Moda Fractilas Rango Varianza Desvío estándar Desvío Inter- cuartílico ESTADÍSTICA DESCRIPTIVA 26 G.Carnevali-E.Franchelli-G.Gervasoni 2.2.1 MEDIDAS DE POSICION Se llaman también de tendencia central y están referidas a la posición de la distribución de frecuencias sobre el eje de las abscisas. Ellas son : NOMBRE NOTACION DEFINICION Media aritmética x Es el promedio de las observaciones Moda x̂ Es el valor de la variable con mayor frecuen-cia Mediana x~ Es el mínimo valor de la variable que acu- mula, por lo menos, el 50 % de las observa- ciones ordenadas en forma creciente Cuartiles Fractilas Deciles Percentiles q1 q2 q3 d1 d2 ...... d9 p1 p2 ........p99 Son los mínimos valores de la variable que acumulan respectivamente, por lo menos : el 25% , el 50% y el 75% de las obser- vaciones ordenadas en forma creciente. el 10% , el 20% ........el 90% de las ob- servaciones ordenadas en forma creciente. el 1% , el 2% ........ el 99% de las ob- servaciones ordenadas en forma creciente. ESTADÍSTICA DESCRIPTIVA 27 G.Carnevali-E.Franchelli-G.Gervasoni Media aritmética o promedio muestral Es la más conocida y utilizada de las medidas de posición. No coincide necesariamente con un valor de la variable. Para el cálculo del promedio de n observaciones de la variable X ( xi con i = 1, 2,.......n ), resulta: ∑ = = n i ix n x 1 1 ( 1 ) Si las n observaciones están agrupadas en r clases , la fórmula (1) resulta : ∑∑ == == r i ii r i ii fxnxx n 11 1 ( 2 ) • En los casos en que las observaciones se encuentren agrupadas en intervalos de clase, se le da a xi el valor del punto medio del intervalo de clase correspondiente. Características del promedio: • Toma en consideración toda la información por lo tanto es muy sensible a la influencia de los valores extremos, lo que puede ser una ventaja o desventaja, según la situación. • Es una medida de posición útil para comparar dos o más distribuciones, sólo si éstas tienen forma semejante. Moda Es el valor de la variable con mayor frecuencia. Características de la moda: • Algunos conjuntos de observaciones no poseen moda. • Algunos conjuntos de observaciones tienen más de una moda. Mediana Es el mínimo valor de la variable que acumula, por lo menos, el 50 % de las observaciones ordenadas en forma creciente, por tal razón es uno de los llamados estadísticos de orden. 5,0)~(/~ ≥xFx ESTADÍSTICA DESCRIPTIVA 28 G.Carnevali-E.Franchelli-G.Gervasoni Característica de la mediana: • Al no tomar en cuenta toda la información pues depende de la cantidad de observaciones y no de la magnitud de ningún valor extremo, no es sensible a dichos valores extremos. Fractilas Se trabajan en forma similar a la mediana. Ejercicios 1. Indique cómo calcularía la mediana en los siguientes casos : si se tiene un número impar de observaciones, por ej. : 7 , 12 , 15 , 10 , 4 si se tiene un número par de observaciones, por ej. : 4 , 17 , 15 , 10 , 12 , 7 si las observaciones se encuentran clasificadas en clases (ej. apartado 2.1.2, pag. 14) si las observaciones se encuentran agrupadas en intervalos de clase (ej. apartado 2.1.3 , pag. 18 ) 2. Los últimos diez días de junio, el tren “ Costa Especial ” llegó tarde a su destino en los siguientes números de minutos ( un número negativo significa que el tren llegó con anti- cipación): 3 , 6 , 4 , 10 , - 4 , 124 , 2 , - 1 , 4 , 1 ¿Qué medidas de posición utilizaría Ud. para : mostrar que el tren ofrece un buen servicio? mostrar que el tren ofrece un mal servicio? COMPARACION DE MEDIA ARITMETICA, MEDIANA Y MODA Distribución Simétrica Media Mediana Moda ESTADÍSTICA DESCRIPTIVA 29 G.Carnevali-E.Franchelli-G.Gervasoni Distribuciones Asimétricas o Sesgadas Distribución asimétrica a la derecha Distribución asimétrica a la izquierda 2.2.2 MEDIDAS DE DISPERSIÓN Analizando comparativamente las siguientes distribuciones se observa que a pesar de que es- tán igualmente centradas, los valores de la variable de cada una de ellas están alejados del promedio de manera distinta. Esta situación hace ver la necesidad del estudio de otro tipo de medida característica de las distribuciones de frecuencias que son llamadas de dispersión. ESTADÍSTICA DESCRIPTIVA 30 G.Carnevali-E.Franchelli-G.Gervasoni Dicha información se obtiene a través de los siguientes estadísticos de dispersión: NOMBRE NOTACION DEFINICION Rango r Es la diferencia entre el mayor y el menor valor de las observa- ciones Varianza muestral s2n-1 Es el promedio, aproximado, de los cuadrados de las diferencias entre los valores de las observa- ciones y su correspondiente media aritmética Desvío estándar muestral s Es la raíz cuadrada positiva de la varianza. Recorrido intercuartílico riq Es la diferencia entre el cuartil 3 y el cuartil 1. Rango Es la diferencia entre el máximo valor de las observaciones(xM) y el mínimo valor de las mismas (xm ) r = xM - xm Proporciona una primera información sobre la dispersión de los valores pero basta que al menos uno de los dos valores que intervienen en su cálculo esté excesivamente alejado pa- ra que pierda importancia la información que brinda. Varianza muestral Es el promedio, aproximado, de los cuadrados de los desvíos de las observaciones con res- pecto a su media aritmética. ( ) i r i n nxxin s ∑ = − −− = 1 22 1 1 1 Si el denominador hubiese sido n en lugar de n-1, se hubiera obtenido el promedio de los cuadrados de los desvíos de las observaciones con respecto al promedio de las mismas. Sin ESTADÍSTICA DESCRIPTIVA 31 G.Carnevali-E.Franchelli-G.Gervasoni embargo, n-1 se usa aquí debido a ciertas propiedades deseables del estadístico s2 que lo hacen apropiado para la inferencia estadística. Si el tamaño de la muestra es grande, la dife- rencia entre s2n y s2n-1 es despreciable. La varianza está expresada en unidades al cuadrado, lo que representa una desventaja para su interpretación. Desvío estándar muestral Es la raíz cuadrada positiva de la varianza muestral. 2 1−= nss Este estadístico tiene la ventaja de estar expresado en la misma unidad de las observacio- nes Recorrido intercuartílico Es la diferencia entre el tercer cuartil y el primer cuartil. riq = q3 - q1 Se darán a continuación las medidas características calculadas para los dos ejemplos trabaja- dos con variable discreta y con variable continua. Las mismas fueron obtenidas en Excel con Análisis de datos, en la opción Estadística Descriptiva : Para el ejemplo del apartado 2.1.2 correspondiente al número de aspiradoras vendidas diariamente por un distribuidor, las mismas resultaron : Número de Aspiradoras Media 88,44 Error típico 0,32 Mediana 88,00 Moda 88,00 Desviación estándar 2,23 Varianza de la muestra 4,99 Curtosis -0,22 Coeficiente de asimetría 0,05 Rango 10 Mínimo 84 Máximo 94 Suma 4422 Cuenta 50 ESTADÍSTICA DESCRIPTIVA 32 G.Carnevali-E.Franchelli-G.Gervasoni Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las viviendas de los alumnos ingresantes a una escuela las mismas resultaron : Superficie cubierta (en m2) Media 113,90 Error típico 3,41 Mediana 112,50 Moda 120,00 Desviación estándar 18,70 Varianza de la muestra 349,54 Curtosis -0,33 Coeficiente de asimetría 0,35 Rango 71 Mínimo 80 Máximo 151 Suma 3417 Cuenta 30 2.2.3 COEFICIENTE DE VARIACION Es una medida de variación relativa. Se simboliza c.v. y es igual a : 100... x svc = Es el desvío estándar expresado como porcentaje de la media aritmética, por lo tanto no viene expresado en unidades. Es útil para la comparación de la variabilidad relativa entre distribuciones que no están expre- sadas en la misma unidad de medida o bien, entre distribuciones que si bien están expresadas en la misma unidad, poseen promedios muy dispares. Ejemplo : En febrero del año pasado, los datos de préstamos personales de una mutual mostraron un promedio de $650 y una desviación estándar de $300. Recientemente se calculó la media y la desviación estándar correspondiente a los préstamos personales de febrero del presente año resultando las mismas $ 900 y $ 350 respectivamente. ¿En cuál de los dos años los préstamos personales presentaron menor dispersión relati- va? c.v. año pasado = ( 300 / 650 ) . 100 = 45% c.v. presente año = ( 350 / 900 ) . 100 = 39% La menor dispersión relativa se presenta en los préstamos personales otorgados este año por la mutual. ESTADÍSTICA DESCRIPTIVA 33 G.Carnevali-E.Franchelli-G.Gervasoni 2.3 REGLA EMPIRICA Es posible que dos conjuntos de datos distintos tengan el mismo rango pero difieran conside- rablemente en el grado de variación de los datos. En consecuencia, el rango es una medida relativamente insensible de la variación de los datos. La varianza tiene importancia teórica, pe- ro es difícil de interpretar porque las unidades de medición de la variable de interés están ele- vadas al cuadrado. En cambio, las unidades de medición de la desviación estándar son las unidades de la variable. Si la desviación estándar se combina con la media del conjunto de datos, resulta fácil interpretarla. Una regla práctica útil es la que se conoce como regla empí- rica, a saber: Si un conjunto de datos tiene una distribución aproximadamente simétrica se pueden utilizar las siguientes reglas prácticas para describir el conjunto de datos: Aproximadamente el 68 % de las observaciones quedan a una desviación estándar de su media (es decir, dentro del intervalo s±x ) Aproximadamente el 95 % de las observaciones quedan a dos desviaciones estándar de su media (es decir, dentro del intervalo s 2±x ) Casi todas las observaciones quedan a tres desviaciones estándar de su media (es de- cir, dentro del intervalo s 3±x ) La regla empírica es el resultado de la experiencia práctica de investigadores en muchas disci- plinas, que han observado muy diferentes tipos de conjuntos de datos de la vida real. Fuente : Estadística Elemental. Johnson – Kuby pag 82 ESTADÍSTICA DESCRIPTIVA 34 G.Carnevali-E.Franchelli-G.Gervasoni Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las viviendas de los alumnos ingresantes a una escuela, la media es 113,8 m2 y la desvia- ción estándar 18,267 m2. Las proporciones del número total de observaciones que se esperaría encontrar en los intervalos s ±x , s 2 ±x y s 3±x según la regla empírica, así como las propor- ciones reales, se presentan en la siguiente tabla: k x ± k s Proporción esperada de observaciones en el in- tervalo Proporción real de obser- vaciones en el intervalo 1 95,533 – 132,067 0,68 0,67 2 77,266 – 150,334 0,95 1,00 3 58,999 – 168,601 Aproximadamente 1,00 1,00 En caso de conocer la distribución de frecuencias, lógicamente se encuentran las proporciones reales de las observaciones para los distintos intervalos y no se aplica la regla empírica. 2.4 DIAGRAMAS DE CAJA O BOX - PLOT Representa los tres cuartiles junto con los dos valores extremos de las observaciones. Los diagramas de caja que se presentan a continuación ( confeccionados con PHStat ), corres- ponden a los datos observados para las características “número de aspiradoras vendidas” y “superficie cubierta de la vivienda” analizadas anteriormente en el desarrollo de las distribucio- nes de frecuencias de las variables discretas y continuas, respectivamente. Nº Aspiradoras Nº Aspiradoras 82 84 86 88 90 92 94 96 ESTADÍSTICA DESCRIPTIVA 35G.Carnevali-E.Franchelli-G.Gervasoni Superficie cubierta Superficie 70 90 110 130 150 El lado inferior de las cajas corresponde al primer cuartil, el lado superior al tercer cuartil y el segmento que divide a las cajas al segundo cuartil. Un segmento de recta une el lado inferior de las cajas con el mínimo valor observado y otro segmento une el lado superior de las cajas con el máximo valor observado. Constituyen una herramienta eficaz para el análisis de la simetría de una distribución de fre- cuencias y su estudio comparativo con otras distribuciones. ESTADÍSTICA DESCRIPTIVA 36 G.Carnevali-E.Franchelli-G.Gervasoni • DETECCION DE VALORES ANOMALOS (outliers) Hay ocasiones en que un conjunto de datos contiene observaciones inconsistentes y es proba- ble que no se desee incluirlas para su análisis. Cuando dichas observaciones se salen del in- tervalo de valores de datos que se quiere describir, se denominan valores anómalos u outliers. Una observación “x” que es inusualmente grande o pequeña en relación con los demás valores de un conjunto de datos se denomina valor anómalo. Uno de los métodos para determinar si una observación es un valor anómalo es observar si el valor absoluto de z es anormalmente grande. El valor “z” de un valor “x” de un conjunto de datos es la distancia a la que se encuentra x por arriba o por debajo de la media, medida en unidades de la desviación estándar: Estos valores por lo general son atribuibles a una de las siguientes causas: La observación se registra incorrectamente. La observación proviene de una población distinta. La observación es correcta pero representa un suceso poco común (fortuito) 2.5 TRANSFORMACIONES LINEALES Supongamos una variable “x” con media aritmética ( x ) y varianza ( s2x ) y una variable “y” de la forma: y = a + b x Se demuestra fácilmente que: • x b a y += ( media aritmética de la variable y ) • 2x 2 y s b s 2= ( varianza de la variable y ) • sy = ⏐b⏐ sx ( desvío estándar de la variable y ) En el caso b = 1, lo único que se hace es sumar una constante (a). La media aritmética de la nueva variable quedará incrementada en un valor igual al de la constante (a) y el desvío están- dar, que es una medida de dispersión, permanece igual. En cambio, si la variable es multiplicada por una constante b ≠ 1, esto produce una contracción o una dilatación de la distribución (según sea b menor o mayor que 1) lo que se refleja en la varianza. s x-x zValor = ESTADÍSTICA DESCRIPTIVA 37 G.Carnevali-E.Franchelli-G.Gervasoni Ejemplo : Sea la variable x : número de días completos trabajados en un año por operario de una fá- brica. Se conoce que el promedio de la variable x es 290,1 días con una desviación de 2,2 días. Cada día no trabajado ocasiona a la fábrica una pérdida de $ 150. Calcule la pérdida anual promedio por operario y su desvío estándar (considere 300 días la- borables en el año). y : pérdida anual por operario yi = ( 300 - xi ) 150 de donde : = ( 300 - 290,1 ) 150 = $ 1485 pérdida anual promedio por operario sy = 150 . 2,2 = $ 330 desviación estándar de la pérdida anual por operario y ESTADÍSTICA DESCRIPTIVA 38 G.Carnevali-E.Franchelli-G.Gervasoni 2.6 TRABAJO PRACTICO 1.- Analice los siguientes gráficos6. Comente. a ) El siguiente gráfico representa una reducción ( en el año 1990 con respecto al año ante- rior ) del 50% en el número de barriles de petróleo extranjero utilizado en el proceso de manufactura de productos de películas por una empresa. b) ¿Quién creen los propietarios que es el líder en bienes raíces? 6 Los gráficos fueron realizados por Diego Martínez Viademonte, alumno que cursó la asignatura en el año 2003 120,000 60,000 1989 1990 B ar ril es Liderazgo 3% 2% 2% 32% 11% COLDWELL BANKER E.R.A. GALLERY CENTURY otros ESTADÍSTICA DESCRIPTIVA 39 G.Carnevali-E.Franchelli-G.Gervasoni c) Chevrolet. Los camiones más formales y de mayor duración. Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino. Chevrolet. Los camiones más formales y de mayor duración. Más del 98% de los camiones Chevy vendidos durante los últimos 10 años siguen en el camino. Como una roca 95 96 97 98 CHEVY FORD TOYOTA NISSAN Camión Po rc en ta je Como una roca 0 10 20 30 40 50 60 70 80 90 100 CHEVY FORD TOYOTA NISSAN Camión Po rc en ta je ESTADÍSTICA DESCRIPTIVA 40 G.Carnevali-E.Franchelli-G.Gervasoni 2.- En una editorial se clasificaron las publicaciones del año anterior según su carácter y se obtuvo que el 45% de las publicaciones eran científicas, el 17% técnicas, 16% literarias, 12% artísticas y 10% de otro carácter. Presente un informe respecto a las publicaciones de la editorial. 3.- Una fábrica de estéreos desea estudiar la relación entre el número de piezas defectuosas y el momento de la jornada de trabajo en que se producen las mismas. Se fijaron tres perío- dos de la jornada : 6 – 7 horas ; 10 – 11 horas y 13 – 14 horas y en cada uno de ellos se observó durante treinta días el número de defectuosos. Los resultados obtenidos fueron: 1° período 4 8 1 10 4 6 3 4 5 6 10 5 4 7 8 6 10 6 3 9 7 7 6 5 6 6 5 7 9 5 2° período 6 3 2 6 4 6 5 5 7 9 8 8 5 6 6 7 4 6 6 4 5 7 7 6 4 6 6 5 5 7 3° período 4 11 5 12 6 9 9 14 8 12 10 9 12 11 11 13 12 12 10 11 9 13 9 14 10 12 8 10 7 13 Compare y concluya respecto de la relación entre el número de piezas defectuosas y el mo- mento de la jornada de trabajo. 4.- Los siguientes datos corresponden a los tiempos de duración (en segundos) de 100 temas de rock. Realiza un análisis descriptivo completo de la información: Tiempo Frecuencia 135 ≤ t < 145 8 145 ≤ t < 155 9 155 ≤ t < 165 18 165 ≤ t < 175 20 175 ≤ t < 185 35 185 ≤ t < 195 10 5.- A los efectos de organizar las compras de gaseosas para la fiesta de fin de curso de un instituto, se le preguntó a cada uno de los 200 integrantes de la comunidad educativa la ga- seosa preferida. Completa la siguiente tabla a doble entrada considerando que: ♦ el 20 % de los docentes y el 30 % de los alumnos prefieren naranja ♦ de los no docentes , el 40 % prefieren cola y el 20 % prefieren pomelo ♦ el porcentaje de alumnos que prefieren pomelo es igual al de los docentes que prefieren la misma gaseosa ESTADÍSTICA DESCRIPTIVA 41G.Carnevali-E.Franchelli-G.Gervasoni Integrantes Gaseosa Docentes No docentes Alumnos Totales Cola Pomelo 4 Naranja Totales 40 10 6.- Una compañía de seguros registró entre sus asegurados el número de accidentes del año 2003, obteniendo la siguiente información: Edad del asegurado N° de accidentes [18-28) [28-38) [38-48) [48-58) 58 y más Totales 0 748 821 786 720 672 1 84 50 41 66 60 2 41 15 12 16 25 más de 2 10 9 5 5 8 Totales En base al cuadro anterior responde: a) ¿Qué porcentaje de asegurados no tuvo accidentes durante 2003? b) Analiza en qué rango de edades hay el mayor y el menor porcentaje de asegurados que tuvieron al menos un accidente. c) Si la compañía decide no renovar el seguro a todos aquellos asegurados que hayan te- nido más de dos accidentes, ¿cuántos asegurados están en condiciones de renovar su seguro en 2004? d) ¿Cuál puede haber sido el objetivo de este estudio? e) La compañía decide dar un premio del 5% de descuento sobre el valor de la póliza del año 2004 a todos aquellos asegurados que no sufrieron accidentes en 2003. El valor promedio de cada póliza es de $ 3.200, ¿cuánto dejará de ganar la compañía en 2004 por la implementación de dicho premio? ESTADÍSTICA DESCRIPTIVA 42 G.Carnevali-E.Franchelli-G.Gervasoni 7.- La siguiente es la distribución de frecuencias de los sueldos de los empleados administrati- vos de una industria: Sueldo ( x ) ( en $ ) Número de empleados 200 < x ≤ 400 10 400 < x ≤ 600 25 600 < x ≤ 800 40 800 < x ≤ 1000 10 1000 < x ≤ 1200 2 a) Calcule las medidas descriptivas que crea conveniente para representar los datos e in- terprete sus resultados. b) El sueldo promedio de los 1000 operarios de esa industria es de $ 490. Obtenga el sueldo promedio para el conjunto de ambas categorías de empleados. c) Si conociera la mediana y la moda para la categoría de los operarios, ¿podría calcular esas medidas para el conjunto de todos los trabajadores de la industria? d) Si se aumentara en un 10 % el sueldo de cada empleado, calcule sueldo promedio y varianza. e) Si a cada empleado se le aumenta el sueldo en 50 $, calcule sueldo promedio y va- rianza. 8.- Los siguientes datos son mediciones de viscosidad de un producto químico tomadas cada hora (de arriba abajo y de izquierda a derecha). 47,9 48,8 48,6 43,2 43,0 47,9 48,1 48,0 43,0 42,8 48,6 48,3 47,9 43,5 43,1 48,0 47,2 48,3 43,1 43,2 48,4 48,9 48,5 43,0 43,6 48,1 48,6 48,1 42,9 43,2 48,0 48,0 48,0 43,6 43,5 48,6 47,5 48,3 43,3 43,0 a) Grafique de la manera más conveniente. b) Las especificaciones sobre la viscosidad del producto son 48 + 2. ¿Qué conclusiones puede obtener sobre el desempeño del proceso? ESTADÍSTICA DESCRIPTIVA 43 G.Carnevali-E.Franchelli-G.Gervasoni 9.- En un proceso de producción interesa controlar el diámetro ( X ) de un tipo de lata ( en mm ). Se seleccionan al azar 160 latas a las cuáles se les mide el diámetro y se obtiene la si- guiente distribución de frecuencias: Diámetro de las latas Cantidad de latas 83,4 ≤ x < 83,5 3 83,5 ≤ x < 83,6 12 83,6 ≤ x < 83,7 21 83,7 ≤ x < 83,8 30 83,8 ≤ x < 83,9 47 83,9 ≤ x < 84,0 28 84,0 ≤ x < 84,1 19 a) Indique la característica en estudio y clasifíquela. Dé la unidad elemental asociada a la va- riable o atributo. Grafique. b) Calcule la media aritmética, mediana, moda , desvío estándar. Analice la simetría. c) De otra muestra de 200 observaciones del diámetro de la lata mencionada se obtuvo un promedio de 83,93 mm con una desviación estándar de 0,20 mm. ¿Puede a partir de estos datos encontrar el promedio de las observaciones de las dos muestras? En caso afirmativo, encuéntrelo. En caso negativo, justifique porqué. d) ¿Cuál de la dos muestras (la primera de 160 observaciones y la segunda de 200 obser- vaciones) presenta menor dispersión relativa? Justifique la respuesta. 10.- Para comparar la capacidad de frenado de tres diseños de bandas de rodamiento, se mi- dió la distancia necesaria para detener un tipo de automóvil que se desplazaba sobre pa- vimento húmedo. Los neumáticos de cada diseño fueron probados en el mismo vehículo que circulaba sobre un pavimento húmedo controlado. Diseño A Diseño B Diseño C 37 – 36 – 34 – 40 – 38 - 32 33 – 34 – 35 – 38 – 42 - 34 40 – 39 – 41 – 41 – 40 - 43 Construya un gráfico de cajas para cada uno de los tres diseños y presente un informe con sus conclusiones.
Compartir