Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Análisis estadístico Principios de estadística y Estadística descriptiva 1 Estadística inferencial y estadística descriptiva En ocasiones, se busca alguna clase de resumen del conjunto de datos representados en la muestra. De ello se encarga la estadística descriptiva. Estadística descriptiva Tabular Gráfica Tablas de frecuencias Bases de datos Histogramas de frecuencia Gráficas de barras Gráficas de pastel 2 Estadística inferencial y estadística descriptiva Estadística inferencial Hacer inferencia con respecto a una población basándose en la información contenida en una muestra. 3 Estadística descriptiva 4 Parámetros y estimadores Parámetros, estadísticos y estimadores Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros. Cualquier cantidad obtenida de una muestra con el propósito de estimar un parámetro poblacional se llama estadístícos muestrales o brevemente estadísticos. 5 MEDIDAS DE POSICIÓN Medida de posición: Es un número que representa la central, o la medición más representativa en un conjunto. Estas medidas definen el centro del conjunto o la posición de él. Las medidas de posición sirven como resúmenes numéricos de un conjunto de mediciones. 6 MEDIDAS DE POSICIÓN MEDIA: Es el promedio aritmético de un conjunto de mediciones. Obtenemos la media al dividir la suma de las mediciones entre el número de ellas en el conjunto. La fórmula para calcular la media es: Población Muestra 7 ¿Qué inconvenientes tiene la media? Que la media se puede influenciar por valores extremos. 8 MEDIDAS DE POSICIÓN MEDIANA: Es el número a la mitad de un conjunto ordenado de mediciones. Si hay un número impar de mediciones en el conjunto, existe uno y solo número colocado a la mitad, al cual llamamos mediana. Si hay un número par de mediciones en el conjunto, entonces existen dos números a la mitad. Por convenio, la mediana cae a medio camino entre ellos. Si n es impar. Si n es par. 9 MEDIDAS DE POSICIÓN MODA: Es el número que se presenta con mayor frecuencia en un conjunto de mediciones. Es posible que un conjunto de mediciones presente más de una moda. 10 MEDIDAS DE POSICIÓN MODA ¿Puede haber más de una moda? ¡Claro! Si dos valores tienen la misma frecuencia, o casi la misma, se dice que el conjunto es bimodal; si hay tres, trimodal, y así… 11 12 Entonces… ¿Qué uso? ¿La media, la mediana o la moda? Ps depende de qué necesitemos, ¿no? 13 La adecuada selección de los promedio dependerá de ciertos criterios, como lo manifiesta Ángel-Gutiérrez (1995): La distribución de la variable (simétrica, sesgada, multimodal, etc.). El tipo de escala de medición utilizada para la representación de los datos (nominal, ordinal, de intervalo o razón). El objetivo del cálculo del promedio: representar o inferir. El tipo de variable por promediar (índices, tasas, promedios, velocidades, etc.) 14 Variables Cuantitativas Continuas Discretas 15 Variables Cualitativas Nominales Ordinales 16 Escalas de medición Escala nominal Es una medida de identidad. Los números pueden ser etiquetas nada más. 1= Hombre 2= Mujer 17 Escala ordinal Refleja el orden o jerarquía de las unidades de observación. En una escala ordinal no se obtienen resultados muy útiles para una media aritmética, pero sí en el caso de la mediana y los percentiles. 18 Escala de intervalos Proporciona números que reflejan diferencias entre los elementos o individuos, donde las unidades de medición son iguales. Indican que un elemento o individuo es tantas unidades mayor o menor que otro. No existe el cero absoluto, porque los puntos cero son relativos o escogidos de manera arbitraria. Escalas de medición La media aritmética se puede utilizar. 19 Escala de razones Escalas de medición Es una escala de intervalos en la que además existe un cero absoluto: la ausencia total de característica. Los números pueden indican razones o cocientes entre ciertas magnitudes de las unidades de observación. Permiten un tratamiento más riguroso de los datos, desde el punto de vista estadístico. 20 ¿Existen otras medias? 21 Uso de medidas de tendencia central Cuando la distribución es simétrica (aprox.). Cuando se ocupan desv. est. y CV. Cuando la escala de los datos es de intervalo o de razón y no sea recomendable otra media. Cuando la distribución de los datos sea uniforme. Media aritmética Cuando la distribución de los datos es asimétrica. Cuando hay valores extremos que distorsionan el significado del promedio. Cuando se tienen distribuciones con valores sin determinar (e. g.: cuando la primera clase es “menos de X” y la última clase es “mayor que Y”. Mediana 22 Uso de medidas de tendencia central Cuando haya un dato o intervalo que tenga una frecuencia considerablemente superior. En datos agrupados se puede usar como marca de clase bajo la condición anterior. Se puede usar en cualquier escala, siempre y cuando una frecuencia sea muy superior. Distribuciones demasiado asimétricas y una frecuencia sea muy superior. Moda Cuando la distribución tenga forma de “U”. En distribuciones cuyos valores extremos no estén definidos. Cuando la amplitud de la distribución no es constante. Cuando se requiera encontrar una tendencia central rápido. En distribuciones multimodales, la moda puede ser útil para dividir la distribución en estratos. ¡Es la menos confiable! 23 Media geométrica Uso de medidas de tendencia central Para obtenerla, se puede utilizar la forma logarítmica: Cuando se requiera dar mayor importancia a los valores pequeños. Cuando los datos tengan un crecimiento geométrico o porcentual. Cuando se requiera promediar razones financieras, contables o números índices. Cuando por cualquier razón haya que usar los datos en función de sus logaritmos. 24 Media armónica Uso de medidas de tendencia central Es el inverso de la media aritmética de los inversos de los datos. Se utiliza preferentemente para calcular promedios de velocidad. Muy útil si la variable está en forma de tasa de cambio (), siempre y cuando la variable del numerador sea constante. 25 Media ponderada Uso de medidas de tendencia central Es la suma de los productos entre cada valor de la variable y su peso o ponderación, dividida por la suma de las ponderaciones. Cuando se quiera calcular un promedio de medias aritméticas. En ese caso, el factor de ponderación debe ser el tamaño de cada muestra. Para calcular números índices, en cuyo caso los precios, cantidades, costos, valores, etc., se ponderan con magnitudes de un período base o un período dado. Para promediar proporciones según el tamaño de los lotes o estratos. Donde: : ponderación de cada valor de . Cuando se cambia la ponderación por la frecuencia absoluta, esta media coincide con la media aritmética. 26 Cuando se desea calcular una media, que a su vez son promedios calculados, use la media ponderada. Cuando desee calcular un promedio de velocidades, use la media armónica. También se deberá usar cuando se quiera promediar tasas de cambio donde el numerador permanece constante. Cuando se dispone de una tabla de frecuencias, y la distribución sea aproximadamente simétrica, use la media aritmética; cuando la distribución sea sesgada, puede optarse por la mediana. Si en una distribución de frecuencias se observa que el valor modal tiene una frecuencia considerablemente superior a la de todos los demás valores, puede optarse por la moda como medida representativa. 27 TODO CONJUNTO DE DATOS TIENE UNA MEDIDA DE TENDENCIA CENTRAL ADECUADA. EL USO DE OTRO CONLLEVA UNA SUB- O SOBREVALORACIÓN DE ÉSTA, QUE PUEDE CONDUCIR A DECISIONES INCORRECTAS. CUANDO SE DESEEE OBTENER UNA MEDIDA DE TENDENCIA CENTRAL, ES NECESARIO TENER EN CUENTA UNA BUENA INFORMACIÓN PREVIA: OBJETIVO DEL PROMEDIO DISTRIBUCIÓN DE LA FRECUENCIA DE LOS DATOS TIPO DE ESCALA DE MEDICIÓN UTILIZADA TIPO DE VARIABLE POR PROMEDIAR MEDIDAS DE VARIABILIDAD Medida de variabilidad: Es un solo número querepresenta el desarrollo o la dispersión en un conjunto de datos. 28 Rango Varianza Desviación estándar Coeficiente de variación Medidas de variabilidad MEDIDAS DE VARIABILIDAD RANGO: Mide la extensión total de un conjunto de datos, se calcula utilizando únicamente dos números. Para encontrar el rango de una población restamos la medición más pequeña de la más grande en la población. 29 MEDIDAS DE VARIABILIDAD Varianza: Alrededor de la media de una población, o simplemente, es una medida de dispersión. La varianza es igual al promedio de la suma de todos los cuadrados de las desviaciones de una población. Una desviación es la distancia de cualquier medida del conjunto con respecto a la media de éste. 30 Se calcula como sigue: Paso 1: Calcular la desviación media para cada medida de la población. Paso 2: Elevar al cuadrado cada desviación. Paso 3: Sumar los cuadrados de todas las desviaciones. Paso 4: Promediar las desviaciones al cuadrado, dividiendo su suma entre el número de medidas de la población. MEDIDAS DE VARIABILIDAD 31 Donde: σ2= varianza poblacional yi= una medida individual en el conjunto μ= media de la población N= número de medidas de la población Población Muestra Donde: s2= varianza muestral xi= una medida individual en el conjunto = media de la muestra n= número de medidas de la muestra MEDIDAS DE VARIABILIDAD Desviación estándar: Es la raíz cuadrada de la varianza. Esta medida es muy útil para describir la extensión o dispersión de un conjunto de datos, alrededor de la media. 32 Se calcula como sigue: Poblacional Muestral COMPARANDO MEDIDAS DE VARIABILIDAD 33 Consideremos los siguientes conjuntos de datos de un examen de cuatro grupos del mismo grado: Grupo Calificaciones de la prueba Media Rango Desviación estándar A 70, 70, 70, 70, 70 70 0 0 B 68, 69. 70, 71, 72 70 4 1.581 C 60, 70, 70, 70, 80 70 20 7.07 D 60, 65, 70, 75, 80 70 20 7.91 MEDIDAS DE VARIABILIDAD 34 Coeficiente de variación: Llamado también desviación estándar relativa, se expresa en porcentaje. Es un ejemplo de error relativo, es decir, una estimación del error dividida por una estimación del valor absoluto de la cantidad medida. Los errores relativos se utilizan con frecuencia al comparar las precisiones de los resultados que tienen diferentes unidades o magnitudes, y resultan de nuevo importantes en los cálculos de propagación de errores. 35 Varianza sesgada Varianza insesgada Se observa que: Corrección de Bessel: http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164 Estimación insesgada de la varianza PRECISIÓN Y EXACTITUD EN LAS MEDICIONES 36 37 Algunas definiciones importantes: Medición: Exactitud Precisión Repetibilidad Reproducibilidad Error 38 Treptow, R. S., J. Chem. Ed., 1998, 75, 992-955. Cada probeta fue llenada con 3.420 mL de agua. Hasta 0.1 mL Hasta 1 mL A y C se estima hasta las centésimas. B y D se estima hasta las décimas. 39 Expresiones más comunes de precisión Expresiones más comunes de exactitud 40 Tipos de error Error grosero o accidental Error sistemático o determinado Se reconocen con prontitud. Su efecto es tan grande que no existe otra alternativa que comenzar de nuevo el experimento. Es aquel que ocurre de forma consistente cada que se repite la medición, es decir, que los resultados poseen un error en el mismo sentido. Este error puede ser detectado midiendo un estándar. Aunque puedan ser corregidos en ciertas ocasiones, alguna inexactitud puede acompañar a dicha corrección. El error sistemático total se le denomina sesgo de la medida. 41 Error aleatorio o indeterminado Es aquel que ocurre inconsistentemente entre mediciones. Este tipo de error es el que hace que haya diferencias en las mediciones por más que se hayan cuidados los detalles de la medición. Si la distribución es normal, el efecto que este error tiene es la distribución aleatoria de las mediciones alrededor de la media. Este error afecta a la precisión o reproducibilidad. Nota: El error aleatorio puede reducirse al mínimo si se realizan muchas mediciones repetidas. 42 Treptow, R. S., J. Chem. Ed., 1998, 75, 992-955. El efecto en el error de la medición puede tener ambos componentes: sistemático y aleatorio. 43 Ejemplos de error aleatorio son: Incertidumbre en la estimación de la posición del menisco o de una aguja de algún medidor. No-homogeneidad de la muestra. Fluctuaciones en las lecturas digitales de un instrumento debido a cambios en la línea de voltaje. Ejemplos de error sistemático son: Adsorción de humedad en una muestra al pesar. Cambios prematuros de color en un punto de equivalencia. Interferencias químicas. Solubilidad pobre de un precipitado en un método gravimétrico. 44 Recapitulando… Tablas de frecuencia, histogramas y polígonos de frecuencia 45 46 Tablas de frecuencia Paso 1: Ordenar los datos de menor a mayor y determinar el rango. Tras recolectar datos, es recomendable organizarlos para un fácil manejo y análisis. La tabla de frecuencias organiza los datos en clases, es decir en grupos de valores que describen una característica de los datos. 11 12 13 12 13 14 14 15 11 12 13 12 14 15 11 12 16 14 13 14 14 13 15 15 13 14 11 12 13 13 ¿Cuántas veces acuden los alumnos de 3° B al “atorón” al mes? De 30 alumnos muestreados, se obtuvo la siguiente información. 47 Tablas de frecuencia Paso 1: Ordenar los datos de menor a mayor y determinar el rango. Paso 2: Determinar el número de intervalos de clase. 48 Tablas de frecuencia Paso 3: Calcular la amplitud del intervalo de clase (el ancho de los intervalos). NOTA: Es importante saber que el cálculo de la amplitud debe hacerse con el mismo número de cifras que manejan los datos originales. REGLAS QUE DEBEN CUMPLIRSE HASTA ESTE PUNTO NOTA: La amplitud y el rango pueden acomodarse por redondeo. En caso de que no se cumplan las reglas anteriores, debemos modificar los redondeos. 49 Tablas de frecuencia Paso 4: Calcular los límites de clase (L. I. C. y L. S. C. ) Los límites de clase definen el ancho de cada intervalo; es decir, en qué número inicia nuestro intervalo (Límite Inferior de Clase, o L.I.C.), y hasta dónde llega (Límite Superior de Clase, o L.S.C.). No. de cifras después del punto L. S. C. 0 cifras (enteros) Restar 1 al L.I.C. inmediato posterior 1 decimal Restar 0.1 al L.I.C. inmediato posterior 2 decimales Restar 0.01 al L.I.C. inmediato posterior 3 decimales Restar 0.001 al L.I.C. inmediato posterior 49 50 Tablas de frecuencia Paso 5: Calcular los límites reales de clase (L. I. C. y L. S. C. ) Son creados para evitar espacios o huecos en los datos, o bien para establecer un criterio de discriminación para que no exista duda en cuanto al lugar que debe ocupar cada uno de los datos, al categorizarlos o tabularlos en cada uno de los intervalos. No. de cifras después del punto L. R. I. C. L. R. S. C. 0 cifras (enteros) Restar 0.5 al L.I.C. del mismo intervalo. Sumar 0.5 al L.S.C. del mismo intervalo. 1 decimal Restar 0.05 al L.I.C. del mismo intervalo. Sumar 0.05 al L.S.C. del mismo intervalo. 2 decimales Restar 0.005 al L.I.C. del mismo intervalo. Sumar 0.005 al L.S.C. del mismo intervalo. 3 decimales Restar 0.0005 al L.I.C. del mismo intervalo. Sumar 0.0005 al L.S.C. del mismo intervalo. 51 Tablas de frecuencia Paso 6: Calcular las marcas de clase. La marca de clase de un intervalo es el punto medio del intervalo. Se obtiene sumando el límite inferior de clase mas el límite superior y esto dividiéndolo entre 2; también se puede obtener por los límites reales de clase y este será el límite real inferior más el límite real superior y esto dividiéndolo entre 2. Paso 7: Calcular la frecuencia absoluta. La frecuencia es el número de veces que se repite un evento, o bien, el número de datos que cae o queda contenido en cada intervalo de clase. La suma de la columna de la frecuencia es siempre igual al número de datos del experimento o estudio. Paso 8:Calcular la frecuencia acumulada. 52 Tablas de frecuencia Paso 9: Calcular la frecuencia relativa (%). Esta columna nos dice el porcentaje con que contribuye cada intervalo en la distribución total. La frecuencia relativa se encuentra dividiendo la frecuencia absoluta de cada intervalo, entre el número total de datos. Σ FR = 100% Paso 10: Calcular la frecuencia relativa acumulada. Paso 11: Con los datos anteriores, se puede construir un histograma y un polígono de frecuencias. 53 Tablas de frecuencia ¿Qué porcentaje de los alumnos acude menos de 13 veces al mes? ¿Cuántos alumnos van entre 14 y 15 veces al mes? El director ha dicho que solicitará apoyo de AA si más del 50 % de los alumnos va más de 15 veces al mes. ¿La tiene que solicitar, o no? ¿Qué porcentaje representan aquellos que van 11 veces o menos? Una vez hecha la tabla de frecuencias de la pregunta ¿Cuántas veces acuden los alumnos de 3° B al expendio “El atorón” al mes?, conteste lo siguiente: 54 Tablas de frecuencia 55 ¿Qué debemos observar en el histograma? Centrado del proceso Variabilidad Simetría y forma Buscar datos anómalos Estratificar Sesgo (ej.: desplazamiento de un proceso) Distribución multimodal Distribución platicúrtica Distribución truncada 56 ¿Cómo describimos la variabilidad? 57 Regla empírica Cuanto más cerca se encuentre la distribución a la curva en forma de montículo del dibujito, más precisa será la regla. Como la distribución de datos en forma de montículo (distribución normal) se presenta con frecuencia en la naturaleza, la regla se puede usar numerosas ocasiones en aplicaciones prácticas. Por esta razón, se denomina Regla empírica. 58 Regla empírica 68% 34% 34% 95% 99.73% +1s +2s +3s Dada una distribución de mediciones que tiene forma aproximada de montículo: El intervalo contiene aproximadamente 68% de las mediciones. El intervalo contiene aproximadamente 95% de las mediciones. El intervalo contiene aproximadamente 99.7% de las mediciones. media media media 59 Medidas de posición relativa Permiten dividir la distribución en un variable número de segmentos –cuantiles- facilitando la ubicación de orden de un sujeto o caso sobre un conjunto de los datos. 60 Cuartiles: Son los valores de una variable que dividen en cuartos a los datos ordenados; cada conjunto de datos posee tres cuartiles. El primer cuartil, Q1, es el número tal que cuando mucho el 25% de los datos es menor que el valor de Q1. El segundo cuartil es la mediana. El tercer cuartil, Q3, es un número tal que cuando mucho el 75% de los datos es menor que Q3. 61 Percentiles: Son los valores de una variable que dividen al conjunto de datos ordenados en 100 subconjuntos; cada conjunto de datos tiene 99 percentiles. El k-ésimo percentil, Pk, es un valor tal que cuando mucho (100-k) % de los datos es mayor. El primer cuartil y el 25avo percentil son iguales; es decir, Q1=P25. También, Q3=P75. Nota: 62 Cuantil de orden α para datos agrupados Puedo calcular cuartiles, percentiles, deciles, etc. Donde Li-1 : L.R.I.C. del intervalo al que pertenece el cuantil. α·n : el cuantil x el número de datos de la muestra. Ni-1 : frecuencia acumulada del intervalo anterior al del cuantil. ni : frecuencia absoluta del intervalo al que pertenece el cuanil. Li-Li-1 : Amplitud del intervalo. 63 Cuantil de orden α para datos agrupados Ejemplo: Calcule el cuartil 3 (Q3). 75 % de frecuencia acumulada Cuantil 0.75 (C0.75), percentil 75 (P75) 64 Cuantil de orden α para datos agrupados Ejemplo: Paso 1: Busco el intervalo menor que tenga una frecuencia acumulada superior a α·n . 65 Cuantil de orden α para datos agrupados Ejemplo: Paso 2: Sustituyo los valores donde corresponde. n=30 66 Cuantil de orden α para datos agrupados Ejemplo: Q3 75 % de los datos 67 Como la mediana y los cuartiles dividen la distribución de datos en cuatro partes, cada una de ellas conteniendo alrededor de 25% de las mediciones, Q1 y Q3 son las fronteras superior e inferior para el 50% central de la distribución. Podemos medir el rango de este “50% central” de la distribución usando una medida numérica llamada rango intercuartílico. Recuerde que la mediana de un conjunto de datos es la medición central; esto es, 50% de las mediciones son más pequeñas y 50% son más grandes que la mediana. Entonces, la mediana es igual que el 50avo percentil y que el segundo cuartil. NOTA: 68 Resumen de cinco números y DIAGRAMAS DE TUKEY (gráficas de caja) 69 Resumen de cinco números y Diagramas de Tukey (gráficas de caja) Resumen de cinco números: Esto me permite crear los diagramas de Tukey, conocidos popularmente como diagramas o gráficas de caja. Rango intercuartílico 70 Diagramas de Tukey (gráficas de caja) 71 Lo que hemos visto… 72 FORMA: Asímetría o sesgo 73 FORMA: Asímetría o sesgo Si tenemos una simetría diferente a la de la distribución normal, debemos tener cuidado porque es común que implique un aspecto negativo para nuestro proceso. Donde: = tamaño de la muestra = desviación estándar = media muestral Signo (-) = cola hacia la izquierda Signo (+)= cola hacia la derecha NOTA: para datos normales, el intervalo de sesgo debe caer entre (-2, +2). 74 Estadísticos para detectar asimetría 75 Apuntamiento o curtosis 76 Interpretación de los histogramas 77 Interpretación de los histogramas Se prefiere tener más de 100 datos. El número hace la fuerza. Observar las medidas de tendencia central. Revisar el centrado del proceso. Revisar la variabilidad del proceso. Analizar la forma del histograma. Datos raros, atípicos o anómalos. Estratificar, o clasificar. 77 78 Interpretación de los histogramas Observar las medidas de tendencia central. Revisar el centrado del proceso. Revisar la variabilidad del proceso. 79 Interpretación de los histogramas Analizar la forma del histograma(sesgo). ¿Qué puede indicar? Desgaste eventual Desajustes paulatinos Errores en la medición Desempeño de un proceso 80 Interpretación de los histogramas Analizar la forma del histograma (varias modas). ¿Qué puede indicar? Dos o más realidades diferentes en el mismo proceso. Diferencias en lotes, MP, proveedor, etc. Diferencia entre operadores o usuarios. Diferencia en el proceso de medición. Condiciones de operación diferentes. NOTA: Al ser causas asignables evidentes, se puede estudiar por separado la raíz. 81 Interpretación de los histogramas Analizar la forma del histograma (platicúrticas). ¿Qué puede indicar? Dos o más realidades diferentes en el mismo proceso. Diferencias en lotes, MP, proveedor, etc. Diferencia entre operadores o usuarios. Diferencia en el proceso de medición. Condiciones de operación diferentes. NOTA: similar a la anterior. 82 Interpretación de los histogramas Analizar la forma del histograma (acantilados). ¿Qué puede indicar? Inspección de un lote al 100% sin incluir artículos fuera de especificación. Problemas con el equipo de medición. Error en la medición/inspección. NOTA: no es normal, es de causa asignable y debe corregirse. 83 Interpretación de los histogramas Datos anómalos. ¿Qué puede indicar? Error en la medición Error de captura Unidad de observación que no pertenece a esa muestra Evento raro o especial (errores gruesos, por ejemplo). NOTA: no es normal, es de causa asignable y debe corregirse. 84 Interpretación de los histogramas ¿Qué limitaciones tiene? Noes función del tiempo. No es la herramienta más adecuada para comparar. El número de intervalos cambia bastante la forma del histograma. 85 Ejercicio 1 (uso de Minitab) File>Open worksheet>Abra, dentro de la carpeta Sample data, Cap.MTW. Abra la caja de diálogo Descriptive Statistics. a. Stat > Basic Statistics > Display Descriptive Statistics En Variables, seleccione (doble click) Torque. En By variables (optional), seleccione Machine. Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot. Click OK. De nuevo OK. El “maistro” Chon, ingeniero de control de calidad, necesita asegurarse de que las tapas de las botellas de shampoo en las líneas 1 y 2 estén ajustadas correctamente. Si las tapas están flojas, pueden caerse durante su embarque. Si están muy ajustadas, serán difíciles de remover. El valor deseado de torque debe ser de 18 N m. El ingeniero toma una muestra aleatoria de 68 botellas y evalúa la cantidad de torque que se requiere para remover las tapas. Como parte de la investigación inicial, se analiza la parte de estadística descriptiva de las mediciones de torque para evaluar la distribución de los datos de cada máquina (una en la línea y la otra en la línea 2). 86 Ejercicio 2 (uso de Minitab) File>Open worksheet>Abra, dentro de la carpeta Sample data, Precipitation.MTW. Abra la caja de diálogo Descriptive Statistics. a. Stat > Basic Statistics > Display Descriptive Statistics En Variables, seleccione (doble click) Precipitation. Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot. Click OK. De nuevo OK. Una meteoróloga recién contratada ha recolectado algunos datos sobre las condiciones meteorológicas de su ciudad natal en el transcurso de un año. Los valores indican el número de días, por mes, con precipitaciones significativas. ¿Qué puede decir? 87 Ejercicio 3 (uso de Minitab) File>Open worksheet>Abra, dentro de la carpeta Sample data, Pulse.MTW. Abra la caja de diálogo Descriptive Statistics. a. Stat > Basic Statistics > Graphical summary. El Dr. Caralampio Slug-Mendiola realizó un experimento simple con los estudiantes del curso de Introducción a la estadística. Cada estudiante registró su pulso, luego echó un volado con una moneda, y aquellos cuya moneda cayó en águila, trotaron en su lugar durante un minuto, mientras que los demás siguieron en reposo. Al final, la clase entera registró de nuevo sus pulsos en reposo. ¿Qué se puede observar? Pulse 1= antes de trotar Pulse 2= después de trotar Ran 1= trotó Ran 2= no trotó Sex 1= hombre Sex 2= mujer Smokes 1= no fuma Smokes2 = fuma 88 Ejercicio 4 (uso de Minitab) File>Open worksheet>Abra, dentro de la carpeta Sample data, Pulse.MTW. Abra la caja de diálogo Descriptive Statistics. a. Stat > Basic Statistics > Display Descriptive Statistics En Variables, seleccione (doble click) Height. En By variables (optional), seleccione Sex. Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot. Click OK. De nuevo OK. En el estudio anterior se desea comparar la altura (en pulgadas) de estudiantes, hombres (sex=1) y mujeres (sex=2), que participaron en estudio de pulso sanguíneo. ¿Qué se puede observar? Diagrama de Pareto 89 90 ¿Cuándo se utiliza un diagrama de Pareto? Al identificar un producto o servicio para el análisis para mejorar la calidad. Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistémica. Al identificar oportunidades para mejorar. Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento del mercado, área geográfica, etc.) Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones. Al evaluar los resultados de los cambios efectuados a un proceso (antes y después). Cuando los datos puedan agruparse en categorías. Cuando el rango de cada categoría es importante. 91 EJERCICIO En una empresa textil se ha reportado una creciente cantidad de defectos en sus productos, por lo que se ha decidido analizar el número de defectos en los tejidos que fabrica. Después de deliberar, decidieron analizar los proveedores de las telas. En la tabla siguiente se muestran los factores que se han identificado como causantes de los mismos así como el número de defectos asociado a ellos: Ejercicios Diagrama de Pareto/Telas 92 Factores Número de defectos Seda 13 Algodón 171 Tul 105 Tafetán 7 Raso 7 Encaje 8 Lana 4 Lino 9 Satén 11 Viscosa 9 TOTAL 344 En el caso de factores cuya magnitud es muy pequeña comparada con la de los otros factores incluirlos dentro de la categoría “Otros”. NOTA: 93 Factores (ya ordenados) Número de defectos Número de defectos Acumulados % Total % Total acumulado Algodón 171 171 49.71 49.71 Tul 105 276 30.52 80.23 Seda 13 289 3.78 84.01 Satén 11 300 3.20 87.21 Lino 9 309 2.62 89.83 Viscosa 9 318 2.62 92.44 Encaje 8 326 2.33 94.77 Tafetán 7 333 2.03 96.80 Raso 7 340 2.03 98.94 Lana 4 344 1.16 100 TOTAL 344 100.00 94 El 20% de los tejidos (Algodón y Tul) representan aproximadamente un 80% de los defectos, por lo tanto, centrándose la empresa sólo en esos 2 productos reduciría en un 80% el número de defectos. REGLA 20-80 Mas no siempre es así… Por eso el criterio ≥60% u otro diferente. 95 No siempre el león es como lo pintan… Consideremos el ejemplo siguiente: En una fábrica de botas industriales se hace una inspección del producto final, mediante la cual las botas con algún tipo de defecto se mandan a la “segunda”, después de quitar las etiquetas para cuidar la marca. Por medio de un análisis de los problemas o defectos por los que las botas se mandan a la segunda, se obtienen los siguientes datos, que corresponden a las últimas 10 semanas: 96 Se elaboró el análisis de Pareto: Obviamente, es el problema que urge atender. Notificar al proveedor de piel Cambiar de proveedor A veces, no es conveniente quedarse con un Pareto de problemas o fenómenos, sino que, conviene atender las causas de los problemas. DIAGRAMAS DE PARETO CLASIFICACIÓN Diagramas de Pareto de Fenómenos (primer nivel) Calidad Costo Entrega Seguridad Diagramas de Pareto de Causas (segundo nivel) Operario Maquinaria Materia prima Método operacional 97 El problema se presenta con la misma intensidad en todos los modelos 98 En el caso de las botas, se estratificaron las causas por modelo: NOTA: Estadísticamente, se recomienda que entre modelos (en este caso), tengan una frecuencia de fabricación similar. Si uno tuviera muchas más unidades producidas, obviamente presentaría mayor número de defectos. 99 Puesto que e en el Pareto de segundo nivel ha resultado un factor con gran porcentaje, se debe hacer una investigación más profunda (un tercer nivel) para saber si es una máquina, un operador, un turno en concreto, materia prima, etc… Consejos para la elaboración de un diagrama de Pareto 100 No es conveniente que la categoría de “otros” represente un porcentaje de los más altos. De ser así, se debe realizar un método diferente de clasificación. Es preferible representar los datos (si es posible) en valores monetarios. Si un factor se puede solucionar fácilmente debe afrontarse de inmediato aunque sea de poca importancia. Es imprescindible realizar un diagrama de causas si se quieren realizar mejoras. Consejos para la elaboración de un diagrama de Pareto 101 Algunas veces los datos no indican una clara distinción entre las categorías. Necesita más de la mitad de las categorías para sumar más del 60% del efecto de calidad, dependiendo un buen análisis e interpretación, de un buen análisis previo de las causas y posterior recogida de datos. Al tratar de interpretar un Gráfico de Pareto se pueden presentar las siguientes dificultades: 102 Ejercicio 1 Un fabricante de refrigeradores desea analizar cuales son los defectos que aparecen en las unidades al salir de la línea de producción. Un inspector revisa cada refrigeradora medida que sale de producción registrando sus defectos. Después de inspeccionar 88 refrigeradores, se obtuvo una tabla de datos. Ejercicios Diagramas de Pareto/Refrigeradores Tipo de Defecto Frecuencia Empaque Defectuoso 9 Pintura Defectuosa 5 Gavetas Defectuosas 1 Mala Nivelación 1 El motor no arranca después de ciclo de parada 1 No para el motor cuando alcanza Temperatura 36 El motor arranca pero la heladera no enfría 27 Al enchufar no arranca el motor 2 Puerta de refrigerador no cierra herméticamente 1 La puerta no cierra correctamente 2 Rayas en las superficies externas 4 103 Ejercicio 2 Utilizando como herramienta el diagrama de Pareto, analice las pérdidas por rechazos en una fábrica de papel, teniendo en cuenta que se han detectado los conceptos que se muestran en la tabla siguiente, en la que también se indican los costes asociados a cada concepto. Ejercicios Diagramas de Pareto/Papel 104 Ejercicio 3 Un gran almacén, que registraba elevados costos por robos, encargó a un grupo de trabajo resolver el problema. Como el almacén disponía de varias plantas y ofrecía mercancía de naturaleza muy diferente, el equipo decidió empezar las investigaciones recogiendo datos sobre los costos por robos en varias secciones y realizar un Análisis de Pareto. Ejercicios Diagramas de Pareto/Almacén 105 Ejercicio 4 Un equipo de mejora de la calidad en un gran hotel fue encargado de examinar las causas de insatisfacción de los clientes. En una pequeña encuesta preliminar se identificaron 20 causas probables de insatisfacción de los clientes. Realizar un Análisis de Pareto. Ejercicios Diagramas de Pareto/Encuesta de satisfacción 106 Ejercicio 5 ¿A qué equipos de fútbol le van los alumnos de 9° A? Ejercicio con tabla dinámica en Excel 107 Se trata de analizar los problemas, fallas, quejas o datos cualquiera clasificándolos o agrupándolos de acuerdo con los factores que se considera pueden influir en la magnitud de los mismos. Estratificación 1. A partir de un objetivo claro e importante, determine con discusión y análisis las características o factores a estratificar. 2. Mediante la colección de datos, evalúe la situación actual de las características seleccionadas. Exprese de manera gráfica la evaluación de las características (diagrama de Pareto, histograma, cartas de control, diagrama de caja, etcétera). 3. Determine las posibles causas de la variación en los datos obtenidos con la estratificación. Esto puede llevar a estratificar una característica más específica, como en los ejemplos. 4. Ir más a fondo en alguna característica y estratificarla. 5. Estratifique hasta donde sea posible y obtenga conclusiones de todo el análisis realizado. Recomendaciones para estratificar: Análisis de capacidad 108 109 ¿En qué consiste el análisis de capacidad? Consiste en conocer la variación natural de un proceso para una característica de calidad dada. Esto permite ver el grado de cumplimiento de esta característica de calidad Calidad The totality of features and characteristics of a product or service that bear on its ability to satisfy stated or implied needs (ISO 8402: 1986, 3.1) 110 Cp Donde: Cp = índice de capacidad del proceso. LS = valor de especificación superior del proceso. LI = valor de especificación inferior del proceso. Variación tolerada Variación natural Variación tolerada Variación natural Para una distribución normal Para cualquier distribución 111 Cp LIE LSE LIE LSE Cp solo mide la capacidad potencial del proceso 112 Cpi, Cps y Cpk 113 Cpi, Cps y Cpk Entonces, ¿qué es el Cpk? 114 Cpi, Cps y Cpk Esto aplica para la distribución normal Estos índices solo son útiles en el corto plazo. Es calculado en un intervalo de tiempo en que otras afectaciones (como cambios de operador, de condiciones ambientales, etc.) no alterarán la dinámica del proceso. Para el largo plazo, se usan los índices Pp y Ppk., empleando la variación a largo plazo de un conjunto suficientemente grande de datos recolectados en el tiempo. 115 EJEMPLO Se busca diagnosticar el proceso de manufactura de unas placas para medir cierto contaminante en agua mediante un método espectrofotométrico. Durante la producción de 500 placas (50 placas por día), se realizó un muestreo aleatorio del 10% de la producción diaria y se midió la absorbancia de cada una. La absorbancia requerida es 0.35. Abs espesor de la placa 116 Salida de un análisis de capacidad en MINITAB Desempeño de la muestra Desempeño largo plazo Desempeño de la población 117 Métricas Six Sigma Métricas Six Sigma 118 EJEMPLO DE ESTUDIO DE CAPACIDAD En un proceso de producción de microelectrodos para técnicas electroanalíticas se tiene que el cuerpo expuesto del platino fuera del epóxico debe tener un diámetro exterior de 2 cm, con una tolerancia de ± 25 μm. A las mediciones originales se les resta el valor nominal de 20 000 μm, por lo que el resultado de la resta debe estar dentro de ± 25 μm y ahora el valor nominal será cero, la tolerancia o especificación inferior es EI = −25, y la superior, ES = 25. En una de las últimas etapas del proceso de fabricación de los microelectroos, cada hora se mide el diámetro de cinco electrodos, en la tabla se han registrado los datos de cuatro turnos (dos días). Bases de datos para histogramas/Microelectrodos 119 EJEMPLO DE ESTUDIO DE CAPACIDAD Tendencia central Mean= 0.6067 Median= 2.00 Moda= 2 Dispersión Std. Dev.= 10.51 L.R.I. = -30.92 L.R.S. = 32.14 Diámetro= Hacer la gráfica de capacidad. 120 121 EJEMPLO DE ESTUDIO DE CAPACIDAD En un proceso de producción de microelectrodos para técnicas electroanalíticas se tiene que el cuerpo expuesto del platino fuera del epóxico debe tener un diámetro exterior de 2 cm, con una tolerancia de ± 25 μm. A las mediciones originales se les resta el valor nominal de 20 000 μm, por lo que el resultado de la resta debe estar dentro de ± 25 μm y ahora el valor nominal será cero, la tolerancia o especificación inferior es EI = −25, y la superior, ES = 25. En una de las últimas etapas del proceso de fabricación de los microelectroos, cada hora se mide el diámetro de cinco electrodos, en la tabla se han registrado los datos de cuatro turnos (dos días). Ejercicios de capacidad/Microelectrodos 122 EJEMPLO DE ESTUDIO DE CAPACIDAD Un ingeniero que trabaja en una planta de metales desea determinar si el diámetro de un cable que produce la compañía satisface las especificaciones. Cada hora, los operadores toman un subgrupo de cinco cables consecutivos de una línea de producción y miden los diámetros. Un cable debe tener 0.55 ± 0.05 cm de diámetro para satisfacer las especificaciones de diseño. Calcular la capacidad del proceso y la estabilidad Datos en el archivo: Ejercicios de capacidad/Hilos 123 EJEMPLO DE ESTUDIO DE CAPACIDAD En el ensamble de motores de automóvil, una de las partes, tiene una especificación de 600 ± 2 mm de longitud. Se ha tenido un problema crónico de esta pieza fuera de especificaciones causando un mal ensamble en la línea, así como desperdicio y retrabajos. Durante un mes, se recopilan un total de 100 observaciones (20 muestras de cada lote) de cada uno de los proveedores. Calcular la capacidad del proceso y la estabilidad de los proveedores ¿Qué proveedor elegirías y por qué? Datos en el archivo: Ejercicios de capacidad/Proveedores 124 Ejercicio En un modelo de llantas para automóvil se tiene que la longitud de la capa debe ser de 550 mm, con una tolerancia de ± 8 mm. La longitud de la capa es el resultado de un proceso de corte de una tira de hule, el cual debe garantizar que la longitud este entre la especificación inferior EI = 542 y la superior ES = 558, con un valor ideal o nominal de N = 550. Para detectar la posible presencia de causas especiales de variacion, y en general para monitorear el correcto funcionamiento del proceso de corte, cada hora se toman cinco capas y se miden. Datos en el archivo: Ejercicios de capacidad/LLantas 125 Métricas SixSigma para atributos Para atributos, la métrica a usar serán los Defectos por millón de oportunidades de error (DPMO). De aquí que hay que definir entonces: Unidad Es la parte o producto que se elabora mediante un proceso. Oportunidad de error Cualquier parte de la unidad que puede medirse o probarse si es adecuada. Defectos Un defecto es cualquier no conformidad o desviación de la calidad especificada de un product. Defectos pueden clasificarse en dos formas : •Unidades defectivas (llamados "defectivos'), los cuales son contados como (1) independientemente de cuantos defectos existan en esa unidad defectiva. •Defectos por unidad de producción , donde puede haber múltiples defectos en una unidad defectiva. 126 Métricas Six Sigma para atributos Índice DPU Métrica que determina el nivel de no calidad de un proceso que NO toma en cuenta las oportunidades de error. Si se tienen 4 errores en 15 emisiones de actas de nacimiento, el DPU es defectos por unidad. 127 Métricas Six Sigma para atributos Índice DPO Métrica que determina el nivel de no calidad de un proceso que SÍ toma en cuenta las oportunidades de error. No es representativo un DPU para una unidad con 12 puntos de inspección que para una de 28. Para tener un mejor panorama, esta métrica se transforma en la DPMO (defectos por millón de oportunidades de error): 128 Métricas Six Sigma para atributos Índice DPMO 1. Considere el proceso de emisión de actas de nacimiento. Se tienen identificados históricamente que hay seis defectos posibles, por lo que en un muestreo de 2,000 actas de nacimiento, se tiene que el 6% están incorrectas con un total de 135 errores. Calcule el DPMO. 2. Un banco ha determinado que el proceso de aprobación del préstamo hipotecario tiene 25 oportunidades de defectos. Durante el último trimestre, el banco ha procesado 373,560 solicitudes de hipotecas. En estas aplicaciones, se corrigieron 57,400 errores. ¿Cuál es el DPMO para el proceso? 129 Métricas Six Sigma para atributos Índice PPM 130 Métricas Six Sigma para atributos Índice Throughput Yield Throughput yield es una medida tomada en cada paso de un proceso, basada en el número de defectivos y el número de unidades procesadas . 131 Métricas Six Sigma para atributos Índice Rolled Throughput Yield Este índice representa la probabilidad que un proceso se complete en todos sus pasos sin fallas. 132 Métricas Six Sigma para atributos Índice Rolled Throughput Yield (rendimiento combinado) 133 Métricas Six Sigma para atributos Índice Rolled Throughput Yield (rendimiento combinado) 134 Referencias Ángel Gutierrez, J. C. (1995). La correcta utilización de los promedios. Revista Universidad EAFIT. Bioestadistica.uma.es. (2016). Capítulo 2: Estadísticos. [online] Disponible en: http://www.bioestadistica.uma.es/baron/apuntes/tema2/ [Acceso 2 May 2016]. Christensen, H. (1990). Estadística paso a paso. México: Editorial Trillas. Gutiérrez, H. & De la Vara, R. (2009). Control estadístico de calidad y seis sigma. México: McGraw-Hill. Mendenhall, W., Beaver, B. and Beaver, R. (2010). Introducción a la probabilidad y la estadística. México: Cengage Learning. Prilliman, S. G. (2012). An inquiry-based density laboratory for teaching experimental error. Journal of Chemical Education, 89(10), 1305–1307. https://doi.org/10.1021/ed2006339 Treptow, R. S. (1998). Precision and accuracy in measurements: A tale of four graduated cylinders. Journal of Chemical Education, 75(8), 992–995. https://doi.org/10.1021/ed075p992 Weimer, R. C. (2007). Estadística. México: Editorial Patria. 134 70 Grupo A Dotplot of Grupo A 7271706968 Grupo B Dotplot of Grupo B 807060 Grupo C Dotplot of Grupo C 78757269666360 Grupo D Dotplot of Grupo D 500 600 0,0 0,1 0,2 0,3 0,4 Error = 5.7% Absorbance (a.u.) Wavelength (nm) Standard deviation Average on 39 samples 0.380.370.360.350.340.330.32 LSL0.32 Target0.35 USL0.38 Sample Mean0.349349 Sample N50 StDev(Overall)0.00997831 StDev(Within)0.0107031 Process Data Pp1.00 PPL0.98 PPU1.02 Ppk0.98 Cpm1.00 Cp0.93 CPL0.91 CPU0.95 Cpk0.91 Potential (Within) Capability Overall Capability PPM < LSL0.001634.043051.92 PPM > USL0.001064.172093.57 PPM Total0.002698.215145.50 ObservedExpected OverallExpected Within Performance LSLTargetUSL Overall Within Process Capability Report for Abs 0.380.370.360.350.340.330.32 LSL0.32 Target0.35 USL0.38 Sample Mean0.349349 Sample N50 StDev(Overall)0.00997831 StDev(Within)0.0107031 Process Data Z.Bench2.78 Z.LSL2.94 Z.USL3.07 Ppk0.98 Cpm1.00 Z.Bench2.57 Z.LSL2.74 Z.USL2.86 Cpk0.91 Potential (Within) Capability Overall Capability PPM < LSL0.001634.043051.92 PPM > USL0.001064.172093.57 PPM Total0.002698.215145.50 ObservedExpected OverallExpected Within Performance LSLTargetUSL Overall Within Process Capability Report for Abs 1st Quartile-5.0000 Median2.0000 3rd Quartile7.0000 Maximum28.0000 -1.08942.3027 0.00003.0000 9.442211.8581 A-Squared0.86 P-Value0.026 Mean0.6067 StDev10.5123 Variance110.5087 Skewness-0.261066 Kurtosis0.392722 N150 Minimum-33.0000 Anderson-Darling Normality Test 95% Confidence Interval for Mean 95% Confidence Interval for Median 95% Confidence Interval for StDev 3020100-10-20-30 Median Mean 3210-1 95% Confidence Intervals Summary Report for Diámetro nominal 3020100-10-20-30 LSL-25 Target* USL25 Sample Mean0.606667 Sample N150 Location0.96112 Scale5.83781 Process Data Pp0.65 PPL0.67 PPU0.62 Ppk0.62 Overall Capability PPM < LSL6666.67 PPM > USL13333.33 PPM Total20000.00 Observed Performance PPM < LSL11577.28 PPM > USL16019.62 PPM Total27596.90 Exp. Overall Performance LSLUSL Process Capability Report for Diámetro nominal Calculations Based on Logistic Distribution Model
Compartir