Logo Studenta

2 +Estadística+descriptiva-Histograma-Análisis+de+capacidad+(Anglo)

¡Este material tiene más páginas!

Vista previa del material en texto

Análisis estadístico
Principios de estadística
y
Estadística descriptiva
1
Estadística inferencial y estadística descriptiva
En ocasiones, se busca alguna clase de resumen del conjunto de datos representados en la muestra. De ello se encarga la estadística descriptiva.
Estadística descriptiva
Tabular
Gráfica
Tablas de frecuencias
Bases de datos
Histogramas de frecuencia
Gráficas de barras
Gráficas de pastel
2
Estadística inferencial y estadística descriptiva
Estadística inferencial
Hacer inferencia con respecto a una población basándose en la información contenida en una muestra.
3
Estadística descriptiva
4
Parámetros y estimadores
Parámetros, estadísticos y estimadores
Los valores de varias medidas descriptivas calculadas para las poblaciones, se llaman parámetros.
Cualquier cantidad obtenida de una muestra con el propósito de estimar un parámetro poblacional se llama estadístícos muestrales o brevemente estadísticos.
5
MEDIDAS DE POSICIÓN
Medida de posición: Es un número que representa la central, o la medición más representativa en un conjunto.
Estas medidas definen el centro del conjunto o la posición de él.
Las medidas de posición sirven como resúmenes numéricos de un conjunto de mediciones.
6
MEDIDAS DE POSICIÓN
MEDIA: Es el promedio aritmético de un conjunto de mediciones. Obtenemos la media al dividir la suma de las mediciones entre el número de ellas en el conjunto. La fórmula para calcular la media es:
Población
Muestra
7
¿Qué inconvenientes tiene la media?
Que la media se puede influenciar por valores extremos.
8
MEDIDAS DE POSICIÓN
MEDIANA: Es el número a la mitad de un conjunto ordenado de mediciones. Si hay un número impar de mediciones en el conjunto, existe uno y solo número colocado a la mitad, al cual llamamos mediana. Si hay un número par de mediciones en el conjunto, entonces existen dos números a la mitad. Por convenio, la mediana cae a medio camino entre ellos.
Si n es impar.
Si n es par.
9
MEDIDAS DE POSICIÓN
MODA: Es el número que se presenta con mayor frecuencia en un conjunto de mediciones. Es posible que un conjunto de mediciones presente más de una moda.
10
MEDIDAS DE POSICIÓN
MODA
¿Puede haber más de una moda?
¡Claro! Si dos valores tienen la misma frecuencia, o casi la misma, se dice que el conjunto es bimodal; si hay tres, trimodal, y así…
11
12
Entonces… ¿Qué uso? ¿La media, la mediana o la moda?
Ps depende de qué necesitemos, ¿no?
13
La adecuada selección de los promedio dependerá de ciertos criterios, como lo manifiesta Ángel-Gutiérrez (1995):
La distribución de la variable (simétrica, sesgada, multimodal, etc.).
El tipo de escala de medición utilizada para la representación de los datos (nominal, ordinal, de intervalo o razón).
El objetivo del cálculo del promedio: representar o inferir.
El tipo de variable por promediar (índices, tasas, promedios, velocidades, etc.)
14
Variables
Cuantitativas
Continuas
Discretas
15
Variables
Cualitativas
Nominales
Ordinales
16
Escalas de medición
Escala nominal
Es una medida de identidad.
Los números pueden ser etiquetas nada más.
1= Hombre
2= Mujer
17
Escala ordinal
Refleja el orden o jerarquía de las unidades de observación.
En una escala ordinal no se obtienen resultados muy útiles para una media aritmética, pero sí en el caso de la mediana y los percentiles.
18
Escala de intervalos
Proporciona números que reflejan diferencias entre los elementos o individuos, donde las unidades de medición son iguales.
Indican que un elemento o individuo es tantas unidades mayor o menor que otro.
No existe el cero absoluto, porque los puntos cero son relativos o escogidos de manera arbitraria.
Escalas de medición
La media aritmética se puede utilizar.
19
Escala de razones
Escalas de medición
Es una escala de intervalos en la que además existe un cero absoluto: la ausencia total de característica.
Los números pueden indican razones o cocientes entre ciertas magnitudes de las unidades de observación.
Permiten un tratamiento más riguroso de los datos, desde el punto de vista estadístico.
20
¿Existen otras medias?
21
Uso de medidas de tendencia central
Cuando la distribución es simétrica (aprox.).
Cuando se ocupan desv. est. y CV.
Cuando la escala de los datos es de intervalo o de razón y no sea recomendable otra media.
Cuando la distribución de los datos sea uniforme.
Media aritmética
Cuando la distribución de los datos es asimétrica.
Cuando hay valores extremos que distorsionan el significado del promedio.
Cuando se tienen distribuciones con valores sin determinar (e. g.: cuando la primera clase es “menos de X” y la última clase es “mayor que Y”.
Mediana
22
Uso de medidas de tendencia central
Cuando haya un dato o intervalo que tenga una frecuencia considerablemente superior. En datos agrupados se puede usar como marca de clase bajo la condición anterior.
Se puede usar en cualquier escala, siempre y cuando una frecuencia sea muy superior.
Distribuciones demasiado asimétricas y una frecuencia sea muy superior.
Moda
Cuando la distribución tenga forma de “U”.
En distribuciones cuyos valores extremos no estén definidos.
Cuando la amplitud de la distribución no es constante.
Cuando se requiera encontrar una tendencia central rápido.
En distribuciones multimodales, la moda puede ser útil para dividir la distribución en estratos.
¡Es la menos confiable!
23
Media geométrica
Uso de medidas de tendencia central
Para obtenerla, se puede utilizar la forma logarítmica:
Cuando se requiera dar mayor importancia a los valores pequeños.
Cuando los datos tengan un crecimiento geométrico o porcentual.
Cuando se requiera promediar razones financieras, contables o números índices.
Cuando por cualquier razón haya que usar los datos en función de sus logaritmos.
24
Media armónica 
Uso de medidas de tendencia central
Es el inverso de la media aritmética de los inversos de los datos.
Se utiliza preferentemente para calcular promedios de velocidad.
Muy útil si la variable está en forma de tasa de cambio (), siempre y cuando la variable del numerador sea constante.
25
Media ponderada 
Uso de medidas de tendencia central
Es la suma de los productos entre cada valor de la variable y su peso o ponderación, dividida por la suma de las ponderaciones.
Cuando se quiera calcular un promedio de medias aritméticas. En ese caso, el factor de ponderación debe ser el tamaño de cada muestra.
Para calcular números índices, en cuyo caso los precios, cantidades, costos, valores, etc., se ponderan con magnitudes de un período base o un período dado.
Para promediar proporciones según el tamaño de los lotes o estratos.
Donde:
: ponderación de cada valor de .
Cuando se cambia la ponderación por la frecuencia absoluta, esta media coincide con la media aritmética.
26
Cuando se desea calcular una media, que a su vez son promedios calculados, use la media ponderada.
Cuando desee calcular un promedio de velocidades, use la media armónica. También se deberá usar cuando se quiera promediar tasas de cambio donde el numerador permanece constante.
Cuando se dispone de una tabla de frecuencias, y la distribución sea aproximadamente simétrica, use la media aritmética; cuando la distribución sea sesgada, puede optarse por la mediana.
Si en una distribución de frecuencias se observa que el valor modal tiene una frecuencia considerablemente superior a la de todos los demás valores, puede optarse por la moda como medida representativa.
27
TODO CONJUNTO DE DATOS TIENE UNA MEDIDA DE TENDENCIA CENTRAL ADECUADA. EL USO DE OTRO CONLLEVA UNA SUB- O SOBREVALORACIÓN DE ÉSTA, QUE PUEDE CONDUCIR A DECISIONES INCORRECTAS.
CUANDO SE DESEEE OBTENER UNA MEDIDA DE TENDENCIA CENTRAL, ES NECESARIO TENER EN CUENTA UNA BUENA INFORMACIÓN PREVIA:
OBJETIVO DEL PROMEDIO
DISTRIBUCIÓN DE LA FRECUENCIA DE LOS DATOS
TIPO DE ESCALA DE MEDICIÓN UTILIZADA
TIPO DE VARIABLE POR PROMEDIAR
MEDIDAS DE VARIABILIDAD
Medida de variabilidad: Es un solo número querepresenta el desarrollo o la dispersión en un conjunto de datos.
28
Rango
Varianza
Desviación estándar
Coeficiente de variación
Medidas de variabilidad
MEDIDAS DE VARIABILIDAD
RANGO: Mide la extensión total de un conjunto de datos, se calcula utilizando únicamente dos números. Para encontrar el rango de una población restamos la medición más pequeña de la más grande en la población.
29
MEDIDAS DE VARIABILIDAD
Varianza: Alrededor de la media de una población, o simplemente, es una medida de dispersión. La varianza es igual al promedio de la suma de todos los cuadrados de las desviaciones de una población. Una desviación es la distancia de cualquier medida del conjunto con respecto a la media de éste. 
30
Se calcula como sigue:
Paso 1: Calcular la desviación media para cada medida de la población.
Paso 2: Elevar al cuadrado cada desviación.
Paso 3: Sumar los cuadrados de todas las desviaciones.
Paso 4: Promediar las desviaciones al cuadrado, dividiendo su suma entre el
número de medidas de la población.
MEDIDAS DE VARIABILIDAD
31
Donde: 
σ2= varianza poblacional
yi= una medida individual en el conjunto
μ= media de la población
N= número de medidas de la población
Población
Muestra
Donde: 
s2= varianza muestral
xi= una medida individual en el conjunto
= media de la muestra
n= número de medidas de la muestra
MEDIDAS DE VARIABILIDAD
Desviación estándar: Es la raíz cuadrada de la varianza. Esta medida es muy útil para describir la extensión o dispersión de un conjunto de datos, alrededor de la media.
32
Se calcula como sigue:
Poblacional
Muestral
COMPARANDO MEDIDAS DE VARIABILIDAD
33
Consideremos los siguientes conjuntos de datos de un examen de cuatro grupos del mismo grado:
	Grupo	Calificaciones de la prueba	Media	Rango	Desviación estándar
	A	70, 70, 70, 70, 70	70	0	0
	B	68, 69. 70, 71, 72	70	4	1.581
	C	60, 70, 70, 70, 80	70	20	7.07
	D	60, 65, 70, 75, 80	70	20	7.91
MEDIDAS DE VARIABILIDAD
34
Coeficiente de variación: Llamado también desviación estándar relativa, se expresa en porcentaje. Es un ejemplo de error relativo, es decir, una estimación del error dividida por una estimación del valor absoluto de la cantidad medida. Los errores relativos se utilizan con frecuencia al comparar las precisiones de los resultados que tienen diferentes unidades o magnitudes, y resultan de nuevo importantes en los cálculos de propagación de errores.
35
Varianza sesgada
Varianza insesgada
Se observa que:
Corrección de Bessel:
http://www.khanacademy.org/cs/unbiased-variance-visualization/1167453164
Estimación insesgada de la varianza
PRECISIÓN Y EXACTITUD EN LAS MEDICIONES
36
37
Algunas definiciones importantes:
Medición: 
Exactitud
Precisión
Repetibilidad
Reproducibilidad
Error
38
Treptow, R. S., J. Chem. Ed., 1998, 75, 992-955.
Cada probeta fue llenada con 3.420 mL de agua.
Hasta 0.1 mL
Hasta 1 mL
A y C se estima hasta las centésimas.
B y D se estima hasta las décimas.
39
Expresiones más comunes de precisión
Expresiones más comunes de exactitud
40
Tipos de error
Error grosero o accidental
Error sistemático o determinado
Se reconocen con prontitud. Su efecto es tan grande que no existe otra alternativa que comenzar de nuevo el experimento.
Es aquel que ocurre de forma consistente cada que se repite la medición, es decir, que los resultados poseen un error en el mismo sentido. Este error puede ser detectado midiendo un estándar. Aunque puedan ser corregidos en ciertas ocasiones, alguna inexactitud puede acompañar a dicha corrección. El error sistemático total se le denomina sesgo de la medida.
41
Error aleatorio o indeterminado
Es aquel que ocurre inconsistentemente entre mediciones. Este tipo de error es el que hace que haya diferencias en las mediciones por más que se hayan cuidados los detalles de la medición. Si la distribución es normal, el efecto que este error tiene es la distribución aleatoria de las mediciones alrededor de la media. Este error afecta a la precisión o reproducibilidad.
Nota: El error aleatorio puede reducirse al mínimo si se realizan muchas mediciones repetidas.
42
Treptow, R. S., J. Chem. Ed., 1998, 75, 992-955.
El efecto en el error de la medición puede tener ambos componentes: sistemático y aleatorio.
43
Ejemplos de error aleatorio son:
Incertidumbre en la estimación de la posición del menisco o de una aguja de algún medidor.
No-homogeneidad de la muestra.
Fluctuaciones en las lecturas digitales de un instrumento debido a cambios en la línea de voltaje.
Ejemplos de error sistemático son:
Adsorción de humedad en una muestra al pesar.
Cambios prematuros de color en un punto de equivalencia.
Interferencias químicas.
Solubilidad pobre de un precipitado en un método gravimétrico.
44
Recapitulando…
Tablas de frecuencia, histogramas y polígonos de frecuencia
45
46
Tablas de frecuencia
Paso 1: Ordenar los datos de menor a mayor y determinar el rango.
Tras recolectar datos, es recomendable organizarlos para un fácil manejo y análisis. La tabla de frecuencias organiza los datos en clases, es decir en grupos de valores que describen una característica de los datos.
	11	12	13	12	13	14	14	15	11	12
	13	12	14	15	11	12	16	14	13	14
	14	13	15	15	13	14	11	12	13	13
¿Cuántas veces acuden los alumnos de 3° B al “atorón” al mes? De 30 alumnos muestreados, se obtuvo la siguiente información.
47
Tablas de frecuencia
Paso 1: Ordenar los datos de menor a mayor y determinar el rango.
Paso 2: Determinar el número de intervalos de clase.
48
Tablas de frecuencia
Paso 3: Calcular la amplitud del intervalo de clase (el ancho de los intervalos).
NOTA: Es importante saber que el cálculo de la amplitud debe hacerse con el mismo número de cifras que manejan los datos originales.
REGLAS QUE DEBEN CUMPLIRSE HASTA ESTE PUNTO
NOTA: La amplitud y el rango pueden acomodarse por redondeo. En caso de que no se cumplan las reglas anteriores, debemos modificar los redondeos.
49
Tablas de frecuencia
Paso 4: Calcular los límites de clase (L. I. C. y L. S. C. )
Los límites de clase definen el ancho de cada intervalo; es decir, en qué número inicia nuestro intervalo (Límite Inferior de Clase, o L.I.C.), y hasta dónde llega (Límite Superior de Clase, o L.S.C.).
	No. de cifras después del punto	L. S. C.
	0 cifras (enteros)	Restar 1 al L.I.C. inmediato posterior
	1 decimal	Restar 0.1 al L.I.C. inmediato posterior
	2 decimales	Restar 0.01 al L.I.C. inmediato posterior
	3 decimales	Restar 0.001 al L.I.C. inmediato posterior
49
50
Tablas de frecuencia
Paso 5: Calcular los límites reales de clase (L. I. C. y L. S. C. )
Son creados para evitar espacios o huecos en los datos, o bien para establecer un criterio de discriminación para que no exista duda en cuanto al lugar que debe ocupar cada uno de los datos, al categorizarlos o tabularlos en cada uno de los intervalos.
	No. de cifras después del punto	L. R. I. C.	L. R. S. C.
	0 cifras (enteros)	Restar 0.5 al L.I.C. del mismo intervalo. 	Sumar 0.5 al L.S.C. del mismo intervalo. 
	1 decimal	Restar 0.05 al L.I.C. del mismo intervalo.	Sumar 0.05 al L.S.C. del mismo intervalo. 
	2 decimales	Restar 0.005 al L.I.C. del mismo intervalo. 	Sumar 0.005 al L.S.C. del mismo intervalo. 
	3 decimales	Restar 0.0005 al L.I.C. del mismo intervalo. 	Sumar 0.0005 al L.S.C. del mismo intervalo. 
51
Tablas de frecuencia
Paso 6: Calcular las marcas de clase.
La marca de clase de un intervalo es el punto medio del intervalo. Se obtiene sumando el límite inferior de clase mas el límite superior y esto dividiéndolo entre 2; también se puede obtener por los límites reales de clase y este será el límite real inferior más el límite real superior y esto dividiéndolo entre 2.
Paso 7: Calcular la frecuencia absoluta.
La frecuencia es el número de veces que se repite un evento, o bien, el número de datos que cae o queda contenido en cada intervalo de clase. La suma de la columna de la frecuencia es siempre igual al número de datos del experimento o estudio.
Paso 8:Calcular la frecuencia acumulada.
52
Tablas de frecuencia
Paso 9: Calcular la frecuencia relativa (%).
Esta columna nos dice el porcentaje con que contribuye cada intervalo en la distribución total. La frecuencia relativa se encuentra dividiendo la frecuencia absoluta de cada intervalo, entre el número total de datos.
Σ FR = 100%
Paso 10: Calcular la frecuencia relativa acumulada.
Paso 11: Con los datos anteriores, se puede construir un histograma y un polígono de frecuencias.
53
Tablas de frecuencia
¿Qué porcentaje de los alumnos acude menos de 13 veces al mes?
¿Cuántos alumnos van entre 14 y 15 veces al mes?
El director ha dicho que solicitará apoyo de AA si más del 50 % de los alumnos va más de 15 veces al mes. ¿La tiene que solicitar, o no?
¿Qué porcentaje representan aquellos que van 11 veces o menos?
Una vez hecha la tabla de frecuencias de la pregunta ¿Cuántas veces acuden los alumnos de 3° B al expendio “El atorón” al mes?, conteste lo siguiente:
54
Tablas de frecuencia
55
¿Qué debemos observar en el histograma?
Centrado del proceso
Variabilidad
Simetría y forma
Buscar datos anómalos
Estratificar
Sesgo (ej.: desplazamiento de un proceso)
Distribución multimodal
Distribución platicúrtica
Distribución truncada
56
¿Cómo describimos la variabilidad?
57
Regla empírica
Cuanto más cerca se encuentre la distribución a la curva en forma de montículo del dibujito, más precisa será la regla. Como la distribución de datos en forma de montículo (distribución normal) se presenta con frecuencia en la naturaleza, la regla se puede usar numerosas ocasiones en aplicaciones prácticas. Por esta razón, se denomina Regla empírica.
58
Regla empírica
68%
34% 34%
95%
99.73%
+1s
+2s
+3s
Dada una distribución de mediciones que tiene forma aproximada de montículo:
El intervalo contiene aproximadamente 68% de las mediciones.
El intervalo contiene aproximadamente 95% de las mediciones.
El intervalo contiene aproximadamente 99.7% de las mediciones.
media
media
media
59
Medidas de posición relativa
Permiten dividir la distribución en un variable número de segmentos –cuantiles- facilitando la ubicación de orden de un sujeto o caso sobre un conjunto de los datos. 
60
Cuartiles:
Son los valores de una variable que dividen en cuartos a los datos ordenados; cada conjunto de datos posee tres cuartiles. El primer cuartil, Q1, es el número tal que cuando mucho el 25% de los datos es menor que el valor de Q1. El segundo cuartil es la mediana. El tercer cuartil, Q3, es un número tal que cuando mucho el 75% de los datos es menor que Q3.
61
Percentiles:
Son los valores de una variable que dividen al conjunto de datos ordenados en 100 subconjuntos; cada conjunto de datos tiene 99 percentiles. El k-ésimo percentil, Pk, es un valor tal que cuando mucho (100-k) % de los datos es mayor.
El primer cuartil y el 25avo percentil son iguales; es decir, Q1=P25. También, Q3=P75.
Nota:
62
Cuantil de orden α para datos agrupados
Puedo calcular cuartiles, percentiles, deciles, etc.
Donde
Li-1 : L.R.I.C. del intervalo al que pertenece el cuantil.
α·n : el cuantil x el número de datos de la muestra.
Ni-1 : frecuencia acumulada del intervalo anterior al del cuantil.
ni : frecuencia absoluta del intervalo al que pertenece el cuanil.
Li-Li-1 : Amplitud del intervalo.
 
63
Cuantil de orden α para datos agrupados
Ejemplo:
Calcule el cuartil 3 (Q3).
75 % de frecuencia acumulada  Cuantil 0.75 (C0.75), percentil 75 (P75)
64
Cuantil de orden α para datos agrupados
Ejemplo:
Paso 1: Busco el intervalo menor que tenga una frecuencia acumulada superior a α·n .
65
Cuantil de orden α para datos agrupados
Ejemplo:
Paso 2: Sustituyo los valores donde corresponde.
n=30
66
Cuantil de orden α para datos agrupados
Ejemplo:
Q3
75 % de los datos
67
Como la mediana y los cuartiles dividen la distribución de datos en cuatro partes, cada una de ellas conteniendo alrededor de 25% de las mediciones, Q1 y Q3 son las fronteras superior e inferior para el 50% central de la distribución. Podemos medir el rango de este “50% central” de la distribución usando una medida numérica llamada rango intercuartílico.
Recuerde que la mediana de un conjunto de datos es la medición central; esto es, 50% de las mediciones son más pequeñas y 50% son más grandes que la mediana. Entonces, la mediana es igual que el 50avo percentil y que el segundo cuartil.
NOTA:
68
Resumen de cinco números y 
DIAGRAMAS DE TUKEY (gráficas de caja)
69
Resumen de cinco números y 
Diagramas de Tukey (gráficas de caja)
Resumen de cinco números:
Esto me permite crear los diagramas de Tukey, conocidos popularmente como diagramas o gráficas de caja.
Rango intercuartílico
70
Diagramas de Tukey (gráficas de caja)
71
Lo que hemos visto…
72
FORMA: Asímetría o sesgo
73
FORMA: Asímetría o sesgo
Si tenemos una simetría diferente a la de la distribución normal, debemos tener cuidado porque es común que implique un aspecto negativo para nuestro proceso.
Donde:
= tamaño de la muestra
= desviación estándar
= media muestral
Signo (-) = cola hacia la izquierda
Signo (+)= cola hacia la derecha
NOTA: para datos normales, el intervalo de sesgo debe caer entre (-2, +2).
74
Estadísticos para detectar asimetría
75
Apuntamiento o curtosis
76
Interpretación de los histogramas
77
Interpretación de los histogramas
Se prefiere tener más de 100 datos. El número hace la fuerza.
Observar las medidas de tendencia central.
Revisar el centrado del proceso.
Revisar la variabilidad del proceso.
Analizar la forma del histograma.
Datos raros, atípicos o anómalos.
Estratificar, o clasificar.
77
78
Interpretación de los histogramas
Observar las medidas de tendencia central.
Revisar el centrado del proceso.
Revisar la variabilidad del proceso.
79
Interpretación de los histogramas
Analizar la forma del histograma(sesgo).
¿Qué puede indicar?
Desgaste eventual
Desajustes paulatinos
Errores en la medición
Desempeño de un proceso
80
Interpretación de los histogramas
Analizar la forma del histograma (varias modas).
¿Qué puede indicar?
Dos o más realidades diferentes en el mismo proceso.
Diferencias en lotes, MP, proveedor, etc.
Diferencia entre operadores o usuarios.
Diferencia en el proceso de medición.
Condiciones de operación diferentes.
NOTA: Al ser causas asignables evidentes, se puede estudiar por separado la raíz.
81
Interpretación de los histogramas
Analizar la forma del histograma (platicúrticas).
¿Qué puede indicar?
Dos o más realidades diferentes en el mismo proceso.
Diferencias en lotes, MP, proveedor, etc.
Diferencia entre operadores o usuarios.
Diferencia en el proceso de medición.
Condiciones de operación diferentes.
NOTA: similar a la anterior.
82
Interpretación de los histogramas
Analizar la forma del histograma (acantilados).
¿Qué puede indicar?
Inspección de un lote al 100% sin incluir artículos fuera de especificación.
Problemas con el equipo de medición.
Error en la medición/inspección.
NOTA: no es normal, es de causa asignable y debe corregirse.
83
Interpretación de los histogramas
Datos anómalos.
¿Qué puede indicar?
Error en la medición
Error de captura
Unidad de observación que no pertenece a esa muestra
Evento raro o especial (errores gruesos, por ejemplo).
NOTA: no es normal, es de causa asignable y debe corregirse.
84
Interpretación de los histogramas
¿Qué limitaciones tiene?
Noes función del tiempo.
No es la herramienta más adecuada para comparar.
El número de intervalos cambia bastante la forma del histograma.
85
Ejercicio 1 (uso de Minitab)
 File>Open worksheet>Abra, dentro de la carpeta Sample data, Cap.MTW.
 Abra la caja de diálogo Descriptive Statistics.
a. Stat > Basic Statistics > Display Descriptive Statistics
 En Variables, seleccione (doble click) Torque.
 En By variables (optional), seleccione Machine.
 Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot.
 Click OK. De nuevo OK.
El “maistro” Chon, ingeniero de control de calidad, necesita asegurarse de que las tapas de las botellas de shampoo en las líneas 1 y 2 estén ajustadas correctamente. Si las tapas están flojas, pueden caerse durante su embarque. Si están muy ajustadas, serán difíciles de remover. El valor deseado de torque debe ser de 18 N m. El ingeniero toma una muestra aleatoria de 68 botellas y evalúa la cantidad de torque que se requiere para remover las tapas. Como parte de la investigación inicial, se analiza la parte de estadística descriptiva de las mediciones de torque para evaluar la distribución de los datos de cada máquina (una en la línea y la otra en la línea 2).
86
Ejercicio 2 (uso de Minitab)
 File>Open worksheet>Abra, dentro de la carpeta Sample data, Precipitation.MTW.
 Abra la caja de diálogo Descriptive Statistics.
a. Stat > Basic Statistics > Display Descriptive Statistics
 En Variables, seleccione (doble click) Precipitation.
Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot.
 Click OK. De nuevo OK.
Una meteoróloga recién contratada ha recolectado algunos datos sobre las condiciones meteorológicas de su ciudad natal en el transcurso de un año. Los valores indican el número de días, por mes, con precipitaciones significativas. ¿Qué puede decir?
87
Ejercicio 3 (uso de Minitab)
 File>Open worksheet>Abra, dentro de la carpeta Sample data, Pulse.MTW.
 Abra la caja de diálogo Descriptive Statistics.
a. Stat > Basic Statistics > Graphical summary.
El Dr. Caralampio Slug-Mendiola realizó un experimento simple con los estudiantes del curso de Introducción a la estadística. Cada estudiante registró su pulso, luego echó un volado con una moneda, y aquellos cuya moneda cayó en águila, trotaron en su lugar durante un minuto, mientras que los demás siguieron en reposo. Al final, la clase entera registró de nuevo sus pulsos en reposo. ¿Qué se puede observar? 
Pulse 1= antes de trotar
Pulse 2= después de trotar
Ran 1= trotó
Ran 2= no trotó
Sex 1= hombre
Sex 2= mujer
Smokes 1= no fuma
Smokes2 = fuma
88
Ejercicio 4 (uso de Minitab)
 File>Open worksheet>Abra, dentro de la carpeta Sample data, Pulse.MTW.
 Abra la caja de diálogo Descriptive Statistics.
a. Stat > Basic Statistics > Display Descriptive Statistics
 En Variables, seleccione (doble click) Height.
En By variables (optional), seleccione Sex.
Click en Graph… , y seleccione Histogram with normal curve, Individual value plot, y Boxplot.
 Click OK. De nuevo OK.
En el estudio anterior se desea comparar la altura (en pulgadas) de estudiantes, hombres (sex=1) y mujeres (sex=2), que participaron en estudio de pulso sanguíneo. ¿Qué se puede observar? 
Diagrama de Pareto
89
90
¿Cuándo se utiliza un diagrama de Pareto?
Al identificar un producto o servicio para el análisis para mejorar la calidad. 
Cuando existe la necesidad de llamar la atención a los problemas o causas de una forma sistémica. 
Al identificar oportunidades para mejorar. 
Al analizar las diferentes agrupaciones de datos (ej: por producto, por segmento del mercado, área geográfica, etc.) 
Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones. 
Al evaluar los resultados de los cambios efectuados a un proceso (antes y después). 
Cuando los datos puedan agruparse en categorías. 
Cuando el rango de cada categoría es importante.  
91
EJERCICIO
En una empresa textil se ha reportado una creciente cantidad de defectos en sus productos, por lo que se ha decidido analizar el número de defectos en los tejidos que fabrica. Después de deliberar, decidieron analizar los proveedores de las telas. En la tabla siguiente se muestran los factores que se han identificado como causantes de los mismos así como el número de defectos asociado a ellos: Ejercicios Diagrama de Pareto/Telas
92
	Factores	Número de defectos
	Seda	13
	Algodón	171
	Tul	105
	Tafetán	7
	Raso	7
	Encaje	8
	Lana	4
	Lino	9
	Satén	11
	Viscosa	9
	TOTAL	344
En el caso de factores cuya magnitud es muy pequeña comparada con la de los otros factores incluirlos dentro de la categoría “Otros”. 
NOTA:
93
	Factores (ya ordenados)	Número de defectos	Número de defectos
Acumulados	% Total	% Total acumulado
	Algodón	171	171	49.71	49.71
	Tul	105	276	30.52	80.23
	Seda	13	289	3.78	84.01
	Satén	11	300	3.20	87.21
	Lino	9	309	2.62	89.83
	Viscosa	9	318	2.62	92.44
	Encaje	8	326	2.33	94.77
	Tafetán	7	333	2.03	96.80
	Raso	7	340	2.03	98.94
	Lana	4	344	1.16	100
	TOTAL	344		100.00	
94
El 20% de los tejidos (Algodón y Tul) representan aproximadamente un 80% de los defectos, por lo tanto, centrándose la empresa sólo en esos 2 productos reduciría en un 80% el número de defectos.
REGLA 20-80
Mas no siempre es así… Por eso el criterio ≥60% u otro diferente.
95
No siempre el león es como lo pintan…
Consideremos el ejemplo siguiente:
En una fábrica de botas industriales se hace una inspección del producto final, mediante la cual las botas con algún tipo de defecto se mandan a la “segunda”, después de quitar las etiquetas para cuidar la marca. Por medio de un análisis de los problemas o defectos por los que las botas se mandan a la segunda, se obtienen los siguientes datos, que corresponden a las últimas 10 semanas:
96
Se elaboró el análisis de Pareto:
Obviamente, es el problema que urge atender.
Notificar al proveedor de piel
Cambiar de proveedor
A veces, no es conveniente quedarse con un Pareto de problemas o fenómenos, sino que, conviene atender las causas de los problemas.
DIAGRAMAS DE PARETO
CLASIFICACIÓN
Diagramas de Pareto de Fenómenos (primer nivel)
Calidad 
Costo
Entrega
Seguridad
Diagramas de Pareto de Causas (segundo nivel)
Operario
Maquinaria
Materia prima
Método operacional
97
El problema se presenta con la misma intensidad en todos los modelos
98
En el caso de las botas, se estratificaron las causas por modelo:
NOTA: Estadísticamente, se recomienda que entre modelos (en este caso), tengan una frecuencia de fabricación similar. Si uno tuviera muchas más unidades producidas, obviamente presentaría mayor número de defectos.
99
Puesto que e en el Pareto de segundo nivel ha resultado un factor con gran porcentaje, se debe hacer una investigación más profunda (un tercer nivel) para saber si es una máquina, un operador, un turno en concreto, materia prima, etc…
Consejos para la elaboración de un diagrama de Pareto
100
No es conveniente que la categoría de “otros” represente un porcentaje de los más altos. De ser así, se debe realizar un método diferente de clasificación. 
Es preferible representar los datos (si es posible) en valores monetarios. 
Si un factor se puede solucionar fácilmente debe afrontarse de inmediato aunque sea de poca importancia.
Es imprescindible realizar un diagrama de causas si se quieren realizar mejoras. 
Consejos para la elaboración de un diagrama de Pareto
101
Algunas veces los datos no indican una clara distinción entre las categorías. 
Necesita más de la mitad de las categorías para sumar más del 60% del efecto de calidad, dependiendo un buen análisis e interpretación, de un buen análisis previo de las causas y posterior recogida de datos.
Al tratar de interpretar un Gráfico de Pareto se pueden presentar las siguientes dificultades: 
102
Ejercicio 1
Un fabricante de refrigeradores desea analizar cuales son los defectos que aparecen en las unidades al salir de la línea de producción.
 Un inspector revisa cada refrigeradora medida que sale de producción registrando sus defectos. Después de inspeccionar 88 refrigeradores, se obtuvo una tabla de datos.
Ejercicios Diagramas de Pareto/Refrigeradores
	Tipo de Defecto	Frecuencia
	Empaque Defectuoso	9
	Pintura Defectuosa	5
	Gavetas Defectuosas	1
	Mala Nivelación	1
	El motor no arranca después de ciclo de parada	1
	No para el motor cuando alcanza Temperatura	36
	El motor arranca pero la heladera no enfría	27
	Al enchufar no arranca el motor	2
	Puerta de refrigerador no cierra herméticamente	1
	La puerta no cierra correctamente	2
	Rayas en las superficies externas	4
103
Ejercicio 2
Utilizando como herramienta el diagrama de Pareto, analice las pérdidas por rechazos en una fábrica de papel, teniendo en cuenta que se han detectado los conceptos que se muestran en la tabla siguiente, en la que también se indican los costes asociados a cada concepto. 
Ejercicios Diagramas de Pareto/Papel
104
Ejercicio 3
Un gran almacén, que registraba elevados costos por robos, encargó a un grupo de trabajo resolver el problema. Como el almacén disponía de varias plantas y ofrecía mercancía de naturaleza muy diferente, el equipo decidió empezar las investigaciones recogiendo datos sobre los costos por robos en varias secciones y realizar un Análisis de Pareto.
Ejercicios Diagramas de Pareto/Almacén
105
Ejercicio 4
Un equipo de mejora de la calidad en un gran hotel fue encargado de examinar las causas de insatisfacción de los clientes. En una pequeña encuesta preliminar se identificaron 20 causas probables de insatisfacción de los clientes. Realizar un Análisis de Pareto.
Ejercicios Diagramas de Pareto/Encuesta de satisfacción
106
Ejercicio 5
¿A qué equipos de fútbol le van los alumnos de 9° A?
Ejercicio con tabla dinámica en Excel
107
Se trata de analizar los problemas, fallas, quejas o datos cualquiera clasificándolos o agrupándolos de acuerdo con los factores que se considera pueden influir en la magnitud de los mismos.
Estratificación
1. A partir de un objetivo claro e importante, determine con discusión y análisis las características o factores a estratificar.
2. Mediante la colección de datos, evalúe la situación actual de las características seleccionadas. Exprese de manera gráfica la evaluación de las características (diagrama de Pareto, histograma, cartas de control, diagrama de caja, etcétera).
3. Determine las posibles causas de la variación en los datos obtenidos con la estratificación. Esto puede llevar a estratificar una característica más específica, como en los ejemplos.
4. Ir más a fondo en alguna característica y estratificarla.
5. Estratifique hasta donde sea posible y obtenga conclusiones de todo el análisis realizado.
Recomendaciones para estratificar:
Análisis de capacidad
108
109
¿En qué consiste el análisis de capacidad?
Consiste en conocer la variación natural de un proceso para una característica de calidad dada. Esto permite ver el grado de cumplimiento de esta característica de calidad 
Calidad
The totality of features and characteristics of a product or service that bear on its ability to satisfy stated or implied needs (ISO 8402: 1986, 3.1)
110
Cp
Donde:
Cp = índice de capacidad del proceso.
LS = valor de especificación superior del proceso.
LI = valor de especificación inferior del proceso.
Variación tolerada
Variación natural
Variación tolerada
Variación natural
Para una distribución normal
Para cualquier distribución
111
Cp
LIE
LSE
LIE
LSE
Cp solo mide la capacidad potencial del proceso
112
Cpi, Cps y Cpk
113
Cpi, Cps y Cpk
Entonces, ¿qué es el Cpk?
114
Cpi, Cps y Cpk
Esto aplica para la distribución normal
Estos índices solo son útiles en el corto plazo. Es calculado en un intervalo de tiempo en que otras afectaciones (como cambios de operador, de condiciones ambientales, etc.) no alterarán la dinámica del proceso. Para el largo plazo, se usan los índices Pp y Ppk., empleando la variación a largo plazo de un conjunto suficientemente grande de datos recolectados en el tiempo.
115
EJEMPLO
Se busca diagnosticar el proceso de manufactura de unas placas para medir cierto contaminante en agua mediante un método espectrofotométrico. Durante la producción de 500 placas (50 placas por día), se realizó un muestreo aleatorio del 10% de la producción diaria y se midió la absorbancia de cada una. La absorbancia requerida es 0.35.
Abs espesor de la placa
116
Salida de un análisis de capacidad en MINITAB
Desempeño de la muestra
Desempeño largo plazo
Desempeño de la población
117
Métricas Six Sigma
Métricas Six Sigma
118
EJEMPLO DE ESTUDIO DE CAPACIDAD
En un proceso de producción de microelectrodos para técnicas electroanalíticas se tiene que el cuerpo expuesto del platino fuera del epóxico debe tener un diámetro exterior de 2 cm, con una tolerancia de ± 25 μm. A las mediciones originales se les resta el valor nominal de 20 000 μm, por lo que el resultado de la resta debe estar dentro de ± 25 μm y ahora el valor nominal será cero, la tolerancia o especificación inferior es EI = −25, y la superior, ES = 25. En una de las últimas etapas del proceso de fabricación de los microelectroos, cada hora se mide el diámetro de cinco electrodos, en la tabla se han registrado los datos de cuatro turnos (dos días).
Bases de datos para histogramas/Microelectrodos
119
EJEMPLO DE ESTUDIO DE CAPACIDAD
Tendencia central
Mean= 0.6067
Median= 2.00
Moda= 2
Dispersión
Std. Dev.= 10.51
L.R.I. = -30.92
L.R.S. = 32.14
Diámetro= 
Hacer la gráfica de capacidad.
120
121
EJEMPLO DE ESTUDIO DE CAPACIDAD
En un proceso de producción de microelectrodos para técnicas electroanalíticas se tiene que el cuerpo expuesto del platino fuera del epóxico debe tener un diámetro exterior de 2 cm, con una tolerancia de ± 25 μm. A las mediciones originales se les resta el valor nominal de 20 000 μm, por lo que el resultado de la resta debe estar dentro de ± 25 μm y ahora el valor nominal será cero, la tolerancia o especificación inferior es EI = −25, y la superior, ES = 25. En una de las últimas etapas del proceso de fabricación de los microelectroos, cada hora se mide el diámetro de cinco electrodos, en la tabla se han registrado los datos de cuatro turnos (dos días).
Ejercicios de capacidad/Microelectrodos
122
EJEMPLO DE ESTUDIO DE CAPACIDAD
Un ingeniero que trabaja en una planta de metales desea determinar si el diámetro de un cable que produce la compañía satisface las especificaciones. Cada hora, los operadores toman un subgrupo de cinco cables consecutivos de una línea de producción y miden los diámetros. Un cable debe tener 0.55 ± 0.05 cm de diámetro para satisfacer las especificaciones de diseño.
Calcular la capacidad del proceso y la estabilidad
Datos en el archivo: 
Ejercicios de capacidad/Hilos
123
EJEMPLO DE ESTUDIO DE CAPACIDAD
En el ensamble de motores de automóvil, una de las partes, tiene una especificación de 600 ± 2 mm de longitud. Se ha tenido un problema crónico de esta pieza fuera de especificaciones causando un mal ensamble en la línea, así como desperdicio y retrabajos.
Durante un mes, se recopilan un total de 100 observaciones (20 muestras de cada lote) de cada uno de los proveedores. 
Calcular la capacidad del proceso y la estabilidad de los proveedores 
¿Qué proveedor elegirías y por qué? 
Datos en el archivo: 
Ejercicios de capacidad/Proveedores
124
Ejercicio
En un modelo de llantas para automóvil se tiene que la longitud de la capa debe ser de 550 mm, con una tolerancia de ± 8 mm. La longitud de la capa es el resultado de un proceso de corte de una tira de hule, el cual debe garantizar que la longitud este entre la especificación inferior EI = 542 y la superior ES = 558, con un valor ideal o nominal de N = 550. Para detectar la posible presencia de causas especiales de variacion, y en general para monitorear el correcto funcionamiento del proceso de corte, cada hora se toman cinco capas y se miden. 
Datos en el archivo: 
Ejercicios de capacidad/LLantas
125
Métricas SixSigma para atributos
Para atributos, la métrica a usar serán los Defectos por millón de oportunidades de error (DPMO). De aquí que hay que definir entonces:
Unidad
Es la parte o producto que se elabora
mediante un proceso.
Oportunidad de error
Cualquier parte de la unidad que puede
medirse o probarse si es adecuada.
Defectos 
Un defecto es cualquier no conformidad o desviación de la calidad especificada de un product. Defectos pueden clasificarse en dos formas : 
•Unidades defectivas (llamados "defectivos'), los cuales son contados como (1) independientemente de cuantos defectos existan en esa unidad defectiva. 
•Defectos por unidad de producción , donde puede haber múltiples defectos en una unidad defectiva. 
126
Métricas Six Sigma para atributos
Índice DPU
Métrica que determina el nivel de no calidad de un proceso que NO toma en cuenta las oportunidades de error.
Si se tienen 4 errores en 15 emisiones de actas de nacimiento, el DPU es
 defectos por unidad.
127
Métricas Six Sigma para atributos
Índice DPO
Métrica que determina el nivel de no calidad de un proceso que SÍ toma en cuenta las oportunidades de error. No es representativo un DPU para una unidad con 12 puntos de inspección que para una de 28. 
Para tener un mejor panorama, esta métrica se transforma en la DPMO (defectos por millón de oportunidades de error):
128
Métricas Six Sigma para atributos
Índice DPMO
1. Considere el proceso de emisión de actas de nacimiento. Se tienen identificados históricamente que hay seis defectos posibles, por lo que en un muestreo de 2,000 actas de nacimiento, se tiene que el 6% están incorrectas con un total de 135 errores. Calcule el DPMO.
2. Un banco ha determinado que el proceso de aprobación del préstamo hipotecario tiene 25 oportunidades de defectos. Durante el último trimestre, el banco ha procesado 373,560 solicitudes de hipotecas. En estas aplicaciones, se corrigieron 57,400 errores. ¿Cuál es el DPMO para el proceso? 
129
Métricas Six Sigma para atributos
Índice PPM
130
Métricas Six Sigma para atributos
Índice Throughput Yield
Throughput yield es una medida tomada en cada paso de un proceso, basada en el número de defectivos y el número de unidades procesadas . 
131
Métricas Six Sigma para atributos
Índice Rolled Throughput Yield
Este índice representa la probabilidad que un proceso se complete en todos sus pasos sin fallas. 
132
Métricas Six Sigma para atributos
Índice Rolled Throughput Yield (rendimiento combinado)
133
Métricas Six Sigma para atributos
Índice Rolled Throughput Yield (rendimiento combinado)
134
Referencias
Ángel Gutierrez, J. C. (1995). La correcta utilización de los promedios. Revista Universidad EAFIT.
Bioestadistica.uma.es. (2016). Capítulo 2: Estadísticos. [online] Disponible en: http://www.bioestadistica.uma.es/baron/apuntes/tema2/ [Acceso 2 May 2016]. 
Christensen, H. (1990). Estadística paso a paso. México: Editorial Trillas.
Gutiérrez, H. & De la Vara, R. (2009). Control estadístico de calidad y seis sigma. México: McGraw-Hill.
Mendenhall, W., Beaver, B. and Beaver, R. (2010). Introducción a la probabilidad y la estadística. México: Cengage Learning.
Prilliman, S. G. (2012). An inquiry-based density laboratory for teaching experimental error. Journal of Chemical Education, 89(10), 1305–1307. https://doi.org/10.1021/ed2006339
Treptow, R. S. (1998). Precision and accuracy in measurements: A tale of four graduated cylinders. Journal of Chemical Education, 75(8), 992–995. https://doi.org/10.1021/ed075p992
Weimer, R. C. (2007). Estadística. México: Editorial Patria.
134
70
Grupo A
Dotplot of Grupo A
7271706968
Grupo B
Dotplot of Grupo B
807060
Grupo C
Dotplot of Grupo C
78757269666360
Grupo D
Dotplot of Grupo D
500 600
0,0
0,1
0,2
0,3
0,4
Error = 5.7%
Absorbance (a.u.)
Wavelength (nm)
 Standard deviation
 Average on 39 samples
0.380.370.360.350.340.330.32
LSL0.32
Target0.35
USL0.38
Sample Mean0.349349
Sample N50
StDev(Overall)0.00997831
StDev(Within)0.0107031
Process Data
Pp1.00
PPL0.98
PPU1.02
Ppk0.98
Cpm1.00
Cp0.93
CPL0.91
CPU0.95
Cpk0.91
Potential (Within) Capability
Overall Capability
PPM < LSL0.001634.043051.92
PPM > USL0.001064.172093.57
PPM Total0.002698.215145.50
ObservedExpected OverallExpected Within
Performance
LSLTargetUSL
Overall
Within
Process Capability Report for Abs
0.380.370.360.350.340.330.32
LSL0.32
Target0.35
USL0.38
Sample Mean0.349349
Sample N50
StDev(Overall)0.00997831
StDev(Within)0.0107031
Process Data
Z.Bench2.78
Z.LSL2.94
Z.USL3.07
Ppk0.98
Cpm1.00
Z.Bench2.57
Z.LSL2.74
Z.USL2.86
Cpk0.91
Potential (Within) Capability
Overall Capability
PPM < LSL0.001634.043051.92
PPM > USL0.001064.172093.57
PPM Total0.002698.215145.50
ObservedExpected OverallExpected Within
Performance
LSLTargetUSL
Overall
Within
Process Capability Report for Abs
1st Quartile-5.0000
Median2.0000
3rd Quartile7.0000
Maximum28.0000
-1.08942.3027
0.00003.0000
9.442211.8581
A-Squared0.86
P-Value0.026
Mean0.6067
StDev10.5123
Variance110.5087
Skewness-0.261066
Kurtosis0.392722
N150
Minimum-33.0000
Anderson-Darling Normality Test
95% Confidence Interval for Mean
95% Confidence Interval for Median
95% Confidence Interval for StDev
3020100-10-20-30
Median
Mean
3210-1
95% Confidence Intervals
Summary Report for Diámetro nominal
3020100-10-20-30
LSL-25
Target*
USL25
Sample Mean0.606667
Sample N150
Location0.96112
Scale5.83781
Process Data
Pp0.65
PPL0.67
PPU0.62
Ppk0.62
Overall Capability
PPM < LSL6666.67
PPM > USL13333.33
PPM Total20000.00
Observed Performance
PPM < LSL11577.28
PPM > USL16019.62
PPM Total27596.90
Exp. Overall Performance
LSLUSL
Process Capability Report for Diámetro nominal
Calculations Based on Logistic Distribution Model

Continuar navegando