Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
PROCEDIMIENTO PARA EL CALCULO DE DECILES, CUARTILES Y PERCENTILES: Definición: el 100k- ésimo percentil pk es un valor tal, que al menos el 100k% de las observaciones están en ese valor o por debajo de él, y al menos el 100(1-k)% están en ese valor o por encima de él. 2 i = n*K i es entero? no si i es el siguiente entero mas grande i = n*k + 0,5 i es entero? no si Pk= cuéntese desde la observación más pequeña hasta hallar el i-ésimo valor. Pk = Xi Pk= es el promedio de las observaciones ordenadas 𝑷𝒌 = 𝑿𝒏∗𝒌+𝑿𝒏∗𝒌+𝟏 𝟐 Fin Inicio 3 161 161 162 162 165 165 165 165 165 165 166 166 168 168 169 169 169 169 169 169 170 170 170 170 170 170 170 171 171 171 171 171 171 171 171 172 172 172 172 172 172 172 175 175 175 175 176 176 177 177 178 180 180 181 181 185 185 185 189 189 Se va a hacer el análisis de la estatura en centímetros de 60 personas tomadas al azar. EJEMPLO 𝑖 = 60+1 2 +1 2 = 61 2 +1 2 = 30,5 +1 2 =30 + 1 2 =15,5 Q1= X15 + X16 = 169+169 = 169 2 2 Q3= 175+175 = 175 2 Cálculos de Q1 y Q3 Q2= 𝑥30+ 𝑥31 2 =171+171 2 = 171 𝑖 = (𝑛 + 1) 2 = 30,5 Cálculos de Q2 o mediana Otra forma para el cálculo de los cuartiles 4 1) Ordenar los datos de la muestra • Cálculo de Q1 Posición: 𝑖 = 𝑛+1 2 +1 2 = si es entera Q1 será Xi el iésimo valor contando desde el primer dato, o bien si es decimal, será el promedio del iésimo valor y el iésimo+1. Por ejemplo: si tengo 60 datos ordenados para averiguar la posición de Q1 =Xi donde 𝑖 = 60+1 2 +1 2 = 61 2 +1 2 = 30,5 +1 2 =30 + 1 2 =15,5 entonces Q1 será el promedio de los valores en las posiciones 15 y 16. Q1= 𝑋15+ 𝑥16 2 Q3 será el promedio de los valores en las posiciones 15 y 16 contando desde el último dato. • Q2 o mediana 𝑋 𝑋(𝑛+1) 2 n impar 𝑋𝑛 2 + 𝑋 𝑛 2+1 2 𝑛 𝑒𝑠 𝑝𝑎𝑟, 𝑒𝑠 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑒𝑠 𝑑𝑒𝑙 𝑙𝑜𝑡𝑒 Los corchetes indican que debemos tomar la parte entera 5 ANÁLISIS EXPLORATORIO DE DATOS El Análisis Exploratorio de Datos es un conjunto de técnicas destinadas a procesar lotes de datos, con las finalidades principales de : • detectar estructuras, • sugerir hipótesis • facilitar un posterior “Análisis Confirmatorio” que se encargará de evaluar sistemáticamente las estructuras o efectos observados Las tres técnicas básicas del AED son : 1. Resúmenes Numéricos (“letter values”) 2. Diagramas Tipo Caja (“Box-plot”) 3. Diagrama de Tallo y Hojas (“stem-and-leaf”). 6 1. RESUMENES NUMERICOS: (RESUMEN DE LOS 5 NUMEROS) Cuartil Mediana (Q2) Cuartil inferior (Q1) Superior (Q3) Máximo Mínimo n: 7 Cuartil inf. (Q1) Mediana (Q2) Cuartil Sup. (Q3) Máximo Mínimo n: Q1 + Q3 2 Máx + Mín 2 Medidas de tendencia Central Q3 – Q1 = dQ Máx - Mín = R dQ distancia entre cuartiles o también llamado recorrido intercuartílico Estos números se pueden usar para estudiar la FORMA de la distribución R recorrido de la variable Distancias RESUMENES NUMERICOS: (RESUMEN DE LOS 5 NUMEROS) 8 Las MEDIDAS DE TENDENCIA CENTRAL se usan como indicadores de ASIMETRIA. Si las dos medidas son aproximadamente iguales, los cuartiles y los extremos se encuentran ubicados simétricamente alrededor de la mediana, entonces el LOTE es SIMETRICO Si las medidas crecen progresivamente, el lote es ASIMETRICO POSITIVO. Si decrecen, el lote es ASIMETRICO NEGATIVO. Las DISTANCIAS son medidas de VARIABILIDAD. La distancia dc (DISTANCIA INTERCUARTILICA) representa el recorrido cubierto por aproximadamente la mitad del lote. Si los datos fueran PERFECTAMENTE SIMETRICOS, sería cierto lo siguiente: 1. La distancia de Q1 a la Mediana sería igual a la distancia de la Mediana a Q3. 2. La distancia del MINIMO a Q1 sería igual a la distancia de Q3 al MAXIMO 3. Mediana = Q1 + Q3 = Min + Max 2 2 9 Para distribuciones no simétricas sería cierto lo siguiente: 1. En las distribuciones con sesgo a la derecha (asimétricas positivas), la distancia de Q3 al Máximo, excede en gran medida la distancia del mínimo a Q1 2. En las distribuciones con sesgo a la derecha MEDIANA < Q1 + Q3 < Min + Max 2 2 3. En las distribuciones con sesgo a la izquierda (asimétricas negativas), la distancia del Mínimo a Q1 excede en gran medida la distancia de Q3 al máximo. 4. En las distribuciones con sesgo a la izquierda Min + Max < Q1 + Q3 < MEDIANA 2 2 10 11 2. DIAGRAMA TIPO CAJA BOX PLOT Los diagramas de caja son de gran utilidad como técnica de análisis exploratorio de datos. Permiten observar: • Medidas de posición, variabilidad, simetría • Longitud de las colas • Existencia de valores distantes “outliers” o valores extremos. • Pero además, el Boxplot es bien útil para comparar dos o mas grupos. ¿Cómo se dibuja un diagrama de caja? Un diagrama de caja se construye como sigue: 1) Ordenar los datos de la muestra y obtener el valor mínimo, el máximo, y los tres cuartiles Q1, Q2 y Q3. 2) Dibujar un rectángulo cuyos extremos son Q1 y Q3 e indicar la posición de la mediana, Q2, mediante una línea central. 3) Calcular con cualquiera de los procedimientos descritos anteriormente unos límites admisibles superior e inferior, que identifiquen a los valores atípicos. Límite Inferior: Li=Q1–(1,5 dQ) Límite Superior: Ls = Q3 + (1,5 dQ) Límite Muy alejado Inferior: Lmi=Q1–(3*dQ) Límite Muy alejado Superior: Lms= Q3 + (3 dQ) dQ = Q3 – Q1 = recorrido intercuartílico. 12 Se consideran valores ALEJADOS: a los valores menores que Li y mayores que Ls MUY ALEJADOS: Los valores menores que Lmi y mayores que Lms Algunos textos indican que los valores alejados se marcan con * (cotas interiores) y los muy alejados con (también llamados cotas exteriores) 4) Dibujar con línea punteada paralela al eje x, los límites para valores alejados y muy alejados. Si hay valores que caen en esas fronteras marcarlos con * o 5) Dibujar una línea vertical que va desde cada extremo del rectángulo central hasta el valor más alejado no atípico. Es decir, el último valor en los datos que no es alejado ni muy alejado. 13 161 161 162 162 165 165 165 165 165 165 166 166 168 168 169 169 169 169 169 169 170 170 170 170 170 170 170 171 171 171 171 171 171 171 171 172 172 172 172 172 172 172 175 175 175 175 176 176 177 177 178 180 180 181 181 185 185 185 189 189 Se va a hacer el análisis de la estatura en centímetros de 60 personas tomadas al azar. EJEMPLO BOX PLOT 𝑖 = 60+1 2 +1 2 = 61 2 +1 2 = 30,5 +1 2 =30 + 1 2 =15,5 Q1= X15 + X16 = 169+169 = 169 2 2 Q3= 175+175 = 175 2 Cálculos de Q1 y Q3 Q2= 𝑥30+ 𝑥31 2 =171+171 2 = 171 𝑖 = (𝑛 + 1) 2 = 30,5 Cálculos de Q2 o mediana 14 DIAGRAMA TIPO CAJA BOX PLOT Li = Q1 – 1,5 dQ 169 - 1,5 *6= 160 Ls = Q3 + 1,5 dQ Q3 + 1,5 * 6 =184 Lmi = Q1 – 3 dQ Q1 – 3 * 6 = 151 Lms = Q3 + 3 dQ Q3 + 3 * 6 = 193 Valores Alejados Valores MUY Alejados Q3 Q2 o mediana Q1 Valor Mínimo Máximo Valor antes de los límites o cotas Valores Alejados Valores MUY Alejados Lms Ls Li Lmi 15 3. DIAGRAMA DE TALLO Y HOJA Un diagrama de tallo y hoja es una forma gráfica de organizar los datos para poder ver características de la distribución como: • Forma y el grado aproximado de simetría de la distribución • La dispersión que presentan los datos del conjunto • La presencia y cantidad de valores atípicos o extremos • La existencia e concentraciones de datos en determinados puntos de la distribución. • La existencia de agujeros en el conjunto de datos de la distribución, etc. 16 COMO SE CONSTRUYE UN DIAGRAMA DE TALLO Y HOJA 1. Ordenar el lote de datos 2. El número se dividirá en dos partes, el / los dígitos finales serán las hojas y el/los dígitos iniciales serán los tallos o directores. Primero daremos ejemplos y conceptos, y luego utilizaremos las fórmulas sugeridas para ello: Ejemplo 1. Para explicar la construcción del diagrama de tallo y hojas consideremos el lote de datos siguiente, que representan el tiempo (en segundos) que 25 trabajos estuvieron en control de la unidad central de proceso(CPU) de una computadora mainframe grande. 1,1 1,6 1,1 1,3 3,5 1,2 3,7 1,9 0,9 4,7 0,1 2,4 0,7 0,0 1,5 0,1 0,8 0,4 2,1 2,0 0,9 0,7 2,5 3,0 1,4 En este caso tenemos N=25 datos. Por ejemplo el dato 1,9 se dividirá de la siguiente manera Tallo Hoja (primer dígito) (lugar decimal) 1 9 17 Se anotan en una columna todos los valores posibles valores para los tallos, ordenados de menor a mayor. Luego se indican las hojas en las líneas correspondientes de acuerdo al tallo. N=25 (unidad para las hojas = 10-1 segundos) 9 0 0 1 1 4 7 7 8 9 9 (8) 1 1 1 2 3 4 5 6 9 8 2 0 1 4 5 4 3 0 5 7 1 4 7 Hojas Tallos Profundidades o frecuencias de datos en cada tallo. La fila o tallo que contiene la mediana va entre paréntesis. Las frecuencias se acumulan hasta llegar a este tallo desde el principio y desde el final, hasta donde está la mediana. Esta frecuencia va entre paréntesis y sin acumular. Σ Σ sin acumular 18 N=25 Profundidades (unidad para las hojas = 10-1 segundos) 4 0 * 0 1 1 4 9 0 • 7 7 8 9 9 (5) 1 * 1 1 2 3 4 11 1 • 5 6 9 8 2 * 0 1 4 5 2 • 5 4 3 * 0 3 3 • 5 7 1 4 * 1 4 • 7 Hojas Tallos Ramas o subdivisiones del tallo 4 Cuando se observan muchas hojas en cada línea existe la posibilidad de dividir las líneas repitiendo los tallos. Se pueden considerar dos líneas por tallo, llamadas ramas: en la primera línea , que se indica con un asterisco “ * ”, se colocan las hojas 0, 1, 2, 3 y 4, en la segunda, señalada mediante un punto “ • ”, los dígitos 5, 6, 7, 8 y 9. Σ Σ Frec sin acumular entre paréntesis 19 3. Una guía para calcular el número sugerido de tallos con la fórmula de Dixon y Kronmal (1965): L = [10 log 10 n]. En donde n es la cantidad de datos 4. Calcular la amplitud del intervalo en cada línea o tallo h = R / L = (Xmax- Xmin) / L Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos. A ese resultado aproximado , debo poder expresarlo como una potencia de 10, 2 * 10 potencia 5 * 10 potencia 10 * 10 potencia 2, 5, o 10, son las hojas que contendrán las ramas que tendrá cada tallo: Si es 2 Si es 5 * 0 al 4 * 0 y 1 5 AL 9 t 2 y 3 (two – Three) f 4 y 5 (four – Five) S 6 y 7 (six – seven) Si es 10 en cada tallo van las 10 opciones del 0 al 9. De lo anterior resulta que 10 Potencia, es la unidad de las hojas, que servirá al lector para reconstruir o comprender los datos del diagrama 20 5. En una columna colocar los tallos ordenados de menor a mayor, luego sus ramas (si las tiene) 6. Trazar una línea a la derecha 7. Colocar las hojas ordenadas, correspondientes a cada tallo 8. Calcular y poner las frecuencias o profundidades. Marcando el tallo que contiene la mediana entre ( ) y sin acumular. 9. Indicar claramente la unidad para las hojas. Por ejemplo: unidad para las hojas = 10-1 segundos 10. Estamos en condiciones de estudiar forma, simetría, datos alejados, etc. 21 18,5 19,9 20,9 22,2 24,7 25,3 26,1 27,2 28,1 32,2 18,6 20,1 21,2 22,5 24,8 25,4 26,2 27,3 28,2 32,3 18,7 20,4 21,2 22,8 24,8 25,5 26,3 27,4 28,8 32,3 18,7 20,4 21,2 23,0 25,2 25,5 26,4 27,4 28,9 32,5 18,9 20,5 21,3 23,2 25,2 25,5 26,5 27,5 29,5 32,6 19,1 20,6 21,7 23,4 25,2 25,6 26,6 27,5 29,9 33,9 19,3 20,6 21,9 24,0 25,2 25,7 26,7 27,6 29,9 34,2 19,5 20,7 22,0 24,2 25,2 25,8 26,8 27,6 30,8 34,5 19,7 20,8 22,1 24,4 25,3 25,8 26,8 27,8 31,4 37,3 19,8 20,8 22,1 24,7 25,3 25,9 26,8 27,9 31,8 38,7 EJEMPLO PARA CONSTRUCCIÓN DEL DIAGRAMA DE TALLO Y HOJAS: Los datos mostrados en la tabla siguiente son los salarios iniciales para una muestra aleatoria de 100 graduados del bachillerato técnico en ciencia de la computación o sistemas de computación, durante el año 1990. Los datos se ordenaron para facilitarle su análisis. 22 Pasos para solución: 1. Ordenar los datos. 2. Calcular el número sugerido de tallos L = [10 log 10 100] = 20. En donde n es la cantidad de datos 3. Calcular la amplitud del intervalo en cada línea o tallo h = R / L = (38,7 – 18,5) / 20 = 1,01 Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos. En este caso, lo aproximo a 2. Esto se puede expresar como 2* 10 0. Entonces la unidad de las hojas es la unidad, pues 10 0 = 1 , truncamos los decimales. Dibujamos los tallos, con las ramas de 2 datos cada una, y voy ubicando los datos Frec Acum Frec 1 * t f s 11 11 · 8 8 8 8 8 9 9 9 9 9 9 27 16 2 * 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 36 9 t 2 2 2 2 2 2 3 3 3 (24) 24 f 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 40 20 s 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 20 7 · 8 8 8 8 9 9 9 13 3 3 * 0 1 1 10 6 t 2 2 2 2 2 3 4 2 f 4 4 2 1 s 7 1 1 · 8 Unidad para las hojas = 10 0 segundos 23 4. En una columna colocar los tallos ordenados de menor a mayor, luego sus ramas (si las tiene) 5. Trazar una línea a la derecha 6. Colocar las hojas ordenadas, correspondientes a cada tallo 7. Calcular y poner las frecuencias o profundidades. Marcando el tallo que contiene la mediana entre ( ) y sin acumular. 8. Indicar claramente la unidad para las hojas. Por ejemplo: unidad para las hojas = 10 0 segundos Supongamos en el mismo ejemplo que decidimos considerar los decimales. 1. Ordenar los datos. 2. Calcular el número sugerido de tallos L = [10 log 10 100] = 20. En donde n es la cantidad de datos 3. Calcular la amplitud del intervalo en cada línea o tallo h = R / L = (38,7 – 18,5) / 20 = 1,01 Al resultado debo aproximarlo a 2, 5 o 10 para saber la cantidad de datos que contendrá cada rama de los tallos. En este caso, lo aproximo a 1, que se puede expresar como 10 * 10 -1. Entonces la unidad de las hojas es la posición decimal 10 -1 = 0,1. Cada tallo contendrá 10 posibilidades. Dibujamos los tallos, con las ramas de 10 datos cada una, y voy ubicando los datos 24 Frec Acum Frec 5 5 18 5 6 7 7 9 11 6 19 1 3 5 7 8 9 21 10 20 1 4 4 5 6 6 7 8 8 9 27 6 21 2 2 2 3 7 9 33 6 22 0 1 1 2 5 8 36 3 23 0 2 4 43 7 24 0 2 4 7 7 8 8 (17) 17 25 2 2 2 2 2 3 3 3 4 5 5 5 6 7 8 8 9 40 10 26 1 2 3 4 5 6 7 8 8 8 30 10 27 2 3 4 4 5 5 6 6 8 9 20 4 28 1 2 8 9 16 3 29 5 9 9 13 1 30 8 12 2 31 4 8 10 5 32 2 3 3 5 6 5 1 33 9 4 2 34 2 5 2 0 35 2 0 36 2 1 37 3 1 1 38 7 Σ Σ Frec sin acumular entre paréntesis Unidad de las hojas es 10 -1 25 Cantidad de hojas posibles por tallo 10 Cantidad de hojas posibles por tallo 5 Cantidad de hojas posibles por tallo 2 Con software Minitab, este trunca los decimales, trabaja con las unidades y decenas. Las unidades quedan como hojas y las decenas como tallos. Dibujamos las 3 opciones 26 Podemos observar los diagramas de tallo y hoja girando la cabeza 90° en sentido horario, y decir a simple vista: La representación dada por 2* 10 0. Es más adecuada pues no presenta huecos, y presenta mejor la forma y distribución de los datos. La forma es leptocúrtica. Asimetría a la derecha. No se observa una variabilidad muy pronunciada en la distribución. Los datos se concentran del 24 al 27. Se debe complementar con otros estudios (por ej. Box plot para ver posibles valores alejados), a simple vista no parece tener. Frec Acum Frec 1 * t f s 11 11 · 8 8 8 8 8 9 9 9 9 9 9 27 16 2 * 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 36 9 t 2 2 2 2 2 2 3 3 3 (60) 24 f 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 40 20 s 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 7 7 20 7 · 8 8 8 8 9 9 9 13 3 3 * 0 1 1 10 6 t 2 2 2 2 2 3 4 2 f 4 4 2 1 s 7 1 1 · 8 Unidad para las hojas = 10 0 segundos 27 Cuando los datos tienen dos decimales, los distintos autores tienen diferentes criterios: Truncar ( por ejemplo: 1,46, lo truncamos como 1,4. Así trabajan los SW de estadística como Minitab)) Redondear ( por ejemplo: 1,46, lo redondeamos a 1,5) Colocar dos dígitos en las hojas (para conservar el número original) 28 Libro Estadística para la Administración de Berenson y Levine : redondea el segundo dígito decimal 29 6433 6435 6464 6470 6506 6526 6527 6583 6605 6614 6694 6700 6713 6745 6770 6770 6790 6798 6850 6870 6873 6890 6900 6904 6927 6936 70057011 7022 7040 7050 7051 7105 7113 7131 7165 7168 7169 7209 7280 Datos originales de trayectos en yardas de canchas de golf, (de las más difíciles de EEUU). Son 40 datos Minitab trunca el ultimo valor (unidades). Grafica unidades de mil y centenas como tallos y las decenas como hojas Según el libro de Devore, se incluyen los dos últimos dígitos como hojas y las unidades de mil y centenas como tallos, para no perder el dato. De la misma forma se haría si el número tuviera dos decimales, se dejarían dos decimales como hojas y los dos o más enteros como tallos Libro Probabilidad y Estadística para Ingeniería y Ciencias de Jay L. Devore, y Minitab Unidad de las hojas 10 1, es decir decenas. Las unidades fueron truncadas 30 Ejemplo: Consideremos los datos de la dureza de 30 incrustaciones de aluminio presentadas en un estudio de control de calidad. Supongamos que no queremos perder los dígitos decimales, pues resultan representativos en el estudio. 5,07 5,11 5,24 5,30 5,34 5,35 5,41 5,53 5,57 5,57 5,95 6,35 3,43 6,73 6,91 6,95 7,02 7,05 7,14 7,23 7,30 7,44 7,78 7,85 8,25 8,27 8,43 8,58 8,75 9,54 Frec. Acum Frec 7 7 5 * 07 11 24 30 34 35 41 11 4 5 · 53 57 57 96 13 2 6 * 35 43 (3) 3 6 · 73 91 95 14 6 7 * 02 05 14 23 30 44 8 2 7 · 78 85 6 3 8 * 25 27 43 3 2 8 · 58 75 1 0 9 * 1 1 9 · 54
Compartir