Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Universidad de Sonora Probabilidad y estadística I. Introducción • La estadística en la Ingeniería El desarrollo de la estadística ha tenido un gran impacto en la ingeniería, la agricultura, la medicina, la demografía, la biología, la administración, la economía etc., a tal grado que se ha convertido en una herramienta importante para éstas áreas; el conocimiento de la estadística es una verdadera necesidad ya que para entender o aplicar gran parte del trabajo realizado en alguno de estos campos, es necesario emplear ésta herramienta. Las técnicas estadísticas existentes pueden ser muy generales, pero el surgimiento de necesidades en los diferentes campos propiciaron el desarrollo de técnicas especiales, por ejemplo, en lo que respecta a la ingeniería, se pueden mencionar tres áreas que emplean técnicas especiales para la solución de problemas, como son: Garantía de Calidad (Control de Calidad), Confiabilidad y Prueba de vida de los Productos y finalmente Investigación de Operaciones. • El científico y el Ingeniero en el mejoramiento de la calidad. Una investigación generalmente inicia con una idea, ésta es obtenida por medio de muchas fuentes, pero cualquiera que sea la formulación correcta de un problema a investigar, solo se puede lograr en muchos casos, con base en el análisis, a veces simplemente exploratorio de datos referentes al problema. La definición de objetivos, la determinación de procedimientos metodológicos, en fin, prácticamente todas las etapas de un proceso investigativo requieren para su mejor desarrollo de la estadística, en las circunstancias anotadas anteriormente. Los métodos propios de la estadística están íntimamente relacionados con las características del Método Científico. La estadística con sus métodos descriptivos, permite la observación de los hechos y con sus métodos inferenciales colabora con el proceso de transcenderlos, de generalizar el comportamiento o relación de fenómenos, aportando además formas de medir la confianza y validez de tales generalizaciones con base en su soporte probabilístico. Se puede entonces ubicar a la estadística como un valioso auxiliar del Método Científico, ubicación que implica una visualización de esta ciencia en el aspecto de su aplicación práctica, sin considerar su ubicación formal, el objeto formal de su conocimiento desde el punto de vista filosófico y por ende epistemológico. La importancia de la estadística en la ingeniería, ha sido encaminada por la participación de la industria en el aumento de la calidad. Muchas compañías se han dado cuenta que la baja calidad de un producto, tiene un gran efecto en la productividad global de la compañía, en el mercado, la posición competitiva, y finalmente, en la rentabilidad de la empresa. Mejorar los aspectos de calidad conlleva al éxito de la compañía. La estadística es un elemento decisivo en el incremento de la calidad, ya que las técnicas estadísticas pueden emplearse para describir y comprender la variabilidad. Todos los procesos y sistemas de la vida real exhiben variabilidad. Esta es el resultado de cambios en las condiciones bajo las cuales se hacen las observaciones. En el contexto de la manufactura, estos cambios pueden ser diferencias en las propiedades de los materiales utilizados, en la forma en que trabajan los obreros, en las variables del proceso (tales como la temperatura, la presión o el tiempo de ocupación) y en los factores ambientales (como la humedad relativa). La variabilidad se presenta también debido al sistema de medición utilizado y al muestreo. El campo de la estadística y la probabilidad utiliza métodos tanto para describir y modelar la variabilidad, así como para tomar decisiones en presencia de ésta. II. Manejo de Datos • Introducción. Una de las tantas definiciones de la estadística, es concebida como el conjunto sistemático de procedimientos para la observación, registro, organización, síntesis, análisis e interpretación de los fenómenos y las leyes que los regulan para poder así predecir ó concluir acerca de ellos. Lo anterior involucra a las dos ramas en la que se divide la estadística que son: Estadística Descriptiva: “es la parte de la estadística que agrupa las técnicas apropiadas para la organización, representación y descripción de un conjunto de datos, con el propósito de resaltar sus rasgos más importantes y extraerla información esencial que contiene”. Estadística Inferencial: “es la parte de la estadística que nos permite hacer estimaciones ó inferencias sobre una POBLACIÓN por medio de una MUESTRA, la cual es extraida de ella (con ayuda de la Teoría de la probabilidad)”. • Población y Muestras. Población: “se define como la totalidad de valores posibles (mediciones ó conteos) de una característica particular de un grupo especificado de objetos llamado Universo” Muestra: “se define como un subconjunto de valores seleccionados de la población”. Observaciones: i. Una población puede ser una muestra. ii. La muestra debe de ser seleccionada de tal manera que sea representativa de la población (teoría de muestreo). Universo Población Muestra Son Es un Objetos los valores subconjunto Individuos obtenidos de de la Cosas..... los objetos... población Elementos escenciales de un problema estadístico. a. Una definición clara del objetivo del experimento y de la población pertinente, es decir, tener bien clara la pregunta que se requiere responder y la población a considerar. b. Seleccionar el diseño de experimento o procedimiento de muestreo, esto es, ¿cómo debemos seleccionar la muestra? c. La recopilación y el análisis de datos, es decir, utilizar un método de análisis apropiado para los datos muestrales y poder así obtener la información deseada de ellos. d. Aplicar el procedimiento adecuado para hacer inferencias acerca de la población, basada en la información muestral, en otras palabras, utilizar los datos muestrales para hacer inferencias sobre la población. e. La proposición de una medida de bondad (confiabilidad o probabilidad) para la inferencia, esto es, decir con que confiabilidad tal inferencia es válida. VARIABLES “Una variable es una función que nos relaciona a dos conjuntos A y B, y se denotan mediante la letras mayúsculas X, Y, Z, W, ..... Además, las variables se clasifican en: Variables Cualitativas (categóricas): Es cuando lo valores que toma la variable son clasificaciones, etiquetas ó categorías. 5 + 2 =7 Variables Cuantitativas (numéricas): Es cuando lo valores que toma la variable son números por naturaleza. De acuerdo con su naturaleza matemática, estas variables se dividen en Discretas y Continuas, siendo las primeras aquellas en las que el conjunto de valores que puede tomar es finito o infinito numerable; no pueden tomar valores intermedios entre dos valores dados. Las continuas son aquellas en las que el conjunto de valores que pueden tomar es infinito no numerable; pueden tomar cualquier valor dentro del conjunto. ESCALAS DE MEDICIÓN DE LAS VARIABLES. Para clasificar o categorizar variables, se utilizan diferentes tipos de escalas, siendo las más comunes las Nominales, las Ordinales, las de Intervalo y las de Proporción o Razón, cuyo uso dependerá básicamente de los objetivos de estudio y la naturaleza de la variable. a. Escala Nominal: Es cuando el nombre, números ó símbolos solo se utilizan con el fin de distinguir entre si a las clases ó grupos al que pertenecen varios objetos. Estos nombres, números ó símbolos constituyen una escala nominal, también denominada escala clasificatoria. b. Escala Ordinal: Incluye todas las propiedades deuna escala nominal, con la característica adicional de que los valores de las clases guardan cierta relación de orden, existe la relación de mayor o menor que entre las categorías de la variable. c. Escala de Intervalo: Además de cumplir con las propiedades de una escala de ordinal se sabe la magnitud de los intervalos entre los valores de las clases. Como observación podemos decir que la unidad de medición y el cero son arbitrarios. d. Escala de Proporción (Razón): Es cuando la escala tiene todas las propiedades de una escala de intervalo y además tiene un punto cero real en su origen, en ella la proporción de un punto a otro de la escala es independiente de la unidad de medida. Conclusión: ➢ Una variable cualitativa tiene asociadas las escalas de medición Nominal y Ordinal ➢ Una variable cuantitativa tiene asociadas las escalas de medición de Intervalo y Razón o Proporción Cuando uno clasifica a una variable y le asigna la escala de medición correspondiente, las únicas respuestas factibles son: ➢ La Variable es Cualitativa, con escala Nominal ➢ La Variable es Cualitativa, con escala Ordinal ➢ La Variable es Cuantitativa Discreta, con escala Intervalo ➢ La Variable es Cuantitativa Discreta, con escala Razón o Proporción ➢ La Variable es Cuantitativa Continua, con escala Intervalo ➢ La Variable es Cuantitativa Continua, con escala Razón o Proporción Ejemplos: En cada uno de los siguientes casos clasifique el tipo de variable que se le define y establezca su escala de medición. 1. “El número telefónico de una persona” ➔ 6623547801, 6623547802, …. Variable Cualitativa con escala de medición Nominal 2. “El color de los ojos de un animal” ➔ Verde, Café,…. Variable Cualitativa con escala Nominal 3. “El número obtenido en el juego de la ruleta” ➔8, 31, 19, 6 Variable Cualitativa con escala de medición Nominal 4. “El grado de fanatismo de una persona” ➔ Muy fanático (3), Fanático (2), Poco Fanático (1), Nada Fanático (0) Variable Cualitativa con escala de medición Ordinal 5. “El grado asignado en el ejército a una persona” Variable Cualitativa con escala de medición Ordinal 6. “El puesto que ocupa una persona en una empresa” Variable Cualitativa con escala de medición Ordinal 7. “Medir la temperatura ambiente” ➔ 13° C, 12.1°C, 24.8°C, 42°C, 0°C La Variable es Cuantitativa Continua con escala de medición de Intervalo 8. “La vida útil de un televisor” Variable Cuantitativa Continua con escala de medición de Proporción ó Razón 9. “El peso de una computadora” Variable Cuantitativa Continua con escala de medición de Proporción ó Razón 10. “El tiempo que dura un programa de televisión” Variable Cuantitativa Continua con escala de medición de Proporción ó Razón 11. “El lugar que ocupa un equipo de béisbol al finalizar una temporada” Variable Cualitativa con escala de medición Ordinal 12. “Determinar el estado civil de un estudiante universitario” Variable Cualitativa con escala de medición Nominal 13. “El número de estudiantes que le escriben en un chat a un desconocido” Variable Cuantitativa Discreta con escala de medición de Proporción ó Razón 14. “La clasificación de un producto (muy bueno, bueno, regular, malo, muy malo) Variable Cualitativa con escala de medición Ordinal 15. “Medir el coeficiente intelectual (C.I.) de un estudiante de primer ingreso de la UniSon. Variable Cuantitativa Discreta con escala de medición de Proporción ó Razón Variable Cuantitativa Continua con escala de medición de Proporción ó Razón 16. “Medir peso de un kilo de papas” NO es variable MUESTREO a. Muestreo Aleatorio: “Método de selección de una muestra en forma tal que todas y cada una de las posibles muestras tengan la misma posibilidad de ser seleccionadas”. La muestra resultante recibe el nombre de Muestra Aleatoria. 𝑀1, 𝑀2, 𝑀3, … . , 𝑀𝑘 b. Muestreo Aleatorio Simple: “Es cuando los elementos de la muestra tienen la misma posibilidad de pertenecer a la misma”. Este tipo de muestreo puede ser con sustitución ó sin sustitución, y la muestra resultante recibe el nombre de Muestra Aleatoria Simple. c. Muestreo Estratificado: “Es cuando la población está dividida en grupos, llamados estratos, y los elementos de la muestra se eligen de cada uno de estos estratos, mediante un muestreo aleatorio simple.” La División de Ingeniería, tiene una Población estudiantil de licenciatura de tamaño N= 7311. Requerimos seleccionar una muestra aleatoria (m. a.) de tamaño n=200 Licenciaturas Número de Estudiantes Conformación de la Muestra Ing. Civil 2150 20 Ing. en Minas 700 20 Ing. en Mecatrónica 550 20 Ing. Industrial y de Sistemas 2000 20 Ing. en Sistemas de Información 900 20 Ing. Químico 450 20 Ing. Metalúrgico 279 20 Ing. en Materiales 100 20 Ing. en Energías Renovables 95 20 Lic. en Sustentabilidad 87 20 N=7311 n=200 d. Muestreo Proporcional: “Es cuando la población está estratificada y los elementos de la muestra se seleccionan proporcionalmente al número de elementos de cada uno de los estratos”. Universidad tiene una Población de tamaño N= 29, 800, requerimos seleccionar una muestra aleatoria de tamaño n=200 Divisiones URC Num. Estudiantes Porcentaje (%) Conformación de la Muestra Ciencias Sociales 9500 31 31 % de 200 = 62 Ciencias Económicas Administrativas 4100 14 14 % de 200 = 28 Ciencias Biológicas y de la Salud 3600 12 12 % de 200 = 24 Ingeniería 7400 25 25 % de 200 = 50 Ciencias Exactas y Naturales 3800 13 13 % de 200 = 26 Humanidades y Bellas Artes 1400 5 05 % de 200 = 10 e. Muestreo por Conglomerados: “una muestra por conglomerados se obtiene seleccionando un subconjunto de estratos de la población y de estos obtenemos los elementos la muestra”. La División de Ingeniería, tiene una Población estudiantil de licenciatura de tamaño N= 7311. Requerimos seleccionar una muestra aleatoria (m. a.) de tamaño n=200 Licenciaturas Número de Estudiantes Conformación de la Muestra Ing. Civil 2150 40 Ing. en Minas 700 Ing. en Mecatrónica 550 Ing. Industrial y de Sistemas 2000 40 Ing. en Sistemas de Información 900 Ing. Químico 450 40 Ing. Metalúrgico 279 Ing. en Materiales 100 40 Ing. en Energías Renovables 95 Lic. en Sustentabilidad 87 40 N=7311 n=200 f. Muestreo Sistemático: “Para obtener una muestra sistemática, se elige aleatoriamente un elemento de entre los primeros K elementos de la población y posteriormente se selecciona en forma sucesiva el K-ésimo elemento que sigue al último que se obtuvo”. 43, 67, 65, 36, 49, 84, 79, 56, 44, 82, 38, 82, 43, 78, 37, 48, 63, 72, 68, 51, 40, 43, 50, 60, 76, 57, 46, 55, 39, 45, 62, 59, 48, 76, 74, 70, 51, 40, 82, 39, 52, 35, 52, 52, 63, 63, 80, 84, 28, 37, 48, 76, 60, 48, 55, 51, 54, 45, 27, 70, 80, 21, 35, 38, 54, 42, 61, 45, 33, 61, 37, 92, 74, 36, 45, 53, 64, 37, 43, 89, 52, 48, 52, 56, 62, 65, 55, 75, 61, 73, 50, 53, 84, 71, 28, 41, 54, 82, 38, 26, 35, 47, 32, 64, 36, 43, 67, 36, 44, 41, 35, 51, 29, 80, 75, 56, 62, 22, 82, 80, 54, 88, 64, 75, 38, 62, 73, 65, 83, 68, 51, 84, 47, 53, 28, 32, 75, 56, 45, 75, 59, 53, 74, 64, 40, 50, 38, 70, 60, 43. Seleccionemos una muestra aleatoria de tamaño n=10 Muestra Aleatoria: {36, 38, 72, 76, 59, 82, 63, 60, 70, 71} = {36, 38, 59, 60, 63, 70, 71, 72, 76, 82} • Distribuciones de frecuencia. Como se mencionó anteriormente, la estadística descriptiva es la parte de la estadística que proporciona los métodos que permiten organizar y resumir los resultados de las observaciones de las características de interés contenida en una muestra, con el objetivo de hacer estimaciones sobre las características principales de la población, así como también los métodos para presentar y describir la información. El método utilizado en la organización y resumen de los datos sonla Tablas de Distribución de Frecuencias (TDF). Los valores observados de las variables se agrupan en clases y se anota el número de elementos de cada clase, este número recibe el nombre de frecuencia de clase cuyo símbolo representativo será 𝑓𝑖 . Otras características importantes que se deben de incluir en una TDF de este tipo son: Frecuencia Relativa de Clase: “Se define como el cociente de la frecuencia de clase y el tamaño de la muestra y se denota por 𝑓�̃�”. 𝑓�̃� = 𝑓𝑖 𝑛 𝑓�̃� = 𝑓𝑖 𝑛 ∗ 100% Frecuencia Acumulada de Clase: La frecuencia acumulada de la i -ésima clase, denotada por iF , se define como las suma todas las frecuencias de clase anteriores, hasta la i -ésima clase, es decir, 𝐹𝑖 = ∑ 𝑓𝑘 𝑖 𝑘=1 = 𝑓1 + 𝑓2 + ⋯ . . +𝑓𝑖 𝐹1 = 𝑓1 𝐹2 = 𝑓1 + 𝑓2 𝐹3 = 𝑓1 + 𝑓2 + 𝑓3 𝐹6 = 𝑓1 + 𝑓2 + 𝑓3 + 𝑓4 + 𝑓5 + 𝑓6 = 𝐹3 + 𝑓4 + 𝑓5 + 𝑓6 𝐹6 = 𝐹5 + 𝑓6 Frecuencia Relativa Acumulada de Clase: La frecuencia relativa acumulada de la i -ésima clase, que denotamos 𝐹�̃�, se define como la suma de todas las frecuencias relativas anteriores, hasta la i -ésima clase, esto es: 𝐹�̃� = ∑ 𝑓�̃� 𝑖 𝑘=1 = 𝑓1̃ + 𝑓2 + ⋯ . . +𝑓�̃� lo anterior es equivalente a el cociente de la frecuencia acumulada de la i -ésima clase y el tamaño de la muestra 𝐹�̃� = 𝐹𝑖 𝑛 𝐹�̃� = 𝐹𝑖 𝑛 ∗ 100% En resumen: Tabla Estadística Clases Frecuencias Frecuencias Relativas (%) Frecuencias Acumuladas Frecuencias Relativas Acumuladas (%) 𝐶1 𝑓1 𝑓1̃ 𝐹1 𝐹1̃ 𝐶2 𝑓2 𝑓2̃ 𝐹2 𝐹2̃ 𝐶3 𝑓3 𝑓3̃ 𝐹3 𝐹3̃ 𝐶𝑘 𝑓𝑘 𝑓�̃� 𝐹𝑘 𝐹�̃� Tabla de distribución de frecuencias Clases Frecuencias 𝐶1 𝑓1 𝐶2 𝑓2 𝐶3 𝑓3 𝐶𝑘 𝑓𝑘 Tabla de distribución de frecuencias relativas Clases Frecuencias Relativas (%) 𝐶1 𝑓1̃ 𝐶2 𝑓2̃ 𝐶3 𝑓3̃ 𝐶𝑘 𝑓�̃� Tabla de distribución de frecuencias acumuladas? Tabla de distribución de frecuencias relativas acumuladas? Ejemplos. (Clase) 3. El primer día de clases del semestre pasado se les preguntó a 50 estudiantes el tiempo que hicieron de su casa a la universidad (redondeados a los cinco minutos más próximos). Los resultados de la encuesta son: 20, 25, 25, 15, 25, 05, 20, 25, 30, 25, 30, 15, 40, 20, 20,40, 25, 25, 10, 20, 15, 20, 25, 45, 25, 25, 10, 25, 05, 45, 25, 15, 20, 30, 35, 25, 35, 25, 30, 35, 40, 10, 25, 30, 30, 25, 35, 30, 20, 15. Definimos la variable: X = Medir el tiempo que hace un estudiante de su casa a la universidad (redondeados a los cinco minutos más próximos) La variable es Cuantitativa Discreta con escala de medición de Proporción o Razón Tabla Estadística Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada 05 2 0.04 2 0.04 10 3 0.06 5 0.10 15 5 0.10 10 0.20 20 8 0.16 18 0.36 25 16 0.32 34 0.68 30 7 0.14 41 0.82 35 4 0.08 45 0.90 40 3 0.06 48 0.96 45 2 0.04 50 1 Total n=50 1 Tabla Estadística Clases Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) 05 2 4 2 4 10 3 6 5 10 15 5 10 10 20 20 8 16 18 36 25 16 32 34 68 30 7 14 41 82 35 4 8 45 90 40 3 6 48 96 45 2 4 50 100 Total n=50 1 16 estudiantes hacen 25 minutos de su casa a la Universidad El 14 % de los estudiantes hacen 30 minutos de su casa a la Universidad 18 estudiantes hacen a lo más 20 minutos de su casa a la Universidad El 68 % de los estudiantes hacen a lo más 25 minutos de su casa a la Universidad Representación Gráfica. La información contenida en una tabla de distribución de frecuencias puede representarse gráficamente mediante: 1. Gráficas de Barra, también llamadas Histogramas y consiste en la construcción de rectángulos para cada clase cuya altura puede ser: 1.1 La frecuencia de clase ( if ) y se le denomina Histograma de Frecuencia. 1.2 La frecuencia relativa de clase ( if ~ ) y se le denomina Histograma de frecuencias Relativas. 1.3 La frecuencia acumulada ( iF ) y se les denomina Histograma de Frecuencia Acumulada. 1.4 La Frecuencia Relativa Acumulada ( iF ~ ) y se le denomina Histograma de Frecuencias Relativas Acumuladas. 2. Gráficas Circulares, también conocidas como gráficas de pastel, y consiste en dividir una circunferencia en sectores, con áreas proporcionales a los porcentajes que se desea representar, es decir, cada sector tendrá un ángulo central de tamaño “( if ~ )(360°)” 3. Gráficas de Línea, llamadas también Polígonos y consiste en unir todos los puntos cuya primer componentes es la clase ( ic ) y la segunda componente puede ser: 3.1. La frecuencia de clase ( if ), en este caso recibe el nombre de Polígono de Frecuencia. 3.2. La frecuencia relativa de clase ( if ~ ), en este caso se le denomina Polígono de frecuencias Relativas. 3.3. La frecuencia acumulada ( iF ) y se le conoce con el nombre de Polígono de Frecuencia Acumulada u Ojiva. 3.4. La Frecuencia Relativa Acumulada ( iF ~ ) y se le llama Polígono de Frecuencias Relativas Acumuladas u Ojiva Porcentual. Observaciones: i. Si el nivel máximo alcanzado por la variable, es Nominal, entonces es recomendable representar la información gráficamente mediante 1.1, 1.2, y 2. ii. Si la escala de medición en Ordinal, el tipo de gráficas que se recomienda emplear para representar la información es 1 y 2. iii. Finalmente, si la escala de medición es de la variable es de Intervalo ó Proporción regularmente se emplean las gráficas 1 y 3, sin descartar la posibilidad de 2. Tarea 2: Completar la información de la tabla estadística 1. Con el fin de estimar cual es el deporte que se practica con mayor frecuencia entre los empleados de una pequeña industria de la localidad, la cual tiene a 500 empleados a su servicio, el jefe de personal selecciona una muestra aleatoria de 30 empleados de dicha industria. Los datos obtenidos se resumen en la siguiente tabla: CLASES Beisbol Futbol Tenis Baloncesto Natación EMPLEADOS 10 8 6 4 2 a. Defina la variable, diga de que tipo es y su escala de medición. X: “Determinar el deporte que practica un empleado de la empresa” Variable es Cualitativa con escala de medición Nominal b. Complete la información de la tabla Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada Béisbol 10 0.3333 10 Futbol 8 0.2666 18 Tenis 6 0.2000 24 Baloncesto 4 0.1333 28 Natación 2 0.0666 30 Total n = 30 1 Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada Baloncesto 4 0.1333 4 Natación 2 0.0666 6 Béisbol 10 0.3333 16 Tenis 6 0.2000 22 Futbol 8 0.2666 30 Total n = 30 1 Con base a las tablas anteriores, concluimos que, lo correcto es: Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada Baloncesto 4 0.1333 Cuando la variable es Cualitativa-Nominal, éstos valores no tienen sentido, es decir, no deben de ser determinados. Natación 2 0.0666 Béisbol 10 0.3333 Tenis 6 0.2000 Futbol 8 0.2666 Total n = 30 1 Baloncesto 13%Natación 7% Béisbol 33% Tenis 20% Futbol 27% Deporte de Preferencia Baloncesto Natación Béisbol Tenis Futbol 0.1333 0.0666 0.3333 0.2 0.2666 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Baloncesto Natación Béisbol Tenis Futbol Histograma de Frecuencias Relativas 4 2 10 6 8 0 2 4 6 8 10 12 Baloncesto Natación Béisbol Tenis Futbol Tí tu lo d el e je Título del eje Histograma de Frecuencias 2. Un Geólogo recolectó 120 especímenes de piedra caliza de un área particular, estos tienes el tamaño de un puño. Se hace una evaluación cualitativa de la textura de cada espécimen clasificándolo como grano fino (F), grano medio (M) ó grano grueso (G), obteniéndose los siguientes resultados:TEXTURA F M G FRECUENCIA 32 40 48 a. Defina la variable, diga de que tipo es y su escala de medición. X: “La textura de una piedra caliza de un área particular” La variable es Cualitativa con escala de medición Ordinal b. Complete la información de la tabla. Textura de la Piedra Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) F 32 26.66 32 26.66 M 40 33.33 72 60 G 48 40.00 120 100 Total n = 120 100 Ejemplos. (Clase) Ejemplo: (Introductorio para agrupaciones) Agrupación de la información contenida en una muestra. En algunas situaciones es difícil realizar un análisis de la información contenida en una muestra, debido a la existencia de demasiadas “clases” en la misma, esto nos lleva a la necesidad de agrupar, en intervalos de clase, dicha información (perdiendo así la información real), para poder realizar el análisis correspondiente de los datos muestrales. Otras cuestiones a los que nos enfrentaremos, son las siguientes: ¿Cómo realizar dicha agrupación?; ¿Cuántos intervalos de clase debemos elegir?; ¿Cuál será la longitud de cada intervalo? Recomendaciones para efectuar una agrupación: Algunas recomendaciones que se dan para realizar una buena agrupación se enlista a continuación: a. El número de intervalos de clase a elegir debe de ser impar. b. La marca de clase ( im ) debe de ser de la misma característica de los elementos de la muestra. c. Todos los intervalos de clase deben tener la misma longitud. d. El número de intervalos a considerar en la agrupación debe de andar entre 5 y 20. Existe otro criterio que regularmente se emplea para determinar el número de intervalos de clase de una agrupación y se denomina Regla de Sturges, la cual establece que: “el número de intervalos de clase (k) es igual al entero impar más próximo a 1 + (3.3)log(n), donde n es el tamaño de la muestra”. En la siguiente tabla se muestran algunos casos: Tamaño de Muestra (n) 1 + (3.3)log(n) Número de Intervalos k 50 1 + (3.3)log(50)= 6.60... 7 60 1 + (3.3)log(60)= 6.86... 7 100 1 + (3.3)log(100)= 7.60... 7 180 1 + (3.3)log(180)=8.44 9 1 000 1 + (3.3)log(1000)= 10.90.. 11 10 000 1 + (3.3)log(10000)= 14.20.. 15 100 000 1 + (3.3)log(100000)= 17.50.. 17 Ejemplo: Para cada caso, proponga una agrupación si a. Si el tamaño de muestra es 𝒏 = 𝟏𝟎𝟎, el dato Mayor es 𝑀 = 30 y el menor es 𝑚 = 9, aplique la regla de Sturges. 1° Aplicando la Regla de Sturges, 1 + (3.3)log(100)= 7.60, el número de intervalos a elegir es k=7 2° Debemos calcular el Rango= (Dato Mayor) –(Dato menor): R=M-m = 30 - 9 = 21 3° La longitud de cada intervalo se define como 𝒍 = 𝑹 𝒌 = 𝟐𝟏 𝟕 = 𝟑. Iniciamos la construcción de los intervalos, en este caso, con el dato menor Intervalos de Clase Marca de Clase Frecuencia [9, 12) 10.5 [12, 15) 13.5 [15, 18) 16.5 [18, 21) 19.5 [21, 24) 22.5 [24, 27) 25.5 [27, 30] 28.5 Intervalos de Clase Marca de Clase [9, 12] 10.5 (12, 15] 13.5 (15, 18] 16.5 (18, 21] 19.5 (21, 24] 22.5 (24, 27] 25.5 (27, 30] 28.5 b. Si el tamaño de muestra es 𝒏 = 𝟏𝟗𝟎, el dato Mayor es 𝑀 = 57.3 y el menor es 𝑚 = 16.5 , realizar la agrupación con k= 8 intervalos 1° Aplicando la Regla de Sturges, 1 + (3.3)log(100)= 7.60, el número de intervalos a elegir es k=8 2° Debemos calcular el Rango= (Dato Mayor) –(Dato menor): R=M-m = 57.3 -16.5 = 40.8 3° La longitud de cada intervalo se define como 𝒍 = 𝑹 𝒌 = 𝟒𝟎.𝟖 𝟖 = 𝟓. 𝟏. Iniciamos la construcción de los intervalos, en este caso, con el dato menor Intervalos de Clase Marca de Clase [16.5, 21.6] 19.05 (21.6, 26.7] 24.15 (26.7, 31.8] 29.25 (31.8, 36.9] 34.35 (36.9, 42] 39.45 (42, 47.1] 44.55 (47.1, 52.2] 49.65 (52.2, 57.3] 54.75 Intervalos de Clase Marca de Clase [16.5, 21.5] [21.6, 26.6] [26.7, 31.7] [31.8, 36.8] [36.9, 41.9] [42, 47] [47.1, 52.1] [42.2, 57.3] • Diagramas de tallo y hojas. Un procedimiento semi-gráfico de presentar la información para variables cuantitativas, que es especialmente útil cuando el número de datos de la muestra es pequeño, es el Diagrama de Tallo y Hojas de Tukey. Los principios para construirlos son: a. Redondear los datos a dos o tres cifras significativas, expresándolos en unidades convenientes. b. Disponerlos en una tabla con dos columnas separadas por una línea como sigue: b.1. Para datos con dos dígitos, escribir a la izquierda de la línea las decenas -que forma el tallo- y a la derecha las unidades, que serán las hojas. Por ejemplo, 87 se escribe 8 / 7 b.2. Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas y las decenas, que se escribirán a la izquierda de la línea, separados de las unidades. c. Cada tallo define una clase, y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase. Problema 19. En un experimento que media el porcentaje de encogimiento al secar, 50 especímenes de prueba de arcilla plástica produjeron los siguientes resultados: 19.3 15.8 20.7 18.4 14.9 17.3 21.3 16.1 18.6 20.5 20.5 16.9 18.5 18.7 12.3 19.5 22.8 18.8 18.3 16.9 17.9 17.1 22.5 18.8 19.4 17.4 18.5 17.5 16.5 17.5 17.3 19.5 19.1 17.5 16.8 16.3 19.0 18.2 17.4 18.2 17.2 22.5 17.9 17.5 19.3 18.8 19.0 17.4 17.4 22.5 Diagrama de Tallo y Hojas: Tallo Hojas 12 3 13 14 9 15 8 16 1 9 9 5 8 3 17 3 9 1 4 5 5 3 5 4 2 9 5 4 4 18 4 6 5 7 8 3 8 5 2 2 8 19 3 5 4 5 1 0 3 0 20 7 5 5 21 3 22 8 5 5 5 a. Agrupe estos datos en una tabla de frecuencias con intervalos del 1% comenzando en 12. Intervalos Marca de Clase Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) [12, 13] 12.5 1 2 1 2 (13, 14] 13.5 0 0 1 2 (14, 15] 14.5 1 2 2 4 (15, 16] 15.5 1 2 3 6 (16, 17] 16.5 6 12 9 18 (17, 18] 17.5 14 28 23 46 (18, 19] 18.8 13 26 36 72 (19, 20] 19.5 6 12 42 84 (20, 21] 20.5 3 6 45 90 (21, 22] 21.5 1 2 46 92 (22, 23] 22.5 4 8 50 100 n = 50 ¿Es recomendable esta agrupación? NO, Son demasiados intervalos (11), además existe un ERROR de sobrecubrimiento del RANGO porque deberíamos de iniciar la agrupación en 12.3 y finalizarla en 22.8, siempre y cuando sea posible Buscaremos una mejor agrupación, aplicando el criterio de que el número de intervalos depende del tamaño de la muestra cómo se recomienda ➢ Aplicaremos la regla de Sturges, para lo cual calculamos el valor de 1 + 3.3log (50) = 6.60, por lo tanto, el número de intervalos es k = 7 Calcular el Rango: R = M – m = 22.8-12.3 = 10.5 Posteriormente determinamos la longitud de cada intervalo, la cual se define como 𝒍 = 𝑹 𝒌 = 𝟏𝟎.𝟓 𝟕 = 𝟏. 𝟓 Iniciamos la construcción de los intervalos con el dato menor Intervalos Marca de Clase Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) [12.3, 13.8] 13.05 1 2 1 2 𝑥1 (13.8, 15.3] 14.55 1 2 2 4 𝑥2 (15.3, 16.8] 16.05 5 10 7 14 𝑥3, 𝑥4, . . , 𝑥7 (16.8, 18.3] 17.55 19 38 26 52 𝑥8, 𝑥9, . . , 𝑥26 (18.3, 19.8] 19.05 16 32 42 84 𝑥27, 𝑥28, . . , 𝑥42 (19.8, 21.3] 20.55 4 8 46 92 𝑥43, 𝑥44, 𝑥45, 𝑥46 (21.3, 22.8] 22.05 4 8 50 100 𝑥47, 𝑥48, 𝑥49, 𝑥50 n = 50 • MEDIDAS DESCRIPTIVAS Media Aritmética �̅� = ∑ 𝑚𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = (13.05 ∗ 1) + (14.55 ∗ 1) + (16.05 ∗ 5) + (17.55 ∗ 19) + (22.05 ∗ 4) 50 �̅� = 916.5 50 = 18.33 ➔ El porcentaje de encogimiento promedio de los 50 especímenes es del 18.33% Moda Primeramente, identificamos el intervalo en el que se encuentra la moda, que es el de mayorfrecuencia: (𝐿𝑚−1, 𝐿𝑚] = (16.8, 18.3], el valor de la moda es: �̂� = 𝐿𝑚−1 + [ (𝑓𝑚 − 𝑓𝑚−1) 𝑓𝑚 − 𝑓𝑚−1) + 𝑓𝑚 − 𝑓𝑚+1) ] 𝑙𝑚 = 16.8 + [ (19 − 5) (19 − 5) + (19 − 16) ] (1.5) �̂� = 16.8 + [ 14 14 + 3 ] (1.5) = 16.8 + 1.23 = 18.03 El porcentaje de encogimiento más común de los 50 especímenes es del 18.03% Mediana Primeramente, debemos de identificar el intervalo en el que se encuentra la mediana, el cual es (𝐿𝑚−1, 𝐿𝑚] = (16.8, 18.3] , el valor de la mediana es: �̃� = 𝐿𝑚−1 + [ 𝑛 2 − 𝑭𝒎−𝟏 𝑓𝑚 ] 𝑙𝑚 = 16.8 + [ 25 − 7 19 ] (1.5) = 16.8 + 1.42 = 18.22 El porcentaje de encogimiento central de los 50 especímenes es del 18.22% Medidas de Posición: Cuartiles Cuartil 1: Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 1, es decir, el intervalo que contiene la posición ( 𝑛∗1 4 ) = 12.5, el cual es (𝐿𝑚−1, 𝐿𝑚] = ( 16.8, 18.3], el valor del cuartil es 𝑄1 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 1 4 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 16.8 + [ 12.5 − 7 19 ] (1.5) = 16.8 + 0.43 = 17.23 % Cuartil 2 (es la mediana) 𝑄2 = �̃� = 18.22 % Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 2, es decir, el intervalo que contiene la posición ( 𝑛∗2 4 ) = 25 , el cual es (𝐿𝑚−1, 𝐿𝑚] = (16.8, 18.3], el valor del cuartil es 𝑄2 = 𝐿𝑚−1 + ⌈ 𝑛∗2 4 −𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 16.8 + [ 25−7 19 ] (1.5) = 16.8 + 1.42 = 18.22 % Cuartil 3: Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 3, es decir, el intervalo que contiene la posición ( 𝑛∗3 4 ) = 37.5, el cual es (𝐿𝑚−1, 𝐿𝑚] ] = (18.3, 19.8], el valor del cuartil es 𝑄3 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 3 4 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 18.3 + ⌈ 37.5 − 26 16 ⌉ (1.5) = 18.3 + 1.07 = 19.37 % Decil 6: Primeramente debemos de identificar el intervalo en el que se encuentra el decil 6, es decir, el intervalo que contiene la posición ( 𝑛∗6 10 ) = 30 , el cual es (𝐿𝑚−1, 𝐿𝑚] ] = (18.3, 19.8], el valor del decil es 𝐷6 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 6 10 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 18.3 + ⌈ 30 − 26 16 ⌉ (1.5) = 18.3 + 0.375 = 18.675 % Rango Intercuartílico: 𝑅𝐼 = 𝑄3 − 𝑄1 = 19.37 − 17.23 = 2.14 % Varianza: 𝑆2 = ∑ (𝑚𝑖 − �̅�) 2𝑓𝑘 𝑘 𝑖=1 𝑛 − 1 𝑆2 = (13.05 − 18.33)2 ∗ 1 + (14.55 − 18.33)2 ∗ 1 + (16.05 − 18.33)2 ∗ 5 + ⋯ + (22.05 − 18.33)2 ∗ 4 49 𝑆2 = 163.08 49 = 3.3281 (%)2 La variación promedio, del encogimiento de los 50 especímenes con respecto al 18.33 %, es de 3.32 (%)2 La Desviación Estándar 𝑆 = √𝑆2 = √3.3281 = 1.8243 La variación promedio, del encogimiento de los 50 especímenes con respecto al 18.33%, es de 1.82% Desviación Media: 𝐷𝑀 = ∑ |𝑚𝑖 − �̅�|𝑓𝑖 𝑘 𝑖=𝑖 𝑛 = |𝑚1 − �̅�|𝑓1 + |𝑚2 − �̅�|𝑓2 + ⋯ . +|𝑚𝑘 − �̅�|𝑓𝑘 𝑛 𝐷𝑀 = |13.05 − 18.33| ∗ 1 + |14.55 − 18.33| ∗ 1 + |16.05 − 18.33| ∗ 5 + |17.55 − 18.33| ∗ 19 + |19.05 − 18.33| ∗ 16 + |20.55 − 18.33| ∗ 4 + |22.05 − 18.33| ∗ 4 50 𝐷𝑀 = 70.56 50 = 1.411 La variación promedio, en valor absoluto, del encogimiento de los 50 especímenes con respecto al 18.33 %, es de 1.41 % ➢ Si consideramos k = 6 intervalos de clase, longitud de cada intervalo es: 𝒍 = 𝑹 𝒌 = 𝟏𝟎.𝟓 𝟔 = 𝟏. 𝟕𝟓 , vamos a considerar otro valor para la longitud 𝒍𝑵 = 𝟏. 𝟖 ➔ el cubrimiento es 𝑹𝑵 = 𝒍𝑵 ∗ 𝒌 = (𝟏. 𝟖)(𝟔) = 𝟏𝟎. 𝟖 El error de sobrecubrimiento del rango “𝑬”, y es 𝑬 = 𝑹𝑵 − 𝑹 = 𝟏𝟎. 𝟖 − 𝟏𝟎. 𝟓 = 𝟎. 𝟑 para iniciar la construcción de los intervalos de clase, repartiremos equitativamente, en los dos extremos, el error de sobrecubrimiento 𝑬 𝟐 = 𝟎. 𝟏𝟓, iniciamos la construcción de los intervalos en INICIO: 𝒎 − 𝑬 𝟐 = 𝟏𝟐. 𝟑 − 𝟎. 𝟏𝟓 = 𝟏𝟐. 𝟏𝟓 FIN: 𝑴 + 𝑬 𝟐 = 𝟐𝟐. 𝟖 + 𝟎. 𝟏𝟓 = 𝟐𝟐. 𝟗𝟓 Intervalos Marca de Clase Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) [12.15, 13.95] 13.05 1 2 1 2 (13.95, 15.75] 14.85 1 2 2 4 (15.75, 17.55] 16.65 19 38 21 42 (17.55, 19.35] 18.45 18 36 39 78 (19.35, 21.15] 20.25 6 12 45 90 (21.15, 22.95] 22.05 5 10 50 100 • Medidas descriptivas. En el tratamiento de datos es útil, en ocasiones necesario, resumir las características principales de los datos muestrales. Algunas formas acerca de la manera en que se distribuyen han sido planteadas, otros pueden ser, ¿Cuál es el valor promedio de los datos?, ¿Cuál es el valor de mayor frecuencia?, ¿Cuál es el valor central de los valores ordenados de la muestra? o ¿Qué tan separados se encuentran entre sí los datos? Cuestiones como estas pueden tener respuesta a traves de las medidas descriptivas conocidas como: a. Medidas de Tendencia Central. Se define como el valor central de un conjunto de datos ordenados ó no ordenados, algunas de estas medidas son: a.1. Media Aritmética: *Para Datos No-Agrupados. Dado un conjunto de datos },...,,{ 21 nxxx , definimos la media aritmética o media, que denotamos X , como: �̅� = ∑ 𝑥𝑖 𝑛 𝑖=1 𝑛 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 o bien, si los datos muestrales se encuentran reunidos en una tabla de distribución de frecuencias, se calcula como: �̅� = ∑ 𝑐𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = 𝑐1𝑓1 + 𝑐2𝑓2 + ⋯ . . + 𝑐𝑘𝑓𝑘 𝑛 La media aritmética se interpreta como el valor promedio de los datos muestrales. **Para Datos Agrupados. Cuando la información muestral se encuentra reunida en intervalos de clase, entonces: �̅� = ∑ 𝑚𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = 𝑚1𝑓1 + 𝑚2𝑓2 + ⋯ . . + 𝑚𝑘𝑓𝑘 𝑛 a.2 Mediana. *Para datos No-Agrupados. Sea },...,,{ 21 nxxx un conjunto de datos ordenados, nxxx ...21 . Definimos a la mediana, que denotamos X ~ , como el valor tal que el 50% de la información es menor ó igual y el otro 50% es mayor igual a ella. X ~ impar par es es nsix nsi xx n nn + = + + 2 1 1 22 2 m.a. {21, 21, 22, 24, 25, 27, 30} de tamaño n = 7 es impar ➔ la mediana es igual 24 𝒏+𝟏 𝟐 = 𝟖 𝟐 = 𝟒 ➔ �̃� = 𝒙𝟒 = 𝟐𝟒 m.a. {21, 21, 22, 24, 25, 27, 30, 32} de tamaño n = 8 es par, ➔ La mediana es 24.5 𝒙𝟒 = 𝟐𝟒 𝒚 𝒙𝟓 = 𝟐𝟓 �̃� = 𝒙𝟒 + 𝒙𝟓 𝟐 = 𝟐𝟒 + 𝟐𝟓 𝟐 = 𝟐𝟒. 𝟓 La mediana se interpreta como valor central de los datos muestrales (ordenados). ** Para Datos Agrupados. Cuando la información muestral se encuentra agrupada en intervalos de clase, la mediana se puede calcular mediante un proceso de interpolación de la siguiente manera: Primeramente determinados el intervalo de clase donde se encuentra la mediana, intervalo mediano, ( mmm LLI ,1−= y m m m m l f F n LX − += − − 1 1 2~ Donde: n :“Tamaño de muestra” 1−mL : “Límite inferior de la clase mediana” mf : “Frecuencia de la clase mediana” ml : “Longitud de la clase mediana” 1−mF : “Frecuencia acumulada del intervalo anterior a la clase mediana” a.3 Moda. *Para Datos No-Agrupados. La moda de un conjunto de datos se define como el valor de mayor frecuencia y se denota X̂ , La moda se interpreta como el valor más común de los datos muestrales. **Para Datos Agrupados. El cálculo de la moda para datos agrupados se efectúa mediante un proceso de interpolación de la siguiente manera: Primeramente determinados el intervalo donde se encuentra la moda, el de mayor frecuencia, denominado Intervalo Modal, ( mmm LLI ,1−= y ( ) ( ) ( ) m mmmm mm l ffff ff LmX −+− − +−= +− − 11 11ˆ Donde: 1−mL :“Límite inferior de la clase modal” ml : “Longitud de la clase modal” mf : “Frecuencia de la clase modal” 1−mf : “Frecuencia de clase del intervalo anterior a la clase modal” 1+mf : “Frecuencia de clase del intervalo posterior a la clase modal” b. Medidas de Posición. Dado un conjunto de datos ordenados },...,,{ 21 nxxx , el valor medio que divide a este conjunto de datos en dos muestrascon el mismo número de elementos es la mediana. Nuestra intención es extender ésta noción a otros valores que nos divida a un conjunto de datos ordenados en k partes iguales. A este tipo de medidas se les llaman Medidas de Posición: b.1 Cuartiles. Dividen a un conjunto de datos ordenados en 4 partes iguales y los denotamos por 𝑸𝒌 con 3,2,1=k . Para determinar el valor de los cuartiles, debemos atender el siguiente procedimiento: 𝑸𝟏, 𝑸𝟐 𝒚 𝑸𝟑 • Primeramente determinamos el valor de (𝒏)(𝒌) 𝟒 , para identificar la posición del cuartil 𝑸𝒌, y aplicaremos el siguiente criterio: ➢ Si (𝒏)(𝒌) 𝟒 es un número entero, le sumaremos 0.5 y el valor del cuartil, será el promedio de los valores que contengan dicha posición. ➢ Si (𝒏)(𝒌) 𝟒 no es entero, lo aproximamos al ENTERO INMEDIATO SUPERIOR, el valor del cuartil es el que se encuentre en dicha posición Ejemplo: m.a. {21, 21,23, 23, 23, 24, 25, 25, 26, 27, 30, 32} de tamaño n =12 m.a. {𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5, 𝑥6, 𝑥7, 𝑥8, 𝑥9, 𝑥10, 𝑥11, 𝑥12} 𝑥8 = 25 𝑸𝟏 = 𝟐𝟑, 𝑸𝟐 = 𝟐𝟒. 𝟓 𝒚 𝑸𝟑 = 𝟐𝟔. 𝟓 k (𝒏)(𝒌) 𝟒 Posición de 𝑸𝒌 Valor de 𝑸𝒌 1 (𝟏𝟐)(𝟏) 𝟒 = 𝟑 𝒙𝟑.𝟓 𝑸𝟏 = 𝑥3 + 𝑥4 𝟐 = 𝟐𝟑 + 𝟐𝟑 𝟐 = 𝟐𝟑 2 (𝟏𝟐)(𝟐) 𝟒 = 𝟔 𝒙𝟔.𝟓 𝑸𝟐 = 𝑥6 + 𝑥7 𝟐 = 𝟐𝟒 + 𝟐𝟓 𝟐 = 𝟐𝟒. 𝟓 = �̃� 3 (𝟏𝟐)(𝟑) 𝟒 = 𝟗 𝒙𝟗.𝟓 𝑸𝟑 = 𝑥9+ 𝑥10 𝟐 = 𝟐𝟔+𝟐𝟕 𝟐 = 𝟐𝟔. 𝟓 .2 Deciles. Dividen a un conjunto de datos ordenados en 10 partes iguales y los denotamos por 𝐷𝑘 con 𝑘 = 1, 2, 3, … . , 9. Para determinar el valor de los deciles, debemos atender el siguiente procedimiento: 𝑫𝟏, 𝑫𝟐, … . 𝑫𝟗 • Primeramente determinamos el valor de (𝒏)(𝒌) 𝟏𝟎 , para identificar la posición del decil 𝑫𝒌, y aplicaremos el siguiente criterio: ➢ Si (𝒏)(𝒌) 𝟏𝟎 es un número entero, le sumaremos 0.5 y el valor del decil, será el promedio de los valores que contengan dicha posición. ➢ Si (𝒏)(𝒌) 𝟏𝟎 no es entero, lo aproximamos al ENTERO INMEDIATO SUPERIOR, el valor del decil es el que se encuentre en dicha posición k (𝒏)(𝒌) 𝟏𝟎 Posición de 𝑫𝒌 Valor de 𝑫𝒌 4 (𝟏𝟐)(𝟒) 𝟏𝟎 = 𝟒. 𝟖 𝒙𝟓 𝑫𝟒 = 𝒙𝟓 = 𝟐𝟐 7 (𝟏𝟐)(𝟕) 𝟏𝟎 = 𝟖. 𝟒 𝒙𝟗 𝑫𝟕 = 𝒙𝟗 = 𝟐𝟔 5 (𝟏𝟐)(𝟓) 𝟏𝟎 = 𝟔 𝒙𝟔.𝟓 𝑫𝟓 = 𝑥6+ 𝑥7 𝟐 = 𝟐𝟒+𝟐𝟓 𝟐 = 𝟐𝟒. 𝟓 = �̃� b.3 Percentiles. Dividen a un conjunto de datos ordenados en 100 partes iguales y los denotamos por 𝑃𝑘 con 𝑘 = 1, 2, 3, … . , 99. Para determinar el valor de los percentiles, debemos atender el siguiente procedimiento: 𝑷𝟏, 𝑷𝟐, … . 𝑷𝟗𝟗 • Primeramente determinamos el valor de (𝒏)(𝒌) 𝟏𝟎𝟎 , para identificar la posición del PERCENTIL 𝑷𝒌, y aplicaremos el siguiente criterio: ➢ Si (𝒏)(𝒌) 𝟏𝟎𝟎 es un número entero, le sumaremos 0.5 y el valor del percentil, será el promedio de los valores que contengan dicha posición. ➢ Si (𝒏)(𝒌) 𝟏𝟎𝟎 no es entero, lo aproximamos al ENTERO INMEDIATO SUPERIOR, el valor del percentil es el que se encuentre en dicha posición 𝑷𝟒𝟓 (𝟏𝟐)(𝟒𝟓) 𝟏𝟎𝟎 = 𝟓. 𝟒 ➔𝑷𝟒𝟓 = 𝒙𝟔 = 𝟐𝟒 c. Medidas de Dispersión. La separación de los datos entre sí es determinada mediante las medidas de dispersión. Algunas constituyen un valor promedio de que tanto se dispersan los datos de la colección. Agregamos, que el objeto de las medidas de las medidas de dispersión es el determinar el grado de homogeneidad de los datos y la representatividad de una medida de tendencia central. Algunas de éstas medidas son: c.1 Rango (R). Se define como la diferencia entre el dato mayor (M) y el dato menor (m) de la muestra y se denota por R. R = M-m El Rango es la separación (distancia, variación, dispersión) entre el Dato Mayor y el Dato menor m.a. {21, 21,23, 23, 22, 24, 25, 25, 26, 27, 30, 32} de tamaño n =12 𝑅 = 𝑀 − 𝑚 = 32 − 21 = 11 c.2. Rango Intercuartílico (RI) Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) y se denota por RI. RI = Q3 - Q1 RI = Q3 - Q1 = 26.5 – 23= 3.5 El Rango Intercuartílico es la separación (distancia, variación, dispersión) entre el Tercer Cuartil y el Primer Cuartil c.3. Desviación Media (DM). *Para Datos No-Agrupados. Sea },...,,{ 21 nxxx un conjunto de datos muestrales, definimos la Desviación Media, que denotamos DM, como: DM n Xx n i i = − = 1 𝐷𝑀 = |𝑥1 − �̅�| + |𝑥2 − �̅�| + ⋯ . +|𝑥𝑛 − �̅�| 𝑛 La Desviación Media es la Dispersión (Distancia, separación, variación) promedio, en valor absoluto, existente entre los valores de la muestra (xi) y la media Aritmética (�̅�) o bien, si los datos muestrales se encuentran reunidos en una tabla de distribución de frecuencias, se calcula como: 𝐷𝑀 = ∑ |𝑐𝑖 − �̅�|𝑓𝑖 𝑘 𝑖=1 𝑛 = |𝑐1 − �̅�|𝑓1 + |𝑐2 − �̅�|𝑓2 + ⋯ . +|𝑐𝑘 − �̅�|𝑓𝑘 𝑛 **Para Datos Agrupados. Cuando la información muestral se encuentra reunida en intervalos de clase, entonces: 𝐷𝑀 = ∑ |𝑚𝑖 − �̅�|𝑓𝑖 𝑘 𝑖=1 𝑛 = |𝑚1 − �̅�|𝑓1 + |𝑚2 − �̅�|𝑓2 + ⋯ . +|𝑚𝑘 − �̅�|𝑓𝑘 𝑛 c.4. Varianza (S2) La varianza S2, de un conjunto de datos muestrales },...,,{ 21 nxxx se define como: 𝑆2 = ∑ (𝑥𝑖 − �̅�) 2𝑛 𝑖=1 𝑛 − 1 = (𝑥1 − �̅�) 2 + (𝑥2 − �̅�) 2 + ⋯ . +(𝑥𝑛 − �̅�) 2 𝑛 − 1 Varianza es la Dispersión (Distancia, separación, variación) promedio, en unidades cuadradas, existente entre los valores de la muestra (xi) y la media Aritmética (�̅�) o bien, si los datos muestrales se encuentran reunidos en una tabla de distribución de frecuencias, se calcula como: 𝑆2 = ∑ (𝑐𝑖 − �̅�) 2𝑓𝑖 𝑘 𝑖=1 𝑛 − 1 **Para Datos Agrupados. Cuando la información muestral se encuentra reunida en intervalos de clase, entonces: 𝑆2 = ∑ (𝑚𝑖 − �̅�) 2𝑓𝑖 𝑘 𝑖=1 𝑛 − 1 c.5. Desviación Estándar (S). La Desviación Estándar S, de un conjunto de datos muestrales },...,,{ 21 nxxx se define como la raíz cuadrada de la varianza, 𝑆 = √𝑆2 La Desviación Estándar es la Dispersión (Distancia, separación, variación) promedio, existente entre los valores de la muestra (xi) y la media Aritmética (�̅�) d. Medidas de Sesgo. El sesgo se define como el grado de asimetría de un polígono de frecuencias (suavizado), éste puede ser: Sesgo Positivo: Es cuando la curva de frecuencias tiene una cola más alargada a la derecha del valor máximo central. Sesgo Negativo: Es cuando la curva de frecuencias tiene una cola más alargada a la izquierda del valor máximo central. Sesgo Nulo: Es cuando la curva es simétrica con respecto al valor máximo central. Por otra parte, existen dos formas de calcular el coeficiente se sesgo que son: Coeficiente Fórmula Interpretación Pearson CP = ( ) S XX ~ 3 − CP<0 implica sesgo negativo CP>0 implica sesgo positivo CP=0 implica sesgo nulo Momentos CP = ( ) 3 1 3 nS Xx n i i = − CP<0 implica sesgo negativo CP>0 implica sesgo positivo CP=0 implica sesgo nulo e. Medidas de Curtosis. La curtosis se define como el grado de apuntamiento de un polígono de frecuencias (suavizado), generalmente se toma en relación a la distribución normal y éste puede ser: Platicúrtica (apuntamiento bajo), Leptocúrtica (apuntamiento alto) y Mesocúrtica (apuntamiento normal). Por otra parte, existen una forma de calcular el coeficiente se curtosis que es: g = ( ) 3 4 1 4 − − = nS Xx n i i , Además, si g < 0 entonces se tiene una distribución Platicúrtica g > 0 entonces se tiene una distribución Leptocúrtica g = 0 entonces se tiene una distribución Mesocúrtica 3. El primer día de clases del semestre pasado se les preguntó a 50 estudiantes el tiempo que hicieron de su casa a la universidad (redondeados a los cinco minutos más próximos). Los resultados de la encuesta son: 20, 25, 25, 15, 25, 05, 20, 25, 30, 25, 30,15, 40, 20, 20,40, 25, 25, 10, 20, 15, 20, 25, 45, 25, 25, 10, 25, 05, 45, 25, 15, 20, 30, 35, 25, 35, 25, 30, 35, 40, 10, 25, 30, 30, 25, 35, 30, 20, 15. Definimos la variable: X = Medir el tiempo que hace un estudiante de su casa a la universidad (redondeados a los cinco minutos más próximos) La variable es Cuantitativa Discreta con escala de medición de Proporción o Razón Tabla Estadística Clases 𝑐𝑖 Frecuencia 𝑓𝑖 Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada 05 2 0.04 2 0.04 𝑥1, 𝑥2 10 3 0.06 5 0.10 𝑥3, 𝑥4, 𝑥5 15 5 0.10 10 0.20 𝑥6, 𝑥7, . . , 𝑥10 20 8 0.16 18 0.36 𝑥11, 𝑥12, . . , 𝑥18 25 16 0.32 34 0.68 𝑥19, 𝑥20, . . , 𝑥34 30 7 0.14 41 0.82 𝑥35, 𝑥36, . . , 𝑥41 35 4 0.08 45 0.90 𝑥42, 𝑥43, . . , 𝑥45 40 3 0.06 48 0.96 𝑥46, 𝑥47, 𝑥48 45 2 0.04 50 1 𝑥49, 𝑥50 Total n=50 1 m.a. {𝑥1, 𝑥2, 𝑥3, 𝑥4, 𝑥5, … . , 𝑥46, 𝑥47, 𝑥48, 𝑥49, 𝑥50} m.a. ={05, 05, 10, 10, 10, 15, 15, 15, 15, 15, 20, ….20, 25, 25, ….., 25, …….40, 40, 40, 45, 45} ✓ Medidas de Tendencia Central: MEDIA ARITMÉTICA �̅� = ∑ 𝑐𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = 𝑐1𝑓1 + 𝑐2𝑓2 + ⋯ . +𝑐𝑘𝑓𝑘 𝑛 �̅� = (5)(2) + (10)(3) + (15)(5) + (20)(8) + (25)(16) + (30)(7) + (35)(4) + (40)(3) + (45)(2) 50 �̅� = 1235 50 = 24.7 𝑚𝑖𝑛𝑢𝑡𝑜𝑠, es decir, el tiempo promedio que hacen los estudiantes de su casa a la Universidad, es de 24.7 minutos. LA MODA �̂� = 25 𝑚𝑖𝑛𝑢𝑡𝑜𝑠, es decir, el tiempo más común que hacen los estudiantes de su casa a la Universidad, es de 25 minutos. LA MEDIANA El valor de “n=50”, es par, por lo que, la posición de los valores centrales es 𝑛 2 = 50 2 = 𝟐𝟓, 𝑛 2 + 1 = 𝟐𝟔 �̃� = 𝑥𝑛 2 +𝑥𝑛 2 +1 2 = 𝑥25+𝑥26 2 = 25+25 2 = 25 𝑚𝑖𝑛𝑢𝑡𝑜𝑠, es decir, el tiempo central que hacen los estudiantes de su casa a la Universidad, es de 25 minutos. 𝑥46 = 40 ✓ Medidas posición: Cuartíles: k (𝒏)(𝒌) 𝟒 Posición de 𝑸𝒌 Valor de 𝑸𝒌 1 (𝟓𝟎)(𝟏) 𝟒 = 𝟏𝟐. 𝟓 𝑸𝟏 = 𝒙𝟏𝟑 𝑸𝟏 = 𝒙𝟏𝟑 = 𝟐𝟎 2 (𝟓𝟎)(𝟐) 𝟒 = 𝟐𝟓 𝑸𝟐 = 𝒙𝟐𝟓.𝟓 𝑸𝟐 = 𝑥25 + 𝑥26 2 = 25 + 25 2 = 25 = �̃� 3 (𝟓𝟎)(𝟑) 𝟒 = 𝟑𝟕. 𝟓 𝑸𝟑 = 𝒙𝟑𝟖 𝑸𝟑 = 𝒙𝟑𝟖 = 𝟑𝟎 Decíles: 𝑫𝟑 = 𝟐𝟎, 𝑫𝟔 = 𝟐𝟓 𝒚 𝑫𝟖 = 𝟑𝟎 k (𝒏)(𝒌) 𝟏𝟎 Posición de 𝑫𝒌 Valor de 𝑫𝒌 3 (𝟓𝟎)(𝟑) 𝟏𝟎 = 𝟏𝟓 𝒙𝟏𝟓.𝟓 𝑫𝟑 = 𝑥15+𝑥16 2 = 20+20 2 = 𝟐𝟎 6 (𝟓𝟎)(𝟔) 𝟏𝟎 = 𝟑𝟎 𝒙𝟑𝟎.𝟓 𝑫𝟔 = 𝑥30 + 𝑥31 2 = 25 + 25 2 = 25 8 (𝟓𝟎)(𝟖) 𝟏𝟎 = 𝟒𝟎 𝒙𝟒𝟎.𝟓 𝑫𝟖 = 𝑥40 + 𝑥41 2 = 30 + 30 2 = 30 Percentiles: 𝑷𝟑𝟓 = 𝟐𝟎, 𝑷𝟔𝟖 = 𝟐𝟕. 𝟓 𝒚 𝑷𝟖𝟕 = 𝟑𝟓 k (𝒏)(𝒌) 𝟏𝟎𝟎 Posición de 𝑷𝒌 Valor de 𝑷𝒌 35 (50)(35) 100 = 17.5 𝒙𝟏𝟖 𝑷𝟑𝟓 = 𝑥18 = 𝟐𝟎 68 (50)(68) 100 = 34 𝒙𝟑𝟒.𝟓 𝑷𝟔𝟖 = 𝑥34 + 𝑥35 2 = 25 + 30 2 = 27.5 87 (50)(87) 100 = 43.5 𝒙𝟒𝟒 𝑷𝟖𝟕 = 𝑥44 = 35 ✓ Medidas de dispersión: RANGO: 𝑅 = 𝑀 − 𝑚 = 45 – 5 = 40 minutos RANGO INTERCUARTÍLICO: 𝑅𝐼 = 𝑄3 − 𝑄1 = 30 − 20 = 10 𝑚𝑖𝑛𝑢𝑡𝑜𝑠 DESVIACIÓN MEDIA: 𝐷𝑀 = ∑ |𝑐𝑖 − �̅�|𝑓𝑖 𝑘 𝑖=𝑖 𝑛 = |𝑐1 − �̅�|𝑓1 + |𝑐2 − �̅�|𝑓2 + ⋯ . +|𝑐𝑘 − �̅�|𝑓𝑘 𝑛 50 )2(7.2445)3(7.2440)4(7.2435.....)8(7.2420)5(7.2415)3(7.2410)2(7.245 −+−+−+−+−+−+− = DM= 784.6 50 2.339 = minutos, es decir, la variación promedio, en valor absoluto, de los tiempos que hacen los estudiantes de su casa a la Universidad, con respecto a 24.7 minutos, es de 6.7 minutos VARIANZA: 𝑆2 = ∑ (𝐶𝑖 − �̅�) 2𝑓𝑖 𝑘 𝑖=1 𝑛 − 1 = (𝐶1 − �̅�) 2𝑓1 + (𝐶2 − �̅�) 2𝑓2 + ⋯ + (𝐶𝑘 − �̅�) 2𝑓𝑘 𝑛 − 1 S2 = 150 )2()7.2445()3()7.2440()4()7.2435(...)5()7.2415()3()7.2410()2()7.245( 222222 − −+−+−++−+−+− S2= 13.86 49 5.4220 = (minutos)2, es decir, la variación promedio, de los tiempos que hacen los estudiantes de su casa a la Universidad, con respecto a 24.7 minutos, es de 86.13 (minutos)2 DESVIACIÓN ESTÁNDAR: S= 13.86 =9.2808 minutos, es decir, la variación promedio, de los tiempos que hacen los estudiantes de su casa a la Universidad, con respecto a 24.7 minutos, es de 9.28 minutos. 3. Con el fin de estimar cual es el deporte que se practica con mayor frecuencia entre los empleados de una pequeña industria de la localidad, la cual tiene a 500 empleados a su servicio, el jefe de personal selecciona una muestra aleatoria de 30 empleados de dicha industria. Los datos obtenidos se resumen en la siguiente tabla: X: “Determinar el deporte que practica un empleado de la empresa” Variable es Cualitativa con escala de medición Nominal Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada Baloncesto 4 0.1333 Cuando la variable es Cualitativa-Nominal, éstos valores no tienen sentido, es decir, no deben de ser determinados. Natación 2 0.0666 Béisbol 10 0.3333 Tenis 6 0.2000 Futbol 8 0.2666 Total n = 30 1 MEDIA ARITMÉTICA �̅� = ∑ 𝑐𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = 𝑐1𝑓1 + 𝑐2𝑓2 + ⋯ . +𝑐𝑘𝑓𝑘 𝑛 = (𝑏𝑎𝑙𝑜𝑛𝑐𝑒𝑠𝑡𝑜 ∗ 4) + 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 La única medida que puede determinarse cuando la variable es CUALITATIVA NOMINAL, es la Moda �̂� = 𝐵𝑒𝑖𝑠𝑏𝑜𝑙 4. Un Geólogo recolectó 120 especímenes de piedra caliza de un área particular, estos tienes el tamaño de un puño. Se hace una evaluación cualitativa de la textura de cada espécimen clasificándolo como grano fino (F), grano medio (M) ó grano grueso (G), obteniéndose los siguientes resultados: X: “La textura de una piedra caliza de un área particular” La variable es Cualitativa con escala de medición Ordinal Textura de la Piedra Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) F 32 26.66 32 26.66 M 40 33.33 72 60 G 48 40.00 120 100 Total n = 120 100 Solamente es factible determinar el valor de la Moda �̂� = 𝐺𝑟𝑎𝑛𝑜 𝐺𝑟𝑢𝑒𝑠𝑜 �̃� = 𝑥𝑛 2 + 𝑥𝑛 2 +1 2 = 𝑥60 + 𝑥61 2 = 𝑀 + 𝑀 2 = 𝑀 TAREA: Calcular las medidas descriptivas (Tendencia Central, Cuartiles y de Dispersión) LUGAR QUE OCUPA TEMP Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) 1 4 2 6 3 3 4 0 5 8 6 6 7 3 Total n = 3 100 Problema 28: Una compañía electrónica fabrica fuentes de poder para computadoras personales. Se producen varios cientos de fuentes en cada turno, y cada unidad se somete a una prueba de quemado de 12 horas. El número de unidades que falla durante esta prueba de 12 horas en cada turno resultó ser: 3 4 2 5 6 10 5 4 3 11 9 2 7 8 4 2 6 5 4 3 2 8 10 9 11 6 7 9 1 14 13 10 9 8 10 3 2 4 6 4 10 8 7 14 13 12 5 4 6 5 4 8 4 10 14 8 12 4 5 14 2 8 6 10 8 6 4 6 15 4 7 5 3 2 6 7 2 6 9 10 7 9 16 11 13 3 13 3 7 3 2 9 4 13 3 6 5 10 6 7 6 1 4 13 12 10 2 5 7 10 4 2 2 6 4 10 8 14 6 4 4 8 7 9 2 7 8 4 7 3 6 7 8 4 12 6 17 5 10 8 9 11 7 2 8 10 7 4 3 6 a. Definir la variable, clasificarla y asignarle la escala de medición correspondiente: X: “El número de unidades que falla durante una prueba de 12 horas en cada turno” Variables es cuantitativa discreta con escala de medición de Razón o Proporción b. Presente la información muestral en una tabla Estadística Clases Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada 1 2 0.0133 2 0.0133 2 14 0.0933 16 0.1067 3 11 0.0733 27 0.1800 4 21 0.1400 48 0.3200 5 10 0.0667 58 0.3867 6 18 0.1200 76 0.5067 7 15 0.1000 91 0.6067 8 14 0.0933 105 0.7000 9 9 0.0600 114 0.7600 10 14 0.0933 128 0.8533 11 4 0.0267 132 0.8800 12 4 0.0267 136 0.9067 13 6 0.0400 142 0.9467 14 5 0.0333 147 0.9800 15 1 0.0067 148 0.9867 16 1 0.0067 149 0.9933 17 1 0.0067 150 1.0000 n= 150 c. Agrupa la información mediante intervalos de clase c.1 Aplique la regla de Sturges Regla de Sturges estableceque: el número de intervalos es el entero impar más cercano a 1+3.3Log(150)= 8.181101…. ➔ El número de intervalos es 9 Si consideramos k = 9 intervalos de clase, longitud de cada intervalo es: 𝒍 = 𝑹 𝒌 = 𝟏𝟔 𝟗 = 𝟏. 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕 , vamos a considerar otro valor para la longitud 𝒍𝑵 = 𝟐 ➔ el cubrimiento es 𝑹𝑵 = 𝒍𝑵 ∗ 𝒌 = (𝟐)(𝟗) = 𝟏𝟖 El error de sobrecubrimiento del rango “𝑬”, y es 𝑬 = 𝑹𝑵 − 𝑹 = 𝟏𝟖 − 𝟏𝟔 = 𝟐 para iniciar la construcción de los intervalos de clase, repartiremos equitativamente, en los dos extremos, el error de sobrecubrimiento 𝑬 𝟐 = 𝟏, iniciamos la construcción de los intervalos en INICIO: 𝒎 − 𝑬 𝟐 = 𝟏 − 𝟏 = 𝟎 FIN: 𝑴 + 𝑬 𝟐 = 𝟏𝟕 + 𝟏 = 𝟏𝟖 Intervalos Marcas de Clase Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) [0, 2] 1 16 10.67 16 10.67 (2, 4] 3 32 21.33 48 32.00 (4, 6] 5 28 18.67 76 50.67 (6, 8] 7 29 19.33 105 70.00 (8, 10] 9 23 15.33 128 85.33 (10, 12] 11 8 5.33 136 90.67 (12, 14] 13 11 7.33 147 98.00 (14, 16] 15 2 1.33 149 99.33 (16, 18] 17 1 0.67 150 100.00 c.2 Agrupar la información considerando 8 intervalos de clase Si consideramos k = 8 intervalos de clase, longitud de cada intervalo es: 𝒍 = 𝑹 𝒌 = 𝟏𝟔 𝟖 = 𝟐 INICIO: 𝒎 FIN: 𝑴 Intervalos de Clase Marcas de Clase Frecuencia Frecuencia Relativa (%) Frecuencia Acumulada Frecuencia Relativa Acumulada (%) [1, 3] 2 27 18.00 27 18.00 (3, 5] 4 31 20.67 58 38.67 (5, 7] 6 33 22.00 91 60.67 (7, 9] 8 23 15.33 114 76.00 (9, 11] 10 18 12.00 132 88.00 (11, 13] 12 10 6.67 142 94.67 (13, 15] 14 6 4.00 148 98.67 (15, 17] 16 2 1.33 150 100.00 27 31 33 23 18 10 6 2 [1, 3] (3, 5] (5, 7] (7, 9] (9, 11] (11, 13] (13, 15] (15, 17] Histograma de Frecuencias 27 31 33 23 18 10 6 2 2 4 6 8 10 12 14 16 Fr e cu e n ci a Marcas de Clase Histograma de Frecuencias • MEDIDAS DESCRIPTIVAS Media Aritmética �̅� = ∑ 𝑚𝑖𝑓𝑖 𝑘 𝑖=1 𝑛 = (2 ∗ 27) + (4 ∗ 31) + (6 ∗ 33) + (8 ∗ 23) + (10 ∗ 18) + (12 ∗ 10) + (14 ∗ 6) + (16 ∗ 2) 150 �̅� = 976 150 = 6.5 ➔ El número de unidades que fallan en promedio, durante una prueba de 12 horas en cada turno es de 6.5 fuentes Moda Primeramente, identificamos el intervalo en el que se encuentra la moda, que es el de mayor frecuencia: (𝐿𝑚−1, 𝐿𝑚] = (5, 7], el valor de la moda es: �̂� = 𝐿𝑚−1 + [ (𝑓𝑚 − 𝑓𝑚−1) 𝑓𝑚 − 𝑓𝑚−1) + 𝑓𝑚 − 𝑓𝑚+1) ] 𝑙𝑚 = 5 + [ (33 − 31) (33 − 31) + (33 − 23) ] (2) �̂� = 5 + [ 2 2 + 10 ] (2) = 5 + 0.33 = 5.33 El número de unidades más común, que fallan durante una prueba de 12 horas en cada turno es de 5.3 fuentes Mediana n= 150 Primeramente, debemos de identificar el intervalo en el que se encuentra la mediana ( 𝑛 2 = 75), el cual es (𝐿𝑚−1, 𝐿𝑚] = (5, 7] , el valor de la mediana es: �̃� = 𝐿𝑚−1 + [ 𝑛 2 − 𝑭𝒎−𝟏 𝑓𝑚 ] 𝑙𝑚 = 5 + [ 75 − 58 33 ] (2) = 5 + 1.03 = 6.03 El número de unidades central, que fallan durante una prueba de 12 horas en cada turno es de 6.03 fuentes 18.00 20.67 22.00 15.33 12.00 6.67 4.00 1.33 0.00 5.00 10.00 15.00 20.00 25.00 2 4 6 8 10 12 14 16 Histograma de Frecuencias Relativas (%) Medidas de Posición: Cuartiles Cuartil 1: Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 1, es decir, el intervalo que contiene la posición ( 𝑛∗1 4 ) = 37.5, el cual es (𝐿𝑚−1, 𝐿𝑚] = ( 3, 5], el valor del cuartil es 𝑄1 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 1 4 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 3 + [ 37.5 − 27 31 ] (2) = 3 + 0.67 = 3.67 Cuartil 2 (es la mediana) 𝑄2 = �̃� = 6.03 Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 2, es decir, el intervalo que contiene la posición ( 𝑛∗2 4 ) = 75 , el cual es ((𝐿𝑚−1, 𝐿𝑚] = (5, 7] , el valor de la mediana es: 𝑄2 = �̃� = 𝐿𝑚−1 + [ 𝑛 2 − 𝑭𝒎−𝟏 𝑓 𝑚 ] 𝑙𝑚 = 5 + [ 75 − 58 33 ] (2) = 5 + 1.03 = 6.03 Cuartil 3: Primeramente debemos de identificar el intervalo en el que se encuentra el cuartil 3, es decir, el intervalo que contiene la posición ( 𝑛∗3 4 ) = 112.5, el cual es (𝐿𝑚−1, 𝐿𝑚] ] = (7, 9], el valor del cuartil es 𝑄3 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 3 4 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 7 + ⌈ 112.5 − 91 23 ⌉ (2) = 7 + 1.86 = 8.86 Decil 6: Primeramente debemos de identificar el intervalo en el que se encuentra el decil 6, es decir, el intervalo que contiene la posición ( 𝑛∗6 10 ) = 90 , el cual es (𝐿𝑚−1, 𝐿𝑚] ] = (5, 7], el valor del decil es 𝐷6 = 𝐿𝑚−1 + ⌈ 𝑛 ∗ 6 10 − 𝐹𝑚−1 𝑓𝑚 ⌉ 𝑙𝑚 = 5 + ⌈ 90 − 58 33 ⌉ (2) = 5 + 1.93 = 6.93 Rango Intercuartílico: 𝑅𝐼 = 𝑄3 − 𝑄1 = 8.86 − 3.67 = Varianza: 𝑆2 = ∑ (𝑚𝑖 − �̅�) 2𝑓𝑘 𝑘 𝑖=1 𝑛 − 1 𝑆2 = (2 − 6.5)2 ∗ 27 + (4 − 6.5)2 ∗ 31 + (6 − 6.5)2 ∗ 33 + ⋯ + (16 − 6.5)2 ∗ 2 149 𝑆2 = 1841.5 149 = 12.35 (𝑓𝑢𝑒𝑛𝑡𝑒𝑠)2 La variación promedio, del número de fuentes que fallan por turno con respecto a las que fallan en promedio, es de 12.35 (𝑓𝑢𝑒𝑛𝑡𝑒𝑠)2 La Desviación Estándar 𝑆 = √𝑆2 = √12.35 = 3.51 𝑓𝑢𝑒𝑛𝑡𝑒𝑠 La variación promedio, del número de fuentes que fallan por turno con respecto a las que fallan en promedio, es de 3.51 𝑓𝑢𝑒𝑛𝑡𝑒𝑠 Desviación Media: 𝐷𝑀 = ∑ |𝑚𝑖 − �̅�|𝑓𝑖 𝑘 𝑖=𝑖 𝑛 = |𝑚1 − �̅�|𝑓1 + |𝑚2 − �̅�|𝑓2 + ⋯ . +|𝑚𝑘 − �̅�|𝑓𝑘 𝑛 𝐷𝑀 = |2 − 6.5| ∗ 27 + |4 − 6.5| ∗ 31 + |6 − 6.5| ∗ 33 + ⋯ + |14 − 6.5| ∗ 6 + |16 − 6.5| ∗ 2 150 𝐷𝑀 = 432 150 = 2.88 𝑓𝑢𝑒𝑛𝑡𝑒𝑠 La variación promedio, en valor absoluto, del número de fuentes que fallan por turno con respecto a las que fallan en promedio, es de 2.88 𝑓𝑢𝑒𝑛𝑡𝑒𝑠 TAREA: Con el fin de estimar la estatura promedio y la distribución de las estaturas de los adolescentes de una comunidad determinada, se elige una muestra aleatoria de 40 adolescentes de dicha comunidad. Los resultados de las mediciones, con una aproximación de centésimas de metro, efectuadas en los 40 elementos son: 1.54, 1.57, 1.64, 1.75, 1.74, 1.63, 1.57, 1.54, 1.72, 1.61, 1.57, 1.53, 1.53, 1.57, 1.60, 1.71, 1.51, 1.50, 1.48, 1.48, 1.46, 1.39, 1.56, 1.56, 1.50, 1.59, 1.60, 1.60, 1.54, 1.55, 1.55, 1.55, 1.59, 1.59, 1.69, 1.65, 1.64, 1.64, 1.64, 1.64. a. Defina la variable, clasifíquela y asigne la escala de medición correspondiente. 𝑋: "𝑀𝑒𝑑𝑖𝑟 𝑙𝑎 𝑒𝑠𝑡𝑎𝑡𝑢𝑟𝑎 𝑑𝑒 𝑢𝑛 𝑎𝑑𝑜𝑙𝑒𝑐𝑒𝑛𝑡𝑒; es una variable Cuantitativa Continua con escala de medición de Razón o Proporción b. Elabore una Tabla Estadística para este conjunto de datos empleando 6 intervalos. El tamaño de muestra es 𝒏 = 𝟒𝟎, el dato Mayor es 𝑀 = 1.75 y el menor es 𝑚 = 1.39 , realizaremos la agrupación con k= 6 intervalos. Debemos calcular el Rango= (Dato Mayor) –(Dato menor): R=M-m = 1.75 – 1.39 = 0.36 La longitud de cada intervalo se define como 𝒍 = 𝑹 𝒌 = 𝟎.𝟑𝟔 𝟔 = 𝟎. 𝟎𝟔 Iniciamos la construcción de los intervalos, en este caso, con el dato menor Intervalos de Clase Marca de Clase Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada [1.39,1.45] 1.42 1 0.025 1 0.025 (1.45, 1.51] 1.48 6 0.15 7 0.175 (1.51, 1.57] 1.54 14 0.35 21 0.525 (1.57, 1.63] 1.6 8 0.2 29 0.725 (1.63, 1.69] 1.66 7 0.175 36 0.9 (1.69, 1.75] 1.72 4 0.1 40 1 ¿Qué porcentaje de adolescentes tienen una estatura superior a 1.63 metros? 27.5% c. Elabore una Tabla Estadística para este conjunto de datos empleando 7 intervalos. Realizaremos la agrupación con k= 7 intervalos. R=M-m = 1.75 – 1.39 = 0.36 La longitud de cada intervalo se define como 𝒍 = 𝑹 𝒌 = 𝟎.𝟑𝟔 𝟕 = 𝟎. 𝟎𝟓𝟏𝟒𝟐𝟖𝟓𝟕𝟏𝟒 …. Se recomienda proponer una NUEVA LONGITUD (𝒍𝑵), ésta es: 𝒍𝑵 = 𝟎. 𝟎𝟔 , con esta nueva longitud cubriremos el rango sobradamente, es decir, 𝑹𝑵 = 𝒍𝑵 ∗ 𝒌 = (𝟎. 𝟎𝟔)(𝟕) = 𝟎. 𝟒𝟐 Lo anterior nos genera un ERROR al cubrirel rango, este error 𝜺 = 𝑹𝑵 − 𝑹 = 𝟎. 𝟒𝟐 − 𝟎. 𝟑𝟔 = 𝟎. 𝟎𝟔 Para iniciar con la generación de los intervalos, primeramente, repartiremos el ERROR equitativamente en los extremos de la distribución, es decir, INICIAREMOS en 𝒎 − 𝜺 𝟐 = 𝟏. 𝟑𝟗 − 𝟎. 𝟎𝟑 = 𝟏. 𝟑𝟔, FINALIZANDO en 𝑴 + 𝜺 𝟐 = 𝟏. 𝟕𝟓 + 𝟎. 𝟎𝟑 = 𝟏. 𝟕𝟖 Intervalos de Clase Marca de Clase Frecuencia Frecuencia Relativa Frecuencia Acumulada Frecuencia Relativa Acumulada [1.36,1.42] 1.39 1 0.025 1 0.025 (1.42, 1.48] 1.45 3 0.075 4 0.10 (1.48, 1.54] 1.51 8 0.20 12 0.30 (1.54, 1.60] 1.57 15 0.375 27 0.675 (1.60, 1.66] 1.63 8 020 35 0.875 (1.66, 1.72] 1.69 3 0.075 38 0.95 (1.72, 1.78] 1.75 2 0.05 40 1 ¿Qué porcentaje de adolescentes tienen una estatura inferior a 1.61 metros? 67.5% ¿Cuántos adolescentes tienen una estatura superior a 1.54 metros? 28 ¿Cuántos adolescentes tienen una estatura entre 1.48 y 1.67 metros? 31 ¿Cuántos adolescentes tienen una estatura entre 1.45 y 1.70 metros? Sabe d. Para la agrupación que Usted considere más viable, calcule las Medidas Descriptivas, todas.
Compartir