Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 1 ESTADÍSTICA DESCRIPTIVA Y PROBABILIDADES Guía didáctica de aprendizaje Leonardo Salvador Pérez Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 2 El autor: Salvador Pérez Leonardo Patricio - leosalvador54@hotmail.com Magister en Auditoría de Gestión de la Calidad, Magister en Gerencia de Proyectos Sociales y Educativos, Ingeniero Comercial. Docente de Pregrado y Posgrado de la Facultad de Ciencias Administrativas de la Universidad Central del Ecuador. Docente de Pregrado de la Universidad Politécnica Salesiana. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 3 ESTADÍSTICA DESCRIPTIVA Y PROBABILIDADES Segunda Edición ISBN: Primera edición Quito, Ecuador noviembre 2022 ISBN: 978-9942-42-822-6 Editorial: LEOsalvador Prohibida la reproducción total o parcial de esta obra, por cualquier medio, sin la autorización escrita del autor. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 4 Dedicatoria Para Lucía Margoth, mi esposa y mejor amiga, nuestros hijos y nietos: Verónica Joselyn, Lucía Carolina y Leonardo Patricio; Ana Paula, Karla Kamila, María Alejandra, Isabela Valentina y Leonardo Josué. A mis hermanos, sobrinos y más familiares. Leonardo Salvador Pérez Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 5 Tabla de contenido 1.1 Definición de estadística ....................................................................................................... 8 1.2 Tipos de estadística .............................................................................................................. 9 1.2.1 Estadística descriptiva .......................................................................................................... 9 1.2.2 Estadística inferencial ........................................................................................................... 9 1.3 Variables .............................................................................................................................. 10 1.3.1 Variable cualitativa.............................................................................................................. 10 1.3.2 Variable cuantitativa .......................................................................................................... 10 1.4 Niveles de medición ........................................................................................................... 11 1.4.1 Datos de nivel nominal ....................................................................................................... 11 1.4.2 Datos de nivel ordinal ........................................................................................................ 11 1.4.3 Datos de nivel de intervalo ................................................................................................ 11 1.4.4 Datos de nivel de razón ...................................................................................................... 12 CAPÍTULO 2 ........................................................................................................................................ 13 2.1 Tablas de frecuencias .......................................................................................................... 13 2.2 Distribución de frecuencias ................................................................................................. 17 2.2.1 Número de clases ................................................................................................................ 18 2.3 Representación gráfica de distribución de frecuencias ....................................................... 22 CAPÍTULO 3 ........................................................................................................................................ 28 3. Medidas de tendencia central ................................................................................................. 28 3.1 Medidas de ubicación ......................................................................................................... 28 3.1.1 Media aritmética ................................................................................................................. 28 3.1.2 Propiedades de la media aritmética ................................................................................... 30 3.1.3 Media ponderada ................................................................................................................ 32 3.1.4 Mediana de datos no agrupados ........................................................................................ 33 3.1.5 Mediana de datos agrupados ............................................................................................. 35 3.1.6 Moda de datos no agrupados ............................................................................................. 37 3.1.7 Moda de datos agrupados .................................................................................................. 38 3.1.7 Posiciones relativa de la media, la mediana y la moda ...................................................... 39 3.2 Media geométrica ............................................................................................................... 41 3.3 Medidas de dispersión ........................................................................................................ 46 3.3.1 Rango .................................................................................................................................. 46 3.3.2 Desviación media ................................................................................................................ 47 3.3.3 Varianza y desviación estándar ........................................................................................... 50 3.3.4 Interpretación y usos de la desviación estándar ................................................................ 54 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 6 3.3.5 Media aritmética y desviación estándar de datos agrupados ............................................ 59 CAPÍTULO 4 ........................................................................................................................................ 62 4.1 Otras medidas de posición .................................................................................................. 62 4.1.1 Diagrama de caja ................................................................................................................. 664.1.2 Datos atípicos ...................................................................................................................... 68 4.2 Medidas de forma ............................................................................................................... 69 4.2.1 Asimetría ............................................................................................................................. 69 4.2.2 Curtosis ............................................................................................................................... 71 CAPÍTULO 5 ........................................................................................................................................ 74 5.1 Introducción a las probabilidades ....................................................................................... 74 5.1.1 Enfoques de probabilidad ................................................................................................... 75 5.1.2 Reglas para calcular probabilidades .................................................................................... 76 5.1.3 Tablas de contingencia ........................................................................................................ 81 5.1.4 Diagrama de árbol ............................................................................................................... 83 5.1.6 Técnicas de conteo .............................................................................................................. 89 CAPÍTULO 6 ........................................................................................................................................ 97 6. Distribuciones de probabilidad discreta .................................................................................. 97 6.1. Distribución probabilística discreta .................................................................................... 97 6.1.1 Variable aleatoria ................................................................................................................ 97 6.2 Distribución de probabilidad binomial.............................................................................. 101 6.3 Distribución hipergeométrica ........................................................................................... 105 6.4 Distribución de Poisson ..................................................................................................... 106 CAPÍTULO 7 .......................................................................................................................................... 110 7. Distribuciones de probabilidad continua.................................................................................... 110 7.1 Distribuciones de probabilidad uniforme .......................................................................... 110 7.2 Distribución de probabilidad normal ................................................................................. 113 7.2.1 Distribución de probabilidad normal estándar ................................................................. 114 7.2.2 Distribuciones exponenciales ........................................................................................... 120 CAPÍTULO 8 .......................................................................................................................................... 122 8. Números Índice ...................................................................................................................... 122 8.1.1 Índices no ponderados ...................................................................................................... 123 8.1.2 Índices ponderados ........................................................................................................... 125 8.1.3 Índice de valores ............................................................................................................... 128 8.1.5 Índices para propósitos especiales ................................................................................... 132 8.1.6 Cálculo de la canasta básica familiar (CBF) ....................................................................... 132 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 7 Referencias bibliográficas ......................................................................... ¡Error! Marcador no definido. Tabla B1: Áreas bajo la curva normal ....................................................... ¡Error! Marcador no definido. Tabla B2: Distribución T de Student .................................................................................................... 135 Tabla B2: Distribución T de Student (continuación) ............................................................................ 136 Tabla B6: Tabla de números aleatorios ............................................................................................... 137 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 8 CAPÍTULO 1 Introducción Las técnicas estadísticas se aplican de manera amplia en mercadotecnia, contabilidad, control de calidad y en otras actividades; estudios de consumidores; análisis de resultados en deportes; administradores de instituciones; en la educación; organismos políticos; médicos; y por otras personas que intervienen en la toma de decisiones. En los negocios cotidianos se utiliza la estadística: el promedio de compras del ama de casa en el mercado, el volumen de ventas del almacén TIA en las épocas de navidad, el volumen de compras de mercadería de la Corporación Favorita para el mes de febrero, etc., y así un sin número de actividades en donde se necesite trabajar con un registro de datos. ¿Por qué estudiar estadística? Por qué permite realizar un análisis comparativo e interpretativo de datos que servirán para la toma de decisiones y de esta manera determinar los cambios o variaciones que se dan en cualquier ámbito de estudio. Por medio de la recopilación de datos obtenidos en la muestra, podremos interpretar de mejor manera la información para solucionar un problema. 1.1 Definición de estadística Cuando se habla de estadística, las personas rápidamente se imaginan estar ante una colección de datos, tales como la estatura y peso de personas, el promedio de calificaciones de los estudiantes de Administración, número de partidos ganados por la LDU, cantidad de accidentes de autos, número de personas contagiadas por el COVID 19, número de personas fallecidas por el COVID 19, etc. Spiegel & Stephens (2009) definen que “La estadística se ocupa de los métodos científicos que se utilizan para recolectar, organizar, resumir, presentar y analizar datos, así como para obtener conclusiones válidas y tomar decisiones razonables con base en este análisis” (pág. 1). Coincidiendo con los autores antes mencionados, Lind, Marchal & Whaten (2012) definen que la estadística es la “Ciencia que recoge, organiza, presenta, analiza e interpreta datos con el fin de propiciar una toma de decisiones más eficaz” (pág. 5). La información generalmente se presenta en gráficos donde se visualiza y deduce rápidamente los resultados de los análisis. Ética y estadística Dado que la estadística trabaja con datos, es muy importante que las personas involucradas en todas las fases donde se recogen organizan, presentan, analizan, interpretan resultados, y finalmente se informa a la sociedad, en cualquier ámbito, sean íntegros y honestos, de conducta y moralintachable http://www.monografias.com/trabajos15/mercadotecnia/mercadotecnia.shtml http://www.monografias.com/Administracion_y_Finanzas/Contabilidad/ http://www.monografias.com/Salud/Deportes/ http://www.monografias.com/trabajos13/trainsti/trainsti.shtml http://www.monografias.com/Educacion/index.shtml http://www.monografias.com/trabajos12/decis/decis.shtml Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 9 para no sesgar los resultados, esto quiere decir que debe imperar la ética en el proceder de la aplicación de la estadística. Ejemplo: en el caso de la pandemia del COVID 19, las autoridades de la Salud deben informar con exactitud el número de personas contagiadas y de defunciones, para que la población esté informada con datos verdaderos. 1.2 Tipos de estadística La estadística se divide en dos categorías: descriptiva e inferencial. 1.2.1 Estadística descriptiva Se ocupa de describir y analizar la información de una población. Una definición de estadística descriptiva señala que son los “(…) Métodos para organizar, resumir y presentar datos de manera informativa” (Lind , Marchal, & Whaten, 2012, pág. 6). Ejemplos: a) Número de habitantes del Ecuador establecido mediante un censo; b) el número de enfermos con COVID 19; c) el número de fallecidos con COVID 19; d) volumen de ventas de la empresa Movistar durante el año 2021; e) El número de estudiantes de estadística en la Carrera de Administración de Empresas. 1.2.2 Estadística inferencial Técnica que analiza determinadas características de una muestra para posteriormente deducir o inferir sobre la población investigada. Lind, Marchal, & Whaten (2012) definen a la estadística inferencial como los “(…) Métodos que se emplean para determinar una propiedad de una población con base en la información de una muestra de ella” (pág. 7). Ejemplo: a) Una persona tiene mareos, y el médico en base a una muestra de sangre puede determinar si tiene el colesterol elevado; b) Para probar la resistencia de los vidrios de seguridad que una fábrica está produciendo, se somete a prueba hasta la rotura de una muestra de vidrios y de allí se deduce cual es la resistencia de toda la producción. Población Es el conjunto universo de personas, cosas u objetos que se van a estudiar en su totalidad. Ejemplo: La población de estudiantes de la Universidad Central del Ecuador. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 10 Muestra Parte de la población que se quiere estudiar. Ejemplo: Los estudiantes de la Facultad de Ciencias Administrativas. 1.3 Variables La variable es una característica de una población o muestra que se está observando. (Webster, 2000, pág. 9). Existen dos tipos de variables: cualitativas y cuantitativas. 1.3.1 Variable cualitativa Su característica es que no se expresan numéricamente. Detallan cualidades de un objeto, persona, problema. Ejemplos: frutas, color de ojos, alto o bajo, color de autos, etc. 1.3.2 Variable cuantitativa Se expresan en forma numérica y se dividen en discretas y continuas. Variable discreta Se expresan en números enteros como la edad, el número de unidades vendidas, etc. Ejemplos: número de autos en Quito; número de hijos; número de personas contagiadas por COVID 19, etc. Variable continua Se expresan en números decimales y enteros y son el resultado de mediciones. Se expresan con números decimales o con fracciones. Ejemplos: estatura de las personas (se mide con un flexómetro); las calificaciones de los estudiantes (se mide con las evaluaciones); la temperatura ambiente (se mide con termómetro), etc. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 11 Figura 1. Resumen de los tipos de variables. 1.4 Niveles de medición El resumen y presentación de los datos estadísticos se expresan a través de cuatro niveles de medición: 1.4.1 Datos de nivel nominal Son observaciones de variables cualitativas, donde los resultados se clasifican y se cuentan, no necesitan un orden al momento de expresar los resultados. Al aplicar la variable de interés se divide en categorías o resultados. (Lind , Marchal, & Whaten, 2012, pág. 10). Ejemplo: En el curso AP 3-1 se tienen 23 mujeres y 21 hombres. 1.4.2 Datos de nivel ordinal Los resultados se clasifican y ordenan. Ejemplo: a) en las calificaciones se tiene: excelente, muy bueno, bueno, regular; b) en la estatura: alto, medio, bajo, etc. 1.4.3 Datos de nivel de intervalo Considera todas las características del nivel ordinal, pero la diferencia entre valores constituye una magnitud constante. Los resultados se ordenan de acuerdo con el grado de la característica analizada. Ejemplo: La talla de ropa: 8 – 10 – 12 - 14. La diferencia de 2” (2 pulgadas), es constante en los números por talla. (S – M – L – XL- XXL). Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 12 En las variables de intervalo se observa el criterio de diferencia respecto a “cuanto” o de “que tamaño “, “que tan caliente”, “que tan obstinado”, “que tan deprimido”, etc. 1.4.4 Datos de nivel de razón Los resultados se expresan comparando valores. Expresan cuanto más grande o pequeño es un valor en relación con otro. Ejemplo: Juan tiene 40 años y Luis tiene 20 años, entonces, Juan tiene el doble de edad que Luis. Posee todas las características del nivel de intervalo, pero considera que el punto 0 tiene sentido y la razón entre dos números es significativa. Las propiedades son: 3. La clasificación de datos se ordena de acuerdo con la cantidad de características que poseen. 4. Diferencias iguales en la característica representan diferencias iguales en los números asignados a las clasificaciones. 5. El punto cero representa la ausencia de características y la razón entre dos números es significativa (Lind , Marchal, & Whaten, 2012, pág. 13). Figura 2. Resumen de niveles de medición. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 13 CAPÍTULO 2 2.1 Tablas de frecuencias Es muy importante considerar que se trabaja con varias variables cualitativas. La recolección de datos se realiza aplicando encuestas para determinar preferencias en determinados productos y servicios. Ejemplo: el sabor de yogurt, la marca de celulares, la preferencia de candidatos en elecciones, etc. La sola recolección de datos registrados en el papel poco o nada revelan por si solos, por lo que es indispensable que sean organizados de manera concisa para determinar su significancia y se pueda ver a simple vista que es lo que nos dicen. Se consideran datos cualitativos que se agrupan en clases mutuamente excluyentes que contienen el número de observaciones en cada clase. (Lind , Marchal, & Whaten, 2012, pág. 23). En este caso, las variables cualitativas se clasifican en diferentes categorías o clases, sin establecer un orden particular. Es imprescindible que las categorías pertenezcan a un mismogrupo o sector. Es más sencillo trabajar con los datos cualitativos. Ejemplo: Tabla de frecuencias Categoría: Ciudades Número de autos Toyota vendidos en enero 2021 Porcentaje de autos vendidos Variable frecuencia absoluta frecuencia relativa Quito 140 140/520 *100 =26,92% Guayaquil 200 38,46% Cuenca 180 34,62% Total 520 100,00% Observando el ejemplo, las variables son las ciudades y no necesitan un orden específico, en ellas se han vendido cierto número de autos, que se denomina frecuencia absoluta. Para hacer un informe de ventas, es necesario expresar en porcentaje las ventas y estos valores se denominan frecuencia relativa. Para calcular la frecuencia relativa solamente debe dividir cada frecuencia absoluta para el total y se multiplica por 100, y al final la suma debe ser siempre 100%. La información obtenida de la tabla de frecuencias se expresa estadísticamente en forma gráfica a través de un diagrama de barras o circular (pastel). Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 14 Representación gráfica con diagramas de barra: histograma de frecuencias Histograma de frecuencias absolutas Histograma de frecuencias relativas Representación gráfica con diagrama circular: pastel Frecuencias absolutas 140 200 180 0 50 100 150 200 250 Quito Guayaquil Cuenca A u to s ve n d id o s Ciudad Número de autos vendidos (frecuencia absoluta) 26,92% 38,46% 34,62% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% Quito Guayaquil Cuenca A u to s ve n d id o s Ciudad Número de autos vendidos (frecuencia relativa) Quito; 140 Guayaquil; 200 Cuenca; 180 Número de autos vendidos (frecuencia absoluta) Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 15 Frecuencias relativas Ejemplo: Una empresa de turismo realizó una encuesta a una muestra de 900 residentes de la ciudad de Sangolquí, para saber que estación del año preferían. Los resultados obtenidos fueron los siguientes: a 100 les gusta el invierno, a 400 la primavera, a 300 el verano y a 100 el otoño. Se desea resumir los datos en una tabla de frecuencias. Tabla de frecuencias (cualitativas): Variable (Clases) Frecuencia absoluta Frecuencia relativa % Invierno 100 100/900 = 11% Primavera 400 44% Verano 300 33% Otoño 100 11% Total 900 100% Representación gráfica circular: Interpretación: De las 900 personas entrevistadas, 400 prefieren la primavera; 300 prefieren el verano, mientras que el invierno y el otoño son preferidos por 100 personas respectivamente. Quito; 26,92% Guayaquil; 38,46% Cuenca; 34,62% Número de autos vendidos (frecuencia relativa) 100 400 300 100 Estaciones climaticas (frecuencia absoluta) Invierno Primavera Verano Otoño Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 16 Interpretación: De las 900 personas entrevistadas se observa que el 44% (400 personas) prefieren la primavera, el 33% (300 personas) prefieren el verano, mientras que el invierno y el otoño son preferidos por 11% (100 personas) respectivamente. Ejercicios En los siguientes ejercicios, elabore una tabla de frecuencias, grafique y elabore un informe de lo observado (interpretación de los resultados): 1) En la ciudad de Quito, en el sector del mercado Santa Clara, el lunes 1 de junio 2021 se han vendido la siguiente cantidad de gaseosas en envases de 1 litro: Coca Cola 500 unidades, Pepsi Cola 400, Fruit 200, Orangine 150. 2) En la ciudad de Sangolquí, en la frutería “La papaya sabrosa” el martes 4 de mayo del 2022 se ha vendido la siguiente cantidad de frutas, en unidades: piñas 100; papayas 50; cocos 25; guanábanas 14. 3) Para producir yogurt, el gerente de "Lechera la Vaquita" realiza una encuesta a 1,500 personas para conocer la preferencia de sabores y los resultados fueron los siguientes: mora 450; fresa 350; granadilla 220; banano 180; tamarindo 300. Con esta información, la empresa se propone producir 3,000 litros por semana. ¿Cuántos litros de cada sabor deberán producir? 4) En la ciudad de Quito, sector La Magdalena, en la frutería de la señora Rosita el martes 4 de mayo del 2022 se ha vendido la siguiente cantidad de frutas, en unidades: piñas 100; papayas 50; cocos 25; guanábanas 14. Invierno; 11% Primavera; 44% Verano; 33% Otoño; 11% Frecuencias relativas Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 17 5) Una fábrica de estuches de teléfonos celulares planifica producir 3,000 unidades y desea saber que cantidades deberá producir de cada color; previamente realiza una encuesta a un grupo de estudiantes para que elijan su color favorito y los resultados fueron los siguientes: color blanco negro naranja verde amarillo rojo azul preferencia 100 50 25 45 26 35 49 6) Un concesionario de venta de autos Toyota ha vendido las siguientes cantidades en el segundo semestre de 2022 en 5 ciudades del país: ciudad Quito Cuenca Guayaquil Manta Ambato frecuencia 100 50 25 45 26 2.2 Distribución de frecuencias Se trabaja con una sola variable cuantitativa. Al construir una distribución de frecuencias los datos de la variable considerada se agrupan en clases, de acuerdo con las necesidades de la investigación. Las clases definidas tienen una distribución de frecuencias, lo que se denomina datos agrupados. La distribución de frecuencias es la “Agrupación de datos en clases mutuamente excluyentes, que muestra el número de observaciones que hay en cada clase” (Lind , Marchal, & Whaten, 2012, pág. 29). Datos recolectados: Variable calificaciones de evaluaciones de estudiantes 13 16 16 14 17 17 12 14 16 19 16 15 17 11 20 15 n = N° datos 16 Valor máximo = 20 Valor mínimo = 11 Rango 9 N° clases = K 4 Intervalo 2,25 → 3 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 18 2.2.1 Número de clases Para desarrollar una distribución de frecuencias, se deben considerar los siguientes pasos: a) Establecer el número de datos b) Determinar el valor máximo y valor mínimo del conjunto de datos recolectados. c) Definir el rango = valor máximo menos el valor mínimo. d) Determinar el número de clases o categorías (k) presentes en el conjunto de datos, utilizando la Regla: 𝟐𝒌 ≥ 𝒏. El dígito “2” es un valor constante que no será cambiado por ninguna circunstancia; n = número de datos. e) Calcular el intervalo (i) que es el espacio que habrá entre dos valores del conjunto de datos. Para obtener el intervalo i se divide el rango (valor máximo – valor mínimo) para el número de clases k. Se recomienda: a) Si el conjunto de datos contiene solo números enteros, se recomienda que el intervalo siempre sea el número entero siguiente a la fracción resultante, sin importar si los decimales son menores a 0,5 (ejemplo: i = 2,1 - 2,3 – 2,6 – 2,8 → i = 3). b) Si el conjunto de datos contiene valores con decimas y centésimas,el intervalo deberá ser aproximado a la décima o centésima más alta (ejemplo: 3,47 ---→ 3,5). El profesional Administrador o Estadístico también puede escoger el intervalo a utilizar como se verá más adelante. También se puede calcular el número de clases k utilizando la Regla de Sturges: K = 1 + 3,33 log (n) n = número de datos log = logaritmo base 10 Nota: ¡¡ Es decisión del profesional Administrador o Estadístico utilizar la metodología que mejor considere para calcular el valor k!! En el desarrollo de este tema, se aplicará la regla de 𝟐𝒌 ≥ 𝒏 Ejemplo: Determine cuantas clases o categorías serán necesarias para la distribución de frecuencias, en los siguientes casos: a) n = 45 Constante k 2^k 2 ^ 2 4 2 ^ 3 8 2 ^ 4 … 5 16 … 32 2 ^ 6 64 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 19 64 es mayor que 45, por lo tanto, se utilizarán 6 clases o categorías en la distribución de frecuencias. Aplicando la Regla de Sturges: K = 1 + 3,33 * log 45 → K = 6,51 → K = 7 b) n = 250 2 k n → 28 = 256 mayor que 250 → k = 8 Aplicando la Regla de Sturges: K = 1 + 3,33 * log 250 → K = 8,99 → K = 9 Cuando no se dispone de una calculadora a la mano, es facil aplicar la Regla de 𝟐𝒌 ≥ 𝒏. En el desarrollo de la asignatura se aplicará esta Regla. Ejemplo: En un conjunto de datos se tienen 230 observaciones entre 135 y 321. Determinar el intervalo conveniente. N° datos = 230 V max = 321 V min = 135 Rango = 186 N° clases = K → 2k = 8 Intervalo = 23,25 Intervalo adoptado = 24 Ejemplo: En un conjunto de datos se tienen 115 observaciones entre 16,35 y 45,24. Determinar el intervalo conveniente. N° datos = 115 V Max = 45,24 V min = 16,35 Rango = 28,89 N° clases = K = 7 Intervalo = 4,13 Intervalo adoptado= 4,20 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 20 Ejemplo: Las siguientes son las calificaciones de 30 estudiantes de estadística en un curso de la Carrera de Administración de Empresas. Organice los datos en una distribución de frecuencias. Utilizando la Regla de 𝟐𝒌 ≥ 𝒏 se tienen 5 clases, y con esto un intervalo de 1,8 -→ i = 2 Se aplicaron las funciones que proporciona el software del Excel: 1) CONTAR 2) MAXIMO 3) MINIMO 4) FRECUENCIA 13 16 15 16 14 14 17 13 17 17 16 12 14 12 17 16 13 13 16 14 17 19 14 16 15 17 11 16 20 15 N° datos = 30 Vmáx = 20 Vmín = 11 Rango = 9 N° clases = K = 5 1,80 2,00 Intervalo = N° clases K Li Ls punto medio frec_absol frec_relat frec_abs_acu m frec_rel_acum frec_abs_acu m frec_rel_acu m 1 11 13 12 7 23,33% 7 23,3% 30 100,0% 2 13 15 14 8 26,67% 15 50,0% 23 76,7% 3 15 17 16 13 43,33% 28 93,3% 15 50,0% 4 17 19 18 1 3,33% 29 96,7% 2 6,7% 5 19 21 20 1 3,33% 30 100,0% 1 3,3% Suma 30 100,0% ojiva menor que ojiva mayor que Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 21 Notas: • Los valores de punto medio siempre deberán tener decimales; se recomienda trabajar con 2 decimales. • Los valores de las frecuencias relativas parciales y acumuladas se recomienda trabajar con dos decimales. Procedimiento: a) El valor del límite inferior en la primera clase será el valor mínimo del conjunto de datos, o el valor que el profesional escoja, siempre que sea menor al valor mínimo. b) El límite superior es el límite inferior más el intervalo seleccionado. En este caso es 2. c) El siguiente límite inferior es el límite superior anterior. Y nuevamente se suma el intervalo. d) El punto medio es el promedio o media aritmética entre los límites inferior y superior en cada clase. e) La frecuencia absoluta es el conteo de datos que se encuentran en el intervalo (límites señalados en las clases). Si hay uno o varios datos iguales a los del límite superior de la clase analizada, estos se contarán en esta clase y en la siguiente clase ya no serán tomados en cuenta (criterio de mutuamente excluyente). Al trabajar de esta manera se puede comprobar usando el Excel. f) La frecuencia absoluta acumulada es la suma sucesiva de las frecuencias parciales de cada clase. (Clase 1: 7; clase 2: 7+ 8 = 15; etc.) Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 22 g) La frecuencia relativa es el porcentaje que representa cada una de las frecuencias absolutas dividido para el total de datos. (Clase 1: 7/30*100 = 23,3%; clase 2: 8/30*100 = 26.7%; clase 3: 13/30*100 = 43,3%; etc.) h) La frecuencia acumulada, tanto absoluta como relativa, es de dos tipos: “ojiva menor que” (inicia con la menor frecuencia y va ascendiendo) y “ojiva mayor que” (inicia con el total de frecuencias y va descendiendo). Este es un caso sencillo trabajado con calificaciones de estudiantes. De la misma manera se puede trabajar con datos obtenidos en ventas de productos, en compras, en rentabilidades de las empresas, etc. 2.3 Representación gráfica de distribución de frecuencias Los datos obtenidos a través de la distribución de frecuencias se pueden mostrar de manera más expresiva a través de gráficos estadísticos, donde se pueden visualizar de mejor manera las características de la variable observada. El gráfico más común de utilizar es el diagrama de barras, más conocido como “histograma de frecuencias” que pueden ser absolutas o relativas. En el diagrama de barras, en el eje horizontal (eje X) se colocan las clases con sus límites y en el eje vertical (eje Y) se colocan los valores de las frecuencias. Cada barra representa una clase. Gráficos de frecuencias parciales Histograma de frecuencias absolutas Interpretación: Con calificaciones de 16 a 20 se encuentran 15 (13 + 1 + 1) estudiantes, así como 15 (7 + 8) estudiantes tiene entre 11 y 15 puntos. 7 8 13 1 1 0 5 10 15 13 15 17 19 21 11 13 15 17 19 fr ec u en ci a calificaciones frec_absol Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 23 Histograma de frecuencias relativas Interpretación: Con calificaciones de 16 a 20 se encuentran 50% (43,3% + 3,3% + 3,3%%) de los estudiantes, mientras que el otro 50% tienen entre 11 y 15 puntos. Gráficos de frecuencias acumuladas Otro gráfico comúnmente utilizado es el polígono de frecuencias, donde se trabaja con los valores de los puntos medios (promedio de los límites inferior y superior) en el eje horizontal. Polígono de frecuencia absolutas acumuladas (ojiva menor que) Polígono de frecuencias relativas acumuladas (ojiva menor que) 23,33% 26,67% 43,33% 3,33% 3,33% 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 13 15 17 19 21 11 13 15 17 19 fr ec u en ci a calificaciones frec_relat 7 15 28 29 30 0 10 20 30 40 12 14 16 18 20 fr ec u en ci a calificaciones frec_abs_acum "ojiva menor que" 23,3% 50,0% 93,3% 96,7%100,0% 0,0% 50,0% 100,0% 150,0% 12 14 16 18 20 fr ec u en ci a calificacionesfrec_rel_acum "ojiva menor que" Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 24 Polígono de frecuencia absolutas acumuladas (ojiva mayor que) Polígono de frecuencias relativas acumuladas (ojiva mayor que) Las interpretaciones se hacen de acuerdo con lo que se observa y se quiere informar. Interpretación: a) De los 30 estudiantes, 13 tienen calificaciones entre 15 y 17, que representan el 43,33% del total del curso. b) Quince estudiantes tienen calificaciones entre 11 y 15, que representa el 50%, mientras el otro 50% tienen calificaciones entre 16 y 20. Con los resultados obtenidos se puede tomar decisiones. En este caso se observa que apenas un 50% de estudiantes tiene buenas calificaciones y para el docente es importante que este porcentaje sea mayor, por lo tanto, deberá implementar una nueva estrategia de enseñanza para que los estudiantes mejoren las calificaciones. Casos particulares: Es posible que el cliente, el jefe departamental, el gerente de producción, el profesor le pida construir una distribución de frecuencias con datos predeterminados, como, por ejemplo, iniciando con un valor específico que deberá ser inferior al valor mínimo del conjunto de datos. Igualmente, el intervalo también puede ser un valor escogido. En estos casos, ya no se utiliza la regla para calcular el número de clases a través de la expresión 𝟐𝒌 ≥ 𝒏 y luego el intervalo. 30 23 15 2 10 20 40 12 14 16 18 20 fr ec u en ci a calificaciones frec_abs_acum "ojiva mayor que" 100,0% 76,7% 50,0% 6,7% 3,3%0,0% 50,0% 100,0% 150,0% 12 14 16 18 20 fr ec u en ci a calificaciones frec_rel_acum "ojiva mayor que" Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 25 Ejemplo 5: Con las calificaciones del ejemplo 4: a) Construya una distribución de frecuencias iniciando con 10 como límite inferior de la primera clase y un intervalo de clase de 3. b) ¿Dónde tienden a acumularse los datos? Comparando con los resultados del ejemplo 4, se observa que las frecuencias variaron y por consiguiente los gráficos y las interpretaciones. Ejercicios 7) Se dispone de un conjunto de datos con 54 observaciones. ¿Cuántas clases recomendaría para la distribución de frecuencias? 8) Un conjunto de datos contiene 65 observaciones que se van a organizar en una distribución de frecuencias. El valor más bajo es 15 y el más alto es 90. ¿Qué intervalo de clase recomendaría? 9) Un conjunto de datos contiene 46 observaciones. El valor más bajo es 24 y el más alto es 125. Para organizar en una distribución de frecuencias: a. ¿Cuántas clases sugiere? b. ¿Qué intervalo recomienda? 13 16 15 16 14 14 17 13 17 17 16 12 14 12 17 16 13 13 16 14 17 19 14 16 15 17 11 16 20 15 N° datos = 20 Valores predetermin ados Vmáx = 20 Vmín = 11 10 Rango = 9 N° clases = K = 5 1,8 2,00 3,00 Intervalo = N° clases K Li Ls punto medio frec_absol frec_relat frec_abs_ac um "ojiva menor que" frec_rel_acu m "ojiva menor que" frec_abs_acu m "ojiva mayor que" frec_rel_acum "ojiva mayor que" 1 10 13 12 5 25,00% 5 25,0% 20 100,0% 2 13 16 14,5 10 50,00% 15 75,0% 15 75,0% 3 16 19 17,5 4 20,00% 19 95,0% 5 25,0% 4 19 22 20,5 1 5,00% 20 100,0% 1 5,0% Suma 20 100,0% ojiva menor que ojiva mayor que Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 26 10) Bioingredientes C.L. produjo la siguiente cantidad de productos en los primeros 20 días del mes de mayo 2022: 110 160 120 150 180 185 170 150 180 150 115 160 130 150 140 180 170 180 180 180 Organice la información en una tabla de frecuencias y determine: a) El número de clases b) El intervalo c) El límite inferior d) Realice el histograma de frecuencias absolutas e) Realice el polígono de frecuencias relativas f) Realice un informe de resultados 11) Con la información del ejercicio anterior, organice los datos como distribución de frecuencias utilizando 100 como límite inferior de la primera clase y un intervalo de 20. Organice la información en una tabla de frecuencias y determine: a) El número de clases b) Realice el histograma de frecuencias absolutas c) Realice el polígono de frecuencias relativas d) Realice un informe de resultados 12) El Ministerio de Turismo del Ecuador estudia la cantidad que gastan al día en alimento y bebida las familias que visitan el parque Metropolitano. Una muestra de 30 familias que visitó el parque ayer revela que éstas gastaron las siguientes cantidades: a) Organice los datos como distribución de frecuencias utilizando el 15 como límite inferior de la primera clase y un intervalo de 12. b) ¿Cuántas clases se utilizaron? c) ¿Dónde tienden a acumularse los datos? d) Realice un informe 13) A continuación, se muestra la cantidad de minutos que emplea un grupo de estudiantes para llegar desde la casa a la Universidad. 65 19 63 80 38 62 43 63 54 50 59 54 56 62 62 52 34 26 50 34 44 52 53 41 48 32 53 19 51 61 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 27 a) Organice los datos como distribución de frecuencias utilizando el 20 como límite inferior de la primera clase y 6 clases. b) ¿Qué intervalo se utilizó? c) ¿Dónde tienden a acumularse los datos? d) Realice un informe 62 65 48 37 41 58 42 39 32 56 38 53 85 31 23 47 36 66 46 82 35 43 38 33 28 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 28 CAPÍTULO 3 3. Medidas de tendencia central Se tienen dos formas numéricas para describir los datos cuantitativos: 1) medidas de ubicación y 2) medidas de dispersión. 3.1 Medidas de ubicación 3.1.1 Media aritmética Generalmente se les denomina media aritmética o promedio. De acuerdo con la clasificación de población y muestra se tiene: Media poblacional 𝑀𝑒𝑑𝑖𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒𝑠 𝑒𝑛 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 𝑁º 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 En el lenguaje matemático también esta expresada esta fórmula con su respectiva nomenclatura: 𝜇 = Σ𝑋 𝑁 La media poblacional que se busca es una característica de la población y se denomina “parámetro”. Ejemplo: Existen 42 tiendas comerciales en el centro comercial el Condado ubicado al norte de Quito. A continuación, tenemos los valores de ingresos del mes de noviembre 2021 en miles de dólares. 12 15 14 47 45 22 12 21 9 20 5 19 55 18 2 8 12 2 13 59 14 25 15 20 16 45 17 50 4 5 8 1 10 12 26 11 22 10 5 9 2 8 Símbolo Significado 𝜇 Media poblacional Σ Epsilon (sumatoria de valores X) X Valores analizados de la población N Número de valores (N mayúscula) ΣX Sumatoria de X valores poblacionales Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________29 Se requiere encontrar la media aritmética e interpretar porque esta información es un parámetro poblacional. Al considerar la información de las ganancias anuales de todas las tiendas del centro comercial se convierte en una población. Para calcular la media aritmética se tiene que sumar todos los valores de la población obteniendo un ingreso total de 745 y dividir para e 42. Así la media aritmética es de 17.7 (miles de dólares). 𝜇 = Σ𝑋 𝑁 = 12 + 15 + 14…+ 2 + 8 42 = 745 42 = 17.7 La media poblacional de 17,7 es un “parámetro” poblacional y representa el número típico de ingresos anuales de las tiendas. Media de una muestra 𝑀𝑒𝑑𝑖𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝑆𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑛 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 La media muestral es una característica del análisis de una porción de la población que se denomina “estadístico”, y permite identificar una característica específica de la población. Por ejemplo, una empresa dedicada a la fabricación de mayonesa no puede medir todos los envases de lote de producción para conocer cuál es el contenido, así que se selecciona 30 envases y se obtiene la media muestral; este valor se infiere (deduce o generaliza) para todo el lote. En el lenguaje matemático también esta expresada esta fórmula con su respectiva nomenclatura: �̅� = 𝛴𝑥 𝑛 ; Xm Ejemplo: Con la información del ejemplo 1: 42 tiendas comerciales en el centro comercial el Condado ubicado al norte de Quito. A continuación, tenemos los valores de ingresos del mes de noviembre 2021 en miles de dólares. De la población de 42 tiendas comerciales, tomamos al azar una muestra de 10 tiendas: Símbolo Significado �̅� = Xm Media muestral Σ Épsilon (sumatoria de valores x) x Valores encontrados n Número de valores de la muestra (n minúscula) Σx Sumatoria de x valores de la muestra Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 30 12 15 14 47 45 22 12 21 9 20 5 19 55 18 2 8 12 2 13 59 14 25 15 20 16 45 17 50 4 5 8 1 10 12 26 11 22 10 5 9 2 8 𝜇 = Σ𝑋 𝑁 = 12+15+14…+2+8 42 = 745 42 = 17,7 (parámetro) Los datos determinados al azar son: 12 47 9 55 13 14 20 8 11 9 Determine la media muestral: 𝑋𝑚 = Σ𝑋 𝑛 = 12+47+9+55+13+14+20+8+11+9 10 = 198 10 = 19,80 (estadístico) Este valor es un “estadístico” que sirve para inferir (deducir) a la población, siendo un valor aproximado. 3.1.2 Propiedades de la media aritmética 1. La media aritmética se calcula con todos los valores del conjunto de datos, 2. La media aritmética es única, 3. Todo conjunto de datos de intervalo o de razón contiene una media, 4. La suma de las diferencias o desviaciones de cada valor 𝑋 respecto a la media �̅� es cero. Expresado simbólicamente: 𝛴(𝑋 − 𝑋) = 0 Ejemplo: La media de los valores: 9, 5, 14, 3 µ = �̅� = 7,75 𝛴(𝑋 − 𝑋) = 0 → [(9 − 7.75) + (5 − 7.75) + (14 − 7.75) + (3 − 7.75)] = 0 Esto significa que la media es el punto de equilibrio de los datos. La media aritmética tiene un punto débil cuando se tiene un conjunto de datos con valores extremadamente pequeños o extremadamente grandes comparados con la mayoría de datos, lo que hace que este valor no tenga una representación significativa de los datos. Ejercicios de aplicación: 1. Encontrar la media de los siguientes valores poblacionales: 12, 10, 8, 5, 7, 30 y 15 𝜇 = Σ𝑋 𝑁 = 12 + 10 + 8 + 5 + 7 + 30 + 15 7 = 87 7 = 12.43 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 31 2. Encontrar la media de los siguientes valores muestrales: 5, 11, 9, 15 y 18 𝑥 = 𝛴𝑥 𝑛 → = 5+11+9+15+18 5 = 11,60 3. Con los datos del ejercicio anterior, demuestre que 𝛴(𝑋 − 𝑋) = 0 = [(5 − 11,60) + (11 − 11,60) + (9 − 11,60) + (15 − 11,60) + (18 − 11,60)] = 0 Ejemplo: Para los ejercicios propuestos: a) Calcule la media aritmética b) Indique si se trata de un parámetro o un estadístico 1) En el conjunto residencial VITTORIA se seleccionó una muestra de 20 copropietarios. A continuación, aparecen los gastos que realizaron el último mes en el pago de energía eléctrica: 38 40 41 45 48 48 50 50 51 51 59 59 59 62 62 62 63 64 65 66 �̅� = 54,15 → es un estadístico porque se trata de una muestra Utilizando el Excel: Ejemplo: AUTOS ROSALINDA emplea a 10 vendedores. El número de autos nuevos que vendieron el mes pasado los respectivos vendedores fueron: 59 59 59 62 62 62 63 64 65 66 66 67 67 69 69 71 77 78 79 79 μ = 67,15 → es un parámetro porque se trata de una población Utilizando el Excel: Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 32 3.1.3 Media ponderada La media ponderada es un caso especial de la media aritmética que se aplica cuando se tienen valores X que se ven afectados por otros valores que se denominan “pesos”. Ejemplo: La “Heladería del Valle” vende helados en tamaños grande, mediano, y pequeño a $3,00; $2.75 y $2.50 respectivamente. De las últimas 10 helados que se vendieron 3 fueron grandes, 2 medianos y 5 pequeños. Determine el precio promedio por helado. Calculando de la forma tradicional se tiene: media aritmética 𝑋𝑤 = 3,00+3.00+3.00+2,75+2,75+2.50+2.50+2.50+2.50+2.50 10 Una forma más fácil de calcular es aplicando la media ponderada: 𝑋𝑊 = 𝛴(𝑤𝑋) 𝛴𝑤 𝑋𝑊 = 𝑤1𝑋1 + 𝑤2𝑋2 + 𝑤3𝑋3 +⋯ .+𝑤𝑛𝑋𝑛 𝑤1 + 𝑤2 + 𝑤3 +⋯ . . +𝑤𝑛 Donde W es el peso o número de veces que se repite cada grupo de valores y X son los precios. 𝑋𝑊 = 5(2,50) + 3(3,00) + 2(2,75) 10 𝑋𝑊 = 27,00 10 = 2,70 El precio promedio en el que se vendió cada helado sin importar el tamaño es $ 2,70. Ejemplo: En enero 2022, un inversionista compró 200 acciones del Supermercado VITTORIA a $ 20 dólares cada una; en febrero compró 300 acciones a $ 25; en abril compró 250 acciones a $ 22. ¿Cuál es el precio promedio ponderado de cada acción? N° acciones valor $ inversion 200 20 4.000,00 300 25 7.500,00 250 22 5.500,00 750 22,67 17.000,00 Precio promedio ponderado 17.000 / 750 = 22,67 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 33 Ejercicios 1) La Heladería CUCARDAS se especializa en hacer helados de paila. En mayo 2022 vendió 30 helados de 3 sabores; 25 helados de dos sabores y 40 helados de 1 sabor. Los helados de 3 sabores cuestan $ 2,50; de 2 sabores $ 1,50 y de 1 sabor a $ 0,80. ¿Cuál es el precio promedio ponderado de un helado? 2) Un estudiante de la Facultad de Ciencias Administrativas ha sacado las siguientes calificaciones en la asignatura de estadística descriptiva: 14 en el examen parcial del 1er hemisemestre que cuenta 30%; 18 en las actividades individuales que vale un 20%; 12 en las actividades grupales que valen 15%, y un 18 en el examen final que tiene un peso del 35%. ¿Cuál es su nota final de la asignatura? 3) Una ama de casa realiza las siguientes compras en el mercado: 8 kg de pollo a $ 1,50; 12 kg de carne de res a $ 3,50; 18 kg de papas a $ 2,30; 3 quesos a $ 3,60. ¿Cuál es el promediode compras por unidad de producto? 4) Determine el precio promedio ponderado de cada unidad de producto. Artículo Precio Cantidad Pan, unidad 0,20 50 Huevos, docena 1,05 26 Leche, litro 0,95 102 Manzanas, libra 0,86 30 Jugo de naranja, 12 onzas 1,75 40 Café, libra 3,43 12 5) Determine el precio promedio ponderado de cada unidad de producto Artículo Precio Cantidad Dentífrico 2,49 6 Shampoo 3,29 4 Pastillas tos 1,59 2 Antitranspirante 1,79 3 3.1.4 Mediana de datos no agrupados La mediana es el valor que se encuentra en el punto medio de un conjunto de datos previamente ordenados. Esta medida de ubicación se utiliza cuando se tienen valores muy pequeños o muy grandes en relación con los demás del conjunto, tal que la media aritmética no resulta representativa. Se consideran las siguientes principales propiedades de la mediana: Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 34 1. No está influenciada por valores extremadamente grandes o pequeños. Por tanto, se considera únicamente el valor en la ubicación central del grupo de datos ordenados convenientemente. 2. Se calcula con datos de nivel ordinal o más altos. 3. Es única, sólo existe una mediana para un conjunto de datos, a semejanza de la media aritmética. Ejemplo: a) Con el ejemplo de la venta de 5 días en un almacén, determine la mediana de la cantidad de dinero en miles de dólares. 1 2 3 4 5 45 90 5 62 15 Datos ordenados: 5 15 45 62 90 El punto medio o posición es la casilla 3. Por tanto, la mediana es el valor $ 45 que se encuentra en la posición 3, mientras que la media aritmética es $ 43,40. a) En la siguiente muestra de calificaciones, determinar la mediana: 8 15 11 19 14 11 Datos ordenados: 8 11 11 14 15 19 El punto medio (posición) está entre las casillas 3 y 4, por tanto, la mediana es el promedio de los valores que se encuentra de estas casillas: (11+14) /2 = 12,5; mientras que Xm = 13,00. En grupos de datos pequeños como los de los ejemplos es fácil ubica la mediana, tan solo por observación. En casos donde se tienen decenas o más cantidad de datos, es conveniente aplicar la siguiente fórmula para ubicar la posición de mediana: 𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 (𝑝𝑚𝑒𝑑) = 𝑛 + 1 2 Ejemplo: En el Almacén PEPITO se han vendido la siguiente cantidad de camisas en los últimos 30 días: determine cuál es el valor de la mediana y compare con la media aritmética. 2 9 13 16 17 9 10 2 16 13 12 17 4 13 11 18 16 15 5 11 15 19 16 17 7 12 15 16 19 20 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 35 Ordenando los valores en forma ascendente: 2 2 4 5 7 9 9 10 11 11 12 12 13 13 13 15 15 15 16 16 16 16 16 17 17 17 18 19 19 20 𝑃𝑜𝑠𝑖𝑐𝑖ó𝑛 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 (𝑝𝑚𝑒𝑑) = 30 + 1 2 = 15,5 El valor de la mediana se encuentra entre la décima quinta y décima sexta casilla. Entonces, el valor de la mediana = (13 + 15) / 2 = 14 camisas. Este valor representa el punto medio del conjunto de datos, sin importar valores pequeños y altos. La media aritmética es: 12,83 camisas. En este valor se consideran la venta de los valores pequeños (como 2-2-4-5-7-9) y a su vez los valores grandes (como 18-19-19-20) y hay un poco de distorsión. Utilizando Excel: 3.1.5 Mediana de datos agrupados En datos agrupados la mediana se calcula mediante la fórmula: Donde: A = amplitud o intervalo (Ls-Li) n = número total de datos del ejercicio n / 2 = se refiere a la posición para el análisis: se busca en las F_acum (Fi) el primer valor mayor que n/2, se ubica la clase y se trabaja en ella Li = límite inferior de la clase donde se encuentra el intervalo de la mediana fi = frecuencia absoluta del intervalo de la mediana F(i-1) = frecuencia acumulada anterior al intervalo de la mediana 𝑀𝑑 = 𝐿𝑖 + 𝑛 2 −𝐹(𝑖−1) 𝑓𝑖 *A Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 36 Ejemplo: En la siguiente distribución de frecuencia, determinar la mediana. valores Marca de clase frec_abs frec_acum media X Xi fi Fi f * M 10 18 14 5 5 70 18 26 22 11 16 242 26 34 30 8 24 240 34 42 38 5 29 190 42 50 46 8 37 368 50 58 54 6 43 324 58 66 62 7 50 434 50 1868 Desarrollo: Marca de clase frec_abs frec_acum media Xi fi Fi f * M 10 18 14 5 5 70 18 26 22 11 16 242 26 34 30 8 24 240 34 42 38 5 29 190 42 50 46 8 37 368 50 58 54 6 43 324 58 66 62 7 50 434 50 1868 A = 8 amplitud (intervalo Ls - Li) n = 50 Número total de datos del ejercicio posición n/2 = 25 clase 3 Li = 34 fi = 5 frecuencia absoluta del intervalo de la mediana F(i-1) = 24 frec_ acum anterior al intervalo de la mediana Med = 34 1,60 Med = 35,60 se busca en las F_acum (Fi) el primer valor mayor que n/2, se ubica la clase y se trabaja en ella Límite inferior de la clase donde se encuentra el intervalo de la mediana Ingreso neto (millones) X 𝑀𝑒𝑑 = 𝐿𝑖 + 𝑛 2 − (𝑖−1) 𝑖 *A 𝑀𝑒𝑑 = 34+ 25 −24 5 * 9 + Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 37 Ejercicios 6) Los siguientes son los ingresos en miles de dólares en el almacén Ana Paula, determine la mediana. Ingreso neto (millones) Marca de clase frec_abs frec_acum media X Xi fi Fi f * M 10 20 15 13 13 13 20 30 25 19 32 32 30 40 35 16 48 48 40 50 45 20 68 68 50 60 55 12 80 80 80 2410 3.1.6 Moda de datos no agrupados La Moda también es una medida de ubicación. Es el valor que más se repite en el conjunto de datos. Para facilitar la búsqueda de la moda, los datos tienen que estar ordenados de mayor a menor o viceversa, permitiendo una mayor visualización del valor repetido. Ejemplo: La empresa AMBACAR vendió durante el año 2022 la siguiente cantidad de autos. Determine la moda respecto al número de autos vendidos. enero febrero marzo abril mayo junio julio agosto septiemb re octubre noviemb re diciembr e 3 15 6 11 19 14 11 15 15 14 20 12 Ordenando los datos: enero febrero marzo abril mayo junio julio agosto septiemb re octubre noviemb re diciembr e 3 6 11 11 12 14 14 15 15 15 19 20 Conclusión: en los meses de febrero, agosto y septiembre se vendieron 15 autos en cada mes. Utilizando Excel: Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 38 3.1.7 Moda de datos agrupados En datos agrupados la moda se calcula mediante la fórmula: Ejemplo: En la siguiente distribución de frecuencia, determinar la moda: valores Marca de clase frec_abs frec_acum media X Xi fi Fi f * M 10 18 14 5 5 70 18 26 22 11 16 242 26 34 30 8 24 240 34 42 38 5 29 190 42 50 46 8 37 368 50 58 54 6 43 324 58 66 62 7 50 434 50 1868 Desarrollo: Marca de clase frec_abs frec_acum media Xi fi Fi f * M 10 18 14 5 5 70 18 26 22 11 16 242 26 34 30 8 24 240 34 42 38 5 29 190 42 50 46 8 37 368 50 58 54 6 43 324 58 66 62 7 50 434 50 1868 A = 8fi = 11 clase 2 frecuencia que más se repite Li = 18 clase 2 límite inferior de la clase 2 f(i-1) = 5 f(i+1) = 8 fi - (fi-1) = 6 fi - (fi+1) = 3 Moda = 18 5,33 Moda = 23,33 Ingreso neto (millones) X 𝑀𝑜𝑑𝑎 = 18+ 11−5 11−5 +(11−8) *8 + 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + 𝑓𝑖 −(𝑓𝑖−1) [𝑓𝑖−(𝑓𝑖−1)] + [𝑓𝑖− 𝑓𝑖+1 ] *A 𝑀𝑜𝑑𝑎 = 𝐿𝑖 + ( 𝑓𝑖 −(𝑓𝑖−1) [𝑓𝑖−(𝑓𝑖−1)] + [𝑓𝑖−(𝑓𝑖+1)] ) *A Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 39 Ejercicios 7) Los siguientes son los ingresos en millones de dólares en el almacén Ana Paula, determine la moda. Ingreso neto (millones) Marca de clase frec_abs frec_acum media X Xi fi Fi f * M 10 20 15 13 13 13 20 30 25 19 32 32 30 40 35 16 48 48 40 50 45 20 68 68 50 60 55 12 80 80 80 2410 3.1.7 Posiciones relativa de la media, la mediana y la moda En un histograma se puede observar la distribución de la media, mediana y moda para lo cual dependiendo del gráfico podremos saber si tiene una distribución simétrica o asimétrica. La distribución simétrica tiene forma de campana, donde la media, mediana y moda siempre son iguales, como podemos observar en la imagen la moda, mediana y media son iguales. En el caso de que una distribución sea asimétrica, se tiene dos casos: Asimetría positiva (sesgo positivo o derecho) tiene como característica que, el valor de la media es mayor que la mediana y la moda y su gráfica muestra un sesgo a la derecha. �̅� = 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑚𝑜𝑑𝑎 La mediana como medida de ubicación es el mejor parámetro para hacer la comparación con la media aritmética, antes que la moda. 10 20 35 40 35 20 10 0 10 20 30 40 50 100 200 300 400 500 600 700 Fr ec u en ci a Utilidades Distribución simétrica (sesgo cero) media = mediana = moda = 400 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 40 �̅� > 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 > 𝑚𝑜𝑑𝑎 Asimetría negativa (sesgo negativo o izquierdo) que se presenta cuando el valor de la media es menor que la mediana y la moda y, su gráfica presenta un sesgo a la izquierda. Ejemplo: media = 250; mediana = 300 �̅� < 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 < 𝑚𝑜𝑑𝑎 En un conjunto de datos, no siempre se tendrá la moda, entonces, la evaluación se realizará en base a la media y a la mediana. Ejemplo: Los ingresos mensuales del Almacén ROSITA se organizaron en una distribución de frecuencias y se determinó una media de $ 96.000, la mediana de $ 93.000 y la moda de $ 91.000. Grafique las ventas y determine si la distribución es simétrica, tiene sesgo positivo o sesgo negativo. Explique la respuesta. �̅� = 96.000 Mediana = 93.000 Moda = 91.000 0 200 400 600 800 1000 1200 150 200 250 300 350 400 450 Fr ec u en ci a Ingresos Distribución con sesgo positivo (sesgo a la derecha) 0 200 400 600 800 1000 1200 150 200 250 300 350 400 450 Distribución con sesgo negativo (sesgo a la izquierda) mediana = 250 media = 300 ediana = 250 mediana = 300 ediana = 250 media = 250 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 41 Solución: La distribución tiene sesgo positivo por cuanto la media de las ventas es mayor que la mediana y la moda. El sesgo puede variar entre [ - 3 a + 3], en donde: elevado moderado bajo bajo moderado elevado -3 -2 -1 0 1 2 3 Un valor de 1,60 indica un sesgo positivo moderado, mientras que un valor de 2,8 indica un sesgo positivo alto. Un valor de -0,30 indica un sesgo negativo bajo y un valor de -2,7 indica un sesgo negativo moderado. Ejercicios Por la posición determine si la distribución es simétrica o asimétrica (derecha o izquierda): 8) Autos Vittoria emplea a 7 vendedores quienes vendieron en diciembre 2022 la siguiente cantidad de autos respectivamente: 15 23 4 19 18 10 10 9) El supermercado Kamila tuvo los siguientes ingresos en miles de dólares en los últimos 7 meses: 14 24 19 31 36 26 17 10) Los gastos en miles de dólares en el Supermercado Kamila en los últimos siete meses fueron: 10 18 16 27 34 25 14 3.2 Media geométrica Es otra medida de tendencia central de ubicación, se aplica para determinar cambio promedio de porcentajes, razones, tasas de crecimiento, interés compuesto y números índices. Ventajas: a) Es menos sensible a valores extremos (muy grandes o muy pequeños) que podrían alterar la media de una muestra estadística. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 42 b) Considera todos los valores de la distribución. Desventajas: a) No se puede aplicar con porcentajes negativos. b) Si un valor Xi = 0, la MG es cero. Se utiliza en dos casos: 1) Para determinar los cambios promedio de porcentajes, razones, índices y tasas de crecimiento, siendo de gran importancia tanto para la matemática como para la estadística y la economía ya que ayuda a conocer cuál es el cambio verdadero que se produce ya sea en cuanto a salarios, ventas realizadas u otro tipo de datos numéricos. 2) Para determinar tasas de crecimiento o incremento en períodos conocidos. Una característica importante para observar es que siempre será menor o igual a la media aritmética. En el primer caso, es la raíz n-ésima del producto de todos los valores considerados (porcentajes o números índice). La fórmula de la media geométrica es la siguiente: 𝑀𝐺 = √(𝑥1)(𝑥2)(𝑥3)……… . (𝑥𝑛) 𝑛 MG = (x1 ∗ x2 ∗ x3 ∗ … . . xn) 1 n⁄ Donde los valores Xi son números índices. La recuperación o ganancia en la inversión representa el incremento obtenido sobre el 100% de la inversión. Así, si el 100% de una inversión es $ 100 y la ganancia al final del período considerado es el 20% ($ 20) quiere decir que finalmente tiene 120% ($120). Si en lugar de utilidad tiene una pérdida respecto a la inversión hay que restar del 100% de la inversión. Si el 100% de una inversión es $ 100 y la pérdida al final del período es de 15% ($ 15) finalmente tendrá 85% ($ 85). El número índice es la relación del resultado final sobre 100%. Ejemplo: Inversión = $ 100 (100%) Rendimiento, ganancia o utilidad = $ 25 (25%) Resultado final = $ 125 (125%) Número índice = 125% / 100% = 1,25 https://es.wikipedia.org/wiki/Ra%C3%ADz_n-%C3%A9sima Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 43 Ejemplo: Un inversionista obtuvo un rendimiento en los últimos 3 años del 10%, 14% y 15% respectivamente, en una inversión en un supermercado. ¿Cuál es la media geométrica de la recuperación de la inversión? 1) 10% ----- 110% ----- 1,10 2) 14% ----- 114% ----- 1,14 3) 15% ----- 115% ------ 1,15 𝑀𝐺 = √(𝑥1)(𝑥2)(𝑥3) 𝑛 𝑀𝐺 = √(1,10)(1,14)(1,15) 3 = 1,1298 Este resultado indica que la media geométrica de recuperación es de 112,98, es decir, 12,98% más que la base 100 que se considera. MG = 12,98% menor que la media aritmética �̅� = 13,00% La media geométrica se puede obtener directamente utilizandola función Excel MEDIA.GEOM(números índice). Desarrollo: Nota: La media geométrica se puede considerar como una tasa de crecimiento para proyecciones futuras. Ejemplo: Conociendo el rendimiento promedio de 12,98%, el inversionista se propone incrementar la inversión en el supermercado para iniciar el año 2022 en $ 100.000,00. ¿Cuánto llegará a tener en el año 2024? Aplicando la fórmula para calcular el valor futuro de un valor inicial a una tasa de interés y a un determinado tiempo: 𝑉 = 𝑉𝑖(1 + 𝑖)𝑛 y el interés se reemplaza con la tasa de crecimiento que da la MG, se tiene año 2019 2020 2021 rendimiento 10,00 14,00 15,00 más 100 / 100 1,100 1,140 1,150 MG = 1,1298 MG = 12,98% Xm = 13,00% 𝑉 = 𝑉𝑖(1 +𝑀𝐺)𝑛 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 44 Año de inicio = 2022 Año final = 2024 n = 3 años Vi = 100.000 Tasa incremento = MG = 12,98% 𝑉 = 100.000 ∗ (1 + 0,1298)^3 Vf = 144.213,10 Si se realiza el cálculo año por año: (método que no se debe aplicar) Ejemplo: Calcular la media geométrica de los siguientes porcentajes: 6%, -8%, 10% y 15% que representan los rendimientos reportados en los últimos 4 años por el departamento financiero en la empresa BIOINGREDIENTS C.L. El valor -8% representa una pérdida en relación al 100% de la inversión, y como la media geométrica no trabaja con números negativos: (-8% + 100% = 92%; dividido para 100 = 0,92) 𝑀𝐺 = √(1,06)(𝟎, 𝟗𝟐)(1,10)(1,15) 4 MG = 1, 0539 x 100 = 105,39% - 100% = 5,39% Las ganancias del departamento de ventas fueron el 5,39% → menor que �̅� = 5,75% Ejercicios 11) El incremento salarial de un obrero en los dos últimos años fue de 5% y 15%, determine la media geométrica del incremento salarial. 12) Durante el año 2020, la utilidad de una empresa constructora en cuatro proyectos fue de 2%, 4%, 7% y 9% ¿Cuál es la media geométrica de las ganancias? año valor inicial tasa crecimiento incremento valor final 2022 100.000,00 12,980% 12.980,000 112.980,00 2023 112.980,00 12,980% 14.664,804 127.644,80 2024 127.644,80 12,980% 16.568,296 144.213,10 Respuesta: 144.213,10 Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 45 13) Durante el año 2020, la utilidad de una empresa constructora en cuatro proyectos fue de 2%, 4%, -7% y 9% ¿Cuál es la media geométrica de las ganancias? 14) En la empresa LEOAUTOCAR S.A. dedicada a la compra y venta de autos se presentaron incrementos porcentuales en las ganancias en los 6 últimos años siendo estos 5%, 7%, 9%, 10%, 11% y 11,5%. Calcular la media geométrica del incremento de las ganancias. 15) En el Supermercado ISABELLA se presentan las siguientes ganancias porcentuales en los años indicados. Determine el incremento porcentual de los años considerados. Suponga que al finalizar el año 2022, el supermercado termina con un capital invertido de 10.000 dólares. Utilice la MG como tasa de incremento y determine cuáles serán los valores futuros para los años 2023 y 2025. Año 2016 2017 2018 2019 2020 2021 2022 2323 2025 12 8 -4 5 -3 6 10 En el segundo caso, la Media Geométrica (MG) se aplica para determinar el cambio porcentual promedio en ciertos períodos de tiempo y para ello se usa la siguiente fórmula: MG =√ 𝑉𝑎𝑙𝑜𝑟 𝑓𝑖𝑛𝑎𝑙 𝑑𝑒𝑙 𝑝𝑒𝑟í𝑜𝑑𝑜 𝑉𝑎𝑙𝑜𝑟 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒𝑙 𝑝𝑒𝑟í𝑜𝑑𝑜 𝑛 - 1 𝑀𝐺 = ( 𝑉 𝑝 𝑉𝑖𝑝 ) 1 𝑛⁄ − 1 Ejemplo: Según el censo del año 2010, el Ecuador registró 14.306.876 habitantes. Una proyección del INEC determinada para el 2020 estimó a la población en 17.511.000. ¿Cuál es la media geométrica del incremento anual de dicho período? 𝑀𝐺 = √ 𝑉𝑎𝑙𝑜𝑟 𝑖𝑛𝑎𝑙 𝑑𝑒𝑙 𝑝𝑒𝑟í𝑜𝑑𝑜 𝑉𝑎𝑙𝑜𝑟 𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒𝑙 𝑝𝑒𝑟í𝑜𝑑𝑜 𝑛 -1 MG = √ 17.511.000 14.306.876 11 -1 MG = 0,01854 Por lo tanto, el incremento anual de la población es de 1,854% Igualmente, esta tasa de incremento puede ser aplicada para proyecciones en diferentes casos. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 46 Ejercicios 16) La población de estudiantes de la Facultad de Ciencias Administrativas en el año 2010 fue de 5.400 estudiantes y en el año 2022 se tienen 6.500. ¿Cuál es la media geométrica del incremento anual de dicho período? Con la MG como tasa de incremento, ¿cuál será la población de estudiantes para el año 2030? 17) Con los datos del ejemplo 3, se determinó un incremento porcentual anual MG = 1,854%. Determine la población aproximada para los años 2022 y 2025. 3.3 Medidas de dispersión La dispersión es el grado de concentración de valores respecto a la media aritmética. Una medida de dispersión pequeña indica que los datos se encuentran acumulados cerca de la media aritmética, mientras que una dispersión grande indica que los datos se encuentran alejados. Entre las medidas de dispersión se encuentran: 1) el rango; 2) la desviación media; 3) la desviación estándar. 3.3.1 Rango La medida más simple que existe es el rango porque representa la diferencia entre los valores máximo y mínimo de un conjunto de datos. Esta medida solo considera los valores de los extremos y no los intermedios. Rango = Valor máximo – valor mínimo Nota: El rango se emplea mucho en aplicaciones de control de procesos estadísticos, debido a que resulta fácil calcular e interpretar. Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________ 47 3.3.2 Desviación media La desviación media toma en cuenta a todos los valores de un conjunto de datos sea de una población o una muestra, y calcula la sumatoria del valor absoluto de la diferencia de los valores X respecto a la media, dividido para el número de datos. 𝐷𝑀 = ∑ |𝑋 − 𝑋|̅̅ ̅ 𝑛 Ejemplo: En una muestra de 10 clientes, la empresa Pizzas LEO contabilizó el tiempo que se demora en entregar la pizza en sus domicilios. Determine la desviación media y comente al respecto. Clientes 1 2 3 4 5 6 7 8 9 10 Tiempo minutos 18 12 13 15 16 11 17 16 13 10 Desarrollo: Nº cliente X minutos (𝑿 − 𝑿)̅̅̅̅ |𝑿 − 𝑿|̅̅ ̅ �̅� Lim sup Lim inf 1 18 3,90 3,90 14,10 16,40 11,80 2 12 -2,10 2,10 14,10 16,40 11,80 3 13 -1,10 1,10 14,10 16,40 11,80 4 15 0,90 0,90 14,10 16,40 11,80 5 16 1,90 1,90 14,10 16,40 11,80 6 11 -3,10 3,10 14,10 16,40 11,80 7 17 2,90 2,90 14,10 16,40 11,80 8 16 1,90 1,90 14,10 16,40 11,80 9 13 -1,10 1,10 14,10 16,40 11,80 10 10 -4,10 4,10 14,10 16,40 11,80 ∑ = 141 ∑ = 0,00 ∑ = 23,00 n = 10 �̅� = 141/10 = 14,10 minutos 𝐷𝑀 = ∑ |𝑋−𝑋|̅̅ ̅ 𝑛 DM = 23/10 = 2,30 minutos Rango de dispersión o desviación = �̅� ± DM → 14,10 ± 2,30 = [11,80 – 16,40] Utilizando Excel: Representación gráfica: gráfico de dispersión Estadística Descriptiva y Probabilidades Autor: Ing. Leonardo Salvador Pérez, MSc. ___________________________________________________________________________
Compartir