Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Estadística descriptiva y probabilidades. Aplicaciones en la ingeniería y los negocios Colección Textos Universitarios Estadística descriptiva y probabilidades. Aplicaciones en la ingeniería y los negocios Primera edición: junio, 2017 Primera reimpresión: abril, 2018 Tiraje: 700 ejemplares © De esta edición: Universidad de Lima Fondo Editorial Av. Javier Prado Este N.o 4600, Urb. Fundo Monterrico Chico, Lima 33, Perú Apartado postal 852, Lima 100 Teléfono: 437-6767, anexo 30131 fondoeditorial@ulima.edu.pe www.ulima.edu.pe Diseño, edición y carátula: Fondo Editorial de la Universidad de Lima Imagen de portada: Natee K Jindakum / Shutterstock.com Impreso en el Perú Se prohíbe la reproducción total o parcial de este libro, por cualquier medio, sin permiso expreso del Fondo Editorial. ISBN 978-9972-45-392-2 Hecho el depósito legal en la Biblioteca Nacional del Perú n.o 2018- 04506 Estadística descriptiva y probabilidades. Aplicaciones en la ingeniería y los negocios / Rosa Millones, Emma Barreno, Félix Vásquez, Carlos Castillo. Primera edición, primera reimpresión. Lima: Universidad de Lima. Fondo Editorial, 2018. 332 páginas: gráficos, ilustraciones. (Textos Universitarios). Bibliografía: página 311. 1. Estadística descriptiva. 2. Probabilidades (Estadística). 3. Variables aleatorias. 4. Ingeniería - - Estadística aplicada. 5. Negocios - - Estadística aplicada. I. Millones-Rivalles, Rosa, autora. II. Barreno-Vereau, Emma-Virginia, autora. III. Vásquez-Urbano, Félix, autor. IV. Castillo-Crespo, Carlos, autor. V. Universidad de Lima. Fondo Editorial. 519.53 E ISBN 978-9972-45-392-2 Índice 7 Presentación 11 Capítulo 1. Estadística descriptiva 13 1. División de la estadística 15 2. Conceptos básicos 15 3. Descripción tabular y gráfica de variables 17 3.1 Distribución de frecuencias de variable cualitativa 18 3.1.1 Gráfico de barras 18 3.1.2 Gráfico circular 19 3.2 Distribución de frecuencias de variable cuantitativa 25 3.2.1 Distribución de frecuencias de variable cuantitativa discreta 25 3.2.2 Distribución de frecuencias de variable cuantitativa continua 27 3.3 Diagrama de Pareto 38 4. Medidas de tendencia central 40 4.1 Media aritmética (promedio) 41 4.2 Mediana 42 4.3 Moda 42 4.4 Relaciones entre la media, la mediana y la moda 49 5. Medidas de posición 50 5.1 Cuartiles 50 5.2 Percentiles 52 6. Medidas de dispersión 54 6.1 Rango o amplitud 54 6.2 Rango intercuartílico 55 6.3 Varianza 55 6.4 Desviación estándar 56 6.5 Coeficiente de variación 57 7. Medidas de forma 63 7.1 Coeficiente de asimetría 63 7.1.1 Coeficiente de asimetría de Pearson 64 7.1.2 Coeficiente de asimetría de Fisher 64 7.2 Coeficiente de curtosis 64 8. Análisis exploratorio de datos 66 Índice Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios8 8.1 Gráfico de cajas 67 9. Problemas resueltos 71 10. Problemas propuestos 93 Capítulo 2. Probabilidad 107 1. Conceptos básicos 109 1.1 Experimento aleatorio o al azar 109 1.2 Espacio muestral 109 1.3 Suceso 110 1.4 Evento 110 2. Técnicas de conteo 112 2.1 Principio de adición 112 2.2 Principio de multiplicación 113 2.3 Permutaciones 114 2.3.1 Permutaciones de n elementos sin repetición 114 2.3.2 Permutaciones de n elementos sin repetición tomados de k en k 115 2.3.3 Permutaciones con elementos iguales 116 2.4 Combinaciones 117 3. Probabilidad 119 3.1 Introducción 119 3.2 Probabilidad clásica o a priori 119 3.3 Probabilidad relativista 121 3.4 Definición axiomática 122 4. Teoremas de probabilidad 123 4.1 Probabilidad condicional 123 4.2 Teorema de la multiplicación 124 4.3 Teorema de la probabilidad total 125 4.4 Teorema de Bayes 125 4.5 Probabilidad de eventos independientes 128 5. Problemas resueltos 132 6. Problemas propuestos 151 Capítulo 3. Variable aleatoria 157 1. Definición 159 2. Tipos de variables aleatorias 161 2.1 Variable aleatoria discreta 161 2.1.1 Definición 161 2.1.2 Función de probabilidad de una variable aleatoria discreta 161 2.1.3 Función de distribución 164 2.2 Variable aleatoria continua 167 2.2.1 Definición 167 2.2.2 Función de densidad de probabilidad de una variable aleatoria continua 167 2.2.3 Función de probabilidad acumulativa (distribución) 170 Índice 9 3. Esperanza matemática y varianza de una variable aleatoria 171 3.1 Esperanza matemática 171 3.1.1 Definición 171 3.1.2 Propiedades 171 3.2 Varianza 175 3.2.1 Definición 175 3.2.2 Propiedades 175 4. Interpretación de la esperanza matemática, varianza y coeficiente de variación de una variable aleatoria 178 5. Problemas resueltos 181 6. Problemas propuestos 199 Capítulo 4. Distribuciones de probabilidad 207 1. Distribuciones de probabilidad 209 2. Distribuciones de probabilidad de variables aleatorias discretas 209 2.1 Distribución de Bernoulli 209 2.2 Distribución binomial 210 2.3 Distribución hipergeométrica 215 2.4 Distribución de Poisson 221 3. Distribuciones de probabilidad de variables aleatorias continuas 225 3.1 Distribución uniforme continua 225 3.2 Distribución triangular 229 3.3 Distribución normal 231 3.4 Distribución exponencial 240 3.5 Distribución gamma 242 3.6 Relación entre las distribuciones de Poisson, exponencial y gamma 245 3.6.1 Relación de la distribución de Poisson con la distribución exponencial 245 3.6.2 Relación de la distribución de Poisson con la distribución gamma 246 3.7 Distribución de Weibull 246 3.8 Distribución ji-cuadrado 250 3.9 Distribución t de Student 254 3.10 Distribución F de Fisher-Snedecor 256 4. Problemas resueltos 260 5. Problemas propuestos 282 Respuestas a los problemas propuestos 299 Bibliografía 311 Anexos Anexo 1: Resumen de fórmulas de estadística descriptiva 315 Anexo 2: Resumen de fórmulas de probabilidad 316 Anexo 3: Distribuciones notables de probabilidad 317 Presentación 11 Presentación En el mundo actual es imprescindible el uso de herramientas estadísticas que faciliten el procesamiento y comprensión de la información para así desarrollar un pensamiento reflexivo y analítico asociado a la realidad en diversos aspectos del ámbito profesional y social. Para ello, mediante el proceso de enseñanza- aprendizaje, se deben aplicar estrategias que permitan al alumno desarrollar su capacidad para enfrentar con éxito situaciones problemáticas, sintetizándolas en un lenguaje simbólico y gráfico para su mejor resolución. El propósito de este libro es proporcionar a los estudiantes que cursan una primera asignatura de estadística y probabilidad los conocimientos y nociones básicas en esta materia de una manera ágil y de fácil comprensión, a través de nu- merosos y variados ejemplos y problemas resueltos, gran parte de ellos mediante el uso de programas. Al final de cada capítulo se ha incluido un conjunto de pro- blemas propuestos como una herramienta pedagógica que permita desarrollar las habilidades del alumno afianzando los nuevos conocimientos adquiridos y preparándolo para que pueda resolver problemas similares que se le presenten en su vida profesional, tanto en el ámbito de la ingeniería y sus procesos, así como en los negocios y la actividad empresarial. Entendemos que resolver pro- blemas es una habilidad que se adquiere con la práctica, como los deportes, y mediante la metodología propuesta en el presente libro se brinda un sustento y ayuda para que el alumno desarrolle su razonamiento estadístico, el cual le permitirá solucionar los retos que se le presenten en su quehacer profesional. El desarrollo de diversos casos prácticos se puede encontrar en la siguiente dirección electrónica: http://downloads.ulima.edu.pe/fondoeditorial/libros/estaddescr Los temas y la casuística expuestos están basados en los apuntes de clases, así como en la experiencia acumulada, a través de muchos años, dictando la asigna- tura de Estadística y Probabilidad en la Escuela de Ingeniería de la Universidad de Lima. Todas las imágenes y tablas son materiales originales creados por los autores, salvoindicación expresa de lo contrario; con respecto a las capturas, de no indi- carse lo contrario, estas corresponden al software Minitab. El capítulo 1 comprende las definiciones básicas, la organización, tabulación y presentación de datos; las medidas estadísticas de resumen y el análisis ex- ploratorio de datos. Las técnicas de conteo, el cálculo de probabilidades y los teoremas de probabilidad son abordados en el capítulo 2. En el capítulo 3 se desarrolla el tema de distribución de probabilidad de una variable aleatoria, así como la esperanza y varianza que caracterizan a dicha distribución. Finalmente, en el capítulo 4 se consideran las distribuciones especiales de probabilidad. Expresamos nuestro agradecimiento a las autoridades de la Escuela de Inge- niería que han hecho posible la publicación del presente libro que será de gran utilidad para nuestros alumnos y el público interesado. Los autores La estadística es una ciencia necesaria y útil en toda carrera profesional, ya que las técnicas y procedimientos estadísticos son aplicables a características de diferente naturaleza, como, por ejemplo: la ocurren- cia de fallas en un dispositivo, las ventas diarias de una empresa, entre otras. Los datos estadísticos se caracterizan por ser aleatorios, ya que el dato es inesperado y casual; inciertos, es decir, no se tiene cono- cimiento del valor que puede tener; y varia- bles, no constantes. Para la comprensión de los datos estadísticos se debe partir por la organización, presentación y resumen de los mencionados datos. Sabes Capacidades adquiridas 9 Comprender los conceptos básicos de la estadística. 9 Clasificar los tipos de variables. 9 Organizar y representar los datos en forma tabular y gráfica. 9 Calcular las medidas resumen. 9 Determinar la forma de distribución de los datos. Piensas Competencias por lograr 9 Diferenciar entre la estadística descriptiva e inferencial. 9 Utilizar las tablas y gráficas adecua- das según el tipo de variable. 9 Reconocer las situaciones de uso de las diferentes medidas resumen. Haces Habilidades por desarrollar 9 Resumir grandes volúmenes de datos. 9 Aplicar las propiedades de las princi- pales medidas resumen. 9 Interpretar las medidas resumen de acuerdo al contexto de análisis Secciones 1. División de la estadística 2. Conceptos básicos 3. Descripción tabular y gráfica de variables 4. Medidas de tendencia central 5. Medidas de posición 6. Medidas de dispersión (variabilidad) 7. Medidas de forma 8. Análisis exploratorio de datos Conocimientos previos Teoría de conjuntos, manejo de notación matemática. Estadística descriptiva Capítulo 1 Capítulo 1. EstadístiCa dEsCriptiva 15 1. División De la estaDística La estadística se divide en dos grandes ramas: la estadística descriptiva y la estadística inferencial. a. La estadística descriptiva se encarga de la recopilación, organización y presentación de los datos. b. La estadística inferencial se ocupa de analizar e interpretar los resultados de la muestra para generalizarlos a la población que generó la muestra y así tomar decisiones al respecto. La estadística inferencial utiliza concep- tos de probabilidad para realizar el análisis de los datos. En este capítulo se presentan las técnicas de la estadística descriptiva, cuyo objetivo es describir gráfica y numéricamente un conjunto de datos. La esta dística descriptiva aplicada a un conjunto de datos es utilizada para conocer de manera aproximada lo que ocurre en la población, de la que se seleccionó la muestra, en cuanto a su forma (varianza, asimetría, curtosis) y posición (media, mediana, moda). 2. conceptos básicos En esta sección se plantean los conceptos que se usarán frecuentemente en el resto del libro. a. Unidad de análisis. Corresponde a la entidad representativa que será ob- jeto de análisis, el “qué” o “quién” es objeto de interés en un estudio. Pre- sentan una o más características observables de interés. Una unidad de análisis podría ser, por ejemplo, un residente de Lima Metropolitana, una vivienda del distrito de Lince, una microempresa del cono este de Lima Metropolitana, entre otros. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios16 b. Población. Se refiere al conjunto total de unidades de análisis correspon- dientes al estudio que se desea realizar, de los cuales se desea describir su comportamiento y/u obtener conclusiones. La cantidad total de unidades de análisis que tiene una población es denotada por N. c. Muestra. Una muestra es un subconjunto de la población, y debe ser re- presentativa y aleatoria. La muestra es representativa si lo que se necesita conocer de la población está presente en la muestra, es decir, si los datos asociados a la muestra se asemejan a la población en estudio; y es aleatoria porque los datos registrados fueron obtenidos de manera espontánea sin preferencia alguna. Se trabaja a partir de muestras para: i. Reducir el costo y el tiempo de recopilación de datos. ii. Disminuir o eliminar los errores asociados a la manipulación de datos, etc. La cantidad total de observaciones que tiene una muestra es deno tada por n. d. Variable. Una variable es una característica de interés, y se denota prefe- rentemente por cualquiera de las últimas letras del alfabeto. Las variables se pueden clasificar como: i. Cualitativas (Categóricas): Los valores de esta variable corresponden a propiedades, atributos, cualidades, etc. Estas variables se determinan por observación, y a su vez se pueden subdividir en: • Cualitativa nominal: los valores o categorías de esta variable son atributos que no presentan ningún tipo de ordenación o jerarquía. • Cualitativa ordinal: los valores o categorías de esta variable son atri- butos, pero responden a un orden o jerarquía. ii. Cuantitativas: Los valores de esta variable corresponden a valores nu- méricos. Estas variables se determinan por conteo o medición, y a su vez se pueden subdividir en: • Cuantitativa discreta. Se presenta cuando el registro de la variable es resultado de un proceso de conteo, y se representan mediante números naturales, los cuales forman un conjunto finito o infinito numerable. Ejemplos de variables cuantitativas discretas son la can- tidad de televisores que existen en una vivienda familiar, el número de pasajeros que transporta diariamente un bus del Metropolitano. • Cuantitativa continua. Una variable numérica es cuantitativa conti- nua si el valor de la variable se obtiene por medición o comparación con un patrón de medida; pueden adoptar cualquier valor dentro de un rango y se expresa mediante números reales. Ejemplos de este tipo de variable son el ingreso mensual de un ejecutivo, el tiempo de atención en ventanilla de una agencia bancaria, entre otros. e. Parámetro. Es una medida que resume y describe a una característica de la población; su valor se calcula usando todos los datos de la pobla- Capítulo 1. EstadístiCa dEsCriptiva 17 ción. Los parámetros se denotan usando letras griegas (µ, p, s, etc.). En la mayoría de los problemas de análisis de datos, los valores de los pa- rámetros no son conocidos. Ejemplo: media poblacional del consumo mensual de combustible (µ), proporción poblacional de ejecutivos con grado académico de doctor (p), entre otros. f. Estadístico. Un estadístico es una función definida sobre la muestra; me- diante el valor del estadístico se busca conocer el posible valor del pará- metro. El estadístico se caracteriza porque su valor cambia de muestra a muestra, es decir, no es constante, y se espera que su valor difiera muy poco de su respectivo parámetro poblacional. Los estadísticos se denotan por letras latinas: ,x p, s, etc. Ejemplo: media muestral del ingreso men- sual de los practicantes universitarios ( ),x proporción muestral de clientes satisfechos (p), entre otros. En la figura 1 se representa la relación entre población y muestra. 3. Descripción tabular y gráficaDe variables La toma de decisiones depende del análisis de una gran cantidad de datos. Si este conjunto de datos u observaciones no tiene un orden determinado es casi imposible analizarlo. Esto motiva el estudio de procedimientos que resuman la información; en la ejecución de este proceso de resumen se origina un error Figura 1. Relación entre población y muestra. Población de tamaño N Muestra de tamaño N Parámetros: µ : Media poblacional Estadísticos: ,x : Media muestral s2 : Varianza poblacional s2 : Varianza muestral Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios18 (pérdida de información) que debe ser el menor posible. Por otro lado, la des- cripción numérica y gráfica de las variables depende de su tipo; esto significa que cada tipo de variable tiene su particular descripción numérica, así como su propia gráfica. Esta última debe trasmitir en forma clara y precisa la informa- ción que poseen los datos acerca de la población en estudio. 3.1 Distribución de frecuencias de variable cualitativa La descripción numérica de una variable cualitativa, nominal u ordinal, es rea- lizada con la denominada “tabla de distribución de frecuencias”, la cual se abre- viará como TDF. Sea X una variable cualitativa (nominal u ordinal) con k categorías, las cuales son observadas a partir de una muestra de n unidades de análisis; las diferentes categorías de esta variable pueden organizarse de la forma que se aprecia en la tabla 1: Categorías de la variable (Ci) Conteo de observaciones (Oi) Porcentaje (%) (Pi) C1 O1 P1 C2 O2 P2 : : : Ck Ok Pk Total n 100 % Donde: Oi: Número de datos observados en la i-ésima categoría. La suma de los conteos es igual al tamaño de la muestra: 1= =∑ k i i O n. Pi: Porcentaje de datos observados en la i-ésima categoría, respecto al tamaño de muestra: 100= ii O P n %. La suma de los porcentajes es igual a 100 % : 1 100 = =∑ k i i P %. La descripción gráfica de las variables cualitativas puede ser realizada mediante barras (horizontales, verticales), gráficas circulares, entre otros, y permitirán revelar en forma visual los patrones de comportamiento de la variable bajo estudio. 3.1.1 Gráfico de barras Un gráfico de barras es un conjunto de barras (horizontales o verticales) que tienen las siguientes características: a. La cantidad de barras debe ser igual al número de categorías de la variable, deben ser estas categorías mutuamente excluyentes. Tabla 1. Estructura de una TDF para una variable cualitativa. Capítulo 1. EstadístiCa dEsCriptiva 19 b. La altura de cada barra representa al conteo o porcentaje de cada categoría, y el ancho debe ser igual para todas. Las barras deben estar igualmente espaciadas. c. Debe ser fundamentalmente ilustrativo, es decir, tratar de trasmitir al usua- rio, gráficamente y de la mejor forma posible, lo que está ocurriendo en la muestra. 3.1.2 Gráfico circular Un gráfico circular es un círculo dividido en sectores de manera proporcional al conteo o porcentaje de las observaciones. Las características de un gráfico circular son: a. La cantidad de sectores circulares debe ser igual al número de cate gorías de la variable, ellos deben ser mutuamente excluyentes. b. El tamaño de cada sector circular es proporcional al total de la muestra. CASO: Puntualidad de pago de clientes El gerente de una tienda por departamentos ha recopilado datos correspon- dientes a 250 clientes activos que poseen una tarjeta de crédito emitida por la tienda; las variables consideradas para el estudio son las siguientes: Género: Género del cliente Edad: Edad del cliente I. Familiar: Ingreso familiar mensual del cliente L. Crédito: Línea de crédito del cliente Zona: Zona de análisis donde reside el cliente: Lima o Provincias D. Efectivo: Si el cliente ha realizado o no disposición de efectivo durante los últimos 3 meses. N° Visitas: N.° de visitas, en las cuales hizo uso de su tarjeta de crédito, en los últimos 3 meses. M. Compras: Monto de compras, en soles, del cliente durante los últimos 6 meses. M. Ofertas: Monto de compras, en soles, correspondiente a ofertas duran- te los últimos 6 meses. Clasificación: Clasificación del cliente de acuerdo a su puntualidad históri- ca de pagos de la tarjeta: Puntual Anticipado (P. A.), Puntual (P), Impuntual (I) Los datos recopilados se presentan en el archivo del software Minitab Clientes.mtw, y serán de utilidad para algunos ejemplos brindados en el presente capítulo. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios20 Ejemplo 1 En el archivo Clientes.mtw, a partir de los datos correspondientes a la cla- sificación de acuerdo a la puntualidad en los pagos de los 250 clientes en análisis, realice lo siguiente según se indique: a. Obtenga la tabla de distribución de frecuencias. Solución i. Ingresar a Stat> Tables> Tally Individual Variables (véase la figura 2). ii. Seleccionar la variable Clasificación, y elegir las opciones Counts y Percents (véase la figura 3). Figura 2. Acceso al comando Tally Indi- vidual Variables. Figura 3. Cuadro de diálogo del coman- do Tally Individual Variables. Capítulo 1. EstadístiCa dEsCriptiva 21 iii. Presionar el botón OK, luego de lo cual se obtendrá el siguiente reporte: Tally for Discrete Variables: Clasificación Clasificación Impuntual Puntual Puntual anticipado N = Count 55 32 163 250 Percent 22.00 12.80 65.20 Nota: En el reporte obtenido la etiqueta Count representa a los conteos, es decir, al número de clientes correspondientes a cada clasificación, mien- tras que Percent representa a los porcentajes correspondientes. Adecuando las etiquetas se podría tener la siguiente tabla: Clasificación (Ci) Conteo de clientes (Oi) Porcentaje de clientes (%) (Pi) Impuntual 35 22.0 Puntual 32 12.8 Puntual anticipado 163 65.2 Total 250 100 Interpretación: El 22 % de los clientes presentan un pago impuntual, 12 8. % presentan un pago puntual, mientras que un 65 2 . % realizan un pago puntual anticipado. b. Elabore el gráfico de sectores asociados a la variable de estudio. Solución i. Ingresar a Graph> Pie Chart… ii. Elegir la opción Chart count of unique values y seleccionar la variable Clasificación. iii. Presionar el botón Labels… iv. Pulsar sobre la pestaña Slice Labels y seleccionar Category name, Frequency, y Percent (véase la figura 4). Tabla 2. TDF para la variable Clasificación. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios22 Nota: Si se desea personalizar el título de la gráfica se debe ingresar a la pestaña Titles/Footnotes. v. Presionar el botón OK, se obtendrá el gráfico de sectores, y luego de borrar la leyenda, quedará como se muestra en la figura 5. Pie Chart of Clasificación Puntual anticipado 163, 65.2 % Impuntual 55, 22.0 % Puntual 32, 12.8 % Ejemplo 2 En el archivo Clientes.mtw, a partir de los datos correspondientes al ingreso familiar de los clientes en análisis, realice lo siguiente: a. Codifique los ingresos familiares de acuerdo al siguiente criterio: Menos de S/ 2800 : < S/ 2800 De S/ 2800 a menos de S/ 3600 : S/ 2800 – S/ 3600 De S/ 3600 a menos de S/ 4400 : S/ 3600 – S/ 4400 De S/ 4400 a menos de S/ 5200 : S/ 4400 – S/ 5200 De S/ 5200 a más: > = S/ 5200 Figura 4. Cuadro de diálogo del comando Pie Chart: Labels. Figura 5. Gráfico de sectores correspon- diente a la variable Clasificación. Capítulo 1. EstadístiCa dEsCriptiva 23 Solución i. Ingresar a Data> Code> To Text… ii. En Code values in the following columns, seleccionar I. Familiar iii. En Method, seleccionar Code range of values e ingresar los valores de referencia. iv. En Endpoints to include, seleccionar Lower endpoint only de tal forma que el intervalo considere solamente el límite inferior (intervalo cerrado a la izquierda). v. En Storage location for the coded columns, seleccionar In specifiedcolumns of the current worksheet. En Columns, señalar la columna C12. Todo lo señalado se puede apreciar en la figura 6. vi. Presionar el botón OK, luego de lo cual, en la columna C12, se alma- cenarán los resultados de la codificación realizada. Si se desea, se puede asignar una etiqueta a la columna C12, tal como por ejemplo Intervalo ingresos. Figura 6. Cuadro de diálogo del comando Code: To Text. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios24 b. Elabore el gráfico de barras para los resultados de la codificación realizada. Solución i. Ingresar a Graph> Bar Chart… ii. En Bars represent, seleccionar la opción Counts of unique values. Seleccionar el gráfico Simple. Presionar el botón OK. iii. En Categorical variables seleccionar la variable ya codificada Inter valo ingresos. iv. Presionar el botón Chart Options. En Percent and Accumulate, seleccionar la opción Show Y as Percent. Presionar OK. v. Presionar el botón Labels... vi. Seleccionar la pestaña Data Labels y seleccionar Use Y-value labels. Presionar OK (Véase la figura 7). vii. Presionar el botón OK, luego de lo cual se obtendrá el gráfico de barras respectivo tal como se muestra en la figura 8. Figura 8. Gráfico de barras correspondiente a la variable Intervalo ingresos. Figura 7. Cuadro de diálogo del comando Bart Chart: Labels. Capítulo 1. EstadístiCa dEsCriptiva 25 3.2. Distribución de frecuencias de variable cuantitativa En la sección 2 se mencionó que las variables cuantitativas pueden ser discretas o continuas, las cuales presentan una diferente estructura en su tabla de distri- bución de frecuencias. En la interpretación de la distribución de frecuencias de variable cuantitativa y de su correspondiente gráfica deben tenerse presente los siguientes aspectos: a. Simetría de la distribución. b. Variabilidad de los datos. c. Presencia de valores discordantes o extremos (outliers) Aspectos que se explicarán en los puntos posteriores del presente capítulo. 3.2.1 Distribución de frecuencias de variable cuantitativa discreta Sea X una variable cuantitativa discreta, conformadas por k valores diferentes: x1, x2, …, xk–1, xk ; observados a partir de una muestra de tamaño n. Los diferentes valores de la variable pueden organizarse de la forma que se aprecia en la tabla 3: Variable (Xi) Frecuencia Absoluta (fi) Frecuencia absoluta acumulada (Fi) Frecuencia relativa porcentual (hi%) Frecuencia relativa porcentual acumulada (Hi%) x1 f1 F1 = f1 h1 H1= h1 x2 f2 F2 = f2 + F1 h2 H2 = h 2 + H1 : : : : : xk–1 fk–1 Fk–1 = fk–1 + Fk–2 hk–1 Hk–1 = hk–1 + Hk–2 xk fk Fk = fk + Fk–1 = n hk Hk = hk + Hk–1 = 100 % Total n 100 % Donde: fi : Conteo de datos observado por cada valor de la variable. La suma de las frecuencias absolutas es igual al tamaño de la muestra (n): 1 k i i f n. = =∑ hi%: Porcentaje de datos observado por cada valor de la variable. La suma de las frecuencias relativas es igual a la unidad: 1 1 = =∑ k i i h . Generalmente se expresan en porcentaje, entonces la suma es igual al 100 %. Fi: Se obtiene sumando las frecuencias absolutas de los valores inferiores o iguales al valor indicado de la variable. Entonces: 1= = ∑ i j j iF f . La última frecuencia absoluta acumulada es igual al tamaño de la muestra (n). Hi%: Se obtiene sumando las frecuencias relativas de los valores inferiores o iguales al valor indicado de la variable. Entonces: 1= ∑= i j j iH h% %. La última frecuencia relativa acumulada es igual al 100 %. Tabla 3. Estructura de una TDF para variable cuantitativa discreta. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios26 3.2.1.1 Gráfico de bastones El gráfico de bastones es similar a un gráfico de barras utilizado para repre- sentar una variable cualitativa, pero en lugar de una barra se utiliza una línea, también llamada bastón, con una altura que sería proporcional a la frecuencia absoluta o relativa que se desee representar. Ejemplo 3 En el archivo Clientes.mtw se dispone de los datos correspondientes al nú- mero de visitas a la tienda por departamentos en las cuales los clientes hicie- ron uso de su tarjeta de crédito, durante los últimos 3 meses. A partir de los mencionados datos realice lo que se solicite. a. Obtenga la tabla de distribución de frecuencias. Solución i. Ingresar a Stat> Tables> Tally Individual Variables… ii. Seleccionar la variable N.° Visitas, y elegir las opciones Counts, Percents, Cumulative counts, y Cumulative percents. iii. Presionar el botón OK para obtener el siguiente reporte. Tally for Discrete Variables: N° Visitas N° Visitas Count Percent CumCnt CumPct 2 24 9.60 24 9.60 3 17 6.80 41 16.40 4 26 10.40 67 26.80 5 47 18.80 114 45.60 6 34 13.60 148 59.20 7 34 13.60 182 72.80 8 25 10.00 207 82.80 9 32 12.80 239 95.60 10 11 4.40 250 100.00 N= 250 Nota: La etiqueta CumCnt representa la frecuencia absoluta acumulada, y CumPct a la frecuencia relativa acumulada expresada en porcentaje. Interpretaciones: • f2: 17 clientes, durante los 3 últimos meses, han realizado 3visitas a la tienda. • F5: 148 clientes, durante los 3 últimos meses, han realizado hasta 6 visitas a la tienda. • h3%: 10 40 . % de los clientes, durante los 3 últimos meses, ha rea - lizado 4 visitas a la tienda. • H4%: 45 60. % de los clientes, durante los 3 últimos meses, ha realizado hasta 5 visitas a la tienda. Capítulo 1. EstadístiCa dEsCriptiva 27 b. Elabore el gráfico de bastones para el número de visitas. Solución i. Ingresar a Graph> Bar Chart… ii. En Bars represent, seleccionar la opción Counts of unique values. Seleccionar el gráfico Simple. Pulse el botón OK. iii. Seleccionar la variable N.° Visitas. iv. Presionar el botón Chart Options, en Percent and Accumulate selec- cionar la opción Show Y as Percent. Hacer clic en OK. v. Presionar el botón Labels… vi. Seleccionar la pestaña Data Labels y Seleccionar Use y-value labels. Pulsar OK. vii. Seguidamente, Presionar el botón Data View…, desmarcar la opción Bars y Seleccionar la opción Project lines. Pulsar OK. viii. Presionar el botón OK, luego de lo cual se obtendrá el gráfico de bas- tones correspondiente tal como se muestra en la figura 9. Si la variable cuantitativa discreta a representarse en forma tabular o gráfica posee una gran cantidad de valores distintos, entonces esta puede ser trabajada como si fuera una variable cuantitativa continua; cuyo procedimiento se detalla a continuación. 3.2.2 Distribución de frecuencias de variable cuantitativa continua Los siguientes términos básicos deben tenerse presente para la descripción nu- mérica y gráfica de una variable cuantitativa discreta con muchos valores y de una variable cuantitativa continua (datos agrupados): Figura 9. Gráfico de bastones correspon- diente a la variable Número de visitas. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios28 a. Clase: es el conjunto de valores agrupados de la muestra de acuerdo a cierto criterio. b. Intervalo de clase: es el intervalo que contiene a la clase; en el presente texto se trabajarán con intervalos cerrados por la izquierda y abiertos por la derecha: … …〉 [ , . c. Límite superior de clase: límite superior del intervalo de clase; se denota por LS. d. Límite inferior de clase: límite inferior del intervalo de clase; se denota por LI. e. Amplitud de la clase: es el ancho del intervalo, determinado por la di- ferencia entre el límite superior e inferior de la clase. Se trabajarán con intervalos de igual amplitud; se denota por C. f. Marca de clase (yi): La marca de clase es el punto medio del intervalo de clase. Si las clases de una distribución tienen el mismo ancho o amplitud, el intervalo de clase común, denominado intervalo de clase de la distribución; por lo tanto, la diferencia entre dos marcas de clase consecutivases igual a la amplitud. La estructura de la distribución de frecuencias para este tipo de variable se aprecia en la tabla 4: Intervalo (i) Marca de clase (yi) Frecuencia absoluta (fi ) Frec. Absoluta acumulada (Fi ) Frec. Relativa porcentual (hi%) Frec. Relativa porcentual acumulada (Hi%) 1 y1 f1 F1 = f1 h1 H1 = h1 2 y2 f2 F2 = f2 + F1 h2 H2 = h2 + H1 : : : : : : k yk fk n = fk +Fk–1 hk 100 %= hk + Hk –1 Total n 100 % Donde: fi, hi%, Fi y Hi% , se encuentran asociados al i-ésimo intervalo de clase en los que se han dividido los valores de la variable, y representan lo mismo que lo señalado en la TDF para variable cuantitativa discreta. Las consideraciones a tomarse en cuenta en la construcción de una tabla de frecuencias de datos agrupados son: a. Cada observación debe ser estar contenida solo en una clase, es decir, las clases deben ser mutuamente excluyentes. b. En lo posible, las clases deben tener la misma amplitud. c. Tener presente que las marcas de clase representan a todos los valores contenidos en sus respectivas clases. Tabla 4. Estructura de una TDF para variable cuantitativa continua. Capítulo 1. EstadístiCa dEsCriptiva 29 A continuación, se presenta el procedimiento para la construcción de la distribución de frecuencias asociada a la variable cuantitativa continua: Paso 1. Calcular el valor del rango, recorrido o amplitud de los datos con la siguiente fórmula: R = Valor máximo – Valor mínimo Nótese que el rango indica la distancia numérica que separa al valor mínimo hasta el valor máximo de las observaciones. Paso 2. Calcular el número de intervalos (clases) k usando la regla de Sturges, la fórmula es: 101 3 32=k + log n. ( ) El valor de k es común redondearlo al entero más cercano; por ejemplo, para 60=n , resulta 6 8678 7= ≈k . . Lo que se busca en este paso es determinar la can- tidad apropiada de clases en que se debe dividir el rango de datos R. La regla de Sturges no es recomendable utilizarla de manera irrestricta porque proporciona valores de k inapropiados en algunos casos. Un valor pequeño de k condensa excesivamente los datos, perdiéndose información. Por otro lado, un valor gran- de de k, no permite conocer el patrón de comportamiento de las observaciones. Paso 3. Calcular la amplitud de la clase C usando la siguiente fórmula: = RC k Debe tratarse de que C tenga el mismo número de posiciones decimales que poseen los datos. Para facilitar las comparaciones, es preferible trabajar con un valor de C constante para todos los intervalos, salvo en aquellos casos que por la naturaleza misma de los datos no puede hacerse. Verificar que se cumple la condición ≥C k R( )( ) ; lo cual asegura que ninguna observación quede fuera de la distribución de frecuencias. Paso 4. Construir la tabla de distribución de frecuencias considerando el valor mínimo como el límite inferior de la primera clase a distribución de frecuencias. A este límite inferior se le debe agregar el valor de C para obtener el límite su- perior. El límite superior de la primera clase es el límite inferior de la siguiente clase. Continuar agregando C hasta la última clase que señala k. Tenga presente que la interpretación de las clases es cerrada a la izquierda y abierta a la derecha, a excepción del último intervalo que puede ser cerrado por ambos extremos. Figura 10. Rango de un conjunto de datos.Valor mínimo Valor máximo Amplitud Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios30 La distribución de frecuencias presenta el número de observaciones de la muestra que caen dentro de cada una de las clases. El término distribución de frecuencias se abrevia normalmente como distribución. ¿Para qué se estudia la distribución de frecuencias? En estadística, el objeti- vo principal es conocer la población que generó la muestra. Al construir la distribución de frecuencias se busca conocer (estimar) el comportamiento de los datos poblacionales de tal forma que podamos extraer (usando los datos muestrales previamente colocados en la distribución de frecuencias) algunas conclusiones con respecto a lo que realmente ocurre en la población. Los tipos de gráficos más importantes de una tabla de frecuencias de datos agrupados son: a. Histogramas b. Polígono de frecuencias relativas 3.2.2.1 Histograma El histograma es un conjunto de rectángulos, todos ellos, generalmente, del mis- mo ancho (C), y con una altura proporcional a la frecuencia absoluta o relativa. En otras palabras, el área de cada rectángulo, en relación con todos los otros, muestra la proporción del número total de observaciones que ocurren en esa clase. Un histograma que usa las frecuencias relativas, recibe el nombre de histograma de frecuencias relativas, y tiene la misma forma que el histograma de frecuencias absolutas. El procedimiento para la construcción de un histograma es: 1. Trazar dos ejes, un eje para las marcas de clase yi (eje X) y el otro para las frecuencias absolutas o frecuencias relativas. 2. Trazar rectángulos para cada una de las clases consideradas en la tabla de frecuencias, con ancho igual al C y largo proporcional a la frecuencia absoluta (fi) o relativa porcentual (hi%). Los rectángulos, a diferencia del diagrama de barras para variables cualitativas, deben ser adyacentes, es decir, cada barra debe estar junta a la que precede o antecede. En la figura 12 se presentan algunos tipos de histogramas. Figura 11. Clases y sus límites. Valor mínimo Valor máximo Amplitud Clase 2 Clase 3 Clase 4 Límite inferior de la clase Límite superior de la clase Capítulo 1. EstadístiCa dEsCriptiva 31 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 Histogramas normales Histogramas de doble pico 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 100 10 0 10 0 10 0 Histogramas con islas aisladas Histogramas “Cliff” (Precipicio) 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 10 0 Histograma “rueda dentada” El histograma de la muestra debe tener una distribución cuya forma es muy similar a aquella de la población de la cual se tomó la muestra. La principal ventaja del histograma de frecuencias relativas es que permite comparar datos de diferentes tamaños de muestra. 3.2.2.2 Polígono de frecuencias (absolutas o relativas) El procedimiento para la construcción de un polígono de frecuencias (absolutas o relativas) consiste en unir mediante líneas rectas los pares de valores de mar- cas de clase y frecuencias absolutas o relativas: (yi, fi) o (yi, hi%) respectivamente. Luego, añadir clases, con frecuencia cero, en cada extremo de la escala de marcas de clase para cerrar la gráfica y de esta manera obtener el polígono de frecuen- cias. Las principales ventajas de un polígono de frecuencias son: a. Es una representación más sencilla y clara que su histograma correspondiente. b. Ofrece un esquema más claro del patrón de datos. c. El polígono se vuelve cada vez más suave y curvo a medida que crece el número de clases y de observaciones. d. El polígono de frecuencias relativas es utilizado para comparar la distri- bución de frecuencias correspondientes a dos o más poblaciones. Figura 12. Tipos de histogramas. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios32 Ejemplo 4 En el archivo Clientes.mtw se dispone de los datos correspondientes al monto de compras de los clientes, durante los últimos 6 meses. A partir de los mencionados datos realice lo que se solicite. a. Obtenga la tabla de distribución de frecuencias. Solución Paso 1. Determinar el rango de la variable. i. Stat> Basic Statistics> Display Descriptive… ii. Seleccionar la variable M. Compras. iii. Pulsar el botón Statistics, seleccionar Minimum, Maximum, Range, y N total. Presionar el botón OK. Se obtiene el siguiente reporte: Descriptive Statistics: M. ComprasTotal Variable Count Minimum Maximum Range M. Compras 250 1200.0 4530.0 3330.0 El rango de la variable monto de compras es: R = 4530 – 1200 = S/ 3330 Paso 2. Determinar el número de intervalos. i. Cantidad de datos: 250=n ii. 101 3 32 250 8 961 9= + = ≈k . log ( ) . Paso 3. Determinar la amplitud de la clase. 3330 370 9 RC / k S= = = Paso 4. Construir los intervalos. Se tiene en cuenta que el valor mínimo de los montos de compra, duran- te los últimos 6 meses, es de S/ 1200 y la amplitud de los intervalos es S/ 370 para obtener los límites superiores inferiores de cada uno de los 9 intervalos, tal como se presenta en la tabla 5. Intervalo (Ii) Límite inferior Límite superior 1 1200 1570 2 1570 1940 3 1940 2310 4 2310 2680 5 2680 3050 6 3050 3420 7 3420 3790 8 3790 4160 9 4160 4530 Tabla 5. Intervalos para la variable montos de compra. Capítulo 1. EstadístiCa dEsCriptiva 33 Paso 5. Obtener el histograma de la variable monto de compras de acuerdo a los intervalos elaborados y de ahí construir la tabla de distribución de frecuencias correspondiente. i. Graph> Histogram… ii. Seleccionar la opción Simple iii. Seleccionar la variable M. Compras. El histograma obtenido se presenta en la figura 13. El presente histograma cuenta con 18 intervalos, y en el eje horizon- tal aparecen las marcas de clase, lo que el software Minitab denomina como “midpoints”, es decir, los puntos medios de los intervalos. Figura 13. Histograma correspondiente a la variable Monto de compras. Modificar el histograma i. Hacer doble click sobre cualquier co- lumna del histograma. ii. Pulsar sobre la pestaña Binning. iii. Seleccionar Cutpoint, y en Midpoint/ Cutpoint positions señalar el mínimo valor 1200( ) y al límite superior del primer intervalo 1570( ), dejando un espacio vacío entre ambos valores, tal como se muestra en la figura 14. Pulsar OK. iv. Si aparece un cuadro de diálogo con el mensaje Bins extended to encompass all data, pulsar sobre Aceptar. Figura 14. Cuadro de diálogo del comando Histogram – Edit Bars. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios34 v. En el histograma editado presionar el botón derecho del mouse y pul- sar sobre Add, luego sobre Data Labels…, verificar que se encuentre marcada la opción Use y-value labels. Pulsar OK. El histograma ya editado se presenta en la figura 15. A partir de las frecuencias absolutas representadas en el histogra- ma elaborado se obtienen las frecuencias absolutas acumuladas, las frecuencias relativas simples y las acumuladas, tal como se presenta en la tabla 6. Intervalo (Ii) Límite inferior Límite superior Marca de clase (yi) Frecuencia absoluta (fi) Frec. Relativa porcentual (hi%) Frec. Absoluta acumulada (Fi) Frec. Relativa porcentual acumulada (Hi%) 1 1200 1570 1385 16 6.4 16 6.4 2 1570 1940 1755 27 10,8 43 17.2 3 1940 2310 2125 32 12.8 75 30.0 4 2310 2680 2495 38 15.2 113 45.2 5 2680 3050 2865 38 15.2 151 60.4 6 3050 3420 3235 31 12.4 182 72.8 7 3420 3790 3605 28 11.2 210 84.0 8 3790 4160 3975 26 10.4 236 94.4 9 4160 4530 4345 14 5.6 250 100.0 Total = 250 100.0 - - - - - - Figura 15. Histograma editado correspondiente a la variable Monto de compras. Tabla 6. TDF para la variable Monto de compras. Capítulo 1. EstadístiCa dEsCriptiva 35 Interpretaciones: • f6: 31 clientes, durante los 6 últimos meses, han presentado un monto de compras comprendido entre 3050 (inclusive) y 3420 soles. • F4: 113 clientes, durante los 6 últimos meses, han presentado un monto de compras inferior a S/ 2680. • h2%: 10 8 . % de los clientes, durante los 6 últimos meses, han presentado un monto de compras comprendido entre 1570 (inclusive) y 1940 soles. • H7%: 84 0 . % de los clientes, durante los 6 últimos meses, han pre- sentado un monto de compras comprendido entre 1200 (inclusive) y 3790 soles. Las demás frecuencias, aparte de la frecuencia absoluta obtenida en el histograma elaborado, se pueden obtener a través de los cálculos correspondientes, o a través de la modificación del histograma para así visualizar los valores de las demás frecuencias necesarias para com- pletar la tabla. Modificación del histograma i. Dar doble click sobre el eje vertical para que aparezca la ventana de diálogo de edición de escala. ii. Seleccionar la pestaña Type, en dicha pestaña se puede cambiar la es- cala de frecuencia (Frequency) a porcentajes (Percent). iii. Si se desea obtener la presentación de los valores acumulados se debe seleccionar la opción Accumulate values across bins. Por ejemplo, en la figura 16, se presenta las opciones seleccionadas para obtener las frecuencias relativas acumuladas, mientras que en la figura 17 se presentan los resultados obtenidos. Figura 16. Cuadro de diálogo del comando Histogram – Edit Scale. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios36 La tabla de distribución de frecuencias de una variable cuantitativa conti- nua es de datos agrupados porque los datos están formando clases o gru- pos. Nótese también que las clases son igualmente espaciadas. Las marcas de clase yi son los valores representativos de cada clase y serán utilizados en el cálculo de las medidas de tendencia central y de dispersión. b. Obtenga el polígono de frecuencias. Solución i. En el archivo Clientes.mtw, ingresar en las columnas C14 y C15, res- pectivamente, los valores de las marcas de clase y de las frecuencias relativas (en forma de proporción y no como porcentaje); conside- rando unas marcas de clase ficticias antes y después de la primera y úl tima marca de clase respectivamente. Etiquete adecuadamente las columnas empleadas: C14: Marca de clase C15: Frecuencia relativa Nota: Considerar frecuencia relativa cero para marca de clase ficticia, tal como se muestra en la figura 18. Figura 17. Histograma de la variable Monto de com- pras – Frecuencia relativa porcentual acumulada. Capítulo 1. EstadístiCa dEsCriptiva 37 ii. Graph> Scatterplot… iii. Elegir la opción With Connect Line. Pulsar OK. iv. Ingresar los datos tal como aparecen en la figura 19. v. Pulsar el botón Labels… e ingresar a la pestaña Data Labels y seleccio- nar la opción Use y-value labels. Pulsar OK. vi. Pulsar el botón Data View…, se observa que la opción Symbols ya se encuentra seleccionada, en forma adicional se debe seleccionar la op- ción Connect line, tal como se muestra en la figura 20. Pulsar OK. Figura 18. Cuadro de diálogo del comando Scatterplot. Figura 19. Cuadro de diálogo del comando Scatterplot. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios38 vii. Pulsar OK para obtener el polígono de frecuencias asociado a la varia- ble monto de compras, tal como se muestra en la figura 21. 3.3 Diagrama de Pareto El diagrama de Pareto es una gráfica que permite identificar las causas que afec- tan en un porcentaje significativo a un problema. Una vez identificadas las cau- sas se procede a resolverlas para reducir en un gran porcentaje la ocurrencia del problema en estudio. Esto contribuye a mejorar la calidad del producto o servi- cio que se ofrece. El diagrama de Pareto también sirve para separar y atender (o resolver) las causas que son “vitales” de aquellas que son “triviales” lo que permitirá una reducción significativa del problema. Figura 20. Cuadro de diálogo del comando Scatterplot: Data View. Figura 21. Polígono de frecuencias corres- pondiente a la variable Monto de compras. Capítulo 1. EstadístiCa dEsCriptiva 39 Ejemplo 5 En la cafetería de un Centro de Convenciones se viene presentando un alto número de fallas en la prestación del servicio: demoras, quejas, insatisfac- ción, etc. Para determinar las principales causas de estas fallas se realizó un estudio donde se consultaba al personal de atención directo (meseros, super- visores,jefe) e indirecto (personal de cocina y apoyo), así como a los propios clientes sobre cuál era al origen de las fallas en la prestación del servicio. A continuación, en la tabla 7, se presenta un resumen de las causas identifica- das, y la frecuencia con que fueron mencionadas. Cód. Descripción Frecuencia A Alto número de clientes 28 B Cocinas domésticas, no industriales 5 C Demora del mesero en la toma del pedido 19 D Doble ingreso de pedido del cliente 1 E Equipo de cómputo con deficiencias 5 F Error de digitación de pedido del cliente 23 G Falta de orden en el ambiente de la cocina 6 H No se cuenta con insumos suficientes 28 I No se verifica la boleta antes de imprimirla 3 J Pocas mesas de atención 2 a. Obtenga el diagrama de Pareto asociado a las causas de las fallas en el servicio. Solución i. Ingresar los datos proporcionados en una hoja de trabajo del software Minitab. ii. Ingresar a Stat> Quality Tools> Pareto Chart… iii. Completar el cuadro de diálogo tal como se presenta en la figura 22. Tabla 7. Resumen de las opiniones recabadas sobre las causas de las fallas en el servicio. Figura 22. Cuadro de diálogo del comando Pareto Chart. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios40 En Defects or attribute data in se puede seleccionar la columna C1 Cód., tal como se presenta en la figura 22, o se puede seleccionar la co- lumna C2 Descripción. Lo preferible es trabajar con etiquetas cortas, tal como aparece en la columna C1, ya que, si se utilizan etiquetas exten- sas, como la descripción completa de las causas, estas ocupan demasia- do espacio en la gráfica, reduciendo el espacio para el propio diagrama de Pareto. En la figura 23 se aprecia el diagrama obtenido. b. Indique cuáles son las principales causas detectadas en las fallas del servi- cio de la cafetería en el Centro de Convenciones. Solución [A] Alto número de clientes 23 3 .( %), [H] No se cuenta con insumos su- ficientes 23 3 .( %), [F] Error de digitación de pedido del cliente 19 2 ( . %) y la [C] Demora del mesero en la toma del pedido 15 8 .( %). Causas que en conjunto representan el 81 7 . % de las causas señaladas por los informantes. 4. MeDiDas De tenDencia central Las medidas de tendencia central cuantifican la forma de agrupamiento o ten- dencia de los datos respecto a ciertos valores. Las medidas de tendencia cen- tral pueden calcularse para la población (bajo ciertas condiciones) como para la muestra. La relación entre las medidas de tendencia central calculadas en la muestra (estadísticos) y sus correspondientes medidas de tendencia central a nivel de población (parámetros) radica en que los valores de los estadísticos son utilizados para estimar los valores de los parámetros. Las principales medidas de tendencia central de una muestra (a nivel de población también existen y se denominan parámetros) son: Figura 23. Diagrama de Pareto para las causas de las fallas en el servicio. Capítulo 1. EstadístiCa dEsCriptiva 41 a. Media o promedio aritmético. b. Mediana. c. Moda. Para cada medida de tendencia central se tienen fórmulas para calcular sus valores dependiendo si los datos están o no agrupados. A continuación, se pre- sentan las medidas de tendencia central que se calculan en una muestra. 4.1 Media aritmética (promedio) La media muestral es un punto de equilibrio entre los valores que están por debajo y por encima de ella. La media muestral, o simplemente media, si no hay confusión alguna, se denota por x . Los tipos de media muestral son: a. Media simple. b. Media ponderada. Las fórmulas para calcular la media son: Datos no agrupados Datos agrupados Media simple 1= ∑ = n i i x x n Media 1= ∑ = k i i i y f y n = 1= ∑ k i i i y h Donde: yi son los valores de la variable o las marcas de clase fi son las frecuencias absolutas hi son las frecuencias relativas Media ponderada 1 1 = = ∑ = ∑ k i i i k i i w x x w Donde: wi son los pesos o ponderaciones. Las propiedades de la media muestral son: a. La media es única, puede asumir cualquier valor real y siempre existe. b. Si i iy x a,= ± entonces y x a,= ± para a constante. c. Si i iy ax ,= entonces y ax.= d. Si una muestra se divide en k submuestras de tamaño ni para cada submuestra; la media de la muestra es igual a la suma de las medias pon- deradas de las submuestras, dividido entre el tamaño de muestra total: 1 1 1 2 2 1 = = ∑ + + + = = ∑ k i i i k k k i i x n x n x n x n x nn ... . Lo señalado se conoce como media de medias. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios42 e. 1 0 = − =∑ n i i x x( ) f. La media es afectada por los valores extremos. 4.2 Mediana La mediana se define como el valor que divide en dos partes iguales al conjunto ordenado de observaciones. La mediana se denota por Me y se calcula de la si- guiente manera: Datos no agrupados Datos agrupados a. Ordenar los datos de menor a mayor, x(1), x(2), …, x(n) b. Si n es impar, entonces la mediana es: 1 2 + = nMe x Si n es par, entonces la mediana es: 1 2 2 2 + + = n nx x Me x(i) es el valor de la i-ésima observación después de que los datos han sido ordenados a. Calcule n/2 para ubicar la clase mediana. b. Luego, aplique la siguiente fórmula 12 − − = + Me Me Me n F Me LI C f donde: i) LIMe es el límite inferior de la clase donde se encuentra la mediana ii) FMe-1 es la frecuencia acumulada absoluta de la clase anterior a la clase donde se encuentra la mediana. iii) fMe es la frecuencia absoluta de la clase donde se en- cuentra la mediana. Las propiedades de la mediana son: 1. La mediana es única y siempre existe. 2. Si = ±i iy x a, entonces = ±Me y Me x a( ) ( ) , para a constante. 3. Si =i iy ax , entonces =Me y a Me x( ) ( ), para a constante. 4. La mediana no es afectada por los valores extremos. Esta propiedad signi- fica que la mediana debe ser usada en lugar de la media cuando se tengan datos con valores extremos. Esta propiedad de la mediana es conocida como robustez. 5. La mediana puede asumir cualquier valor real. 4.3 Moda La moda se define como el valor de la variable que posee la mayor frecuencia; también es conocida como el valor más común o el valor típico de las observa- ciones. La moda se denota por Mo y se calcula de la siguiente manera: Capítulo 1. EstadístiCa dEsCriptiva 43 Datos no agrupados a) Determine el valor que posee la mayor frecuencia. b) En caso de existir más de un valor con la mayor frecuencia, en- tonces, todos esos valores son considerados valores modales. Las propiedades de la moda son: a. A diferencia de la media y de la mediana, la moda se puede calcular para datos cuantitativos y para datos cualitativos. b. La moda puede o existir para un conjunto de datos, y de existir no siempre es única. c. La moda no es afectada por los valores extremos. d. La moda puede asumir cualquier valor real. e. La moda debe ser utilizada cuando se desea reportar el valor de la variable que posee la mayor posibilidad de ocurrencia. CASO: Financiera En una agencia financiera se dispone de 10 cajeros destinados a la atención al público, cuando cada uno de ellos termina sus labores realiza el cierre de caja correspondiente. Los tiempos empleados, en minutos, por cada uno de los cajeros al momento de realizar el cierre correspondiente al día anterior se presentan a continuación: 25 19 25 24 27 25 22 26 20 23 La entidad financiera tiene un contrato con una institución de educación superior, y durante la presente semana debe recabar los pagos de pensiones de los alumnos ingresantes en el presente período académico. Los mencio- nados pagos se presentan en 5 categorías distintas. A continuación, se pre- senta la distribución de los pagos realizados por los primeros 81 ingresantes: Categorías de pensiones Monto de pago (S/) ( yi ) N.° de ingresantes( fi ) A 380 7 B 420 15 C 470 28 D 540 21 E 600 10 Total 81 Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios44 Ejemplo 6 En relación al caso Financiera, se solicita lo siguiente con respecto a los tiem- pos empleados: a. En forma manual, calcule el tiempo promedio diario empleado en el cierre de caja por parte de los cajeros de la entidad financiera. Solución Aplicando la fórmula: 1 25 19 25 24 27 25 22 26 20 23 23 6 10 n i i x x n .= ∑ + + + + + + + + + = = = Interpretación: El promedio de los tiempos empleados para el cierre de caja por parte de los 10 cajeros es de 23 6. minutos. b. En forma manual, determine el valor de la mediana asociada al tiempo empleado diariamente en el cierre de caja por parte de los cajeros de la entidad financiera. Solución Para calcular la mediana se aplica el siguiente procedimiento: i. Ordenar los datos de menor a mayor: 19 20 22 23 24 25 25 25 26 27 x(1) x(2) x(3) x(4) x(5) x(6) x(7) x(8) x(9) x(10) ii. Como el número de datos (n) es par, entonces se identifican los dos valores centrales para calcular la mediana: 10 101 1 5 62 2 2 2 24 25 24 5 2 2 2 2 n nx x x x x x Me x ( ) ( )( ) . + + + + + + = = = = = Interpretación: El 50 % de los cajeros presentó tiempos de cierre de a lo más 24 5. minutos, mientras que el restante 50 % presentó tiempos de cierre de por lo menos 24 5. minutos. c. En forma manual, determine el valor de la moda asociada al tiempo em- pleado diariamente en el cierre de caja por parte de los cajeros de la enti- dad financiera. Solución Para determinar el valor de la moda solamente se debe identificar el valor que más se repite en la serie de datos, de lo cual se observa que un tiempo de 25 minutos fue el tiempo de cierre presentado por un mayor número de cajeros ( 3 en total). Capítulo 1. EstadístiCa dEsCriptiva 45 Por lo tanto: 25=Mo x( ) Interpretación: El tiempo de cierre que más frecuentemente se repite entre los cajeros fue de 25 minutos. d. Haga uso del software Minitab para obtener los valores de la media, mediana y moda. Solución Para calcular los valores de la media, la mediana y la moda mediante el software Minitab, se deben ingresar los datos en una columna y luego apli- car el siguiente procedimiento: i. Digite los datos en la columna C1, y etiquételos como Tiempo cierre. ii. Ingresar a Stat> Basic Statistics> Display Descriptive Statistics… iii. Seleccionar la variable Tiempo cierre iv. Presionar el botón Statistics… v. Seleccione las siguientes estadísticas descriptivas: mean (media), median (mediana), y mode (moda). Pulse el botón OK vi. Presionar el botón OK. El reporte obtenido se presenta a continuación: Descriptive Statistics: Tiempo cierre N for Variable Mean Median Mode Mode Tiempo cierre 23.600 24.500 25 3 Figura 24. Cuadro de diálogo del comando Display Descriptive Statistics: Statistics. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios46 Ejemplo 7 En relación al caso Financiera, se solicita lo siguiente con respecto a los montos de pago, en soles, de los 81 ingresantes a la institución de educación superior: a. Calcule el monto promedio, por concepto de pago de pensiones, que la financiera recabó por cada ingresante. Solución Debido a que los datos se presentan en una tabla resumen, para calcular el monto promedio se debe utilizar la fórmula de la media ponderada: 1 380 7 420 15 470 28 540 21 600 10 487 16 7 15 28 21 10 k i i i y f M y n ( ) ( ) ( ) ( ) ( )( ) .= ∑ + + + + = = = = + + + + Y Interpretación: El promedio de los montos por concepto de pago de pen- siones es de S/ 487 16. . a.1 Todos los ingresantes además realizaron un pago por concepto de un curso de informática, el cual tenía un costo único de S/ 90, ¿cuál es el promedio del monto de pago incluyendo el pago por el mencionado curso?, y ¿cuál sería el monto total del pago recibido por parte de los 81 ingresantes? Solución Y * : Monto de pago incluyendo el curso Y * = Pago pensión + Pago curso 90Y Y⇒ = +* Monto promedio de pago incluyendo el pago del curso: 90 90 487 1 577 166 90M M = M / *( ) ( ) ( ) . S .= + = + =Y Y + Y Monto total del pago recibido por los 81 ingresantes: 1= ∑ k i i i y f* Como: 1 1 81 577 16 81 46 750 81 k i i ki i i i y f M y f M * * * *( ) ( )( ) . ( )= = ∑ = ⇒ = =∑ ≈Y Y a.2 Los montos de pago por concepto de pensiones se incrementarán en un 5 % a partir del próximo mes, en cada una de las categorías de pago. Si ya se hubiera efectuado el mencionado incremento, ¿cuál hubiera sido el nuevo monto promedio por concepto de pago de pensiones? Solución W: Nuevo monto de pago considerando el incremento del 5 % 1 0 05 Y= +W ( . ) Nuevo monto promedio: 1 05 1 05 1 05 487 16M W M M( ) ( . ) . ( ) . ( . )= = = =Y Y S/ 511 52. Capítulo 1. EstadístiCa dEsCriptiva 47 b. Determine e interprete los valores de la mediana y la moda correspon- dientes a los montos por concepto de pago de pensiones. Solución Mediana: Para determinar el valor de la mediana se aplica el siguiente procedimiento: i. Determinar las posiciones que ocupan cada uno de los datos, los cuales ya aparecen en forma ordenada en la tabla resumen, para lo cual se obtienen las frecuencias absolutas acumuladas: Monto de pago (S/) (xi) N.° de ingresantes (fi) N.° acumulado ingresantes (Fi) 380 7 7 420 15 22 470 28 50 540 21 71 600 10 81 Total 81 ii. Como el número de datos n( ) es impar, entonces, se identifica el valor central: 411 81 1 2 2 470+ + = = = =nMe X x x x( )( ) Nota: El tercer valor de los 5 distintos montos de pago 3 470=x ( ) corresponde, de acuerdo a las frecuencias acumuladas, a los valores ordenados desde la posición 23 a la posición 50 de los 81 pagos reci- bidos ( 23x( ) a 50x ). Interpretación: El 50 % de los ingresantes realizó pago por concepto de pensiones fue por un monto de a lo más S/ 470, mientras que el restan- te 50 % realizó pagos de por lo menos S/ 470. Moda: Para determinar el valor de la moda se observa el valor que más se repite, es decir, el que presenta mayor frecuencia, siendo dicho valor el de S/ 470. Por lo tanto: 470=Mo x( ) Interpretación: El monto por concepto de pago de pensiones que más frecuentemente realizaron los ingresantes fue de S/ 470. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios48 Escenario: Caso Financiera La entidad financiera también realiza la compra y venta de moneda ex- tranjera, y durante el presente día se han realizado 200 transacciones de compra de euros. Los montos asociados a las compras de euros se resumen en la siguiente tabla de distribución de frecuencias: Intervalo (Ii) Monto de euros comprados (€) Frecuencia absoluta (fi) Límite inferior Límite superior Marca de clase (yi) 1 0 600 300 16 2 600 1200 900 32 3 1200 1800 1500 68 4 1800 2400 2100 44 5 2400 3000 2700 28 6 3000 3600 3300 12 Total 200 Ejemplo 8 En relación al escenario presentado sobre las 200 transacciones de compra de euros, se solicita lo siguiente: a. Calcule el monto promedio de euros comprados por cada transacción. Solución Debido a que los datos se presentan en una tabla resumen para datos agrupados, se debe utilizar la fórmula correspondiente y trabajar con la marca de clase y las frecuencias absolutas: 1 300 16 900 32 1500 68 2100 44 2700 28 3300 12 16 32 6 1 8 44 28 12 716 k i i k y f y n ( ) ( ) ( ) ( ) ( ) ( )= ∑ + + + + + = = = + + + + + Interpretación: El promedio de los montos de compra en cada transacción es de 1716 euros. b. Calcule la mediana asociada al monto de euros comprados por cada tran- sacción. Solución Para determinar el valor de la mediana se aplica el siguiente proce dimiento: i. Obtener las frecuencias absolutas acumuladas.Capítulo 1. EstadístiCa dEsCriptiva 49 Intervalo (Ii) Monto de euros comprados (€) Frecuencia absoluta (fi) Frec. Absoluta acumulada (Fi) Límite inferior Límite superior Marca de clase (yi) 1 0 600 300 16 16 2 600 1200 900 32 48 3 1200 1800 1500 68 116 4 1800 2400 2100 44 160 5 2400 3000 2700 28 188 6 3000 3600 3300 12 200 Total 200 ii. Identificar el intervalo mediano, el cual es el intervalo cuya frecuencia acumulada sea mayor o igual a la mitad de los datos que conforman la muestra. Determinar i, tal que 200 100 2 2 ≥ = =i nF . Se observa que 3 116 100 1200 1800= ≥ ⇒ 〉F [ , es el intervalo mediano. iii. Aplicar la fórmula correspondiente. 1 100 482 120 1658 820 600 68 Me Me Me n F Me y LI c f - ,( ) − − = + = + = Interpretación: El 50 % de las transacciones implicó la compra de a lo más 1656 8, euros, mientras que el restante 50 % implicó la compra de por lo menos el mencionado valor. 4.4 Relaciones entre la media, la mediana y la moda Si la variable en estudio es cuantitativa, el cálculo de ,x Me y Mo se realizan de la manera indicada en las secciones anteriores. Las relaciones entre estas medi- das de tendencia central se presentan en la figura 25. Media = Mediana = ModaMedia > Mediana > Moda Media < Mediana < Moda Figura 25. Relaciones entre la media, la me- diana y la moda. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios50 5. MeDiDas De posición Las medidas de posición dividen al conjunto de datos, previamente ordenado, en grupos con determinada cantidad de observaciones. Las principales medidas de posición son: a. Cuartiles. b. Percentiles. 5.1 Cuartiles Los cuartiles son valores que dividen al conjunto ordenado de observaciones en cuatro partes iguales. Los cuartiles son denotados por Q1, Q2 y Q3. La figura 27 representa el significado de los cuartiles. Obsérvese que el 25 % de las observaciones son menores que Q1 y el 75 % de observaciones son al menos igual a Q1. También nótese que Q2 asume el mismo valor de la mediana (Me) y su interpretación es la misma, es decir, 50 % de las observaciones son menores que la mediana y 50 % de las observaciones son ma- yores que la mediana. Por otro lado, el 75 % de las observaciones son menores que Q3 y el 25 % son mayores que Q3. Q1 Q2 Q3 25 % 25 % 25 % 25 % 50 % 50 % 75 % Figura 26. Cuartiles y porcentajes de ob- servaciones. Capítulo 1. EstadístiCa dEsCriptiva 51 CASO: Patio de juegos El Gerente de una cadena de juegos infantiles y familiares se encuentra analizando las actividades diarias de tres de sus principales locales ubi- cados en modernos centros comerciales de Lima Metropolitana. Entre las principales características en estudio se encuentran las siguientes: – Número de niños por grupo (grupo familiar o grupo de amigos) que ingresan simultáneamente al patio de juegos. – Tiempo de permanencia, en minutos, del grupo de niños. – Monto total gastado, en soles (S/), por el grupo de niños (tickets, canjes, etc.). – Número de juegos totales utilizados por el grupo de niños. Se ha recabado los datos correspondientes a 220 grupos de niños, los cuales se presentan en el archivo: Juegos.mtw. Ejemplo 9 En el archivo Juegos.mtw, a partir de los datos correspondientes al número de niños por grupo, así como al número de juegos totales utilizados, realice lo solicitado: a. En relación al número de niños por grupo, obtenga los valores correspon- dientes al primer y al tercer cuartil, y su interpretación. Solución i. Ingresar a Stat> Basic Statistics> Display Descriptive Statistics… ii. Seleccionar la variable N.° de niños iii. Presionar el botón Statistics… iv. Seleccione las siguientes estadísticas descriptivas: first quartile (primer cuartil), y third quartile (tercer cuartil). Pulse el botón OK v. Presionar el botón OK El reporte obtenido se presenta a continuación: Descriptive Statistics: N.° de niños Variable Q1 Q3 N° de niños 2.250 4.750 Interpretación: • El 25 % de los grupos familiares o grupos de amigos ingresó con me- nos de 3niños al patio de juegos ( .2.25)≤ • El 75 % de los grupos familiares o grupos de amigos ingresó con me- nos de 5 niños al patio de juegos ( 4.75 .)≤ Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios52 Nota: El cuartil 1 divide a un 25 % inferior y a un 75 % superior, asimis- mo, el cuartil 3 divide a un 75 % inferior y a un 25 % superior; por lo tanto, se pueden brindar las siguientes interpretaciones equivalentes: • El 75 % de los grupos familiares o grupos de amigos ingresaron con por lo menos 3 niños al patio de juegos ( .2.25)≥ • El 25 % de los grupos familiares o grupos de amigos ingresaron con por lo menos 5 niños al patio de juegos ( 4.75 .)≥ b. Para el local de Santiago de Surco, señale el número de juegos por debajo del cual se encuentra el 25 % de los grupos de niños con menor cantidad de juegos utilizados. Solución Proceder de similar manera que el ítem anterior (a) y desagregar por la variable Local (By variables). El reporte obtenido se presenta a continuación: Descriptive Statistics: Nº juegos Variable Local Q1 Nº juegos Independencia 4.000 Santa Anita 6.000 Santiago de Surco 3.000 Conclusión: En el local de Santiago de Surco el 25 % de los grupos de niños utilizaron a lo más 3 juegos. 5.2 Percentiles Los percentiles xp(p = 1, 2, ..., 99) dividen al conjunto ordenado de datos en 100 partes iguales. De tal forma que p% de las observaciones son menores que el percentil xp y (100 – p)% de observaciones son al menos iguales a xp. Los percen- tiles son importantes en áreas como investigación de mercados pues permiten la segmentación de estos. En el presente texto, la obtención de los cuartiles y percentiles se trabajará a partir de la base de datos mediante el uso del software Minitab. Ejemplo 10 En el archivo Juegos.mtw, a partir de los datos correspondientes al tiempo de permanencia, calcule los percentiles P35 y P65. Solución i. Etiquetar a la columna C8 como k y en dicha columna digitar los valores de asociados a los percentiles solicitados: 0 35. y 0 65. , para los percentiles P35 y P65, respectivamente. Capítulo 1. EstadístiCa dEsCriptiva 53 ii. Ingresar a Calc> Calculator… iii. En Store result in variables señalar a la columna C9 iv. En Expression ingresar y editar la función del percentil (Percentile), la cual se puede buscar en Functions. La edición de la función se puede apreciar en la siguiente figura: Figura 27. Cuadro de diálo- go del comando Calculator: Percentile. Nota: Si solamente se deseaba obtener un percentil, entonces, se podría omitir el trabajo con la columna k, y editar la función, por ejemplo, de la siguiente forma: PERCENTILE(‘Tiempo’,0.35) v. Presionar el botón OK. El resultado aparecerá en la columna C9 que fue seleccionada, tal como aparece en la siguiente figura: Los valores de los percentiles son: 35 50 235=P . y 65 56 3=P . ; los cuales indican que el 35 % y 65 % de los grupos de niños permanecieron a lo más 50 235. y 56 3. minutos respectivamente. Figura 28. Resultados del comando Calculator: Percentile. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios54 6. MeDiDas De Dispersión Las medidas de dispersión son valores que sirven para cuantificar la homo- geneidad (uniformidad, variabilidad) de los datos, es decir, sirven para medir la proximidad que tienen los datos entre sí. Las medidas de dispersión también son conocidas como medidas de variabilidad. Para el cálculo de algu- nas de las medidas de dispersión se toma un punto de referencia que general- mente es la media. Las medidas de dispersión a nivel de la muestra (a nivel de la población tam- bién existen las mismas medidas) son: a. Medidas de dispersión absolutas: i. Rango o Amplitud. ii. Rango intercuartílico.iii. Varianza iv. Desviación estándar Se denominan medidas de dispersión absolutas porque presentan si- milares unidades de medida que poseen las observaciones. b. Medidas de dispersión relativa: Coeficiente de variación. Se denomina medida de dispersión relativa porque no tiene unidades de medida. Siempre debe usarse, como mínimo, una medida de ten- dencia central y una medida de dispersión para describir el comportamiento de un conjunto de datos. 6.1 Rango o amplitud El rango muestral es la medida de dispersión más simple y se denota por R; el rango es la primera medida de dispersión que debe usarse porque permite cono- cer el intervalo de variación de los datos. Las fórmulas para calcularlo se indican a continuación. Datos no agrupados Datos agrupados R = Valor máximo – valor mínimo 1= −kR LS LI Las propiedades del rango muestral son: a. Fácil de calcular. b. El rango siempre asume valores positivos. c. La principal desventaja del rango es que no describe la variabilidad de los datos que se encuentran comprendidos entre los valores mí- nimo y máximo. Capítulo 1. EstadístiCa dEsCriptiva 55 6.2 Rango intercuartílico La diferencia entre el tercer y el primer cuartil 3 1Q Q( – ) es conocido como el rango (o amplitud) intercuartílico; dentro del mencionado rango se encuentra el 50 % central de las observaciones. Las propiedades del rango intercuartílico son: a. El rango intercuartílico siempre asume valores positivos. b. El rango intercuartílico se utiliza cuando se presentan datos discordantes. c. El rango intercuartílico no se ve afectado por la existencia de datos discordantes. 6.3 Varianza La desviación de una observación con respecto a la media se define como: ix x ,− y puede asumir valores positivos o negativos dependiendo si el valor ix se en- cuentra por encima o por debajo de la media. La figura 29 ilustra este concepto. La varianza muestral 2( )S cuantifica la dispersión de los valores ix con res- pecto a .x Las fórmulas para calcular el valor de 2S se presentan a continuación: Datos no agrupados Datos agrupados ( ) 22 2 12 1 1 1 == −∑−∑ = = − − nn ii ii x nxx x S n n 22 12 1 = −∑ = − k i i i y f ny S n La varianza muestral asume un valor grande cuando los valores ix se alejan del promedio y un valor pequeño cuando los valores ix se ubican alrededor del promedio. Las propiedades de la varianza muestral son: a. La varianza muestral 2S es única y siempre existe. b. La varianza muestral 2S siempre es positiva. c. Si = ±i iy x a, entonces = 2 2 y xS S , para a constante. Figura 29. Desviación de una observación con respecto a la media. Desviación negativa Desviación positiva −iX X −kX X ix x kx Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios56 d. Si yi = axi, entonces, 2 2 2 y xS a S= , para a constante. e. La varianza muestral 2S es afectada por los valores extremos. f. El mayor inconveniente de la varianza muestral 2S es que su unidad de medida es el cuadrado de la unidad de medida de los datos originales. 6.4 Desviación estándar La desviación estándar muestral, denotada por S, cuantifica la dispersión de los datos xi con respecto a la media. La fórmula para calcular el valor de la desvia- ción estándar muestral S es la misma para datos agrupados y no agrupados y se define como: 2=S S Donde: 2S es la varianza muestral calculada previamente para datos agrupa- dos o no agrupados. La desviación estándar muestral es la medida de dispersión más utilizada junto con la media muestral ( x ). Estas dos medidas descriptivas poseen un con- junto de propiedades estadísticas que las hacen de suma utilidad en el análisis de datos. Las propiedades de la desviación estándar muestral son: a. La desviación estándar muestral S es única y siempre existe. b. La desviación estándar muestral S siempre es positiva. c. Si = ±i iy x a , entonces, =y xS S para a constante. d. Si =i iy ax , entonces, =y xS aS , para a constante. e. La desviación estándar muestral S es afectada por los valores extremos. f. La desviación estándar muestral S tiene su unidad de medida igual a la unidad de medida de los datos originales, esta propiedad la hace útil para analizar la dispersión de los datos. g. En el caso de que se desee comparar la variabilidad de dos o más con- juntos, la desviación estándar muestral S puede usarse únicamente si se cumplen las siguientes dos condiciones: i. Los conjuntos de datos a comparar tienen las mismas unidades de medida. ii. Las medias muestrales de los conjuntos de datos tiene valores próxi- mos entre sí. Si no se cumplen estas condiciones, no debe usarse S como medida de comparación. Capítulo 1. EstadístiCa dEsCriptiva 57 6.5 Coeficiente de variación El coeficiente de variación, denotado por C.V., cuantifica la dispersión relativa que tienen los datos expresándola como el porcentaje de la desviación estándar (S) con respecto al valor absoluto de la media x( ), es decir, si x es el 100 %, entonces el coeficiente de variación es el porcentaje de la desviación estándar muestral con respecto a x. Luego, 100= SC V x . . % La fórmula de cálculo de C.V. es la misma para datos agrupados y no agrupados. Las propiedades del coeficiente de variación son: a. El coeficiente de variación no tiene unidad de medida. b. El coeficiente de variación es útil para juzgar si un conjunto de datos es homogéneo o heterogéneo. Para este fin, se deben utilizar valores de referencia. Algunos autores hacen uso de valores de referencia, que se muestran en la tabla 8, para interpretar el valor del coeficiente de variación: Valor del C.V. Interpretación 0 5< ≤C V. . Los datos son muy homogéneos. 5 10< ≤C V. . Los datos son homogéneos. 10 15< ≤C V. . Los datos son regularmente homogéneos. 15 20< ≤C V. . Los datos son regularmente heterogéneos. 20 25< ≤C V. . Los datos son heterogéneos. 25 < C V. . Los datos son muy heterogéneos. c. El coeficiente de variación es útil para comparar la dispersión de dos o más conjuntos de datos que tienen los mismos o diferentes unidades o promedios. d. Si = −i iy x a, entonces, >y xC V C V. . . . , y si = +i iy x a, entonces, <Z XC V C V. . . . , para a constante. e. Si =i iy ax , entonces, =y xC V C V. . . . . Tabla 8. Valores de refe- rencia para la interpreta- ción del coeficiente de variación. Estadística dEscriptiva y probabilidadEs. aplicacionEs En la ingEniEría y los nEgocios58 Ejemplo 11 El monto de consumo efectuado por los primeros 6 clientes de una heladería ubicada dentro de un centro comercial se muestran a continuación: 33 12 24 18 35 16 a. En forma manual, calcule el rango de los montos de consumo por parte de los primeros 6 clientes. Solución Max 35= , Min 12= Rango = Max – Min 35 12 23= =– Interpretación: La diferencia entre el mayor y menor monto de consumo, de los primeros 6 clientes, fue de S/ 23. b. En forma manual, determine el valor de la varianza y de la desviación estándar asociados a los montos de consumo. Solución Realizando los cálculos previos: 6 1 33 12 24 18 35 16 23 6 6 = ∑ + + + + + = = = i i x x 6 2 2 2 2 2 2 2 1 33 12 24 18 35 16 3614 = = + + + + + =∑ i i x Aplicando la fórmula de la varianza: 2 2 2 12 23614 6 23 88 1 6 1 = −∑ − = = = − − n i i x nx S n ( ) soles Obteniendo la respectiva desviación estándar: 2 88 9 38= = ≈S S /.S . Interpretación: La dispersión de los montos de consumo, con respecto a su valor promedio es de S/ 9 38. . c. En forma manual, determine e interprete el valor del coeficiente de varia- ción de los montos de consumo. Solución A partir de los valores ya calculados, se tiene que: 9 38100 100 40 78 23 = = ≈ SC V x .. . % % . % Interpretación: Los montos de consumo presentan valores muy heterogé- neos, es decir, son muy distintos entre sí. Capítulo 1. EstadístiCa dEsCriptiva 59 CASO: Cable TV Una empresa que brinda el
Compartir