Vista previa del material en texto
particular. Por ejemplo, la figura 2-4 muestra que 37 de los valores del nivel de cotinina son menores que 299.5. Gráficas de puntos Una gráfica de puntos consiste en una gráfica en donde se marca cada valor de un dato como un punto a lo largo de una escala de valores. Los puntos que re- presentan valores iguales se amontonan. Observe la figura 2-5, que representa la duración de películas de dibujos animados para niños, que se listan en el conjunto de datos 7 del Apéndice B. Por ejemplo, los dos puntos que aparecen a la izquierda representan el valor de 64 minutos, que ocurre dos veces en el conjunto de datos 7. En esta gráfica de puntos vemos que la duración de 120 minutos difiere mucho de las demás. Gráficas de tallo y hojas Una gráfica de tallo y hojas representa datos que separan cada valor en dos partes: el tallo (el dígito ubicado en el extremo izquierdo) y la hoja (el dígito del extremo derecho). La ilustración de la siguiente página muestra una gráfica de tallo y hojas de las mismas duraciones de películas listadas en el conjunto de datos 7 del Apéndice B. Dichas duraciones (en minutos), si se acomodan en orden creciente, son 64, 64, 69, 70, 71, 71, 71, 72, 73, . . . , 120. Es fácil ver cómo el primer valor de 64 se se- paró en su tallo de 6 y su hoja de 4. Cada uno de los valores restantes, lo hace de una manera similar. Note que las hojas se ordenaron en forma creciente y no en el orden en que aparecen en la lista original. 48 CAPÍTULO 2 Descripción, exploración y comparación de datos –0.5 99.5 199.5 299.5 399.5 499.5 F re cu en ci a ac um ul at iv a Niveles de cotinina de fumadores 40 30 20 10 0 37 de los valores � son menores � que 299.5 FIGURA 2-4 Ojiva 49.5 149.5 249.5 349.5 449.5 F re cu en ci a Niveles de cotinina de fumadores 15 10 5 0 FIGURA 2-3 Polígono de frecuencias 60 70 80 90 100 110 120 Duración de la película (minutos) FIGURA 2-5 Gráfica de puntos de la duración de películas para niños Si colocamos la página de lado, veremos una distribución de tales datos. Una gran ventaja de la gráfica de tallo y hojas radica en que nos permite ver la distribu- ción de los datos y, al mismo tiempo, retener toda la información de la lista origi- nal. En caso de ser necesario, reconstruiríamos la lista original de valores. Otra ventaja es que la construcción de una gráfica de tallo y hojas implica una forma fácil y rápida de ordenar datos, y algunos procedimientos estadísticos requieren de un ordenamiento (como el cálculo de una mediana o de los percentiles). Los renglones de datos de una gráfica de tallo y hojas son similares en natura- leza a las barras de un histograma. Uno de los lineamientos para la construcción de histogramas es que se incluyan entre 5 y 20 clases, lo cual se aplica a la grá- fica de tallo y hojas por las mismas razones. Por lo general, obtenemos mejores gráficas de tallo y hojas si redondeamos primero los valores de los datos origina- les. Además, este tipo de gráficas pueden expandirse para incluir más renglones y condensarse para disminuir el número de renglones. En nuestro ejemplo, la gráfica de tallo y hojas puede expandirse subdividiendo los renglones en otros con hojas que incluyan dígitos del 0 al 4, así como otros con dígitos del 5 al 9, tal como se muestra en el siguiente diagrama. 2-3 Visual ización de los datos 49 Gráfica de tallo y hojas Tallo (decenas) Hojas (unidades) 6 449 7 01112334444555555666778899 8 0011122233346899 9 0024 10 11 12 0 dLos valores son 64, 64, 69. d El valor es 120. dPara hojas de 0 a 4 d Para hojas de 5 a 9 Gráfica expandida de tallo y hojas Tallo Hojas 6 44 6 9 7 01112334444 7 555555666778899 8 001112223334 8 6899 9 0024 9 10 10 11 11 12 0 El crecimiento de la estadística El reportero Richard Rothstein escribió en el New York Times que el estudio del álgebra, la tri- gonometría y la geometría en la escuela preparatoria “deja muy poco espacio para el estudio de la estadística y la probabilidad. Sin embargo, los estudiantes ne- cesitan fundamentos sobre el análisis de datos”. El reportero observó que el cálculo tiene un papel prominente en los estudios universitarios, aun cuando “sólo algunos trabajos, principalmen- te en áreas técnicas, realmente lo utilizan”. Rothstein citó un es- tudio realizado por el profesor Clifford Konold, de la Universi- dad de Massachusetts, quien contó el número de desplegados de datos que aparecen en el New York Times. En los ejemplares de 1972, el doctor Konold encon- tró cuatro gráficas o tablas en cada una de las 10 ediciones se- manales (sin incluir las secciones de deportes y negocios), pero en 1982 había ocho, en 1992 fueron 44 y “el próximo año, él (el doctor Konold) podría encon- trar más de 100”. El crecimiento de la estadística como una disci- plina se fomenta, en parte, por el uso creciente de dichos desple- gados de datos en los medios de comunicación. Cuando hay necesidad de reducir el número de renglones, es posible condensar una gráfica de tallo y hojas al combinar los renglones adyacentes, tal como se in- dica en la siguiente ilustración. Note que insertamos un asterisco para separar los dígitos en las hojas asociadas con los números en cada tallo. Cada renglón en la gráfica condensada debe incluir exactamente un asterisco, de modo que la forma de la gráfica no se distorsione. 50 CAPÍTULO 2 Descripción, exploración y comparación de datos Gráfica condensada de tallo y hojas Tallo Hojas 6–7 449*01112334444555555666778899 8–9 0011122233346899*0024 10–11 * 12–13 0* d 64, 64, 69, 70, . . . , 79 d El valor es 120. Gráficas de Pareto La Federal Communications Commission (FCC) verifica la calidad del servicio tele- fónico en Estados Unidos. Algunas de las quejas en contra de las compañías telefónicas incluyen los cambios, es decir, se cambia de compañía al cliente sin su consentimiento, y el cobro forzoso de cargos no autorizados. Datos recientes de la FCC mostraron que las quejas en contra de las compañías telefónicas estadouni- denses eran las siguientes: 4473 por tarifas y servicios, 1007 por marketing, 766 por llamadas internacionales, 614 por cargos de acceso, 534 por servicios de ope- radora, 12,478 por cambios sin consentimiento y 1214 por forzamiento. Si usted fuese reportero de un medio impreso, ¿cómo presentaría dicha información? La simple escritura de oraciones con datos numéricos no llevaría a una verdadera comprensión. Un mejor método consiste en utilizar una gráfica conveniente; en este caso, la gráfica de Pareto se adecuaría muy bien. Una gráfica de Pareto es una gráfica de barras para datos cualitativos, donde las barras se ordenan de acuerdo con las frecuencias. Al igual que en los histogra- mas, las escalas verticales de las gráficas de Pareto representan frecuencias o fre- cuencias relativas. La barra más alta se coloca a la izquierda y las más pequeñas hacia la derecha. Al ordenar las barras por frecuencias, la gráfica enfoca la aten- ción en las categorías más importantes. La figura 2-6 es una gráfica de Pareto que muestra con claridad que el cambio sin consentimiento es, por mucho, el asunto más grave de las quejas de los clientes respecto de las empresas telefónicas. Gráficas circulares Las gráficas circulares también se utilizan para visualizar datos cualitativos. La fi- gura 2-7 es un ejemplo de una gráfica circular, que presenta datos cualitativos como si fueran rebanadas de un pastel. La figura 2-7 representa los mismos datos de la figura 2-6. Para construir una gráfica circular, se separa el círculo en las pro- porciones que se adecuan mejor. La categoría de quejas por cambio sin consenti- miento representan un 59% del total, de manera que la porción que representa el cambio sin consentimiento debe abarcar el 59% del total (con un ángulo central de 0.59 � 360° 5 212°). La gráfica de Pareto (figura 2-6) y la gráfica circular (figura 2-7) presentan los mismos datos en formas diferentes, pero una comparación probablemente de- muestre que la gráfica de Pareto es mejor para resaltar los tamaños relativos delos distintos componentes, lo cual explica por qué muchas compañías, como Boeing Aircraft, a menudo utilizan las gráficas de Pareto. Diagramas de dispersión Un diagrama de dispersión es una gráfica de datos apareados (x, y), con un eje x horizontal y un eje y vertical. Los datos se aparean de tal forma que cada valor de un conjunto de datos corresponde a un valor de un segundo conjunto de datos. Para elaborar un diagrama de dispersión manualmente, construya un eje horizontal para los valores de la primera variable y un eje vertical para los valores de la se- gunda variable, y después grafique los puntos. El patrón de los puntos graficados suele ser útil para determinar si hay alguna relación entre las dos variables. (Este aspecto se estudia a profundidad en el tema de la correlación, en la sección 9-2). Con los datos del peso (en libras) y la circunferencia de la cintura (en cm) de los varones del conjunto de datos 1 del Apéndice B, utilizamos Minitab para generar el diagrama de dispersión que aparece a continuación. Con base en dicha gráfica, parece haber una relación entre el peso y la circunferencia de la cintura, tal como lo muestra el patrón de puntos. 2-3 Visual ización de los datos 51 14000 12000 10000 8000 6000 4000 2000 0 Cam bi o Ta rif as y s er vi cio s Fo rz am ie nt o M ar ke tin g Ll am ad as in te rn ac io na le s Car go s de a cc es o Se rv ici os d e op er ad or a F re cu en ci a FIGURA 2-6 Gráfica de Pareto de quejas en contra de las compañías telefónicas FIGURA 2-7 Gráfica circular de quejas en contra de las compañías telefónicas Cambios sin� consentimiento� (12,478) Tarifas y� servicios� (4473) Forzamiento� (1214) Marketing� (1007) Llamadas internacionales� (766) Cargos de acceso� (614) Servicios de operadora� (534) Minitab P es o ( en lb ) Cintura (en cm)