Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
TRABAJO ESTADISTICA DESCRIPTIVA PRESENTADO POR: ADRIANA ZAPATA ESTRADA ROSALEE HERNANDEZ MIRANDA JHON MARIO BORJA BRAVO ANA SOFIA ALEAN SALGADO PRESENTADO A: JORGE ALBERTO BARON ESTADISTICA DESCRIPTIVA UNIVERSIDAD DE CORDOBA PROGRAMA DE ADMINISTRACION EN SALUD SEDE BERASTEGUI MONTERIA – CORDOBA 2023 INTRODUCCIÓN En la actualidad donde se maneja una gran cantidad de información, que puede ser variada y provenir de diferentes áreas del conocimiento, dado que se disponen de técnicas para la correcta recolección de información relevante, que permite al investigador encontrar patrones y relaciones entre las variables objeto de estudio que le permiten llegar a importantes conclusiones, que pueden resultar de gran relevancia para la humanidad, en tanto se analizan datos y se gestionan para obtener a través de las medidas de tendencia central y variabilidad una correcta interpretación de fenómenos a nuestro alrededor. OBJETIVOS OBJETIVO GENERAL Conjeturar información importante a través de la interpretación y análisis de los datos que por sus características se pueden o no agrupar para un mejor estudio y comprensión de los mismos. OBJETIVOS ESPECIFICOS • Encontrar una tabla de frecuencias que permita aplicar herramientas de la estadística descriptiva en los datos • Hallar las medidas de tendencia central y variabilidad en los datos proporcionados. • Analizar e interpretar la información relevante que se desprende de estos datos. METODOLOGIA El presente trabajo es en parte cuantitativo y cualitativo en cuanto la investigación realizada en su mayoría está conformada por datos que representan la información de 50 mujeres indígenas que vivían cerca de Phoenix, Arizona. Los datos fueron recopilados por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de los Estados Unidos. Para ello, se diseñarán las tablas para resumir los datos y poder aplicar las medidas de tendencia central y de variabilidad que permitan una interpretación acertada de la información contenida en estas, logrando que el investigador pueda hacer un análisis correcto y llegar a conclusiones precisas y pertinentes para el estudio. RESULTADOS A continuación, se presentan los resultados obtenidos después de aplicar las técnicas estadísticas respectivas: • Para variable número de embarazos (nPreg): o Distribución de frecuencia: Tabla de frecuencias: i Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. 0 5 0,10 5 0,10 2. 1 11 0,22 16 0,32 3. 2 7 0,14 23 0,46 4. 3 5 0,10 28 0,56 5. 4 5 0,10 33 0,66 6. 5 5 0,10 38 0,76 7. 6 2 0,04 40 0,80 8. 7 4 0,08 44 0,88 9. 9 3 0,06 47 0,94 10. 10 1 0,02 48 0,96 11. 13 1 0,02 49 0,98 12. 15 1 0,02 50 1,00 50 1,00 Como podemos observar el 76% de los valores se concentran entre 0 y 5, es decir, el 76% de las mujeres encuestadas tenía entre 0 y 5 embarazos. El valor más alto es el 1 (mujeres con un embarazo) con un total de 11 mujeres para un porcentaje del 22%. o Grafica: En la grafica podemos apreciar la distribución de los datos hacia los números mas bajos de embarazos, siendo 1 embarazo el de mayor frecuencia, seguido de 2 embarazos, y un empate entre 0, 3, 4 y 5 embarazos, siendo mas atípico encontrar 10,13 y 15 embarazos. 5 11 7 5 5 5 2 4 3 1 1 1 0 2 4 6 8 10 12 0 1 2 3 4 5 6 7 9 10 13 15 Fr ec u en ci a A b so lu ta Histograma o Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖 ∗ 𝑥𝑖 𝑁 = (0 ∗ 5) + (1 ∗ 11) + (2 ∗ 7) + (3 ∗ 5) + (4 ∗ 5) + (5 ∗ 5) + (6 ∗ 2) + (7 ∗ 4) + (9 ∗ 3) + (10 ∗ 1) + (13 ∗ 1) + (15 ∗ 1) 50 = 190 50 = 3.8 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜𝑠 • La moda 𝑀𝑜 = 1 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜 (𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙: 11) • La mediana, Para n par: 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 3 + 3 2 = 3 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜𝑠 Como podemos ver la media es la más alta en relación a las demás medidas dado que esta influenciada por los valores atípicos del conjunto de datos, la mediana y la moda también difieren entre si dado que los valores que mas se repiten no se encuentran en la mitad de la tabla. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑ 𝑥𝑖 2 − 𝑛�̅�2 𝑛 − 1 = (0 + 1 + 4 + 9 + 16 + 25 + 36 + 49 + 81 + 100 + 169 + 225) − (50) ∗ (3.8)2 50 − 1 = 1294 49 = 11.67 • Desviación estándar: 𝑠 = √𝑠2 = √11.67 = 3.42 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 3.42 3.8 = 0.90 = 90% Como podemos notar la variación de los datos es muy alta, siendo el coeficiente de variación de 90%, la desviación estándar alrededor de la media es de 3.42, por lo que siendo la media de 3.8, significa que la variación encontrada esta entre encontrar mujeres con en su mayoría entre 1 y 8 embarazos, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 1; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 3 + 3 2 = 3 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜𝑠, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 5; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 5 𝑒𝑚𝑏𝑎𝑟𝑎𝑧𝑜𝑠 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 5 − 1 = 4 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 1 − 1.5 ∗ 4 = 0 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 5 + 1.5 ∗ 4 = 11 • Para variable número de concentración plasmática de glucosa en una prueba oral de tolerancia a la glucosa (glu): o Distribución de frecuencia: Tabla de frecuencias: i Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. 71 1 0,02 1 0,02 2. 73 1 0,02 2 0,04 3. 78 1 0,02 3 0,06 4. 81 2 0,04 5 0,10 5. 83 1 0,02 6 0,12 6. 85 1 0,02 7 0,14 7. 88 2 0,04 9 0,18 8. 89 1 0,02 10 0,20 9. 90 1 0,02 11 0,22 10. 92 1 0,02 12 0,24 11. 93 1 0,02 13 0,26 12. 95 2 0,04 15 0,30 13. 97 1 0,02 16 0,32 14. 99 1 0,02 17 0,34 15. 100 2 0,04 19 0,38 16. 101 2 0,04 21 0,42 17. 102 1 0,02 22 0,44 18. 103 3 0,06 25 0,50 19. 105 1 0,02 26 0,52 20. 106 2 0,04 28 0,56 21. 109 2 0,04 30 0,60 22. 111 1 0,02 31 0,62 23. 112 1 0,02 32 0,64 24. 113 1 0,02 33 0,66 25. 118 1 0,02 34 0,68 26. 119 1 0,02 35 0,70 27. 122 2 0,04 37 0,74 28. 123 1 0,02 38 0,76 29. 126 2 0,04 40 0,80 30. 129 1 0,02 41 0,82 31. 136 1 0,02 42 0,84 32. 146 1 0,02 43 0,86 33. 148 1 0,02 44 0,88 34. 150 1 0,02 45 0,90 35. 166 1 0,02 46 0,92 36. 171 1 0,02 47 0,94 37. 180 2 0,04 49 0,98 38. 197 1 0,02 50 1,00 Como podemos notar en el intervalo 18 se alcanza el 50% de los datos por lo que estos presentan una tendencia en los valores centrales, por lo que se espera que la dispersión de los datos sea baja. o Grafica: Como podemos observar en la gráfica la distribución de los datos es muy homogénea, es decir, que la variación es muy baja en el conjunto de datos. Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖 ∗ 𝑥𝑖 𝑁 = (71 ∗ 1) + (73 ∗ 1) + (78 ∗ 1) + (81 ∗ 2) + (83 ∗ 1) + (85 ∗ 1) + (88 ∗ 2) +(89 ∗ 1) + (90 ∗ 1) + (92 ∗ 1) + (93 ∗ 1) + (95 ∗ 2) + (97 ∗ 1) + (99 ∗ 1) +(100 ∗ 2) + (101 ∗ 2) + (102 ∗ 1) + (103 ∗ 3) + (105 ∗ 1) + (106 ∗ 2) + (109 ∗ 2) +(111 ∗ 1) + (112 ∗ 1) + (113 ∗ 1) + (118 ∗ 1) + (119 ∗ 1) + (122 ∗ 2) + (123 ∗ 1) +(126 ∗ 2) + (129 ∗ 1) + (136 ∗ 1) + (146 ∗ 1) + (148 ∗ 1) + (150 ∗ 1) + (166 ∗ 1) +(171∗ 1) + (180 ∗ 2) + (89 ∗ 1) 50 = 5621 50 = 112.42 𝑐𝑜𝑛𝑐𝑒𝑛𝑡𝑟𝑎𝑐𝑖𝑜𝑛 𝑝𝑙𝑎𝑠𝑚𝑎𝑡𝑖𝑐𝑎 𝑑𝑒 𝑔𝑙𝑢𝑐𝑜𝑠𝑎 (𝑐𝑝𝑔) 1 1 1 2 1 1 2 1 1 1 1 2 1 1 2 2 1 3 1 2 2 1 1 1 1 1 2 1 2 1 1 1 1 1 1 1 2 1 0 0,5 1 1,5 2 2,5 3 3,5 7 1 7 3 7 8 8 1 8 3 8 5 8 8 8 9 9 0 9 2 9 3 9 5 9 7 9 9 1 0 0 1 0 1 1 0 2 1 0 3 1 0 5 1 0 6 1 0 9 1 1 1 1 1 2 1 1 3 1 1 8 1 1 9 1 2 2 1 2 3 1 2 6 1 2 9 1 3 6 1 4 6 1 4 8 1 5 0 1 6 6 1 7 1 1 8 0 1 9 7 Fr ec u en ci a A b so lu ta Histograma • La moda 𝑀𝑜 = 103 𝑐𝑝𝑔 • La mediana 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 103 + 105 2 = 104 𝑐𝑝𝑔 Como podemos ver la media es la más alta en relación a las demás medidas dado que está influenciada por los valores atípicos del conjunto de datos, la mediana y la moda también difieren entre si dado que los valores que más se repiten no se encuentran en la mitad de la tabla. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑(𝑥𝑖 − �̅�)2 ∗ 𝑓𝑖 𝑁 − 1 = 41183.18 49 = 840.45 • Desviación estándar: 𝑠 = √𝑠2 = √840.45 = 28.99 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 28.99 112.42 = 0.2579 = 25.79% Como podemos notar la variación de los datos es baja, siendo el coeficiente de variación de 25.79%, la desviación estándar alrededor de la media es de 28.99, por lo que siendo la media de 112.42, significa que la variación encontrada en la concentración plasmática de glucosa es relativamente baja, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 93; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑔𝑝𝑐 𝑑𝑒 93 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 103 + 105 2 = 104 𝑔𝑝𝑐, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 123 𝑔𝑝𝑐 ; 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑔𝑝𝑐 𝑑𝑒 123 𝑜 𝑚𝑒𝑛𝑜𝑟 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 123 − 93 = 30 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 93 − 1.5 ∗ 30 = 48 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 123 + 1.5 ∗ 30 = 168 • Para la variable Presión arterial diastólica. (pb): o Distribución de frecuencia: Tabla de frecuencias: i Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. 30 1 0,02 1 0,02 2. 44 1 0,02 2 0,04 3. 50 4 0,08 6 0,12 4. 56 1 0,02 7 0,14 5. 58 1 0,02 8 0,16 6. 60 1 0,02 9 0,18 7. 62 1 0,02 10 0,20 8. 64 2 0,04 12 0,24 9. 65 1 0,02 13 0,26 10. 66 9 0,18 22 0,44 11. 68 2 0,04 24 0,48 12. 70 3 0,06 27 0,54 13. 72 6 0,12 33 0,66 14. 74 1 0,02 34 0,68 15. 75 1 0,02 35 0,70 16. 76 1 0,02 36 0,72 17. 78 3 0,06 39 0,78 18. 80 3 0,06 42 0,84 19. 84 1 0,02 43 0,86 20. 85 1 0,02 44 0,88 21. 86 1 0,02 45 0,90 22. 88 2 0,04 47 0,94 23. 90 1 0,02 48 0,96 24. 92 1 0,02 49 0,98 25. 110 1 0,02 50 1,00 En la anterior tabla podemos notar como los datos se ubican uniformemente distribuidos, siendo que a mitad de la tabla se encuentran también el 50% de los datos, aunque al final en ítem 21 se alcanza el 90% de los datos. o Grafica: Como podemos observar en la gráfica la distribución de los datos no es muy homogénea, es decir, que la variación es muy alta en algunos datos en el conjunto de datos, ubicándose alrededor de la mediana del conjunto de datos, por lo que puede que no afecten la variación de los datos en conjunto. Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖 ∗ 𝑥𝑖 𝑁 = (30 ∗ 1) + (44 ∗ 1) + (50 ∗ 4) + ⋯ + (88 ∗ 2) + (90 ∗ 1) + (92 ∗ 1) + (110 ∗ 1) 50 = 3497 50 = 69.94 𝑝𝑟𝑒𝑠𝑖𝑜𝑛 𝑎𝑟𝑡𝑒𝑟𝑖𝑎𝑙 𝑑𝑖𝑎𝑡𝑜𝑙𝑖𝑐𝑎 • La moda 𝑀𝑜 = 66; 𝑝𝑟𝑒𝑠𝑖𝑜𝑛 𝑎𝑟𝑡𝑒𝑟𝑖𝑎𝑙 𝑑𝑖𝑠𝑡𝑜𝑙𝑖𝑐𝑎 • La mediana 1 1 4 1 1 1 1 2 1 9 2 3 6 1 1 1 3 3 1 1 1 2 1 1 1 0 1 2 3 4 5 6 7 8 9 10 30 44 50 56 58 60 62 64 65 66 68 70 72 74 75 76 78 80 84 85 86 88 90 92 110 Fr ec u en ci a A b so lu ta Histograma 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 70 + 70 2 = 70 𝑝𝑟𝑒𝑠𝑖𝑜𝑛 𝑎𝑟𝑡𝑒𝑟𝑖𝑎𝑙 𝑑𝑖𝑎𝑠𝑡𝑜𝑙𝑖𝑐𝑎 Como podemos ver la moda es la más baja en relación a las demás medidas dado que está representa el valor más frecuente del conjunto de datos, la mediana y la media no difieren mucho entre si dado que la mayoría de los valores se encuentran en la mitad de la tabla. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑(𝑥𝑖 − �̅�)2 ∗ 𝑓𝑖 𝑁 − 1 = (900 + 1936 + 2500 + 2500 + ⋯ + 8100 + 8464 + 12100) − (50)(69.942) 50 − 1 = 9030.82 49 = 184.30 • Desviación estándar: 𝑠 = √𝑠2 = √184.30 = 13.58 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 13.58 69.94 = 0.1941 = 19.41% Como podemos notar la variación de los datos es relativamente baja, siendo el coeficiente de variación de 19.41%, la desviación estándar alrededor de la media es de 13.58, por lo que siendo la media de 184.30, significa que la variación encontrada en la presión arterial diastólica es relativamente baja, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 65; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑃𝐴𝐷 𝑑𝑒 65 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 70 + 70 2 = 70 𝑃𝐴𝐷, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 78 𝑃𝐴𝐷 ; 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑃𝐴𝐷 𝑑𝑒 78 𝑜 𝑚𝑒𝑛𝑜𝑟 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 78 − 65 = 13 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 65 − 1.5 ∗ 13 = 45.5 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 78 + 1.5 ∗ 13 = 97.5 • Para la variable espesor del pliegue de piel en el tríceps.. (skin): o Distribución de frecuencia: Tabla de frecuencias: i xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. 10 1 0,02 1 0,02 2. 11 2 0,04 3 0,06 3. 13 2 0,04 5 0,10 4. 15 3 0,06 8 0,16 5. 18 2 0,04 10 0,20 6. 19 1 0,02 11 0,22 7. 20 2 0,04 13 0,26 8. 21 1 0,02 14 0,28 9. 22 1 0,02 15 0,30 10. 23 1 0,02 16 0,32 11. 24 1 0,02 17 0,34 12. 25 2 0,04 19 0,38 13. 26 2 0,04 21 0,42 14. 27 3 0,06 24 0,48 15. 28 2 0,04 26 0,52 16. 29 2 0,04 28 0,56 17. 30 2 0,04 30 0,60 18. 31 1 0,02 31 0,62 19. 32 2 0,04 33 0,66 20. 33 2 0,04 35 0,70 21. 35 2 0,04 37 0,74 22. 37 1 0,02 38 0,76 23. 38 1 0,02 39 0,78 24. 39 1 0,02 40 0,80 25. 40 1 0,02 41 0,82 26. 41 2 0,04 43 0,86 27. 42 2 0,04 45 0,90 28. 45 1 0,02 46 0,92 29. 47 2 0,04 48 0,96 30. 51 1 0,02 49 0,98 31. 54 1 0,02 50 1,00 De la anterior grafica podemos notar como el 60% de los datos se encuentran entre los primeros 17 ítems, lo supone una aglomeración de los datos hacia una de las colas de la gráfica. o Grafica: Como podemos observar en la gráfica la distribución de los datos no es muy homogénea, es decir, que la variación en el conjunto de datos es bastante, encontrando dos puntos más altos que pueden desviar los datos de las medidas centrales. Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖 ∗ 𝑥𝑖 𝑁 = (10 ∗ 1) + (11 ∗ 2) + (13 ∗ 2) + ⋯ + (45 ∗1) + (47 ∗ 2) + (51 ∗ 1) + (54 ∗ 1) 50 = 1440 50 = 28.8 𝑑𝑒 𝑒𝑠𝑝𝑒𝑠𝑜𝑟 𝑑𝑒𝑙 𝑝𝑙𝑖𝑒𝑔𝑢𝑒 𝑑𝑒 𝑝𝑖𝑒𝑙 𝑑𝑒𝑙 𝑡𝑟𝑖𝑐𝑒𝑝𝑠 • La moda 𝑀𝑜 = {15,27}; 𝑏𝑖𝑚𝑜𝑑𝑎𝑙 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑒𝑠𝑝𝑒𝑠𝑜𝑟 𝑑𝑒𝑙 𝑝𝑙𝑖𝑒𝑔𝑢𝑒 𝑑𝑒 𝑝𝑖𝑒𝑙 𝑑𝑒𝑙 𝑡𝑟𝑖𝑐𝑒𝑝𝑠 • La mediana 1 2 2 3 2 1 2 1 1 1 1 2 2 3 2 2 2 1 2 2 2 1 1 1 1 2 2 1 2 1 1 0 0,5 1 1,5 2 2,5 3 3,5 10 11 13 15 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 35 37 38 39 40 41 42 45 47 51 54 Fr ec u en ci a A b so lu ta Histograma 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 28 + 28 2 = 28 𝑑𝑒 𝑒𝑠𝑝𝑒𝑠𝑜𝑟 𝑑𝑒𝑙 𝑝𝑙𝑖𝑒𝑔𝑢𝑒 𝑑𝑒 𝑝𝑖𝑒𝑙 𝑑𝑒𝑙 𝑡𝑟𝑖𝑐𝑒𝑝𝑠 Como podemos ver la moda es la más baja en relación a las demás medidas dado que está representa el valor más frecuente del conjunto de datos, la mediana y la media no difieren mucho entre si dado que la mayoría de los valores se encuentran en la mitad de la tabla. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑(𝑥𝑖 − �̅�)2 ∗ 𝑓𝑖 𝑁 − 1 = (100 + 121 + 121 + 169 + ⋯ + 2209 + 2601 + 2916) − (50)(28.82) 50 − 1 = 5982 49 = 122.08 • Desviación estándar: 𝑠 = √𝑠2 = √122.08 = 11.05 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 11.05 28.8 = 0.3837 = 38.37% Como podemos notar la variación de los datos es moderadamente alta, siendo el coeficiente de variación de 38.37%, la desviación estándar alrededor de la media es de 11.05, por lo que siendo la media de 28.8, significa que la variación encontrada en la variable espesor del pliegue de la piel en tríceps es relativamente alta, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 20; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑆𝐾𝐼𝑁 𝑑𝑒 20 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 70 + 70 2 = 28 𝑆𝐾𝐼𝑁, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 37 𝑆𝐾𝐼𝑁 ; 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝑆𝐾𝐼𝑁 𝑑𝑒 37 𝑜 𝑚𝑒𝑛𝑜𝑟 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 37 − 20 = 17 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 20 − 1.5 ∗ 17 = 0 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 37 + 1.5 ∗ 17 = 62.5 • Para la variable índice de masa corporal. (bmi): o Distribución de frecuencia: 𝑹𝒂𝒏𝒈𝒐: 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏 = 𝟒𝟗. 𝟕 − 𝟏𝟗. 𝟒 = 𝟑𝟎. 𝟑 𝒌 = 𝟏 + 𝟑. 𝟑𝟑 𝐥𝐨𝐠(𝒏) = 𝟏 + 𝟑. 𝟑𝟑 𝐥𝐨𝐠(𝟓𝟎) = 𝟔. 𝟔𝟒 ≈ 𝟕 𝑨𝒎𝒑𝒍𝒊𝒕𝒖𝒅 = 𝑹 𝒌 = 𝟑𝟎. 𝟑 𝟕 = 𝟒. 𝟑𝟑 ≈ 𝟒. 𝟒 𝑹𝒂𝒏𝒈𝒐 𝒂𝒎𝒑𝒍𝒊𝒂𝒅𝒐: 𝒌 ∗ 𝑨 = 𝟕 ∗ 𝟒. 𝟒 = 𝟑𝟎. 𝟖 𝒆 = 𝑹𝒂 − 𝑹 = 𝟑𝟎. 𝟖 − 𝟑𝟎. 𝟑 = 𝟎. 𝟓 𝑳𝒊 = 𝒙𝒎𝒊𝒏 − 𝒆 𝟐⁄ = 𝟏𝟗. 𝟒 − 𝟎. 𝟐𝟓 = 𝟏𝟗. 𝟏𝟓 𝑳𝒔 = 𝑳𝒊 + 𝑨 = 𝟏𝟗. 𝟏𝟓 + 𝟒. 𝟒 = 𝟐𝟑. 𝟓𝟓 Tabla de frecuencias: i clases Li Ls marca de clase Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. [ 19,2 - 23,6) 21,35 6 0,12 6 0,12 2. [ 23,6 - 28,0) 25,75 10 0,20 16 0,32 3. [ 28,0 - 32,4) 30,15 12 0,24 28 0,56 4. [ 32,4 - 36,8) 34,55 9 0,18 37 0,74 5. [ 36,8 - 41,2) 38,95 6 0,12 43 0,86 6. [ 41,2 - 45,6) 43,35 4 0,08 47 0,94 7. [ 45,6 - 50,0) 47,75 3 0,06 50 1 La anterior tabla muestra como los valores se encuentran distribuidos en las primeras clases, lo que hace que más de la mitad de los datos se encuentren en los primeros 3 clases. o Grafica: 6 10 12 9 6 4 3 0 2 4 6 8 10 12 14 21,35 25,75 30,15 34,55 38,95 43,35 47,75 Fr ec u en ci a A b so lu ta Histograma Como podemos observar en la gráfica la distribución de los datos no es muy homogénea, es decir, que la variación en el conjunto de datos es bastante, encontrando dos puntos más altos que pueden desviar los datos de las medidas centrales y ubicados en la parte inicial de la gráfica. Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖 ∗ 𝑥𝑖 𝑁 = (21.35 ∗ 6) + (25.75 ∗ 10) + ⋯ + (38.95 ∗ 6) + (43.35 ∗ 4) + (47.75 ∗ 3) 50 = 1608.7 50 = 32.17 𝑑𝑒 𝑖𝑚𝑐 • La moda 𝑀𝑜 = 30.15; 𝑚𝑜𝑑𝑎 𝑝𝑎𝑟𝑎 𝑒𝑙 𝑖𝑚𝑐 • La mediana 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 30.5 + 31 2 = 30.75 𝑑𝑒 𝑖𝑚𝑐 Como podemos ver la moda es la más baja en relación a las demás medidas dado que está representa el valor más frecuente del conjunto de datos, la mediana y la media difieren bastante entre si dado que existen valores atípicos que afectan la centralidad de la misma. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑(𝑥𝑖 − �̅�)2 ∗ 𝑓𝑖 𝑁 − 1 = (376.36 + 384.16 + 501.76 + ⋯ + 2097.64 + 2180.89 + 2470.09) − (50)(32.172) 50 − 1 = 2718.53 49 = 55.48 • Desviación estándar: 𝑠 = √𝑠2 = √55.48 = 7.45 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 7.45 32.17 = 0.2316 = 23.16% Como podemos notar la variación de los datos es moderadamente baja, siendo el coeficiente de variación de 23.16%, la desviación estándar alrededor de la media es de 7.45, por lo que siendo la media de 32.17, significa que la variación encontrada en la variable de índice de masa corporal es relativamente baja, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 25.8; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝐼𝑀𝐶 𝑑𝑒 20 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 30.5 + 31 2 = 30.75 𝐼𝑀𝐶, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 37.1 𝐼𝑀𝐶 ; 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝐼𝑀𝐶 𝑑𝑒 37.1 𝑜 𝑚𝑒𝑛𝑜𝑟 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 37.1 − 25.8 = 11.3 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 25.8 − 1.5 ∗ 11.3 = 0 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 37.1 + 1.5 ∗ 11.3 = 54.05 • Para la variable edad en años. (age): o Distribución de frecuencia: Tabla de frecuencias: i Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1. 21 3 0,06 3 0,06 2. 22 7 0,14 10 0,20 3. 23 2 0,04 12 0,24 4. 24 3 0,06 15 0,30 5. 25 2 0,04 17 0,34 6. 26 4 0,08 21 0,42 7. 27 4 0,08 25 0,50 8. 28 1 0,02 26 0,52 9. 29 1 0,02 27 0,54 10. 30 1 0,02 28 0,56 11. 31 3 0,06 31 0,62 12. 32 1 0,02 32 0,64 13. 33 2 0,04 34 0,68 14. 34 1 0,02 35 0,70 15. 36 1 0,02 36 0,72 16. 38 1 0,02 37 0,74 17. 42 2 0,04 39 0,78 18. 43 1 0,02 40 0,80 19. 45 2 0,04 42 0,84 20. 46 1 0,02 43 0,86 21. 48 1 0,02 44 0,88 22. 50 1 0,02 45 0,90 23. 51 1 0,02 46 0,92 24. 53 1 0,02 47 0,94 25. 54 1 0,02 48 0,96 26. 56 1 0,02 49 0,98 27. 60 1 0,02 50 1,00 Podemos observar en la anterior tabla como los datos en un 50% se agrupan en los primeros 7 intervalos, el 70% en el intervalo 14 y el 80% en el número 18, por lo que presentan una desviación hacia la izquierda o una tendencia hacia edades menores al momento de responder la encuesta. o Grafica: Como podemos observar en la gráfica la distribución de los datos no es muy homogénea, es decir, que la variación de los datos esta inclinada hacia los primeros valores o edades inferiores, encontrando que los puntos más altos de los datos se encuentran más hacia la izquierda. Medidas de tendencia central: • La media aritmética: �̅� = ∑ 𝑓𝑖∗ 𝑥𝑖 𝑁 = (21 ∗ 3) + (22 ∗ 7) + (23 ∗ 2) + ⋯ + (51 ∗ 1) + (53 ∗ 1) + (54 ∗ 1) + (56 ∗ 1) + (60 ∗ 1) 50 = 1618 50 = 32.36 𝑎ñ𝑜𝑠 𝑑𝑒 𝑒𝑑𝑎𝑑 • La moda 𝑀𝑜 = 22; 𝑚𝑜𝑑𝑎 𝑝𝑎𝑟𝑎 𝑙𝑜𝑠 𝑎ñ𝑜𝑠 𝑑𝑒 𝑒𝑑𝑎𝑑 3 7 2 3 2 4 4 1 1 1 3 1 2 1 1 1 2 1 2 1 1 1 1 1 1 1 1 0 1 2 3 4 5 6 7 8 21 22 23 24 25 26 27 28 29 30 31 32 33 34 36 38 42 43 45 46 48 50 51 53 54 56 60 Fr ec u en ci a A b so lu ta Histograma • La mediana 𝑀𝑒 = 𝑥 ( 𝑛 2 ) + 𝑥 ( 𝑛 2 +1) 2 = 𝑥(25) + 𝑥(26) 2 = 27 + 28 2 = 27.5 𝑎ñ𝑜𝑠 𝑑𝑒 𝑒𝑑𝑎𝑑 Como podemos ver la moda es mucha más baja en relación a las demás medidas dado que está representa el valor más frecuente del conjunto de datos, la mediana y la media difieren entre si dado que existen valores que afectan la media y la desplazan de la mediana. o Medidas de variabilidad: • La varianza: 𝑠2 = ∑(𝑥𝑖 − �̅�)2 ∗ 𝑓𝑖 𝑁 − 1 = (441 + 441 + 441 + 484 + ⋯ + 2916 + 3136 + 3600) − (50)(32.362) 50 − 1 = 5923.52 49 = 120.89 • Desviación estándar: 𝑠 = √𝑠2 = √120.89 = 10.99 • Coeficiente de variación: 𝐶𝑉 = 𝑆 �̅� = 10.99 32.36 = 0.3396 = 33.96% Como podemos notar la variación de los datos es moderadamente alta, siendo el coeficiente de variación de 33.96%, la desviación estándar alrededor de la media es de 10.99, por lo que siendo la media de 32.36 significa que la variación encontrada en la variable edad en años es relativamente alta, lo cual se corresponde con la información suministrada. • Cuartiles: 𝑄𝑘 = 𝑘𝑁 4 𝑖 = (1) ∗ (50) 4 = (1) ∗ (50) 4 = 12.5 → 𝑄1 = 𝑋12.5 ≈ 𝑋13 = 24; 𝑒𝑠𝑡𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑒𝑙 25% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝐸𝐷𝐴𝐷 𝑑𝑒 24 𝑎ñ𝑜𝑠 𝑜 𝑚𝑒𝑛𝑜𝑟 𝑖 = 2 ∗ 50 4 = 25 → 𝑄2 = 𝑋25 + 𝑋26 2 = 27 + 28 2 = 27.5 𝑎ñ𝑜𝑠 𝑑𝑒 𝐸𝐷𝐴𝐷, 𝑎𝑙 𝑖𝑔𝑢𝑎𝑙 𝑞𝑢𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎𝑛𝑎 𝑖 = (3) ∗ (50) 4 = 150 4 = 37.5 → 𝑄3 = 𝑋37.5 ≈ 𝑋38 = 42 𝑎ñ𝑜𝑠 𝑑𝑒 𝐸𝐷𝐴𝐷 ; 𝑒𝑙 75% 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑒𝑛𝑐𝑢𝑒𝑠𝑡𝑎𝑑𝑎𝑠 𝑡𝑖𝑒𝑛𝑒 𝑢𝑛𝑎 𝐸𝐷𝐴𝐷 𝑑𝑒 42 𝑎ñ𝑜𝑠 𝑜 𝑚𝑒𝑛𝑜𝑟 • Diagrama de caja y bigotes: 𝑅𝐼𝐶 = 𝑄3 − 𝑄1 = 42 − 24 = 18 𝐶𝐼𝐼 = 𝑄1 − 1.5 ∗ 𝑅𝐼𝐶 = 24 − 1.5 ∗ 18 = 0 𝐶𝐼𝑆 = 𝑄3 + 1.5 ∗ 𝑅𝐼𝐶 = 42 + 1.5 ∗ 18 = 69 Como podemos ver en el diagrama de cuello y bigotes, existen valores que extienden el bigote, lo que desvía la media de la mediana. • Para variable diabéticos según criterios de la OMS. (type): o Distribución de frecuencia: I Xi Frecuencia Absoluta Frecuencia Relativa Frecuencia Absoluta Acum Frecuencia Relativa Acum 1 NO 35 0,70 35 0,70 2 SI 15 0,30 50 1,00 De la anterior tabla podemos notar como el 70% de las mujeres encuestadas no tenía diabetes, mientras el 30% restante según los criterios de la OMS si presentaba esta patología. Grafica: De la anterior graficas podemos notar la gran diferencia entre la cantidad de mujeres sin la patología (diabetes) frente a las que si presentaron esta enfermedad. 35 15 0 5 10 15 20 25 30 35 40 NO SI Histograma CONCLUSIONES Al culminar esta actividad pudimos verificar la importancia del manejo de las herramientas estadísticas para la tabulación y procesamiento de datos, y su relevancia para el análisis e interpretación de los resultados obtenidos en el ámbito de estudio, en este caso estudios clínicos, los cuales deben ser claros y brindar al investigador suficiente información para la toma de decisiones. BIBLIOGRAFIA Vergara, J., Quesada, V., (2007). Estadística Básica con Aplicaciones en MS EXCEL. Universidad de Cartagena. ISBN: 978-84-690-5503-8 Montgomery, D. (2003). Probabilidad y Estadística aplicadas a la Ingeniería. EDITORIAL LIMUSA. RONALD E. WALPOLE, R. (2012). Probabilidad y estadística para ingeniería y ciencias. PEARSON EDUCACION, México.
Compartir