Descarga la aplicación para disfrutar aún más
Vista previa del material en texto
Ajustes de distribuciones de datos con EasyFit. Alejandro Danilo Álvarez Támara Leonardo David Lozano Atencia Jennifer Marrugo Peralta María Camila Rodríguez Suarez Departamento de Ingeniería Agrícola, Universidad de Sucre Estadística aplicada Ing. Justo Rafael Fuentes Cuello 28/11/2023 2 TABLA DE CONTENIDO INTRODUCCIÓN .......................................................................................................................... 3 OBJETIVO ..................................................................................................................................... 3 DESARROLLO .............................................................................................................................. 4 Ajuste de distribuciones para la variable rcompa. ............................................................ 5 Ajuste de distribuciones para la variable rcompc. .......................................................... 12 Ajuste de distribuciones para la variable denscon. ........................................................ 19 CONCLUSIONES ........................................................................................................................ 26 3 INTRODUCCIÓN En este documento, se propone, realizar un análisis estadístico de diferentes variables en contextos ingenieriles, con el objetivo de ajustar distribuciones teóricas a los datos y calcular cuantiles y probabilidades con uno y dos delimitadores, haciendo uso del software EasyFit, el cual permite ajustar y comparar distintos modelos de distribución teórica y calcular cuantiles y probabilidades de manera eficiente. Para cada variable, se realizará un análisis descriptivo, se ajustarán diferentes distribuciones teóricas utilizando EasyFit, se estimarán y compararán los parámetros de los modelos seleccionados, y se realizarán pruebas de bondad de ajuste para verificar la adecuación de los modelos a los datos. Finalmente, se calcularán los cuantiles y las probabilidades con un delimitador y dos delimitadores para cada variable utilizando los modelos ajustados, y se interpretarán los resultados obtenidos para hacer conclusiones sobre el ajuste de los modelos a los datos y la utilidad de los cuantiles y las probabilidades calculadas. OBJETIVO ✓ Aplicar los conceptos de estadística descriptiva y distribuciones teóricas en la resolución de problemas prácticos en contextos ingenieriles. 4 DESARROLLO Antes que nada, se debe informar que las variables a utilizar para los diferentes ajustes de distribuciones de datos, son extraídas de un documento de Excel (DATOS_2023_SEM_2.xlsx), el cuál proporciona una gran cantidad de información, registrada por docentes adscritos a las diferentes facultades de ingeniería de la universidad de Sucre. Con relación a lo anterior, se le ha asignado al Grupo 03 del curso de estadística aplicada a la ingeniera agrícola, las siguientes variables: Variables del dataset Agregados Petreos: 1. rcompa: La resistencia a la compresión del agregado, medida en kilogramos por centímetro cuadrado (kg/(cm^2)), es una propiedad importante para evaluar la capacidad del agregado para soportar cargas compresivas en una mezcla de concreto. Esta variable indica la resistencia máxima que puede soportar el agregado cuando es sometido a fuerzas de compresión. Una resistencia adecuada es esencial para garantizar la durabilidad y la integridad estructural del concreto. 2. rcompc: La resistencia a la compresión del concreto, medida en kilogramos por centímetro cuadrado (kg/(cm^2)), es la capacidad del concreto para resistir fuerzas de compresión. Esta variable representa la fuerza máxima que puede soportar el concreto antes de experimentar fallas bajo carga compresiva. Es un indicador crucial para evaluar la calidad y la capacidad estructural del concreto. 3. denscon: La densidad del concreto, medida en kilogramos por metro cúbico (kg/m^3), representa la masa del concreto por unidad de volumen. La densidad es un parámetro importante para determinar la masa total de una estructura de concreto. Además, afecta propiedades como la resistencia y la durabilidad. Una densidad adecuada es esencial para cumplir con requisitos de diseño y desempeño. Estas variables son fundamentales en el diseño y la evaluación de mezclas de concreto, ya que influyen directamente en la resistencia y en las propiedades físicas del material. 5 Teniendo en cuenta lo anterior, procedemos: Figura 1 Agrupación de datos en EasyFit Ajuste de distribuciones para la variable rcompa. Una vez situados en el software EasyFit, con los datos referentes a la variable en cuestión (rcompa), se procede a realizar el ajuste de distribución, para ello, se debe dar clic en el icono del rayo, situado en la barra de herramientas superior y posterior a ello, cliquear en la casilla correspondiente a la variable, para que así el programa realice el respectivo ajuste de distribución con diferentes modelos teóricos, así: Figura 2 Ajustes de distribución para la variable rcompa. 6 Por defecto, el programa ajusta las distribuciones teóricas por Kolmogorov Smirnov, prueba que se utiliza para verificar si una muestra sigue una distribución de probabilidad específica y en temas estadísticos es la más recomendada debido a su eficiencia, obsérvese en la figura 3, la prueba de bondad de ajuste Figura 3 Bondad de ajuste para la variable rcompa. Si nos fijamos, Frechet (3P), no es rechazada por ninguna de las tres pruebas, es decir, ni por Kolmogorov-Smirnov, Anderson-Darling, ni tampoco por Chi-Cuadrado, lo que quiere decir que Frechet (3P), explica en suficiencia de detalle la resistencia a la compresión del agregado en kg/cm2. Además, el valor de P es igual a 0,99989, es decir, supera a 0,05, lo cual indica que para una confianza 95%, una distribución teórica Frechet (3P), cumple con lo mencionado anteriormente. Nótese también que, de acuerdo a Kolmogorov Smirnov, la distribución que más se ajusta para este caso en el cual se está tratando la variable rcompa, es la denominada Frechet (3p) y que, para este caso en específico, le corresponde a la función de densidad de probabilidad de 7 Frechet, los valores de los parámetros que se aprecian en la figura 2, dichos parámetros son reemplazos en la siguiente ecuación, correspondiente a la función de densidad de probabilidad de Frechet para tres parámetros: 𝑓(𝑥) = 𝛼 𝛽 ( 𝛽 𝑥 − 𝛾 ) 𝛼+1 ⅇ − ( 𝛽 𝑥−𝛾 ) 𝛼 función de densidad de probabilidad de Frechet para tres parámetros Reemplazando los valores de los parámetros tenemos: 𝑓(𝑥) = 1,5990 𝑥 107 1,3259 𝑥 109 ( 1,3259 𝑥 109 𝑥 − (−1,3259 𝑥 109) ) 1,5990 𝑥 107+ 1 ⅇ − ( 1,3259 𝑥 109 𝑥−(−1,3259 𝑥 109) ) 1,5990 𝑥 107 Luego, evaluando cada uno de los valores dispuestos para la variable rcompa, se obtiene la siguiente gráfica: Figura 4 Gráfica de densidad de probabilidad de la variable rcompa (Frechet (3p). Función de densidad de probabilidad Frechet (1,5990E+7; 1,3259E+9; -1,3259E+9) x 800600400200 f( x ) 0,0044 0,004 0,0036 0,0032 0,0028 0,0024 0,002 0,0016 0,0012 8E-4 4E-4 0 8 De igual forma, en el libreto de ayuda del programa se puede encontrar la ecuación de la distribución acumulativa, vista a continuación: 𝐹(𝑥) = ⅇ − ( 𝛽 𝑥−𝛾 ) 𝛼 Esta función matemática, describe la probabilidad acumulativa de que una variable aleatoria X sea menor o igual a un valor dado x. La función de distribución acumulativa tiene varias aplicaciones y beneficios, entre los cuales se incluyen: − Cálculo de Probabilidades: Permite calcular la probabilidad de que una variable aleatoria X sea menor o igual a un valor específicox. − Análisis Estadístico: Facilita el análisis de la distribución de probabilidad de una variable aleatoria y proporciona información sobre la dispersión y la forma de la distribución. • Cálculos de cuantiles Figura 5 Primer cuantil (Q1 = 0,25) 9 Figura 6 Segundo cuantil (Q2 = 0,50) Figura 7 Tercer cuantil (Q3 = 0,75) 10 Figura 8 Cuarto cuantil (Q4 = 0,95) • Cálculos de probabilidades con un delimitador Figura 9 X1 = 250 11 Figura 10 X1 = 300 • Cálculos de probabilidades con dos delimitadores Figura 11 X1 = 300 y X2 = 330 12 Figura 12 X1 = 400 y X2 = 500 Ajuste de distribuciones para la variable rcompc. Ahora, procediendo con el ajuste de distribución para la variable rcompc (la cual hace referencia a resistencia a la compresión del concreto en 𝒌𝒈/𝒄𝒎𝟐), se obtiene usando EasyFit que, por defecto, como sabemos, el programa ajusta las distribuciones teóricas por Kolmogorov Smirnov, debido a su eficiencia, dicha distribución se presenta a continuación: Figura 13 Ajustes de distribución para la variable rcompc. 13 Obsérvese también, la prueba de bondad del ajuste en la figura 14. Figura 14 Bondad de ajuste para la variable rcompc. De lo anterior, obsérvese qué, la estadística de la prueba de Anderson-Darling para la distribución Johnson SB es de 5,1463. El valor crítico para un nivel de significación de α = 0,05 es de 2,5018. Como la estadística de la prueba es mayor que el valor crítico, se rechaza la hipótesis nula de que la distribución Johnson SB es un buen ajuste a los datos. En cambio, la prueba de Kolmogorov-Smirnov para la distribución Johnson SB no rechaza la hipótesis nula de que la distribución es un buen ajuste a los datos. La estadística de la prueba es de 0,103, que es menor que el valor crítico para un nivel de significación de α = 0,05. Esto significa que los datos no están muy alejados de la distribución Johnson SB. La distribución se ajusta bien a la mayoría de los datos, y no hay ninguna discrepancia significativa entre la distribución teórica y los datos reales. Sin embargo, es importante tener en cuenta que la prueba de Kolmogorov-Smirnov es una prueba relativamente sensible a los valores atípicos. Si hay un pequeño número de valores atípicos en los datos, pueden tener un impacto significativo en la estadística de la prueba. 14 Ahora, nótese entonces, de acuerdo a Kolmogorov Smirnov, la distribución que más se ajusta para este caso en el cual se está tratando la variable rcompa, es la denominada Johnson SB y que a la función de densidad de probabilidad de Johnson SB, le corresponden los valores de los parámetros que se aprecian en la figura 13, dichos parámetros son reemplazos en la siguiente ecuación, correspondiente a la función de densidad de probabilidad de Johnson SB: 𝑓(𝑥) = 𝛿 𝜆√2𝜋 𝑧(1−𝑧) ⅇ− 1 2 ( 𝛾+𝛿 ln( 𝑧 1−𝑧 ) ) 2 ; donde 𝒛 = 𝒙− 𝝀 función de densidad de probabilidad de Johnson SB Reemplazando los valores de los parámetros tenemos: 𝑓(𝑥) = 0,95224 264,63√2𝜋 𝑧(1−𝑧) ⅇ− 1 2 (−3,0757+0,95224 ln( 𝑧 1−𝑧 ) ) 2 ; donde 𝑧 = 𝑥−17,163 264,63 Luego, evaluando cada uno de los valores dispuestos para la variable rcompc, se obtiene la siguiente gráfica: Figura 15 Gráfica de densidad de probabilidad de la variable rcompc. (Johnson SB) Función de densidad de probabilidad Johnson SB (-3,0757; 0,95224; 264,63; 17,173) x 280260240220200180160140120 f( x ) 0,064 0,056 0,048 0,04 0,032 0,024 0,016 0,008 0 15 A continuación, también se presenta la ecuación de distribución acumulativa de la Johnson SB: 𝐹(𝑥) = 𝜙 ( 𝛾 + 𝛿 ln ( 𝑧 1 − 𝑧 ) ) Donde, 𝜙 es la integral de Laplace. • Cálculos de cuantiles Figura 16 Primer cuantil (Q1 = 0,2) Figura 17 Segundo cuantil (Q2 = 0,45) 16 Figura 18 Tercer cuantil (Q3 = 0,70) Figura 19 Cuarto cuantil (Q4 = 0,97) 17 • Cálculos de probabilidades con un delimitador Figura 20 X1 = 174 Figura 21 X1 = 220 18 • Cálculos de probabilidades con dos delimitadores Figura 22 X1 = 150 y X2 = 166 Figura 23 X1 = 276 y X2 = 280 19 Ajuste de distribuciones para la variable denscon. En ultima instancia, realizando el ajuste de distribuciones respectivo a la variable denscon (densidad del concreto en 𝑘𝑔/𝑚3), se tiene según Kolmogorov-Smirnov, lo siguiente: Figura 23 Ajustes de distribución para la variable denscon. Obsérvese también, la prueba de bondad del ajuste en la figura 24. Figura 24 Bondad de ajuste para la variable denscon. De lo anterior, obsérvese qué, la estadística de la prueba de Anderson-Darling para la distribución Gen. Extreme Value es de 8,1101. El valor crítico para un nivel de significación de 20 α = 0,05 es de 2,5018. Como la estadística de la prueba es mayor que el valor crítico, se rechaza la hipótesis nula de que la distribución Gen. Extreme Value es un buen ajuste a los datos. En cambio, la prueba de Kolmogorov-Smirnov para la distribución Gen. Extreme Value no rechaza la hipótesis nula de que la distribución es un buen ajuste a los datos. La estadística de la prueba es de 0,07707, que es menor que el valor crítico para un nivel de significación de α = 0,05, además, el valor de P supera a 0,05, lo que indica que para una confianza del 95%, una la distribución Gen. Extreme Value, explica en detalle los valores de densidades del concreto. Esto significa que los datos no están muy alejados de la distribución Gen. Extreme Value. La distribución se ajusta bien a la mayoría de los datos, y no hay ninguna discrepancia significativa entre la distribución teórica y los datos reales. Sin embargo, es importante tener en cuenta que la prueba de Kolmogorov-Smirnov es una prueba relativamente sensible a los valores atípicos. Si hay un pequeño número de valores atípicos en los datos, pueden tener un impacto significativo en la estadística de la prueba. Ahora, nótese entonces, de acuerdo a Kolmogorov Smirnov, la distribución que más se ajusta para este caso en el cual se está tratando la variable rcompa, es la denominada Johnson SB Gen. Extreme Value y que a la función de densidad de probabilidad de Gen. Extreme Value, le corresponden los valores de los parámetros que se aprecian en la figura 23, dichos parámetros son reemplazos en la siguiente ecuación, correspondiente a la función de densidad de probabilidad de Gen. Extreme Value: 𝑓(𝑥) = { 1 𝜎 ⅇ−(1+𝑘 𝑍) − 1 𝑘 (1 + 𝑘 𝑧)−1− 1 𝑘 𝑘 0 1 𝜎 ⅇ−𝑧 − 𝑒 −𝑧 𝑘 = 0 ; donde 𝑧 = 𝑥−𝜇 𝜎 función de densidad de probabilidad de Gen. Extreme Value. 21 Como k en este caso es igual a -0,9449 (figura 23), es decir, 𝑘 0 , se procede a reemplazar los parámetros en la ecuación superior, obteniendo así: 𝑓(𝑥) = 1 54,882 ⅇ−(1+(−0,9449) 𝑍) − 1 −0,9449 (1 + (−0,9449) 𝑧) −1− 1 −0,9449 ; 𝑧 = 𝑥 − 2317,2 54,882 Luego, evaluando cada uno de los valores dispuestos para la variable denscon, se obtiene la siguiente gráfica: Figura 25 Gráfica de densidad de probabilidad de la variable denscon. (Gen. Extreme Value) A continuación, también se presentan las ecuaciones de distribución acumulativa para la distribución Gen. Extreme Value: 𝐹(𝑥) = {ⅇ −(1+𝑘 𝑍) − 1 𝑘 𝑘 0 ⅇ − 𝑒 −𝑧 𝑘 = 0 22 • Cálculos de cuantiles Figura 26 Primer cuantil (Q1 = 0,3) Figura27 Segundo cuantil (Q2 = 0,45) 23 Figura 28 Tercer cuantil (Q3 = 0,70) Figura 29 Cuarto cuantil (Q4 = 0,90) 24 • Cálculos de probabilidades con un delimitador Figura 30 X1 = 2200 Figura 31 X1 = 2370 25 • Cálculos de probabilidades con dos delimitadores Figura 32 X1 = 2300 y X2 = 2400 Figura 33 X1 = 2350 y X2 = 2355 26 CONCLUSIONES • La utilización del software EasyFit indicó aproximaciones metodológicas útiles, para ajustar y comparar distintos modelos de distribución teórica a los datos recopilados. Este enfoque nos permitió modelar la variabilidad y la distribución de las variables en estudio. • La realización de pruebas de bondad de ajuste fue esencial para verificar la validez de los modelos seleccionados en relación con los datos reales. Esto aseguró que las distribuciones teóricas elegidas fueran representativas de la variabilidad observada. • La capacidad de calcular cuantiles y probabilidades con uno y dos delimitadores nos brindó herramientas adicionales para comprender y analizar el comportamiento de las variables. Y destacamos que estos resultados son valiosos para la toma de decisiones en contextos ingenieriles. • Por último, debemos decir que,el equipo, al llevar a cabo este trabajo, ha demostrado una sólida competencia en el análisis estadístico en contextos ingenieriles. Desde realizar un análisis descriptivo detallado hasta seleccionar y ajustar distribuciones teóricas con el software EasyFit, el equipo ha mostrado habilidades excepcionales. La aplicación precisa de pruebas de bondad de ajuste, el cálculo preciso de cuantiles y probabilidades, y la interpretación sólida de los resultados subrayan la profundidad de comprensión y la destreza técnica del equipo. Además, la capacidad para trabajar colaborativamente, comunicar de manera efectiva y derivar conclusiones prácticas resalta la madurez y la amplitud de las habilidades del equipo. En conjunto, el trabajo refleja un enfoque sistemático y profesional en el análisis de datos, proporcionando resultados fiables y relevantes en el contexto ingenieril.
Compartir