Logo Studenta

Ajustes de distribuciones de datos (Grupo 03)

¡Este material tiene más páginas!

Vista previa del material en texto

Ajustes de distribuciones de datos con EasyFit. 
 
 
Alejandro Danilo Álvarez Támara 
Leonardo David Lozano Atencia 
Jennifer Marrugo Peralta 
María Camila Rodríguez Suarez 
 
 
Departamento de Ingeniería Agrícola, Universidad de Sucre 
 
Estadística aplicada 
 
Ing. Justo Rafael Fuentes Cuello 
 
28/11/2023 
 
 
2 
 
 
TABLA DE CONTENIDO 
INTRODUCCIÓN .......................................................................................................................... 3 
OBJETIVO ..................................................................................................................................... 3 
DESARROLLO .............................................................................................................................. 4 
 Ajuste de distribuciones para la variable rcompa. ............................................................ 5 
 Ajuste de distribuciones para la variable rcompc. .......................................................... 12 
 Ajuste de distribuciones para la variable denscon. ........................................................ 19 
CONCLUSIONES ........................................................................................................................ 26 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3 
 
 
INTRODUCCIÓN 
 
En este documento, se propone, realizar un análisis estadístico de diferentes variables en 
contextos ingenieriles, con el objetivo de ajustar distribuciones teóricas a los datos y calcular 
cuantiles y probabilidades con uno y dos delimitadores, haciendo uso del software EasyFit, el 
cual permite ajustar y comparar distintos modelos de distribución teórica y calcular cuantiles y 
probabilidades de manera eficiente. 
Para cada variable, se realizará un análisis descriptivo, se ajustarán diferentes 
distribuciones teóricas utilizando EasyFit, se estimarán y compararán los parámetros de los 
modelos seleccionados, y se realizarán pruebas de bondad de ajuste para verificar la adecuación 
de los modelos a los datos. Finalmente, se calcularán los cuantiles y las probabilidades con un 
delimitador y dos delimitadores para cada variable utilizando los modelos ajustados, y se 
interpretarán los resultados obtenidos para hacer conclusiones sobre el ajuste de los modelos a 
los datos y la utilidad de los cuantiles y las probabilidades calculadas. 
OBJETIVO 
 
✓ Aplicar los conceptos de estadística descriptiva y distribuciones teóricas en la resolución de 
problemas prácticos en contextos ingenieriles. 
 
 
 
 
 
 
 
4 
 
 
DESARROLLO 
Antes que nada, se debe informar que las variables a utilizar para los diferentes ajustes de 
distribuciones de datos, son extraídas de un documento de Excel (DATOS_2023_SEM_2.xlsx), 
el cuál proporciona una gran cantidad de información, registrada por docentes adscritos a las 
diferentes facultades de ingeniería de la universidad de Sucre. Con relación a lo anterior, se le ha 
asignado al Grupo 03 del curso de estadística aplicada a la ingeniera agrícola, las siguientes 
variables: 
Variables del dataset Agregados Petreos: 
1. rcompa: La resistencia a la compresión del agregado, medida en kilogramos por 
centímetro cuadrado (kg/(cm^2)), es una propiedad importante para evaluar la 
capacidad del agregado para soportar cargas compresivas en una mezcla de concreto. 
Esta variable indica la resistencia máxima que puede soportar el agregado cuando es 
sometido a fuerzas de compresión. Una resistencia adecuada es esencial para 
garantizar la durabilidad y la integridad estructural del concreto. 
2. rcompc: La resistencia a la compresión del concreto, medida en kilogramos por centímetro 
cuadrado (kg/(cm^2)), es la capacidad del concreto para resistir fuerzas de compresión. Esta 
variable representa la fuerza máxima que puede soportar el concreto antes de experimentar 
fallas bajo carga compresiva. Es un indicador crucial para evaluar la calidad y la capacidad 
estructural del concreto. 
3. denscon: La densidad del concreto, medida en kilogramos por metro cúbico (kg/m^3), 
representa la masa del concreto por unidad de volumen. La densidad es un parámetro 
importante para determinar la masa total de una estructura de concreto. Además, afecta 
propiedades como la resistencia y la durabilidad. Una densidad adecuada es esencial para 
cumplir con requisitos de diseño y desempeño. 
 
Estas variables son fundamentales en el diseño y la evaluación de mezclas de concreto, 
ya que influyen directamente en la resistencia y en las propiedades físicas del material. 
5 
 
 
Teniendo en cuenta lo anterior, procedemos: 
Figura 1 
Agrupación de datos en EasyFit 
 
 
 Ajuste de distribuciones para la variable rcompa. 
 
Una vez situados en el software EasyFit, con los datos referentes a la variable en cuestión 
(rcompa), se procede a realizar el ajuste de distribución, para ello, se debe dar clic en el icono del 
rayo, situado en la barra de herramientas superior y posterior a ello, cliquear en la casilla 
correspondiente a la variable, para que así el programa realice el respectivo ajuste de distribución 
con diferentes modelos teóricos, así: 
Figura 2 
Ajustes de distribución para la variable rcompa. 
 
 
6 
 
 
Por defecto, el programa ajusta las distribuciones teóricas por Kolmogorov Smirnov, 
prueba que se utiliza para verificar si una muestra sigue una distribución de probabilidad 
específica y en temas estadísticos es la más recomendada debido a su eficiencia, obsérvese en la 
figura 3, la prueba de bondad de ajuste 
Figura 3 
Bondad de ajuste para la variable rcompa. 
 
 
Si nos fijamos, Frechet (3P), no es rechazada por ninguna de las tres pruebas, es decir, ni 
por Kolmogorov-Smirnov, Anderson-Darling, ni tampoco por Chi-Cuadrado, lo que quiere decir 
que Frechet (3P), explica en suficiencia de detalle la resistencia a la compresión del agregado en 
kg/cm2. Además, el valor de P es igual a 0,99989, es decir, supera a 0,05, lo cual indica que para 
una confianza 95%, una distribución teórica Frechet (3P), cumple con lo mencionado 
anteriormente. 
Nótese también que, de acuerdo a Kolmogorov Smirnov, la distribución que más se ajusta 
para este caso en el cual se está tratando la variable rcompa, es la denominada Frechet (3p) y 
que, para este caso en específico, le corresponde a la función de densidad de probabilidad de 
7 
 
 
Frechet, los valores de los parámetros que se aprecian en la figura 2, dichos parámetros son 
reemplazos en la siguiente ecuación, correspondiente a la función de densidad de probabilidad de 
Frechet para tres parámetros: 
𝑓(𝑥) =
𝛼
𝛽
 (
𝛽
𝑥 − 𝛾
)
𝛼+1
ⅇ
− (
𝛽
𝑥−𝛾
)
𝛼
 
función de densidad de probabilidad de Frechet para tres parámetros 
 
Reemplazando los valores de los parámetros tenemos: 
𝑓(𝑥) =
1,5990 𝑥 107
1,3259 𝑥 109
 (
1,3259 𝑥 109
𝑥 − (−1,3259 𝑥 109)
)
1,5990 𝑥 107+ 1
ⅇ
− (
1,3259 𝑥 109
𝑥−(−1,3259 𝑥 109)
)
1,5990 𝑥 107
 
 
Luego, evaluando cada uno de los valores dispuestos para la variable rcompa, se obtiene 
la siguiente gráfica: 
Figura 4 
Gráfica de densidad de probabilidad de la variable rcompa (Frechet (3p). 
 
 
 
Función de densidad de probabilidad
Frechet (1,5990E+7; 1,3259E+9; -1,3259E+9)
x
800600400200
f(
x
)
0,0044
0,004
0,0036
0,0032
0,0028
0,0024
0,002
0,0016
0,0012
8E-4
4E-4
0
8 
 
 
De igual forma, en el libreto de ayuda del programa se puede encontrar la ecuación de la 
distribución acumulativa, vista a continuación: 
𝐹(𝑥) = ⅇ
− (
𝛽
𝑥−𝛾
)
𝛼
 
Esta función matemática, describe la probabilidad acumulativa de que una variable 
aleatoria X sea menor o igual a un valor dado x. 
La función de distribución acumulativa tiene varias aplicaciones y beneficios, entre los 
cuales se incluyen: 
− Cálculo de Probabilidades: Permite calcular la probabilidad de que una variable 
aleatoria X sea menor o igual a un valor específicox. 
− Análisis Estadístico: Facilita el análisis de la distribución de probabilidad de una 
variable aleatoria y proporciona información sobre la dispersión y la forma de la 
distribución. 
• Cálculos de cuantiles 
 
Figura 5 
Primer cuantil (Q1 = 0,25) 
 
 
9 
 
 
 
Figura 6 
Segundo cuantil (Q2 = 0,50) 
 
 
 
 
 
 
Figura 7 
Tercer cuantil (Q3 = 0,75) 
 
 
 
 
 
 
10 
 
 
Figura 8 
Cuarto cuantil (Q4 = 0,95) 
 
 
 
 
• Cálculos de probabilidades con un delimitador 
 
Figura 9 
X1 = 250 
 
 
 
 
 
 
11 
 
 
Figura 10 
X1 = 300 
 
 
 
 
• Cálculos de probabilidades con dos delimitadores 
 
 
Figura 11 
X1 = 300 y X2 = 330 
 
 
 
 
 
12 
 
 
Figura 12 
X1 = 400 y X2 = 500 
 
 
 
 Ajuste de distribuciones para la variable rcompc. 
 
Ahora, procediendo con el ajuste de distribución para la variable rcompc (la cual hace 
referencia a resistencia a la compresión del concreto en 𝒌𝒈/𝒄𝒎𝟐), se obtiene usando EasyFit 
que, por defecto, como sabemos, el programa ajusta las distribuciones teóricas por Kolmogorov 
Smirnov, debido a su eficiencia, dicha distribución se presenta a continuación: 
Figura 13 
Ajustes de distribución para la variable rcompc. 
 
 
13 
 
 
Obsérvese también, la prueba de bondad del ajuste en la figura 14. 
Figura 14 
Bondad de ajuste para la variable rcompc. 
 
 
 
 
 
 
 
 
 
 
 
De lo anterior, obsérvese qué, la estadística de la prueba de Anderson-Darling para la 
distribución Johnson SB es de 5,1463. El valor crítico para un nivel de significación de α = 0,05 
es de 2,5018. Como la estadística de la prueba es mayor que el valor crítico, se rechaza la 
hipótesis nula de que la distribución Johnson SB es un buen ajuste a los datos. En cambio, la 
prueba de Kolmogorov-Smirnov para la distribución Johnson SB no rechaza la hipótesis nula de 
que la distribución es un buen ajuste a los datos. La estadística de la prueba es de 0,103, que es 
menor que el valor crítico para un nivel de significación de α = 0,05. 
Esto significa que los datos no están muy alejados de la distribución Johnson SB. La 
distribución se ajusta bien a la mayoría de los datos, y no hay ninguna discrepancia significativa 
entre la distribución teórica y los datos reales. Sin embargo, es importante tener en cuenta que la 
prueba de Kolmogorov-Smirnov es una prueba relativamente sensible a los valores atípicos. Si 
hay un pequeño número de valores atípicos en los datos, pueden tener un impacto significativo 
en la estadística de la prueba. 
 
14 
 
 
Ahora, nótese entonces, de acuerdo a Kolmogorov Smirnov, la distribución que más se 
ajusta para este caso en el cual se está tratando la variable rcompa, es la denominada Johnson 
SB y que a la función de densidad de probabilidad de Johnson SB, le corresponden los valores 
de los parámetros que se aprecian en la figura 13, dichos parámetros son reemplazos en la 
siguiente ecuación, correspondiente a la función de densidad de probabilidad de Johnson SB: 
𝑓(𝑥) =
𝛿
𝜆√2𝜋 𝑧(1−𝑧)
 ⅇ−
1 
2
 ( 𝛾+𝛿 ln(
𝑧
1−𝑧
) )
2
 
; donde 𝒛 = 
𝒙−
𝝀
 
función de densidad de probabilidad de Johnson SB 
 
 
Reemplazando los valores de los parámetros tenemos: 
 
𝑓(𝑥) =
0,95224
264,63√2𝜋 𝑧(1−𝑧)
 ⅇ−
1 
2
 (−3,0757+0,95224 ln(
𝑧
1−𝑧
) )
2
 ; donde 𝑧 = 
𝑥−17,163
264,63
 
 
Luego, evaluando cada uno de los valores dispuestos para la variable rcompc, se obtiene 
la siguiente gráfica: 
Figura 15 
Gráfica de densidad de probabilidad de la variable rcompc. (Johnson SB)
 
 
 
Función de densidad de probabilidad
Johnson SB (-3,0757; 0,95224; 264,63; 17,173)
x
280260240220200180160140120
f(
x
)
0,064
0,056
0,048
0,04
0,032
0,024
0,016
0,008
0
15 
 
 
A continuación, también se presenta la ecuación de distribución acumulativa de la 
Johnson SB: 
𝐹(𝑥) = 𝜙 ( 𝛾 + 𝛿 ln (
𝑧
1 − 𝑧
) ) 
Donde, 𝜙 es la integral de Laplace. 
 
• Cálculos de cuantiles 
 
Figura 16 
Primer cuantil (Q1 = 0,2) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura 17 
Segundo cuantil (Q2 = 0,45) 
 
 
16 
 
 
Figura 18 
Tercer cuantil (Q3 = 0,70) 
 
 
 
Figura 19 
Cuarto cuantil (Q4 = 0,97) 
 
 
 
 
 
 
 
 
 
 
17 
 
 
• Cálculos de probabilidades con un delimitador 
 
Figura 20 
X1 = 174 
 
 
 
 
Figura 21 
X1 = 220 
 
 
 
 
 
 
 
18 
 
 
• Cálculos de probabilidades con dos delimitadores 
 
Figura 22 
X1 = 150 y X2 = 166 
 
 
 
 
 
Figura 23 
X1 = 276 y X2 = 280 
 
 
 
 
 
19 
 
 
 Ajuste de distribuciones para la variable denscon. 
 
En ultima instancia, realizando el ajuste de distribuciones respectivo a la variable 
denscon (densidad del concreto en 𝑘𝑔/𝑚3), se tiene según Kolmogorov-Smirnov, lo siguiente: 
Figura 23 
Ajustes de distribución para la variable denscon. 
 
 
Obsérvese también, la prueba de bondad del ajuste en la figura 24. 
Figura 24 
Bondad de ajuste para la variable denscon. 
 
 
 
 
 
 
 
 
 
 
 
De lo anterior, obsérvese qué, la estadística de la prueba de Anderson-Darling para la 
distribución Gen. Extreme Value es de 8,1101. El valor crítico para un nivel de significación de 
20 
 
 
α = 0,05 es de 2,5018. Como la estadística de la prueba es mayor que el valor crítico, se rechaza 
la hipótesis nula de que la distribución Gen. Extreme Value es un buen ajuste a los datos. En 
cambio, la prueba de Kolmogorov-Smirnov para la distribución Gen. Extreme Value no rechaza 
la hipótesis nula de que la distribución es un buen ajuste a los datos. La estadística de la prueba 
es de 0,07707, que es menor que el valor crítico para un nivel de significación de α = 0,05, 
además, el valor de P supera a 0,05, lo que indica que para una confianza del 95%, una la 
distribución Gen. Extreme Value, explica en detalle los valores de densidades del concreto. 
Esto significa que los datos no están muy alejados de la distribución Gen. Extreme Value. 
La distribución se ajusta bien a la mayoría de los datos, y no hay ninguna discrepancia 
significativa entre la distribución teórica y los datos reales. Sin embargo, es importante tener en 
cuenta que la prueba de Kolmogorov-Smirnov es una prueba relativamente sensible a los valores 
atípicos. Si hay un pequeño número de valores atípicos en los datos, pueden tener un impacto 
significativo en la estadística de la prueba. 
Ahora, nótese entonces, de acuerdo a Kolmogorov Smirnov, la distribución que más se 
ajusta para este caso en el cual se está tratando la variable rcompa, es la denominada Johnson 
SB Gen. Extreme Value y que a la función de densidad de probabilidad de Gen. Extreme Value, 
le corresponden los valores de los parámetros que se aprecian en la figura 23, dichos parámetros 
son reemplazos en la siguiente ecuación, correspondiente a la función de densidad de 
probabilidad de Gen. Extreme Value: 
𝑓(𝑥) = {
1
𝜎
ⅇ−(1+𝑘 𝑍)
− 
1
𝑘 (1 + 𝑘 𝑧)−1−
1
𝑘 𝑘 0 
1
𝜎
ⅇ−𝑧 − 𝑒
−𝑧
 𝑘 = 0 
; donde 𝑧 = 
𝑥−𝜇
𝜎
 
función de densidad de probabilidad de Gen. Extreme Value. 
 
 
21 
 
 
Como k en este caso es igual a -0,9449 (figura 23), es decir, 𝑘 0 , se procede a 
reemplazar los parámetros en la ecuación superior, obteniendo así: 
 
𝑓(𝑥) =
1
54,882
ⅇ−(1+(−0,9449) 𝑍)
− 
1
−0,9449
 (1 + (−0,9449) 𝑧)
−1−
1
−0,9449 ; 𝑧 = 
𝑥 − 2317,2
54,882
 
 
Luego, evaluando cada uno de los valores dispuestos para la variable denscon, se obtiene 
la siguiente gráfica: 
Figura 25 
Gráfica de densidad de probabilidad de la variable denscon. (Gen. Extreme Value) 
 
 
 
 
A continuación, también se presentan las ecuaciones de distribución acumulativa para la 
distribución Gen. Extreme Value: 
 
𝐹(𝑥) = {ⅇ
−(1+𝑘 𝑍)
− 
1
𝑘 𝑘 0 
ⅇ − 𝑒
−𝑧
 𝑘 = 0 
 
 
 
22 
 
 
• Cálculos de cuantiles 
 
Figura 26 
Primer cuantil (Q1 = 0,3) 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Figura27 
Segundo cuantil (Q2 = 0,45) 
 
 
 
 
 
 
 
 
 
 
23 
 
 
Figura 28 
Tercer cuantil (Q3 = 0,70) 
 
 
 
 
Figura 29 
Cuarto cuantil (Q4 = 0,90) 
 
 
 
 
 
 
 
 
 
 
24 
 
 
• Cálculos de probabilidades con un delimitador 
 
Figura 30 
X1 = 2200 
 
 
 
 
Figura 31 
X1 = 2370 
 
 
 
 
 
 
 
25 
 
 
• Cálculos de probabilidades con dos delimitadores 
 
Figura 32 
X1 = 2300 y X2 = 2400 
 
 
 
 
Figura 33 
X1 = 2350 y X2 = 2355 
 
 
 
 
 
26 
 
 
CONCLUSIONES 
 
• La utilización del software EasyFit indicó aproximaciones metodológicas útiles, para ajustar 
y comparar distintos modelos de distribución teórica a los datos recopilados. Este enfoque 
nos permitió modelar la variabilidad y la distribución de las variables en estudio. 
• La realización de pruebas de bondad de ajuste fue esencial para verificar la validez de los 
modelos seleccionados en relación con los datos reales. Esto aseguró que las distribuciones 
teóricas elegidas fueran representativas de la variabilidad observada. 
• La capacidad de calcular cuantiles y probabilidades con uno y dos delimitadores nos brindó 
herramientas adicionales para comprender y analizar el comportamiento de las variables. Y 
destacamos que estos resultados son valiosos para la toma de decisiones en contextos 
ingenieriles. 
• Por último, debemos decir que,el equipo, al llevar a cabo este trabajo, ha demostrado una 
sólida competencia en el análisis estadístico en contextos ingenieriles. Desde realizar un 
análisis descriptivo detallado hasta seleccionar y ajustar distribuciones teóricas con el 
software EasyFit, el equipo ha mostrado habilidades excepcionales. La aplicación precisa de 
pruebas de bondad de ajuste, el cálculo preciso de cuantiles y probabilidades, y la 
interpretación sólida de los resultados subrayan la profundidad de comprensión y la destreza 
técnica del equipo. Además, la capacidad para trabajar colaborativamente, comunicar de 
manera efectiva y derivar conclusiones prácticas resalta la madurez y la amplitud de las 
habilidades del equipo. En conjunto, el trabajo refleja un enfoque sistemático y profesional 
en el análisis de datos, proporcionando resultados fiables y relevantes en el contexto 
ingenieril.

Continuar navegando